JP2005049436A - 音声認識方法、装置及びプログラム - Google Patents

音声認識方法、装置及びプログラム Download PDF

Info

Publication number
JP2005049436A
JP2005049436A JP2003203660A JP2003203660A JP2005049436A JP 2005049436 A JP2005049436 A JP 2005049436A JP 2003203660 A JP2003203660 A JP 2003203660A JP 2003203660 A JP2003203660 A JP 2003203660A JP 2005049436 A JP2005049436 A JP 2005049436A
Authority
JP
Japan
Prior art keywords
signal
audio
recognition
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003203660A
Other languages
English (en)
Other versions
JP4000095B2 (ja
Inventor
Koichi Yamamoto
幸一 山本
Yasuyuki Masai
康之 正井
Masato Yajima
真人 矢島
Kohei Momozaki
浩平 桃崎
Kazuhiko Abe
一彦 阿部
Munehiko Sasajima
宗彦 笹島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003203660A priority Critical patent/JP4000095B2/ja
Priority to US10/888,988 priority patent/US20050027522A1/en
Publication of JP2005049436A publication Critical patent/JP2005049436A/ja
Application granted granted Critical
Publication of JP4000095B2 publication Critical patent/JP4000095B2/ja
Priority to US11/951,374 priority patent/US20080091422A1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Television Receiver Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】入力されるオーディオ信号中の所望の音声信号に対して、非音声信号や他の音声信号の影響を最小限に抑えた高精度の音声認識を行う。
【解決手段】オーディオ信号入力部11により音声信号と非音声信号を含むオーディオ信号12を入力してオーディオ信号12の音声種別を判別部14により判別し、音声信号抽出部16によって音声種別の判別結果15に従った信号処理を行うことによりオーディオ信号12から音声信号17を抽出し、抽出した音声信号17を音声認識部18に渡して音声認識を行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声信号と非音声信号を含むオーディオ信号に適用される音声認識の方法と装置及びプログラムに関する。
【0002】
【従来の技術】
テレビジョン放送媒体、通信媒体または記憶媒体から入力される音声信号を含むオーディオ信号に対して音声認識を行う場合、入力されるオーディオ信号が単一チャネルの信号であれば、そのオーディオ信号がそのまま認識エンジンに渡される。一方、入力されるオーディオ信号が例えば主音声と副音声を含む二カ国語放送信号であれば主音声信号、ステレオ放送信号であれば左右いずれかのチャネルの信号が認識エンジンに渡される。
【0003】
このように入力されるオーディオ信号をそのまま音声認識にかけると、オーディオ信号に音楽・雑音などの非音声信号や認識辞書とは異なる言語の音声信号が含まれていた場合、認識精度が大きく劣化してしまう。
【0004】
一方、非特許文献1にはチャネル間の位相差を利用して目的音の音声信号を抽出する記述である適応マイクロホンアレイーが開示されている。適応マイクロホンアレーを用いると、所望の音声信号のみを認識エンジンに渡すことができ、上述した問題は解決される。
【0005】
【非特許文献1】
永田仁史、安部正人 著「話者追尾2チャネルマイクロホンアレーに関する検討」、電子情報通信学会論文誌 A Vol. J82−A, No.6, pp.860−866, 1999年6月
【0006】
【発明が解決しようとする課題】
従来の音声認識技術では、入力されるオーディオ信号をそのまま音声認識にかけるため、オーディオ信号に音楽・雑音などの非音声信号や認識辞書とは異なる言語の音声信号が含まれていた場合、認識精度が大きく劣化してしまうという問題がある。
【0007】
一方、適応マイクロホンアレーを用いると、原理的には雑音などを含まない音声信号のみを音声認識エンジンに渡すことができる。しかし、この方法ではマイクロホンによる集音と信号処理により不要な成分を除去して所望の音声信号を抽出するため、例えば放送媒体、通信媒体または記憶媒体から入力されるオーディオ信号のように、既に音声信号と非音声信号が混在しているオーディオ信号から音声信号のみを抽出することは難しい。
【0008】
本発明は、入力されるオーディオ信号中の所望の音声信号に対して非音声信号や他の音声信号の影響を最小限に抑えて高精度に音声認識を行うことができる音声認識方法、装置及びプログラムを提供することを目的とする。
【0009】
【課題を解決するための手段】
上記の課題を解決するため、本発明の一つの態様では音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号を入力し、オーディオ信号の音声種別を判別する。入力されるオーディオ信号に対して音声種別の判別結果に従った信号処理を行うことより、オーディオ信号から音声信号を抽出し、抽出した音声信号に対して音声認識を行う。
【0010】
本発明の他の態様によると、音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号を入力し、該オーディオ信号の音声種別を判別すると共に、各チャネルのオーディオ信号に対して個別に音声認識を行って複数の認識結果を生成した後、各々の認識結果を比較し、一致する区間の認識結果を削除することにより最終認識結果を得る。
【0011】
このような音声認識処理によって、入力されるオーディオ信号に含まれる非音声信号や所望以外の音声信号の影響を抑えて、所望の音声信号のみに対する精度の高い認識結果を得ることができる。
【0012】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
(第1の実施形態)
図1に、本発明の第1の実施の形態に係る音声認識装置を示す。オーディオ信号入力部11によって、例えばテレビジョン放送媒体、通信媒体または記憶媒体などの媒体から、音声信号と非音声信号を含むオーディオ信号が入力される。音声信号とは人間が発する音声の信号であり、非音声信号とは音楽信号や雑音などの音声信号以外の信号である。
【0013】
オーディオ信号入力部11は、具体的には例えばテレビジョン受信機やラジオ受信機などの受信装置、VTRやDVDプレーヤなどのビデオ再生装置、あるいはパーソナルコンピュータのオーディオ信号処理部である。オーディオ信号入力部11がテレビジョン受信機やラジオ受信機のような受信装置内のオーディオ信号処理部である場合、オーディオ信号処理部11からはオーディオ信号12と後述する制御信号13が出力される。
【0014】
オーディオ信号入力部11からの制御信号13は、音声種別判別部14に入力される。音声種別判別部14では、制御信号13に基づいてオーディオ信号12の音声種別が判別される。ここで音声種別とは、例えばオーディオ信号12がモノラル信号、ステレオ信号、マルチチャネル信号、二カ国語信号または多言語信号のいずれの種別であるかを表す。
【0015】
オーディオ信号入力部11からのオーディオ信号12と音声種別判別部14の判別結果15は、音声信号抽出部16に入力される。音声信号抽出部16では、オーディオ信号12に含まれる楽音信号や雑音などの非音声信号が除去され、音声信号17のみが抽出される。音声信号抽出部16によって抽出された音声信号17に対して音声認識部(認識エンジン)18により音声認識が行われ、認識結果19が出力される。
【0016】
このように本実施形態によると、オーディオ信号12中の音声信号17のみを対象として音声認識を行うことができるため、オーディオ信号12中に含まれる音楽信号や雑音などの非音声信号の影響を受けることなく、精度の高い認識結果を得ることが可能となる。
【0017】
次に、本実施形態に係る音声認識装置についてさらに具体的に説明する。
図2には、テレビジョン受信機の要部の構成を示す。アンテナ20によって受信されるテレビジョン放送信号はチューナ部21に入力され、所望チャネルの信号が受信される。チューナ部21からは、映像搬送波成分と音声搬送波成分が分離されて出力される。映像搬送波成分は映像系回路22に導かれ、映像信号が復調再生される。
【0018】
一方、音声搬送波成分は音声IF増幅/音声FM検波回路23により音声IF周波数に変換され、さらに増幅及びFM検波が行われることにより、音声多重信号が出力される。音声多重信号は音声多重復調回路24によって復調され、主音声チャネル信号及び副音声チャネル信号が生成される。
【0019】
図3には、音声多重信号の周波数スペクトルを示す。周波数の低い側から主音声チャネル信号31、副音声チャネル信号32及び制御チャネル信号33が順次配置されている。ここで、音声多重信号がステレオ信号であれば、主音声チャネル信号31は左(L)チャネル信号と右(R)チャネル信号の和信号L+Rであり、副音声チャネル信号32は差信号L−Rである。音声多重信号が二カ国語信号であれば、主音声チャネル信号31は例えば日本語音声、副音声チャネル信号32は外国語(例えば英語)音声の音声信号である。
【0020】
さらに、音声多重信号はステレオ信号や二カ国語信号以外に、3チャネル以上のいわゆるマルチチャネル信号あるいは多言語信号である場合もある。制御チャネル信号33は、音声多重信号がここで例示した信号のうちのどの種別(音声種別という)かを示す信号であり、通常はAM信号として送信される。
【0021】
図2に説明を戻すと、音声多重復調回路24からは、主音声チャネル信号及び副音声チャネル信号のみでなく、制御チャネル信号33から検出した音声種別を示す制御信号25も出力される。音声多重復調回路24から出力される主音声チャネル信号及び副音声チャネル信号と制御信号25は、マトリクス回路26及び必要に応じて設けられるマルチチャネルデコーダ27に入力される。
【0022】
マトリクス回路26は、音声多重信号の音声種別が二カ国語信号の場合は、制御信号25に従って音声多重信号が二カ国語信号であることを認識し、主音声チャネル信号である例えば日本語音声信号と副音声チャネル信号である外国語音声信号を分離して取り出す。音声多重信号の音声種別がステレオ信号の場合は、マトリクス回路26は制御信号25に従って音声多重信号がステレオ信号であることを認識し、主音声チャネル信号であるL+R信号と副音声チャネル信号であるL−R信号の和(L+R)+(L−R)=2Lと、差(L+R)−(L−R)=2Rを演算することにより、Lチャネル信号とRチャネル信号を分離して出力する。このようにマトリクス回路26からは、二カ国語信号またはステレオ信号である2チャネル信号28が出力される。
【0023】
一方、マルチチャネルデコーダ27では、音声多重信号の音声種別が5.1チャネル信号のようなマルチチャネル信号である場合は、制御信号25から音声多重信号がマルチチャネル信号であることを認識してデコード処理を行い、5.1チャネル信号などの各チャネルの信号を分離して、マルチチャネル信号29として出力する。
【0024】
こうしてマトリクス回路26から出力される2チャネル信号(二カ国語信号またはステレオ信号)28、またはマルチチャネルデコーダ27から出力されるマルチチャネル信号29は、図示しないオーディオ増幅回路を経てスピーカに供給され、音響信号として出力される。
【0025】
図1中に示したオーディオ信号入力部11は、例えば図2における音声IF増幅/音声FM検波回路23、音声多重復調回路24、マトリクス回路26及びマルチチャネルデコーダ27の部分に相当する。この場合、マトリクス回路26からの2チャネル信号28またはマルチチャネルデコーダ27からのマルチチャネル信号29がオーディオ信号入力部11からのオーディオ信号12であり、音声多重復調回路24から出力される制御信号25がオーディオ信号入力部11から出力される制御信号13に相当する。
【0026】
図1における音声種別判別部14では、オーディオ信号入力部11からの制御信号13に従って、オーディオ信号12がモノラル信号、ステレオ信号、マルチチャネル信号、二カ国語信号、多言語信号のいずれかであるかを判別する。オーディオ信号12がWAVEファイルである場合は、オーディオ信号入力部11から制御信号13としてWAVEファイルのヘッダ情報を取り出し、これを音声種別判別部14で読み取ることによって、音声種別すなわちチャネル数等を判別することができる。
【0027】
音声信号抽出部16では、音声種別判別部14においてオーディ信号12がステレオ信号であると判別された場合、Lチャネル信号及びRチャネル信号の情報を利用してオーディオ信号12から音声信号17を抽出し、音声認識部18に渡す。音声抽出部16において利用するLチャネル信号及びRチャネル信号の情報として、例えば位相情報が挙げられる。すなわち、ステレオ信号においては一般的に、音声信号の成分についてはLチャネルとRチャネル間での位相差はほとんど無いのに対して、音楽信号や雑音信号等の非音声信号の成分はLチャネルとRチャネル間での位相差が大きいため、位相差を利用して音声信号のみを抽出することができる。
【0028】
チャネル間の位相差を利用する音声抽出技術は、例えば先に挙げた非特許文献1に記載されている。非特許文献1によると、二つのマイクロホンを目的音の到来方向に向けて配置した場合、目的音は各マイクロホンに同時に到達し、各マイクロホンから同位相の信号として出力されるため、各マイクロホンからの出力の差をとることにより目的音の成分が除去され、目的音と異なる方向から到来する妨害音の成分だけが残る。このため、二つのマイクロホンからの出力の和から差を差し引くことによって妨害音の成分は除去され、目的音の成分のみを抽出できる。
【0029】
このような非特許文献1に記載の原理を利用して、音声信号抽出部16では例えばLチャネル信号とRチャネル信号との差をとることで、両チャネル間で位相差のほとんどない音声信号を除去して、位相差の大きな非音声信号のみを抽出した後、Lチャネル信号及びRチャネル信号あるいはから非音声信号を差し引くことにより、音声信号17のみを抽出することができる。
【0030】
音声信号抽出部16では、さらにバンドパスフィルタ、ローパスフィルタあるいはハイパスフィルタを用いて入力のオーディオ信号12に対して帯域制限を行うことによって、音声信号を強調して抽出することも可能である。
【0031】
音声種別判別部14によりオーディオ信号12が5.1チャネル信号などのマルチチャネル信号であると判別された場合も、同様に各チャネルの位相差やスペクトルの帯域制限等を利用することで、音声信号17を抽出して音声認識部18に渡すことが可能である。
【0032】
音声種別判別部14によりオーディオ信号12が二カ国語信号であると判別された場合、主音声チャネル信号と副音声チャネル信号には日本語と英語というように異なる言語の音声信号が入っている。ここで、もし主音声チャネル信号及び副音声チャネル信号に共通の信号が存在しているとすれば、その共通の信号は音楽信号や雑音信号等の非音声信号、もしくは同一言語区間の信号である。
【0033】
従って、音声信号抽出部16では主音声チャネル信号及び副音声チャネル信号に共通の信号を主音声チャネル信号又は副音声チャネル信号から差し引くことによって、音声認識に不要な非音声成分や、認識辞書とは異なる言語区間の信号を除去し、主音声チャネル信号または副音声チャネル信号から音声信号17のみを抽出することができる。音声種別判別部14によりオーディオ信号12が3カ国以上の多言語信号であると判別された場合も同様である。
【0034】
このように本実施形態によると、音声信号抽出部16において音声種別判別部14の判別結果15に従ってオーディオ信号12から音声認識に不必要な非音声信号を取り除くことができる。従って、音声信号抽出部16から非音声信号を除去された後の音声信号17のみを音声認識部18に渡すことにより、認識精度が飛躍的に向上する。
【0035】
次に、本実施形態に係る音声認識処理をソフトウェアにより実行する場合の処理手順を図4に示すフローチャートにより説明する。
オーディオ信号を入力すると(ステップS41)、まず音声種別を判別する(ステップS42)。次に、音声種別の判別結果に従って複数チャネルのオーディオ信号から、前述のように例えば各チャネルの信号の位相情報、各チャネルに共通の信号成分などを利用して非音声信号を除去し、音声信号のみを抽出する(ステップS43)。最後に、抽出された音声信号を認識エンジンにかけて音声認識を行う(ステップS44)。
【0036】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。図5には、第2の実施形態に係る音声認識装置の構成を示す。図5において図1と同一部分に同一符号を付して第1の実施形態との相違点を説明すると、本実施形態ではオーディオ信号入力部11により入力されるオーディオ信号は音声認識部18に直接入力される。オーディオ信号入力部12により入力されたオーディオ信号は、音声種別判別部14にも入力され、音声種別が判別される。ここで、音声種別が例えば二カ国語信号であると判別されると、入力されたオーディオ信号である主音声チャネル信号12A及び副音声チャネル信号12Bに対して、音声認識部18により個別に音声認識が行われる。
【0037】
すなわち、音声認識部18においては主音声チャネル信号12A及び副音声チャネル信号12Bの認識に、音響及び言語辞書としてそれぞれ同一の辞書を使用しており、音声認識部18からは主音声チャネル信号12A及び副音声チャネル信号12Bに対する認識結果19A及び19Bが取り出される。認識結果19A及び19Bは、認識結果比較部51に入力される。認識結果比較部51では、認識結果19A及び19Bに対して以下のような比較処理が行われ、最終的な認識結果52が出力される。
【0038】
通常、テレビジョンの音声多重放送などで提供される二カ国語信号では、日本語と英語というように主音声チャネル信号12Aと副音声チャネル信号12Bとで異なった言語が用いられている。従って、主音声チャネル信号12A及び副音声チャネル信号12Bに対するそれぞれの認識結果19A及び19Bが一致する区間は、同一言語区間もしくは音楽信号または雑音信号などの非音声区間といった同一信号区間であると考えることができる。
【0039】
認識結果比較部51では、音声認識部18から出力される、主音声チャネル信号12A及び副音声チャネル信号12Bに対する認識結果19A及び19Bを比較することによって、同一言語区間または非音声区間などの同一信号区間の判別を行う。認識結果19Aまたは19Bから、同一信号区間の部分認識結果を削除すれば、所望言語の音声信号以外の認識結果を排除し、所望言語の音声信号に対する正しい最終認識結果52を得ることができる。
【0040】
例えば、主音声チャネル信号12Aが日本語の音声信号、副音声チャネル信号12Bが英語の音声信号である場合、音声認識部18が認識辞書として日本語辞書を使用していれば、音声認識部18から出される認識結果19A及び19Bが一致する区間では、主音声チャネル信号12A及び副音声チャネル信号12Bが共に英語の音声信号か、もしくは音楽信号、雑音信号などの非音声信号であると考えることができる。従って、主音声チャネル信号12Aに対する認識結果19Aから、副音声チャネル信号12Bに対する認識結果19Bと一致する区間の部分認識結果を削除することによって、より正確な最終認識結果52を提供することができる。
【0041】
同様に、音声種別判別部14においてオーディオ信号入力部11により入力されたオーディオ信号が多言語信号であると判別された場合も、各言語の音声信号に対する認識結果が一致する区間は、同一言語信号や非音声信号などの同一信号区間であると言える。従って、所望言語のチャネル信号に対する認識結果から同一信号区間の部分認識結果を削除することにより、所望言語の音声信号に対する最終認識結果52を正しく得ることが可能である。
【0042】
次に、本実施形態に係る音声認識処理をソフトウェアにより実行する場合の処理手順を図6に示すフローチャートにより説明する。
オーディオ信号が入力すると(ステップS61)、音声種別の判別(ステップS62)と各チャネルの音声信号に対する音声認識(ステップS63)を行う。次に、ステップS53で生成された複数の認識結果を比較し、音声種別の判別結果が例えば二カ国語信号または多言語信号の場合、前述のように各認識結果から同一信号区間の部分認識結果を差し引くことにより、所望言語の音声信号のみに対する最終認識結果を出力する(ステップS64)。
【0043】
上述した各実施形態では、主として入力されるオーディオ信号がテレビジョンなどの放送信号に含まれる音声多重信号であって、音声多重信号によってステレオ信号、二カ国語信号、多言語信号またはマルチチャネル信号などの複数の音声チャネル信号が提供される例について述べたが、これら複数の音声チャネル信号が独立したチャネルによって提供される場合についても同様に実施ができる。
【0044】
また、上述した各実施形態の音声認識処理の一部または全部をソフトウェアにより実行することも可能である。従って、本発明によると以下のようなコンピュータプログラムを提供することができる。
【0045】
(1)音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、前記オーディオ信号に対して前記音声種別の判別結果に従った処理を行うことより、前記オーディオ信号から前記音声信号を抽出する処理と、抽出された音声信号を認識する処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。
【0046】
(2)音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、前記複数チャネルのオーディオ信号に対して個別に音声認識を行って複数の認識結果を得る処理と、前記複数の認識結果を比較し、一致する区間の認識結果を削除することにより最終認識結果を得る処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。
【0047】
その他、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0048】
【発明の効果】
以上述べたように、本発明によれば入力されるオーディオ信号に含まれる非音声信号の影響を受けることなく、音声信号に対して精度の高い認識結果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の構成を示すブロック図
【図2】同実施形態におけるオーディオ信号入力部の具体例を説明するためのブロック図
【図3】テレビジョン放送における音声多重信号の周波数スペクトルを示す図
【図4】同実施形態における音声認識の手順を示すフローチャート
【図5】本発明の第2の実施形態に係る音声認識装置の構成を示すブロック図
【図6】同実施形態における音声認識の手順を示すフローチャート
【符号の説明】
11:オーディオ信号入力部
12:オーディオ信号
12A:主音声チャネル信号
12B:副音声チャネル信号
13:制御信号
14:音声種別判別部
15:判別結果
16:音声信号抽出部
17:音声信号
18:音声認識部
19:認識結果
19A,19B:個別認識結果
51:認識結果比較部
52:最終認識結果

Claims (15)

  1. 音声信号と非音声信号を含むオーディオ信号を入力するステップと、
    前記オーディオ信号の音声種別を判別するステップと、
    前記オーディオ信号に対して前記音声種別の判別結果に従った処理を行うことより、前記オーディオ信号から前記音声信号を抽出するステップと、
    抽出された音声信号を認識するステップとを具備する音声認識方法。
  2. 音声信号と非音声信号を含むオーディオ信号を入力する入力部と、
    前記オーディオ信号の音声種別を判別する判別部と、
    前記オーディオ信号に対して前記音声種別の判別結果に従った信号処理を行うことより、前記オーディオ信号から前記音声信号を抽出する抽出部と、
    前記抽出部により抽出された音声信号を認識する音声認識部とを具備する音声認識装置。
  3. 前記判別部は、前記音声種別がモノラル信号、ステレオ信号、マルチチャネル信号、二カ国語信号及び多言語信号のいずれかであるかを判別する請求項2記載の音声認識装置。
  4. 前記判別部は、前記音声種別が左チャネル信号と右チャネル信号を含むステレオ信号であるか否かを判別し、
    前記抽出部は、前記判別部により前記音声種別がステレオ信号と判別された場合に、前記左チャネル信号及び右チャネル信号の位相差を利用した信号処理により前記音声信号の抽出を行う請求項2記載の音声認識装置。
  5. 前記抽出部は、前記左チャネル信号及び右チャネル信号の差をとって前記非音声信号を抽出し、前記左チャネル信号または右チャネル信号から前記非音声信号を差し引くことにより前記音声信号の抽出を行う請求項4記載の音声認識装置。
  6. 前記判別部は、前記音声種別がマルチチャネル信号であるか否かを判別し、
    前記抽出部は、前記判別部により前記音声種別がマルチチャネル信号と判別された場合に、前記マルチチャネル信号の位相差を利用した信号処理により前記音声信号の抽出を行う請求項2記載の音声認識装置。
  7. 前記判別部は、前記音声種別が主音声チャネル信号と副音声チャネル信号を含む音声多重信号であるか否かを判別し、
    前記抽出部は、前記判別部により前記音声種別が前記音声多重信号と判別された場合に、前記主音声チャネル信号及び副音声チャネル信号に共通の信号を前記主音声チャネル信号または副音声チャネル信号から差し引く信号処理によって前記音声信号の抽出を行う請求項2記載の音声認識装置。
  8. 前記判別部は、前記音声種別が第1言語の第1音声チャネル信号と第2言語の第2音声チャネル信号を含む二カ国語信号であるか否かを判別し、
    前記抽出部は、前記判別部により前記音声種別が前記二カ国語信号と判別された場合に、前記第1音声チャネル信号及び第2音声チャネル信号に共通の信号を前記第1音声チャネル信号または第2音声チャネル信号から差し引く信号処理によって前記音声信号の抽出を行う請求項2記載の音声認識装置。
  9. 複数の音声チャネル信号を含むオーディオ信号を入力するステップと、
    前記オーディオ信号の音声種別を判別するステップと、
    前記複数チャネルの音声信号に対し個別に音声認識を行って複数の認識結果を生成するステップと、
    前記複数の認識結果を比較し、一致する区間の部分認識結果を削除して最終認識結果を得るステップとを具備する音声認識方法。
  10. 複数の音声チャネル信号を含むオーディオ信号を入力する入力部と、
    前記オーディオ信号の音声種別を判別する判別部と、
    前記複数の音声チャネル信号に対し個別に音声認識を行って複数の認識結果を生成する音声認識部と、
    前記複数の認識結果を比較し、一致する区間の部分認識結果を削除して最終認識結果を得る認識結果比較部とを具備する音声認識装置。
  11. 前記判別部は、前記音声種別が第1言語の第1音声チャネル信号と第2言語の第2音声チャネル信号を含む二カ国語信号であるか否かを判別し、
    前記音声認識部は、前記第1音声チャネル信号及び第2音声チャネル信号に対して個別に音声認識を行って第1の認識結果及び第2の認識結果を生成し、
    前記認識結果比較部は、前記第1の認識結果及び第2の認識結果が一致する区間の部分認識結果を前記第1の認識結果及び第2の認識結果の少なくとも一方から削除して前記最終認識結果を得る請求項9記載の音声認識装置。
  12. 前記判別部は、前記音声種別が言語の異なる複数の音声チャネル信号を含む多言語信号であるか否かを判別し、
    前記音声認識部は、前記複数の音声チャネル信号に対して個別に音声認識を行って複数の認識結果を生成し、
    前記認識結果比較部は、前記複数の認識結果が一致する区間の部分認識結果を前記複数の認識結果の少なくとも一つから削除して前記最終認識結果を得る請求項9記載の音声認識装置。
  13. 前記判別部は、前記音声種別が主音声チャネル信号と副音声チャネル信号を含む音声多重信号であるか否かを判別し、
    前記音声認識部は、前記主音声チャネル信号及び副音声チャネル信号に対して個別に音声認識を行って第1の認識結果及び第2の認識結果を生成し、
    前記認識結果比較部は、前記第1の認識結果及び第2の認識結果が一致する区間の部分認識結果を前記第1の認識結果及び第2の認識結果の少なくとも一方から削除して前記最終認識結果を得る請求項9記載の音声認識装置。
  14. 音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、
    前記オーディオ信号に対して前記音声種別の判別結果に従った信号処理を行うことより、前記オーディオ信号から前記音声信号を抽出する処理と、
    抽出された音声信号を認識する処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。
  15. 音声信号と非音声信号をそれぞれ含む複数チャネルのオーディオ信号の音声種別を判別する処理と、
    前記複数チャネルのオーディオ信号に対して個別に音声認識を行って複数の認識結果を得る処理と、
    前記複数の認識結果を比較し、一致する区間の認識結果を削除することにより最終認識結果を得る処理とを含む音声認識処理をコンピュータに行わせるためのプログラム。
JP2003203660A 2003-07-30 2003-07-30 音声認識方法、装置及びプログラム Expired - Fee Related JP4000095B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003203660A JP4000095B2 (ja) 2003-07-30 2003-07-30 音声認識方法、装置及びプログラム
US10/888,988 US20050027522A1 (en) 2003-07-30 2004-07-13 Speech recognition method and apparatus therefor
US11/951,374 US20080091422A1 (en) 2003-07-30 2007-12-06 Speech recognition method and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003203660A JP4000095B2 (ja) 2003-07-30 2003-07-30 音声認識方法、装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2005049436A true JP2005049436A (ja) 2005-02-24
JP4000095B2 JP4000095B2 (ja) 2007-10-31

Family

ID=34100641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003203660A Expired - Fee Related JP4000095B2 (ja) 2003-07-30 2003-07-30 音声認識方法、装置及びプログラム

Country Status (2)

Country Link
US (2) US20050027522A1 (ja)
JP (1) JP4000095B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
US8045418B2 (en) 2006-03-29 2011-10-25 Kabushiki Kaisha Toshiba Position detecting device, autonomous mobile device, method, and computer program product
WO2014115222A1 (en) * 2013-01-23 2014-07-31 Nippon Hoso Kyokai Sound signal description method, sound signal production equipment, and sound signal reproduction equipment

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ585567A (en) * 2004-09-07 2011-12-22 Sensear Pty Ltd Apparatus and Method for Sound Enhancement With Ambient Sound Suppression
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
WO2014143959A2 (en) * 2013-03-15 2014-09-18 Bodhi Technology Ventures Llc Volume control for mobile device using a wireless device
US9854081B2 (en) * 2013-03-15 2017-12-26 Apple Inc. Volume control for mobile device using a wireless device
US10269343B2 (en) * 2014-08-28 2019-04-23 Analog Devices, Inc. Audio processing using an intelligent microphone
US9401158B1 (en) 2015-09-14 2016-07-26 Knowles Electronics, Llc Microphone signal fusion
US9779716B2 (en) 2015-12-30 2017-10-03 Knowles Electronics, Llc Occlusion reduction and active noise reduction based on seal quality
US9830930B2 (en) 2015-12-30 2017-11-28 Knowles Electronics, Llc Voice-enhanced awareness mode
US9812149B2 (en) 2016-01-28 2017-11-07 Knowles Electronics, Llc Methods and systems for providing consistency in noise reduction during speech and non-speech periods
KR20170101629A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 스테레오 오디오 신호 기반의 다국어 오디오 서비스 제공 장치 및 방법
US10176809B1 (en) * 2016-09-29 2019-01-08 Amazon Technologies, Inc. Customized compression and decompression of audio data
CN109841215B (zh) * 2018-12-26 2021-02-02 珠海格力电器股份有限公司 一种语音播报方法、装置、存储介质及语音家电

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3916104A (en) * 1972-08-01 1975-10-28 Nippon Columbia Sound signal changing circuit
US6418424B1 (en) * 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US5953485A (en) * 1992-02-07 1999-09-14 Abecassis; Max Method and system for maintaining audio during video control
EP0607615B1 (en) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JP3477818B2 (ja) * 1994-05-12 2003-12-10 ソニー株式会社 ディジタルオーディオ信号伝送装置
US5767893A (en) * 1995-10-11 1998-06-16 International Business Machines Corporation Method and apparatus for content based downloading of video programs
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
KR100206786B1 (ko) * 1996-06-22 1999-07-01 구자홍 디브이디 재생기의 복수 오디오 처리 장치
US5870708A (en) * 1996-10-10 1999-02-09 Walter S. Stewart Method of and apparatus for scanning for and replacing words on video cassettes
US6275797B1 (en) * 1998-04-17 2001-08-14 Cisco Technology, Inc. Method and apparatus for measuring voice path quality by means of speech recognition
US6161087A (en) * 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
EP1134726A1 (de) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
EP1295482B1 (en) * 2000-06-09 2010-09-01 British Broadcasting Corporation Generation of subtitles or captions for moving pictures
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US7092882B2 (en) * 2000-12-06 2006-08-15 Ncr Corporation Noise suppression in beam-steered microphone array
US7062442B2 (en) * 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
US7376338B2 (en) * 2001-06-11 2008-05-20 Samsung Electronics Co., Ltd. Information storage medium containing multi-language markup document information, apparatus for and method of reproducing the same
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
JP2003084790A (ja) * 2001-09-17 2003-03-19 Matsushita Electric Ind Co Ltd 台詞成分強調装置
JP3812887B2 (ja) * 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data
US6711528B2 (en) * 2002-04-22 2004-03-23 Harris Corporation Blind source separation utilizing a spatial fourth order cumulant matrix pencil
JP2005534992A (ja) * 2002-08-02 2005-11-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音楽コンテンツの再生を改善する方法及び装置
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7302066B2 (en) * 2002-10-03 2007-11-27 Siemens Corporate Research, Inc. Method for eliminating an unwanted signal from a mixture via time-frequency masking
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7225124B2 (en) * 2002-12-10 2007-05-29 International Business Machines Corporation Methods and apparatus for multiple source signal separation
US7149689B2 (en) * 2003-01-30 2006-12-12 Hewlett-Packard Development Company, Lp. Two-engine speech recognition
US20050182504A1 (en) * 2004-02-18 2005-08-18 Bailey James L. Apparatus to produce karaoke accompaniment

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP4608670B2 (ja) * 2004-12-13 2011-01-12 日産自動車株式会社 音声認識装置および音声認識方法
US8045418B2 (en) 2006-03-29 2011-10-25 Kabushiki Kaisha Toshiba Position detecting device, autonomous mobile device, method, and computer program product
WO2014115222A1 (en) * 2013-01-23 2014-07-31 Nippon Hoso Kyokai Sound signal description method, sound signal production equipment, and sound signal reproduction equipment

Also Published As

Publication number Publication date
JP4000095B2 (ja) 2007-10-31
US20080091422A1 (en) 2008-04-17
US20050027522A1 (en) 2005-02-03

Similar Documents

Publication Publication Date Title
US20080091422A1 (en) Speech recognition method and apparatus therefor
US9881635B2 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
CN101842834B (zh) 包括语音信号处理在内的生成多声道信号的设备和方法
AU2009270526B2 (en) Apparatus and method for generating audio output signals using object based metadata
US9282419B2 (en) Audio processing method and audio processing apparatus
US7970144B1 (en) Extracting and modifying a panned source for enhancement and upmix of audio signals
US9473852B2 (en) Pre-processing of a channelized music signal
JPWO2005112002A1 (ja) オーディオ信号符号化装置及びオーディオ信号復号化装置
JP4196162B2 (ja) 自動風音低減回路および自動風音低減方法
CN101341792B (zh) 使用两个输入声道合成三个输出声道的装置与方法
JP3033061B2 (ja) 音声雑音分離装置
CN110996238B (zh) 双耳同步信号处理助听系统及方法
TW201317984A (zh) 信號處理設備,信號處理方法及程式
US6882733B2 (en) Surround headphone output signal generator
US6859238B2 (en) Scaling adjustment to enhance stereo separation
KR20050026098A (ko) 음악 콘텐트의 재생을 향상하기 위한 방법 및 장치
US7760886B2 (en) Apparatus and method for synthesizing three output channels using two input channels
JP2591472Y2 (ja) 音響信号処理装置
KR20090054583A (ko) 휴대용 단말기에서 스테레오 효과를 제공하기 위한 장치 및방법
AU2013200578B2 (en) Apparatus and method for generating audio output signals using object based metadata
JPH05268700A (ja) ステレオ聴覚補助装置
KR0160206B1 (ko) 음성신호 추출장치
RU2384973C1 (ru) Устройство и способ синтезирования трех выходных каналов, используя два входных канала
JP2014206559A (ja) 受信装置及びプログラム
EP3148215A1 (en) A method of modifying audio signal frequency and system for modifying audio signal frequency

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070810

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees