JP2011107603A - 音声認識装置、および音声認識方法、並びにプログラム - Google Patents

音声認識装置、および音声認識方法、並びにプログラム Download PDF

Info

Publication number
JP2011107603A
JP2011107603A JP2009265076A JP2009265076A JP2011107603A JP 2011107603 A JP2011107603 A JP 2011107603A JP 2009265076 A JP2009265076 A JP 2009265076A JP 2009265076 A JP2009265076 A JP 2009265076A JP 2011107603 A JP2011107603 A JP 2011107603A
Authority
JP
Japan
Prior art keywords
speech recognition
channel
sound source
recognition result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2009265076A
Other languages
English (en)
Inventor
Satoshi Asakawa
智 朝川
Atsuo Hiroe
厚夫 廣江
Hiroaki Ogawa
浩明 小川
Hitoshi Honda
等 本田
Tsutomu Sawada
務 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009265076A priority Critical patent/JP2011107603A/ja
Priority to US12/943,450 priority patent/US20110125496A1/en
Priority to CN2010105401429A priority patent/CN102074230B/zh
Publication of JP2011107603A publication Critical patent/JP2011107603A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数音源からの混合信号に対する音源分離と音声認識を実行し、必要とする認識結果を効率的に取得する装置、方法を提供する。
【解決手段】複数音源からの出力を混合した混合信号からなる観測信号に対して、独立成分分析(ICA)を適用した処理により分離信号を生成するとともに、各分離信号に対する音声認識処理を実行する。さらに音声認識結果の評価情報としての付加情報を生成する。付加情報として音声認識結果の認識信頼度や、音声認識結果が音声認識装置において想定したタスクに関連する認識結果であるか否かを示すタスク内発話度を算出する。これらの付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出してスコアの高い認識結果を選択出力する。
【選択図】図3

Description

本発明は、音声認識装置、および音声認識方法、並びにプログラムに関する。さらに、詳細には複数の音声信号の混合信号を独立成分分析(ICA:Independent Component Analysis)を用いて分離し、音声認識を行う音声認識装置、および音声認識方法、並びにプログラムに関する。
複数の音声信号の混合信号を分離する処理として独立成分分析(ICA:Independent Component Analysis)が知られている。独立成分分析(ICA)により得られた分離結果に対して音声認識を適用することにより、目的とする音とそれ以外の音とを分離した上で音声認識処理を行うことで、目的とする音源の音声認識を高精度に行うことが可能となる。
このような独立成分分析(ICA)に基づく音源分離処理と音声認識処理とを組み合わせたシステムは既にいくつか存在しているが、従来型のシステムはICAの結果として得られた複数の音源の各々に対応する複数の出力チャンネルから、目的とするチャンネル(音源)を選択して音声認識の入力とする構成となっている。
まず、本発明の背景技術として、独立成分分析(ICA:Independent Component Analysis)の概要について説明する。
ICAとは、多変量分析の一種であり、信号の統計的な性質を利用して多次元信号を分離する手法のことである。ICA自体の詳細については、例えば非特許文献1[『入門・独立成分分析』(村田昇著、東京電機大学出版局)]などを参照されたい。
以下では、音信号のICA、特に時間周波数領域のICAについて説明する。
図1に示すように、N個の音源から異なる音が鳴っていて、それらをn個のマイクで観測するという状況を考える。音源が発した音(原信号)がマイクに届くまでには、時間遅れや反射などがある。従って、マイクロホンkで観測される信号(観測信号)は式[1.1]のように、原信号と伝達関数(transfer function)との畳み込み演算(convolution)を全音源について総和した式して表わすことができる。この混合を以下では「畳み込み混合」(convolutive mixtures)と呼ぶ。
なお、マイクnの観測信号をx(t)とする。マイク1、マイク2の観測信号はそれぞれx(t),x(t)となる。
全てのマイクについての観測信号を一つの式で表わすと、以下に示す式[1.2]のように表わせる。
Figure 2011107603
ただし、x(t),s(t)はそれぞれx(t),s(t)を要素とする列ベクトルであり、A[l]はa[l] kjを要素とするn×Nの行列である。以降では、n=Nとする。
時間領域の畳み込み混合は、時間周波数領域では瞬時混合で表わされることが知られており、その特徴を利用したのが時間周波数領域のICAである。
時間周波数領域ICA自体については、非特許文献2[『詳解 独立成分分析』の「19.2.4.フーリエ変換法」]や、特許文献1(特開2006−238409号公報 『音声信号分離装置・雑音除去装置および方法』)などを参照されたい。
上記の式[1.2]の両辺を短時間フーリエ変換すると、以下に示す式[2.1]が得られる。
Figure 2011107603
上記式[2.1]において、
ωは周波数ビンの番号、
tはフレームの番号、
である。
ωを固定すると、この式は瞬時混合(時間遅れのない混合)と見なせる。そこで、観測信号を分離するには、分離結果[Y]の算出式[2.5]を用意した上で、分離結果:Y(ω,t)の各成分が最も独立になるように分離行列W(ω)を決める。このような処理によって、混合された音声信号から分離信号を得る。
この独立成分分析(ICA)によって得られた分離信号を音声認識システムに入力することで、各音源に対応する認識結果を高精度に得ることができる。一般的な、独立成分分析(ICA)による音源分離処理と音声認識部を組み合わせたシステム例を図2に示す。
複数のマイクロホン101−1〜Nによって音声が集音され、各マイクロホン101−1〜Nの取得した音声信号に対応する入力波形が音源分離部102に送られる。音源分離部102は、上述した独立成分分析(ICA)により、複数音源の混合音を各音源に由来する個々の音源に分離する処理を行う。なお、チャンネル選択部103において、音源方向に基づいてチャンネル選択を行う場合には、音源分離部において音源方向推定が同時に行われる。
音源分離部102からは、音源対応の個別の音信号を示す分離波形と、音源方向情報が出力され、チャンネル選択部103に入力される。
チャンネル選択部103では、音源分離部102から入力された各音源に対応する分離波形の中から、目的とする音が含まれるチャンネルを選択する。例えばユーザの指定等によって選択される。選択された1つの分離波形が、音声認識部104に出力される。
音声認識部104は、チャンネル選択部103から入力したある1つの音源に対応する音信号を示す分離波形を入力として音声認識を実行し、特定の音源(目的音)の音声認識結果を出力する。
ICAに基づく音源分離処理と音声認識処理とを組み合わせたシステムはこのような処理により、目的とする音源の認識結果を得る構成を持つ。しかし、このようなシステムはICA出力の不確定性と、目的音声を選択するチャンネル選択に関する問題点がある。以下、これらの問題点について説明する。
まず、ICA出力の不確定性と、目的音声を選択するチャンネル選択手法について説明する。
(ICA出力の不確定性について)
ICAでは、元の音源に対応する分離結果の音がそれぞれどのチャンネルに出力されているかは不確定であるため、目的とする音が含まれているチャンネルを何らかの形で選択する必要がある。なお、例えば特許文献2(特開2009−53088号公報)にICA出力の不確定性に関する記述がある。
(目的音声を選択するチャンネル選択手法について)
ICAの出力を後段処理手段へ出力して、何らかの処理を行う場合には元音源に対応する分離結果の音がそれぞれどのチャンネルに出力されているかを判別する必要がある。例えば後段処理手段として音声認識処理を行う場合、認識対象の音声がどのチャンネルに出力されているかを判別する必要がある。
ICAにおいては例えばマイクがN個ある場合Nチャンネル入力となり、Nチャンネルの分離結果を出力する。しかし、音源数は様々な設定となる。音源数が入力チャンネル数より少ない場合、音源に対応した出力チャンネル(音源チャンネル)と、どの音源にも対応しない残響のような音が観測される出力チャンネル(残響チャンネル)とが観測情報として得られることになる。
なお、ICAと音声認識を組み合わせた処理を考えた場合、ICAの出力チャンネルは以下のように分類することができる。
(1)実際の音源に対応している音源チャンネル
(2)音源に対応していない残響チャンネル
さらに、(1)音源チャンネルは以下のように細分類することができる。
(1−1)音声であるチャンネル
(1−1−1)音声認識システムが入力として想定している内容を含む発話チャンネル(タスク内発話)
(1−1−2)音声認識システムが入力として想定していない内容を含む発話チャンネル(タスク外発話)
(1−2)音声以外のチャンネル(例えばシステムへの入力ではない人同士の雑談なども含む)
ICAによる音源分離結果に基づいて音声認識を行うシステムとしては、上記の分類中、
(1−1−1)音声認識システムが入力として想定している内容を含む発話チャンネル(タスク内発話)
上記のチャンネル(タスク内発話)の音声を認識することが重要となる。
このような目的音源に対応するチャンネル選択の手法としては、例えば、以下の方法がある。
(a)パワー(音量)の大きさに基づいて選択する。
これは、各チャンネル出力のパワーの値に基づいて目的の音源チャンネルであるか残響チャンネルであるかを判別し、最大パワーのチャンネルを選択する方法である。
(b)音源方向を推定し最も正面に近いものを選択する。
これは、ICAを行うとともに音源到来方向も同時に推定し、最も正面方向に近い音源が出力されているチャンネルを目的音として選択する方法である。
(c)音声/非音声判別と、過去のデータとの比較により選択する。
これは、例えば各チャンネルの音が、人の音声信号であるか否かを判別し、人の音声信号のチャンネルと判断したチャンネルについて、保持している過去の周波数特徴量との比較を行うことで、特定の人の音声を判別する手法である。なお、この手法については、例えば特許文献3(特開2007−279517号公報)に記載されている。
従来システムにおける問題点のまとめ
例えば、図1に示すICAに基づく音源分離処理と音声認識処理とを組み合わせたシステムにおいては、上述したICA出力の不確定性が存在し、また、いかにしてICAの生成した複数のチャンネルから目的音声を選択するかを決定するかが問題となる。
従来システムにおける問題点を整理して列挙すると以下のようになる。
(A)チャンネル選択後に音声認識を適用することの問題点
(A1)1つのチャンネルのみ選択する場合、
複数の音が鳴っている場合に、目的音以外が選択されてしまう可能性がある。
(A2)複数のチャンネルを選択する場合、
音声認識結果が複数得られるが、その中で再度取捨選択する必要がある。
(B)チャンネル選択の従来手法の問題点
上述の3つの従来手法の問題点を挙げる。
(a)パワーの大きさに基づくチャンネル選択手法の問題点
パワーの大きさのみでは、音声以外の音源を誤って選択する可能性がある。例えば、音源チャンネルと残響チャンネルは区別できるが、音声と非音声とは区別できない。
(b)音源方向を推定し最も正面に近いものを選択する手法の問題点
目的とする音声が必ずしも正面から到来するとは限らない。
(c)音声/非音声判別と、過去のデータとの比較の組み合わせにより選択する手法の問題点
音声/非音声判別では、音声認識システムが想定するタスクの発話内容かどうかまでは判別できない。
音声信号とそれ以外は区別できるが、タスク内発話とタスク外発話とは区別できない。
このように、従来のチャンネル選択手法には様々な問題点がある。
特開2006−238409号公報 特開2009−53088号公報 特開2007−279517号公報
『入門・独立成分分析』(村田昇著、東京電機大学出版局) 『詳解 独立成分分析』の「19.2.4.フーリエ変換法」
本発明は、このような状況に鑑みてなされたものであり、独立成分分析(Independent Component Analysis;ICA)を用いて各音源信号単位の分離処理を行い、さらに目的音の音声認識処理を実行する音声認識装置、および音声認識方法、並びにプログラムを提供することを目的とする。
本発明の第1の側面は、
複数音源の出力の混合信号を各音源に対応する信号に分離して複数チャンネルの分離信号を生成する音源分離部と、
前記音源分離部の生成した複数チャンネルの分離信号を入力して音声認識処理を実行し、各チャンネル対応の音声認識結果を生成するとともに、各チャンネル対応の音声認識結果の評価情報となる付加情報を生成する音声認識部と、
前記音声認識結果と前記付加情報を入力し、前記付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出し、スコアの高い音声認識結果を選択出力するチャンネル選択部を有する音声認識装置にある。
さらに、本発明の音声認識装置の一実施態様において、前記音声認識部は、前記付加情報として音声認識結果の認識信頼度を算出し、前記チャンネル選択部は、前記認識信頼度を適用して各チャンネル対応の音声認識結果のスコアを算出する。
さらに、本発明の音声認識装置の一実施態様において、前記音声認識部は、前記付加情報として、音声認識結果が音声認識装置において想定したタスクに関連する認識結果であるか否かを示すタスク内発話度を算出し、前記チャンネル選択部は、前記タスク内発話度を適用して各チャンネル対応の音声認識結果のスコアを算出する。
さらに、本発明の音声認識装置の一実施態様において、前記チャンネル選択部は、音声認識結果の認識信頼度、または音声認識結果が音声認識装置において想定したタスクに関連する認識結果であるか否かを示すタスク内発話度の少なくともいずれかをスコア算出データとして適用するとともに、音声パワー、または音源方向情報の少なくともいずれかを組み合わせてスコアを算出する。
さらに、本発明の音声認識装置の一実施態様において、前記音声認識部は、前記音源分離部の生成した複数チャンネルの分離信号のチャンネル数に等しい複数の音声認識部によって構成され。前記複数の音声認識部は、前記音源分離部の生成した複数チャンネルの分離信号の各チャンネル対応の分離信号をそれぞれ入力して、音声認識処理を並列に実行する構成である。
さらに、本発明の第2の側面は、
音声認識装置において実行する音声認識方法であり、
音源分離部が、複数音源の出力の混合信号を各音源に対応する信号に分離して複数チャンネルの分離信号を生成する音源分離ステップと、
音声認識部が、前記音源分離部の生成した複数チャンネルの分離信号を入力して音声認識処理を実行し、各チャンネル対応の音声認識結果を生成するとともに、各チャンネル対応の音声認識結果の評価情報となる付加情報を生成する音声認識ステップと、
チャンネル選択部が、前記音声認識結果と前記付加情報を入力し、前記付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出し、スコアの高い音声認識結果を選択出力するチャンネル選択ステップと、
を有する音声認識方法にある。
さらに、本発明の第3の側面は、
音声認識装置において音声認識処理を実行させるプログラムであり、
音源分離部に、複数音源の出力の混合信号を各音源に対応する信号に分離して複数チャンネルの分離信号を生成させる音源分離ステップと、
音声認識部に、前記音源分離部の生成した複数チャンネルの分離信号を入力して音声認識処理を実行させ、各チャンネル対応の音声認識結果を生成するとともに、各チャンネル対応の音声認識結果の評価情報となる付加情報を生成させる音声認識ステップと、
チャンネル選択部に、前記音声認識結果と前記付加情報を入力し、前記付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出させ、スコアの高い音声認識結果を選択出力させるチャンネル選択ステップと、
を実行させるプログラムにある。
なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、複数音源からの出力を混合した混合信号からなる観測信号に対して、独立成分分析(ICA)を適用した処理により分離信号を生成するとともに、各分離信号に対する音声認識処理を実行する。さらに音声認識結果の評価情報としての付加情報を生成する。付加情報として音声認識結果の認識信頼度や、音声認識結果が音声認識装置において想定したタスクに関連する認識結果であるか否かを示すタスク内発話度を算出する。これらの付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出してスコアの高い認識結果を選択出力する。これらの処理により、複数音源からの混合信号に対する音源分離と音声認識が実現され、必要とする認識結果をより確実に取得することができる。
N個の音源から異なる音が鳴っていて、それらをn個のマイクで観測するという状況について説明する図である。 一般的な独立成分分析(ICA)による音源分離処理と音声認識部を組み合わせたシステム例について説明する図である。 本発明の音声認識装置の全体構成と処理の概要について説明する図である。 音源分離部202の詳細構成と処理の具体例について説明する図である。 各チャンネルに対応して設けられた音声認識部203−1〜Nの1つの音声認識部の構成を示す図である。 チャンネル選択部204の詳細構成と処理の具体例について説明する図である。 本発明の音声認識装置の実行する処理の全体の流れを示すフローチャートを示す図である。 図7に示すフローにおけるステップS103の音声認識処理の詳細を示すフローチャートを示す図である。 図7に示すフローにおけるステップS104のチャンネル選択処理の詳細を示すフローチャートを示す図である。
以下、図面を参照しながら本発明の音声認識装置、および音声認識方法、並びにプログラムの詳細について説明する。説明は、以下の項目に従って行う。
1.本発明の音声認識装置の全体構成例と処理の概要について
2.音源分離部の詳細構成と処理の具体例について
3.音声認識部の詳細構成と処理の具体例について
4.チャンネル選択部の詳細構成と処理の具体例について
5.音声認識装置の実行する処理のシーケンスについて
[1.本発明の音声認識装置の全体構成例と処理の概要について]
まず、図3を参照して本発明の音声認識装置の全体構成と処理の概要について説明する。本発明の音声認識装置は、複数音源の出力する音声の混合信号を入力して音源分離を行い、さらに音源分離結果を利用した音声認識処理を行う装置である。
図3に、本発明の一実施例に係る音声認識装置200の構成例を示す。
複数のマイクロホン201−1〜Nによって音声が集音され、各マイクロホン201−1〜Nの取得した音声信号に対応する入力波形が音源分離部202に送られる。音源分離部202は、例えば独立成分分析(ICA:Independent Component Analysis)により、複数音源の混合音を各音源に由来する個々の音源に分離する処理を行う。この分離処理により、例えば各音源に由来する音声の分離波形が生成されて出力される。
音源分離部202は、この音源分離処理に併せて各分離波形に対応する音声の到来する音源方向の推定処理も実行する。
なお、音源分離部202の実行する独立成分分析(ICA)による分離処理によって、入力数(N)に応じたN個の分離波形が生成される。なお、ここでは分離波形の個数(N)をチャンネル数とする。音源分離部202はチャンネル1〜チャンネルNのNチャンネルの分離波形を生成する。ただし、音源数はN個に等しいとは限らない。Nチャンネルの一部のみが特定の音源に対応する音声分離波形を出力し、その他はノイズのみからなるチャンネルとなる場合もある。
音源分離部202の生成した各音源に由来する複数の分離波形の各々は、個別にチャンネル選択部204に出力され、さらに、各分離波形個別に設定された音声認識部203−1〜Nに入力される。
また、音源分離部202の生成した各音源に由来する複数の音源方向情報は、個別にチャンネル選択部204に出力される。
音声認識部203−1〜Nの各々は、音源分離部202から出力される分離波形各々に対して音声認識処理を実行する。音声認識部203−1〜Nの各々は、音声認識結果とともに、付加情報として認識結果の信頼度やタスク内発話か否かの度合い(タスク内発話度)を付加して、チャンネル選択部204に出力する。
なお、タスク内発話度とは、音声認識装置200の想定するタスクの発話であるかどうかの度合いである。具体的には、例えば、音声認識装置200を備えた装置がテレビである場合、テレビに対する操作要求、例えばボリューム(音量)の変更要求や、チャンネルの変更要求などが音声認識結果に含まれる場合は、タスク内発話である可能性が高く、タスク内発話度を高設定とした情報を出力する。なお、この判定処理に際しては、音声認識装置200内のメモリに保持された統計言語モデルが利用される。統計言語モデルは、予め様々な単語について、タスクに関連する単語であるか否かの指標値を設定したデータである。
チャンネル選択部204は、音源分離部202から各音源に対応する分離波形を入力し、さらに、音声認識部203−1〜Nの各々から、
分離波形各々に対応する音声認識結果、
付加情報(認識結果の信頼度やタスク内発話度)、
これらの情報を入力する。
チャンネル選択部204は、これらの入力情報を適用して、目的とする音が含まれるチャンネルの音声認識結果を選択して出力する。
なお、図3に示す各構成部の処理は、図3には示されない制御部の制御の下に実行される。制御部はCPU等によって構成され、図示しない記憶部に格納されたプログラムを実行して、図3に示す各構成部の処理を制御する。
図3に示す各構成部の詳細構成と実行する処理の具体例について、図4以下を参照して説明する。
[2.音源分離部の詳細構成と処理の具体例について]
まず、図4を参照して、音源分離部202の詳細構成と処理の具体例について説明する。
図4に示すように、音源分離部202は、A/D変換部301、短時間フーリエ変換(FT)部302、信号分離部303、逆フーリエ変換(FT)部304、D/A変換部305、および音源方向推定部306を有する。
マイクロホン201−1〜Nからの個々の入力波形はA/D変換部301においてデジタル観測信号に変換され、短時間フーリエ変換(FT)部302に入力される。
短時間フーリエ変換(FT)部302は、デジタル信号に変換された入力信号に対する短時間フーリエ変換(FT)処理を実行し、スペクトログラムに変換して信号分離部303に入力する。なお、この短時間フーリエ変換(FT)処理により得られる各観測信号のスペクトログラムは、先に説明した式[2.1]の信号、すなわち、X(ω,t)である。
信号分離部303は、短時間フーリエ変換(FT)部302の生成した各観測信号のスペクトログラムを入力して、前述した独立成分分析(ICA)を実行して分離結果Yを生成する。この分離結果は、N個のチャンネル数に対応したN個の分離結果となる。この分離結果Yは、逆フーリエ変換(FT)部304に入力される。
逆フーリエ変換(FT)部304は、個々の音源信号に対応するスペクトログラムに対して逆フーリエ変換処理を施して、スペクトログラムを時間領域の信号に変換して、各音源に対応すると推定される音源分離信号を生成する。この分離信号は、チャンネル数分、すなわちN個の信号として生成される。
これらのN個の分離信号は、D/A変換部305に入力され、D/A変換によりアナログ信号としてのN個の分離波形に変換される。このN個の分離波形の各々は、各チャンネル1〜N対応の音声認識部203〜1〜N、およびチャンネル選択部204に出力される。
音源方向推定部306では信号分離部303での推定結果の一部を用いて、各独立な信号の到来方向を推定する。この推定情報もN個のチャンネル数に対応したチャンネル対応のN個の音源方向情報である。音源方向推定部306の生成したこのN個の音源方向情報は、チャンネル選択部204に出力される。
[3.音声認識部の詳細構成と処理の具体例について]
次に、図5を参照して音声認識部203−1〜Nの詳細構成と処理の具体例について説明する。図5は、各チャンネルに対応して設けられた音声認識部203−1〜Nの1つの音声認識部の構成を示す図である。N個の音声認識部203−1〜Nの各々が図5に示す構成を有している。
図5に示すように、音声認識部203は、A/D変換部401、特徴量抽出部402、音声認識処理部403、付加情報算出部407を有している。付加情報算出部は、認識信頼度算出部408、タスク内発話度算出部409を有している。
また、音声認識部203内には、音響モデル404、タスク内統計言語モデル405、タスク外統計言語モデル406が格納され、これらのデータを利用した処理が実行される。
図5に示す音声認識部203の入力は、音源分離部202によって分離されたN個のチャンネル中、1つのチャンネルk(k=1〜N)に対応する1つの分離波形である。音声認識部203−1〜Nの各々が、チャンネルk(k=1〜N)の分離波形を入力して、それぞれが並列に各チャンネルの分離波形に基づく音声認識処理を実行する。
このように、音声認識部203−1〜NではNチャンネルのN個の分離波形に対する処理が並列に行われる。図5を参照して、1つのチャンネル対応の分離波形に対する処理について説明する。
1つのチャンネル対応の分離波形は、まず、A/D変換部401に入力される。
A/D変換部401は、アナログ信号である分離波形をデジタル観測信号に変換する。デジタル観測信号は特徴量抽出部402に入力される。
特徴量抽出部402は、A/D変換部401からデジタル観測信号を入力し、デジタル観測信号から音声認識に用いる特徴量を抽出する。なお、特徴量抽出処理は、既存の音声認識アルゴリズムに従って実行可能である。抽出された特徴量は音声認識処理部403に入力される。
音声認識処理部403は、特徴量抽出部402から入力した特徴量を用いた音声認識処理を実行する。
音声認識処理部403は、音響モデル404の他、タスク内統計言語モデル405を用いた音声認識処理と、タスク外統計言語モデル406を用いた音声認識処理の、異なる言語モデルを適用した複数の認識処理を実行する。
例えば、タスク内統計言語モデル405に登録された単語と、音声認識処理結果として得られる単語とを比較して、一致する単語を選択して認識結果を取得して、さらに一致度に応じたスコアを算出する。
さらに、タスク外統計言語モデル406に登録された単語と、音声認識処理結果として得られる単語とを比較して、一致する単語を選択して認識結果を取得して、さらに一致度に応じたスコアを算出する。
この異なるモデルを用いた複数の認識結果の中から最も認識スコアの高い結果を選択して音声認識結果として出力する。
なお、タスク内統計言語モデル405、タスク外統計言語モデル406としては、異なるモデルを複数用いることが可能である。
音声認識処理部403で生成した音声認識結果は、チャンネル選択部204に出力されるとともに、音声認識部203内の付加情報算出部407に出力される。付加情報算出部407に出力される情報には、上記のスコア情報も含まれる。
付加情報算出部407は、認識信頼度算出部408、およびタスク内発話度算出部409を有する。
認識信頼度算出部408は、音声認識処理部403で生成した音声認識結果の認識信頼度を算出する。音声認識結果の認識信頼度は、例えば認識した単語の系列の妥当性を予めメモリに格納した評価基準データを利用して評価することで行う。具体的には、例えば特開2005−275348に記載の構成を適用して認識信頼度を算出することができる。
タスク内発話度算出部409は、音声認識処理部403で生成した音声認識結果のタスク内発話度を算出する。タスク内発話度とは、前述したように、音声認識装置200の想定するタスクの発話であるかどうかの度合いである。具体的には、例えば、音声認識装置200を備えた装置がテレビである場合、音声認識処理部403で生成した音声認識結果に含まれる単語が、テレビに対する操作要求、例えばボリューム(音量)の変更要求や、チャンネルの変更要求などの単語である場合は、タスク内発話である可能性が高く、タスク内発話度が高くなる。音声認識結果にこのようなタスクと無関係の単語が多く含まれる場合は、タスク内発話度は低く設定される。
具体的な処理としては、上述した音声認識処理部403の処理によって得られるスコアを利用した処理によって、タスク内発話度を算出することができる。
すなわち、音声認識処理結果として得られる単語とタスク内統計言語モデル405の登録単語との一致度に応じた第1のスコアと、
音声認識処理結果として得られる単語とタスク外統計言語モデル406の登録単語との一致度に応じた第2のスコアと、
の比較を実行する。
第1のスコアが第2のスコアより高い場合は、タスク内発話度は高く設定され、第2のスコアが第1のスコアより高い場合は、タスク内発話度は低く設定される。
付加情報算出部407は、認識信頼度算出部408の算出した認識信頼度と、タスク内発話度算出部409の算出したタスク内発話度を、音声認識結果に対応する付加情報としてチャンネル選択部204に出力する。
[4.チャンネル選択部の詳細構成と処理の具体例について]
次に、図6を参照してチャンネル選択部204の詳細構成と処理の具体例について説明する。
図6に示すように、チャンネル選択部204は、チャンネルスコア算出部501〜1〜Nと、選択チャンネル決定部502を有している。
チャンネルスコア算出部501−1〜Nは、各チャンネル1〜Nに対応して設けられている。各チャンネルスコア算出部501−1〜Nの各々は、チャンネル対応情報として、
音声認識部203から音声認識結果と、付加情報(認識信頼度と、タスク内発話度)
音源分離部202から、分離波形と、音源方向情報、
これらの情報を入力する。
チャンネルスコア算出部501−1〜Nは、これらのチャンネル対応情報を利用して各チャンネルの音声認識結果のスコアを算出する。
例えば、
認識信頼度=p
タスク内発話度=q
分離波形のパワー=r
とする。
認識信頼度=pは、信頼度が高いほど、pの値が大きく、
タスク内発話度=qは、タスク内発話の可能性が高いほど、qの値が大きく、
分離波形のパワー=rは、パワー(音量)が大きいほど、rの値を大きく設定する。
この場合、そのチャンネルkのスコアSkを、
Sk=ap+bq+cr
として算出する。
ただしa,b,c,は予め設定した係数(重み係数)である。
さらに、音源方向についても考慮して、音源方向が、装置の正面ほど高くなる評価値として、
音源方向評価値=h
を利用し、
Sk=ap+bq+cr+dh
として算出する構成としてもよい。
ただしa,b,c,dは予め設定した係数(重み係数)である。
これらのチャンネル対応のスコアSk(k=1〜N)が、各チャンネルスコア算出部501−1〜Nにおいて算出され、選択チャンネル決定部502に入力される。
選択チャンネル決定部502は、チャンネルスコア算出部501−1〜Nから入力するNチャンネル各々に対応するスコアS1〜SNを入力して、これらのスコアの比較処理を実行して、高スコアのチャンネルの音声認識結果を選択して認識結果として出力する。
なお、選択チャンネル決定部502は、スコアの高いチャンネルの認識結果から、予め設定したM個の認識結果を出力する。出力個数Mは、例えば、外部からユーザが設定可能な構成を持つ。
選択チャンネル決定部502は、スコアの上位Mチャンネル分の認識結果を選択された認識結果として出力する。選択チャンネル数Mの値は、利用形態にあわせて設定する。例えばユーザが一人の場合、同時に1発話のみの入力が想定されるので、
M=1
とする。同時に複数人が発話を入力する可能性がある場合は1より大きい値を設定する。
[5.音声認識装置の実行する処理のシーケンスについて]
次に、図7以下のフローチャートを参照して、本発明の音声認識装置の実行する処理の処理シーケンスについて説明する。
図7に示すフローチャートは、本発明の音声認識装置の実行する処理の全体の流れを示すフローチャートである
図8は、図7に示すフローにおけるステップS103の音声認識処理の詳細を示すフローチャートである。
図9は、図7に示すフローにおけるステップS104のチャンネル選択処理の詳細を示すフローチャートである。
なお、図7〜図9に示すフローチャートに従った処理は、前述したようにCPU等によって構成される制御部の制御の下に実行される。制御部は記憶部に格納されたプログラムを実行することで、図3〜図5を参照して説明した各構成部に適宜コマンド等を出力して処理制御を行い、図7〜図9に示すフローチャートに従った処理を実行させる。
まず、図7に示すフローチャートを参照して、発明の音声認識装置の実行する処理の全体の流れについて説明する。なお、各処理ステップの処理について図3の構成図と対応させながら説明を行う。
ステップS101において、マイクロホン201−1〜Nからの音声入力処理を行う。様々な位置に配置されたN本のマイクロホンを利用して音声を集音して入力する。N本のマイクロホンがあったとすると、Nチャンネルの入力波形が得られる。
ステップS102において、音源分離処理を実行する。これは、図3に示す音源分離部202の処理であり、図3を参照して説明した処理に相当する。先に図3を参照して説明したように、音源分離部202は、Nチャンネル分の入力波形に対してICAによる音源分離処理を実行して、Nチャンネル分の分離波形を生成する。なお、この処理に際して、各チャンネルの分離波形に対応する音源方向情報についても取得する構成としてもよい。
次のステップS103の処理は、音声認識処理である。この音声認識処理は、図3に示す音声認識部203−1〜Nにおいて実行される処理であり、図4を参照して説明した処理に対応する。ステップS103の音声認識処理では、各チャンネルに対応する音声認識結果と、付加情報としての認識信頼度と、タスク内発話度が生成される。
なお、このステップS103の音声認識処理の詳細については、後段で、図8のフローチャートを参照して説明する。
次のステップS104の処理は、チャンネル選択処理である。このチャンネル選択処理は、図3に示すチャンネル選択部204において行われる処理であり、図6を参照して説明した処理に対応する。ステップS104のチャンネル選択処理では、音声認識処理結果と付加情報等から、チャンネル対応のスコアを算出し、スコアの高いものを優先して選択する。
なお、このステップS104のチャンネル選択処理の詳細については、後段で、図9のフローチャートを参照して説明する。
次のステップS105は、認識結果出力処理である。この認識結果出力処理も、図3に示すチャンネル選択部204において行われる処理であり、図6を参照して説明した処理に対応する。ステップS105の認識結果出力処理では、予め設定した出力数(M)に応じて、ステップS104において算出したチャンネル対応のスコアの高いものから順にM個の音声認識結果の出力を実行する。
次に、図8に示すフローチャートを参照して、図7のフローチャートにおけるステップS103の音声認識処理の詳細シーケンスについて説明する。この音声認識処理は、図3に示す音声認識部203−1〜Nにおいて実行される処理であり、図5を参照して説明した処理に対応する。
ここでは、チャンネル1〜Nのうちでkチャンネルにおける処理(音声認識部203−kの処理)について説明する。音声認識処理においてチャンネルの間で依存関係は無いため、それぞれの音声認識を順次処理することも並列処理することも可能である。
ステップS201において、音源分離部202の分離処理結果である出力チャンネルkのデータを受信する。
ステップS202において、特徴量抽出処理を実行する。この特徴量抽出処理は、図5に示す特徴量抽出部402の処理である。特徴量抽出部402は、観測信号から音声認識に用いる特徴量を抽出する。
次にステップS203において、音声認識処理を実行する。この音声認識処理は、図5に示す音声認識処理部403の処理である。音声認識処理部403は、前述したように音響モデル404の他、タスク内統計言語モデル405を用いた音声認識処理と、タスク外統計言語モデル406を用いた音声認識処理の、異なる言語モデルを適用した複数の認識処理を実行する。
次に、ステップS204において、信頼度算出処理を実行する。この信頼度算出処理は、図5に示す付加情報算出部407の認識信頼度算出部408の実行する処理である。
認識信頼度算出部408は、音声認識処理部403で生成した音声認識結果の認識信頼度を算出する。例えば認識した単語の系列の妥当性を予めメモリに格納した評価基準データを利用して認識信頼度を算出する。
次に、ステップS205において、タスク内発話度算出処理を実行する。このタスク内発話度算出処理は、図5に示す付加情報算出部407のタスク内発話度算出部409の実行する処理である。
タスク内発話度算出部409は、音声認識処理部403で生成した音声認識結果のタスク内発話度を算出する。音声認識処理部403で生成した音声認識結果に含まれる単語に、タスクに関連する単語が多く含まれる場合は、タスク内発話である可能性が高く、タスク内発話度が高くなる。音声認識結果にこのようなタスクと無関係の単語が多く含まれる場合は、タスク内発話度は低く設定される。
音声認識部203は、図8に示すフローチャートに従って、各チャンネル対応のデータとして、
音声認識結果、
付加情報(認識信頼度、タスク内発話度)
これらのデータを生成してチャンネル選択部204に供給する。
次に、図9に示すフローチャートを参照して、図7のフローチャートにおけるステップS104のチャンネル選択処理の詳細シーケンスについて説明する。このチャンネル選択処理は、図3に示すチャンネル選択部204において実行される処理であり、図6を参照して説明した処理に対応する。
ステップS301は、出力リストの初期化処理を行う。出力リストは、チャンネル1〜Nの認識結果をスコアの高い順に並べたリストである。図6に示す選択チャンネル決定部502はこの出力リストに従って高スコアの認識結果から、予め決定した出力数(M個)の認識結果を選択して出力することになる。
ステップS301では、出力リストの初期化処理、すなわちリストのリセットを行う。
次のステップS302〜S304の処理は、チャンネルk=1〜Nのデータに対応して繰り返し実行するループ処理である。
ステップS303において、チャンネルkに対応するスコアの計算を行う。
スコアの計算は、例えば先に説明したように、
認識信頼度=p
タスク内発話度=q
分離波形のパワー=r
として、チャンネルkのスコアSkを、
Sk=ap+bq+cr
として算出する。
ただしa,b,c,は予め設定した係数(重み係数)である。
あるいは、音源方向についても考慮し、
音源方向評価値=h
を利用し、
Sk=ap+bq+cr+dh
として算出する。
このような処理よって、チャンネルkのスコアを算出する。
ステップS302〜S304において、チャンネル1〜NのN個のチャンネルに対応する音声認識結果に対応するN個のスコアS1〜SNを算出する。
最後にステップS305において、チャンネルのスコアの上位から予め規定した出力数(M)に対応する数の認識結果を選択して出力する。この処理は、図6に示す選択チャンネル決定部502の処理である。
選択チャンネル決定部502は、チャンネルスコア算出部501−1〜Nから入力するNチャンネル各々に対応するスコアS1〜SNを入力して、これらのスコアの比較処理を実行して、高スコアのチャンネルの音声認識結果を選択して認識結果として出力する。
このように、本発明の音声認識装置では、ICAによる音源分離の各出力チャンネルに音声認識をそれぞれ適用し、その結果に基づいて目的とする音に対応するチャンネルを選択する。音声認識結果の信頼度と音声認識装置が想定するタスク内の発話であるか否かの情報を付与し、それらの付加情報に基づいてチャンネル選択を行うことで、ICA出力チャンネル選択の誤りの問題を解消することができる。
本発明の音声認識装置の実行する処理による効果としては、例えば以下の効果がある。
(a)音声認識の信頼度を利用することにより、目的とする音声以外のチャンネルを誤って選択されてしまうという問題が解消される。
(b)音源方向の情報は用いない設定では、目的音声の到来方向に依存しないチャンネル選択が可能となる。
(c)タスク内発話内容かどうかの情報を利用することにより、音声認識システムが入力として想定していない妨害音声を棄却することができる。
このような効果奏することができる。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、複数音源からの出力を混合した混合信号からなる観測信号に対して、独立成分分析(ICA)を適用した処理により分離信号を生成するとともに、各分離信号に対する音声認識処理を実行する。さらに音声認識結果の評価情報としての付加情報を生成する。付加情報として音声認識結果の認識信頼度や、音声認識結果が音声認識装置において想定したタスクに関連する認識結果であるか否かを示すタスク内発話度を算出する。これらの付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出してスコアの高い認識結果を選択出力する。これらの処理により、複数音源からの混合信号に対する音源分離と音声認識が実現され、必要とする認識結果をより確実に取得することができる。
101 マイクロホン
102 音源分離部
103 チャンネル選択部
104 音声認識部
200 音声認識装置
201 マイクロホン
202 音源分離部
203 音声認識部
204 チャンネル選択部
301 A/D変換部
302 短時間フーリエ変換(FT)部
303 信号分離部
304 逆フーリエ変換(FT)部
305 D/A変換部
306 音源方向推定部
401 A/D変換部
402 特徴量抽出部
403 音声認識処理部
404 音響モデル
405 タスク内統計言語モデル
406 タスク外統計言語モデル
407 付加情報算出部
408 認識信頼度算出部
409 タスク内発話度算出部
501 チャンネルスコア算出部
502 選択チャンネル決定部

Claims (7)

  1. 複数音源の出力の混合信号を各音源に対応する信号に分離して複数チャンネルの分離信号を生成する音源分離部と、
    前記音源分離部の生成した複数チャンネルの分離信号を入力して音声認識処理を実行し、各チャンネル対応の音声認識結果を生成するとともに、各チャンネル対応の音声認識結果の評価情報となる付加情報を生成する音声認識部と、
    前記音声認識結果と前記付加情報を入力し、前記付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出し、スコアの高い音声認識結果を選択出力するチャンネル選択部を有する音声認識装置。
  2. 前記音声認識部は、
    前記付加情報として音声認識結果の認識信頼度を算出し、
    前記チャンネル選択部は、
    前記認識信頼度を適用して各チャンネル対応の音声認識結果のスコアを算出する請求項1に記載の音声認識装置。
  3. 前記音声認識部は、
    前記付加情報として、音声認識結果が音声認識装置において想定したタスクに関連する認識結果であるか否かを示すタスク内発話度を算出し、
    前記チャンネル選択部は、
    前記タスク内発話度を適用して各チャンネル対応の音声認識結果のスコアを算出する請求項1または2に記載の音声認識装置。
  4. 前記チャンネル選択部は、
    音声認識結果の認識信頼度、または音声認識結果が音声認識装置において想定したタスクに関連する認識結果であるか否かを示すタスク内発話度の少なくともいずれかをスコア算出データとして適用するとともに、音声パワー、または音源方向情報の少なくともいずれかを組み合わせてスコアを算出する請求項1に記載の音声認識装置。
  5. 前記音声認識部は、
    前記音源分離部の生成した複数チャンネルの分離信号のチャンネル数に等しい複数の音声認識部によって構成され。
    前記複数の音声認識部は、
    前記音源分離部の生成した複数チャンネルの分離信号の各チャンネル対応の分離信号をそれぞれ入力して、音声認識処理を並列に実行する構成である請求項1〜4いずれかに記載の音声認識装置。
  6. 音声認識装置において実行する音声認識方法であり、
    音源分離部が、複数音源の出力の混合信号を各音源に対応する信号に分離して複数チャンネルの分離信号を生成する音源分離ステップと、
    音声認識部が、前記音源分離部の生成した複数チャンネルの分離信号を入力して音声認識処理を実行し、各チャンネル対応の音声認識結果を生成するとともに、各チャンネル対応の音声認識結果の評価情報となる付加情報を生成する音声認識ステップと、
    チャンネル選択部が、前記音声認識結果と前記付加情報を入力し、前記付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出し、スコアの高い音声認識結果を選択出力するチャンネル選択ステップと、
    を有する音声認識方法。
  7. 音声認識装置において音声認識処理を実行させるプログラムであり、
    音源分離部に、複数音源の出力の混合信号を各音源に対応する信号に分離して複数チャンネルの分離信号を生成させる音源分離ステップと、
    音声認識部に、前記音源分離部の生成した複数チャンネルの分離信号を入力して音声認識処理を実行させ、各チャンネル対応の音声認識結果を生成するとともに、各チャンネル対応の音声認識結果の評価情報となる付加情報を生成させる音声認識ステップと、
    チャンネル選択部に、前記音声認識結果と前記付加情報を入力し、前記付加情報を適用して各チャンネル対応の音声認識結果のスコアを算出させ、スコアの高い音声認識結果を選択出力させるチャンネル選択ステップと、
    を実行させるプログラム。
JP2009265076A 2009-11-20 2009-11-20 音声認識装置、および音声認識方法、並びにプログラム Abandoned JP2011107603A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009265076A JP2011107603A (ja) 2009-11-20 2009-11-20 音声認識装置、および音声認識方法、並びにプログラム
US12/943,450 US20110125496A1 (en) 2009-11-20 2010-11-10 Speech recognition device, speech recognition method, and program
CN2010105401429A CN102074230B (zh) 2009-11-20 2010-11-11 语音识别装置、语音识别方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009265076A JP2011107603A (ja) 2009-11-20 2009-11-20 音声認識装置、および音声認識方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2011107603A true JP2011107603A (ja) 2011-06-02

Family

ID=44032748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009265076A Abandoned JP2011107603A (ja) 2009-11-20 2009-11-20 音声認識装置、および音声認識方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20110125496A1 (ja)
JP (1) JP2011107603A (ja)
CN (1) CN102074230B (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021315A (ja) * 2012-07-19 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> 音源分離定位装置、方法、及びプログラム
WO2014125736A1 (ja) * 2013-02-14 2014-08-21 ソニー株式会社 音声認識装置、および音声認識方法、並びにプログラム
JP2014191029A (ja) * 2013-03-26 2014-10-06 Fuji Soft Inc 音声認識システムおよび音声認識システムの制御方法
WO2015125567A1 (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
WO2019138573A1 (ja) * 2018-01-15 2019-07-18 三菱電機株式会社 音響信号分離装置および音響信号分離方法
JP2019533194A (ja) * 2016-09-29 2019-11-14 合肥華凌股▲フン▼有限公司Hefei Hualing Co.,Ltd. ブラインド信号分離方法、構成及び音声制御システム、並びに電器アセンブリ
JP2020013129A (ja) * 2018-07-19 2020-01-23 南京地平▲線▼机▲器▼人技▲術▼有限公司 音声を認識するための方法および装置
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047867B2 (en) 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
US8554553B2 (en) 2011-02-21 2013-10-08 Adobe Systems Incorporated Non-negative hidden Markov modeling of signals
JP5752488B2 (ja) * 2011-05-31 2015-07-22 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
US9153229B2 (en) * 2011-11-21 2015-10-06 Robert Bosch Gmbh Methods and systems for adapting grammars in hybrid speech recognition engines for enhancing local SR performance
US8843364B2 (en) 2012-02-29 2014-09-23 Adobe Systems Incorporated Language informed source separation
DE102014109122A1 (de) * 2013-07-12 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
CN103646644A (zh) * 2013-12-12 2014-03-19 华为终端有限公司 一种获取语音识别业务信息认可度的方法和装置
US10510343B2 (en) * 2014-06-11 2019-12-17 Ademco Inc. Speech recognition methods, devices, and systems
CN104135619A (zh) * 2014-08-12 2014-11-05 广东欧珀移动通信有限公司 一种摄像头控制方法及装置
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
CN106328154B (zh) * 2015-06-30 2019-09-17 芋头科技(杭州)有限公司 一种前端音频处理系统
US10282218B2 (en) * 2016-06-07 2019-05-07 Google Llc Nondeterministic task initiation by a personal assistant module
CN109644304B (zh) * 2016-08-31 2021-07-13 杜比实验室特许公司 混响环境的源分离
WO2019084214A1 (en) * 2017-10-24 2019-05-02 Whisper.Ai, Inc. AUDIO SEPARATION AND RECOMBINATION FOR INTELLIGIBILITY AND COMFORT
CN108022584A (zh) * 2017-11-29 2018-05-11 芜湖星途机器人科技有限公司 办公室语音识别优化方法
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN108564952B (zh) * 2018-03-12 2019-06-07 新华智云科技有限公司 语音角色分离的方法和设备
CN109256153B (zh) * 2018-08-29 2021-03-02 云知声智能科技股份有限公司 一种声源定位方法及系统
CN109660891A (zh) * 2018-12-24 2019-04-19 王让利 一种可穿戴式多麦克风装置
KR20200124084A (ko) * 2019-04-23 2020-11-02 삼성전자주식회사 음원 추적 장치, 음원 추적 방법, 및 지인 추적 장치
WO2020231151A1 (en) 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Electronic device and method of controlling thereof
CN111883132B (zh) * 2019-11-11 2022-05-17 马上消费金融股份有限公司 一种语音识别方法、设备、系统及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US7225124B2 (en) * 2002-12-10 2007-05-29 International Business Machines Corporation Methods and apparatus for multiple source signal separation
EP1570464A4 (en) * 2002-12-11 2006-01-18 Softmax Inc SYSTEM AND METHOD FOR LANGUAGE PROCESSING USING AN INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRICTIONS
JP4449871B2 (ja) * 2005-01-26 2010-04-14 ソニー株式会社 音声信号分離装置及び方法
JP4225430B2 (ja) * 2005-08-11 2009-02-18 旭化成株式会社 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
JP2007156300A (ja) * 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
JP4556875B2 (ja) * 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021315A (ja) * 2012-07-19 2014-02-03 Nippon Telegr & Teleph Corp <Ntt> 音源分離定位装置、方法、及びプログラム
WO2014125736A1 (ja) * 2013-02-14 2014-08-21 ソニー株式会社 音声認識装置、および音声認識方法、並びにプログラム
US10475440B2 (en) 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
JP2014191029A (ja) * 2013-03-26 2014-10-06 Fuji Soft Inc 音声認識システムおよび音声認識システムの制御方法
US10013998B2 (en) 2014-02-20 2018-07-03 Sony Corporation Sound signal processing device and sound signal processing method
WO2015125567A1 (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
JP2017102771A (ja) * 2015-12-03 2017-06-08 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
WO2017094913A1 (ja) * 2015-12-03 2017-06-08 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
US10248649B2 (en) 2015-12-03 2019-04-02 Kai Inc. Natural language processing apparatus and a natural language processing method
JP6070809B1 (ja) * 2015-12-03 2017-02-01 国立大学法人静岡大学 自然言語処理装置及び自然言語処理方法
JP2019533194A (ja) * 2016-09-29 2019-11-14 合肥華凌股▲フン▼有限公司Hefei Hualing Co.,Ltd. ブラインド信号分離方法、構成及び音声制御システム、並びに電器アセンブリ
WO2019138573A1 (ja) * 2018-01-15 2019-07-18 三菱電機株式会社 音響信号分離装置および音響信号分離方法
JP2020013129A (ja) * 2018-07-19 2020-01-23 南京地平▲線▼机▲器▼人技▲術▼有限公司 音声を認識するための方法および装置
US11183179B2 (en) 2018-07-19 2021-11-23 Nanjing Horizon Robotics Technology Co., Ltd. Method and apparatus for multiway speech recognition in noise
WO2020079733A1 (ja) * 2018-10-15 2020-04-23 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法
JPWO2020079733A1 (ja) * 2018-10-15 2021-02-15 三菱電機株式会社 音声認識装置、音声認識システム、及び音声認識方法

Also Published As

Publication number Publication date
CN102074230A (zh) 2011-05-25
CN102074230B (zh) 2012-09-05
US20110125496A1 (en) 2011-05-26

Similar Documents

Publication Publication Date Title
JP2011107603A (ja) 音声認識装置、および音声認識方法、並びにプログラム
JP5662276B2 (ja) 音響信号処理装置および音響信号処理方法
WO2019191554A1 (en) Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP6169910B2 (ja) 音声処理装置
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6501259B2 (ja) 音声処理装置及び音声処理方法
JP2007233239A (ja) 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
JP6985221B2 (ja) 音声認識装置及び音声認識方法
JP4769238B2 (ja) 信号分離装置、信号分離方法、プログラム及び記録媒体
JP2007279517A (ja) 音源分離装置、音源分離装置用のプログラム及び音源分離方法
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
JP2008039694A (ja) 信号数推定システム及び信号数推定方法
JP6487650B2 (ja) 音声認識装置及びプログラム
WO2012023268A1 (ja) 多マイクロホン話者分類装置、方法およびプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JP6173649B1 (ja) 劣化個所推定装置、劣化個所推定システム及び劣化個所推定方法
JP6567479B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置
JP6969597B2 (ja) 音響信号処理装置、方法及びプログラム
JP2015064602A (ja) 音響信号処理装置、音響信号処理方法および音響信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120926

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20130415