JP2015069063A - 音声認識システム、音声認識方法、及び音声認識プログラム - Google Patents

音声認識システム、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP2015069063A
JP2015069063A JP2013204277A JP2013204277A JP2015069063A JP 2015069063 A JP2015069063 A JP 2015069063A JP 2013204277 A JP2013204277 A JP 2013204277A JP 2013204277 A JP2013204277 A JP 2013204277A JP 2015069063 A JP2015069063 A JP 2015069063A
Authority
JP
Japan
Prior art keywords
noise
speech
speech recognition
observation
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013204277A
Other languages
English (en)
Inventor
伸二 吉木
Shinji Yoshiki
伸二 吉木
裕史 須藤
Yasushi Sudo
裕史 須藤
伊藤 彰則
Akinori Ito
彰則 伊藤
晃平 町田
Kohei Machida
晃平 町田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
NEC Communication Systems Ltd
Original Assignee
Tohoku University NUC
NEC Communication Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, NEC Communication Systems Ltd filed Critical Tohoku University NUC
Priority to JP2013204277A priority Critical patent/JP2015069063A/ja
Publication of JP2015069063A publication Critical patent/JP2015069063A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】マイクロホンによる非同期観測若しくは間欠観測を前提とした環境雑音の影響を良好に取り除く音声認識システムを提供する。【解決手段】音声認識システムとして、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部とを設ける。【選択図】図1

Description

本発明は、音声認識技術に関し、詳しくは雑音耐性を強固にした音声認識システム、音声認識方法および音声認識用プログラムに関する。
情報処理システムを用いる音声認識技術は、入力された音声データに含まれる言語情報を取り出す技術である。音声認識技術を用いたシステムは、音声データすべてをテキストに変換すれば音声ワープロとして利用でき、音声データに含まれるキーワードを抽出すれば音声コマンド入力装置などとして利用できる。
音声認識技術では、被解析音響信号に含まれる環境雑音を低減させることで良い結果を得られる。このため、多くの研究者がこの問題に取り組んでいる。
環境雑音に強い音声認識手法は数多く提案されている。これらの方法を幾つか例示すれば、以下の3つの方法が含まれる。
(1)複数のマイクロホンから入力音声信号を同時に受け付けて、信号処理により入力音声の雑音成分を低減する。
(2)入力音声信号から所望する音声区間を特定すると共に、その直前に含まれていた雑音を用いて、音声区間からその雑音を除去する。
(3)所望する音声と雑音とが合さった音響をモデル化し、雑音が重畳した音声をこのモデルを用いて認識する。
これら音声認識技術の雑音対策に関連する技術を例示すれば、特許文献1や2、非特許文献1ないし3に記載されている。
特許文献1と非特許文献1は、マイクロホンアレイによる雑音低減を図っている。上記(1)に当たる。
非特許文献2は、スペクトル減算法による雑音低減を図っている。上記(2)に当たる。
非特許文献3と非特許文献4は、HMMモデル合成法による雑音低減を図っている。上記(3)に当たる。
また、発明者は、過去に非特許文献5の雑音除去手法を提案している。当該手法では、複数のマイクによる音響の非同期・間欠観測によって環境雑音を予め標本として収集し、その雑音影響を被解析音響信号(発話区間)からスペクトル減算する。換言すれば、音声認識システムは、音声に重畳している雑音のパワースペクトルを、非同期・間欠観測で収集してある標本に基づいて推定し、被解析音響信号から除去する。また、スペクトル減算に用いる標本について、被解析音響信号を受け付けるマイクから取得する雑音と、他のマイクから取得する雑音との相違を補正する一手法を開示している。
特開2008−79256号公報
騒音下音声認識のためのマイクロホンアレー技術, 金田豊, 日本音響学会誌, vol.53, no.11, pp.872-876, 1997. Suppression of acoustic noise in speech using spectral subtraction, S.F.Boll, IEEE Trans.Acoust.Speech Signal Process., vol.ASSP-27, no.2, pp.113-120, 1979. Robust continuous speech recognition using parallel model combination, M.J.F.Gales, S.J.Young, IEEE Trans. Speech and Audio Process., vol.4, pp.352-359, 1996. Recognition of noisy speech by composition of speech and noise, F.Martin, K.Shikano, Y.Minami, Proc. European Conference on Speech Communication and Technology, pp.1031-1034, 1993. 非同期・間欠観測型複数マイクロホンを用いたスペクトル減算による雑音除去の検討, 町田晃平, 伊藤彰則, 日本音響学会講演論文集.1-Q-30b, 2013-3.
音声認識技術では、雑音対策を行うことによって認識精度の向上が図れる。また、雑音対策に要する様々なコストの低減が望まれる。
雑音対策手法では、同期した複数のマイクロホンを用いた手法が数多く提案されている(マイクロホンアレイを用いた特許文献1や非特許文献1など)。
マイクロホンアレイは、同期した複数のマイクロホンを間隔をおいて設置することで、それぞれのマイクロホンが観測した音響信号の位相差を求めることができる。この位相差や音響強度を利用することによって、音声認識システムは音源方向の推定や特定方向の音の強調などが識別可能となる。また、この手法では一般的に、システム内のマイクロホン(アレイ化されたマイクロホン)全てが音声を待つ間 常時的に音響信号を観測している。
同期した複数のマイクロホンを利用することで、良好な耐雑音性能が得られる。
他方、このような手法には、複数のマイクロホンのサンプリングを同期させる必要がある。また、マイクロホンを3入力や4入力と増やした際に、処理リソースが指数的に増加しやすい特性がある。また多くの手法は、マイクロホン自体の特性も揃える必要がある。
より具体的に問題点を例示すれば以下のことが挙げられる。
上記(1)の手法では、アレイ化したマイクロホン数と同数の多チャンネルADコンバータが必要となり、機器のコストが高くなりやすい。
また上記(2)の手法では、雑音が定常であることが求められる。テレビの音や話し声などの非定常雑音が重畳する利用環境には適さない傾向がある。
また上記(3)の手法では、音声認識に要する計算量が大きくなり、また作成される音声認識モデルが複雑になる。組み込み機器や携帯電話などでの音声認識に適さない側面を有する。
発明者は、自身の知見によって、音響の間欠観測によって環境雑音を除去することが有益であると考える。
また、複数のマイクロホンを使用する際にも非同期で動作させて利用できる手法が望ましいと考える。非同期観測や間欠観測では、上記手法(1)(2)(3)と比較して、例えば、演算処理リソースの低減や、処理に要する電力の低減が図れ、また他にも装置の簡単化などの様々な利点がある。
そこで、本発明の目的は、マイクロホンの非同期観測及び/又は間欠観測を前提として、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除く音声認識システム、音声認識方法、及び音声認識プログラムを提供することである。
本発明に係る音声認識システムは、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部とを含むことを特徴とする。
本発明に係る音声認識方法は、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、音声認識対象とする音声区間の音響信号(被解析音響)を取得する工程と、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、導出した前記音声情報を所要形態で出力する工程と、を含むことを特徴とする。
本発明に係る音声認識プログラムは、情報処理システムを、音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、として動作させることを特徴とする。
本発明によれば、マイクロホンの非同期観測及び/又は間欠観測を前提として、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除く音声認識システム、音声認識方法、及び音声認識プログラムを提供できる。
第1の実施形態に係る音声認識システムを示した構成図である。 複数のマイクロホンの非同期/間欠観測を例示する説明図である。 音声認識システムの音声認識処理例を示したフローチャートである。 第2の実施形態に係る音声認識システムを示した構成図である。 集合雑音モデルの生成処理を示した説明図である。 一実施例に係る音声認識システムを示した構成図である。
次に、発明の実施形態について図面を参照して詳細に説明する。尚、説明を明瞭とするため、本発明と関係の少ない入力や制御処理、表示、必要な通信などに関する説明は、簡略化又は省力する。
ここで、発明の理解を容易にするために、実施形態にかかる前提を説明する。なお、以下の条件に限定される分けではない。
・生活環境中の雑音や音声が混ざった音響を観測してシステムが音声認識を行う。
・雑音観測は環境雑音を複数のマイクロホンで間欠的に収録する。
・音声認識エンジンはシステムに内在する。若しくは外部音声認識エンジンにネットワークを介して問い合わせて応答を受ける。
・システムは、マイクロホン間の同期もしくは常時観測の何れかが少なくとも行わない。
・観測した複数の音響標本を用いて雑音をモデル化して記憶する。運用後にも雑音観測を間欠的に実施して各モデルを適宜学習させる。
・認識すべき音声が入力されている期間(有音声区間)の音響について、音声認識する。
[第1の実施形態]
次に、第1の実施形態を図面を参照して説明する。
図1は、第1の実施形態に係る音声認識システム10を示した構成図である。
音声認識システム10は、ノイズ除去音声認識処理部100とノイズモデル記憶部200を含み、任意の音声認識エンジンと通信して音声認識結果を得る。各部は以下の処理を行える構成を有する。
ノイズ除去音声認識処理部100は、音声認識対象とする音声区間の音響信号を被解析音響として取得する。この被解析音響には、話者の音声と環境雑音が混じっている。
ノイズ除去音声認識処理部100は、ノイズモデル記憶部200に記憶されている複数の雑音モデルの一つずつを用いて、取得した被解析音響からそれぞれの雑音モデルが表す雑音成分を除去若しくは低減した仮想ノイズ除去音響信号を複数生成処理する。雑音成分の除去は、所望する音声と雑音の音圧差や、音声帯域特性等を踏まえて行えばよい。
本仮想ノイズ除去音響信号の生成処理(仮想ノイズ除去音響信号生成工程)では、ノイズモデル記憶部200に格納されている複数の雑音モデルを必ずしも全て使用する必要は無い。例えば、出現確率の低いノイズは、後述する結果選定処理において、良好な結果が得られない際に追加的に用いることとしてもよい。また、出現確率の高い常時的なノイズは、他の1つの雑音モデルと共に仮想ノイズ除去音響信号の生成処理に用いてもよい。出現確率の高低は、リソース量や認識精度に合せて、所要に閾値を設定すればよい。
各仮想ノイズ除去音響信号は、ノイズ除去に用いた雑音モデルに応じて、被解析音響に含まれていた環境雑音が低減された信号と、環境雑音の影響が低減されなかった信号が生成されることになる。
なお、本ノイズ除去音声認識処理では、被解析音響を所要に特徴量列に変換して各種処理を行う構成としてもよい。特徴量列を用いた際には、スペクトログラムやFBANK(フィルタバンク対数パワー)などを用いた処理が容易になる。
ノイズ除去音声認識処理部100は、複数のノイズ除去音響信号をそれぞれ音声認識エンジン(音声認識処理工程)に送り、その各認識結果をそれぞれ受け付けて記憶する。
ノイズ除去音声認識処理部100は、各認識結果を入力情報として結果選定処理(結果選定処理工程)を実施することによって、入力された音響信号に含まれていた音声情報を最終的に尤度算定処理によって導出処理する。この出力としては、音声解析結果として所望される内容を適宜出力すればよい。例えば、音声の内容を示すテキストや、音声に含まれていた単語列、音声コマンド信号である。また、音声の特徴量列なども合わせて出力するようにしてもよい。
結果選定処理では、音声認識処理工程で得られた各認識結果について、各認識結果のスコアや信頼度から尤もらしい結果もしくは結果候補を最終出力として導出する。この際、各認識結果に含まれていた候補の多数決を採ってもよい。また、多数決を採る際に、スコア値や信頼度値を踏まえることとしてもよい。
ノイズモデル記憶部200は、使用環境下で標本としてマイクロホンによって観測された音響信号群を用いて生成された雑音分類結果毎の雑音モデルを保持する。
保持する雑音モデルは、後述する実施例のように自システムで生成してもよいし、他のシステムによって生成されたモデルを利用してもよい。また、既存のモデルや音響標本と共に、自システムで観測した雑音を加えて雑音モデルを学習してもよい。
家庭内で観測される雑音は、一般的に、テレビの音,エアコンの音,会話の音,風切り音、家庭外の音など、その環境によって様々な種類がある程度限定される。すなわち、家庭内で音声認識を行う際にはこれらの雑音に対応できるようにしたい。そこで、予めこれらの雑音をそれぞれ雑音モデルとして保持する。なお、家庭外で観測される雑音を例示すれば、工事現場の任意機械,任意工具が発する音響や、コンプレッサ音、警笛、任意の電子音などがある。これらの雑音も、マイクロホンによる間欠的、非同期に標本を収集してモデル化できる。
図2は、使用環境下で3台のマイクロホンが間欠的に標本とする音響信号を観測するタイミングを示した説明図である。図2では、異なる位置に配置された3台のマイクロホンを用いてそれぞれ異なる期間(t0〜t3)を間欠観測する。なお、この3台のマイクロホンから受ける音響信号を取得する際に、同期させたサンプリング処理を行う必要はない。
このように観測した雑音を収集して、雑音の種類毎にモデル化する。雑音観測は、1台のマイクロホンで部屋内の異なる箇所で雑音収集を行ってもよく、また、異なる位置、異なる時間の標本が取れることが望ましい。また、雑音観測は、異なるマイクロホンで必ずしも異なる期間で観測する必要は無く、観測期間がオーバラップしていたとしても構わない。
なお、雑音の種類によっては、実環境で収集せずとも、モデル化済みのデータを利用することもできる。例えば、所定種類の家電(冷蔵庫、洗濯機、DVDプレイヤーなど)による雑音モデルや、特定の騒音が生じる地域(電車や飛行機、高速道路など)の騒音モデルなどを音圧調整や通過周波数帯を踏まえた帯域ファイルタを通すことで、使用環境に適応させて利用することもできる。また、このモデルの調整には、使用環境下で観測された間欠観測された音響信号も利用できる。
次に、音声認識システム10の処理動作例を説明する。
図3は、音声認識システム10の音声認識処理を示したフローチャートである。
音声認識システム10は、予めノイズモデル記憶部200に雑音低減に用いる雑音モデル群を保持する。また、必要に応じて、用いる音声認識エンジンや、出力結果の種別などの選択を受け付ける。本処理例では、4つの雑音モデルを保持している。後述するGMM(Gaussian Mixture Model)であれば混合数4の集合雑音モデルを1つ保持している。
音声認識システム10(ノイズ除去音声認識処理部100)は、被解析信号(音声認識用音響信号)を受け付ける(ステップS101)。被解析信号は、必要に応じてメモリー等に一時記憶される。
次に、音声認識システム10は、被解析信号を雑音モデルの数(=4)となるようにコピーして、各コピー被解析信号と各々の雑音モデルとを用いて、並列的にノイズ低減処理を実施する(ステップS102)。すなわち、4つ有る雑音モデルの1つ毎にノイズ低減処理を行う。
次に、音声認識システム10は、生成された各仮想ノイズ除去音響信号をそれぞれ音声認識エンジンに送り、その各認識結果をそれぞれ受け付けてメモリー等に記憶する(ステップS103)。
次に、音声認識システム10は、各々の雑音モデルで処理された仮想ノイズ除去音響信号に対して行われた各々の認識結果を総合的に比較処理して、最終的に出力する尤もらしい結果を選定する(ステップS104)。
次に、音声認識システム10は、選定した結果を、モニターやプリンタ、他の装置、他のプログラムなどに所要形態で出力する(ステップS105)。
このように音声認識システム10を動作させることで、マイクロホンの非同期観測や間欠観測を前提とした雑音観測でも、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除くことができる。
[第2の実施形態]
次に、本発明の第2の実施形態を説明する。
図4は、第2の実施形態に係る音声認識システム20を示した構成図である。
音声認識システム20は、ノイズ除去音声認識処理部100とノイズモデル記憶部200と音声認識エンジン300と音響受付部400と雑音モデル生成部500を有している。各部は以下の処理を行える構成を有する。
ノイズ除去音声認識処理部100は、第1の実施形態で説明したように動作する。また、本実施形態では、被解析音響は前処理で特徴量列に変換されるシステムを説明する。
ノイズモデル記憶部200には、複数の雑音モデルが蓄積されている。また、各雑音モデルは演算を容易化可能に1つの集合雑音モデルとして蓄積される。また、音声認識環境に合せて複数保持されている。ここでの音声認識環境とは、利用者や部屋の違いなどである。
音声認識エンジン300は、公知の音声認識エンジンであり、本システムではシステム内に内在させている。なお、外部音声認識エンジンを用いるようにしてもよい。
音響受付部400は、様々な位置やタイミングで複数のマイクロホンから音響信号(観測雑音)を受け付ける。また、音響受付部400は、被解析音響信号も受け付ける。音響受付部400は、受け付けた各音響信号を特徴量列に変換する。被解析音響信号は、音響受付部400によって、音声認識対象とする音声区間に切り出されてもよいし、例えば発話周波数帯域の所定音圧を検知時のみに音響受付部400が音響信号を受け付けるようにしてもよい。
雑音モデル生成部500は、音響受付部400によって取得された多くの観測雑音を逐次的に受け付けて、任意タイミングで、観測雑音群に含まれていた雑音分類毎の雑音を表した雑音モデルを生成処理する。生成する雑音モデルの数は任意数である。システム構成や被解析音声の目的に応じて適宜設定すればよい。例えば、固定数を予め与えてもよい。また、最大数を与え、それ以下を維持するように運用すればよい。また、仮想ノイズ除去音響信号生成工程で用いる数よりも多めに生成してもよい。この際、雑音の発生頻度などから生成したモデル間の順位(使用優先度)を定めて、どの雑音モデルを用いるか自動的/半自動的に選定される仕組みを有することが望ましい。例えば、時間帯や利用者などの差による採用すべき雑音モデルが導出される。
このように、雑音分類毎に雑音モデルを生成するため、非同期観測や間欠観測の結果からでも本システムに即した雑音モデルを適切に取得できる。また、異なる不定位置に置かれたマイクロホンから得た雑音標本でも有効に利用できる。また、複数のマイクロホン間で観測結果を得る際に、同期していることを必要としない。
また、本実施形態では、各雑音モデルは1つの集合雑音モデルとして生成する。
図5は、1つの集合雑音モデルを生成処理する処理動作を示した説明図である。
まずは、音響受付部400は標本となる音響信号を収集して、特徴量列に変換する(ステップS201、S202)。
次に、雑音モデル生成部500は、標本の特徴量列を用いて各雑音をモデル化する(ステップS203)。
雑音毎のモデル化には、ガウス混合モデル(Gaussian Mixture Model: GMM) を集合雑音モデルとして用いる。GMMにおいて、特徴ベクトルx の音が発生する尤度p(x) は下記式1で表される。
Figure 2015069063
ここで、多次元混合ガウス分布N(x;μmm) は混合要素である。
この多次元混合ガウス分布は、それぞれに平均ベクトルμmと共分散行列Σm を有する。M は混合数,λi は重み係数である。
λi,μm,Σm はEMアルゴリズムを用いて学習データを基に推定すればよい。
GMMの学習の結果得られた各ガウス分布が個々の雑音モデルであることして用いる。この際、混合数Mは、設定値を用いればよい。
このように作成した集合雑音モデルをノイズモデル記憶部200に出力して逐次格納する(ステップ204)。
ノイズ除去音声認識処理部100は、ノイズモデル記憶部200に格納されている集合雑音モデルを用いて、第1の実施形態と同様の処理ルーチンで音声認識処理を実施する。この際、例えば部屋や操作者など毎に集合雑音モデルを選択できる構成で、認識の正答率の向上を図ってもよい。
このように音声認識システム10を動作させることで、マイクロホンの非同期観測や間欠観測を前提とした雑音観測でも、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除くことができる。
[実施例]
ここで、一つの実施例を説明する。
音声認識システムの構成は第2の実施形態の構成を用いる。本実施例では、各音響信号をFBANKに変換して扱う。
また、本方式の雑音の間欠観測や非同期観測の特徴によって、具現化した際の装置構成が簡単化でき、またエネルギー消費を常時観測や同期観測のシステムに対して削減できる。
まず、音声認識システムは、GMMを準備する。任意数のマイクロホンで非定期に収集した/された音響信号(雑音 又は 音声+雑音)は、音響信号データとして音響受付部400に送られる。音響受付部400では、取得した音響信号について解析対象音響か否かを判定して、音声の場合は音声データとしてノイズ除去音声認識処理部100に送る。音響信号が音声でない場合、音響受付部400は、雑音データとして雑音モデル生成部500に送る。
雑音モデル生成部500では、逐次送られてくる各雑音データをフィルタバンク特徴量に変換処理する。次に、ある程度標本数が蓄積した時点で、ガウス混合モデルによって雑音データをN個のガウス分布にモデル化して記録する。標本1つ毎に学習を行ってもよいものの、ある程度標本数が変化したら学習モデルを変更することとすればよい。
一方、受け付けた音響信号を解析する場合、ノイズ除去音声認識処理部100は、送られてきた被解析信号(入力音声+雑音)をフィルタバンク特徴量系列に変換した後にコピーして、コピーされた各特徴量系列からN個あるガウス分布の平均ベクトルのそれぞれを減算処理する。この際、FBANK特徴量をいったん指数関数によって真数領域に変換して減算を行ったのち、再び対数関数によって対数領域に変換する。この減算処理によって、各雑音モデルを反映したフィルタバンク特徴量系列を生成する。結果、N種類の特徴量系列を得る。
次に、ノイズ除去音声認識処理部100は、このN種類の特徴量系列に離散コサイン変換を施すことによって、N種類のMFCC特徴量系列を得る。N種類のMFCC特徴量系列をそれぞれ独立させて音声認識エンジン300に送り、N種類の認識結果を得る。それぞれの認識結果では、付随する情報として認識スコアおよび信頼度を得る。
次に、ノイズ除去音声認識処理部100は、N種類の認識結果の認識スコア及び信頼度を必要に応じて組み合わせて、多数決等を用いて最終的に出力する尤もらしい認識候補を得る。
このように、観測した音響を、予めGMMによりモデル化しておき、入力音声に対してモデル内に含まれた各雑音クラスで雑音除去処理を実行して、その後音声認識処理を並列的に実行する。次に、得られた様々な認識結果を統合的に選定処理することで最終的な認識結果を導出する。
また、ガウス混合モデルによる雑音の学習を行えば、通常の音声認識のモデル学習よりも格段に計算量を少なく学習が行える。
さらに、雑音が重畳した音声を入力として、且つ最適な雑音除去の結果を選定するので、非定常的なノイズであっても低減効果を得られやすい。換言すれば、例え音声に重畳した雑音が発話の直前や直後と一致していなくても雑音影響を低減できる。
このように、非定常雑音が多い環境下でも様々な雑音を自律的に学習でき、さらにこの学習結果を反映させて音声認識を行うことが可能になる。また、装置のハードウェア構成が簡単化できる。加えて、比較的少ない計算リソースにおいて高精度な認識を実現ができる。
尚、音声認識システムの各部は、ハードウェアとソフトウェアの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、図6に示すように、RAMに音声認識プログラムが展開され、このプログラムに基づいて制御部(CPU)等のハードウェアを動作させて各種手段として実現する。また、前記プログラムは、記憶媒体に固定的に記録されて頒布されてもよい。当該記録媒体に記録されたプログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。
上記実施の形態を別の表現で説明すれば、音声認識システムとして動作させる情報処理装置を、RAMに展開された音声認識プログラムに基づき、ノイズ除去音声認識処理手段、ノイズモデル記憶手段、音声認識手段、音響受付手段、雑音モデル生成手段として制御部を動作させることで実現することが可能である。
また、環境雑音の観測は、間欠的に行えばよく、またマイクロホン間の観測間隔を必ずしも一定にする必要もあるわけではない。他方、マイクロホン間で観測区間を共通にしていたとしても処理に影響を及ぼすわけではない。
音を観測していないマイクロホンは省電力の待機状態にすることが望ましい。
また、各マイクロホンに一定以上のパワーの音が入力されたときに機器が動作して、音響観測状態にする構成でもよい。
雑音観測の間隔は、任意である。一定間隔で起動して雑音観測してもよいし、ランダムに起動して雑音観測を行ってもよい。また、ある程度のトレーニング後は、音声認識用区間の取得後の無音区間を用いてもよい。
最終的な音声認識結果の導出処理では、仮設探索手法を用いればよい。複数の認識結果から尤もスコアや信頼度が高い候補を最終的な認識結果として選択したり、複数の認識結果の上位候補内で,多く出現した候補を有力候補として選択すればよい。また、出力する結果候補が予め限定されているシステム(例えば音声コマンド入力装置など)では、最終候補を踏まえて、候補の絞込みを行えばよい。
以上に実施形態及び実施例を図示して説明するが、そのブロック構成の分離併合、手順の入れ替えなどの変更は本発明の趣旨および説明される機能を満たせば自由であり、上記説明が本発明を限定するものではない。
以上説明したように、本発明によれば、マイクロホンの非同期観測及び/又は間欠観測を前提として、音声認識結果から被解析音響信号に含まれた環境雑音の影響を良好に取り除く音声認識システム、音声認識方法、及び音声認識プログラムを提供できる。
また、上記の実施形態の一部又は全部は、以下のようにも記載されうる。尚、以下の付記は本発明をなんら限定するものではない。
[付記1]
一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部と
を含みなることを特徴とする音声認識システム。
[付記2]
一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部を更に含むことを特徴とする上記付記記載の音声認識システム。
[付記3]
前記雑音モデル生成部は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする上記付記記載の音声認識システム。
[付記4]
前記雑音モデル生成部は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする上記付記記載の音声認識システム。
[付記5]
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする上記付記記載の音声認識システム。
[付記6]
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする上記付記記載の音声認識システム。
[付記7]
前記ノイズモデル記憶部には、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを記憶しており、
前記ノイズ除去音声認識処理部は、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記ノイズモデル記憶部に蓄積されている前記雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする上記付記記載の音声認識システム。
[付記8]
前記ノイズ除去音声認識処理部は、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする上記付記記載の音声認識システム。
[付記9]
任意の音声認識エンジンをシステム内に含み、
前記ノイズモデル記憶部は、雑音分類結果毎の複数の雑音モデルを保持し、
前記ノイズ除去音声認識処理部は、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記ノイズ除去音声認識処理部は、前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識システム。
[付記10]
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部と、
を有することを特徴とする音声認識システム。
[付記11]
一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、
音声認識対象とする音声区間の音響信号(被解析音響)を取得する工程と、
該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、
複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、
その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、
導出した前記音声情報を所要形態で出力する工程と、
を含みなることを特徴とする情報処理システムによる音声認識方法。
[付記12]
一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成工程を含むことを特徴とする上記付記記載の音声認識方法。
[付記13]
前記雑音モデル生成工程は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする上記付記記載の音声認識方法。
[付記14]
前記雑音モデル生成工程は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする上記付記記載の音声認識方法。
[付記15]
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする上記付記記載の音声認識方法。
[付記16]
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする上記付記記載の音声認識方法。
[付記17]
前記集合雑音モデルでは、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを用い、
前記仮想ノイズ除去音響信号を生成処理する工程では、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記集合雑音モデルの雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする上記付記記載の音声認識方法。
[付記18]
前記仮想ノイズ除去音響信号を生成処理する工程では、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする上記付記記載の音声認識方法。
[付記19]
任意の音声認識エンジンをシステム内に含み、
該システムは、
雑音分類結果毎の複数の雑音モデルを用いて、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識方法。
[付記20]
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付け、この複数の間欠音響信号から雑音モデルを生成して、複数の雑音モデルを準備し、
音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理する
ことを特徴とする音声認識方法。
[付記21]
情報処理システムを、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。
[付記22]
前記情報処理システムを、
一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部として更に動作させることを特徴とする上記付記記載の音声認識プログラム。
[付記23]
前記雑音モデル生成部を、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理するように動作させることを特徴とする上記付記記載の音声認識プログラム。
[付記24]
前記雑音モデル生成部を、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出するように動作させることを特徴とする上記付記記載の音声認識プログラム。
[付記25]
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないように動作させることを特徴とする上記付記記載の音声認識プログラム。
[付記26]
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように動作させることを特徴とする上記付記記載の音声認識プログラム。
[付記27]
前記集合雑音モデルでは、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを用い、
前記ノイズ除去音声認識処理部を、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記集合雑音モデルの前記雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ように動作させることを特徴とする上記付記記載の音声認識プログラム。
[付記28]
前記ノイズ除去音声認識処理部を、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択するように動作させることを特徴とすることを特徴とする上記付記記載の音声認識プログラム。
[付記29]
任意の音声認識エンジンを含み、
雑音分類結果毎の複数の雑音モデルを用いて、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識プログラム。
[付記30]
情報処理システムを、
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。
[付記31]
情報処理システムを、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラムを固定的に記録した記録媒体。
本発明は、電池駆動デバイスのような間欠観測を行いたい機器や、装置構成を簡略化した機器を用いた音声認識に適している。例えば、スマートフォンやゲーム機,ゲーム機コントローラ、マイクロホンを搭載したICレコーダ,リモコンなどが挙げられる。また、音響観測は、ゲーム機本体とゲーム機コントローラのように物理的位置が異なるマイクロホンで採ることがよい。
また、PCやゲーム機などでの音声認識処理にあたり、ネットワーク接続したスマートフォンのマイクロホンでサンプリングされた音響を利用するようにも構成できる。
10 音声認識システム
20 音声認識システム
100 ノイズ除去音声認識処理部(ノイズ除去音声認識処理手段)
200 ノイズモデル記憶部(ノイズモデル記憶手段)
300 音声認識エンジン(音声認識手段)
400 音響受付部(音響受付手段)
500 雑音モデル生成部(雑音モデル生成手段)

Claims (11)

  1. 一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、
    音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部と
    を含みなることを特徴とする音声認識システム。
  2. 一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部を更に含むことを特徴とする請求項1記載の音声認識システム。
  3. 前記雑音モデル生成部は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする請求項2に記載の音声認識システム。
  4. 前記雑音モデル生成部は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする請求項2に記載の音声認識システム。
  5. 複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする請求項1ないし4の何れか一項に記載の音声認識システム。
  6. 音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする請求項1ないし5の何れか一項に記載の音声認識システム。
  7. 前記ノイズモデル記憶部には、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを記憶しており、
    前記ノイズ除去音声認識処理部は、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記ノイズモデル記憶部に蓄積されている前記雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
    ことを特徴とする請求項4記載の音声認識システム。
  8. 前記ノイズ除去音声認識処理部は、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする請求項7記載の音声認識システム。
  9. ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
    前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
    モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
    音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部と、
    を有することを特徴とする音声認識システム。
  10. 一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、
    音声認識対象とする音声区間の音響信号(被解析音響)を取得する工程と、
    該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、
    複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、
    その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、
    導出した前記音声情報を所要形態で出力する工程と、
    を含みなることを特徴とする情報処理システムによる音声認識方法。
  11. 情報処理システムを、
    音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
    として動作させることを特徴とする音声認識プログラム。
JP2013204277A 2013-09-30 2013-09-30 音声認識システム、音声認識方法、及び音声認識プログラム Pending JP2015069063A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013204277A JP2015069063A (ja) 2013-09-30 2013-09-30 音声認識システム、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013204277A JP2015069063A (ja) 2013-09-30 2013-09-30 音声認識システム、音声認識方法、及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2015069063A true JP2015069063A (ja) 2015-04-13

Family

ID=52835757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013204277A Pending JP2015069063A (ja) 2013-09-30 2013-09-30 音声認識システム、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2015069063A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393539A (zh) * 2017-07-17 2017-11-24 傅筱萸 一种声音密码控制方法
JPWO2017037830A1 (ja) * 2015-08-31 2017-11-24 三菱電機株式会社 音声認識装置および音声認識処理方法
CN109785864A (zh) * 2019-02-26 2019-05-21 北京华夏电通科技有限公司 消除庭审噪声干扰的方法及装置
WO2020121474A1 (ja) * 2018-12-13 2020-06-18 三菱電機株式会社 情報処理装置、音声認識システム、制御方法、及び制御プログラム
CN111383655A (zh) * 2018-12-29 2020-07-07 北京嘉楠捷思信息技术有限公司 一种波束形成方法、装置及计算机可读存储介质
CN111739550A (zh) * 2019-03-25 2020-10-02 恩智浦有限公司 用于语音增强的音频处理系统
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统
US10950227B2 (en) 2017-09-14 2021-03-16 Kabushiki Kaisha Toshiba Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07295585A (ja) * 1994-04-22 1995-11-10 Suzuki Motor Corp 車載用音声認識装置
JP2001067094A (ja) * 1999-08-30 2001-03-16 Mitsubishi Electric Corp 音声認識装置及び方法
JP2004347956A (ja) * 2003-05-23 2004-12-09 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2013007764A (ja) * 2011-06-22 2013-01-10 Clarion Co Ltd 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07295585A (ja) * 1994-04-22 1995-11-10 Suzuki Motor Corp 車載用音声認識装置
JP2001067094A (ja) * 1999-08-30 2001-03-16 Mitsubishi Electric Corp 音声認識装置及び方法
JP2004347956A (ja) * 2003-05-23 2004-12-09 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2013007764A (ja) * 2011-06-22 2013-01-10 Clarion Co Ltd 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
町田晃平,伊藤彰則: "非同期・間欠観測型複数マイクロホンを用いたスペクトル減算による雑音除去の検討", 日本音響学会 2013年 春季研究発表会講演論文集CD−ROM, JPN6017024504, 5 March 2013 (2013-03-05), JP, pages 171 - 172, ISSN: 0003590754 *
町田晃平、伊藤彰則: "雑音GMMと並列デコーディングを用いた非定常雑音下音声認識", 日本音響学会 2013年 秋季研究発表会講演論文集CD−ROM, JPN6017024502, 17 September 2013 (2013-09-17), JP, pages 143 - 144, ISSN: 0003590753 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2017037830A1 (ja) * 2015-08-31 2017-11-24 三菱電機株式会社 音声認識装置および音声認識処理方法
CN107393539A (zh) * 2017-07-17 2017-11-24 傅筱萸 一种声音密码控制方法
US10950227B2 (en) 2017-09-14 2021-03-16 Kabushiki Kaisha Toshiba Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium
WO2020121474A1 (ja) * 2018-12-13 2020-06-18 三菱電機株式会社 情報処理装置、音声認識システム、制御方法、及び制御プログラム
CN111383655A (zh) * 2018-12-29 2020-07-07 北京嘉楠捷思信息技术有限公司 一种波束形成方法、装置及计算机可读存储介质
CN111383655B (zh) * 2018-12-29 2023-08-04 嘉楠明芯(北京)科技有限公司 一种波束形成方法、装置及计算机可读存储介质
CN109785864A (zh) * 2019-02-26 2019-05-21 北京华夏电通科技有限公司 消除庭审噪声干扰的方法及装置
CN111739550A (zh) * 2019-03-25 2020-10-02 恩智浦有限公司 用于语音增强的音频处理系统
CN111883151A (zh) * 2020-07-30 2020-11-03 云知声智能科技股份有限公司 音频信号的处理方法、装置、设备和存储介质
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和系统

Similar Documents

Publication Publication Date Title
JP2015069063A (ja) 音声認識システム、音声認識方法、及び音声認識プログラム
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
US9536523B2 (en) Method and system for identification of speech segments
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
CN107871499B (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
Brandes Feature vector selection and use with hidden Markov models to identify frequency-modulated bioacoustic signals amidst noise
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
US9953633B2 (en) Speaker dependent voiced sound pattern template mapping
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
CN111667834B (zh) 一种助听设备及助听方法
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
CN112185342A (zh) 语音转换与模型训练方法、装置和系统及存储介质
WO2015183254A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN115223584A (zh) 音频数据处理方法、装置、设备及存储介质
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
CN118098237B (zh) 智能语音鼠标的控制方法及智能语音鼠标
CN113724692B (zh) 一种基于声纹特征的电话场景音频获取与抗干扰处理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160809

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170705

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180110