JP2015069063A - 音声認識システム、音声認識方法、及び音声認識プログラム - Google Patents
音声認識システム、音声認識方法、及び音声認識プログラム Download PDFInfo
- Publication number
- JP2015069063A JP2015069063A JP2013204277A JP2013204277A JP2015069063A JP 2015069063 A JP2015069063 A JP 2015069063A JP 2013204277 A JP2013204277 A JP 2013204277A JP 2013204277 A JP2013204277 A JP 2013204277A JP 2015069063 A JP2015069063 A JP 2015069063A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- speech recognition
- observation
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
他方、このような手法には、複数のマイクロホンのサンプリングを同期させる必要がある。また、マイクロホンを3入力や4入力と増やした際に、処理リソースが指数的に増加しやすい特性がある。また多くの手法は、マイクロホン自体の特性も揃える必要がある。
上記(1)の手法では、アレイ化したマイクロホン数と同数の多チャンネルADコンバータが必要となり、機器のコストが高くなりやすい。
また上記(2)の手法では、雑音が定常であることが求められる。テレビの音や話し声などの非定常雑音が重畳する利用環境には適さない傾向がある。
また上記(3)の手法では、音声認識に要する計算量が大きくなり、また作成される音声認識モデルが複雑になる。組み込み機器や携帯電話などでの音声認識に適さない側面を有する。
また、複数のマイクロホンを使用する際にも非同期で動作させて利用できる手法が望ましいと考える。非同期観測や間欠観測では、上記手法(1)(2)(3)と比較して、例えば、演算処理リソースの低減や、処理に要する電力の低減が図れ、また他にも装置の簡単化などの様々な利点がある。
・雑音観測は環境雑音を複数のマイクロホンで間欠的に収録する。
・音声認識エンジンはシステムに内在する。若しくは外部音声認識エンジンにネットワークを介して問い合わせて応答を受ける。
・システムは、マイクロホン間の同期もしくは常時観測の何れかが少なくとも行わない。
・認識すべき音声が入力されている期間(有音声区間)の音響について、音声認識する。
次に、第1の実施形態を図面を参照して説明する。
図1は、第1の実施形態に係る音声認識システム10を示した構成図である。
音声認識システム10は、ノイズ除去音声認識処理部100とノイズモデル記憶部200を含み、任意の音声認識エンジンと通信して音声認識結果を得る。各部は以下の処理を行える構成を有する。
結果選定処理では、音声認識処理工程で得られた各認識結果について、各認識結果のスコアや信頼度から尤もらしい結果もしくは結果候補を最終出力として導出する。この際、各認識結果に含まれていた候補の多数決を採ってもよい。また、多数決を採る際に、スコア値や信頼度値を踏まえることとしてもよい。
保持する雑音モデルは、後述する実施例のように自システムで生成してもよいし、他のシステムによって生成されたモデルを利用してもよい。また、既存のモデルや音響標本と共に、自システムで観測した雑音を加えて雑音モデルを学習してもよい。
このように観測した雑音を収集して、雑音の種類毎にモデル化する。雑音観測は、1台のマイクロホンで部屋内の異なる箇所で雑音収集を行ってもよく、また、異なる位置、異なる時間の標本が取れることが望ましい。また、雑音観測は、異なるマイクロホンで必ずしも異なる期間で観測する必要は無く、観測期間がオーバラップしていたとしても構わない。
図3は、音声認識システム10の音声認識処理を示したフローチャートである。
音声認識システム10は、予めノイズモデル記憶部200に雑音低減に用いる雑音モデル群を保持する。また、必要に応じて、用いる音声認識エンジンや、出力結果の種別などの選択を受け付ける。本処理例では、4つの雑音モデルを保持している。後述するGMM(Gaussian Mixture Model)であれば混合数4の集合雑音モデルを1つ保持している。
次に、本発明の第2の実施形態を説明する。
図4は、第2の実施形態に係る音声認識システム20を示した構成図である。
音声認識システム20は、ノイズ除去音声認識処理部100とノイズモデル記憶部200と音声認識エンジン300と音響受付部400と雑音モデル生成部500を有している。各部は以下の処理を行える構成を有する。
図5は、1つの集合雑音モデルを生成処理する処理動作を示した説明図である。
まずは、音響受付部400は標本となる音響信号を収集して、特徴量列に変換する(ステップS201、S202)。
次に、雑音モデル生成部500は、標本の特徴量列を用いて各雑音をモデル化する(ステップS203)。
雑音毎のモデル化には、ガウス混合モデル(Gaussian Mixture Model: GMM) を集合雑音モデルとして用いる。GMMにおいて、特徴ベクトルx の音が発生する尤度p(x) は下記式1で表される。
この多次元混合ガウス分布は、それぞれに平均ベクトルμmと共分散行列Σm を有する。M は混合数,λi は重み係数である。
λi,μm,Σm はEMアルゴリズムを用いて学習データを基に推定すればよい。
GMMの学習の結果得られた各ガウス分布が個々の雑音モデルであることして用いる。この際、混合数Mは、設定値を用いればよい。
ここで、一つの実施例を説明する。
音声認識システムの構成は第2の実施形態の構成を用いる。本実施例では、各音響信号をFBANKに変換して扱う。
また、本方式の雑音の間欠観測や非同期観測の特徴によって、具現化した際の装置構成が簡単化でき、またエネルギー消費を常時観測や同期観測のシステムに対して削減できる。
[付記1]
一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部と
を含みなることを特徴とする音声認識システム。
一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部を更に含むことを特徴とする上記付記記載の音声認識システム。
前記雑音モデル生成部は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする上記付記記載の音声認識システム。
前記雑音モデル生成部は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする上記付記記載の音声認識システム。
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする上記付記記載の音声認識システム。
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする上記付記記載の音声認識システム。
前記ノイズモデル記憶部には、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを記憶しており、
前記ノイズ除去音声認識処理部は、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記ノイズモデル記憶部に蓄積されている前記雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする上記付記記載の音声認識システム。
前記ノイズ除去音声認識処理部は、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする上記付記記載の音声認識システム。
任意の音声認識エンジンをシステム内に含み、
前記ノイズモデル記憶部は、雑音分類結果毎の複数の雑音モデルを保持し、
前記ノイズ除去音声認識処理部は、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記ノイズ除去音声認識処理部は、前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識システム。
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部と、
を有することを特徴とする音声認識システム。
一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、
音声認識対象とする音声区間の音響信号(被解析音響)を取得する工程と、
該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、
複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、
その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、
導出した前記音声情報を所要形態で出力する工程と、
を含みなることを特徴とする情報処理システムによる音声認識方法。
一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成工程を含むことを特徴とする上記付記記載の音声認識方法。
前記雑音モデル生成工程は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする上記付記記載の音声認識方法。
前記雑音モデル生成工程は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする上記付記記載の音声認識方法。
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする上記付記記載の音声認識方法。
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする上記付記記載の音声認識方法。
前記集合雑音モデルでは、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを用い、
前記仮想ノイズ除去音響信号を生成処理する工程では、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記集合雑音モデルの雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする上記付記記載の音声認識方法。
前記仮想ノイズ除去音響信号を生成処理する工程では、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする上記付記記載の音声認識方法。
任意の音声認識エンジンをシステム内に含み、
該システムは、
雑音分類結果毎の複数の雑音モデルを用いて、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識方法。
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付け、この複数の間欠音響信号から雑音モデルを生成して、複数の雑音モデルを準備し、
音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理する
ことを特徴とする音声認識方法。
情報処理システムを、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。
前記情報処理システムを、
一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部として更に動作させることを特徴とする上記付記記載の音声認識プログラム。
前記雑音モデル生成部を、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理するように動作させることを特徴とする上記付記記載の音声認識プログラム。
前記雑音モデル生成部を、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出するように動作させることを特徴とする上記付記記載の音声認識プログラム。
複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないように動作させることを特徴とする上記付記記載の音声認識プログラム。
音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように動作させることを特徴とする上記付記記載の音声認識プログラム。
前記集合雑音モデルでは、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを用い、
前記ノイズ除去音声認識処理部を、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記集合雑音モデルの前記雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ように動作させることを特徴とする上記付記記載の音声認識プログラム。
前記ノイズ除去音声認識処理部を、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択するように動作させることを特徴とすることを特徴とする上記付記記載の音声認識プログラム。
任意の音声認識エンジンを含み、
雑音分類結果毎の複数の雑音モデルを用いて、前記複数の仮想ノイズ除去音響信号を並列的に生成して、各々逐次的に音声認識処理を実行し、
前記各々の音声認識処理結果から音声情報を導出処理する
ことを特徴とする上記付記記載の音声認識プログラム。
情報処理システムを、
ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。
情報処理システムを、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラムを固定的に記録した記録媒体。
20 音声認識システム
100 ノイズ除去音声認識処理部(ノイズ除去音声認識処理手段)
200 ノイズモデル記憶部(ノイズモデル記憶手段)
300 音声認識エンジン(音声認識手段)
400 音響受付部(音響受付手段)
500 雑音モデル生成部(雑音モデル生成手段)
Claims (11)
- 一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを保持するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部と
を含みなることを特徴とする音声認識システム。 - 一ないし複数のマイクロホンから受け付けた非同期観測及び/又は間欠観測の結果を複数用いて、複数の雑音モデルを生成処理する雑音モデル生成部を更に含むことを特徴とする請求項1記載の音声認識システム。
- 前記雑音モデル生成部は、異なる位置に任意に配置された複数のマイクロホンを用いて異なる期間を間欠観測された複数の結果を用いて、前記複数の雑音モデルを生成処理することを特徴とする請求項2に記載の音声認識システム。
- 前記雑音モデル生成部は、雑音のモデル化にガウス混合モデルを用いて、一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果から雑音分類結果毎の複数の雑音モデルを集合雑音モデルとして抽出することを特徴とする請求項2に記載の音声認識システム。
- 複数のマイクロホンを用いて間欠観測する際に、観測結果を得る処理工程に同期的処理を行う構成を伴わないことを特徴とする請求項1ないし4の何れか一項に記載の音声認識システム。
- 音声認識対象とする被解析音響を取得する任意のマイクロホンは、所定以上のパワーの音響を観測していない間は待機状態に維持され、所定以上のパワーの音響が入力された際に、前記音声区間の音響信号の取得を開始するように扱われることを特徴とする請求項1ないし5の何れか一項に記載の音声認識システム。
- 前記ノイズモデル記憶部には、個々の雑音モデルとして雑音ガウス分布の平均ベクトルを記憶しており、
前記ノイズ除去音声認識処理部は、音声認識対象とする音声区間の音響信号(被解析音響)をフィルタバンク特徴量系列に変換して、前記ノイズモデル記憶部に蓄積されている前記雑音ガウス分布の平均ベクトルの1つを減算することで、雑音影響を低減したフィルタバンク特徴量系列を前記仮想ノイズ除去音響信号として生成する
ことを特徴とする請求項4記載の音声認識システム。 - 前記ノイズ除去音声認識処理部は、前記被解析音響を変換したフィルタバンク特徴量系列について、前記雑音ガウス分布の各平均ベクトル全てで雑音影響を低減したフィルタバンク特徴量系列を生成し、各雑音影響を低減したフィルタバンク特徴量系列の音声認識結果から、各々のスコア基準、各々の信頼性基準、多数決基準あるはその組み合わせに従って最終的な認識結果を選択することを特徴とすることを特徴とする請求項7記載の音声認識システム。
- ある空間に分散して配置されたマイクロホンからの間欠音響信号を入力として受け付ける音響受付部と、
前記音響受付部で取得された複数の間欠音響信号から雑音モデルを生成する雑音モデル生成部と、
モデル化された複数の雑音モデルを蓄積するノイズモデル記憶部と、
音声認識対象とする音声区間の音響信号(被解析音響)から、各雑音モデルをそれぞれ用いて雑音影響を減算した各々の音声特徴系列を、並列的に生成処理すると共に、雑音影響を除いた複数の音声特徴系列を、音声認識エンジンを用いてそれぞれ音声認識すると共に、音声認識した各々の結果を受け付けて認識結果に合う結果を選択処理するノイズ除去音声認識処理部と、
を有することを特徴とする音声認識システム。 - 一ないし複数のマイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルを準備する工程と、
音声認識対象とする音声区間の音響信号(被解析音響)を取得する工程と、
該音声区間の音響信号から前記複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送る工程と、
複数の仮想ノイズ除去音響信号をそれぞれ音声認識する工程と、
その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理する工程と、
導出した前記音声情報を所要形態で出力する工程と、
を含みなることを特徴とする情報処理システムによる音声認識方法。 - 情報処理システムを、
音声認識対象とする音声区間の音響信号(被解析音響)を取得し、該音声区間の音響信号から、マイクロホンの非同期観測及び/又は間欠観測の結果を用いて生成された複数の雑音モデルに含まれる各々の雑音モデルから求まる雑音影響を低減した複数の仮想ノイズ除去音響信号を生成処理すると共に、該複数の仮想ノイズ除去音響信号をそれぞれ音声認識処理に送り、その各認識結果を入力として音声認識対象とする音声区間に含まれていた音声情報を導出処理するノイズ除去音声認識処理部、
として動作させることを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204277A JP2015069063A (ja) | 2013-09-30 | 2013-09-30 | 音声認識システム、音声認識方法、及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204277A JP2015069063A (ja) | 2013-09-30 | 2013-09-30 | 音声認識システム、音声認識方法、及び音声認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015069063A true JP2015069063A (ja) | 2015-04-13 |
Family
ID=52835757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013204277A Pending JP2015069063A (ja) | 2013-09-30 | 2013-09-30 | 音声認識システム、音声認識方法、及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015069063A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107393539A (zh) * | 2017-07-17 | 2017-11-24 | 傅筱萸 | 一种声音密码控制方法 |
JPWO2017037830A1 (ja) * | 2015-08-31 | 2017-11-24 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
CN109785864A (zh) * | 2019-02-26 | 2019-05-21 | 北京华夏电通科技有限公司 | 消除庭审噪声干扰的方法及装置 |
WO2020121474A1 (ja) * | 2018-12-13 | 2020-06-18 | 三菱電機株式会社 | 情報処理装置、音声認識システム、制御方法、及び制御プログラム |
CN111383655A (zh) * | 2018-12-29 | 2020-07-07 | 北京嘉楠捷思信息技术有限公司 | 一种波束形成方法、装置及计算机可读存储介质 |
CN111739550A (zh) * | 2019-03-25 | 2020-10-02 | 恩智浦有限公司 | 用于语音增强的音频处理系统 |
CN111883151A (zh) * | 2020-07-30 | 2020-11-03 | 云知声智能科技股份有限公司 | 音频信号的处理方法、装置、设备和存储介质 |
CN111933174A (zh) * | 2020-08-16 | 2020-11-13 | 云知声智能科技股份有限公司 | 语音处理方法、装置、设备和系统 |
US10950227B2 (en) | 2017-09-14 | 2021-03-16 | Kabushiki Kaisha Toshiba | Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295585A (ja) * | 1994-04-22 | 1995-11-10 | Suzuki Motor Corp | 車載用音声認識装置 |
JP2001067094A (ja) * | 1999-08-30 | 2001-03-16 | Mitsubishi Electric Corp | 音声認識装置及び方法 |
JP2004347956A (ja) * | 2003-05-23 | 2004-12-09 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2013007764A (ja) * | 2011-06-22 | 2013-01-10 | Clarion Co Ltd | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
-
2013
- 2013-09-30 JP JP2013204277A patent/JP2015069063A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295585A (ja) * | 1994-04-22 | 1995-11-10 | Suzuki Motor Corp | 車載用音声認識装置 |
JP2001067094A (ja) * | 1999-08-30 | 2001-03-16 | Mitsubishi Electric Corp | 音声認識装置及び方法 |
JP2004347956A (ja) * | 2003-05-23 | 2004-12-09 | Toshiba Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2013007764A (ja) * | 2011-06-22 | 2013-01-10 | Clarion Co Ltd | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
Non-Patent Citations (2)
Title |
---|
町田晃平,伊藤彰則: "非同期・間欠観測型複数マイクロホンを用いたスペクトル減算による雑音除去の検討", 日本音響学会 2013年 春季研究発表会講演論文集CD−ROM, JPN6017024504, 5 March 2013 (2013-03-05), JP, pages 171 - 172, ISSN: 0003590754 * |
町田晃平、伊藤彰則: "雑音GMMと並列デコーディングを用いた非定常雑音下音声認識", 日本音響学会 2013年 秋季研究発表会講演論文集CD−ROM, JPN6017024502, 17 September 2013 (2013-09-17), JP, pages 143 - 144, ISSN: 0003590753 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2017037830A1 (ja) * | 2015-08-31 | 2017-11-24 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
CN107393539A (zh) * | 2017-07-17 | 2017-11-24 | 傅筱萸 | 一种声音密码控制方法 |
US10950227B2 (en) | 2017-09-14 | 2021-03-16 | Kabushiki Kaisha Toshiba | Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium |
WO2020121474A1 (ja) * | 2018-12-13 | 2020-06-18 | 三菱電機株式会社 | 情報処理装置、音声認識システム、制御方法、及び制御プログラム |
CN111383655A (zh) * | 2018-12-29 | 2020-07-07 | 北京嘉楠捷思信息技术有限公司 | 一种波束形成方法、装置及计算机可读存储介质 |
CN111383655B (zh) * | 2018-12-29 | 2023-08-04 | 嘉楠明芯(北京)科技有限公司 | 一种波束形成方法、装置及计算机可读存储介质 |
CN109785864A (zh) * | 2019-02-26 | 2019-05-21 | 北京华夏电通科技有限公司 | 消除庭审噪声干扰的方法及装置 |
CN111739550A (zh) * | 2019-03-25 | 2020-10-02 | 恩智浦有限公司 | 用于语音增强的音频处理系统 |
CN111883151A (zh) * | 2020-07-30 | 2020-11-03 | 云知声智能科技股份有限公司 | 音频信号的处理方法、装置、设备和存储介质 |
CN111933174A (zh) * | 2020-08-16 | 2020-11-13 | 云知声智能科技股份有限公司 | 语音处理方法、装置、设备和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015069063A (ja) | 音声認識システム、音声認識方法、及び音声認識プログラム | |
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
US9536523B2 (en) | Method and system for identification of speech segments | |
KR101610151B1 (ko) | 개인음향모델을 이용한 음성 인식장치 및 방법 | |
CN107871499B (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP4746533B2 (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
Brandes | Feature vector selection and use with hidden Markov models to identify frequency-modulated bioacoustic signals amidst noise | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
US9953633B2 (en) | Speaker dependent voiced sound pattern template mapping | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
CN111667834B (zh) | 一种助听设备及助听方法 | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
WO2015183254A1 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN115223584A (zh) | 音频数据处理方法、装置、设备及存储介质 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
CN118098237B (zh) | 智能语音鼠标的控制方法及智能语音鼠标 | |
CN113724692B (zh) | 一种基于声纹特征的电话场景音频获取与抗干扰处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160809 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170705 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20170705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180110 |