JP2015135494A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP2015135494A
JP2015135494A JP2015005684A JP2015005684A JP2015135494A JP 2015135494 A JP2015135494 A JP 2015135494A JP 2015005684 A JP2015005684 A JP 2015005684A JP 2015005684 A JP2015005684 A JP 2015005684A JP 2015135494 A JP2015135494 A JP 2015135494A
Authority
JP
Japan
Prior art keywords
background sound
speech recognition
noise reduction
module
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015005684A
Other languages
English (en)
Inventor
暁利 王
Xiaoli Wang
暁利 王
勇波 曾
Yongbo Zeng
勇波 曾
永生 張
Yongsheng Zhang
永生 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2015135494A publication Critical patent/JP2015135494A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【解決手段】本発明は、クライアント機器の所在する位置付近の背景音を記録し、記録された背景音に基づいて、雑音モデルを生成し、生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る、ことを含む音声認識方法を開示している。また、本発明は、上記方法を実行するエッジノード、音声認識エンジン、及び制御サーバを開示している。
【効果】本発明では、干渉除去用の背景音がクライアント機器の所在する位置付近のエッジノードによって捕捉して記録され、クライアント機器の所在する位置付近の環境雑音又は外部音の状況を適時かつ正確に反映できるので、この背景音で雑音モデルを生成して雑音低減を行うことにより、非常によい雑音低減効果を得ることができ、音声認識の認識率を大幅に向上させることができる。
【選択図】図1

Description

本発明は、音声認識技術分野に関し、特に音声認識方法及び装置に関する。
音声認識技術は、簡単に言えば、機械に認識及び理解によって音声信号を相応のテキスト又は命令に変換させる技術である。音声認識技術は、主に、音声特徴抽出技術、パターンマッチング基準、及びモデル訓練技術などを含む。
現在、音声認識技術は、急速に発展しており、幅広く用いられている。しかし、環境雑音が大きい環境では、例えば体育場などのざわついた環境では、音声認識技術の適用は、大きな制限を受けている。理解できるように、ユーザが発話する際の背景雑音が大きいほど、音声認識の認識率が低くなる。ひいては、背景雑音による影響を受けて、発話終了検出(Utterance Ending Detection)を完成できず、つまり、ユーザがいつ発話を停止したかを検出できない場合が多い。
上記の課題を解決するために、本発明の実施例では、雑音環境における音声認識の認識率を向上させることが可能な音声認識方法、及びこの方法を実行する装置を提供している。
本発明の実施例における音声認識方法は、クライアント機器の所在する位置付近の背景音を記録し、記録された背景音に基づいて、雑音モデルを生成し、生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る、ことを含む。
上記クライアント機器の所在する位置付近の背景音を記録することは、前記クライアント機器にサービスを提供するエッジノードが、自ノードの周囲の背景音を記録する、ことを含む。
ここで、上記音声ファイルには、タイムスタンプが含まれ、上記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルに対応するタイムスタンプに基づいて、前記タイムスタンプにより指示される時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む。
上記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルを受信した時間に基づいて、前記時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む。
或いは、上記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、クライアント機器からアップロードされた音声ファイルを受信すると、背景音を記録し始め、記録された背景音に基づいて、雑音モデルを生成する、ことを含む。
また或いは、上記記録された背景音に基づいて、雑音モデルを生成することは、音声認識エンジンが、制御サーバに背景音記録アップロード要求を送信し、制御サーバからアップロードされた背景音を受信すると、音声認識エンジンが、制御サーバからアップロードされた背景音に基づいて、雑音モデルを生成する、ことを含む。
上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、前記音声認識エンジンが、生成された雑音モデルに基づいて、エッジノードから受信した音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、前記音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。
或いは、上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、エッジノードが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。
また或いは、上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。
また或いは、上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。
上記方法は、記録された背景音に基づいて、雑音モデルを生成する前に、記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する、ことをさらに含む。
本発明の実施例におけるエッジノードは、自ノードの所在する位置付近の背景音を記録する背景音記録モジュール(401)を含む。
エッジノードは、制御サーバからの背景音記録アップロード要求を受信する要求受信モジュール(1201)と、自ノードで記録された背景音を制御サーバにアップロードする背景音アップロードモジュール(1202)と、をさらに含んでもよい。
或いは、上記エッジノードは、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール(403)と、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール(404)と、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る音声認識モジュール(405)と、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール(406)と、をさらに含む。
また或いは、上記エッジノードは、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール(403)と、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール(404)と、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードするファイルアップロードモジュール(601)と、をさらに含む。
また或いは、上記エッジノードは、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール(403)と、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする第2のファイルアップロードモジュール(901)と、をさらに含む。
上記エッジノードは、記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する伝搬損失推定モジュールをさらに含む。
本発明の実施例における音声認識エンジンは、各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリ(701)と、各種の異なる言語の語彙情報を記憶する言語ライブラリ(702)と、音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して検索及び復号を行って、認識後のテキストを得る検索・復号ユニット(703)と、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール(406)と、を含む。
上記音声認識エンジンは、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール(404)をさらに含む。
さらに、音声認識エンジンは、音声ファイルを受信すると、雑音低減処理が必要であるか否かを判断し、雑音低減処理が必要でない場合、発話終了検出モジュール(404)による音声ファイルへの発話終了検出処理をトリガーし、雑音低減処理が必要である場合、要求モジュール(1402)を制御して制御サーバに背景音記録アップロード要求を送信する制御モジュール(1401)と、制御サーバに背景音記録アップロード要求を送信する要求モジュール(1402)と、クライアント機器にサービスを提供するエッジノードで記録された背景音を制御サーバから受信する背景音受信モジュール(1403)と、受信された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行い、発話終了検出モジュール(404)による音声ファイルへの発話終了検出処理をトリガーする雑音低減モジュール(403)と、を含んでもよい。
本発明の実施例における制御サーバでは、音声認識エンジンからの背景音記録アップロード要求を受信するアップロード要求受信モジュール(1301)と、背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定するマッチングモジュール(1302)と、該エッジノードに背景音記録アップロード要求を転送し、該エッジノードからアップロードされた背景音を音声認識エンジンに転送する転送モジュール(1303)と、を含む。
本発明の各実施例では、干渉除去用の背景音がクライアント機器の所在する位置付近のエッジノードによって捕捉して記録され、クライアント機器の所在する位置付近の環境雑音又は外部音の状況を適時かつ正確に反映できるので、この背景音で雑音モデルを生成して雑音低減を行うことにより、非常によい雑音低減効果を得ることができ、音声認識の認識率を大幅に向上させることができる。
本発明の実施例における音声認識方法のフローチャートである。 本発明の実施例における音声認識方法のフローチャートである。 本発明の実施例におけるクライアント機器の内部構成を示す図である。 本発明の実施例におけるエッジノードの内部構成を示す図である。 本発明の他の実施例における音声認識方法のフローチャートである。 本発明の他の実施例におけるエッジノードの内部構成を示す図である。 本発明の他の実施例における音声認識エンジンの内部構成を示す図である。 本発明の別の実施例における音声認識方法のフローチャートである。 本発明の別の実施例におけるエッジノードの内部構成を示す図である。 本発明の別の実施例における音声認識エンジンの内部構成を示す図である。 本発明のもう1つの実施例における音声認識方法のフローチャートである。 本発明のもう1つの実施例におけるエッジノードの内部構成を示す図である。 本発明のもう1つの実施例における制御サーバの内部構成を示す図である。 本発明のもう1つの実施例における音声認識エンジンの内部構成を示す図である。
現在の移動通信システムにおいて、例えば体育館やショッピングセンターなどの区域のようなトラフィック密集区域のネットワーク容量を向上させるために、第3世代パートナーシッププロジェクト(3GPP:3rd Generation Partnership Project)のリリース12(Rel−12)の規定では、トラフィック密集区域に、マクロセル(Macro Cell)に加えて、スモールセル(Small Cell)を配置し、これらのスモールセルによって、大部のデータトラフィックを負担することもでき、これにより、ネットワーク容量を大幅に向上させることができる。また、WLANにおいても、データトラフィックを負担するAPが配置される。ここで、スモールセル基地局及びAPは、いずれも、エッジノード(Edge Node)と呼んでもよい。
上記のスモールセル適用環境又はWLAN適用環境に基づき、従来に雑音環境で音声認識の認識率が低い課題を解決するために、本発明の実施例では、音声認識方法を提供している。この方法の具体的な実現フローは、図1に示すように、主に、クライアント機器の所在する位置付近の背景音、例えば環境雑音やスピーカー音源などを記録するステップ101と、記録された背景音に基づいて、雑音モデルを生成するステップ102と、生成された雑音モデルに基づいて、クライアント機器からの音声ファイルに対して雑音低減処理を行うステップ103と、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得るステップ104と、を含む。
上記方法において、上記クライアント機器からの音声ファイルは、ユーザが使用するクライアント機器、例えば移動端末などによって、受信して記録されたファイル、例えばMP3やWAVなどのファイルであってもよい。また、上記音声ファイルは、エッジノードへアップロードされる。伝送情報量を減少するために、クライアント機器は、さらに、記録されたMP3やWAVファイルに対して、特徴抽出(例えば、MFCC特徴を抽出する)処理を行って、特徴抽出後の特徴ファイルを音声ファイルとしてエッジノードにアップロードしてもよい。また、本発明の一実施例によるクライアント機器は、音声ファイルを記録した時間、即ち、音声ファイルに対応する時間情報を指示するように、自局で生成された音声ファイルにタイムスタンプを付けてもよい。
上記ステップ101において、上記クライアント機器の所在する位置付近の背景音は、該クライアント機器のサービングスモールセル基地局又はAP、即ちエッジノードによって記録されてもよい。具体的には、エッジノードの内部に音捕捉装置を取り付け、音捕捉装置によって、自装置の周囲の背景音を捕捉して記録し、次いでエッジノードにフィードバックしてもよい。本発明の一実施例では、エッジノードは、自ノードの周囲の背景音を常に記録して、記録された背景音に対応する時間情報を指示するように、記録された背景音にタイムスタンプを付けてもよいし、エッジノードは、背景音の強度をリアルタイムに監視し、背景音の強度が所定の閾値を超えたことを発見して初めて、記録を開始してもよい。或いは、本発明の他の実施例によれば、エッジノードは、自ノードの周囲の背景音を常に記録する必要がなく、クライアント機器からアップロードされた音声信号を受信して初めて、付近の背景音を記録し始めてもよい。記録された背景音は、雑音モデルの生成に十分であればよい。
上記ステップ102において、雑音モデルを生成するための背景音の記録時間は、上記クライアント機器の音声信号の記録時間に対応すべきである。具体的には、クライアント機器からアップロードされた音声ファイルにタイムスタンプが付いており、かつエッジノードが自ノードの周囲の背景音を常に記録することが可能な場合、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、まず、音声ファイルに対応するタイムスタンプに基づいて、該タイムスタンプにより指示される時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。
或いは、クライアント機器からアップロードされた音声ファイルにタイムスタンプが付いていない一方、エッジノードが自ノードの周囲の背景音を常に記録することが可能な場合、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、音声ファイルを受信した時間に基づいて、該時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。
また或いは、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信して初めて、自ノードの周囲の背景音を記録し始め、次いで、自ノードで記録された付近の環境雑音に基づいて、雑音モデルを生成する。具体的には、本発明の実施例では、複数種類の方法によって雑音モデルを生成し、例えば、ガウス混合モデル(GMM)や非負の行列の因数分解(NMF)によって生成してもよい。
上記ステップ103において、エッジノードが、生成された雑音モデルに基づいて、クライアント機器からの音声ファイルに対して雑音低減処理を行ってもよいし、クラウドに位置する音声認識エンジンが雑音低減処理を行ってもよい。
上記ステップ104において、エッジノードが、雑音低減処理後の音声信号に対して音声認識を行って、認識後のテキストを得るようにしてもよく、或いは、クラウドの音声認識エンジンが音声認識を行ってもよい。
以下、具体的な図2から図4を参照しながら、本発明の一実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理、発話終了検出処理、及び音声認識処理は、いずれも、エッジノードで行われる。
図2には、本実施例による音声認識方法が示されている。図2に示すように、この方法は、主に、以下のステップを含む。
ステップ201で、クライアント機器は、ユーザからの音声信号を記録する。本ステップにおいて、ユーザが音声認識のキーを押下すると、クライアント機器は、ユーザからの音声信号を記録し始める。
ステップ202で、クライアント機器は、記録された音声信号に基づいて、音声ファイルを生成する。上記音声ファイルは、MP3、WAVE、及びMFCCなどのファイルを含むが、これらに限定されない。さらに、本ステップにおいて、クライアント機器は、音声ファイルに対応する時間情報を指示するように、生成された音声ファイルにタイムスタンプを付けてもよい。
ステップ203で、クライアント機器は、生成された音声ファイルを、クライアント機器にサービスを提供するエッジノードにアップロードする。
ステップ204で、エッジノードは、自ノードの所在する位置付近の背景音を記録する。上記のように、本ステップにおいて、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、自ノードの所在する位置付近の背景音を記録し始めてもよい。また、エッジノードは、自ノードの所在する位置付近の背景音を持続的に記録してもよい。
ステップ205で、エッジノードは、記録された背景音に基づいて、雑音モデルを生成する。雑音モデルを生成する際に、クライアント機器から受信した音声ファイルにタイムスタンプが付いている場合、エッジノードは、音声ファイルに対応するタイムスタンプに基づいて、該タイムスタンプにより指示される時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。或いは、クライアント機器からアップロードされた音声ファイルにタイムスタンプが付いていない場合、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、音声ファイルを受信した時間に基づいて、該時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。また或いは、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、背景音を記録し始めて、記録された背景音に基づいて、雑音モデルを生成する。
具体的には、本発明の一実施例によれば、背景音の音量が予め設定された音量閾値より大きい場合にのみ、エッジノードは、自ノードの周囲の背景音を記録するが、背景音の音量が該音量閾値以下である場合、エッジノードは、背景音を記録せず、直接に自ノードの周囲の背景音に0を設定してもよい。
ステップ206で、エッジノードは、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う。
ステップ207で、エッジノードは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。具体的には、本ステップにおいて、エッジノードは、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する。
ステップ208で、エッジノードは、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る。
ステップ209で、エッジノードは、認識後のテキストをアプリケーションサーバにアップロードする。
当業者であれば理解できるように、クライアント機器とエッジノードとの所在する位置が異なるため、背景音の大きさも異なる可能性があり、異なる位置における背景音の差異による雑音低減効果への影響を軽減するために、上記方法のステップ205の前に、即ち、雑音モデルを生成する前に、エッジノードは、さらに、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。
具体的には、音源の異なるタイプに応じて、異なる処理を行ってもよい。例えば、点音源に対して、距離に基づく方法を用いてもよい。即ち、エッジノードは、背景音の音源とクライアント機器との間の距離と、背景音の音源とエッジノードとの間の距離と基づいて、伝搬損失推定を行うことにより、エッジノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。具体的な方法は、以下の通りである。
背景音の音源とクライアント機器との間の距離がd1であり、背景音の音源とエッジノードとの間の距離がd2であるとし、エッジノードで受信された、クライアント機器からの信号がY1であり、エッジノードで受信された、背景音の音源からの信号がY2であるとすると、決定できるように、クライアント機器で受信された音声信号は、下記の数式1で表すことができる。ここで、背景音の音源とエッジノードとの間の距離d2は、予め設定されてもよい(例えば、奏楽堂において、音楽を再生するスピーカーとエッジノードとの間の距離は、固定されており、かつ既知である)。背景音の音源とクライアント機器との間の距離d1は、GPSによって決定してもよい。
Figure 2015135494
また、エッジノードは、出力密度に基づく方法を用いてもよい。即ち、エッジノードは、クライアント機器から受信した音声ファイルにおける背景音の出力密度と、自ノードで記録された背景音の出力密度とに基づいて、伝搬損失推定を行うことにより、エッジノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。説明すべきものとして、この方法は、各種の音源のタイプに適する。具体的な方法は、以下の通りである。
まず、クライアント機器は、受信された音声信号における背景音の出力密度PUEを決定する。上記出力密度PUEは、クライアント機器で受信された音声信号における音声休止から得ることができる。
クライアント機器は、決定された音声信号における背景音の出力密度PUEをエッジノードにアップロードする。
エッジノードは、自ノードで記録された背景音の出力密度PeNBを決定する。
エッジノードは、音声信号における背景音の出力密度PUEと自ノードで記録された背景音の出力密度PeNBとを比較することにより、伝搬損失を決定し、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得る。
図3には、本実施例における音声認識方法を実行するクライアント機器の内部構成が示されている。図3に示すように、本実施例におけるクライアント機器は、ユーザからの音声信号を受信して記録する音声信号記録モジュール301と、記録された音声信号に基づいて、音声ファイルを生成する音声ファイル生成モジュール302と、生成された音声ファイルを、クライアント機器の属するエッジノードにアップロードするアップロードモジュール303と、を含む。
上記のように、上記クライアント機器は、音声ファイルに対応する時間情報を指示するように、生成された音声ファイルにタイムスタンプを付けるタイムスタンプモジュールを含んでもよい。
図4には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図4に示すように、本実施例におけるエッジノードは、自ノードの所在する位置付近の背景音を記録する背景音記録モジュール401と、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール402と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール403と、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール404と、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る音声認識モジュール405と、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール406と、を含む。
上記のように、背景音記録モジュール401は、クライアント機器からアップロードされた音声ファイルを受信すると、自ノードの所在する位置付近の背景音を記録し始めてもよいし、自ノードの所在する位置付近の背景音を持続的に記録してもよい。
ここで、音声認識モジュール405は、各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリと、各種の異なる言語の語彙情報を記憶する言語ライブラリと、音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して、検索及び復号を行って、認識後のテキストを得る検索・復号ユニットと、を含んでもよい。
当業者であれば理解できるように、クライアント機器とエッジノードとの所在する位置が異なるため、背景音の大きさも異なる可能性があり、上記の差異による雑音低減効果への影響を軽減するために、上記エッジノードは、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得る伝搬損失推定モジュールをさらに含んでもよい。具体的な方法として、上記のような距離に基づく方法、又は出力密度に基づく方法を用いてもよい。
以下、具体的な図5から図7を参照しながら、本発明の他の実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理及び発話終了検出処理は、エッジノードで行われるが、音声認識処理は、クラウドの音声認識エンジンで行われる。
図5には、本実施例による音声認識方法が示されている。図5に示すように、この方法は、主に、以下のステップを含む。
ステップ201で、クライアント機器は、ユーザからの音声信号を受信して記録する。
ステップ202で、クライアント機器は、記録された音声信号に基づいて、音声ファイルを生成する。
ステップ203で、クライアント機器は、生成された音声ファイルを、クライアント機器の属するエッジノードにアップロードする。
ステップ204で、エッジノードは、自ノードの所在する位置付近の背景音を記録する。
ステップ205で、エッジノードは、記録された背景音に基づいて、雑音モデルを生成する。
ステップ206で、エッジノードは、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う。
ステップ207で、エッジノードは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。
本発明の実施例において、同一のステップ符号が同様の内容を表すため、上記のステップ201から207は、先の実施例に説明したステップ201から207と同様であり、ここで詳しい説明を省略する。
ステップ501で、エッジノードは、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードする。
ステップ502で、音声認識エンジンは、音声ファイルに対して音声認識を行って、認識後のテキストを得る。具体的には、本ステップにおいて、音声認識エンジンは、雑音低減処理後の音声ファイルに対して音声認識を行ってもよい。
ステップ503で、音声認識エンジンは、認識後のテキストをアプリケーションサーバにアップロードする。
また、上記のように、上記ステップ205の前に、即ち、雑音モデルを生成する前に、エッジノードは、さらに、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。具体的には、エッジノードは、距離に基づく方法、又は出力密度に基づく方法によって、背景音に対して伝搬損失推定を行ってもよい。
本実施例においても、クライアント機器の内部構成は、図3に示す通りである。つまり、本実施例においても、クライアント機器は、音声信号記録モジュール301と、音声ファイル生成モジュール302と、アップロードモジュール303と、を含む。また、クライアント機器は、タイムスタンプモジュールを含んでもよい。
図6には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図6に示すように、本実施例におけるエッジノードは、背景音記録モジュール401と、雑音モデル生成モジュール402と、雑音低減モジュール403と、発話終了検出モジュール404と、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードするファイルアップロードモジュール601と、を含む。
本発明の実施例において、同一のモジュール符号が同様の内容を表すため、上記のモジュール401から404は、先の実施例に説明したモジュール401から404と同様であり、ここで詳しい説明を省略する。
上記エッジノードは、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得る伝搬損失推定モジュールをさらに含んでもよい。具体的な方法として、上記のような距離に基づく方法、又は出力密度に基づく方法を用いてもよい。
図7には、本実施例における音声認識方法を実行する音声認識エンジンの内部構成が示されている。図7に示すように、本実施例における音声認識エンジンは、各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリ701と、各種の異なる言語の語彙情報を記憶する言語ライブラリ702と、音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して、検索及び復号を行って、認識後のテキストを得る検索・復号ユニット703と、を含む。音声認識エンジンは、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール406をさらに含む。
上記実施例の変形として、上記実施例において、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、一時にステップ205から206の雑音低減処理を行わず、受信された音声ファイルに対して発話終了検出処理を行ってから、音声認識処理を行うために、直接にクラウドの音声認識エンジンにアップロードしてもよい。音声認識エンジンは、音声認識の認識率が予め設定された認識閾値より大きいと判断した場合、直接に認識後のテキストをアプリケーションサーバにアップロードしてもよい。一方、音声認識エンジンは、音声認識の認識率が予め設定された認識閾値以下であると判断した場合、該クライアント機器にサービスを提供するエッジノードに雑音低減要求を送信する。この場合、エッジノードは、音声認識エンジンからの雑音低減要求を受信すると、上記ステップ205から206を実行して、雑音低減処理を行い、発話終了検出処理を再度実行した後に、処理後の音声ファイルを音声認識エンジンに改めてアップロードし、音声認識エンジンによって音声認識を再度行うことにより、音声認識の認識率を向上させる。
以下、具体的な図8から図10を参照しながら、本発明の別の実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理は、エッジノードで行われるが、発話終了検出処理及び音声認識処理は、クラウドの音声認識エンジンで行われる。
図8には、本実施例による音声認識方法が示されている。図8に示すように、この方法は、主に、以下のステップを含む。
ステップ201で、クライアント機器は、ユーザからの音声信号を受信して記録する。
ステップ202で、クライアント機器は、記録された音声信号に基づいて、音声ファイルを生成する。
ステップ203で、クライアント機器は、生成された音声ファイルを、クライアント機器の属するエッジノードにアップロードする。
ステップ204で、エッジノードは、自ノードの所在する位置付近の背景音を記録する。
ステップ205で、エッジノードは、記録された背景音に基づいて、雑音モデルを生成する。
ステップ206で、エッジノードは、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う。
本発明の実施例において、同一のステップ符号が同様の内容を表すため、上記のステップ201から206は、先の実施例に説明したステップ201から206と同様であり、ここで詳しい説明を省略する。
ステップ801で、エッジノードは、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする。
ステップ802で、音声認識エンジンは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。具体的には、本ステップにおいて、音声認識エンジンは、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する。
ステップ502で、音声認識エンジンは、音声ファイルに対して音声認識を行って、認識後のテキストを得る。
ステップ503で、音声認識エンジンは、認識後のテキストをアプリケーションサーバにアップロードする。
また、上記のように、上記ステップ205の前に、即ち、雑音モデルを生成する前に、エッジノードは、さらに、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。具体的には、エッジノードは、距離に基づく方法、又は出力密度に基づく方法によって、背景音に対して伝搬損失推定を行ってもよい。
本実施例においても、クライアント機器の内部構成は、図3に示す通りである。つまり、本実施例においても、クライアント機器は、音声信号記録モジュール301と、音声ファイル生成モジュール302と、アップロードモジュール303と、を含む。また、クライアント機器は、タイムスタンプモジュールを含んでもよい。
図9には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図9に示すように、本実施例におけるエッジノードは、背景音記録モジュール401と、雑音モデル生成モジュール402と、雑音低減モジュール403と、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする第2のファイルアップロードモジュール901と、を含む。
本発明の実施例において、同一のモジュール符号が同様の内容を表すため、上記のモジュール401から403は、先の実施例に説明したモジュール401から403と同様であり、ここで詳しい説明を省略する。
上記エッジノードは、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得る伝搬損失推定モジュールをさらに含んでもよい。具体的な方法として、上記のような距離に基づく方法、又は出力密度に基づく方法を用いてもよい。
図10には、本実施例における音声認識方法を実行する音声認識エンジンの内部構成が示されている。図10に示すように、本実施例における音声認識エンジンは、発話終了検出モジュール404と、音声ライブラリ701と、言語ライブラリ702と、検索・復号ユニット703と、テキストアップロードモジュール406と、を含む。これらモジュール404、406、及びモジュール701から703は、先の実施例に説明したモジュール404、406、及びモジュール701から703と同様であり、ここで詳しい説明を省略する。
上記実施例の変形として、上記実施例において、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、一時にステップ205から206の雑音低減処理を行わず、受信された音声ファイルを、発話終了検出処理及び音声認識処理を行うために、直接にクラウドの音声認識エンジンにアップロードしてもよい。音声認識エンジンは、音声認識の認識率が予め設定された認識閾値より大きいと判断した場合、直接に認識後のテキストをアプリケーションサーバにアップロードしてもよい。一方、音声認識エンジンは、音声認識の認識率が予め設定された認識閾値以下であると判断した場合、該クライアント機器にサービスを提供するエッジノードに雑音低減要求を送信する。この場合、エッジノードは、音声認識エンジンからの雑音低減要求を受信すると、上記ステップ205から206を実行して、雑音低減処理を行い、処理後の音声ファイルを音声認識エンジンに改めてアップロードし、音声認識エンジンによって発話終了検出処理及び音声認識処理を再度行うことにより、音声認識の認識率を向上させる。
以下、具体的な図11から図14を参照しながら、本発明のもう1つの実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理、発話終了検出処理及び音声認識処理は、いずれも、クラウドの音声認識エンジンで行われる。
本実施例では、クライアント機器、エッジノード、及び音声認識エンジンに加えて、音声認識システムは、エッジノードで記録された背景音を受信又は/及び管理し、クライアント機器の所在する位置と、ユーザからの音声信号の記録時間とに基づいて、相応の背景音を音声認識エンジンに提供する制御サーバも含む。
図11には、本実施例による音声認識方法が示されている。図11に示すように、この方法は、主に、以下のステップを含む。
ステップ201で、クライアント機器は、ユーザからの音声信号を受信して記録する。
ステップ202で、クライアント機器は、記録された音声信号に基づいて、音声ファイルを生成する。
ステップ1101で、クライアント機器は、生成された音声ファイルを、クライアント機器の属するエッジノードを介して、音声認識エンジンにアップロードする。
ステップ1102で、音声認識エンジンは、受信された音声ファイルに対して発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。具体的には、本ステップにおいて、音声認識エンジンは、音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する。
ステップ1103で、音声認識エンジンは、音声ファイルに対して音声認識を行って、認識後のテキストを得る。
ステップ1104で、音声認識エンジンは、音声認識の認識率が予め設定された認識閾値より大きいと判断した場合、ステップ503を実行し、即ち、認識後のテキストをアプリケーションサーバにアップロードし、音声認識の認識率が予め設定された認識閾値以下であると判断した場合、ステップ1105を実行する。
ステップ1105で、音声識別エンジンは、クライアント機器の位置情報が付けられている背景音記録アップロード要求を制御サーバに送信する。
ステップ1106で、制御サーバは、音声認識エンジンからの背景音記録アップロード要求を受信すると、背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定し、該エッジノードに背景音記録アップロード要求を転送する。
ステップ1107で、エッジノードは、制御サーバからの背景音記録アップロード要求を受信すると、自ノードで記録された背景音を、制御サーバを介して、音声認識エンジンにアップロードする。
ステップ1108で、音声認識エンジンは、受信された背景音に基づいて、雑音モデルを生成する。
ステップ1109で、音声認識エンジンは、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う。
ステップ802で、音声認識エンジンは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。
ステップ502で、音声認識エンジンは、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る。
ステップ503で、音声認識エンジンは、認識後のテキストをアプリケーションサーバにアップロードする。
また、上記のように、上記ステップ1107の前に、即ち、記録された背景音をアップロードする前に、エッジノードは、さらに、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。具体的には、エッジノードは、距離に基づく方法、又は出力密度に基づく方法によって、背景音に対して伝搬損失推定を行ってもよい。
本実施例においても、クライアント機器の内部構成は、図3に示す通りである。つまり、本実施例においても、クライアント機器は、音声信号記録モジュール301と、音声ファイル生成モジュール302と、アップロードモジュール303と、を含む。また、クライアント機器は、タイムスタンプモジュールを含んでもよい。
図12には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図12に示すように、本実施例におけるエッジノードは、背景音記録モジュール401と、制御サーバからの背景音記録アップロード要求を受信する要求受信モジュール1201と、自ノードで記録された背景音を制御サーバにアップロードする背景音アップロードモジュール1202と、を含む。上記のように、上記エッジノードは、伝搬損失推定モジュールをさらに含んでもよい。
図13には、本実施例における音声認識方法を実行する制御サーバの内部構成が示されている。図13に示すように、本実施例における制御サーバは、音声認識エンジンからの背景音記録アップロード要求を受信するアップロード要求受信モジュール1301と、背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定するマッチングモジュール1302と、該エッジノードに背景音記録アップロード要求を転送し、該エッジノードからアップロードされた背景音を音声認識エンジンに転送する転送モジュール1303と、を含む。
図14には、本実施例における音声認識方法を実行する音声認識エンジンの内部構成が示されている。図14に示すように、本実施例における音声認識エンジンは、音声ファイルを受信すると、雑音低減処理が必要であるか否かを判断し、雑音低減処理が必要でない場合(例えば、初めて該音声ファイルに対して音声認識を行う場合)、発話終了検出モジュール404による音声ファイルへの発話終了検出処理をトリガーし、雑音低減処理が必要である場合(例えば、先の音声認識の認識率が低い場合)、要求モジュール1402を制御して制御サーバに背景音記録アップロード要求を送信する制御モジュール1401と、制御サーバに背景音記録アップロード要求を送信する要求モジュール1402と、クライアント機器にサービスを提供するエッジノードで記録された背景音を制御サーバから受信する背景音受信モジュール1403と、受信された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール402と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行い、発話終了検出モジュール404による音声ファイルへの発話終了検出処理をトリガーする雑音低減モジュール403と、を含む。
音声認識エンジンは、音声ライブラリ701と、言語ライブラリ702と、検索・復号ユニット703と、テキストアップロードモジュール406と、をさらに含む。検索・復号ユニット703は、音声ライブラリ及び言語ライブラリに基づいて、発話終了検出処理後の音声ファイルに対して、検索及び復号を行って、認識後のテキストを得る。テキストアップロードモジュール406は、認識後のテキストをアプリケーションサーバにアップロードする。
上記の各実施例から分かるように、本発明の実施例では、干渉除去用の背景音がクライアント機器の所在する位置付近のエッジノードによって捕捉して記録され、クライアント機器の所在する位置付近の環境雑音又は外部音の状況を適時かつ正確に反映できるので、この背景音で雑音モデルを生成して雑音低減を行うことにより、非常によい雑音低減効果を得ることができ、音声認識の認識率を大幅に向上させることができる。また、上記方法に加えて、本発明の実施例では、さらに、記録された背景音に対して伝搬損失推定を行ってもよい。これにより、クライアント機器の位置における背景音とエッジノードの位置における背景音との違いを補償し、雑音低減効果をさらに向上させ、さらに音声認識の認識率を向上させる。
さらに、本発明の実施例で提供された音声認識方法及び装置は、各種のタイプの環境雑音又は外部音に対しても、よい雑音低減効果を有し、各種の環境に適用可能である。
また、本発明の実施例で提供された音声認識方法及び装置は、クライアントへの要求が高くないため、普及させやすい。
上記は、本発明の好ましい実施例にすぎず、本発明の保護範囲を限定するものではない。本発明の精神と原則内で行われる種々の修正、均等置換え、改善などは全て本発明の保護範囲内に含まれるべきである。
301 音声信号記録モジュール
302 音声ファイル生成モジュール
303 アップロードモジュール
401 背景音記録モジュール
402 雑音モデル生成モジュール
403 雑音低減モジュール
404 発話終了検出モジュール
405 音声認識モジュール
406 テキストアップロードモジュール
601 ファイルアップロードモジュール
701 音声ライブラリ
702 言語ライブラリ
703 検索・復号ユニット
901 第2のファイルアップロードモジュール
1201 要求受信モジュール
1202 背景音アップロードモジュール
1301 アップロード要求受信モジュール
1302 マッチングモジュール
1303 転送モジュール
1401 制御モジュール
1402 要求モジュール
1403 背景音受信モジュール

Claims (21)

  1. 音声認識方法であって、
    クライアント機器の所在する位置付近の背景音を記録し、記録された背景音に基づいて、雑音モデルを生成し、
    生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行い、
    雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る、ことを含むことを特徴とする音声認識方法。
  2. 前記クライアント機器の所在する位置付近の背景音を記録することは、前記クライアント機器にサービスを提供するエッジノードが、自ノードの周囲の背景音を記録する、ことを含む、ことを特徴とする請求項1に記載の方法。
  3. 前記音声ファイルには、タイムスタンプが含まれ、
    前記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルに対応するタイムスタンプに基づいて、前記タイムスタンプにより指示される時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項1に記載の方法。
  4. 前記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルを受信した時間に基づいて、前記時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項1に記載の方法。
  5. 前記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、クライアント機器からアップロードされた音声ファイルを受信すると、背景音を記録し始め、記録された背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項1に記載の方法。
  6. 前記記録された背景音に基づいて、雑音モデルを生成することは、音声認識エンジンが、制御サーバに背景音記録アップロード要求を送信し、制御サーバからアップロードされた背景音を受信すると、音声認識エンジンが、制御サーバからアップロードされた背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項1に記載の方法。
  7. 前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、前記音声認識エンジンが、生成された雑音モデルに基づいて、エッジノードから受信した音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、
    前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、前記音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項6に記載の方法。
  8. 前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、
    前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、エッジノードが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項1に記載の方法。
  9. 前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、
    前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項1に記載の方法。
  10. 前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、
    前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項1に記載の方法。
  11. 記録された背景音に基づいて、雑音モデルを生成する前に、記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する、ことをさらに含む、ことを特徴とする請求項1に記載の方法。
  12. エッジノードであって、
    自ノードの所在する位置付近の背景音を記録する背景音記録モジュール(401)を含むことを特徴とするエッジノード。
  13. 制御サーバからの背景音記録アップロード要求を受信する要求受信モジュール(1201)と、
    自ノードで記録された背景音を制御サーバにアップロードする背景音アップロードモジュール(1202)と、をさらに含むことを特徴とする請求項12に記載のエッジノード。
  14. 記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、
    生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール(403)と、
    雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール(404)と、
    発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る音声認識モジュール(405)と、
    認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール(406)と、をさらに含むことを特徴とする請求項12に記載のエッジノード。
  15. 記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、
    生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール(403)と、
    雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール(404)と、
    発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードするファイルアップロードモジュール(601)と、をさらに含むことを特徴とする請求項12に記載のエッジノード。
  16. 記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、
    生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール(403)と、
    雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする第2のファイルアップロードモジュール(901)と、をさらに含むことを特徴とする請求項12に記載のエッジノード。
  17. 記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する伝搬損失推定モジュールをさらに含むことを特徴とする請求項14、15、又は16に記載のエッジノード。
  18. 音声認識エンジンであって、
    各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリ(701)と、
    各種の異なる言語の語彙情報を記憶する言語ライブラリ(702)と、
    音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して検索及び復号を行って、認識後のテキストを得る検索・復号ユニット(703)と、
    認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール(406)と、を含むことを特徴とする音声認識エンジン。
  19. 雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール(404)をさらに含むことを特徴とする請求項18に記載の音声認識エンジン。
  20. 音声ファイルを受信すると、雑音低減処理が必要であるか否かを判断し、雑音低減処理が必要でない場合、発話終了検出モジュール(404)による音声ファイルへの発話終了検出処理をトリガーし、雑音低減処理が必要である場合、要求モジュール(1402)を制御して制御サーバに背景音記録アップロード要求を送信する制御モジュール(1401)と、
    制御サーバに背景音記録アップロード要求を送信する要求モジュール(1402)と、
    クライアント機器にサービスを提供するエッジノードで記録された背景音を制御サーバから受信する背景音受信モジュール(1403)と、
    受信された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール(402)と、
    生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行い、発話終了検出モジュール(404)による音声ファイルへの発話終了検出処理をトリガーする雑音低減モジュール(403)と、をさらに含むことを特徴とする請求項19に記載の音声認識エンジン。
  21. 制御サーバであって、
    音声認識エンジンからの背景音記録アップロード要求を受信するアップロード要求受信モジュール(1301)と、
    背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定するマッチングモジュール(1302)と、
    該エッジノードに背景音記録アップロード要求を転送し、該エッジノードからアップロードされた背景音を音声認識エンジンに転送する転送モジュール(1303)と、を含むことを特徴とする制御サーバ。
JP2015005684A 2014-01-17 2015-01-15 音声認識方法及び装置 Pending JP2015135494A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410022569.8 2014-01-17
CN201410022569.8A CN104795066A (zh) 2014-01-17 2014-01-17 语音识别方法和装置

Publications (1)

Publication Number Publication Date
JP2015135494A true JP2015135494A (ja) 2015-07-27

Family

ID=53559825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015005684A Pending JP2015135494A (ja) 2014-01-17 2015-01-15 音声認識方法及び装置

Country Status (2)

Country Link
JP (1) JP2015135494A (ja)
CN (1) CN104795066A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180042659A (ko) * 2016-10-18 2018-04-26 주식회사 아트메스 계측데이터 처리 방법 및 그 장치
CN111415653A (zh) * 2018-12-18 2020-07-14 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN111464644A (zh) * 2020-04-01 2020-07-28 北京声智科技有限公司 一种数据传输方法及电子设备
CN111768759A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN112053702A (zh) * 2020-09-30 2020-12-08 北京大米科技有限公司 一种语音处理的方法、装置及电子设备
CN114080817A (zh) * 2020-06-09 2022-02-22 谷歌有限责任公司 从可视内容生成交互式音轨
CN114220432A (zh) * 2021-11-15 2022-03-22 交通运输部南海航海保障中心广州通信中心 基于海事单边带语音自动监听方法、系统及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107028524A (zh) * 2015-12-08 2017-08-11 太琦科技股份有限公司 语音控制型洗浴系统及其操作方法
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
CN106941619A (zh) * 2017-03-16 2017-07-11 百度在线网络技术(北京)有限公司 基于人工智能的节目提醒方法、装置以及系统
CN108630193B (zh) * 2017-03-21 2020-10-02 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN107945804A (zh) * 2017-12-07 2018-04-20 杭州测质成科技有限公司 基于语音识别的任务管理与量具数据提取系统及其方法
CN108986830B (zh) * 2018-08-28 2021-02-09 安徽淘云科技有限公司 一种音频语料筛选方法及装置
CN109410920B (zh) * 2018-10-15 2020-08-18 百度在线网络技术(北京)有限公司 用于获取信息的方法及装置
CN110187859A (zh) * 2019-04-12 2019-08-30 华为技术有限公司 一种去噪方法及电子设备
CN110867184A (zh) * 2019-10-23 2020-03-06 张家港市祥隆五金厂 一种语音智能终端设备
CN111768768B (zh) * 2020-06-17 2023-08-29 北京百度网讯科技有限公司 语音处理方法、装置、外设操控设备及电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180042659A (ko) * 2016-10-18 2018-04-26 주식회사 아트메스 계측데이터 처리 방법 및 그 장치
CN111415653A (zh) * 2018-12-18 2020-07-14 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN111415653B (zh) * 2018-12-18 2023-08-01 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN111464644A (zh) * 2020-04-01 2020-07-28 北京声智科技有限公司 一种数据传输方法及电子设备
CN114080817A (zh) * 2020-06-09 2022-02-22 谷歌有限责任公司 从可视内容生成交互式音轨
CN111768759A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN112053702A (zh) * 2020-09-30 2020-12-08 北京大米科技有限公司 一种语音处理的方法、装置及电子设备
CN112053702B (zh) * 2020-09-30 2024-03-19 北京大米科技有限公司 一种语音处理的方法、装置及电子设备
CN114220432A (zh) * 2021-11-15 2022-03-22 交通运输部南海航海保障中心广州通信中心 基于海事单边带语音自动监听方法、系统及存储介质

Also Published As

Publication number Publication date
CN104795066A (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
JP2015135494A (ja) 音声認識方法及び装置
JP6613347B2 (ja) 情報をプッシュする方法及び装置
US11361768B2 (en) Utterance classifier
US10600414B1 (en) Voice control of remote device
CN111344780B (zh) 基于上下文的设备仲裁
US10083006B1 (en) Intercom-style communication using multiple computing devices
US9424836B2 (en) Privacy-sensitive speech model creation via aggregation of multiple user models
CN110268469B (zh) 服务器侧热词
CN108351872B (zh) 用于响应用户语音的方法和系统
US8831957B2 (en) Speech recognition models based on location indicia
US20120303369A1 (en) Energy-Efficient Unobtrusive Identification of a Speaker
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
TW200412730A (en) Improving speech recognition of mobile devices
TWI638352B (zh) 可調整輸出聲音之電子裝置及調整輸出聲音之方法
WO2015103836A1 (zh) 一种语音控制方法及装置
JP2017509009A (ja) オーディオストリームの中の音楽の追跡
KR20150126214A (ko) 음성 인식 장치 및 방법, 잡음-음성 인식 모델 생성 장치 및 방법
US20150325252A1 (en) Method and device for eliminating noise, and mobile terminal
JP6448950B2 (ja) 音声対話装置及び電子機器
JP6954821B2 (ja) 対話管理装置及びプログラム
Nan et al. One solution for voice enabled smart home automation system
GB2516208B (en) Noise reduction in voice communications
US20220157316A1 (en) Real-time voice converter
KR20190107351A (ko) 사용자 음성에 대한 서비스 지연을 최소화하는 단말기 중심의 음성대화 시스템 및 방법
US11551707B2 (en) Speech processing method, information device, and computer program product