JP2015135494A

JP2015135494A - 音声認識方法及び装置

Info

Publication number: JP2015135494A
Application number: JP2015005684A
Authority: JP
Inventors: 暁利王; Xiaoli Wang; 勇波曾; Yongbo Zeng; 永生張; Yongsheng Zhang
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-01-17
Filing date: 2015-01-15
Publication date: 2015-07-27
Also published as: CN104795066A

Abstract

【解決手段】本発明は、クライアント機器の所在する位置付近の背景音を記録し、記録された背景音に基づいて、雑音モデルを生成し、生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る、ことを含む音声認識方法を開示している。また、本発明は、上記方法を実行するエッジノード、音声認識エンジン、及び制御サーバを開示している。
【効果】本発明では、干渉除去用の背景音がクライアント機器の所在する位置付近のエッジノードによって捕捉して記録され、クライアント機器の所在する位置付近の環境雑音又は外部音の状況を適時かつ正確に反映できるので、この背景音で雑音モデルを生成して雑音低減を行うことにより、非常によい雑音低減効果を得ることができ、音声認識の認識率を大幅に向上させることができる。
【選択図】図１

Description

本発明は、音声認識技術分野に関し、特に音声認識方法及び装置に関する。

音声認識技術は、簡単に言えば、機械に認識及び理解によって音声信号を相応のテキスト又は命令に変換させる技術である。音声認識技術は、主に、音声特徴抽出技術、パターンマッチング基準、及びモデル訓練技術などを含む。

現在、音声認識技術は、急速に発展しており、幅広く用いられている。しかし、環境雑音が大きい環境では、例えば体育場などのざわついた環境では、音声認識技術の適用は、大きな制限を受けている。理解できるように、ユーザが発話する際の背景雑音が大きいほど、音声認識の認識率が低くなる。ひいては、背景雑音による影響を受けて、発話終了検出（ＵｔｔｅｒａｎｃｅＥｎｄｉｎｇＤｅｔｅｃｔｉｏｎ）を完成できず、つまり、ユーザがいつ発話を停止したかを検出できない場合が多い。

上記の課題を解決するために、本発明の実施例では、雑音環境における音声認識の認識率を向上させることが可能な音声認識方法、及びこの方法を実行する装置を提供している。

本発明の実施例における音声認識方法は、クライアント機器の所在する位置付近の背景音を記録し、記録された背景音に基づいて、雑音モデルを生成し、生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る、ことを含む。

上記クライアント機器の所在する位置付近の背景音を記録することは、前記クライアント機器にサービスを提供するエッジノードが、自ノードの周囲の背景音を記録する、ことを含む。

ここで、上記音声ファイルには、タイムスタンプが含まれ、上記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルに対応するタイムスタンプに基づいて、前記タイムスタンプにより指示される時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む。

上記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルを受信した時間に基づいて、前記時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む。

或いは、上記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、クライアント機器からアップロードされた音声ファイルを受信すると、背景音を記録し始め、記録された背景音に基づいて、雑音モデルを生成する、ことを含む。

また或いは、上記記録された背景音に基づいて、雑音モデルを生成することは、音声認識エンジンが、制御サーバに背景音記録アップロード要求を送信し、制御サーバからアップロードされた背景音を受信すると、音声認識エンジンが、制御サーバからアップロードされた背景音に基づいて、雑音モデルを生成する、ことを含む。

上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、前記音声認識エンジンが、生成された雑音モデルに基づいて、エッジノードから受信した音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、前記音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。

或いは、上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、エッジノードが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。

また或いは、上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。

また或いは、上記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む。

上記方法は、記録された背景音に基づいて、雑音モデルを生成する前に、記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する、ことをさらに含む。

本発明の実施例におけるエッジノードは、自ノードの所在する位置付近の背景音を記録する背景音記録モジュール（４０１）を含む。

エッジノードは、制御サーバからの背景音記録アップロード要求を受信する要求受信モジュール（１２０１）と、自ノードで記録された背景音を制御サーバにアップロードする背景音アップロードモジュール（１２０２）と、をさらに含んでもよい。

或いは、上記エッジノードは、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール（４０３）と、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール（４０４）と、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る音声認識モジュール（４０５）と、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール（４０６）と、をさらに含む。

また或いは、上記エッジノードは、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール（４０３）と、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール（４０４）と、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードするファイルアップロードモジュール（６０１）と、をさらに含む。

また或いは、上記エッジノードは、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール（４０３）と、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする第２のファイルアップロードモジュール（９０１）と、をさらに含む。

上記エッジノードは、記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する伝搬損失推定モジュールをさらに含む。

本発明の実施例における音声認識エンジンは、各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリ（７０１）と、各種の異なる言語の語彙情報を記憶する言語ライブラリ（７０２）と、音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して検索及び復号を行って、認識後のテキストを得る検索・復号ユニット（７０３）と、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール（４０６）と、を含む。

上記音声認識エンジンは、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール（４０４）をさらに含む。

さらに、音声認識エンジンは、音声ファイルを受信すると、雑音低減処理が必要であるか否かを判断し、雑音低減処理が必要でない場合、発話終了検出モジュール（４０４）による音声ファイルへの発話終了検出処理をトリガーし、雑音低減処理が必要である場合、要求モジュール（１４０２）を制御して制御サーバに背景音記録アップロード要求を送信する制御モジュール（１４０１）と、制御サーバに背景音記録アップロード要求を送信する要求モジュール（１４０２）と、クライアント機器にサービスを提供するエッジノードで記録された背景音を制御サーバから受信する背景音受信モジュール（１４０３）と、受信された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行い、発話終了検出モジュール（４０４）による音声ファイルへの発話終了検出処理をトリガーする雑音低減モジュール（４０３）と、を含んでもよい。

本発明の実施例における制御サーバでは、音声認識エンジンからの背景音記録アップロード要求を受信するアップロード要求受信モジュール（１３０１）と、背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定するマッチングモジュール（１３０２）と、該エッジノードに背景音記録アップロード要求を転送し、該エッジノードからアップロードされた背景音を音声認識エンジンに転送する転送モジュール（１３０３）と、を含む。

本発明の各実施例では、干渉除去用の背景音がクライアント機器の所在する位置付近のエッジノードによって捕捉して記録され、クライアント機器の所在する位置付近の環境雑音又は外部音の状況を適時かつ正確に反映できるので、この背景音で雑音モデルを生成して雑音低減を行うことにより、非常によい雑音低減効果を得ることができ、音声認識の認識率を大幅に向上させることができる。

本発明の実施例における音声認識方法のフローチャートである。本発明の実施例における音声認識方法のフローチャートである。本発明の実施例におけるクライアント機器の内部構成を示す図である。本発明の実施例におけるエッジノードの内部構成を示す図である。本発明の他の実施例における音声認識方法のフローチャートである。本発明の他の実施例におけるエッジノードの内部構成を示す図である。本発明の他の実施例における音声認識エンジンの内部構成を示す図である。本発明の別の実施例における音声認識方法のフローチャートである。本発明の別の実施例におけるエッジノードの内部構成を示す図である。本発明の別の実施例における音声認識エンジンの内部構成を示す図である。本発明のもう１つの実施例における音声認識方法のフローチャートである。本発明のもう１つの実施例におけるエッジノードの内部構成を示す図である。本発明のもう１つの実施例における制御サーバの内部構成を示す図である。本発明のもう１つの実施例における音声認識エンジンの内部構成を示す図である。

現在の移動通信システムにおいて、例えば体育館やショッピングセンターなどの区域のようなトラフィック密集区域のネットワーク容量を向上させるために、第３世代パートナーシッププロジェクト（３ＧＰＰ：３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）のリリース１２（Ｒｅｌ−１２）の規定では、トラフィック密集区域に、マクロセル（ＭａｃｒｏＣｅｌｌ）に加えて、スモールセル（ＳｍａｌｌＣｅｌｌ）を配置し、これらのスモールセルによって、大部のデータトラフィックを負担することもでき、これにより、ネットワーク容量を大幅に向上させることができる。また、ＷＬＡＮにおいても、データトラフィックを負担するＡＰが配置される。ここで、スモールセル基地局及びＡＰは、いずれも、エッジノード（ＥｄｇｅＮｏｄｅ）と呼んでもよい。

上記のスモールセル適用環境又はＷＬＡＮ適用環境に基づき、従来に雑音環境で音声認識の認識率が低い課題を解決するために、本発明の実施例では、音声認識方法を提供している。この方法の具体的な実現フローは、図１に示すように、主に、クライアント機器の所在する位置付近の背景音、例えば環境雑音やスピーカー音源などを記録するステップ１０１と、記録された背景音に基づいて、雑音モデルを生成するステップ１０２と、生成された雑音モデルに基づいて、クライアント機器からの音声ファイルに対して雑音低減処理を行うステップ１０３と、雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得るステップ１０４と、を含む。

上記方法において、上記クライアント機器からの音声ファイルは、ユーザが使用するクライアント機器、例えば移動端末などによって、受信して記録されたファイル、例えばＭＰ３やＷＡＶなどのファイルであってもよい。また、上記音声ファイルは、エッジノードへアップロードされる。伝送情報量を減少するために、クライアント機器は、さらに、記録されたＭＰ３やＷＡＶファイルに対して、特徴抽出（例えば、ＭＦＣＣ特徴を抽出する）処理を行って、特徴抽出後の特徴ファイルを音声ファイルとしてエッジノードにアップロードしてもよい。また、本発明の一実施例によるクライアント機器は、音声ファイルを記録した時間、即ち、音声ファイルに対応する時間情報を指示するように、自局で生成された音声ファイルにタイムスタンプを付けてもよい。

上記ステップ１０１において、上記クライアント機器の所在する位置付近の背景音は、該クライアント機器のサービングスモールセル基地局又はＡＰ、即ちエッジノードによって記録されてもよい。具体的には、エッジノードの内部に音捕捉装置を取り付け、音捕捉装置によって、自装置の周囲の背景音を捕捉して記録し、次いでエッジノードにフィードバックしてもよい。本発明の一実施例では、エッジノードは、自ノードの周囲の背景音を常に記録して、記録された背景音に対応する時間情報を指示するように、記録された背景音にタイムスタンプを付けてもよいし、エッジノードは、背景音の強度をリアルタイムに監視し、背景音の強度が所定の閾値を超えたことを発見して初めて、記録を開始してもよい。或いは、本発明の他の実施例によれば、エッジノードは、自ノードの周囲の背景音を常に記録する必要がなく、クライアント機器からアップロードされた音声信号を受信して初めて、付近の背景音を記録し始めてもよい。記録された背景音は、雑音モデルの生成に十分であればよい。

上記ステップ１０２において、雑音モデルを生成するための背景音の記録時間は、上記クライアント機器の音声信号の記録時間に対応すべきである。具体的には、クライアント機器からアップロードされた音声ファイルにタイムスタンプが付いており、かつエッジノードが自ノードの周囲の背景音を常に記録することが可能な場合、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、まず、音声ファイルに対応するタイムスタンプに基づいて、該タイムスタンプにより指示される時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。

或いは、クライアント機器からアップロードされた音声ファイルにタイムスタンプが付いていない一方、エッジノードが自ノードの周囲の背景音を常に記録することが可能な場合、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、音声ファイルを受信した時間に基づいて、該時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。

また或いは、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信して初めて、自ノードの周囲の背景音を記録し始め、次いで、自ノードで記録された付近の環境雑音に基づいて、雑音モデルを生成する。具体的には、本発明の実施例では、複数種類の方法によって雑音モデルを生成し、例えば、ガウス混合モデル（ＧＭＭ）や非負の行列の因数分解（ＮＭＦ）によって生成してもよい。

上記ステップ１０３において、エッジノードが、生成された雑音モデルに基づいて、クライアント機器からの音声ファイルに対して雑音低減処理を行ってもよいし、クラウドに位置する音声認識エンジンが雑音低減処理を行ってもよい。

上記ステップ１０４において、エッジノードが、雑音低減処理後の音声信号に対して音声認識を行って、認識後のテキストを得るようにしてもよく、或いは、クラウドの音声認識エンジンが音声認識を行ってもよい。

以下、具体的な図２から図４を参照しながら、本発明の一実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理、発話終了検出処理、及び音声認識処理は、いずれも、エッジノードで行われる。

図２には、本実施例による音声認識方法が示されている。図２に示すように、この方法は、主に、以下のステップを含む。

ステップ２０１で、クライアント機器は、ユーザからの音声信号を記録する。本ステップにおいて、ユーザが音声認識のキーを押下すると、クライアント機器は、ユーザからの音声信号を記録し始める。

ステップ２０２で、クライアント機器は、記録された音声信号に基づいて、音声ファイルを生成する。上記音声ファイルは、ＭＰ３、ＷＡＶＥ、及びＭＦＣＣなどのファイルを含むが、これらに限定されない。さらに、本ステップにおいて、クライアント機器は、音声ファイルに対応する時間情報を指示するように、生成された音声ファイルにタイムスタンプを付けてもよい。

ステップ２０３で、クライアント機器は、生成された音声ファイルを、クライアント機器にサービスを提供するエッジノードにアップロードする。

ステップ２０４で、エッジノードは、自ノードの所在する位置付近の背景音を記録する。上記のように、本ステップにおいて、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、自ノードの所在する位置付近の背景音を記録し始めてもよい。また、エッジノードは、自ノードの所在する位置付近の背景音を持続的に記録してもよい。

ステップ２０５で、エッジノードは、記録された背景音に基づいて、雑音モデルを生成する。雑音モデルを生成する際に、クライアント機器から受信した音声ファイルにタイムスタンプが付いている場合、エッジノードは、音声ファイルに対応するタイムスタンプに基づいて、該タイムスタンプにより指示される時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。或いは、クライアント機器からアップロードされた音声ファイルにタイムスタンプが付いていない場合、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、音声ファイルを受信した時間に基づいて、該時間に対応する背景音を検索し、次いで、該背景音に基づいて、雑音モデルを生成する。また或いは、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、背景音を記録し始めて、記録された背景音に基づいて、雑音モデルを生成する。

具体的には、本発明の一実施例によれば、背景音の音量が予め設定された音量閾値より大きい場合にのみ、エッジノードは、自ノードの周囲の背景音を記録するが、背景音の音量が該音量閾値以下である場合、エッジノードは、背景音を記録せず、直接に自ノードの周囲の背景音に０を設定してもよい。

ステップ２０６で、エッジノードは、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う。

ステップ２０７で、エッジノードは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。具体的には、本ステップにおいて、エッジノードは、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する。

ステップ２０８で、エッジノードは、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る。

ステップ２０９で、エッジノードは、認識後のテキストをアプリケーションサーバにアップロードする。

当業者であれば理解できるように、クライアント機器とエッジノードとの所在する位置が異なるため、背景音の大きさも異なる可能性があり、異なる位置における背景音の差異による雑音低減効果への影響を軽減するために、上記方法のステップ２０５の前に、即ち、雑音モデルを生成する前に、エッジノードは、さらに、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。

具体的には、音源の異なるタイプに応じて、異なる処理を行ってもよい。例えば、点音源に対して、距離に基づく方法を用いてもよい。即ち、エッジノードは、背景音の音源とクライアント機器との間の距離と、背景音の音源とエッジノードとの間の距離と基づいて、伝搬損失推定を行うことにより、エッジノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。具体的な方法は、以下の通りである。

背景音の音源とクライアント機器との間の距離がd₁であり、背景音の音源とエッジノードとの間の距離がd₂であるとし、エッジノードで受信された、クライアント機器からの信号がY₁であり、エッジノードで受信された、背景音の音源からの信号がY₂であるとすると、決定できるように、クライアント機器で受信された音声信号は、下記の数式１で表すことができる。ここで、背景音の音源とエッジノードとの間の距離d₂は、予め設定されてもよい（例えば、奏楽堂において、音楽を再生するスピーカーとエッジノードとの間の距離は、固定されており、かつ既知である）。背景音の音源とクライアント機器との間の距離d₁は、ＧＰＳによって決定してもよい。

また、エッジノードは、出力密度に基づく方法を用いてもよい。即ち、エッジノードは、クライアント機器から受信した音声ファイルにおける背景音の出力密度と、自ノードで記録された背景音の出力密度とに基づいて、伝搬損失推定を行うことにより、エッジノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。説明すべきものとして、この方法は、各種の音源のタイプに適する。具体的な方法は、以下の通りである。

まず、クライアント機器は、受信された音声信号における背景音の出力密度P_UEを決定する。上記出力密度P_UEは、クライアント機器で受信された音声信号における音声休止から得ることができる。

クライアント機器は、決定された音声信号における背景音の出力密度P_UEをエッジノードにアップロードする。

エッジノードは、自ノードで記録された背景音の出力密度P_eNBを決定する。

エッジノードは、音声信号における背景音の出力密度P_UEと自ノードで記録された背景音の出力密度P_eNBとを比較することにより、伝搬損失を決定し、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得る。

図３には、本実施例における音声認識方法を実行するクライアント機器の内部構成が示されている。図３に示すように、本実施例におけるクライアント機器は、ユーザからの音声信号を受信して記録する音声信号記録モジュール３０１と、記録された音声信号に基づいて、音声ファイルを生成する音声ファイル生成モジュール３０２と、生成された音声ファイルを、クライアント機器の属するエッジノードにアップロードするアップロードモジュール３０３と、を含む。

上記のように、上記クライアント機器は、音声ファイルに対応する時間情報を指示するように、生成された音声ファイルにタイムスタンプを付けるタイムスタンプモジュールを含んでもよい。

図４には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図４に示すように、本実施例におけるエッジノードは、自ノードの所在する位置付近の背景音を記録する背景音記録モジュール４０１と、記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール４０２と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール４０３と、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール４０４と、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る音声認識モジュール４０５と、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール４０６と、を含む。

上記のように、背景音記録モジュール４０１は、クライアント機器からアップロードされた音声ファイルを受信すると、自ノードの所在する位置付近の背景音を記録し始めてもよいし、自ノードの所在する位置付近の背景音を持続的に記録してもよい。

ここで、音声認識モジュール４０５は、各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリと、各種の異なる言語の語彙情報を記憶する言語ライブラリと、音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して、検索及び復号を行って、認識後のテキストを得る検索・復号ユニットと、を含んでもよい。

当業者であれば理解できるように、クライアント機器とエッジノードとの所在する位置が異なるため、背景音の大きさも異なる可能性があり、上記の差異による雑音低減効果への影響を軽減するために、上記エッジノードは、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得る伝搬損失推定モジュールをさらに含んでもよい。具体的な方法として、上記のような距離に基づく方法、又は出力密度に基づく方法を用いてもよい。

以下、具体的な図５から図７を参照しながら、本発明の他の実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理及び発話終了検出処理は、エッジノードで行われるが、音声認識処理は、クラウドの音声認識エンジンで行われる。

図５には、本実施例による音声認識方法が示されている。図５に示すように、この方法は、主に、以下のステップを含む。

ステップ２０１で、クライアント機器は、ユーザからの音声信号を受信して記録する。

ステップ２０２で、クライアント機器は、記録された音声信号に基づいて、音声ファイルを生成する。

ステップ２０３で、クライアント機器は、生成された音声ファイルを、クライアント機器の属するエッジノードにアップロードする。

ステップ２０４で、エッジノードは、自ノードの所在する位置付近の背景音を記録する。

ステップ２０５で、エッジノードは、記録された背景音に基づいて、雑音モデルを生成する。

ステップ２０７で、エッジノードは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。

本発明の実施例において、同一のステップ符号が同様の内容を表すため、上記のステップ２０１から２０７は、先の実施例に説明したステップ２０１から２０７と同様であり、ここで詳しい説明を省略する。

ステップ５０１で、エッジノードは、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードする。

ステップ５０２で、音声認識エンジンは、音声ファイルに対して音声認識を行って、認識後のテキストを得る。具体的には、本ステップにおいて、音声認識エンジンは、雑音低減処理後の音声ファイルに対して音声認識を行ってもよい。

ステップ５０３で、音声認識エンジンは、認識後のテキストをアプリケーションサーバにアップロードする。

また、上記のように、上記ステップ２０５の前に、即ち、雑音モデルを生成する前に、エッジノードは、さらに、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。具体的には、エッジノードは、距離に基づく方法、又は出力密度に基づく方法によって、背景音に対して伝搬損失推定を行ってもよい。

本実施例においても、クライアント機器の内部構成は、図３に示す通りである。つまり、本実施例においても、クライアント機器は、音声信号記録モジュール３０１と、音声ファイル生成モジュール３０２と、アップロードモジュール３０３と、を含む。また、クライアント機器は、タイムスタンプモジュールを含んでもよい。

図６には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図６に示すように、本実施例におけるエッジノードは、背景音記録モジュール４０１と、雑音モデル生成モジュール４０２と、雑音低減モジュール４０３と、発話終了検出モジュール４０４と、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードするファイルアップロードモジュール６０１と、を含む。

本発明の実施例において、同一のモジュール符号が同様の内容を表すため、上記のモジュール４０１から４０４は、先の実施例に説明したモジュール４０１から４０４と同様であり、ここで詳しい説明を省略する。

上記エッジノードは、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得る伝搬損失推定モジュールをさらに含んでもよい。具体的な方法として、上記のような距離に基づく方法、又は出力密度に基づく方法を用いてもよい。

図７には、本実施例における音声認識方法を実行する音声認識エンジンの内部構成が示されている。図７に示すように、本実施例における音声認識エンジンは、各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリ７０１と、各種の異なる言語の語彙情報を記憶する言語ライブラリ７０２と、音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して、検索及び復号を行って、認識後のテキストを得る検索・復号ユニット７０３と、を含む。音声認識エンジンは、認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール４０６をさらに含む。

上記実施例の変形として、上記実施例において、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、一時にステップ２０５から２０６の雑音低減処理を行わず、受信された音声ファイルに対して発話終了検出処理を行ってから、音声認識処理を行うために、直接にクラウドの音声認識エンジンにアップロードしてもよい。音声認識エンジンは、音声認識の認識率が予め設定された認識閾値より大きいと判断した場合、直接に認識後のテキストをアプリケーションサーバにアップロードしてもよい。一方、音声認識エンジンは、音声認識の認識率が予め設定された認識閾値以下であると判断した場合、該クライアント機器にサービスを提供するエッジノードに雑音低減要求を送信する。この場合、エッジノードは、音声認識エンジンからの雑音低減要求を受信すると、上記ステップ２０５から２０６を実行して、雑音低減処理を行い、発話終了検出処理を再度実行した後に、処理後の音声ファイルを音声認識エンジンに改めてアップロードし、音声認識エンジンによって音声認識を再度行うことにより、音声認識の認識率を向上させる。

以下、具体的な図８から図１０を参照しながら、本発明の別の実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理は、エッジノードで行われるが、発話終了検出処理及び音声認識処理は、クラウドの音声認識エンジンで行われる。

図８には、本実施例による音声認識方法が示されている。図８に示すように、この方法は、主に、以下のステップを含む。

本発明の実施例において、同一のステップ符号が同様の内容を表すため、上記のステップ２０１から２０６は、先の実施例に説明したステップ２０１から２０６と同様であり、ここで詳しい説明を省略する。

ステップ８０１で、エッジノードは、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする。

ステップ８０２で、音声認識エンジンは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。具体的には、本ステップにおいて、音声認識エンジンは、雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する。

ステップ５０２で、音声認識エンジンは、音声ファイルに対して音声認識を行って、認識後のテキストを得る。

図９には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図９に示すように、本実施例におけるエッジノードは、背景音記録モジュール４０１と、雑音モデル生成モジュール４０２と、雑音低減モジュール４０３と、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする第２のファイルアップロードモジュール９０１と、を含む。

本発明の実施例において、同一のモジュール符号が同様の内容を表すため、上記のモジュール４０１から４０３は、先の実施例に説明したモジュール４０１から４０３と同様であり、ここで詳しい説明を省略する。

図１０には、本実施例における音声認識方法を実行する音声認識エンジンの内部構成が示されている。図１０に示すように、本実施例における音声認識エンジンは、発話終了検出モジュール４０４と、音声ライブラリ７０１と、言語ライブラリ７０２と、検索・復号ユニット７０３と、テキストアップロードモジュール４０６と、を含む。これらモジュール４０４、４０６、及びモジュール７０１から７０３は、先の実施例に説明したモジュール４０４、４０６、及びモジュール７０１から７０３と同様であり、ここで詳しい説明を省略する。

上記実施例の変形として、上記実施例において、エッジノードは、クライアント機器からアップロードされた音声ファイルを受信すると、一時にステップ２０５から２０６の雑音低減処理を行わず、受信された音声ファイルを、発話終了検出処理及び音声認識処理を行うために、直接にクラウドの音声認識エンジンにアップロードしてもよい。音声認識エンジンは、音声認識の認識率が予め設定された認識閾値より大きいと判断した場合、直接に認識後のテキストをアプリケーションサーバにアップロードしてもよい。一方、音声認識エンジンは、音声認識の認識率が予め設定された認識閾値以下であると判断した場合、該クライアント機器にサービスを提供するエッジノードに雑音低減要求を送信する。この場合、エッジノードは、音声認識エンジンからの雑音低減要求を受信すると、上記ステップ２０５から２０６を実行して、雑音低減処理を行い、処理後の音声ファイルを音声認識エンジンに改めてアップロードし、音声認識エンジンによって発話終了検出処理及び音声認識処理を再度行うことにより、音声認識の認識率を向上させる。

以下、具体的な図１１から図１４を参照しながら、本発明のもう１つの実施例を詳しく説明する。本実施例では、音声ファイルに対する雑音低減処理、発話終了検出処理及び音声認識処理は、いずれも、クラウドの音声認識エンジンで行われる。

本実施例では、クライアント機器、エッジノード、及び音声認識エンジンに加えて、音声認識システムは、エッジノードで記録された背景音を受信又は／及び管理し、クライアント機器の所在する位置と、ユーザからの音声信号の記録時間とに基づいて、相応の背景音を音声認識エンジンに提供する制御サーバも含む。

図１１には、本実施例による音声認識方法が示されている。図１１に示すように、この方法は、主に、以下のステップを含む。

ステップ１１０１で、クライアント機器は、生成された音声ファイルを、クライアント機器の属するエッジノードを介して、音声認識エンジンにアップロードする。

ステップ１１０２で、音声認識エンジンは、受信された音声ファイルに対して発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。具体的には、本ステップにおいて、音声認識エンジンは、音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する。

ステップ１１０３で、音声認識エンジンは、音声ファイルに対して音声認識を行って、認識後のテキストを得る。

ステップ１１０４で、音声認識エンジンは、音声認識の認識率が予め設定された認識閾値より大きいと判断した場合、ステップ５０３を実行し、即ち、認識後のテキストをアプリケーションサーバにアップロードし、音声認識の認識率が予め設定された認識閾値以下であると判断した場合、ステップ１１０５を実行する。

ステップ１１０５で、音声識別エンジンは、クライアント機器の位置情報が付けられている背景音記録アップロード要求を制御サーバに送信する。

ステップ１１０６で、制御サーバは、音声認識エンジンからの背景音記録アップロード要求を受信すると、背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定し、該エッジノードに背景音記録アップロード要求を転送する。

ステップ１１０７で、エッジノードは、制御サーバからの背景音記録アップロード要求を受信すると、自ノードで記録された背景音を、制御サーバを介して、音声認識エンジンにアップロードする。

ステップ１１０８で、音声認識エンジンは、受信された背景音に基づいて、雑音モデルを生成する。

ステップ１１０９で、音声認識エンジンは、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う。

ステップ８０２で、音声認識エンジンは、雑音低減処理後の音声ファイルに基づいて、発話終了検出処理を行って、ユーザがどの時刻に発話を終了したかを決定する。

ステップ５０２で、音声認識エンジンは、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る。

また、上記のように、上記ステップ１１０７の前に、即ち、記録された背景音をアップロードする前に、エッジノードは、さらに、背景音の伝搬損失推定を行い、伝搬損失推定結果に基づいて、自ノードで記録された背景音を補償して、クライアント機器にもっと接近した箇所の背景音を得るようにしてもよい。具体的には、エッジノードは、距離に基づく方法、又は出力密度に基づく方法によって、背景音に対して伝搬損失推定を行ってもよい。

図１２には、本実施例における音声認識方法を実行するエッジノードの内部構成が示されている。図１２に示すように、本実施例におけるエッジノードは、背景音記録モジュール４０１と、制御サーバからの背景音記録アップロード要求を受信する要求受信モジュール１２０１と、自ノードで記録された背景音を制御サーバにアップロードする背景音アップロードモジュール１２０２と、を含む。上記のように、上記エッジノードは、伝搬損失推定モジュールをさらに含んでもよい。

図１３には、本実施例における音声認識方法を実行する制御サーバの内部構成が示されている。図１３に示すように、本実施例における制御サーバは、音声認識エンジンからの背景音記録アップロード要求を受信するアップロード要求受信モジュール１３０１と、背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定するマッチングモジュール１３０２と、該エッジノードに背景音記録アップロード要求を転送し、該エッジノードからアップロードされた背景音を音声認識エンジンに転送する転送モジュール１３０３と、を含む。

図１４には、本実施例における音声認識方法を実行する音声認識エンジンの内部構成が示されている。図１４に示すように、本実施例における音声認識エンジンは、音声ファイルを受信すると、雑音低減処理が必要であるか否かを判断し、雑音低減処理が必要でない場合（例えば、初めて該音声ファイルに対して音声認識を行う場合）、発話終了検出モジュール４０４による音声ファイルへの発話終了検出処理をトリガーし、雑音低減処理が必要である場合（例えば、先の音声認識の認識率が低い場合）、要求モジュール１４０２を制御して制御サーバに背景音記録アップロード要求を送信する制御モジュール１４０１と、制御サーバに背景音記録アップロード要求を送信する要求モジュール１４０２と、クライアント機器にサービスを提供するエッジノードで記録された背景音を制御サーバから受信する背景音受信モジュール１４０３と、受信された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール４０２と、生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行い、発話終了検出モジュール４０４による音声ファイルへの発話終了検出処理をトリガーする雑音低減モジュール４０３と、を含む。

音声認識エンジンは、音声ライブラリ７０１と、言語ライブラリ７０２と、検索・復号ユニット７０３と、テキストアップロードモジュール４０６と、をさらに含む。検索・復号ユニット７０３は、音声ライブラリ及び言語ライブラリに基づいて、発話終了検出処理後の音声ファイルに対して、検索及び復号を行って、認識後のテキストを得る。テキストアップロードモジュール４０６は、認識後のテキストをアプリケーションサーバにアップロードする。

上記の各実施例から分かるように、本発明の実施例では、干渉除去用の背景音がクライアント機器の所在する位置付近のエッジノードによって捕捉して記録され、クライアント機器の所在する位置付近の環境雑音又は外部音の状況を適時かつ正確に反映できるので、この背景音で雑音モデルを生成して雑音低減を行うことにより、非常によい雑音低減効果を得ることができ、音声認識の認識率を大幅に向上させることができる。また、上記方法に加えて、本発明の実施例では、さらに、記録された背景音に対して伝搬損失推定を行ってもよい。これにより、クライアント機器の位置における背景音とエッジノードの位置における背景音との違いを補償し、雑音低減効果をさらに向上させ、さらに音声認識の認識率を向上させる。

さらに、本発明の実施例で提供された音声認識方法及び装置は、各種のタイプの環境雑音又は外部音に対しても、よい雑音低減効果を有し、各種の環境に適用可能である。

また、本発明の実施例で提供された音声認識方法及び装置は、クライアントへの要求が高くないため、普及させやすい。

上記は、本発明の好ましい実施例にすぎず、本発明の保護範囲を限定するものではない。本発明の精神と原則内で行われる種々の修正、均等置換え、改善などは全て本発明の保護範囲内に含まれるべきである。

３０１音声信号記録モジュール
３０２音声ファイル生成モジュール
３０３アップロードモジュール
４０１背景音記録モジュール
４０２雑音モデル生成モジュール
４０３雑音低減モジュール
４０４発話終了検出モジュール
４０５音声認識モジュール
４０６テキストアップロードモジュール
６０１ファイルアップロードモジュール
７０１音声ライブラリ
７０２言語ライブラリ
７０３検索・復号ユニット
９０１第２のファイルアップロードモジュール
１２０１要求受信モジュール
１２０２背景音アップロードモジュール
１３０１アップロード要求受信モジュール
１３０２マッチングモジュール
１３０３転送モジュール
１４０１制御モジュール
１４０２要求モジュール
１４０３背景音受信モジュール

Claims

音声認識方法であって、
クライアント機器の所在する位置付近の背景音を記録し、記録された背景音に基づいて、雑音モデルを生成し、
生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行い、
雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る、ことを含むことを特徴とする音声認識方法。
前記クライアント機器の所在する位置付近の背景音を記録することは、前記クライアント機器にサービスを提供するエッジノードが、自ノードの周囲の背景音を記録する、ことを含む、ことを特徴とする請求項１に記載の方法。
前記音声ファイルには、タイムスタンプが含まれ、
前記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルに対応するタイムスタンプに基づいて、前記タイムスタンプにより指示される時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項１に記載の方法。
前記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、前記音声ファイルを受信した時間に基づいて、前記時間に対応する背景音を検索し、該背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項１に記載の方法。
前記記録された背景音に基づいて、雑音モデルを生成することは、エッジノードが、クライアント機器からアップロードされた音声ファイルを受信すると、背景音を記録し始め、記録された背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項１に記載の方法。
前記記録された背景音に基づいて、雑音モデルを生成することは、音声認識エンジンが、制御サーバに背景音記録アップロード要求を送信し、制御サーバからアップロードされた背景音を受信すると、音声認識エンジンが、制御サーバからアップロードされた背景音に基づいて、雑音モデルを生成する、ことを含む、ことを特徴とする請求項１に記載の方法。
前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、前記音声認識エンジンが、生成された雑音モデルに基づいて、エッジノードから受信した音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、
前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、前記音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項６に記載の方法。
前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行う、ことを含み、
前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、エッジノードが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項１に記載の方法。
前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、
前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項１に記載の方法。
前記生成された雑音モデルに基づいて、前記クライアント機器からの音声ファイルに対して雑音低減処理を行うことは、エッジノードが、生成された雑音モデルに基づいて、音声ファイルに対して雑音低減処理を行い、雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする、ことを含み、
前記雑音低減処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得ることは、音声認識エンジンが、雑音低減処理後の音声ファイルに対して発話終了検出処理を行い、発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得、認識後のテキストをアプリケーションサーバにアップロードする、ことを含む、ことを特徴とする請求項１に記載の方法。
記録された背景音に基づいて、雑音モデルを生成する前に、記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する、ことをさらに含む、ことを特徴とする請求項１に記載の方法。
エッジノードであって、
自ノードの所在する位置付近の背景音を記録する背景音記録モジュール（４０１）を含むことを特徴とするエッジノード。
制御サーバからの背景音記録アップロード要求を受信する要求受信モジュール（１２０１）と、
自ノードで記録された背景音を制御サーバにアップロードする背景音アップロードモジュール（１２０２）と、をさらに含むことを特徴とする請求項１２に記載のエッジノード。
記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、
生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール（４０３）と、
雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール（４０４）と、
発話終了検出処理後の音声ファイルに対して音声認識を行って、認識後のテキストを得る音声認識モジュール（４０５）と、
認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール（４０６）と、をさらに含むことを特徴とする請求項１２に記載のエッジノード。
記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、
生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール（４０３）と、
雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール（４０４）と、
発話終了検出処理後の音声ファイルを音声認識エンジンにアップロードするファイルアップロードモジュール（６０１）と、をさらに含むことを特徴とする請求項１２に記載のエッジノード。
記録された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、
生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行う雑音低減モジュール（４０３）と、
雑音低減処理後の音声ファイルを音声認識エンジンにアップロードする第２のファイルアップロードモジュール（９０１）と、をさらに含むことを特徴とする請求項１２に記載のエッジノード。
記録された背景音に対して伝搬損失推定を行い、伝搬損失推定結果に基づいて、記録された背景音を補償する伝搬損失推定モジュールをさらに含むことを特徴とする請求項１４、１５、又は１６に記載のエッジノード。
音声認識エンジンであって、
各種の異なるタイプの音声の、同一のテキスト内容に対する発音を記憶する音声ライブラリ（７０１）と、
各種の異なる言語の語彙情報を記憶する言語ライブラリ（７０２）と、
音声ライブラリ及び言語ライブラリに基づいて、受信された音声ファイルに対して検索及び復号を行って、認識後のテキストを得る検索・復号ユニット（７０３）と、
認識後のテキストをアプリケーションサーバにアップロードするテキストアップロードモジュール（４０６）と、を含むことを特徴とする音声認識エンジン。
雑音低減処理後の音声ファイルの各時刻における振幅を、予め設定された静音閾値と比較し、ある時刻から、各時刻の振幅が、予め設定された静音閾値より小さくなる場合、音声ファイルからこの時刻以後の部分を削除する発話終了検出モジュール（４０４）をさらに含むことを特徴とする請求項１８に記載の音声認識エンジン。
音声ファイルを受信すると、雑音低減処理が必要であるか否かを判断し、雑音低減処理が必要でない場合、発話終了検出モジュール（４０４）による音声ファイルへの発話終了検出処理をトリガーし、雑音低減処理が必要である場合、要求モジュール（１４０２）を制御して制御サーバに背景音記録アップロード要求を送信する制御モジュール（１４０１）と、
制御サーバに背景音記録アップロード要求を送信する要求モジュール（１４０２）と、
クライアント機器にサービスを提供するエッジノードで記録された背景音を制御サーバから受信する背景音受信モジュール（１４０３）と、
受信された背景音に基づいて、雑音モデルを生成する雑音モデル生成モジュール（４０２）と、
生成された雑音モデルに基づいて、受信された音声ファイルに対して雑音低減処理を行い、発話終了検出モジュール（４０４）による音声ファイルへの発話終了検出処理をトリガーする雑音低減モジュール（４０３）と、をさらに含むことを特徴とする請求項１９に記載の音声認識エンジン。
制御サーバであって、
音声認識エンジンからの背景音記録アップロード要求を受信するアップロード要求受信モジュール（１３０１）と、
背景音記録アップロード要求に付けられているクライアント機器の位置情報に基づいて、該クライアント機器にサービスを提供するエッジノードを決定するマッチングモジュール（１３０２）と、
該エッジノードに背景音記録アップロード要求を転送し、該エッジノードからアップロードされた背景音を音声認識エンジンに転送する転送モジュール（１３０３）と、を含むことを特徴とする制御サーバ。