JP7005099B2 - 音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイス - Google Patents
音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイス Download PDFInfo
- Publication number
- JP7005099B2 JP7005099B2 JP2020540799A JP2020540799A JP7005099B2 JP 7005099 B2 JP7005099 B2 JP 7005099B2 JP 2020540799 A JP2020540799 A JP 2020540799A JP 2020540799 A JP2020540799 A JP 2020540799A JP 7005099 B2 JP7005099 B2 JP 7005099B2
- Authority
- JP
- Japan
- Prior art keywords
- predetermined
- probability
- voice segment
- voice
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Description
認識対象音声信号に基づいて、各第1の音声セグメントを取得するステップと、
事前設定された第1の分類モデルにより、各前記第1の音声セグメントにそれぞれ対応する各第1の確率を取得するステップであって、前記第1の確率には、前記第1の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第2の音声セグメントを取得し、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するステップと、
事前設定された第2の分類モデルにより、各前記第1の予測特徴に基づいて分類して、各前記第2の音声セグメントにそれぞれ対応する各第2の確率を取得するステップであって、前記第2の確率には、前記第2の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも1つを含むステップと、
前記第2の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップと、を含む。
認識対象音声信号に基づいて、各第1の音声セグメントを取得するための第1の音声セグメント取得モジュールと、
事前設定された第1の分類モデルにより、各前記第1の音声セグメントにそれぞれ対応する各第1の確率を取得するための第1の確率取得モジュールであって、前記第1の確率には、前記第1の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む第1の確率取得モジュールと、
前記認識対象音声信号に基づいて各第2の音声セグメントを取得し、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するための予測特徴生成モジュールと、
事前設定された第2の分類モデルにより、各前記第1の予測特徴に基づいて分類して、各前記第2の音声セグメントにそれぞれ対応する各第2の確率を取得するための第2の確率取得モジュールであって、前記第2の確率には、前記第2の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも1つを含む第2の確率取得モジュールと、
前記第2の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するためのキーワード認識モジュールと、を含む。
認識対象音声信号に基づいて、各第1の音声セグメントを取得するステップと、
事前設定された第1の分類モデルにより、各前記第1の音声セグメントにそれぞれ対応する各第1の確率を取得するステップであって、前記第1の確率には、前記第1の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第2の音声セグメントを取得し、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するステップと、
事前設定された第2の分類モデルにより、各前記第1の予測特徴に基づいて分類して、各前記第2の音声セグメントにそれぞれ対応する各第2の確率を取得するステップであって、前記第2の確率には、前記第2の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも1つを含むステップと、
前記第2の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップと、を前記プロセッサに実行させる。
認識対象音声信号に基づいて、各第1の音声セグメントを取得するステップと、
事前設定された第1の分類モデルにより、各前記第1の音声セグメントにそれぞれ対応する各第1の確率を取得するステップであって、前記第1の確率には、前記第1の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第2の音声セグメントを取得し、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するステップと、
事前設定された第2の分類モデルにより、各前記第1の予測特徴に基づいて分類して、各前記第2の音声セグメントにそれぞれ対応する各第2の確率を取得するステップであって、前記第2の確率には、前記第2の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも1つを含むステップと、
前記第2の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップとを、前記プロセッサに実行させる。
1202 第1の音声セグメント取得モジュール
1204 第1の確率取得モジュール
1206 予測特徴生成モジュール
1208 第2の確率取得モジュール
1210 キーワード認識モジュール
Claims (18)
- ユーザ端末又はサーバが実行する、音声キーワードの認識方法であって、
認識対象音声信号に基づいて、各第1の音声セグメントを取得するステップと、
事前設定された第1の分類モデルにより、各前記第1の音声セグメントにそれぞれ対応する各第1の確率を取得するステップであって、前記第1の確率には、前記第1の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第2の音声セグメントを取得し、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するステップと、
事前設定された第2の分類モデルにより、各前記第1の予測特徴に基づいて分類して、各前記第2の音声セグメントにそれぞれ対応する各第2の確率を取得するステップであって、前記第2の確率には、前記第2の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも1つを含むステップと、
前記第2の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップと、を含み、
各前記第1の確率と所定の決定ロジックとに基づいて、前記認識対象音声信号に前記所定のキーワードが存在すると判定した場合に、前記の、前記認識対象音声信号に基づいて各第2の音声セグメントを取得するステップに進むことを特徴とする、方法。 - 各前記第1の確率と所定の決定ロジックとに基づいて、前記認識対象音声信号に前記所定のキーワードが存在することを判定する方法は、
現在の認識対象分割単語ユニットを決定するステップであって、前記現在の認識対象分割単語ユニットが、前記所定のキーワードにおける各前記所定の分割単語ユニットの現れる順番に基づき決定される、最初に現れた認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットであるステップと、
現在の判断対象音声セグメントを決定するステップであって、前記現在の判断対象音声セグメントが、前記認識対象音声信号における各前記第1の音声セグメントの現れる順番に基づき決定される、最初に現れた判断対象音声セグメントとして使用されたことのない第1の音声セグメントであるステップと、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きく、且つ、前記現在の認識対象分割単語ユニットが前記所定のキーワードのうち最後に現れた前記所定の分割単語ユニットではない場合に、前記の、現在の認識対象分割単語ユニットを決定するステップに戻るステップと、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が前記所定の閾値よりも大きく、且つ、前記現在の認識対象分割単語ユニットが前記所定のキーワードのうち最後に現れた前記所定の分割単語ユニットである場合に、前記認識対象音声信号に前記所定のキーワードが存在すると判定するステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記方法は、さらに、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が前記所定の閾値以下であり、且つ、前記所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが有効な状態にある場合に、前記の、現在の判断対象音声セグメントを決定するステップに戻るステップと、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が前記所定の閾値以下であり、且つ、前記所定の閾値よりも大きいと前回判断した際に対応する認識対象分割単語ユニットが無効な状態にある場合に、前記所定のキーワードの各前記所定の分割単語のうち最初に現れた前記所定の分割単語ユニットを現在の認識対象分割単語ユニットとして決定し、前記の、現在の判断対象音声セグメントを決定するステップに戻るステップと、を含むことを特徴とする請求項2に記載の方法。 - 前記第1の分類モデルを決定する方法は、
所定のコーパスに基づき、サンプル音声信号を取得するステップであって、前記所定のコーパスが汎用のコーパスを含む、ステップと、
各前記サンプル音声信号に基づき第3の音声セグメントを取得するステップと、
各前記第3の音声セグメントの第1の音響特徴及び各前記第3の音声セグメントにそれぞれ対応する各第3の確率を取得するステップであって、前記第3の確率に、前記第3の音声セグメントが、前記所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率が含まれる、ステップと、
各前記第3の音声セグメントの第1の音響特徴及び各前記第3の確率に基づき、所定の第1のニューラルネットワークモデルをトレーニングして、前記第1の分類モデルを決定するステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記第2の分類モデルを決定する方法は、
各前記サンプル音声信号に基づき、第4の音声セグメントを取得するステップと、
各第4の音声セグメントに対応する第3の音声セグメントに対応する第3の確率に基づき、各前記第4の音声セグメントの第2の予測特徴をそれぞれ生成するステップと、
各前記第4の音声セグメントにそれぞれ対応する各第4の確率を取得するステップであって、前記第4の確率には、前記第4の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも1つが含まれる、ステップと、
各前記第4の音声セグメントの第2の予測特徴及び各前記第4の確率に基づき、所定の第2のニューラルネットワークモデルをトレーニングして、第2の分類モデルを決定するステップを含むことを特徴とする請求項4に記載の方法。 - 前記の、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するステップの前に、
各前記第2の音声セグメントの第2の音響特徴を取得するステップをさらに含み、
前記の、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するステップは、
各前記第2の音声セグメントの第2の音響特徴及び各第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づき、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するステップを含むことを特徴とする請求項1に記載の方法。 - 前記所定のキーワードの各所定の分割単語ユニットを取得する方法は、
所定の単語分割単位に基づいて前記所定のキーワードに対して単語分割処理を行って、前記所定のキーワードの各所定の分割単語ユニットを取得するステップを含み、
前記所定の単語分割単位に、ピンイン、音素、及び字の少なくとも1つが含まれることを特徴とする請求項1に記載の方法。 - 前記第1の分類モデルは、互いにカスケード接続された各サブ分類モデルを含み、前記サブ分類モデルのレベル数が2以上であることを特徴とする請求項1から7のいずれか1項に記載の方法。
- 音声キーワードの認識装置であって、
認識対象音声信号に基づいて、各第1の音声セグメントを取得するための第1の音声セグメント取得モジュールと、
事前設定された第1の分類モデルにより、各前記第1の音声セグメントにそれぞれ対応する各第1の確率を取得するための第1の確率取得モジュールであって、前記第1の確率には、前記第1の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む、第1の確率取得モジュールと、
前記認識対象音声信号に基づいて各第2の音声セグメントを取得し、各前記第2の音声セグメントに対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するための予測特徴生成モジュールと、
事前設定された第2の分類モデルにより、各前記第1の予測特徴に基づいて分類して、各前記第2の音声セグメントにそれぞれ対応する各第2の確率を取得するための第2の確率取得モジュールであって、前記第2の確率には、前記第2の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも1つを含む、第2の確率取得モジュールと、
前記第2の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するためのキーワード認識モジュールと、を含み、
各第1の確率と所定の決定ロジックとに基づいて、認識対象音声信号に所定のキーワードが存在すると判定した場合に、前記予測特徴生成モジュールを呼び出すための仮認識モジュールをさらに含むことを特徴とする、装置。 - 前記仮認識モジュールは、
現在の認識対象分割単語ユニットを決定するための現在の分割単語決定ユニットであって、前記現在の認識対象分割単語ユニットが、前記所定のキーワードにおける各所定の分割単語ユニットの現れる順番に基づき決定される、最初に現れた認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットである、現在の分割単語決定ユニットと、
現在の判断対象音声セグメントを決定するための現在のセグメント認識ユニットであって、前記現在の判断対象音声セグメントが、認識対象音声信号における各第1の音声セグメントの出現順序に基づき決定される、最初に現れた判断対象音声セグメントとして使用されたことのない第1の音声セグメントである、現在のセグメント認識ユニットと、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットではない場合に、前記現在の分割単語決定ユニットを呼び出すための第1の呼び出しユニットと、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットである場合に、認識対象音声信号に所定のキーワードが存在すると判定するための仮判定ユニットとを含むことを特徴とする請求項9に記載の装置。 - 前記仮認識モジュールは、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが有効な状態にある場合に、前記現在のセグメント認識ユニットを呼び出すための第2の呼び出しユニットと、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率、が所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが無効な状態にある場合に、所定のキーワードの各所定の分割単語のうち最初に現れた所定の分割単語ユニットを、現在の認識対象分割単語ユニットとして決定し、前記現在のセグメント認識ユニットを呼び出すための分割単語リセットユニットと、を含むことを特徴とする請求項10に記載の装置。 - 所定のコーパスに基づいて、サンプル音声信号を取得するためのサンプルデータ取得モジュールであって、前記所定のコーパスが汎用のコーパスを含むサンプルデータ取得モジュールと、
各サンプル音声信号に基づき、第3の音声セグメントを取得するための第1のセグメント取得モジュールと、
各第3の音声セグメントの第1の音響特徴及び各第3の音声セグメントにそれぞれ対応する各第3の確率を取得するための第1のサンプル特徴取得モジュールであって、第3の確率に、前記第3の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率が含まれる、第1のサンプル特徴取得モジュールと、
各第3の音声セグメントの第1の音響特徴及び各第3の確率とに基づき、所定の第1のニューラルネットワークモデルをトレーニングして、第1の分類モデルを決定するための第1のモデルトレーニングモジュールと、をさらに含むことを特徴とする請求項9に記載の装置。 - 各サンプル音声信号に基づき、第4の音声セグメントを取得するための第2のセグメント取得モジュールと、
各第4の音声セグメントに対応する第3の音声セグメントに対応する第3の確率に基づき、各第4の音声セグメントの第2の予測特徴をそれぞれ生成するための第2のサンプル特徴取得モジュールと、
各第4の音声セグメントにそれぞれ対応する各第4の確率を取得するためのサンプル確率取得モジュールであって、第4の確率には、当該第4の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも1つが含まれる、サンプル確率取得モジュールと、
各第4の音声セグメントの第2の予測特徴及び各第4の確率とに基づき、所定の第2のニューラルネットワークモデルをトレーニングして、第2の分類モデルを決定するための第2のモデルトレーニングモジュールと、をさらに含むことを特徴とする請求項12に記載の装置。 - 各第2の音声セグメントの第2の音響特徴を取得するための音響特徴取得モジュールをさらに含み、
第2のサンプル特徴取得モジュールは、各前記第2の音声セグメントの第2の音響特徴、及び各第2の音声セグメント対応する第1の音声セグメントに対応する第1の確率に基づいて、各前記第2の音声セグメントの第1の予測特徴をそれぞれ生成するために使用されることを特徴とする請求項9に記載の装置。 - 所定の単語分割単位に基づいて、所定のキーワードに対して単語分割処理を行って、所定のキーワードの各所定の分割単語ユニットを取得するための単語分割処理モジュールをさらに含み、
所定の単語分割単位に、ピンイン、音素、及び字の少なくとも1つが含まれることを特徴とする請求項9に記載の装置。 - 第1の分類モデルは、互いにカスケード接続された各サブ分類モデルを含み、サブ分類モデルのレベル数が2以上であることを特徴とする請求項9から15のいずれか1項に記載の装置。
- コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行される場合に、請求項1から8のいずれか1項に記載の方法のステップを前記プロセッサに実行させる、コンピュータ読み取り可能な記憶媒体。
- メモリとプロセッサとを含むコンピュータデバイスであって、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムは、前記プロセッサによって実行される場合に、請求項1から8のいずれか1項に記載の方法のステップを前記プロセッサに実行させるコンピュータデバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810096472.XA CN108305617B (zh) | 2018-01-31 | 2018-01-31 | 语音关键词的识别方法和装置 |
CN201810096472.X | 2018-01-31 | ||
PCT/CN2019/072590 WO2019149108A1 (zh) | 2018-01-31 | 2019-01-22 | 语音关键词的识别方法、装置、计算机可读存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021512362A JP2021512362A (ja) | 2021-05-13 |
JP7005099B2 true JP7005099B2 (ja) | 2022-01-21 |
Family
ID=62850811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020540799A Active JP7005099B2 (ja) | 2018-01-31 | 2019-01-22 | 音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイス |
Country Status (5)
Country | Link |
---|---|
US (1) | US11222623B2 (ja) |
EP (1) | EP3748629B1 (ja) |
JP (1) | JP7005099B2 (ja) |
CN (3) | CN110444195B (ja) |
WO (1) | WO2019149108A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444195B (zh) | 2018-01-31 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音关键词的识别方法和装置 |
JP6911785B2 (ja) * | 2018-02-02 | 2021-07-28 | 日本電信電話株式会社 | 判定装置、判定方法及び判定プログラム |
US11854566B2 (en) | 2018-06-21 | 2023-12-26 | Magic Leap, Inc. | Wearable system speech processing |
CN110752973B (zh) * | 2018-07-24 | 2020-12-25 | Tcl科技集团股份有限公司 | 一种终端设备的控制方法、装置和终端设备 |
CN109065046A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 |
JP2022522748A (ja) | 2019-03-01 | 2022-04-20 | マジック リープ, インコーポレイテッド | 発話処理エンジンのための入力の決定 |
GB201904185D0 (en) * | 2019-03-26 | 2019-05-08 | Sita Information Networking Computing Uk Ltd | Item classification system, device and method therefor |
US11043218B1 (en) * | 2019-06-26 | 2021-06-22 | Amazon Technologies, Inc. | Wakeword and acoustic event detection |
CN110335592B (zh) * | 2019-06-28 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110334244B (zh) * | 2019-07-11 | 2020-06-09 | 出门问问信息科技有限公司 | 一种数据处理的方法、装置及电子设备 |
US11328740B2 (en) * | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
CN110364143B (zh) * | 2019-08-14 | 2022-01-28 | 腾讯科技(深圳)有限公司 | 语音唤醒方法、装置及其智能电子设备 |
CN110570861B (zh) * | 2019-09-24 | 2022-02-25 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
CN111081241B (zh) * | 2019-11-20 | 2023-04-07 | Oppo广东移动通信有限公司 | 设备误唤醒的数据检测方法、装置、移动终端和存储介质 |
CN110992929A (zh) * | 2019-11-26 | 2020-04-10 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
CN111477223A (zh) * | 2020-03-04 | 2020-07-31 | 深圳市佳士科技股份有限公司 | 焊机控制方法、装置、终端设备及计算机可读存储介质 |
CN111445899B (zh) * | 2020-03-09 | 2023-08-01 | 咪咕文化科技有限公司 | 语音情绪识别方法、装置及存储介质 |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
CN111508493B (zh) * | 2020-04-20 | 2022-11-15 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN111768764B (zh) * | 2020-06-23 | 2024-01-19 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及介质 |
CN111833856B (zh) * | 2020-07-15 | 2023-10-24 | 厦门熙重电子科技有限公司 | 基于深度学习的语音关键信息标定方法 |
CN111798840B (zh) * | 2020-07-16 | 2023-08-08 | 中移在线服务有限公司 | 语音关键词识别方法和装置 |
CN111951807A (zh) * | 2020-08-21 | 2020-11-17 | 上海依图网络科技有限公司 | 语音内容检测方法及其装置、介质和系统 |
CN112435691B (zh) * | 2020-10-12 | 2024-03-12 | 珠海亿智电子科技有限公司 | 在线语音端点检测后处理方法、装置、设备及存储介质 |
CN112634870B (zh) * | 2020-12-11 | 2023-05-30 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
CN112883375A (zh) * | 2021-02-03 | 2021-06-01 | 深信服科技股份有限公司 | 恶意文件识别方法、装置、设备及存储介质 |
CN113192501B (zh) * | 2021-04-12 | 2022-04-22 | 青岛信芯微电子科技股份有限公司 | 一种指令词识别方法及装置 |
CN113838467B (zh) * | 2021-08-02 | 2023-11-14 | 北京百度网讯科技有限公司 | 语音处理方法、装置及电子设备 |
CN113724698B (zh) * | 2021-09-01 | 2024-01-30 | 马上消费金融股份有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
EP4156179A1 (de) * | 2021-09-23 | 2023-03-29 | Siemens Healthcare GmbH | Sprachsteuerung einer medizinischen vorrichtung |
CN114141239A (zh) * | 2021-11-29 | 2022-03-04 | 江南大学 | 基于轻量级深度学习的语音短指令识别方法及系统 |
CN116030792B (zh) * | 2023-03-30 | 2023-07-25 | 深圳市玮欧科技有限公司 | 用于转换语音音色的方法、装置、电子设备和可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016177214A (ja) | 2015-03-23 | 2016-10-06 | カシオ計算機株式会社 | 音声認識装置、音声認識方法及びプログラム |
US20170270919A1 (en) | 2016-03-21 | 2017-09-21 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US20170301341A1 (en) | 2016-04-14 | 2017-10-19 | Xerox Corporation | Methods and systems for identifying keywords in speech signal |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639507B2 (en) * | 2007-12-25 | 2014-01-28 | Nec Corporation | Voice recognition system, voice recognition method, and program for voice recognition |
KR20120072145A (ko) * | 2010-12-23 | 2012-07-03 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
CN102831891B (zh) * | 2011-06-13 | 2014-11-05 | 富士通株式会社 | 一种语音数据处理方法及系统 |
CN102915729B (zh) * | 2011-08-01 | 2014-11-26 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
CN102982024B (zh) * | 2011-09-02 | 2016-03-23 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
CN103177721B (zh) * | 2011-12-26 | 2015-08-19 | 中国电信股份有限公司 | 语音识别方法和系统 |
US10304465B2 (en) * | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
CN104143329B (zh) | 2013-08-19 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 进行语音关键词检索的方法及装置 |
CN103943107B (zh) * | 2014-04-03 | 2017-04-05 | 北京大学深圳研究生院 | 一种基于决策层融合的音视频关键词识别方法 |
US9484022B2 (en) * | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US9508340B2 (en) * | 2014-12-22 | 2016-11-29 | Google Inc. | User specified keyword spotting using long short term memory neural network feature extractor |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
US20170061959A1 (en) * | 2015-09-01 | 2017-03-02 | Disney Enterprises, Inc. | Systems and Methods For Detecting Keywords in Multi-Speaker Environments |
CN105679310A (zh) * | 2015-11-17 | 2016-06-15 | 乐视致新电子科技(天津)有限公司 | 一种用于语音识别方法及系统 |
CN106856092B (zh) * | 2015-12-09 | 2019-11-15 | 中国科学院声学研究所 | 基于前向神经网络语言模型的汉语语音关键词检索方法 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106940998B (zh) * | 2015-12-31 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN106328147B (zh) * | 2016-08-31 | 2022-02-01 | 中国科学技术大学 | 语音识别方法和装置 |
US10311863B2 (en) * | 2016-09-02 | 2019-06-04 | Disney Enterprises, Inc. | Classifying segments of speech based on acoustic features and context |
CN106448663B (zh) * | 2016-10-17 | 2020-10-23 | 海信集团有限公司 | 语音唤醒方法及语音交互装置 |
CN106547742B (zh) * | 2016-11-30 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析结果处理方法和装置 |
JP6968012B2 (ja) | 2017-03-30 | 2021-11-17 | 株式会社バルカー | 積層体及びその製造方法、並びにゲートシール |
CN107123417B (zh) * | 2017-05-16 | 2020-06-09 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及系统 |
CN107221326B (zh) * | 2017-05-16 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107230475B (zh) * | 2017-05-27 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN107274888B (zh) * | 2017-06-14 | 2020-09-15 | 大连海事大学 | 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法 |
CN107622770B (zh) * | 2017-09-30 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
CN110444195B (zh) * | 2018-01-31 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音关键词的识别方法和装置 |
-
2018
- 2018-01-31 CN CN201910740816.0A patent/CN110444195B/zh active Active
- 2018-01-31 CN CN201910744233.5A patent/CN110444193B/zh active Active
- 2018-01-31 CN CN201810096472.XA patent/CN108305617B/zh active Active
-
2019
- 2019-01-22 JP JP2020540799A patent/JP7005099B2/ja active Active
- 2019-01-22 WO PCT/CN2019/072590 patent/WO2019149108A1/zh unknown
- 2019-01-22 EP EP19747243.4A patent/EP3748629B1/en active Active
-
2020
- 2020-05-27 US US16/884,350 patent/US11222623B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016177214A (ja) | 2015-03-23 | 2016-10-06 | カシオ計算機株式会社 | 音声認識装置、音声認識方法及びプログラム |
US20170270919A1 (en) | 2016-03-21 | 2017-09-21 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US20170301341A1 (en) | 2016-04-14 | 2017-10-19 | Xerox Corporation | Methods and systems for identifying keywords in speech signal |
Also Published As
Publication number | Publication date |
---|---|
JP2021512362A (ja) | 2021-05-13 |
EP3748629C0 (en) | 2023-09-06 |
CN110444193A (zh) | 2019-11-12 |
EP3748629B1 (en) | 2023-09-06 |
WO2019149108A1 (zh) | 2019-08-08 |
CN108305617B (zh) | 2020-09-08 |
EP3748629A4 (en) | 2021-10-27 |
CN110444195A (zh) | 2019-11-12 |
CN110444193B (zh) | 2021-12-14 |
US20200286465A1 (en) | 2020-09-10 |
CN108305617A (zh) | 2018-07-20 |
EP3748629A1 (en) | 2020-12-09 |
US11222623B2 (en) | 2022-01-11 |
CN110444195B (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7005099B2 (ja) | 音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイス | |
CN110718223B (zh) | 用于语音交互控制的方法、装置、设备和介质 | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
US11450312B2 (en) | Speech recognition method, apparatus, and device, and storage medium | |
US11335347B2 (en) | Multiple classifications of audio data | |
US10878807B2 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
CN109448719B (zh) | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN110517664B (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
JP2017097162A (ja) | キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN110491375B (zh) | 一种目标语种检测的方法和装置 | |
CN111883121A (zh) | 唤醒方法、装置及电子设备 | |
CN116978368B (zh) | 一种唤醒词检测方法和相关装置 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
KR20220129034A (ko) | 작은 풋프린트 멀티-채널 키워드 스포팅 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN111627452A (zh) | 一种语音解码方法、装置和终端设备 | |
KR20210052563A (ko) | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
CN114817456B (zh) | 关键词检测方法、装置、计算机设备及存储介质 | |
Jeoung et al. | Keyword spotting on embedded system with deep learning | |
CN114756662A (zh) | 基于多模态输入的任务特定文本生成 | |
CN115148188A (zh) | 语种识别方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7005099 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |