JP2019215513A - 音声区間の検出方法および装置 - Google Patents

音声区間の検出方法および装置 Download PDF

Info

Publication number
JP2019215513A
JP2019215513A JP2018244499A JP2018244499A JP2019215513A JP 2019215513 A JP2019215513 A JP 2019215513A JP 2018244499 A JP2018244499 A JP 2018244499A JP 2018244499 A JP2018244499 A JP 2018244499A JP 2019215513 A JP2019215513 A JP 2019215513A
Authority
JP
Japan
Prior art keywords
frame
voice
speech
frames
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018244499A
Other languages
English (en)
Other versions
JP6676141B2 (ja
Inventor
チャオ リ、
Chao Li
チャオ リ、
ウェイシン ジュー、
Weixin Zhu
ウェイシン ジュー、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019215513A publication Critical patent/JP2019215513A/ja
Application granted granted Critical
Publication of JP6676141B2 publication Critical patent/JP6676141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声区間検出の正確性を向上する音声区間の検出方法及び装置を提供する。【解決手段】検出方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るステップと、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を、検出対象となる音声のうちの前のN個の音声フレームをノイズフレーム、N+1番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類する(N及びMは整数である)ための音声アクティビティ検出VADモデルに順次入力するステップと、VADモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するステップとを含む。【選択図】図6

Description

本発明は、音声認識の技術分野に関し、特に音声区間の検出方法および装置に関する。
ヒューマン・コンピュータ相互作用技術の発展に伴い、音声認識技術がその重要性を示す。音声認識システムにおいて、音声区間検出技術は非常に重要な技術であり、通常、音声アクティビティ検出技術(voice activity detection、VAD)とも呼ばれる。音声区間検出は連続音声信号内の音声部分の開始点および終了点を見つけることを指す。
従来技術では、VADモデルを用いて、音声における音声区間の開始点および終了点を決定することができ、VADモデルが分類モデルである。具体的に実施するときに、音声に対してフレーミング処理を行って、各音声フレームの音響的特徴を抽出してVADモデルに順次入力し、VADモデルが音響的特徴に基づいてフレームごとに音声フレームまたはノイズフレームに分類し、最後に、連続した音声フレームのうちの最初の音声フレームを音声区間の開始点、最後の音声フレームを音声区間の終了点とする。
しかしながら、従来の区間検出技術には不正確な問題があり、検出の正確性が低い。
本発明の実施例は、音声区間の正確性を向上させるための音声区間の検出方法および装置を提供する。
第1の態様によれば、本発明の実施例にて提供される音声区間の検出方法は、
検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るステップと、
各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のN個の音声フレームをノイズフレーム、N+1番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類する(前記NおよびMは整数である)ための音声アクティビティ検出VADモデルに順次入力するステップと、
前記VADモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するステップとを含む。
1つの可能な設計では、前記VADモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定する前記ステップは、
前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定するステップと、
前記最初の音声フレームを決定した後、前記VADモデルが出力した、前記第1の閾値より小さい第2の閾値より小さい最初の第2の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定するステップとを含む。
1つの可能な設計では、前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した前記ステップの後、さらに、
キャッシュメモリから前記最初の音声フレームの前のP(Pは正整数であり、且つ前記Nより大きい)フレームの音声フレームを取得する前記ステップと、
前記Pフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信するステップとを含む。
1つの可能な設計では、各前記音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力する前記ステップの前に、さらに、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得るステップと、
前のN個の音声フレームがノイズフレーム、N+1番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得するステップと、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるVADモデルに対して訓練を行って、訓練後のVADモデルを得るステップとを含む。
1つの可能な設計では、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを取得する前記ステップは、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得るステップと、
音声フレームを指示するための前のN個の候補ラベルを修正して、前のN個の音声フレームがノイズフレームに分類されたことを指示するための第1のラベルを得るステップと、
ノイズフレームを指示するための最後の音声フレーム以降のM個の候補ラベルを修正して、前記M個のノイズフレームが音声フレームに分類されたことを指示するための第2のラベルを得るステップと、
残りの候補ラベル、前記第1のラベルおよび前記第2のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得るステップとを含む。
1つの可能な設計では、前記VADモデルはディープニューラルネットワークモデルである。
1つの可能な設計では、前記NはM以上である。
第2の態様によれば、本発明の実施例にて提供される音声区間の検出装置は、
検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るためのフレーミングモジュールと、
各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のN個の音声フレームをノイズフレーム、N+1番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類する(前記NおよびMは整数である)ための音声アクティビティ検出VADモデルに順次入力するための検出モジュールと、
前記VADモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するための決定モジュールとを備える。
1つの可能な設計では、前記決定モジュールは、
前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定し、
前記最初の音声フレームを決定した後、前記VADモデルが出力した、前記第1の閾値より小さい第2の閾値より小さい最初の第2の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する。
1つの可能な設計では、前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した後、キャッシュメモリから前記最初の音声フレームの前のP(Pは正整数であり、且つ前記Nより大きい)フレームの音声フレームを取得し、
前記Pフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信するための通信モジュールをさらに備える。
1つの可能な設計では、各前記音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力する前、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得て、
前のN個の音声フレームがノイズフレーム、N+1番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるVADモデルに対して訓練を行って、訓練後のVADモデルを得るための訓練モジュールをさらに備える。
1つの可能な設計では、前記訓練モジュールは、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得て、
音声フレームを指示するための前のN個の候補ラベルを修正して、前のN個の音声フレームがノイズフレームに分類されたことを指示するための第1のラベルを得て、
ノイズフレームを指示するための最後の音声フレーム以降のM個の候補ラベルを修正して、前記M個のノイズフレームが音声フレームに分類されたことを指示するための第2のラベルを得て、
残りの候補ラベル、前記第1のラベルおよび前記第2のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得る。
1つの可能な設計では、前記VADモデルはディープニューラルネットワークモデルである。
1つの可能な設計では、前記NはM以上である。
第3の態様によれば、本発明の実施例にて提供される音声区間の検出装置は、メモリに記憶されたコンピュータ実行可能命令を実行して、上記第1の態様および第1の態様の各種可能な設計に記載の音声区間の検出方法を実行する少なくとも1つのプロセッサと、コンピュータ実行可能命令を記憶しているメモリとを備える。
第4の態様によれば、本発明の実施例にて提供されるコンピュータ読み取り可能な記憶媒体は、コンピュータ実行可能命令が記憶されており、プロセッサが前記コンピュータ実行可能命令を実行すると、上記第1の態様および第1の態様の各種可能な設計に記載の音声区間の検出方法を実現する。
本実施例による音声区間の検出方法および装置では、該方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力し、VADモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定し、該VADモデルによって、検出対象となる音声のうちの前のN個の音声フレームをノイズフレームに分類し、それにより、ノイズフレームの音声認識装置への誤伝送を防止でき、該VADモデルによって、N+1番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類することにより、声が小さいことにより早めに終了点を決定するという問題を回避するとともに、ユーザーが一時的に停止して1つの文を2つの文に分割する状況を避け、音声区間検出の正確性を高める。
本発明の実施例または従来技術における技術案をより明確に説明するために、以下、実施例または従来技術の説明に用いる図面を簡単に説明し、当然ながら、後述する図面は本発明のいくつかの実施例に過ぎず、当業者であれば、創造的な労力を行わなくても、これらの図面に基づき他の図面を得ることができる。
本発明の実施例による音声認識システムの音声認識原理の概略図である。 本発明の実施例によるVADモデル取得のフローチャートである。 本発明の実施例による音響的特徴の構造概略図である。 本発明の実施例による音響的特徴に対応する候補ラベルの概略図である。 本発明の実施例によるラベル修正の概略図である。 本発明の実施例による音声区間の検出方法のプロセスの概略図1である。 本発明の実施例による音声区間の検出方法のプロセスの概略図2である。 本発明の実施例による音声区間の検出装置の構造概略図1である。 本発明の実施例による音声区間の検出装置の構造概略図2である。 本発明の実施例による音声区間の検出装置のハードウェア構造の概略図である。
本発明の実施例の目的、技術案および利点をより明確にするために、以下、本発明の実施例における図面を参照しながら、本発明の実施例における技術案を明確で、完全に説明するが、当然ながら、説明される実施例は、本発明のすべての実施例ではなく、その一部に過ぎない。本発明の実施例に基づき、当業者が創造的な労力を要さずに想到しうる他の実施例は、いずれも本発明の技術的範囲に属するものである。
図1は、本発明の実施例による音声認識システムの音声認識原理の概略図である。音声認識(Automatic Speech Recognition、ASR)が解決すべき問題はコンピュータに人間の声を「理解」させ、声をテキストに変換することである。図1に示されるように、該音声認識システムの認識過程はフロントエンド処理過程とバックエンド処理過程とを含む。フロントエンドはインテリジェントフォン、インテリジェントスピーカ、インテリジェントテレビ、インテリジェント冷蔵庫など、ユーザーとの音声対話を実行できる様々なインテリジェント端末であってもよく、本実施例では、インテリジェント端末の実現方式について特に制限しない。バックエンドはデータ論理処理が可能なサーバーであってもよく、当業者であれば、バックエンドはインテリジェント端末のプロセッサでもあり得ることを理解できる。事前に訓練された音響モデルおよび音声モデルはバックエンドに格納することができる。音響モデルは、音声から音節への確率の計算に対応し、音声モデルは、音節から単語への確率の計算に対応する。
具体的な実施過程において、フロントエンドは、音声を受信した後、受信した音声に対してフレーミング処理を行い、次に区間検出を行い、音声区間の開始点が検出された後、開始点後の音声フレームについてノイズ低減処理を行い、次に特徴抽出を音声区間の終了点が検出されるまで行い、抽出した音響的特徴、音響モデル、音声モデルに基づいて復号し、認識結果を得る。可能な実施形態では、復号とは音響モデル、辞書および言語モデルを1つのネットワークとしてコンパイルすることである。復号とは、この動的ネットワーク空間において、最大事後確率に基づいて、認識結果(最適出力文字列)として1つ以上の最適経路を選択することである。
以上から分かるように、この過程において区間検出が特に重要なことであり、音声認識システムの入力を決める。しかしながら、従来の区間検出では、音声区間前のノイズセグメントが音声に分類されるため、開始点の検出が正確ではない場合があり、同時にユーザーの声が小さくなったり、または一時的に停止したりする場合、終了点の検出が不正確であることなどがあり、従って、区間検出の正確性が不十分である。これに基づいて、本発明の実施例は、音声区間検出の正確性を向上できる音声区間の検出方法を提供する。
本実施例では、音声アクティビティ検出(voice activity detection、VAD)モデルを用いて音声区間検出を行う。本実施例では、該VADモデルにおける開始点および終了点に対して異なるアルゴリズム制約を行うことで、音声区間検出の正確性を向上させる。本実施例では、該アルゴリズム制約の可能な実施形態を提供して、音声開始点および音声終了点について遅延制御を行って、十分な信頼区間を取得し、それにより音声区間検出の正確性を向上させる。以下、それぞれ訓練モデルおよび使用モデルの2つの面から詳細に説明する。
図2は、本発明の実施例によるVADモデル取得のフローチャートである。図2に示されるように、該方法は、S201〜S203を含む。
S201では、訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得る。
具体的な実施過程において、ユーザーの複数の音声を訓練対象となる音声として収集し、たとえば、それぞれ約数秒の音声を1万収集する。訓練対象となる音声ごとに、各訓練対象となる音声についてフレーミング処理を行って、複数の訓練対象となる音声フレームを得る。
具体的には、予め設定されたフレーム長および予め設定されたフレームシフトに基づいてフレーミング処理を行い、たとえばフレーム長は25ms、フレームシフトは10msである。それによって、フレームごとのシーケンスは部分的に重なる。当業者であれば、ここでのフレーム長およびフレームシフトは例示的なものに過ぎず、本実施例では、それについて特に制限しない。
S202では、前のN個の音声フレームがノイズフレーム、N+1番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
フレーミング結果を得た後、各音声フレームの音響的特徴を抽出する。該音響的特徴は、メルフィルタリング64次元の特徴であってもよく、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、MFCC)特徴であってもよく、知覚線形予測(Perceptual Linear Predict ive、PLP)特徴などであってもよく、本実施例では、音響的特徴のタイプについて特に制限しない。
各音声フレームの音響的特徴を取得した後、各音声フレームをノイズフレームまたは音声フレームとして認識し、ノイズフレームまたは音声フレームの認識方式としては、人工認識または音声認識における機械強制アライメント方法などが使用され得、本実施例では、音声フレームをノイズフレームまたは音声フレームとして認識する方式について特に制限しない。
各音声フレームがノイズフレームか音声フレームであることを把握した後、訓練対象となる音声フレームの音響的特徴に対応するラベルを決定する。該ラベルは、訓練対象となる音声フレームの分類結果、すなわち、該音声フレームがノイズフレームか音声フレームに分類されるかを指示する。
本実施例では、区間検出の精度を高めるために、現在フレームが音声フレームである場合にも、直ちにこの音声フレームを分類しない。それは、ノイズ変動を含むことから、十分な信頼区間を確保するのに遅延が必要であり、つまり、音声が発生してから所定時間経過した後にしか、その音声が本当に現れることを確認できないためであり、従って、訓練対象となる音声のうちの前のN個の音声フレームはノイズフレーム、N+1番目の音声フレームから最後の音声フレームは音声フレームに分類される。
同様に、音声が停止した直後、音声停止であるノイズフレームのラベルを提供できず、十分な信頼区間を蓄積して、音声が本当に終わったことを保証するために遅延が必要であり、従って、最後の音声フレーム以降のM個のノイズフレームは音声フレームに分類される。
二値化法でラベリングするとき、音声フレームに対応するラベル値は1、ノイズフレームに対応するラベル値は0である。それによって、音声ごとに、訓練されるデータは無数の{x、y}ペアからなる。Xは特徴、yはラベル(label)である。
S203では、前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームに対応するラベルに基づいて、訓練対象となるVADモデルに対して訓練を行って、訓練後のVADモデルを得る。
訓練対象となる音声フレームの音響的特徴および訓練対象となる音声フレームに対応するラベルを得た後、訓練対象となるVADモデルに対して訓練を行って、訓練後のVADモデルを得る。
本実施例では、該VADモデルは、ディープニューラルネットワークモデルであり、該ディープニューラルネットワークモデルは、たとえば、リカレントニューラルネットワーク(Recurrent Neural Networks、RNN)であってもよい。具体的に、たとえば、長期短期メモリ(longshort−term memory、LSTM)モデル、またはゲーテッドリカレントユニット(Gated Recurrent Unit、GRU)モデルが使用され得、そのうち、GRUモデルはLSTMモデルの1種の変形である。GRUモデルに対しては、ネットワークは、多層のRNNをスタッキングしてなり、最後の出力層が2個のノードであり、softmaxをアクティベーション、クロスエントロピーをコスト関数として用いる。1フレームごとに分類結果を有する。
本実施例では、取得したVADモデルを訓練し、該VADモデルの訓練データは、時間経過した後にしか、当該音声が本当に現れることを確認できず、音声が停止する場合、十分な信頼区間を蓄積して、音声が本当に終わったことを保証するために遅延が必要であることを十分に考慮するため、区間検出の正確性を向上させる。
以下、具体的な実施形態にて、各音声フレームに対するアノテーションについて説明する。
図3は、本発明の実施例による音響的特徴の構造概略図である。図3に示されるように、訓練対象となる音声をフレーミング処理して、550フレームの音声フレームを得る。横軸は音声フレームの順番、縦軸は音響的特徴Xを示す。
該音響的特徴Xについては、人工アノテーションまたは音声認識における機器強制アライメント方法を用いて、アノテーションを取得する。実際なノイズおよび音声の状況についてアノテーションを行って、対応するラベルを候補ラベルと呼ぶ。具体的には、各訓練対象となる音声フレームの音響的特徴について順次アノテーション処理を行って、各訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得る。
図4は、本発明の実施例による音響的特徴に対応する候補ラベルの概略図である。図4に示されるように、音声フレームに対応する候補ラベルは1、ノイズフレームに対応する候補ラベルは0である。
本実施例では、候補ラベルを修正することによって、訓練モデル用のサンプルデータを得る。具体的には、音声フレームを指示するための前のN個の候補ラベルを修正して、前のN個の音声フレームがノイズフレームに分類されたことを指示するための修正後の第1のラベルを得て、ノイズフレームを指示するための最後の音声フレーム以降のM個の候補ラベルを修正して、M個のノイズフレームが音声フレームに分類されたことを指示するための修正後の第2のラベルを得て、残りの候補ラベル、第1のラベルおよび第2のラベルに基づいて、各訓練対象となる音声フレームの音響的特徴に対応するラベルを得る。
本実施例では、図4の実施例における候補ラベルの修正を例にして、図5におけるラベルの修正過程を参照しながら、詳細に説明する。
図5は、本発明の実施例によるラベル修正の概略図である。図5に示されるように、本実施例では、NがMより大きいように設定してもよく、それは、音声の終了点検出にはアルゴリズム信頼区間と応答速度を平衡化させる必要があるため、あまりにも遅延させてはならないことから、Mを小さく設定すると、アルゴリズム信頼区間と応答速度を満たすためである。同時に、音声の開始点では、ユーザーが話していて、システムからの応答を必要としないため、より長く遅延させても構わない。遅延時間が長いほど、蓄積する信頼区間は高まる。
場合によっては、本実施例では、N=20、M=10を例にして詳細に説明する。図5に示されるように、破線は候補ラベルを示し、候補ラベルを修正するとき、前の20フレームの音声フレームをノイズフレームに分類し、すなわち、ラベルを1から0に修正する。最後の音声フレーム以降の10フレームのノイズフレームを音声フレームに分類し、すなわち、ラベルを0から1に修正し、残りの候補ラベルについては、修正しない。
当業者に自明なように、このように設定すると、十分な信頼区間が得られる。たとえば、開始点に対しては、従来技術であるVADモデルを用い、第1のフレームから第18のフレームが実際にノイズフレームであるが、第1のフレームから第10のフレームが音声フレームに分類される場合、第1のフレームを音声区間の開始点、第10のフレームを音声区間の終了点として決定し、このような場合、ノイズセグメントを音声区間と間違うことがある。本実施例のように訓練データを設定することによって、前の20フレームが音声フレームであると決定したときに、すなわち、十分な信頼区間が蓄積された後に、音声区間の発生を決定し、このように、ノイズを音声区間と間違う場合を避ける。
さらに、たとえば、終了点に対しては、従来技術であるVADモデルを用い、第20のフレームから第40のフレームが音声フレーム、第41のフレームから第42のフレームがノイズフレーム、第43のフレームから第60のフレームが音声フレームであると決定すると、第20のフレームから第40のフレームを音声区間、第43のフレームから第60のフレームをもう1つの音声区間と決定し、ただし、ユーザーが第41のフレームおよび第42のフレームで発生する声音が小さくなりまたは一時的に停止すると、従来のVADモデルはそれを2つの文に分割するのに対して、本実施例では、遅延方式で訓練データを設定するので、ノイズフレームの信頼区間が所定程度まで蓄積したときにしか、音声が本当に終わったと決定しないため、訓練データを取得する過程において、十分な信頼区間を取得するように、ノイズフレームを音声フレームに分類する。
以下、具体的な実施例にて、本発明の実施例では該訓練モデルを用いて区間検出を行う方法について説明する。
図6は、本発明の実施例による音声区間の検出方法のプロセスの概略図1である。図6に示されるように、該方法は、S601〜S603を含む。
S601では、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得る。
検出対象となる音声に対してフレーミング処理を行う過程は、上記S201と類似するため、本実施例では、それについての詳細な説明を省略する。
S602では、各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のN個の音声フレームをノイズフレーム、N+1番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類する(前記NおよびMは整数である)ための音声アクティビティ検出VADモデルに順次入力する。
検出対象となる音声フレームを得た後、各前記検出対象となる音声フレームの音響的特徴を抽出し、次に該検出対象となる音声フレームの音響的特徴を、図4〜図6に示される方法で訓練済みのVADモデルに順次入力する。
該VADモデルは、音響的特徴ごとに1つの分類値を出力する。当業者に自明なように、上記モデルの訓練過程に対応して、該VADモデルは、検出対象となる音声のうちの前のN個の音声フレームをノイズフレーム、N+1番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類できる。
S603では、前記VADモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定する。
本実施例では、直接VADモデルが出力した分類結果に基づいて、開始点および終了点を決定できる。決定した最初の音声フレームを音声区間の開始点、決定した最後の音声フレームを音声区間の終了点とする。
本実施例では、開始点に対しては、第1のフレームから第30のフレームがノイズフレームに分類されるが、第31のフレームから第50のフレームがノイズまたは音声である可能性がある場合、第31のフレームから第50のフレームはすべてVADモデルによりノイズフレームに分類され、第51のフレームがノイズフレームである場合、第31のフレームから第50のフレームは実際にノイズフレームであることを示し、それにより、ノイズフレームを音声認識装置に伝送することを防止する。第51のフレームが音声フレームである場合、第31のフレームから第50のフレームは実際に音声フレームであることを示し、このため、第51のフレームは音声区間の開始点となり、第51のフレーム前の30フレームを第51のフレーム以降の音声フレームとともに音声認識装置に伝送できる。
終了点に対しては、第50のフレームから第230のフレームが音声フレームであり、第231のフレームから第240のフレームでは一時的に停止するかまたは声音が小さい場合、本実施例のVADモデルは、第231のフレームおよび第240のフレームをノイズフレームではなく、音声フレームに分類し、第241のフレームがノイズフレームに分類される場合、音声区間の終了を示し、第241のフレームが音声フレームに分類される場合、音声区間が終了していないことを示し、以降、上記方法を用いて音声区間が終了した終了点を判断し続ける。該実施例によれば、声が小さいことにより早めに終了点を決定するという問題を防止し、同時にユーザーの一時的停止により1つの文を2つの文に分割する状況を避ける。
本実施例による音声区間の検出方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力し、VADモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定し、該VADモデルによって、検出対象となる音声のうちの前のN個の音声フレームをノイズフレームに分類し、それにより、ノイズフレームの音声認識装置への誤伝送を防止でき、該VADモデルによって、N+1番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類することにより、声が小さいことにより早めに終了点を決定するという問題を回避するとともに、ユーザーが一時的に停止して1つの文を2つの文に分割する状況を避け、音声区間検出の正確性を高める。
図7は、本発明の実施例による音声区間の検出方法のプロセスの概略図2である。図7に示されるように、該方法は、S701〜S705を含む。
S701では、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得る。
S702では、各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力する。
S703では、前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定する。
S704では、前記最初の音声フレームを決定した後、前記VADモデルが出力した、第2の閾値より小さい最初の第2の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する。
S705では、キャッシュメモリから前記最初の音声フレームの前のP(Pは正整数であり、且つ前記Nより大きい)フレームの音声フレームを取得し、前記Pフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信する。
S701およびS702は、図6の実施例におけるS601およびS602と類似するため、本実施例では、それについて詳細に説明しない。
当業者に自明なように、VADモデルは、有限の訓練データを訓練して得られたVADモデルであるため、その出力が0または1ではなく、0〜1の間の確率値であることがある。該確率値が1に近いほど、該音声フレームが音声フレームである確率が高まる。従って、S703およびS704では、本実施例は、第1の閾値および第2の閾値を設定し、第1の閾値および第2の閾値に基づいて、最初の音声フレームおよび最後の音声フレームを判断する。ただし、第1の閾値は第2の閾値より大きい。
具体的には、開始点と終了点が異なる閾値が使用される。モデル訓練に示されるとおり、開始点の遅延がより多く、つまり、VADモデルはより多くの信頼区間を蓄積しており、従って、開始点の第1の閾値は高く設定され、たとえば0.6に設定されるが、終了点の検出遅延が少なく、それに対応して、蓄積した信頼区間が少なくなり、従って、使用される第2の閾値は小さくなり、たとえば0.4とされる。
S705では、訓練過程において、前のNフレームの音声フレームをノイズフレームに分類するため、音声の開始点が検出されたとき、キャッシュメモリから最初の音声フレームの前のPフレームの音声フレームを取得して、Pフレームの音声フレームを音声認識装置に送信し、次に開始点以降の、音声フレームとして決定された音声フレームを音声認識装置に送信し、このように、音声区間の終了点が検出されるまで、1つの音声フレームが決定されるごとに、音声認識装置に1つの音声フレームを送信する。
本実施例による区間検出方法は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力し、VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、最初の音声フレームに基づいて音声区間の開始点を決定し、最初の音声フレームを決定した後、VADモデルが出力した、第2の閾値より小さい最初の第2の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、最後の音声フレームに基づいて、音声区間の終了点を決定し、それによって、開始点の遅延を多くし、終了点の遅延を少なくし、同時にキャッシュメモリから最初の音声フレームの前のPフレームの音声フレームを取得し、Pフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信し、このように、音声認識装置は完全な音声区間を取得できる。
図8は、本発明の実施例による音声区間の検出装置の構造概略図1である。図8に示されるように、該音声区間の検出装置80は、フレーミングモジュール801と、検出モジュール802と、決定モジュール803とを備える。
フレーミングモジュール801は、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得る。
検出モジュール802は、各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のN個の音声フレームをノイズフレーム、N+1番目の音声フレームから最後の音声フレームを音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類する(前記NおよびMは整数である)ための音声アクティビティ検出VADモデルに順次入力する。
決定モジュール803は、前記VADモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定する。
本発明の実施例による音声区間の検出装置では、フレーミングモジュールは、検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得て、検出モジュールは、各検出対象となる音声フレームの音響的特徴を取得して、各検出対象となる音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力し、決定モジュールは、VADモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定し、該VADモデルによって、検出対象となる音声のうちの前のN個の音声フレームをノイズフレームに分類することによって、ノイズフレームの音声認識装置への誤伝送を防止でき、該VADモデルによって、N+1番目の音声フレームから最後の音声フレームを音声フレーム、最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類することにより、声が小さいことにより早めに終了点を決定するという問題を回避するとともに、ユーザーが一時的に停止して1つの文を2つの文に分割する状況を避け、音声区間検出の正確性を高める。
図9は、本発明の実施例による音声区間の検出装置の構造概略図2である。図9に示されるように、該音声区間の検出装置80はさらに、通信モジュール804と、訓練モジュール805とを備える。
場合によっては、決定モジュール803は、
前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定し、
前記最初の音声フレームを決定した後、前記VADモデルが出力した、前記第1の閾値より小さい第2の閾値より小さい最初の第2の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する。
場合によっては、通信モジュール804は、前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した後、キャッシュメモリから前記最初の音声フレームの前のP(Pは正整数であり、且つ前記Nより大きい)フレームの音声フレームを取得し、
前記Pフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信する。
場合によっては、訓練モジュール805は、各前記音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力する前、
訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得て、
前のN個の音声フレームがノイズフレーム、N+1番目の音声フレームから最後の音声フレームが音声フレーム、前記最後の音声フレーム以降のM個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームに対応するラベルに基づいて、訓練対象となるVADモデルに対して訓練を行って、訓練後のVADモデルを得る。
場合によっては、訓練モジュール805は、
各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得て、
音声フレームを指示するための前のN個の候補ラベルを修正して、前のN個の音声フレームがノイズフレームに分類されたことを指示するための第1のラベルを得て、
ノイズフレームを指示するための最後の音声フレーム以降のM個の候補ラベルを修正して、前記M個のノイズフレームが音声フレームに分類されたことを指示するための第2のラベルを得て、
残りの候補ラベル、前記第1のラベルおよび前記第2のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得る。
場合によっては、前記VADモデルはディープニューラルネットワークモデルである。
場合によっては、前記NはM以上である。
本発明の実施例による区間検出装置は、上記方法の実施例を実行することに用いられ、その実現原理および技術効果は類似するため、本実施例では、ここで詳細な説明を省略する。
図10は、本発明の実施例による音声区間の検出装置のハードウェア構造の概略図である。図10に示されるように、本実施例による音声区間の検出装置100は、少なくとも1つのプロセッサ1001と、メモリ1002とを備える。該音声区間の検出装置100はさらに通信部材1003を備える。プロセッサ1001、メモリ1002および通信部材1003はバス1004を介して接続される。
具体的な実施過程において、少なくとも1つのプロセッサ1001は、メモリ1002に記憶されたコンピュータ実行可能命令を実行して、少なくとも1つのプロセッサ1001に上記音声区間の検出装置100が実行する音声区間の検出方法を実行させる。
本実施例のバックエンドとしてサーバーで実行する場合、該通信部材1003は、音声フレームをサーバーに送信できる。
プロセッサ1001の具体的な実現過程については、上記方法例を参照すればよく、その実施原理および技術効果は類似するため、本実施例では、ここで詳細な説明を省略する。
上記図10に示される実施例において、理解されるように、プロセッサは、中央処理ユニット(英語名:Central Processing Unit、略称CPU)であってもよく、他の汎用プロセッサ、デジタル信号プロセッサ(英語名:Digital Signal Processor、略称DSP)、特定用途向け集積回路(英語名:Application Specific Integrated Circuit、略称ASIC)などであってもよい。汎用プロセッサは、マイクロプロセッサまたはいずれかの通常のプロセッサなどであってもよい。本発明において開示されている方法のステップと組み合わせると、ハードウェアプロセッサにより実行されてもよく、またはプロセッサにおけるハードウェアとソフトウェアモジュールの組み合わせにより実行されてもよい。
メモリは、高速RAMメモリを含んでもよいし、さらに不揮発性メモリNVM、たとえば少なくとも1つのディスクメモリを含んでもよい。
バスは、インダストリスタンダードアーキテクチャ(Industry Standard Architecture、ISA)バス、周辺機器相互接続(Peripheral Component、PCI)バスまたは拡張業界標準アーキテクチャ(Extended Industry Standard Architecture、EISA)バスなどであってもよい。バスは、アドレスバス、データバス、コントロールバスなどに分けられる。表示の便宜上、本願の図面におけるバスは、1本だけのバスまたは一種のタイプのバスに限定されない。
本願はさらに、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にはコンピュータ実行可能命令が記憶されており、プロセッサが前記コンピュータ実行可能命令を実行すると、上記音声区間の検出装置により実行される音声区間の検出方法を実現する。
上記コンピュータ読み取り可能な記憶媒体は、いずれかのタイプの揮発性または不揮発性記憶デバイスまたはそれらの組み合わせ、たとえば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、消去可能プログラマブル読み出し専用メモリ(EPROM)、プログラマブル読み出し専用メモリ(PROM)、読み出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクとして実現できる。読み取り可能な記憶媒体は、汎用または専用コンピュータがアクセス可能な任意の利用可能な媒体であってもよい。
例示的な読み取り可能な記憶媒体は、プロセッサに結合され、それにより、プロセッサは、該読み取り可能な記憶媒体から情報を読み取り、且つ該読み取り可能な記憶媒体に情報を書き込むことができる。当然ながら、読み取り可能な記憶媒体は、プロセッサの構成部分であってもよい。プロセッサおよび読み取り可能な記憶媒体は、特定用途向け集積回路(Application Specific Integrated Circuits、略称ASIC)に位置してもよい。当然ながら、プロセッサおよび読み取り可能な記憶媒体は、独立ユニットとして装置に存在してもよい。
当業者に自明なように、上記各方法例のすべてまたは一部のステップの実現は、プログラムにより関連するハードウェアを命令して完了させることができる。上記プログラムはコンピュータ読み取り可能な記憶媒体に記憶できる。該プログラムが実行されると、上記各方法例を含むステップが実行される。上記記憶媒体は、ROM、RAM、磁気ディスクまたは光ディスクなどの様々なプロクラムコードを記憶可能な媒体を含む。
なお、以上の各実施例は本発明の技術案を説明するものであり、それを制限するものではなく、前述の各実施例を参照しながら本発明を詳細に説明したが、当業者に自明なように、前述の各実施例に記載の技術案を変更したり、またはその一部または全部の技術的特徴に対して同等置換を行ったりすることができ、これらの変更または置換は、対応する技術案の本質を本発明の各実施例の技術案の範囲から逸脱させるものではない。

Claims (16)

  1. 音声区間の検出方法であって、
    検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るステップと、
    各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のN個の音声フレームをノイズフレームに、N+1番目の音声フレームから最後の音声フレームを音声フレームに、前記最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類する(前記NおよびMは整数である)ための音声アクティビティ検出VADモデルに順次入力するステップと、
    前記VADモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するステップと、
    を含むことを特徴とする音声区間の検出方法。
  2. 前記VADモデルが出力した分類結果に基づいて、音声区間の開始点および終了点を決定する前記ステップは、
    前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定するステップと、
    前記最初の音声フレームを決定した後、前記VADモデルが出力した、前記第1の閾値より小さい第2の閾値より小さい最初の第2の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定するステップと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した前記ステップの後、さらに、
    キャッシュメモリから前記最初の音声フレームの前のP(Pは正整数であり、且つ前記Nより大きい)フレームの音声フレームを取得するステップと、
    前記Pフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信するステップと、
    を含むことを特徴とする請求項2に記載の方法。
  4. 各前記音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力する前記ステップの前に、さらに、
    訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得るステップと、
    前のN個の音声フレームがノイズフレームに、N+1番目の音声フレームから最後の音声フレームが音声フレームに、前記最後の音声フレーム以降のM個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得するステップと、
    前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるVADモデルに対して訓練を行って、訓練後のVADモデルを得るステップと、
    を含むことを特徴とする請求項1に記載の方法。
  5. 各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを取得する前記ステップは、
    各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得るステップと、
    音声フレームを指示するための前のN個の候補ラベルを修正して、前のN個の音声フレームがノイズフレームに分類されたことを指示するための第1のラベルを得るステップと、
    ノイズフレームを指示するための最後の音声フレーム以降のM個の候補ラベルを修正して、前記M個のノイズフレームが音声フレームに分類されたことを指示するための第2のラベルを得るステップと、
    残りの候補ラベル、前記第1のラベルおよび前記第2のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得るステップと、
    を含むことを特徴とする請求項4に記載の方法。
  6. 前記VADモデルは、ディープニューラルネットワークモデルであることを特徴とする請求項1から5のいずれか1項に記載の方法。
  7. 前記NはM以上であることを特徴とする請求項1から5のいずれか1項に記載の方法。
  8. 音声区間の検出装置であって、
    検出対象となる音声に対してフレーミング処理を行って、複数の検出対象となる音声フレームを得るためのフレーミングモジュールと、
    各前記検出対象となる音声フレームの音響的特徴を取得して、各前記検出対象となる音声フレームの音響的特徴を、前記検出対象となる音声のうちの前のN個の音声フレームをノイズフレームに、N+1番目の音声フレームから最後の音声フレームを音声フレームに、前記最後の音声フレーム以降のM個のノイズフレームを音声フレームに分類する(前記NおよびMは整数である)ための音声アクティビティ検出VADモデルに順次入力するための検出モジュールと、
    前記VADモデルが出力した分類結果に基づいて、音声フレームに分類された最初の音声フレームに対応する音声区間の開始点および音声フレームに分類された最後の音声フレームに対応する音声区間の終了点を決定するための決定モジュールと、
    を備えることを特徴とする音声区間の検出装置。
  9. 前記決定モジュールは、
    前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定して、前記最初の音声フレームに基づいて、前記音声区間の開始点を決定し、
    前記最初の音声フレームを決定した後、前記VADモデルが出力した、前記第1の閾値より小さい第2の閾値より小さい最初の第2の分類値に対応する音声フレームに基づいて、最後の音声フレームを決定して、前記最後の音声フレームに基づいて、前記音声区間の終了点を決定する、
    ことに用いられることを特徴とする請求項8に記載の装置。
  10. 前記VADモデルが出力した、第1の閾値より大きい最初の第1の分類値に対応する音声フレームに基づいて、最初の音声フレームを決定した後、キャッシュメモリから前記最初の音声フレームの前のP(Pは正整数であり、且つ前記Nより大きい)フレームの音声フレームを取得し、
    前記Pフレームの音声フレームおよび音声フレームとして決定された音声フレームを音声認識装置に送信する、
    ことに用いられる通信モジュールをさらに備えることを特徴とする請求項9に記載の装置。
  11. 各前記音声フレームの音響的特徴を音声アクティビティ検出VADモデルに順次入力する前に、
    訓練対象となる音声に対してフレーミング処理を行って、複数の訓練対象となる音声フレームを得て、
    前のN個の音声フレームがノイズフレームに、N+1番目の音声フレームから最後の音声フレームが音声フレームに、前記最後の音声フレーム以降のM個のノイズフレームが音声フレームに分類された各前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応する、訓練対象となる音声フレームの分類結果を指示するためのラベルを取得し、
    前記訓練対象となる音声フレームの音響的特徴、および、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルに基づいて、訓練対象となるVADモデルに対して訓練を行って、訓練後のVADモデルを得る、
    ことに用いられる訓練モジュールをさらに備えることを特徴とする請求項8に記載の装置。
  12. 前記訓練モジュールは、
    各前記訓練対象となる音声フレームの音響的特徴に対して順次アノテーション処理を行って、各前記訓練対象となる音声フレームの音響的特徴に対応する候補ラベルを得て、
    音声フレームを指示するための前のN個の候補ラベルを修正して、前のN個の音声フレームがノイズフレームに分類されたことを指示するための第1のラベルを得て、
    ノイズフレームを指示するための最後の音声フレーム以降のM個の候補ラベルを修正して、前記M個のノイズフレームが音声フレームに分類されたことを指示するための第2のラベルを得て、
    残りの候補ラベル、前記第1のラベルおよび前記第2のラベルに基づいて、各前記訓練対象となる音声フレームの音響的特徴に対応するラベルを得る
    ことに用いられることを特徴とする請求項11に記載の装置。
  13. 前記VADモデルは、ディープニューラルネットワークモデルであることを特徴とする請求項8から12のいずれか1項に記載の装置。
  14. 前記NはM以上であることを特徴とする請求項8から12のいずれか1項に記載の装置。
  15. 音声区間の検出装置であって、
    少なくとも1つのプロセッサおよびメモリを備え、
    前記メモリには、コンピュータ実行可能命令が記憶されており、
    前記少なくとも1つのプロセッサは、前記メモリに記憶されたコンピュータ実行可能命令を実行すると、請求項1から7のいずれか1項に記載の音声区間の検出方法を実行する、
    ことを特徴とする音声区間の検出装置。
  16. コンピュータ読み取り可能な記憶媒体であって、
    コンピュータ実行可能命令が記憶されており、プロセッサが前記コンピュータ実行可能命令を実行すると、請求項1から7のいずれか1項に記載の音声区間の検出方法を実現する、
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2018244499A 2018-06-13 2018-12-27 音声区間の検出方法および装置 Active JP6676141B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810606354.9A CN108877778B (zh) 2018-06-13 2018-06-13 语音端点检测方法及设备
CN201810606354.9 2018-06-13

Publications (2)

Publication Number Publication Date
JP2019215513A true JP2019215513A (ja) 2019-12-19
JP6676141B2 JP6676141B2 (ja) 2020-04-08

Family

ID=64338156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018244499A Active JP6676141B2 (ja) 2018-06-13 2018-12-27 音声区間の検出方法および装置

Country Status (3)

Country Link
US (1) US10937448B2 (ja)
JP (1) JP6676141B2 (ja)
CN (1) CN108877778B (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962227B (zh) * 2018-06-08 2020-06-30 百度在线网络技术(北京)有限公司 语音起点和终点检测方法、装置、计算机设备及存储介质
CN109473123B (zh) * 2018-12-05 2022-05-31 百度在线网络技术(北京)有限公司 语音活动检测方法及装置
CN109545192B (zh) * 2018-12-18 2022-03-08 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN109545193B (zh) * 2018-12-18 2023-03-14 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN110176251B (zh) * 2019-04-03 2021-12-21 苏州驰声信息科技有限公司 一种声学数据自动标注方法及装置
CN110428854B (zh) * 2019-08-12 2022-05-06 腾讯科技(深圳)有限公司 车载端的语音端点检测方法、装置和计算机设备
CN110517670A (zh) * 2019-08-28 2019-11-29 苏州思必驰信息科技有限公司 提升唤醒性能的方法和装置
CN110706694B (zh) * 2019-09-26 2022-04-08 成都数之联科技股份有限公司 一种基于深度学习的语音端点检测方法及系统
CN113162837B (zh) * 2020-01-07 2023-09-26 腾讯科技(深圳)有限公司 语音消息的处理方法、装置、设备及存储介质
CN111276124B (zh) * 2020-01-22 2023-07-28 苏州科达科技股份有限公司 一种关键词识别方法、装置、设备及可读存储介质
CN111613213B (zh) * 2020-04-29 2023-07-04 广州欢聚时代信息科技有限公司 音频分类的方法、装置、设备以及存储介质
CN111755029B (zh) * 2020-05-27 2023-08-25 北京大米科技有限公司 语音处理方法、装置、存储介质以及电子设备
CN111816215A (zh) * 2020-07-24 2020-10-23 苏州思必驰信息科技有限公司 语音端点检测模型训练和使用方法及装置
CN112069354A (zh) * 2020-09-04 2020-12-11 广州趣丸网络科技有限公司 一种音频数据的分类方法、装置、设备和存储介质
CN112053702B (zh) * 2020-09-30 2024-03-19 北京大米科技有限公司 一种语音处理的方法、装置及电子设备
CN112614514B (zh) * 2020-12-15 2024-02-13 中国科学技术大学 有效语音片段检测方法、相关设备及可读存储介质
CN112614506B (zh) * 2020-12-23 2022-10-25 思必驰科技股份有限公司 语音激活检测方法和装置
CN112652324A (zh) * 2020-12-28 2021-04-13 深圳万兴软件有限公司 语音增强优化方法及语音增强优化系统、可读存储介质
CN112802498B (zh) * 2020-12-29 2023-11-24 深圳追一科技有限公司 语音检测方法、装置、计算机设备和存储介质
CN113160855B (zh) * 2021-05-28 2022-10-21 思必驰科技股份有限公司 在线语音活性检测系统改进方法和装置
CN113409812B (zh) * 2021-06-24 2022-12-27 展讯通信(上海)有限公司 一种语音降噪训练数据的处理方法及其装置、训练方法
CN113421595B (zh) * 2021-08-25 2021-11-09 成都启英泰伦科技有限公司 一种利用神经网络的语音活性检测方法
CN114299957A (zh) * 2021-11-29 2022-04-08 北京百度网讯科技有限公司 声纹分离方法、装置、电子设备以及存储介质
WO2023115588A1 (zh) * 2021-12-25 2023-06-29 华为技术有限公司 语音交互的方法、装置和存储介质
CN114333802B (zh) * 2022-01-04 2023-06-23 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及计算机可读存储介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63200198A (ja) * 1987-02-17 1988-08-18 株式会社リコー 音声区間検出方式
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JP2008083375A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声区間検出装置およびプログラム
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
WO2016143125A1 (ja) * 2015-03-12 2016-09-15 三菱電機株式会社 音声区間検出装置および音声区間検出方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0832526A (ja) * 1994-07-18 1996-02-02 Kokusai Electric Co Ltd 音声検出器
IT1315917B1 (it) * 2000-05-10 2003-03-26 Multimedia Technologies Inst M Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati.
EP1513135A1 (en) * 2002-06-12 2005-03-09 Mitsubishi Denki Kabushiki Kaisha Speech recognizing method and device thereof
CN101599269B (zh) * 2009-07-02 2011-07-20 中国农业大学 语音端点检测方法及装置
KR20140031790A (ko) * 2012-09-05 2014-03-13 삼성전자주식회사 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치
CN103886871B (zh) * 2014-01-28 2017-01-25 华为技术有限公司 语音端点的检测方法和装置
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
US10229700B2 (en) * 2015-09-24 2019-03-12 Google Llc Voice activity detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63200198A (ja) * 1987-02-17 1988-08-18 株式会社リコー 音声区間検出方式
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JP2008083375A (ja) * 2006-09-27 2008-04-10 Toshiba Corp 音声区間検出装置およびプログラム
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
WO2016143125A1 (ja) * 2015-03-12 2016-09-15 三菱電機株式会社 音声区間検出装置および音声区間検出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
草水智浩,外3名: "音声区間検出が音声認識性能に与える影響についての検討", 日本音響学会2008年春季研究発表会講演論文集, JPN6020005683, March 2008 (2008-03-01), JP, pages 169 - 172, ISSN: 0004214319 *

Also Published As

Publication number Publication date
CN108877778B (zh) 2019-09-17
US10937448B2 (en) 2021-03-02
CN108877778A (zh) 2018-11-23
US20190385636A1 (en) 2019-12-19
JP6676141B2 (ja) 2020-04-08

Similar Documents

Publication Publication Date Title
JP6676141B2 (ja) 音声区間の検出方法および装置
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
WO2019149108A1 (zh) 语音关键词的识别方法、装置、计算机可读存储介质及计算机设备
CN111797632B (zh) 信息处理方法、装置及电子设备
CN110415705B (zh) 一种热词识别方法、系统、装置及存储介质
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN108735201B (zh) 连续语音识别方法、装置、设备和存储介质
CN109036471B (zh) 语音端点检测方法及设备
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
CN111798840B (zh) 语音关键词识别方法和装置
US10803858B2 (en) Speech recognition apparatus, speech recognition method, and computer program product
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
WO2018192186A1 (zh) 语音识别方法及装置
CN112927679B (zh) 一种语音识别中添加标点符号的方法及语音识别装置
WO2022105235A1 (zh) 一种信息识别方法、装置及存储介质
CN110473527B (zh) 一种语音识别的方法和系统
US20220399013A1 (en) Response method, terminal, and storage medium
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
CN112133285B (zh) 语音识别方法、装置、存储介质和电子设备
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
CN108573713B (zh) 语音识别装置、语音识别方法以及存储介质
WO2022203773A1 (en) Lookup-table recurrent language model
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN111883109A (zh) 语音信息处理及验证模型训练方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200311

R150 Certificate of patent or registration of utility model

Ref document number: 6676141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250