JP2019191557A - 音声認識方法、装置、機器及び記憶媒体 - Google Patents

音声認識方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP2019191557A
JP2019191557A JP2018247610A JP2018247610A JP2019191557A JP 2019191557 A JP2019191557 A JP 2019191557A JP 2018247610 A JP2018247610 A JP 2018247610A JP 2018247610 A JP2018247610 A JP 2018247610A JP 2019191557 A JP2019191557 A JP 2019191557A
Authority
JP
Japan
Prior art keywords
causal
current frame
frame
speech recognition
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018247610A
Other languages
English (en)
Other versions
JP6757398B2 (ja
Inventor
超 李
Chao Li
超 李
唯▲きん▼ 朱
Weixin Zhu
唯▲きん▼ 朱
銘 文
Ming Wen
銘 文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019191557A publication Critical patent/JP2019191557A/ja
Application granted granted Critical
Publication of JP6757398B2 publication Critical patent/JP6757398B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声認識のリアルタイム性を向上させる音声認識方法、装置、機器及び記憶媒体を提供する。【解決手段】認識対象となる音声信号を取得するステップと、因果的畳み込みニューラルネットワークに基づいて訓練して得られた事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するステップとを含む。【選択図】図1

Description

本発明の実施例は、音声認識の技術分野に関し、特に音声認識方法、装置、機器及び記憶媒体に関する。
コンピュータ科学技術、特に人工知能(AI:Artificial Intelligence)技術の継続的な発展に伴い、音声認識技術が、実験室から市場へ普及されており、音声入力システム、産業制御、スマートホーム、スマート玩具、端末装置の音声制御システム、スマート対話クエリシステム等のように、益々多くの分野で使用されている。音声認識技術は、情報の取得及び処理をより容易にして、ユーザーの作業効率を向上させ、人々の生活に便利をもたらす。
畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)は、フィードフォワードニューラルネットワークであり、パターン認識分野において優れた性能を発揮して、近年注目を集めており、広く使用されている。畳み込みニューラルネットワーク(CNN)は、音声処理分野における使用もより一般的になりつつあり、畳み込みカーネルが通常左右に展開しているので、音声認識を行う場合には、現在フレームよりも前のフレームの情報と、現在フレーム以降の情報と、が必要である。すなわち、現在フレームを認識する場合には、将来の情報が必要になる。例えば、コンテキストが2である畳み込みニューラルネットワークを用いて音声認識を行う場合には、N番目のフレームの音声認識をする際に、N−2、N−1、N、N+1、N+2番目の5つのフレームの情報を利用する必要がある。音声認識システムは、処理を行うために、5つのフレームの情報が揃うまで2つのフレームを待つ必要があるため、必然的に2フレーム分のハード遅延が発生し、リアルタイム性に対する要求が高い状況では、この遅延を許容できないことが多い。
上述したように、従来技術の畳み込みニューラルネットワークに基づく音声認識技術では、リアルタイム性に対する高い要求を満たすことができない。
本発明の実施例は、音声認識方法、装置、機器及び記憶媒体を提供し、従来技術の畳み込みニューラルネットワークに基づく音声認識技術での問題(ハード遅延が存在し、リアルタイム性に対する高い要求を満たせないという問題)を解決する。
第1態様によれば、本発明の実施例にて提供される音声認識方法は、
認識対象となる音声信号を取得するステップと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するステップと、
を含む。
一実施形態において、前記方法は、
現在フレームの前のフレームが不足する場合に、空フレームで補充するステップをさらに含む。
一実施形態において、所定期間は、因果的音響モデルのコンテキストパラメータの値に基づいて決定される。
一実施形態において、因果的音響モデルは、因果的音響モデルの受容野を拡大させるためのスタッキングした複数の因果的畳み込み層を含む。
一実施形態において、因果的音響モデルは、音声信号の履歴情報を学習するための少なくとも一層の長短期記憶ネットワークをさらに含む。
一実施形態において、音声信号における現在フレームを認識するステップの前に、
認識対象となる音声信号に対してハイパスフィルタリング処理を行うステップと、
ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、
をさらに含む。
一実施形態において、干渉信号は、ノイズ信号及び/又はエコー信号を含む。
第2態様によれば、本発明の実施例にて提供される音声認識装置は、
認識対象となる音声信号を取得するための取得モジュールと、
因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するための認識モジュールと、
を備える。
第3態様によれば、本発明の実施例にて提供される音声認識機器は、
メモリと、
プロセッサと、
コンピュータプログラムと、を備え、
コンピュータプログラムは、メモリに記憶されており、プロセッサにより実行されると、上記の何れかの方法をプロセッサに実行させるように構成されている。
第4態様によれば、本発明の実施例にて提供されるコンピュータ可読記憶媒体は、プロセッサにより実行されると、上記の何れかの方法をプロセッサに実行させるコンピュータプログラムが記憶されている。
本発明の実施例による音声認識方法、装置、機器及び記憶媒体によれば、認識対象となる音声信号を取得し、因果的畳み込みニューラルネットワークに基づいて訓練して得られた事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。本発明の実施例による方法は、現在フレームを認識する場合に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、従来技術の畳み込みニューラルネットワークに基づく音声認識技術における、現在フレーム以降のフレームまで待つ必要があることによるハード遅延という問題を解決して、音声認識のリアルタイム性を向上させる。
図面は、明細書に組み込まれて本明細書の一部を構成し、本発明と一致する実施例を示し、明細書と共に本発明の原理を説明するために使用される。
本発明による音声認識方法の一実施例のフローチャートである。 本発明の一実施例における空フレームの補充を示す概略図である。 本発明の一実施例における因果的音響モデルを示す構造概略図である。 本発明による音声認識方法の別の実施例のフローチャートである。 本発明による音声認識装置の一実施例の構造概略図である。 本発明による音声認識機器の一実施例の構造概略図である。
本発明の実施例は上述した図面に示されており、以下、これらの実施例について詳細に説明する。これらの図面及び記載された説明は、本発明の技術的範囲を限定することを何等意図するものではなく、当業者のために、特定の実施例を参照することによって本発明の概念を説明するためのものである。
ここで、例示的な実施例を詳細に説明し、このような実施例を例示として図面に示す。以下の説明において、図面を参照する場合、特に断らない限り、異なる図面における同一符号は、同一又は類似の要素を表している。以下、例示的な実施例において説明される実施形態の全ては、本発明と一致するわけではない。これらは、添付した特許請求の範囲に詳細に説明された本発明の一部の態様と一致する装置及び方法の一例に過ぎない。
本発明の明細書及び特許請求の範囲に使用されている、「含む」、「有する」という用語及びこれらの任意の変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、列挙されたステップ又はユニットに限定されず、列挙されていないステップ又はユニットを含んでもよいし、これらのプロセス、方法、製品又機器に固有の他のステップ又はユニットを含んでもよい。
本発明における「第1」及び「第2」という用語は、識別目的のためにのみ使用され、順番関係、相対的重要性を指示又は示唆し、又は、指示された技術的特徴の数を暗示的に示すものとして解釈されるべきではない。「複数」とは、2つ以上を意味する。「及び/又は」とは、関連するオブジェクトの関連関係を示し、3種類の関係を示すことができる。例えば、A及び/又はBは、Aが独立して存在する場合、AとBが同時に存在する場合、Bが独立して存在する場合を示す。「/」という文字は、一般的に、前後における関連オブジェクトが「又は」の関係を有することを示している。
本発明の明細書全体を通して使用される「1つの実施例」又は「一実施例」は、実施例に関連する特定の特徴、構造又は特性が、本発明の少なくとも1つの実施例に含まれることを意味する。従って、本明細書を通して使用される「1つの実施例では」又は「一実施例では」とは、必ずしも同じ実施例を指しているわけではない。なお、矛盾がない限り、本発明の実施例及び実施例の特徴を組み合わせることが可能である。
本発明の実施例は、図1に示すように、音声認識方法を提供する。本発明の実施例は、図1を一例として説明するものであって、本発明を限定するものではない。図1は、本発明による音声認識方法の一実施例のフローチャートである。本実施例の実行主体は、ユーザ機器、ネットワーク機器のうち少なくとも1つを備えるが、これらに限定されない。ユーザ機器は、コンピュータ、スマートフォン、PDA等を含むが、これらに限定されない。ネットワーク機器は、単一のネットワークサーバ、複数のネットワークサーバから構成されたサーバ群、クラウドコンピューティングに基づく大量のコンピュータ又はネットワークサーバから構成されるクラウドを含むが、これらに限定されない。クラウドコンピューティングは、分散型コンピューティングの一種であり、疎結合された一群のコンピュータで構成された仮想スーパーコンピュータである。本実施例では、これについて限定しない。図1に示すように、本実施例による音声認識方法は、ステップ101と、ステップ102と、を含む。
ステップ101では、認識対象となる音声信号を取得する。
実行主体は、ユーザ機器(例えば、スマートフォン、タブレットPC、電子書籍リーダ、ラップトップポータブルコンピュータ及びデスク型コンピュータ等)を含むがこれらに限定されない。ユーザ機器がマイク(マイクロフォン)を取り付けた電子機器である場合には、ユーザ機器のマイクで音声信号を収集して、認識対象となる音声信号を取得する。実行本体が例えばサーバのようなネットワーク機器である場合には、サーバは、ユーザ機器から送信された音声信号を受信して、認識対象となる音声信号を取得する。
ステップ102では、因果的畳み込みニューラルネットワークに基づいて訓練して得られた事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。
アノテーションされている音声データベース内の音声データを用いて因果的音響モデルを訓練する。本実施例では、訓練に使用される音声データベースや訓練方法の何れについても限定しない。なお、本実施例におけるフレームの長さは、必要に応じて設定可能であるが、音声認識のリアルタイム性に対する要求を考慮すると、好ましくは短く(例えば、1フレームの長さが10ミリ秒等)設定される。
従来技術では、畳み込みニューラルネットワークCNNに基づいて構築される非因果的音響モデルは、畳み込みが左右に展開しているので、音声認識を行う場合には、現在フレームよりも前のフレームの情報と、現在フレーム以降のフレームの情報と、が必要になる。すなわち、現在フレームを認識する際に、現在フレーム以降のフレームまで待たなければならないので、ハード遅延を引き起こす。例えば、コンテキストが2である畳み込みニューラルネットワークを用いて音声認識を行う場合には、N番目のフレームの音声認識をする際に、N−2、N−1、N、N+1、N+2番目の5つのフレームの情報を利用する必要がある。すなわち、N番目のフレームの認識をする際に、音声認識システムは、処理を行うために、5つのフレームの情報が揃うまで2つのフレーム(N+1番目のフレーム及びN+2番目のフレーム)の情報を待つ必要があるため、必然的に2フレーム分のハード遅延が発生する。ここで、フレーム長が10ミリ秒である場合には、20ミリ秒のハード遅延となるので、リアルタイム性に対する要求が高い用途に利用することができない。畳み込みニューラルネットワークのコンテキストパラメータの値が大きいほど、それに起因するハード遅延のフレーム数が大きくなる。
本実施例は、因果的音響モデルを提供する。本実施例による因果的音響モデルを用いると、認識対象となる音声信号における現在フレームを認識する場合に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、音声認識を行う際に現在フレームの後のフレームを待つ必要がなくなることから、ハード遅延を回避することができる。本実施例における因果的音響モデルは、因果関係を有するネットワークに基づく訓練によって得られる。すなわち、ネットワークの現在時点での出力が履歴入力だけに関わり、以降の入力とは無関係である。
一実施形態において、因果的音響モデルは、因果的畳み込みニューラルネットワークに基づく訓練により得られる。例えば、コンテキストが2である因果的畳み込みニューラルネットワークを用いて構築した因果的音響モデルでは、N番目のフレームの音声認識を行う場合に、N−4、N−3、N−2、N−1及びN番目の5つのフレームの情報を利用する。すなわち、現在フレームを認識する際に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、現在フレームの後のフレームを待つ必要がなくなることから、ハード遅延を回避することができる。
可能な実施形態では、因果的音響モデルは、例えばベイジアンネットワーク等の因果ネットワークに基づく訓練によって得られたものであってもよい。
なお、本実施例における所定期間は、因果的音響モデルのコンテキストパラメータの値に基づいて決定されてもよい。可能な実施形態では、所定期間の値は、コンテキストパラメータの値の2倍とフレーム長との積に等しい。本実施例における数値は、例示的なものに過ぎず、本発明を限定するものではない。
本実施例による音声認識方法は、リアルタイム性が高いので、例えば音声検索、音声入力、音声インタラクション等のように、リアルタイム性に対する要求が高い複数のタイプのアプリケーションに用いることができる。リアルタイム性に対する要求が低いアプリケーションであっても、本実施例による方法を利用してリアルタイム性を向上させることができ、さらには、ユーザーエクスペリエンスを向上させることができる。
本実施例による音声認識方法は、認識対象となる音声信号を取得し、因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。本発明の実施例による方法は、現在フレームを認識する場合に、現在フレーム及び現在フレームの前のフレームの情報のみを用いるので、従来技術の畳み込みニューラルネットワークに基づく音声認識技術における、現在フレーム以降のフレームまで待つ必要があることによるハード遅延の問題を解決して、音声認識のリアルタイム性を向上させる。
上述した実施例に基づいて、本実施例は、音声認識方法をさらに提供する。上述した実施例で説明した因果的音響モデルが現在フレームを認識する場合に、現在フレームの前のフレームが不足する状況に対する具体的な実施形態を提供する。例えば、現在フレームが第1フレームである場合に、これよりも前のフレームデータが存在しない場合、又は、コンテキストが2である因果的畳み込みニューラルネットワークの場合には、現在フレームの前の4フレームのデータが必要になるが、現在フレームが第1フレーム、第2フレーム、第3フレーム又は第4フレームである場合には、何れも現在フレームの前のフレームが不足する。本実施例による音声認識方法によれば、現在フレームの前のフレームが不足する場合には、空フレームで補充する。本実施例における空フレームは、オールゼロベクトルで実現することができる。
以下、空フレームの補充に関する具体例を説明する。コンテキストパラメータ値が2である因果的畳み込みニューラルネットワークに基づく訓練により得られた因果的音響モデルでは、第2フレームの音声信号認識を行う場合に、図2に示す方法によって、現在フレームの前に空フレームを補充することができる。図2は、本発明の一実施例における空フレームの補充を示す概略図である。図2に示すように、黒色ボックスは、実データを含むデータフレームを示しており、白色ボックスは、オールゼロベクトルから構成された空フレームを示している。矢印は現在フレームを指しており(すなわち、現在フレームは第2フレームである)、現在フレームの前のフレーム情報が現在フレームの認識を行うのに不十分であるため、現在フレームの認識を行うために、現在フレームの前にオールゼロベクトルから構成される3つの空フレームを補充して、5つのフレームを構成する。
現在フレームの認識に必要なデータフレームの数は、因果的音響モデルにおける因果的畳み込みニューラルネットワークのコンテキスト値Cにより決まる。現在フレームの認識に必要なデータフレームの数は(2C+1)に等しくてもよい(すなわち、現在フレームの認識に必要な現在フレームの情報、及び、現在フレームの前の2Cフレーム分の情報である)。このため、現在フレームの前のデータフレームの数が2Cより小さい場合には、現在フレームの認識を完了するために空フレームで補充する必要がある(すなわち、現在フレームのフレーム番号Nが(2C+1)より小さい場合、現在フレームの前に空フレームを補充しなければならず、空フレームの補充数は(2C+1−N)となる)。
上記の何れかの実施例に基づいて、本実施例において、上記実施例における因果的音響モデルの実施形態についてさらに説明する。因果的音響モデルの受容野をより拡大させるために、本実施例による音声認識方法では、因果的音響モデルは、スタッキングした複数の因果的畳み込み層を含んでもよい。
一実施形態において、履歴情報をより十分に利用して、音声認識の精度を向上させるために、本実施例による音声認識方法における因果的音響モデルは、上述した実施例に基づいて、少なくとも1つの層の長短期記憶ネットワークLSTM(Long Short Term Memory)をさらに含んでもよい。長短期記憶ネットワークLSTMは、時間リカレントニューラルネットワークであり、長期の履歴情報を活用することができ、本実施例におけるLSTMは、音声信号の履歴情報の学習に用いられる。
上記実施例に基づいて、本実施例は上記実施例を組み合わせたものであり、1つの可能な組み合わせのみを示す。
受容野を拡大させるために、スタッキングした因果的畳み込み層が使用され得る。このようなスタッキングした因果的畳み込みニューラルネットワークでは、各層のコンテキストが1であれば、第1層では過去2フレーム、第2層では過去4フレーム、第3層では過去6フレーム、第4層では過去8フレームが見られる。過去8フレームの情報を用いて現在フレームを認識する。コンテキストの値が大きいほど、スタッキングした因果的畳み込み層が多くなり、利用可能な過去フレームの情報が多くなる。より長期的な情報を記憶するために、スタッキングした因果的畳み込みニューラルネットワーク層において多層の長短期記憶ネットワークLSTMが使用され、音声信号の履歴情報を学習する。スタッキングしたネットワークの層数が多いほど、利用可能な情報が多くなる一方で、複雑さも高まる。
本実施例による音声認識方法では、情報量と複雑さのバランスが取られる。本実施例による音声認識方法は、図3に示す因果的音響モデルを用いることができる。図3は、本発明の一実施例における因果的音響モデルを示す構造概略図である。図3に示すように、因果的音響モデルは、因果的畳み込み層0〜因果的畳み込み層3の4層の因果的畳み込みニューラルネットワークと、長短期記憶ネットワーク層0〜長短期記憶ネットワーク層6の7層の長短期記憶ネットワークと、コネクショニスト時系列分類器と、を備えてもよい。
本実施例による音声認識方法は、スタッキングした4層の因果的畳み込みニューラルネットワークを用いるので、受容野を拡大させて、できるだけ多くの情報を用いることができる。そして、現在フレームの音声信号を認識する場合に、より多くの過去フレームの情報を用いるとともに、過去フレームの情報のみを利用すればよいので、将来フレームの情報を待つ必要がないことから、リアルタイム性に対する高い要求を満たす。因果的畳み込みニューラルネットワークを前側の層のネットワーク構造とすることによって、フレーム毎の音声の特性を細かく把握し、後側の層に長短期記憶ネットワークLSTMである時間リカレントニューラルネットワークを使用することによって、より長期的な情報を記憶する。本実施例による音声認識方法に使用される因果的音響モデルは、因果的畳み込みニューラルネットワークと、LSTMネットワークと、を組み合わせることによって、現在フレームの音声信号を認識する場合に、現在フレームの情報を把握することができるとともに、長期的な履歴フレームの情報を利用することができ、これにより、音声認識の精度を向上させる。上述したように、本実施例による音声認識方法は、リアルタイム性に対する高い要求を満たすだけでなく、認識精度を高め、ユーザーエクスペリエンスをさらに向上させる。
因果的音響モデル訓練を行うために使用される音声データベースでは、通常、純粋な音声信号が存在する。すなわち、因果的音響モデルが純粋な音声信号に基づく訓練により得られたことを考慮すると、音声認識の精度をさらに向上させるために、上記何れかの実施例に基づいて、本実施例による音声認識方法は、音声信号における現在フレームを認識する前に、予め設定された周波数閾値未満の音声信号を遮断又は減衰するように、認識対象となる音声信号に対してハイパスフィルタリング処理を行うステップと、ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、をさらに含む。場合によっては、干渉信号は、ノイズ信号及び/又はエコー信号を含む。
ノイズ信号は、例えば公共の場所、走行している車両等の様々な環境に存在し、静かな環境であっても滑らかな背景ノイズが存在する。従って、取得した認識対象となる音声信号には、ノイズ信号が必然的に含まれており、最小二乗平均(LMS:Least Mean Square)フィルタリングアルゴリズム、リアプノフアクティブノイズコントロールアルゴリズム等によって、ハイパスフィルタリング処理済みの音声信号におけるノイズ信号を除去することができる。
認識対象となる音声信号を取得するための電子機器がスピーカを備えている場合には、ユーザが、当該電子機器の音声合成(TTS:Text to Speech)再生機能を使用してナビゲーション音声、ニュース放送音声等を再生し、又は、音声対話を実行する場合に、電子機器のスピーカから発せられた音が空気等の媒体を介してマイクに伝達されて、音響エコーを形成することができる。このとき、干渉信号は、スピーカによって送信されマイクに伝達されたエコー信号を含んでもよい。アコースティックエコーキャンセル(AEC:Acoustic Echo Cancellation)技術によって、ハイパスフィルタリング処理済みの音声信号におけるエコー信号を除去することができる。
本発明の実施例は、音声認識方法をさらに提供する。図4に示すように、本発明の実施例は、図4を一例として説明するものであり、本発明を限定するものではない。図4は、本発明による音声認識方法の別の実施例のフローチャートである。図4に示すように、本実施例による音声認識方法は、認識対象となる音声信号を取得するステップ401と、認識対象となる音声信号に対してハイパスフィルタリング処理を行うステップ402と、ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップ403と、因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識するステップ404と、を含む。
本実施例による音声認識方法は、認識対象となる音声信号に対してハイパスフィルタリング及び干渉除去処理を実行することによって、認識精度を向上させる。また、因果的音響モデルを用いることによって、現在フレームを認識する場合に、現在フレーム以降のフレームまで待つ必要がなく、ハード遅延を回避し、リアルタイム性に対する高い要求を満たす。本実施例による音声認識方法は、従来技術の畳み込みニューラルネットワークに基づく音声認識技術における、現在フレームを認識する際に現在フレーム以降のフレームまで待つ必要があることによるハード遅延という問題を解決して、音声認識のリアルタイム性を向上させるだけでなく、認識精度を向上させ、さらにユーザーエクスペリエンスを向上させる。
本発明の実施例は、音声認識装置をさらに提供する。図5に示すように、本発明の実施例は、図5を一例として説明するものであり、本発明を限定するものではない。図5は、本発明による音声認識装置の一実施例の構造概略図である。図5に示すように、本実施例による音声認識装置50は、取得モジュール501と、認識モジュール502と、を備える。
取得モジュール501は、認識対象となる音声信号を取得する。認識モジュール502は、因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、音声信号における現在フレーム及び現在フレームの前の所定期間内のフレームに基づいて、音声信号における現在フレームを認識する。
本実施例の装置は、図1に示す方法を実行することができ、原理及び技術的効果が類似するので、ここでの詳細な説明については省略する。
場合によっては、現在フレームの前のフレームが不足する場合に、空フレームで補充してもよい。
場合によっては、所定期間は、因果的音響モデルのコンテキストパラメータの値に基づいて決定されてもよい。
場合によっては、因果的音響モデルは、因果的音響モデルの受容野を拡大させるためのスタッキングした複数の因果的畳み込み層を含んでもよい。
場合によっては、因果的音響モデルは、音声信号の履歴情報を学習するための少なくとも一層の長短期記憶ネットワークをさらに含んでもよい。
上記の何れかの実施例に基づいて、本実施例による音声認識装置は、フィルタリングモジュールと、干渉除去モジュールと、をさらに含む。フィルタリングモジュールは、音声信号における現在フレームを認識する前に、認識対象となる音声信号に対してハイパスフィルタリング処理を行う。干渉除去モジュールは、ハイパスフィルタリング処理済みの音声信号における干渉信号を除去する。
本実施例による装置は、図1又は図4に示す方法を実行することができ、原理及び技術的効果が類似するので、ここでの詳細な説明については省略する。
場合によっては、干渉信号は、ノイズ信号及び/又はエコー信号を含んでもよい。
本発明の実施例は、音声認識機器をさらに提供する。図6に示すように、本発明の実施例は、図6を一例として説明するものであり、本発明を限定するものではない。図6は、本発明による音声認識機器の一実施例の構造概略図である。図6に示すように、本実施例による音声認識機器60は、メモリ601と、プロセッサ602と、バス603と、を備える。バス603は各素子同士を接続する。
メモリ601には、プロセッサ602により実行されると、上述した何れかの方法をプロセッサ602に実行させるコンピュータプログラムが記憶されている。
メモリ601及びプロセッサ602は、直接的又は間接的に電気的に接続されており、データ伝送又は交換を行う。例えば、これらの素子は、1本以上の通信バス又は信号線(例えば、バス603)を介して電気的に接続されてもよい。メモリ601には、音声認識方法のコンピュータプログラムが記憶されており、ソフトウェア又はファームウェアの形態でメモリ601に記憶された少なくとも1つのソフトウェア機能モジュールが設けられている。プロセッサ602は、メモリ601に記憶されたソフトウェアプログラム及びモジュールを動作させることにより、各種の機能アプリケーション及びデータ処理を実行する。
メモリ601は、ランダムアクセスメモリ(RAM:Random Access Memory)、読み出し専用メモリ(ROM:Read Only Memory)、プログラマブル読み出し専用メモリ(PROM:Programmable Read-Only Memory)、消去可能な読み出し専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的消去可能読み出し専用メモリ(EEPROM:Electric Erasable Programmable Read-Only Memory)等を含むが、これらに限定されない。メモリ601は、プロクラムを記憶し、プロセッサ602は、実行指示を受信すると、プロクラムを実行する。さらに、メモリ601内のソフトウェアプログラム及びモジュールは、システムタスク(例えば、メモリ管理、記憶デバイス制御、電源管理等)を管理するソフトウェアユニット及び/又はドライバを含み、且つ、各種ハードウェア又はソフトウェアユニットと通信して、他のソフトウェアユニットのための動作環境を提供するオペレーティングシステムを含んでもよい。
プロセッサ602は、信号処理能力を有する集積回路チップであってもよい。プロセッサ602は、中央処理装置(CPU:Central Processing Unit)、ネットワークプロセッサ(NP:Network Processor)等を含む汎用プロセッサであってもよい。本発明の実施例において開示されている各方法、ステップ及びロジックブロック図を実現又は実行可能である。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の通常のプロセッサ等であってもよい。
なお、図6の構造は例示的なものに過ぎず、図6に示すものよりも多い又は少ないユニットを有してもよいし、図6に示すものと異なる構成を有してもよい。図6に示す各ユニットは、ハードウェア及び/又はソフトウェアとして実現することができる。
例えば、音声認識機器がユーザ機器である場合には、オーディオ信号を出力及び/又は入力するためのオーディオユニットをさらに含んでもよい。本実施例では、オーディオユニットは、認識対象となる音声信号を取得する。
本実施例による音声認識機器は、上述した何れかの方法を実行することができ、原理及び技術的効果が類似するので、ここでの詳細な説明については省略する。
本発明の実施例は、プロセッサにより実行されると、上述した何れかの方法をプロセッサに実行させるコンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供する。
なお、以上の各実施例は、本発明の技術を説明するものであって、本発明を限定するものではない。上述した各実施例を参照しながら本発明を詳細に説明したが、当業者には明らかであるように、上述した各実施例で説明した技術を変更してもよいし、その一部又は全ての技術的特徴に対して同等の置換を行ってもよく、これらの変更又は置換は、本発明の各実施例の技術的範囲から逸脱するものではない。

Claims (10)

  1. 音声認識方法であって、
    認識対象となる音声信号を取得するステップと、
    因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、前記音声信号における現在フレーム及び前記現在フレームの前の所定期間内のフレームに基づいて、前記音声信号における現在フレームを認識するステップと、を含む、
    ことを特徴とする音声認識方法。
  2. 前記現在フレームの前のフレームが不足する場合に、空フレームで補充するステップをさらに含む、ことを特徴とする請求項1に記載の方法。
  3. 前記所定期間は、前記因果的音響モデルのコンテキストパラメータの値に基づいて決定される、ことを特徴とする請求項1に記載の方法。
  4. 前記因果的音響モデルは、前記因果的音響モデルの受容野を拡大させるためのスタッキングした複数の因果的畳み込み層を含む、ことを特徴とする請求項1に記載の方法。
  5. 前記因果的音響モデルは、前記音声信号の履歴情報を学習するための少なくとも一層の長短期記憶ネットワークをさらに含む、ことを特徴とする請求項4に記載の方法。
  6. 前記音声信号における現在フレームを認識するステップの前に、
    前記音声信号に対してハイパスフィルタリング処理を行うステップと、
    ハイパスフィルタリング処理済みの音声信号における干渉信号を除去するステップと、
    をさらに含む、ことを特徴とする請求項1〜5の何れか1項に記載の方法。
  7. 前記干渉信号は、ノイズ信号及び/又はエコー信号を含む、ことを特徴とする請求項6に記載の方法。
  8. 音声認識装置であって、
    認識対象となる音声信号を取得するための取得モジュールと、
    因果的畳み込みニューラルネットワークに基づいて訓練して得られた、事前訓練された因果的音響モデルを用いて、前記音声信号における現在フレーム及び前記現在フレームの前の所定期間内のフレームに基づいて、前記音声信号における現在フレームを認識するための認識モジュールと、を備える、
    ことを特徴とする音声認識装置。
  9. 音声認識機器であって、
    メモリと、
    プロセッサと、
    コンピュータプログラムと、を備え、
    前記コンピュータプログラムは、前記メモリに記憶されており、前記プロセッサにより実行されると、請求項1〜7の何れか1項に記載の方法を前記プロセッサに実行させるように構成されている、
    ことを特徴とする音声認識機器。
  10. コンピュータ可読記憶媒体であって、
    プロセッサにより実行されると、請求項1〜7の何れか1項に記載の方法を前記プロセッサに実行させるコンピュータプログラムが記憶されている、
    ことを特徴とするコンピュータ可読記憶媒体。
JP2018247610A 2018-04-20 2018-12-28 音声認識方法、装置、機器及び記憶媒体 Active JP6757398B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810359112.4A CN108550364B (zh) 2018-04-20 2018-04-20 语音识别方法、装置、设备及存储介质
CN201810359112.4 2018-04-20

Publications (2)

Publication Number Publication Date
JP2019191557A true JP2019191557A (ja) 2019-10-31
JP6757398B2 JP6757398B2 (ja) 2020-09-16

Family

ID=63511839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018247610A Active JP6757398B2 (ja) 2018-04-20 2018-12-28 音声認識方法、装置、機器及び記憶媒体

Country Status (3)

Country Link
US (1) US11087763B2 (ja)
JP (1) JP6757398B2 (ja)
CN (1) CN108550364B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023529699A (ja) * 2020-06-10 2023-07-11 グーグル エルエルシー テキストエコー消去

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109545192B (zh) * 2018-12-18 2022-03-08 百度在线网络技术(北京)有限公司 用于生成模型的方法和装置
CN111128123A (zh) * 2019-07-12 2020-05-08 深圳云知声信息技术有限公司 一种基于方言识别与普通话识别的交互方法
CN111429913B (zh) * 2020-03-26 2023-03-31 厦门快商通科技股份有限公司 一种数字串语音识别方法、身份验证装置及计算机可读存储介质
CN111599351A (zh) * 2020-04-30 2020-08-28 厦门快商通科技股份有限公司 一种语音识别方法和装置以及设备
CN112185352B (zh) * 2020-08-31 2024-05-17 华为技术有限公司 语音识别方法、装置及电子设备
CN114038465B (zh) * 2021-04-28 2022-08-23 北京有竹居网络技术有限公司 语音处理方法、装置和电子设备
CN114067800B (zh) * 2021-04-28 2023-07-18 北京有竹居网络技术有限公司 语音识别方法、装置和电子设备
CN114242100B (zh) * 2021-12-16 2023-04-21 北京百度网讯科技有限公司 音频信号处理方法、训练方法及其装置、设备、存储介质
CN114203161A (zh) * 2021-12-30 2022-03-18 深圳市慧鲤科技有限公司 语音识别方法、装置、设备以及存储介质
CN114974282A (zh) * 2022-05-24 2022-08-30 云知声智能科技股份有限公司 基于深度学习的单通道语音降噪方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635498A (ja) * 1992-07-16 1994-02-10 Clarion Co Ltd 音声認識装置及び方法
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447183A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 一种应用于语音识别系统的高性能置信度处理方法
US20090318755A1 (en) * 2008-06-18 2009-12-24 Jesse Aaron Adams Therapeutic penis ring
CN102446504B (zh) * 2010-10-08 2013-10-09 华为技术有限公司 语音/音乐识别方法及装置
US10783900B2 (en) * 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
CN105845128B (zh) * 2016-04-06 2020-01-03 中国科学技术大学 基于动态剪枝束宽预测的语音识别效率优化方法
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US20180082679A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10672387B2 (en) * 2017-01-11 2020-06-02 Google Llc Systems and methods for recognizing user speech
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting
CN107301860B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
CN107293288B (zh) * 2017-06-09 2020-04-21 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635498A (ja) * 1992-07-16 1994-02-10 Clarion Co Ltd 音声認識装置及び方法
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KIM AND PARK: "Speech-to-Text-WaveNet:End-to-end sentence level English speech recognition using DeepMind's WaveNet", GITHUB REPOSITORY, JPN7020000469, 3 April 2017 (2017-04-03), ISSN: 0004217595 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023529699A (ja) * 2020-06-10 2023-07-11 グーグル エルエルシー テキストエコー消去
JP7335460B2 (ja) 2020-06-10 2023-08-29 グーグル エルエルシー テキストエコー消去

Also Published As

Publication number Publication date
CN108550364B (zh) 2019-04-30
US11087763B2 (en) 2021-08-10
US20190325877A1 (en) 2019-10-24
JP6757398B2 (ja) 2020-09-16
CN108550364A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
JP6757398B2 (ja) 音声認識方法、装置、機器及び記憶媒体
KR102380494B1 (ko) 화상처리장치 및 방법
US11354512B2 (en) Method and device for generating dialog using trained dialog model
JP7114721B2 (ja) 音声ウェイクアップ方法及び装置
CN107832844A (zh) 一种信息处理方法及相关产品
WO2018039500A1 (en) A speech recognition method and apparatus
CN111357051B (zh) 语音情感识别方法、智能装置和计算机可读存储介质
US12057110B2 (en) Voice recognition based on neural networks
CN112561028B (zh) 训练神经网络模型的方法、数据处理的方法及装置
US20200265843A1 (en) Speech broadcast method, device and terminal
CN109190654A (zh) 人脸识别模型的训练方法和装置
CN113205803A (zh) 一种具有自适应降噪能力的语音识别方法及装置
US10891954B2 (en) Methods and systems for managing voice response systems based on signals from external devices
CN109147801B (zh) 语音交互方法、系统、终端及存储介质
CN111144132A (zh) 一种语义识别方法及装置
US11996114B2 (en) End-to-end time-domain multitask learning for ML-based speech enhancement
US20200143235A1 (en) System and method for providing smart objects virtual communication
CN111506183A (zh) 一种智能终端及用户交互方法
CN113886640B (zh) 数字人生成方法、装置、设备及介质
CN117373468A (zh) 远场语音增强处理方法、装置、计算机设备和存储介质
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
CN118282894B (zh) 网络性能评估方法及装置
US20240290325A1 (en) Electronic apparatus and controlling method thereof
CN114661441A (zh) 一种计算平台、计算平台算力扩展方法及装置
CN115774776A (zh) 一种人机对话处理方法、系统及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200828

R150 Certificate of patent or registration of utility model

Ref document number: 6757398

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250