JP7407968B2 - 音声認識方法、装置、設備及び記憶媒体 - Google Patents

音声認識方法、装置、設備及び記憶媒体 Download PDF

Info

Publication number
JP7407968B2
JP7407968B2 JP2022563214A JP2022563214A JP7407968B2 JP 7407968 B2 JP7407968 B2 JP 7407968B2 JP 2022563214 A JP2022563214 A JP 2022563214A JP 2022563214 A JP2022563214 A JP 2022563214A JP 7407968 B2 JP7407968 B2 JP 7407968B2
Authority
JP
Japan
Prior art keywords
hotword
audio
decoding time
current decoding
related features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022563214A
Other languages
English (en)
Other versions
JP2023522083A (ja
Inventor
ション,シーフー
リュウ,ツォン
ウェイ,スー
リュウ,チンフォン
ガオ,ジェンチン
パン,ジャ
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2023522083A publication Critical patent/JP2023522083A/ja
Application granted granted Critical
Publication of JP7407968B2 publication Critical patent/JP7407968B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Description

本出願は、2020年05月18日に中国特許局へ提出した出願番号202010418728.1、発明名称「音声認識方法、装置、設備及び記憶媒体」である中国特許出願
の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
音声認識とは、入力された音声データを認識し、音声に対応する認識テキスト内容を得ることを意味する。ディープラーニングシーケンスモデリングの発展に伴い、エンドツーエンドモデリング方法が音声認識分野の研究の焦点となっている。
図1に示すように、アテンションメカニズムに基づく従来のエンドツーエンド音声認識フレームワークは、入力音声の符号化を行い、アテンションメカニズムに基づいて、符号化されたオーディオを処理し、復号化及び分類により、入力音声に対応する認識テキストを得ることができる。このような音声認識方法は、訓練データの需要量が多いため、訓練したモデルに自信過剰(over-confidence)の問題があり、モデルには、算出された事後確率得点が鋭く、つまり高頻度語に対する認識効果が良く、得点が高いが、低頻度語に対する認識効果が悪く、得点が低いことが反映されている。専門名詞、専門用語、日常の社会活動の中から生まれたリアルタイムな話題となる単語などのホットワードは、モデルに対して低頻度語であり、モデルでこのようなホットワードの認識効果が悪い。
上記の問題に鑑み、本出願は、従来の音声認識方法においてホットワードに対する認識効果が良くないという問題を解決するように、音声認識方法、装置、設備及び記憶媒体を提供し、その技術案は以下の通りである。
本出願の第一態様において、音声認識方法を提供し、
認識対象音声及び設定されたホットワードシソーラスを取得することと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。
好ましくは、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
現在の復号化時刻より前の復号化済み結果情報を取得することと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含む。
好ましくは、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定するプロセスは、
あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワード
シソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える。
好ましくは、前記音声認識モデルは、
前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと
前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
好ましくは、前記共同注意モジュールは、
デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第1のアテンションモデルと、
前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定する第2のアテンションモデルとを含み、
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する。
好ましくは、前記第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む。
好ましくは、前記第2のアテンションモデルは、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することは、
前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む。
好ましくは、前記分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含む。
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて
、認識対象音声の現在の復号化時刻の認識結果を決定することとを含む。
好ましくは、前記動的に拡張可能なホットワードノードと前記ホットワードシソーラスにおけるホットワードとは1対1対応する。
好ましくは、前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
前記会話シーンに関するホットワードシソーラスを取得することとを含む。
好ましくは、前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することとを含む。
好ましくは、
前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力することとをさらに含む。
本出願の第二態様において、音声認識装置を提供し、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットとを含む。
本出願の第三態様において、プログラムを格納するメモリ及び前記プログラムを実行し、上記の音声認識方法の各ステップを実現するプロセッサを含む音声認識設備を提供する。
本出願の第四態様において、コンピュータプログラムを格納する読取可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時に、上記の音声認識方法の各ステップを実現する。
本出願の第五態様において、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、端末装置で実行される時に、前記端末装置に上記の音声認識方法の各ステップを実行させる。
以上のことから分かるように、本出願に係る音声認識方法では、ホットワードシソーラス(すなわち、認識対象音声に存在する可能性のあるホットワード)が設定されるため、認識対象音声を認識する過程で、認識対象音声及びホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、また、オーディオ関連特徴の決定過程でホットワード情報を利用するため、現在の復号化時刻の音声セグメントにあるホットワードが含まれている場合、決定されたオーディオ関連特徴には、部分的な情報では
なく、ホットワードに対応する完全なオーディオ情報が含まれるようになり、さらに当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、またオーディオ関連特徴にはホットワードに対応する完全なオーディオ情報が含まれるようになるため、決定されたホットワード関連特徴は、現在の復号化時刻の音声セグメントにホットワードが含まれているか否か、及び具体的にどのホットワードが含まれているかを正確に示すことができ、最終的に、オーディオ関連特徴及びホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定し、当該認識結果により、ホットワードをより正確に認識することができる。
本発明の実施例又は従来技術の技術案をより明確にするためには、以下、実施例又は従来技術を説明するための図面を簡単に説明する。明らかに、下記の図面は、本発明の実施例に過ぎず、当業者であれば、創造的な労力を払うことなく提供された図面に従って他の図面を得ることができる。
図1はアテンションメカニズムに基づく従来のエンドツーエンド音声認識フレームワークを示す。 図2はアテンションメカニズムに基づく改善されたエンドツーエンド音声認識フレームワークを示す。 図3は本出願の実施例に係る音声認識方法のフローチャートである。 図4は本出願の実施例に係る別のアテンションメカニズムに基づく改善されたエンドツーエンド音声認識フレームワークを示す図である。 図5は本出願の実施例において1層の双方向長短期記憶層(LSTM)のホットワードエンコーダのホットワードに対する符号化を示す図である。 図6は本出願の実施例に係る音声認識装置の構造を示す図である。 図7は本出願の実施例に係る電子設備の構造を示す図である。
以下、本発明の実施例の図面を併せて、本発明の実施例における技術案を明確かつ詳細に説明する。記載された実施例は本発明の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本発明の実施例に基づき、当業者は、創造的な作業なしに得られたすべての他の実施例は本発明の保護範囲内にある。
従来の音声認識方法においてホットワードの認識効果が良くないという問題を解決するために、本案発明者が研究を行い、まずホットワードの得点にインセンティブを与えることを考え、つまり、音声認識モデルが出力した各候補認識文字のうち、ホットワードに属する候補認識文字の得点にインセンティブを与えることで、ホットワードの認識率を高めるという目的を達成する。
しかしながら、さらに研究を進めると、エンドツーエンドの音声認識モデルでは、ホットワードのような低頻度語の得点が低すぎるため、ホットワードの復号化を行う過程で削減されることが多く、場合によってインセンティブが与えられる機会もなく、ホットワードの認識度を高めることができないことが分かった。
したがって、本発明者は、音声認識モデルの構造を変更することにより、モデルレベルでホットワードの得点確率を高める方案を提出する。変更された音声認識モデルのフレームワークの例を図2に示す。
従来の音声認識モデルに比べて、ホットワードエンコーダモジュールBias encoderが追加され、ホットワードを符号化することができる。さらに、デコーダDec
oderのステータス情報を用いて、アテンションメカニズムに基づいて、オーディオ符号化特徴及びホットワード符号化特徴のそれぞれに対して操作を行い、復号化に必要なオーディオ関連特徴及びホットワード関連特徴を得る。オーディオ関連特徴及びホットワード関連特徴に基づいて、復号化及び分類を行い、入力音声に対応する認識テキストを得る。
この方案では、モデル構造レベルでホットワードを考慮したため、モデルから出力されたホットワードの得点にインセンティブを直接に与える方式よりも効果的である。
しかし、発明者が深く研究した結果、異なるホットワードの長さが違いことがあり、オーディオにホットワードが含まれているか否か、どのホットワードが含まれているかを正確に判定するには、ホットワードによって必要な情報が異なることがわかった。一方、デコーダのステータス情報には、復号化済み結果の履歴テキストと履歴オーディオ情報のみが含まれ、単に履歴情報のみを含むステータス情報をアテンションメカニズムのクエリ項目として使用して、オーディオ符号化特徴に対しアテンションの操作を実行して得られるオーディオ関連特徴は必ずしも完全ではなく、同時にホットワード符号化特徴に対しアテンションの操作を実行して得られるホットワード関連特徴も必ずしも正確ではないため、最終的なホットワード認識精度も特に高くない。
したがって、発明者は上記の問題を解決するための別の改善案を提出する。以下、本案に係る音声認識方法を詳細に説明する。
本案の音声認識方法は、音声認識が必要なあらゆる場面に適用可能であることが理解される。音声認識方法は、携帯電話、翻訳機、パソコン、サーバーなどのデータ処理能力を備えた装置のような、電子機器を用いて実現できる。
そして、図面3に示すフローチャートに合わせて、本案の音声認識方法を説明し、詳しく次のステップを含む。
S100:認識対象音声及び設定されたホットワードシソーラスを取得する。
具体的には、今回の音声認識タスクで認識する音声を認識対象音声とする。音声認識の前に、設定されたホットワードシソーラスを取得することができ、ホットワードシソーラスには複数のホットワードが保存されている。ホットワードシソーラスは音声認識タスクに関連するホットワードから構成されてもよいことが理解される。例えば、認識対象音声の中に存在する可能性のあるすべてのホットワード(専門用語など)を用いてホットワードシソーラスを構成する。
また、本実施例で設定されたホットワードシソーラスとして、既存のホットワードシソーラスを直接呼び出してもよい。S110:前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定する。
具体的には、音声認識によるホットワードの認識度を高めるために、復号化対象文字が潜在的なホットワードである場合、当該潜在的なホットワードの完全なオーディオ情報を取得する必要がある。そこで、本ステップでは、現在の復号化時刻に必要な得られたオーディオ関連特徴に潜在的なホットワードの完全な音声情報が含まれるように、ホットワードシソーラスを考慮する。つまり、オーディオ関連特徴を決定するための計算過程にホットワードシソーラスを関与させ、現在の復号時刻の復号化対象文字がホットワードであるか否かを検出する機能を果たす。
最終的に得られるオーディオ関連特徴には、現在の復号化対象文字の完全なオーディオ情報が含まれる。
S120:前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定する。
前のステップでは、現在の復号化時刻に必要なオーディオ関連特徴が決定されているため、当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することができ、当該ホットワード関連特徴は現在の復号化時刻に現れる可能性のあるホットワード内容を示している。
オーディオ関連特徴は現在の復号化対象文字の完全なオーディオ情報を含んでもよいため、これに基づいて、ホットワードシソーラスから現在の復号時に必要なホットワード関連特徴を決定し、ホットワードの長さが異なることにさらに適応できることが理解される。
S130:前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する。
現在の復号化時刻に必要なオーディオ関連特徴及びホットワード関連特徴が得られた後、両方に基づいて、現在の時刻に復号化対象文字の復号化認識を行い、認識対象音声の現在の復号化時刻の認識結果を決定する。
本出願の実施例に係る音声認識方法では、ホットワードシソーラス(すなわち、認識対象音声に存在する可能性のあるホットワード)が設定されるため、認識対象音声を認識する過程で、認識対象音声及びホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、また、オーディオ関連特徴の決定過程でホットワード情報を利用するため、現在の復号化時刻の音声セグメントにあるホットワードが含まれている場合、決定されたオーディオ関連特徴には、部分的な情報ではなく、ホットワードに対応する完全なオーディオ情報が含まれるようになり、さらに当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、またオーディオ関連特徴にはホットワードに対応する完全なオーディオ情報が含まれるようになるため、決定されたホットワード関連特徴は、現在の復号化時刻の音声セグメントにホットワードが含まれているか否か、及び具体的にどのホットワードが含まれているかを正確に示すことができ、最終的に、オーディオ関連特徴及びホットワード関連特徴に基づき、認識対象音声の現在の復号化時刻の認識結果を決定し、当該認識結果により、ホットワードをより正確に認識することができる。
本出願の実施例では、上記のS100で認識対象音声及び設定されたホットワードシソーラスを取得するための実施形態を説明する。
選択肢として、認識対象音声を取得した後、認識対象音声の会話シーンを決定することができる。さらに、当該会話シーンに関連するホットワードシソーラスを、本案に設定されたホットワードシソーラスとして取得することができる。
会話シーンによって発生される認識対象音声に含まれるホットワードも異なる可能性があることが理解されるため、本出願で、各会話シーンに対応するホットワードシソーラスを事前に決定することができ、そして認識対象音声の会話シーンを決定した後、対応するホットワードシソーラスを取得することができる。
別の選択肢として、本出願の方案をヒューマンコンピュータインタラクションシーンでの音声認識に適用する場合には、
ユーザーがヒューマンコンピュータインタラクションシーンで機器とやり取りを行う時、
ユーザーの音声操作命令に関わってくることが理解され、すなわち、ユーザーが所定の目的を実現するための音声操作命令を機器に出す。例えば、ユーザーがスマートテレビを音声でコントロールしてチャンネル切り替えや音量調整などの関連操作を実現し、またユーザーがスマートロボットをコントロールして曲の再生、天気の確認、所定の動作の実行などを実現する。
その上で、機器がユーザーに正しく応答するためには、機器が音声操作命令を正確に認識する必要がある。このため、本出願では、ユーザーの音声操作命令中の操作キーワードを用いてホットワードシソーラスを構成することができる。
これに基づいて、本出願の実施例で、ヒューマンコンピュータインタラクションシーンでユーザーからの音声を認識対象音声として取得することができると同時に、ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令中の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することができる。
このようにして、本出願の方案に従って認識対象音声の認識結果を決定した後、当該認識結果に基づいて、当該認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力することができる。
本実施で説明された方案に従って、ヒューマンコンピュータインタラクション過程におけるユーザーの操作命令を正確的に認識するため、機器が正確的な認識結果に基づいて、適切なインタラクション応答を行うことができる。
本出願の別の実施例では、上記のS110において、前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定する。
具体的には、認識対象音声の各フレームの音声間にコンテキスト関係が存在し、現在の復号時刻に必要なオーディオ関連特徴を決定するために、本実施例では、現在の復号時刻より前の復号化済み結果情報を取得してもよい。復号化済み結果情報には、復号化済み文字のテキスト情報、オーディオ情報が含まれてもよい。
また、音声認識によるホットワードの認識度を高めるために、復号化対象文字が潜在的なホットワードである場合、当該潜在的なホットワードの完全なオーディオ情報を取得する必要がある。そこで、本ステップでは、現在の復号化時刻に必要な得られたオーディオ関連特徴に潜在的なホットワードの完全な音声情報が含まれるように、ホットワードシソーラスを考慮する。つまり、オーディオ関連特徴を決定するための計算過程にホットワードシソーラスを関与させ、現在の復号時刻に復号化対象文字がホットワードであるか否かを検出する機能を果たす。その上で、当該オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することができ、ホットワードの長さが異なることにさらに適応できる。
以上によって、S110におけるオーディオ関連特徴の決定過程は以下を含むことが分かる。
S1:現在の復号化時刻より前の復号化済み結果情報を取得する。
S2:復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
具体的には、本実施例では、まず認識対象音声のオーディオ特徴を決定することができ、そのオーディオ特徴としては、フィルタバンク(Filter Bank)特徴、メル
周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴などが挙げられる。さらに、復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声のオーディオ特徴から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
ここで、オーディオ関連特徴には現在の復号化時刻の復号化対象文字の完全なオーディオ情報が運ばれている。その上で、ホットワードの正確的な認識のために十分なオーディオ関連特徴を提供することができる。
本出願の別の実施例では、上記実施例のS110~S130で、現在の復号化時刻に必要なオーディオ関連特徴及びホットワード関連特徴を決定し、これに基づいて認識対象音声の現在の復号化時刻の認識結果を決定する選択可能な実施形態を説明する。
具体的には、音声認識モデルを用いて実現できる。
もちろん、本実施例に係る音声認識モデルは従来の音声認識モデルとは異なり、本実施例の音声認識モデルは、認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備えるように構成されている。
具体的には、音声認識モデルは、現在の復号化時刻より前の復号化済み結果情報及びホットワードシソーラスに基づいて、認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定し、オーディオ関連特徴に基づいて、ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づき、認識対象音声の現在の復号化時刻における認識結果を決定する能力を備えてもよい。
その上で、本実施例では、音声認識モデルを用いて前述したS100から取得された認識対象音声及びホットワードシソーラスを処理し、音声認識モデルが認識対象音声の認識結果を出力することができる。
具体的には、認識対象音声のオーディオ特徴及びホットワードシソーラスを音声認識モデルに入力し、モデルから出力された認識対象音声の認識結果を得ることができる。
そして、図4を参照し、音声認識モデルのフレームワークを説明する。
音声認識モデルには、オーディオエンコーダモジュール、ホットワードエンコーダモジュール、共同注意モジュール、デコーダモジュール及び分類器モジュールが含まれてもよい。受信されたホットワードシソーラスの各ホットワード及び認識対象音声のオーディオ特徴を処理し、最終的に認識結果を出力する過程を各モジュールの協働により実現する。これから、各モジュールをそれぞれ説明する。
説明のために、認識対象音声のオーディオ特徴はX=[x,x,…,x]とし、ここで、xはkフレーム目のオーディオ特徴ベクトル、kは認識対象音声の音声フレームの合計数を表す。
1.オーディオエンコーダモジュール:
オーディオエンコーダモジュールで認識対象音声の符号化を行い、オーディオ符号化結果を得る。
具体的には、オーディオエンコーダモジュールで認識対象音声のオーディオ特徴Xの符号化を行い、各フレームの音声のオーディオ特徴ベクトルからなる符号化済みのオーディオ特徴ベクトルのシーケンスを得る。
ここで、得られた符号化済みのオーディオ特徴ベクトルのシーケンスは次の通りである。
Figure 0007407968000001

ここで、
Figure 0007407968000002
はkフレーム目のオーディオ特徴ベクトル、
Figure 0007407968000003
はxがオーディオエンコーダモジュールにより符号化された結果を表す。
オーディオエンコーダモジュールは、1層又は複数層の符号化層を含んでもよい、符号化層としては、単方向又は双方向長短期記憶ニューラルネットワークの長短期記憶層又は畳み込みニューラルネットワークの畳み込み層を採用してもよい。具体的にどの構造を使用するかは使用需要に応じて決定する。即時性の要求がある音声認識について、3~5層の単方向長短期記憶層を使用し、即時性の要求がない音声認識について、3~5層の双方向長短期記憶層を使用してもよい。ここで、即時性の要求とは、すべて話した後に認識結果を一括に出すことなく、話しながら認識することを意味する。
本実施例では、5層の単方向長短期記憶層を用いて、入力されたオーディオ特徴X=[x,x,…,x]を処理し、符号化されたオーディオ特徴ベクトルのシーケンス
Figure 0007407968000004
を出力してもよい。
2.ホットワードエンコーダモジュール:
ホットワードエンコーダモジュールでホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得る。
具体的には、ホットワードエンコーダモジュールがホットワードシソーラスにおける各ホットワードを個別に符号化し、各ホットワードが個別に符号化された後の各ホットワード特徴ベクトルからなるホットワード特徴ベクトルのシーケンスを得る。
ホットワードシソーラス内に合計N+1個のホットワードが含まれるように定義される。
Z=[z,z,…,z
ここで、zはN番目のホットワードを表す。ここで、zは特別なホットワード「<no-bias>」であり、ホットワードが存在しないことを表す。復号化の過程におけるホット
ワードはzである場合、現在の復号化時刻に復号化対象文字がいずれかホットワードでもないことを意味し、認識されている音声セグメントがホットワードでない場合に使用される。
ホットワードの合計数はN+1とすると、ホットワードエンコーダが各ホットワードを個別に符号化して得られたホットワード特徴ベクトルのシーケンスは次の通りである。
Figure 0007407968000005

ここで、
Figure 0007407968000006
はN番目のホットワードがホットワードエンコーダモジュールで個別に符号化された後のホットワード特徴ベクトルを表す。
ホットワードによって含まれている文字数が異なることがあり、例えば、「中科大」と
「科大訊飛」をホットワードとすると、含まれる文字数はそれぞれ3と4である。
モデル処理のため、本実施例で長くなったホットワードを同じ次元のベクトルに統一的に符号化することができる。具体的には、ホットワードエンコーダモジュールが設定された次元にしたがって、各ホットワードをそれぞれ同じ次元のホットワード特徴ベクトルに個別に符号化することができる。
ホットワードエンコーダモジュールは1層又は複数層の符号化層を含むことができ、符号化層としては、単方向又は双方向長短期記憶ニューラルネットワークの長短期記憶層或畳み込みニューラルネットワークの畳み込み層を採用してもよい。一般的に、同時に左右側のすべての情報を示している双方向長短期記憶層は、ホットワードに対する符号化効果が単方向長短期記憶層よりもよい。例えば、1層の双方向長短期記憶層を使用する場合は、「科」、「大」、「訊」、「飛」の4文字からなる「科大訊飛」をホットワードとすると、1層の双方向長短期記憶層のホットワードエンコーダモジュールの符号化過程は図5に示す通りである。
図5の左側が双方向長短期記憶層の順方向部分で、右側が逆方向部分であり、順方向と逆方向の最終ステップの出力ベクトル
Figure 0007407968000007

Figure 0007407968000008
を接合して得られたベクトルhはホットワードの符号化ベクトルを表す。
3、共同注意モジュール:
共同注意モジュールは、オーディオ符号化結果及びホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る。当該接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
本実施例では、図4に示すように、共同注意モジュールの選択可能なアーキテクチャを説明し、共同注意モジュールは第1のアテンションモデル及び第2のアテンションモデルを含んでもよい。
ここで、第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及びホットワード符号化結果に基づいて、オーディオ符号化結果から現在の復号化時刻に必要可能なオーディオ関連特徴を決定することができる。
具体的には、状況ベクトル、ホットワード符号化結果を第1のアテンションモデルの入力として、第1のアテンションモデルでオーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。
第2のアテンションモデルは、オーディオ関連特徴に基づいて、ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。
具体的には、オーディオ関連特徴を第2のアテンションモデルの入力として、第2のアテンションモデルでホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。
最後に、前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を構成する。
以上からわかるように、デコーダモジュールの現在の復号化時刻に出力された状況ベクトルは復号化済み結果情報を示すことができるため、当該状況ベクトル及びホットワード符号化結果に基づいて、オーディオ符号化結果に対してアテンションメカニズム操作を行い、現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。つまり、本実施例における第1のアテンションモデルはオーディオ、ホットワードの共同注意メカニズムを使用し、オーディオ関連特徴の計算にホットワードを関与させる。ホットワード情報を利用したため、現在の復号化時刻に復号化対象文字が特定のホットワードである場合、オーディオ関連特徴から当該ホットワードに対応する完全なオーディオ情報を抽出される。
さらに、オーディオ関連特徴を用いてホットワード符号化結果に対してアテンションメカニズム操作を行い、現在の復号化時刻に必要なホットワード関連特徴を決定する。オーディオ関連特徴にはホットワードの完全なオーディオ情報が含まれているため、これにより得られたホットワード関連特徴もより正確である。
ここで、アテンションメカニズムは1つのベクトルをクエリ項目(query)とし、一連の特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、クエリ項目と最もマッチングする特徴ベクトルを出力とする。具体的には、クエリ項目と特徴ベクトルシーケンスの各特徴ベクトルとのマッチング係数を計算し、その後、これらのマッチング係数を対応する特徴ベクトルにかけ、合計を求めて得られた新しい特徴ベクトルを、クエリ項目と最もマッチングする特徴ベクトルとする。
現在の時刻を時刻tとし、デコーダモジュールの時刻tに出力された状況ベクトルをdとすると、第1のアテンションモデルは、状況ベクトルdとホットワード特徴ベクトルシーケンスHに基づいて、オーディオ特徴ベクトルシーケンスHから現在の復号化時刻に必要なオーディオ関連特徴
Figure 0007407968000009
を決定する。第2のアテンションモデルは、
Figure 0007407968000010
をクエリ項目とし、ホットワード特徴ベクトルシーケンスHに対しアテンションメカニズム操作を実行し、現在の復号化時刻に必要なホットワード関連特徴
Figure 0007407968000011
を決定する。
そして、第1のアテンションモデルの実施形態について詳細に説明する。
まず、第1のアテンションモデルは、ホットワード特徴ベクトルシーケンスHにおける各ホットワード特徴ベクトル
Figure 0007407968000012
を状況ベクトルdとそれぞれ組み合わせてクエリ項目とし、オーディオ特徴ベクトルシーケンスHにおける各オーディオ特徴ベクトル
Figure 0007407968000013
に対してアテンションメカニズム操作を行い、マッチング係数行列Eを得る。前記マッチング係数行列Eには任意のホットワードと任意のフレームの音声との一致度
Figure 0007407968000014
が含まれ、
Figure 0007407968000015
は、i番目のホットワードとjフレーム目の音声との一致度(すなわちjフレーム目の音声がi番目のホットワードである可能性)を示す。
ここで、
Figure 0007407968000016
の計算過程は下の式を参照する。
Figure 0007407968000017

ここで、W、W、Wはモデルパラメータであり、
Figure 0007407968000018
はそれぞれベクトル
Figure 0007407968000019
の次元を示し、3つの行列の行数が同じでいずれもDであり、演算子<.,.>はベクトルの内積を求めることを示す。
要素
Figure 0007407968000020

はホットワードと音声フレームのマッチング係数行列Eを構成し、E∈RK×(N-1)とする。ここで、
Figure 0007407968000021
はEにおけるi行目j列目の要素、Eの列ベクトルはあるホットワードとオーディオ特徴ベクトルシーケンスとの一致度、Eの行ベクトルはあるフレームのオーディオ特徴ベクトルとホットワード特徴ベクトルシーケンスの一致度を表す。
さらに、第1のアテンションモデルは上記のマッチング係数行列Eに基づいて、オーディオ特徴ベクトルシーケンスHから現在の復号化時刻に必要なオーディオ関連特徴
Figure 0007407968000022
を決定する。
具体的には、当該過程は次のステップを含んでもよい。
S1:マッチング係数行列Eに基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率wを決定する。
におけるi行目j列目の要素はjフレーム目のオーディオがi番目のホットワードである可能性を表し、Eの各行のsoftmax正規化を行い、その後、すべての行ベクトルを加算して平均値を計算し、次のN+1次元の行ベクトルを得る。
Figure 0007407968000023

ここで、
Figure 0007407968000024
は現在の復号化時刻tの復号化対象文字がi番目のホットワードである可能性を表す。つまり、現在の復号化時刻tの音声から出てくる可能性の最も高いホットワードを決定する。
S2:マッチング係数行列E及び各ホットワードを現在の復号化時刻の復号化対象文字とする確率wに基づいて、各フレームの音声を現在の復号化時刻に必要な音声内容とする確率aを決定する。
具体的には、Eの各列のsoftmax正規化を行い、列ベクトルが正規化された行列Aを得る。その後、wの要素を行列Aの列ベクトルの加重係数にして、行列Aのすべての列ベクトルを重み付け及び加算し、次のK次元の行ベクトルを得る。
Figure 0007407968000025

ここで、
Figure 0007407968000026
はjフレーム目のオーディオ特徴が現在の復号化時刻tの復号化に必要な音声内容である可能性を表す。
S3:各フレームの音声を現在の復号化時刻に必要な音声内容とする確率aを加重係数とし、オーディオ特徴ベクトルシーケンスHにおける各フレーム音声のオーディオ特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なオーディオ関連特徴
Figure 0007407968000027
を得る。
具体的には、aの要素をオーディオ特徴ベクトルシーケンス
Figure 0007407968000028
に対応する位置のオーディオ特徴ベクトルの加重係数とし、オーディオ特徴ベクトルを重み付け及び加算し、オーディオ関連特徴ベクトル
Figure 0007407968000029
を得る。
さらに、第2のアテンションモデルの実施形態について詳細に説明する。
第2のアテンションモデルは、上記のオーディオ関連特徴
Figure 0007407968000030
に基づいて、ホットワード特徴ベクトルシーケンスHから現在の復号化時刻に必要なホットワード関連特徴
Figure 0007407968000031
を決定する。
具体的には、当該過程は次のステップを含んでもよい。
S1:第2のアテンションモデルは、オーディオ関連特徴
Figure 0007407968000032
をクエリ項目とし、ホットワード特徴ベクトルシーケンスHに対してアテンションメカニズム操作を行い、ホットワードマッチング係数ベクトルbを得る。ホットワードマッチング係数ベクトルbには、各ホットワードを現在の復号化時刻の復号化対象文字とする確率が含まれる。bは次の通りである。
Figure 0007407968000033

ここで、
Figure 0007407968000034
はi番目のホットワードを現在の復号化時刻の復号化文字とする確率を表す。
具体的には、
Figure 0007407968000035
と各ホットワード特徴ベクトルとを、小さなニューラルネットワークによって計算して1つのマッチング係数を得た後、これらのマッチング係数のsoftmax正規化を行って、
Figure 0007407968000036
を得る。
S2:各ホットワードを現在の復号化時刻の復号化対象文字とする確率
Figure 0007407968000037
を加重係数とし、ホットワード特徴ベクトルシーケンスHにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴
Figure 0007407968000038
を得る。
Figure 0007407968000039
には、ホットワードの情報の一部でなく、潜在的ホットワードの完全なオーディオ情報が含まれているため、これに基づいて決定されたホットワード関連特徴
Figure 0007407968000040
もより正確である。
Figure 0007407968000041

Figure 0007407968000042
が決定された後に接合する必要があり、現在の復号化時刻に必要な接合特徴cが得られ、接合特徴cをデコーダモジュールに渡す。
さらに、上記の決定された現在の復号化時刻の復号化対象文字の確率bを分類器モジュールに渡し、ホットワードの分類に使用されてもよい。
4.デコーダモジュール:
デコーダモジュールは共同注意モジュールから出力された現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得る。
具体的には、デコーダモジュールは、現在の復号化時刻tより一つ前の復号化時刻t-1に必要な接合特徴ct-1と一つ前の復号化時刻t-1の認識結果文字を用いて、現在の復号化時刻tの状況ベクトルdを求める。
ここで、dは次の二つの役割を果たす。一つ目は、共同注意モジュールに送信することで、共同注意モジュールが上記実施例で説明された操作過程を実行し、現在の復号化時刻のcを求める。
二つ目は、デコーダモジュールは現在の復号化時刻の状況ベクトルdと現在の復号化時刻に必要な接合特徴cを用いて、デコーダモジュールの現在の復号化時刻の出力特徴
Figure 0007407968000043
を求める。
説明すべき点については、デコーダモジュールには複数のニューラルネットワーク層が含まれてもよいため、本出願では二層の単方向長短期記憶層を使用してもよい。現在の時刻tの復号化対象文字を復号化する時には、一層目の長短期記憶層は時刻t-1の認識結果文字とアテンションモジュールから出力された接合特徴ct-1を入力とし、デコーダモジュールの現在の復号化時刻の状況ベクトルdを求める。デコーダモジュールはdとcを二層目の長短期記憶層の入力とし、デコーダモジュールの出力特徴
Figure 0007407968000044
を求める。
5.分類器モジュール:
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
具体的には、分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴
Figure 0007407968000045
を用いて、認識対象音声の現在の復号化時刻の認識結果を決定してもよい。
以上からわかるように、出力特徴
Figure 0007407968000046
は、デコーダモジュールの状況ベクトルdと現在の復号化時刻に必要な接合特徴cに基づいて共同で決定されたものであり、接合特徴cにおける
Figure 0007407968000047
には、ホットワードの情報の一部でなく、潜在的ホットワードの完全なオーディオ情報が含まれるため、これに基づいて決定されたホットワード関連特徴
Figure 0007407968000048
もより正確である。よって、最終的に得られた出力特徴
Figure 0007407968000049
もより正確であり、さらにこれに基づいて決定された認識結果もより正確で、ホットワードの認識精度を高めることができるのが確認される。
本出願の一実施例では、分類器モジュールの2つの実施形態が提供され、その1つは、従来の一般静的分類器を採用している。当該静的分類器の分類ノードの数が一定に維持され、共通文字が含まれる。分類器モジュールは出力特徴
Figure 0007407968000050
に基づいて各分類ノード文字の得点確率を決定し、最終的な認識結果に組み合わせる。
しかしながら、このような常用静的分類器は、ホットワードを常用文字の組み合わせで表し、ホットワードを文字ごとに復号化すると、ホットワードセグメントでないホットワードが誤ってトリガされてしまうことが多い。例えば、「這個模型訓飛了」を認識対象音声の内容とする音声データについて、「科大訊飛」をホットワードとすると、静的分類器を用いた認識結果が「這個模型訊飛了」になる可能性がある。「訓飛」とホットワードの「科大訊飛」における「訊飛」との2文字の発音が同じであるため、静的分類器がホットワードを文字ごとに復号化し、1文字ずつインセンティブを与えることで、各文字にインセンティブが与えられる可能性があり、音声セグメントのうち、ホットワードが含まれる部分の発音とマッチングする内容を誤ってホットワードの一部としてインセンティブを与える可能性が高い。つまり、「訓飛」における「訓」をホットワードである「科大訊飛」における「訊」として誤って認識してしまう。
このため、本出願は分類器モジュールの新構造を提供し、分類器モジュールの分類ノードには、固定の常用文字ノードに加えて、動的に拡張可能なホットワードノードも含まれるため、従来技術のようにホットワードを分割して、文字ごとに認識したり、インセンティブを与えたりする必要がなく、直接にホットワードの全体を認識することができる。なお、上述した例で説明するように、音声データである「這個模型訓飛了」について、「訓飛」がホットワードである「科大訊飛」の一部の文字と発音だけ同じであるが、ホットワードである「科大訊飛」の全体との一致度が高くないため、ホットワード全体の誤認識の問題が発生しない。一方、音声データに特定のホットワードが含まれている場合、本実施例の分類器モジュールにより、分類ノードにホットワードが丸ごと含まれるため、ホットワードを丸ごと認識し、ホットワードの認識効果を向上させることができる。
本実施例の分類器モジュールにおけるホットワードノードの数は、シーンによって動的
調整でき、現在のシーンに対応するホットワードシソーラスにN個のホットワードがある場合、同じくN個のホットワードノードを設定することができる。中国語の音声認識を例として、漢字をモデリング単位とし、常用漢字の数をV個とすると、分類器モジュールの固定の常用文字ノードの数はVとし、またホットワードシソーラスに合計N個のホットワードが存在すると、分類器モジュールのホットワードノードの数はNとし、つまり分類器モジュールのすべての分類ノードの数はV+Nとする。
上記のような新構造の分類器モジュールに基づき、分類器モジュールが音声認識を行う過程は以下を含んでもよい。
分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴
Figure 0007407968000051
を用いて、各常用文字ノードの確率得点及び各ホットワードノードの確率得点を決定し、よって最終的な認識結果を決定する。
1つの選択可能な形態において、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴
Figure 0007407968000052
を用いて、各常用文字ノードの確率得点及び各ホットワードノードの確率得点をそれぞれ決定することができる。
別の選択可能な形態において、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴
Figure 0007407968000053
を用いて、各常用文字ノードの確率得点を決定することができる。さらに、上記の実施例で説明されたホットワードマッチング係数ベクトルbを用いて、各ホットワードノードの確率得点を決定する。
分類器モジュールにおける固定の常用文字ノードについて、その確率得点を、静的分類器を用いて決定できることが理解される。具体的には、静的分類器はデコーダモジュールの現在の復号化時刻の出力特徴
Figure 0007407968000054
を用いて、各常用文字ノードの確率得点を決定する。
静的分類器はV次元の確率分布(
Figure 0007407968000055
で表す)を出力する。
ここで、yは現在の復号化時刻tの復号化対象文字を表し、行列Wは静的分類器のモデルパラメータとし、デコーダモジュールの出力特徴
Figure 0007407968000056
の次元をMとすると、WはV*Mの行列を表し、P(y)の要素は常用文字ノードの常用文字の確率得点を表す。
分類器モジュールにおける動的に拡張可能なホットワードノードについて、その確率得点はホットワード分類器を用いて決定されてもよい。具体的には、ホットワード分類器はホットワードマッチング係数ベクトルbを用いて、各ホットワードノードの確率得点を決定してもよい。
前述した過程では、ホットワードマッチング係数ベクトルbには、各ホットワードを現在の復号化時刻の復号化対象文字とする確率が含まれるため、当該確率をそのホットワードノードの確率得点として使用することができる。
Figure 0007407968000057

ここで、
Figure 0007407968000058
はi番目のホットワードを現在の復号化時刻の復号化文字とする確率を表し、これをi番目のホットワードノードの確率得点とすることができる。0番目のホットワードが「<no-bias>」である場合は「ホットワードでない」ことを示す。iは0である場合、
Figure 0007407968000059
は復号化結果が「ホットワードでない」である確率得点を示す。
常用文字ノード及びホットワードノードの確率得点が決定された後、2種類のノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することができる。
静的分類器及びホットワード分類器の2つの分類器が同時に存在するため、どの分類器の結果を最終的な結果とするかを判定するための1つの判断器も分類器モジュールに追加してもよいことが理解される。当該判断器は、現在の復号化時刻tにホットワード分類器/静的分類器の結果を最終的な出力結果とする確率得点を表すスカラー型の確率値
Figure 0007407968000060
を出力する。
Figure 0007407968000061
で現在の復号化時刻tにホットワード分類器の結果を最終的な出力結果とする確率得点を表すことを例として説明する。
Figure 0007407968000062
は次の通りである。
Figure 0007407968000063

ここで、wはモデルパラメータであり、
Figure 0007407968000064
次元と同じの重みベクトルを示し、sig moidはニューラルネットワーク活性化関数である。
判断器は、2つの分類器から出力された確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することができる。具体的には以下を含んでもよい。
N個のホットワードにおけるi番目のホットワードノード(iの値を取る範囲は[1,N]とする)について、静的分類器から出力された確率分布におけるその得点は0であり、ホットワード分類器におけるその確率得点は
Figure 0007407968000065
であるため、最終的にその確率得点は
Figure 0007407968000066
である。V個の常用文字yについて、静的分類器から出力された確率分布におけるその得点はP(y)であり、ホットワード分類器におけるその確率得点は
Figure 0007407968000067

であるため、最終的にその確率得点は
Figure 0007407968000068
である。
本出願の別の実施例では、上記音声認識モデルの訓練方式を説明する。
本出願に係る音声認識モデルは任意のホットワードに対する認識能力を備える必要があるため、モデル訓練でホットワードを限定できないことを意味する。したがって、本出願では、訓練データのテキスト注釈からランダムに選定された注釈セグメントをホットワードとしてモデル訓練全体に参加させることができる。具体的なプロセスは以下を含んでもよい。
S1:認識テキストを注釈した音声訓練データを取得する。
ここで、音声訓練データのテキスト注釈シーケンスは次の通りである。
Y=[y,y,…,y…,y
ここで、yはテキスト注釈シーケンスにおけるt番目の文字、T+1は認識テキストの文字総数を表す。ここで、yはセンテンスの開始タグ「<s>」、yはセンテンスの終
了タグ「</s>」である。
中国語の音声認識を例とし、単一の漢字をモデリング単位とする。「歓迎来到科大訊飛」をセンテンスのテキスト内容とし、合計8個の漢字があり、センテンスの開始タグと終了タグを加えて、テキスト注釈シーケンスは合計10個の文字がある場合、テキスト注釈シーケンスは次の通りである。
Y=[< s >,歓、迎、来、到、科、大、訊、飛、</ s >]。
S2:前記音声訓練データのオーディオ特徴を取得する。
ここで、オーディオ特徴としては、フィルタバンク(Filter Bank)特徴、メル周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴などが挙げられる。
S3:前記音声訓練データの注釈テキスからランダムに選定された注釈セグメントを訓練ホットワードとする。
具体的には、本出願では、あらかじめPとNとの2つのパラメータを設定してもよい。Pはあるセンテンスの訓練データについて訓練ホットワードを選定するかどうかの確率とし、Nは選定された訓練ホットワードの最大字数とする。そうすると、訓練ホットワードとして任意のセンテンスの訓練データが選択される確率はPであり、訓練ホットワードとして当該センテンスの訓練データのテキスト注釈シーケンスから最大N個連続した文字を選定する。「歓迎来到科大訊飛」を例として、当該センテンスから訓練ホットワードを選定するときの注釈の比較は下の表に示す。
Figure 0007407968000069
ここで、上の表の第1の注釈は、「科大訊飛」が訓練ホットワードとして選定されたものであり、第2の注釈は、「科大」が訓練ホットワードとして選定されたものである。
以上からわかるように、原始注釈の「科」、「大」、「訊」、「飛」が訓練ホットワードとして選定される場合、この四つの文字を「科大訊飛」に結合し、その後ろに特殊なタグ「<bias>」を付ける必要がある。「<bias>」の役割は、訓練エラーを導入し、モデル訓練の時に訓練ホットワードに関するモデルパラメータ(ホットワードエンコーダモジュールなど)を強制的に更新することである。「科大訊飛」又は「科大」が訓練ホットワードとして選定された後、それを今回のモデル更新のための訓練ホットワードリストに追加し、ホットワードエンコーダモジュールの入力及び分類器モジュールの訓練ホットワード分類ノードとする。モデル更新を行うたびに訓練ホットワードの選定を個別に行い、初期時刻の訓練ホットワードリストは空である。
S4:前記訓練ホットワード、前記オーディオ特徴及び音声訓練データの認識テキストを用いて音声認識モデルを訓練する。
具体的には、訓練ホットワードとオーディオ特徴を訓練サンプルの入力とし、音声訓練データの認識テキストをサンプルラベルとし、音声認識モデルを訓練する。
また、本出願の実施例は音声認識装置を提供し、下記のように本出願の実施例に係る音声認識装置を説明し、下述した音声認識装置と上述した音声認識方法とは互いに参照することができる。
図6は、本出願の実施例に係る音声認識装置の構造を示し、当該音声認識装置は、
認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニット11と、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニット12と、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニット13と、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニット14とを含んでもよい。
選択肢として、上記のオーディオ関連特徴取得ユニットは、
現在の復号化時刻より前の復号化済み結果情報を取得する第1のオーディオ関連特徴取得サブユニットと、
前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定する第2のオーディオ関連特徴取得サブユニットとを含んでもよい。
選択肢として、上記のオーディオ関連特徴取得ユニット、ホットワード関連特徴取得ユニット及び認識結果取得ユニットの実現過程は音声認識モデルを用いて行われる。具体的には、あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワードシソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を得る。
ここで、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える。
具体的には、音声認識モデルは、現在の復号化時刻より前の復号化済み結果情報及びホットワードシソーラスに基づいて、オーディオ特徴から現在の復号化時刻に必要なオーディオ関連特徴を決定し、オーディオ関連特徴に基づいて、ホットワードシソーラスから現
在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、認識対象音声の現在の復号化時刻における認識結果を決定する能力を備えてもよい。
選択肢として、音声認識モデルには、オーディオエンコーダモジュール、ホットワードエンコーダモジュール、共同注意モジュール、デコーダモジュール及び分類器モジュールが含まれてもよい。
ここで、前記オーディオエンコーダモジュールが前記認識対象音声の符号化を行い、オーディオ符号化結果を得る。
具体的には、前記オーディオエンコーダモジュールで前記オーディオ特徴の符号化を行い、各フレームの音声のオーディオ特徴ベクトルからなるオーディオ特徴ベクトルシーケンスを得る。
前記ホットワードエンコーダモジュールが前記ホットワードシソーラスの各ホットワードに対して符号化を行い、ホットワード符号化結果を得る。
具体的には、前記ホットワードエンコーダモジュールで前記各ホットワードを個別に符号化し、各ホットワードを個別に符号化した後の各ホットワード特徴ベクトルからなるホットワード特徴ベクトルのシーケンスを得る。
前記共同注意モジュールは、前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る。前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む。
前記デコーダモジュールは、前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得る。
前記分類器モジュールは、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
ここで、選択肢として、前記共同注意モジュールは、
第1のアテンションモデル及び第2のアテンションモデルを含んでもよい。
前記第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する。
具体的には、前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定してもよい。
前記第2のアテンションモデルは、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定する。
具体的には、前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定してもよい。
前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する。
選択肢として、上記のホットワードエンコーダモジュールが前記各ホットワードを個別に符号化する過程は、
前記ホットワードエンコーダモジュールが設定された次元に基づいて、前記各ホットワードをそれぞれ同じ次元のホットワード特徴ベクトルに個別に符号化することを含んでもよい。
選択肢として、上記の第1のアテンションモデルは、デコーダモジュールの現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及びホットワード特徴スベクトルのシーケンスに基づいて、前記オーディオ特徴スベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定する過程は、
第1のアテンションモデルが、それぞれ前記ホットワード特徴ベクトルシーケンスにおける各ホットワード特徴ベクトルと前記状況ベクトルの組み合わせをクエリ項目とし、前記オーディオ特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、任意のホットワードと任意のフレームの音声の一致度を含むマッチング係数行列を得ることと、
前記マッチング係数行列に基づいて、前記オーディオ特徴ベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定することとを含んでもよい。
選択肢として、上記の第1のアテンションモデルは前記マッチング係数行列に基づいて、前記オーディオ特徴ベクトルシーケンスから現在の復号化時刻に必要なオーディオ関連特徴を決定する過程は、
前記マッチング係数行列に基づいて、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を決定することと、
前記マッチング係数行列及び各ホットワードを現在の復号化時刻の復号化対象文字とする確率に基づいて、各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を決定することと、
各フレームの音声を現在の復号化時刻に必要な音声内容とする確率を加重係数とし、前記オーディオ特徴ベクトルシーケンスにおける各フレーム音声のオーディオ特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なオーディオ関連特徴を得ることとを含んでもよい。
選択肢として、上記の第2のアテンションモデルは、オーディオ関連特徴に基づいて、ホットワード特徴ベクトルシーケンスから現在の復号化時刻に必要なホットワード関連特徴を決定する過程は、
第2のアテンションモデルが、前記オーディオ関連特徴をクエリ項目とし、前記ホットワード特徴ベクトルシーケンスに対してアテンションメカニズム操作を行い、各ホットワードを現在の復号化時刻の復号化対象文字とする確率を含むホットワードマッチング係数ベクトルを得ることと、
各ホットワードを現在の復号化時刻の復号化対象文字とする確率を加重係数とし、前記ホットワード特徴ベクトルシーケンスにおける各ホットワードのホットワード特徴ベクトルを重み付け及び加算し、現在の復号化時刻に必要なホットワード関連特徴を得ることとを含んでもよい。
選択肢として、また、上記の共同注意モジュールは前記ホットワードマッチング係数ベクトルを前記分類器モジュールに送信してもよい。前記分類器モジュールは、具体的に、前記デコーダモジュールの現在の復号化時刻の出力特徴及び前記ホットワードマッチング
係数ベクトルを用いて、認識対象音声の現在の復号化時刻の認識結果を決定する。
選択肢として、上記の分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含んでもよい。これに基づき、
分類器モジュールは、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定してもよい。前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定する。
具体的には、分類器モジュールはデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点を決定してもよい。
分類器モジュールは前記ホットワードマッチング係数ベクトルを用いて、前記各ホットワードノードの確率得点を決定する。
前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定する。
選択肢として、本出願の装置はまた、モデル訓練ユニットを含んでもよく、
認識テキストを注釈する音声訓練データを取得し、
前記音声訓練データのオーディオ特徴を取得し、
前記音声訓練データの注釈テキスからランダムに選定した注釈セグメントを訓練ホットワードとし、
前記訓練ホットワード、前記オーディオ特徴及び音声訓練データの認識テキストを用いて音声認識モデルを訓練するために使用される。
選択肢として、上記のデータ取得ユニットが認識対象音声のオーディオ特徴を取得する過程は、
認識対象音声の次のいずれか一つのオーディオ特徴を取得することを含んでもよい。
フィルタバンク(Filter Bank)特徴、メル周波数ケプストラム係数(MFCC)特徴、知覚的線形予測(PLP)特徴。
本出願の実施例はまた、一つの電子設備を提供する。図7は、当該電子設備の構造図を示す。当該電子設備は、少なくとも1つのプロセッサ1001、少なくとも1つの通信ポート1002、少なくとも1つのメモリ1003、少なくとも1つの通信バス1004を含んでもよい。
本出願の実施例において、プロセッサ1001、通信ポート1002、メモリ1003、通信バス1004の数が少なくとも1つであり、且つプロセッサ1001、通信ポート1002、メモリ1003は、通信バス1004を介して相互通信を行う。
プロセッサ1001は、1つの中央プロセッサCPU、又は特定用途向け集積回路ASIC(Application Specific Integrated Circuit)、又は本出願の実施例を実施するように構成されている1つ又は複数の集積回路などであり得る。
メモリ1003は、高速RAMメモリを含んでもよく、また、少なくとも1つのディスクメモリなどの不揮発性メモリ(non-volatile memory)などを含んでもよい。
このうち、メモリには、プログラムを格納し、プロセッサは、メモリに格納されるプログラムを呼び出してもよい。前記プログラムは、
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。
選択肢として、前記プログラムの詳細化機能及び拡張機能は、上記の説明を参照することができる。
本出願の実施例は、また、読取可能な記憶媒体を提供する。当該読取可能な記憶媒体は、プロセッサによって実行されるように適合されるプログラムを格納することができる。前記プログラムは、
認識対象音声及び設定されたホットワードシソーラスを取得し、
前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、
前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、
前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定するために使用される。
さらに、本出願の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の音声認識方法のうち、いずれか一つの実施形態を実行させる。
最後に、説明すべき点については、本明細書では、第一及び第二のような関係用語は、単に1つのエンティティ又は動作を別のエンティティ又は動作から区別するために使用され、これらのエンティティ又は動作の間にそのような実際の関係又は順序が存在することを必ずしも要求又は暗示するものではない。さらに、用語「備える」、「含む」又はそれらの他の変形は、排他的ではない「含む」をカバーすることを意図しており、一連の要素を含むプロセス、方法、物品又は設備が、それらの要素だけでなく、明示的に記載されていない他の要素、又はそのようなプロセス、方法、物品又は設備に固有の要素も含む。これ以上の制限がない場合には、「1つの…を含む」という文によって限定される要素は、前記要素を含むプロセス、方法、物品又は設備の中に別の同じ要素が存在することを排除しない。
本明細書中の各実施例は、漸進的に説明されており、各実施例では、他の実施例との相違点に重点を置いて説明され、各実施例が場合によって相互に結合してもよく、同一で類似している部分は互いに参照すればよい。
開示された実施例の上記の説明は、当業者が本発明を実施又は使用することを可能にする。これらの実施例に対するさまざまな修正は、当業者にとって自明であり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本発明は、本明細書で示されたこれらの実施例に限定されるのではなく、本明細書で開示された原理及び新規な特徴に一致する最も広い範囲に適合する。

Claims (16)

  1. 音声認識方法であって、
    認識対象音声及び設定されたホットワードシソーラスを取得することと、
    前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
    前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定することと、
    前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定することと、
    を含むことを特徴とする音声認識方法。
  2. 前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
    現在の復号化時刻より前の復号化済み結果情報を取得することと、
    前記復号化済み結果情報及び前記ホットワードシソーラスに基づいて、前記認識対象音声から現在の復号化時刻に必要なオーディオ関連特徴を決定することと、
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定し、前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定し、前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻における認識結果を決定するプロセスは、
    あらかじめ訓練された音声認識モデルを用いて前記認識対象音声及び前記ホットワードシソーラスを処理し、音声認識モデルから出力された認識対象音声の認識結果を取得することを含み、
    このうち、前記音声認識モデルは認識対象音声及びホットワードシソーラスを受信及び処理し、認識対象音声の認識結果を出力する能力を備える、
    ことを特徴とする請求項2に記載の方法。
  4. 前記音声認識モデルは、
    前記認識対象音声の符号化を行い、オーディオ符号化結果を得るオーディオエンコーダモジュールと、
    前記ホットワードシソーラスにおける各ホットワードの符号化を行い、ホットワード符号化結果を得るホットワードエンコーダモジュールと、
    前記オーディオ符号化結果及び前記ホットワード符号化結果を受信及び処理し、現在の復号化時刻に必要な接合特徴を得る共同注意モジュールと、
    前記現在の復号化時刻に必要な接合特徴を受信及び処理し、デコーダモジュールの現在の復号化時刻の出力特徴を得るデコーダモジュールと、
    デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定する分類器モジュールとを含み、
    前記接合特徴は、オーディオ関連特徴及びホットワード関連特徴を含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記共同注意モジュールは、
    デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定する第1のアテンションモデルと、
    前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時
    刻に必要なホットワード関連特徴を決定する第2のアテンションモデルとを含み、
    前記オーディオ関連特徴及び前記ホットワード関連特徴は、現在の復号化時刻に必要な接合特徴を組み合わせ、構成する、
    ことを特徴とする請求項4に記載の方法。
  6. 前記第1のアテンションモデルが、デコーダモジュールから現在の復号化時刻に出力された復号化済み結果情報を示す状況ベクトル及び前記ホットワード符号化結果に基づいて、前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することは、
    前記状況ベクトル、前記ホットワード符号化結果を第1のアテンションモデルの入力として、前記第1のアテンションモデルで前記オーディオ符号化結果から現在の復号化時刻に必要なオーディオ関連特徴を決定することを含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記第2のアテンションモデルが、前記オーディオ関連特徴に基づいて、前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することは、
    前記オーディオ関連特徴を第2のアテンションモデルの入力として、前記第2のアテンションモデルで前記ホットワード符号化結果から現在の復号化時刻に必要なホットワード関連特徴を決定することを含む、
    ことを特徴とする請求項5に記載の方法。
  8. 前記分類器モジュールの分類ノードは、固定の常用文字ノード及び動的に拡張可能なホットワードノードを含み、
    分類器モジュールが、デコーダモジュールの現在の復号化時刻の出力特徴を用いて、認識対象音声の現在の復号化時刻の認識結果を決定することは、
    分類器モジュールがデコーダモジュールの現在の復号化時刻の出力特徴を用いて、前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点を決定することと、
    前記各常用文字ノードの確率得点及び前記各ホットワードノードの確率得点に基づいて、認識対象音声の現在の復号化時刻の認識結果を決定することと、
    を含むことを特徴とする請求項4に記載の方法。
  9. 前記動的に拡張可能なホットワードノードと前記ホットワードシソーラスにおけるホットワードとは1対1対応する、
    ことを特徴とする請求項8に記載の方法。
  10. 前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
    認識対象音声を取得し、前記認識対象音声の会話シーンを決定することと、
    前記会話シーンに関するホットワードシソーラスを取得することと、
    を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。
  11. 前記認識対象音声及び設定されたホットワードシソーラスを取得することは、
    ヒューマンコンピュータインタラクションシーンでのユーザーからの音声を認識対象音声として取得することと、
    ヒューマンコンピュータインタラクションシーンでのユーザーの音声操作命令の操作キーワードからなるあらかじめ設定されたホットワードシソーラスを取得することと、
    を含むことを特徴とする請求項1~9のいずれか1項に記載の方法。
  12. 前記認識対象音声の認識結果に基づいて、前記認識結果に合わせたインタラクション応答を決定し、当該インタラクション応答を出力すること、
    をさらに含むことを特徴とする請求項11に記載の方法。
  13. 音声認識装置であって、
    認識対象音声及び設定されたホットワードシソーラスを取得するデータ取得ユニットと、
    前記認識対象音声及び前記ホットワードシソーラスに基づいて、現在の復号化時刻に必要なオーディオ関連特徴を決定するオーディオ関連特徴取得ユニットと、
    前記オーディオ関連特徴に基づいて、前記ホットワードシソーラスから現在の復号化時刻に必要なホットワード関連特徴を決定するホットワード関連特徴取得ユニットと、
    前記オーディオ関連特徴及び前記ホットワード関連特徴に基づいて、前記認識対象音声の現在の復号化時刻の認識結果を決定する認識結果取得ユニットと、
    を含むことを特徴とする音声認識装置。
  14. 音声認識設備であって、
    プログラムを格納するメモリと、
    前記プログラムを実行し、請求項1~12のいずれか1項に記載の音声認識方法の各ステップを実現するプロセッサと、
    を含むことを特徴とする音声認識設備。
  15. コンピュータプログラムを格納する読取可能な記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行される時に、請求項1~12のいずれか1項に記載の音声認識方法の各ステップを実現する、
    ことを特徴とする読取可能な記憶媒体。
  16. コンピュータプログラム製品であって、
    端末装置で実行される時に、前記端末装置に請求項1~12のいずれか1項に記載の方法を実行させる、
    ことを特徴とするコンピュータプログラム製品。
JP2022563214A 2020-05-18 2020-12-02 音声認識方法、装置、設備及び記憶媒体 Active JP7407968B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010418728.1 2020-05-18
CN202010418728.1A CN111583909B (zh) 2020-05-18 2020-05-18 一种语音识别方法、装置、设备及存储介质
PCT/CN2020/133286 WO2021232746A1 (zh) 2020-05-18 2020-12-02 一种语音识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023522083A JP2023522083A (ja) 2023-05-26
JP7407968B2 true JP7407968B2 (ja) 2024-01-04

Family

ID=72126794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022563214A Active JP7407968B2 (ja) 2020-05-18 2020-12-02 音声認識方法、装置、設備及び記憶媒体

Country Status (5)

Country Link
US (1) US20230186912A1 (ja)
EP (1) EP4156176A4 (ja)
JP (1) JP7407968B2 (ja)
CN (1) CN111583909B (ja)
WO (1) WO2021232746A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN112037775B (zh) * 2020-09-08 2021-09-14 北京嘀嘀无限科技发展有限公司 语音识别方法、装置、设备及存储介质
CN112489651B (zh) * 2020-11-30 2023-02-17 科大讯飞股份有限公司 语音识别方法和电子设备、存储装置
CN112634904A (zh) * 2020-12-22 2021-04-09 北京有竹居网络技术有限公司 热词识别方法、装置、介质和电子设备
CN112767917B (zh) * 2020-12-31 2022-05-17 科大讯飞股份有限公司 语音识别方法、装置及存储介质
CN112951209B (zh) * 2021-01-27 2023-12-01 中国科学技术大学 一种语音识别方法、装置、设备及计算机可读存储介质
CN113470619B (zh) * 2021-06-30 2023-08-18 北京有竹居网络技术有限公司 语音识别方法、装置、介质及设备
CN113436614B (zh) * 2021-07-02 2024-02-13 中国科学技术大学 语音识别方法、装置、设备、系统及存储介质
CN113808592A (zh) * 2021-08-17 2021-12-17 百度在线网络技术(北京)有限公司 通话录音的转写方法及装置、电子设备和存储介质
CN114005438B (zh) * 2021-12-31 2022-05-17 科大讯飞股份有限公司 语音识别方法、语音识别模型的训练方法以及相关装置
CN115631746B (zh) * 2022-12-20 2023-04-07 深圳元象信息科技有限公司 热词识别方法、装置、计算机设备及存储介质
CN117437909B (zh) * 2023-12-20 2024-03-05 慧言科技(天津)有限公司 基于热词特征向量自注意力机制的语音识别模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
US20200066271A1 (en) 2018-08-23 2020-02-27 Google Llc Key phrase spotting
US20200097604A1 (en) 2018-09-21 2020-03-26 Microsoft Technology Licensing, Llc Stacked cross-modal matching

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4520499A (en) * 1982-06-25 1985-05-28 Milton Bradley Company Combination speech synthesis and recognition apparatus
CN103310790A (zh) * 2012-03-08 2013-09-18 富泰华工业(深圳)有限公司 电子装置及语音识别方法
CN102968987A (zh) * 2012-11-19 2013-03-13 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US8719039B1 (en) * 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
CN105719649B (zh) * 2016-01-19 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN105955953A (zh) * 2016-05-03 2016-09-21 成都数联铭品科技有限公司 一种分词系统
CN109523991B (zh) * 2017-09-15 2023-08-18 阿里巴巴集团控股有限公司 语音识别的方法及装置、设备
CN109559752B (zh) * 2017-09-27 2022-04-26 北京国双科技有限公司 语音识别方法和装置
CN108228565A (zh) * 2018-01-11 2018-06-29 廖良平 一种商品信息关键词的识别方法
CN108831456B (zh) * 2018-05-25 2022-04-15 深圳警翼智能科技股份有限公司 一种通过语音识别对视频标记的方法、装置及系统
CN108899030A (zh) * 2018-07-10 2018-11-27 深圳市茁壮网络股份有限公司 一种语音识别方法及装置
CN108984529B (zh) * 2018-07-16 2022-06-03 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN110047467B (zh) * 2019-05-08 2021-09-03 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
CN110517692A (zh) * 2019-08-30 2019-11-29 苏州思必驰信息科技有限公司 热词语音识别方法和装置
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN110879839A (zh) * 2019-11-27 2020-03-13 北京声智科技有限公司 一种热词识别方法、装置及系统
CN111105799B (zh) * 2019-12-09 2023-07-07 国网浙江省电力有限公司杭州供电公司 基于发音量化和电力专用词库的离线语音识别装置及方法
CN111009237B (zh) * 2019-12-12 2022-07-01 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备及存储介质
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
US20200066271A1 (en) 2018-08-23 2020-02-27 Google Llc Key phrase spotting
US20200097604A1 (en) 2018-09-21 2020-03-26 Microsoft Technology Licensing, Llc Stacked cross-modal matching

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Golan Pundak, et al.,Deep Context: End-to-end Contextual Speech Recognition,IEEE Spoken Language Technology Workshop,2018,米国,IEEE,2018年12月18日,pp. 418-425,https://ieeexplore.ieee.org/document/8639034,<online>

Also Published As

Publication number Publication date
EP4156176A4 (en) 2024-05-08
EP4156176A1 (en) 2023-03-29
CN111583909B (zh) 2024-04-12
KR20230040951A (ko) 2023-03-23
JP2023522083A (ja) 2023-05-26
CN111583909A (zh) 2020-08-25
WO2021232746A1 (zh) 2021-11-25
US20230186912A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
JP7407968B2 (ja) 音声認識方法、装置、設備及び記憶媒体
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
Zhang et al. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM
US10437929B2 (en) Method and system for processing an input query using a forward and a backward neural network specific to unigrams
US11043205B1 (en) Scoring of natural language processing hypotheses
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US11823678B2 (en) Proactive command framework
JP7431833B2 (ja) 言語シーケンスラベリング方法、装置、プログラム及びコンピューティング機器
CN109937446A (zh) 用于端到端语音识别的极深卷积神经网络
US11081104B1 (en) Contextual natural language processing
WO2022141706A1 (zh) 语音识别方法、装置及存储介质
Deena et al. Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment
US10872601B1 (en) Natural language processing
US11289075B1 (en) Routing of natural language inputs to speech processing applications
CN112417855A (zh) 文本意图识别方法、装置以及相关设备
CN109979461B (zh) 一种语音翻译方法及装置
CN111126084A (zh) 数据处理方法、装置、电子设备和存储介质
CN112446219A (zh) 一种中文请求文本意图分析方法
CN115017900B (zh) 一种基于多模态多去偏见的对话情感识别方法
CN115204181A (zh) 文本检测方法、装置、电子设备以及计算机可读存储介质
KR102668530B1 (ko) 음성 인식 방법, 장치 및 디바이스, 및 저장 매체
US11947912B1 (en) Natural language processing
CN112735380B (zh) 重打分语言模型的打分方法及语音识别方法
US11380308B1 (en) Natural language processing
Nicolaou et al. Dialog speech sentiment classification for imbalanced datasets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231219

R150 Certificate of patent or registration of utility model

Ref document number: 7407968

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150