JP7264951B2 - オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7264951B2
JP7264951B2 JP2021131343A JP2021131343A JP7264951B2 JP 7264951 B2 JP7264951 B2 JP 7264951B2 JP 2021131343 A JP2021131343 A JP 2021131343A JP 2021131343 A JP2021131343 A JP 2021131343A JP 7264951 B2 JP7264951 B2 JP 7264951B2
Authority
JP
Japan
Prior art keywords
syllable
model
offline
recognition result
streaming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021131343A
Other languages
English (en)
Other versions
JP2021176022A (ja
Inventor
暁寅 付
鳴心 梁
志傑 陳
啓光 臧
正翔 蒋
遼 張
奇 張
磊 賈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021176022A publication Critical patent/JP2021176022A/ja
Application granted granted Critical
Publication of JP7264951B2 publication Critical patent/JP7264951B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

本開示は人工知能技術分野に関し、特に、音声認識、自然言語処理及びディープ・ラーニングなどの分野に関し、具体的には、オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
現在、音声認識は音声入力、音声ダイヤル、カーナビゲーションなどの様々なシーンに広く応用されている。
音声認識方式は、主にオンライン音声認識及びオフライン音声認識に分類される。ここで、オンライン音声認識は一般的に音声データを、ネットワークを介してサーバにアップロードしてデコードする必要があり、音声認識の性能はネットワーク品質の影響を深刻に受け、かつ音声データをアップロードする必要があるため、個人情報の漏洩などを引き起こしやすい。すなわち、オンライン音声認識は信頼性及びプライバシー性等の面の要求を満たすことができない。
オフライン音声認識は音声データをサーバにアップロードする必要がなく、直接に機器ローカルでデコードし、それにより信頼性及びプライバシー性等の面の要求を満たす。しかし、機器端の計算及び記憶リソース等が限られるため、一般的に認識モデルの体積を制限する必要があり、それにより音声認識結果の正確性が低いなどをもたらす。
本開示は、オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
本開示の一態様のオフライン音声認識方法は、
認識対象となる音声データを音節認識結果にデコードすることと、
前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とすることと、を含む。
本開示の一態様のオフライン音声認識装置は、
オフラインデコードモジュール及び音節変換モジュールを含み、
前記オフラインデコードモジュールは、認識対象となる音声データを音節認識結果にデコードするために用いられ、
前記音節変換モジュールは、前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とするために用いられる。
本開示の一態様の電子機器は、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが上述した方法を実行することができる。
本開示の一態様の記憶媒体は、
コンピュータに上述した方法を実行させるために用いられるコンピュータ命令を記憶している非一時的なコンピュータ読取可能である。
本開示の一態様のコンピュータプログラムは、
プロセッサにより実行される時に、上述した方法を実現する。
上述した記載における一つの実施例は、以下のような利点又は有益な効果を有する。音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を取得し、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。
この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもないと理解すべきである。本開示の他の特徴は、以下の「発明を実施するための形態」によって理解し易くなるであろう。
図面は、本技術案がよりよく理解されるためのものであり、本願に対する限定を構成しない。
図1は、本開示に記載のオフライン音声認識方法の実施例のフローチャートである。 図2は、従来のオフライン音声認識方式の概略図である。 図3は、本開示に記載の音節に基づくエンドツーエンドSMLTAモデルの構造概略図である。 図4は、本開示に記載の音節に基づくLSTM言語モデルの構造概略図である。 図5は、本開示に記載のストリーミング型のTransformerモデルの構造概略図である。 図6は、本開示に記載のオフライン音声認識の実現プロセスの概略図である。 図7は、本開示に記載のオフライン音声認識装置70の実施例の構成構造概略図である。 図8は、本開示の実施例を実施するために用いられる例示的な電子機器800を示す模式的なブロック図である。
以下、図面に合わせて本開示の例示的な実施例について説明する。その中、理解に役立つように本開示の実施例の各詳細を含み、これらはあくまで例示的なものであると理解すべきである。そのため、当業者は、本開示の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることに認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。
なお、理解すべきことは、本明細書における術語「及び/又は」は、単に関連対象の関連関係を説明するものであり、三種類の関係が存在し得ることを示す。例えば、A及び/又はBは、Aが単独で存在すること、AとBとが同時に存在すること、Bが単独で存在することという三種類の状況を表すことができる。なお、本明細書における文字「/」は、一般的に前後の関連対象が「又は」の関係であることを表す。
図1は本開示に記載のオフライン音声認識方法の実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。
ステップ101において、認識対象となる音声データを音節認識結果にデコードする。
ステップ102において、音節認識結果を対応する文字に変換し、得られた文字を音声データの音声認識結果とする。
これから分かるように、本開示の方法実施例の前記技術案において、音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節(syllable)を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を取得し、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。
認識対象となる音声データを音節認識結果にデコードする場合、具体的には、音節デコーダを利用して音声データをデコードすることができ、それにより音節認識結果を得て、ここで、音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードすることに用いられる。
好ましくは、音響モデルはエンドツーエンドのストリーミング型多層切断アテンション(SMLTA、Streaming Multi-Layer Trancated Attention)モデルであってもよく、及び/又は、言語モデルは長短期記憶ネットワーク(LSTM、Long Short Term Memory)言語モデルであってもよい。
従来のオフライン音声認識システムは一般的に音響モデル、言語モデル及びデコーダなどの三つの部分で構成される。図2に示すように、図2は、従来のオフライン音声認識方式の概略図であり、デコーダを利用して入力された音声データを言語モデル及び音響モデルに基づいてデコードすることができ、それにより音声認識結果を得て、機器端の計算及び記憶リソースが限られていることを考慮し、相対エントロピー(relative entropy)に基づく方法などを用いて言語モデルを裁断し、nグラム言語モデルを取得することができ、一般的にnグラム言語モデルの体積は数十M程度に制御され、オンライン言語認識におけるサーバ端の言語モデル体積より約1000倍減少し、言語モデルの体積を大幅に裁断することは、音声認識結果の正確性を大幅に低下させ、かつ、nグラム言語モデルを利用して認識する時にデコードの経路を拡張する必要があり、同じ発音に複数の対応可能な文字が存在するため、組み込み機器の計算リソースの要求を満たすために、認識された候補結果を裁断する必要があり、正確な認識結果は事前に裁断されやすく、それにより認識エラーを引き起こし、さらに音声認識結果の正確性等をさらに低下させる。
本開示に記載のオフライン音声認識方式において、音節に基づくニューラルネットワーク言語モデルを利用してnグラム言語モデルを代替し、モデル体積を効果的に減少させると同時に、裁断等による問題を回避し、さらに言語認識結果の正確性等を向上させる。
なお、音節に基づくニューラルネットワーク言語モデルを使用し、デコード時に音節認識結果を直接に出力し、さらに音節認識結果を対応する文字に変換し、発音から文字への変換を行う必要がなく、それによりデコーダのサーチスペースを大幅に減少させることができ、特にオフライン音声認識のデコードリソースが限られたシーンに適用し、オフライン音声認識の性能等を効果的に保証する。
前述のように、本開示に記載のオフライン音声認識方式に用いられる音響モデルは音節に基づくエンドツーエンドSMLTAモデルであってもよい。
図3は本開示に記載の音節に基づくエンドツーエンドSMLTAモデルの構造概略図である。図3に示すように、このモデルは主にエンコーダ(Encoder)、時系列類分類(CTC、Connectionist temporal classification)及びデコーダ(Decoder)の三つの部分で構成され、デコーダは音声から文字への(LAS、Listen、Attend and Spell)デコーダであってもよい。
ここで、エンコーダには畳み込み(Conv)層及びN個のLSTM+バッチ正規化(BN、Batch Normalize)層が含まれていてもよく、Nの具体的な値は実際の需要に応じて決定されてもよく、例えば5であってもよい。CTCには、一つの線形変換(Linear)層と、一つの正規化(Softmax)層とが含まれていてもよい。LASデコーダには一つのアテンション(Attention)層、M個のLSTM+層正規化(LN、Layer Normalize)層及び一つのSoftmax層が含まれていてもよく、Mの具体的な値は同様に実際の需要に応じて決定されてもよく、例えば2であってもよい。
図3に示すSMLTAモデルの入力(input)は音声データから抽出された特徴データであってもよく、出力(output)はCTC出力及びLAS出力を含み、いずれも音節デコーダに提供することができ、それにより音節デコーダはこの二つの出力結果に基づいて言語モデル等に合わせて、デコードして音節認識結果を取得する。
処理効率などを向上させるために、図3に示すエンコーダ及びデコーダにおけるLSTMは、いずれも一方向LSTMであってもよい。なお、図3に示すSMLTAモデルは低フレームレートを採用したSMLTA(light-SMLTA)モデルであってもよく、このように処理効率を向上させると同時に、音響モデルの計算量等をさらに低減することができる。
前述のように、本開示に記載のオフライン音声認識方式で使用された言語モデルは音節に基づくLSTM言語モデルであってもよい。
図4は本開示に記載の音節に基づくLSTM言語モデルの構造概略図である。図4に示すように、N個のLSTM+LSTM層が含まれていてもよく、Nの具体的な値は実際の需要に応じて決定されてもよく、二つのLSTMは同じであってもよく、異なってもよく、例えばパラメータ配置が異なってもよい。
なお、4-ビット(bit)量子化方法を用いて、LSTM言語モデルのモデル体積を圧縮することにより、LSTM言語モデルの体積をさらに低減してもよく、一般的な言語モデルに採用された32-bitの記憶構造に比べて、4-bit量子化圧縮を経た後のモデル体積は元の1/8だけになる。4-bit量子化方法の具体的な実現は従来の技術である。
音節デコーダの出力は音節認識結果であり、すなわち一つの音節シーケンスであり、一般的なユーザにとって認識できないため、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換する必要があり、即ち音節シーケンスを対応する文字シーケンスに変換する。
具体的には、音節変換モデルを採用することができ、例えばストリーミング型の変換器(Transformer)モデルを利用し、音節認識結果を対応する文字に変換する。
図5は本開示に記載のストリーミング型のTransformerモデルの構造概略図である。図5に示すように、本開示に記載のストリーミング型のTransformerモデルは標準的なTransformerモデルの構造と類似し、いずれもエンコーダ+デコーダの構造を採用し、かつ具体的な処理方式はいずれも以下のとおりである。音節認識結果は、まず入力符号化(Input Embedding)及び位置符号化(Positional Encoding)により特徴変換を行い、エンコーダのN階層カスケイド接続されたAttentionモジュール及び残差モジュールを利用して特徴符号化を行い、デコーダは履歴出力に対して同様に出力符号化(Output Embedding)及び位置符号化を行い、かつ履歴出力の符号化結果及びエンコーダ出力の特徴符号化等を結合し、M階層カスケイド接続されたAttentionモジュール及び残差モジュール等を利用して出力結果を得て、N及びMの具体的な値はいずれも実際の需要に応じて決定することができる。
図5に示すように、標準的なTransformerモデルと異なり、本開示に記載のストリーミング型のTransformerモデルにおいて、各アテンション構造にそれぞれ時間マスク(Time mask)操作を追加し、それにより前記時間マスク操作を利用してストリーミング型の音節変換を実現し、それによりデコード結果のストリーミング型出力の機能を実現する。
上記説明に基づいて、図6は本開示に記載のオフライン音声認識の実現プロセスの概略図である。
図6に示すように、オフラインデコードシステム及び音節変換システムはオフライン音声認識システムを構成し、認識対象となる音声データに対して、まずオフラインデコードシステムにおける音節デコーダにより音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードし、それにより音節認識結果を取得する。
音節デコーダはニューラルネットワーク(NN、Neural Network)言語モデルに基づく中国語・英語音節デコーダであってもよく、音響モデルは低フレームレートのエンドツーエンドのSMLTAモデルであってもよく、言語モデルはLSTMモデルであってもよく、かつ、4-bit量子化方法を用いてLSTM言語モデルのモデル体積を圧縮することができる。
図6に示すように、オフラインデコードシステムから出力された音節認識結果について、音節変換システムにおけるストリーミング型のTransformerモデルを利用して、音節認識結果を対応する文字に変換し、それにより認識対象となる音声データの音声認識結果を取得することができる。
説明すべきものとして、前述の方法実施例に対して、簡単に説明するために、それを一連の動作組合せと表記するが、当業者であれば、本開示は記述された動作順序に限定されるものではなく、本開示によれば、一部のステップは他の順序で又は同時に行うことができることを知っておくべきである。次に、当業者であれば、明細書に説明された実施例はいずれも好ましい実施例に属し、係る動作及びモジュールは必ずしも本開示に必要なものではないことも知っておくべきである。
以上は方法実施例についての説明であり、以下に装置実施例により、本開示に記載の技術案をさらに説明する。
図7は本開示に記載のオフライン音声認識装置70の実施例の構成構造概略図である。図7に示すように、オフラインデコードモジュール701と音節変換モジュール702とを含む。
オフラインデコードモジュール701は、認識対象となる音声データを音節認識結果にデコードするために用いられる。
音節変換モジュール702は、音節認識結果を対応する文字に変換し、得られた対応する文字を音声データの音声認識結果とするために用いられる。
認識対象となる音声データを音節認識結果にデコードする時に、具体的には、オフラインデコードモジュール701は音節デコーダを利用して音声データをデコードすることができ、それにより音節認識結果を取得する。ここで、音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードすることに用いられる。
好ましくは、音響モデルはエンドツーエンドのSMLTAモデルであってもよく、及び/又は、言語モデルはLSTM言語モデルであってもよい。
ここで、SMLTAモデルは低フレームレートのSMLTAモデルであってもよい。なお、オフラインデコードモジュール701はさらに4-bit量子化方法を用いてLSTM言語モデルのモデル体積を圧縮することにより、LSTM言語モデルの体積をさらに低減することができる。
音節デコーダの出力は音節認識結果であり、すなわち一つの音節シーケンスであり、一般的なユーザにとって認識できないため、認識結果の可読性を満たすために、音節変換モジュール702はさらに音節認識結果を対応する文字に変換し、即ち音節シーケンスを対応する文字シーケンスに変換する必要がある。
具体的には、音節変換モジュール702はストリーミング型のTransformerモデルを利用して、音節認識結果を対応する文字に変換することができる。
ストリーミング型のTransformerモデルは標準的なTransformerモデルの構造と類似し、異なることは、音節変換モジュール702はさらにストリーミング型のTransformerモデルにおける各アテンション構造にそれぞれ時間マスク操作を追加することにより、前記時間マスク操作を利用してストリーミング型の音節変換を実現することができることである。
図7に示す装置実施例の具体的な動作フローは前述の方法実施例における関連説明を参照し、説明を省略する。
要するに、本開示の装置実施例に記載の技術案を採用し、音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を得て、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。
本開示に記載の技術案は人工知能分野に応用することができ、特に音声認識、自然言語処理及びディープ・ラーニング等の分野に関する。
人工知能は、コンピュータに人間のある思考過程及びインテリジェント行為(例えば、学習、推論、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/ディープ・ラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
本開示の実施例によれば、本開示はさらに電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムを提供する。
図8は、本開示の実施例を実施することが可能な例示的な電子機器800を示す模式的なブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表することを意図する。電子機器はさらに様々な形式の移動装置を表することができ、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図8に示すように、電子機器800は計算ユニット801を含み、それはリードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM803において、さらに電子機器800の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット801、ROM802、およびRAM803は、バス804により相互に接続されている。バス804には、さらに、入出力(I/O)インターフェース805が接続されている。
電子機器800における複数の部品はI/Oインターフェース805に接続され、例えばキーボード、マウス等である入力ユニット806と、例えば様々なタイプのディスプレイ、スピーカ等である出力ユニット807と、例えば磁気ディスク、光ディスク等である記憶ユニット808と、例えばネットワークカード、モデム、無線通信トランシーバ等である通信ユニット809と、を含む。通信ユニット809は、電子機器800がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して、他の装置と情報/データをやり取りすることを可能にする。
計算ユニット801は、各種の処理および計算能力を有する汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット801としては、中央処理ユニット(CPU)、図形処理ユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット801は上記説明した各方法及び処理を実行し、例えば本開示に記載の方法を実行する。例えば、いくつかの実施例において、本開示に記載の方法はコンピュータソフトウェアプログラムとして実現されてもよく、それは機械読取可能な媒体、例えば記憶ユニット808に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM802及び/又は通信ユニット809を介して電子機器800にロード及び/又はインストールされる。コンピュータプログラムがRAM803にロードされ、かつ計算ユニット801により実行される場合、本開示に記載の方法の一つ又は複数のステップを実行することができる。代替として、他の実施例において、計算ユニット801は、他の任意の適切な方式により(例えば、ファームウェアによって)本開示に記載の方法を実行するように構成されてもよい。
本文で以上に説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システム・オン・チップのシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現され得る。これらの各種実施形態は、1つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この1つ又は複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び/又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とに転送してもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び/又はブロック図に規定された機能・操作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。
本開示のコンテキストにおいて、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子的なもの、磁性的なもの、光学的なもの、電磁的なもの、赤外のもの、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、1つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯コンパクトディスクリードオンリーメモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記内容の任意の適宜な組合せを含む。
ユーザとのインタラクションを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザ・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザ・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバはクラウドサーバであってもよく、クラウド計算サーバ又はクラウドホストと呼ばれ、クラウド計算サービスシステムのうちの一つのホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS)において、存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分散システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本開示に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。
上述した具体的な実施形態は、本開示の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本開示の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本開示の保護範囲内に含まれるべきである。
70 オフライン音声認識装置
701 オフラインデコードモジュール
702 音節変換モジュール
801 計算ユニット
802 ROM
803 RAM
808 記憶ユニット

Claims (11)

  1. 認識対象となる音声データを音節認識結果にデコードすることと、
    前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とすることと、を含み、
    前記音節認識結果を対応する文字に変換することは、
    ストリーミング型の変換器Transformerモデルを利用して、前記音節認識結果を対応する文字に変換することを含み、
    前記ストリーミング型のTransformerモデルを利用して、前記音節認識結果を対応する文字に変換することは、
    前記Transformerモデルにおける各アテンション構造において、それぞれ時間マスク操作を追加し、前記時間マスク操作を利用して、ストリーミング型の音節変換を実現することを含む
    オフライン音声認識方法。
  2. 前記認識対象となる音声データを音節認識結果にデコードすることは、
    音節デコーダを利用して、前記音声データをデコードし、前記音節認識結果を取得することを含み、
    前記音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して前記音声データをデコードするために用いられる、
    請求項1に記載の方法。
  3. 前記音響モデルは、エンドツーエンドのストリーミング型多層切断アテンションSMLTAモデルを含む、及び/又は、
    前記言語モデルは、長短期記憶ネットワークLSTM言語モデルを含む、
    請求項2に記載の方法。
  4. 4-ビット量子化方法を採用して、前記LSTM言語モデルのモデル体積を圧縮することをさらに含む、
    請求項3に記載の方法。
  5. オフラインデコードモジュール及び音節変換モジュールを含み、
    前記オフラインデコードモジュールは、認識対象となる音声データを音節認識結果にデコードするために用いられ、
    前記音節変換モジュールは、前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とするために用いられ、
    前記音節変換モジュールは、ストリーミング型の変換器Transformerモデルを利用して、前記音節認識結果を対応する文字に変換し、
    前記音節変換モジュールは、前記Transformerモデルにおける各アテンション構造において、それぞれ時間マスク操作を追加し、前記時間マスク操作を利用して、ストリーミング型の音節変換を実現する
    オフライン音声認識装置。
  6. 前記オフラインデコードモジュールは、音節デコーダを利用して、前記音声データをデコードし、音節認識結果を取得し、
    前記音節デコーダは、音節に基づく音響モデル及び音節に基づく言語モデルを結合して、前記音声データをデコードするために用いられる、
    請求項に記載の装置。
  7. 前記音響モデルは、エンドツーエンドのストリーミング型多層切断アテンションSMLTAモデルを含む、及び/又は、
    前記言語モデルは、長短期記憶ネットワークLSTM言語モデルを含む、
    請求項に記載の装置。
  8. 前記オフラインデコードモジュールは、さらに、
    4-ビット量子化方法を採用して、前記LSTM言語モデルのモデル体積を圧縮するために用いられる、
    請求項に記載の装置。
  9. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1~のいずれか一項に記載の方法を実行することができる、
    電子機器。
  10. コンピュータに請求項1~のいずれか一項に記載の方法を実行させるために用いられるコンピュータ命令を記憶している、
    非一時的なコンピュータ読取可能な記憶媒体。
  11. プロセッサにより実行される時に、請求項1~のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2021131343A 2020-12-23 2021-08-11 オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム Active JP7264951B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011535645.7A CN112466285B (zh) 2020-12-23 2020-12-23 离线语音识别方法、装置、电子设备及存储介质
CN202011535645.7 2020-12-23

Publications (2)

Publication Number Publication Date
JP2021176022A JP2021176022A (ja) 2021-11-04
JP7264951B2 true JP7264951B2 (ja) 2023-04-25

Family

ID=74803363

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021131343A Active JP7264951B2 (ja) 2020-12-23 2021-08-11 オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20220108684A1 (ja)
JP (1) JP7264951B2 (ja)
KR (1) KR20210124933A (ja)
CN (1) CN112466285B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667828B (zh) * 2020-05-28 2021-09-21 北京百度网讯科技有限公司 语音识别方法和装置、电子设备和存储介质
CN113220830B (zh) * 2021-04-30 2024-09-20 上海适享文化传播有限公司 无网络条件下离线语音检索产品的方法
CN113674732B (zh) * 2021-08-16 2022-05-17 北京百度网讯科技有限公司 语音置信度检测方法、装置、电子设备和存储介质
CN114220432A (zh) * 2021-11-15 2022-03-22 交通运输部南海航海保障中心广州通信中心 基于海事单边带语音自动监听方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337695A (ja) 2000-05-24 2001-12-07 Canon Inc 音声処理システム、装置、方法及び記憶媒体
JP2019159058A (ja) 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 音声認識システム、音声認識方法、学習済モデル
JP2020112787A (ja) 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US20200327881A1 (en) 2019-04-11 2020-10-15 International Business Machines Corporation Training data modification for training model
WO2020250443A1 (ja) 2019-06-14 2020-12-17 日本電信電話株式会社 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5660441B2 (ja) * 2010-09-22 2015-01-28 独立行政法人情報通信研究機構 音声認識装置、音声認識方法、及びプログラム
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
JP6637078B2 (ja) * 2016-02-02 2020-01-29 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法及びプログラム
CN112955907B (zh) * 2018-10-30 2024-07-19 谷歌有限责任公司 用于量化训练的长短期记忆神经网络的方法和系统
CN109741752A (zh) * 2018-12-27 2019-05-10 金现代信息产业股份有限公司 一种基于语音识别的人事考评方法与系统
CN111415654B (zh) * 2019-01-07 2023-12-08 北京嘀嘀无限科技发展有限公司 一种音频识别方法和装置、以及声学模型训练方法和装置
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN113470662B (zh) * 2020-03-31 2024-08-27 微软技术许可有限责任公司 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337695A (ja) 2000-05-24 2001-12-07 Canon Inc 音声処理システム、装置、方法及び記憶媒体
JP2019159058A (ja) 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 音声認識システム、音声認識方法、学習済モデル
JP2020112787A (ja) 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US20200327881A1 (en) 2019-04-11 2020-10-15 International Business Machines Corporation Training data modification for training model
WO2020250443A1 (ja) 2019-06-14 2020-12-17 日本電信電話株式会社 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム

Also Published As

Publication number Publication date
CN112466285B (zh) 2022-01-28
US20220108684A1 (en) 2022-04-07
JP2021176022A (ja) 2021-11-04
CN112466285A (zh) 2021-03-09
KR20210124933A (ko) 2021-10-15

Similar Documents

Publication Publication Date Title
JP7264951B2 (ja) オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US11417314B2 (en) Speech synthesis method, speech synthesis device, and electronic apparatus
JP7302132B2 (ja) 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体
CN113590858B (zh) 目标对象的生成方法、装置、电子设备以及存储介质
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
JP2022151649A (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
US20230004798A1 (en) Intent recognition model training and intent recognition method and apparatus
WO2023142454A1 (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN113689868B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
JP2021117989A (ja) 言語生成方法、装置及び電子機器
CN113129869B (zh) 语音识别模型的训练与语音识别的方法、装置
US20230410794A1 (en) Audio recognition method, method of training audio recognition model, and electronic device
KR20210058765A (ko) 음성 인식 방법, 장치, 전자기기 및 저장 매체
CN113468857A (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
US12073822B2 (en) Voice generating method and apparatus, electronic device and storage medium
CN114783428A (zh) 语音翻译、模型训练方法、装置、设备及存储介质
CN115357710A (zh) 表格描述文本生成模型的训练方法、装置及电子设备
CN113553413A (zh) 对话状态的生成方法、装置、电子设备和存储介质
CN112560466A (zh) 链接实体关联方法、装置、电子设备和存储介质
CN110991148B (zh) 信息处理方法及装置、信息交互方法及装置
JP2022088494A (ja) テキスト生成方法、装置、電子機器及び記憶媒体
CN115168553A (zh) 对话语句补全及模型训练方法、装置、设备和存储介质
JP2022120100A (ja) 指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーン

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230413

R150 Certificate of patent or registration of utility model

Ref document number: 7264951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150