JP7308903B2 - ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 - Google Patents

ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7308903B2
JP7308903B2 JP2021178830A JP2021178830A JP7308903B2 JP 7308903 B2 JP7308903 B2 JP 7308903B2 JP 2021178830 A JP2021178830 A JP 2021178830A JP 2021178830 A JP2021178830 A JP 2021178830A JP 7308903 B2 JP7308903 B2 JP 7308903B2
Authority
JP
Japan
Prior art keywords
segment
speech
streaming
recognized
speech segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021178830A
Other languages
English (en)
Other versions
JP2022020724A (ja
Inventor
シャオ,ジュンヤオ
チィェン,シェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022020724A publication Critical patent/JP2022020724A/ja
Application granted granted Critical
Publication of JP7308903B2 publication Critical patent/JP7308903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本出願は、コンピュータ技術の分野に関し、特に、音声技術、深層学習技術及び自然言語処理技術の分野に関し、具体的には、ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体に関する。
音声認識とは、コンピュータを介して音声信号を対応するテキストに変換するプロセスであり、マンマシンインタラクションを実現するための主要なルートの1つである。リアルタイム音声認識とは、受信された連続的な音声に対して、音声の各セグメントを認識することにより、すべての音声の入力が完了してから認識プロセスを開始する必要がなく、認識結果をリアルタイムに取得することができる。大規模な語彙量のオンライン連続的な音声認識において、システム性能に影響を与える重要な要素は、システムの認識精度及び応答速度である。例えば、ユーザが、発話しながら認識結果のリアルタイム表示が見られることを期待するシナリオにおいて、音声認識システムは、高認識率を保持しつつ、音声信号を適時かつ迅速に復号化して認識結果を出力する必要がある。しかしながら、関連技術において、リアルタイム音声認識結果の画面表示効果には、画面表示速度が遅かったり、表示された音声認識結果が不正確だったりするなどの問題が存在する。
本出願は、ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体を提供する。
本出願の第1の態様によれば、ストリーミング音声認識結果の表示方法を提供し、入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするステップと、前記現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第1の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、前記現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示するステップと、を含む。
本出願の第2の態様によれば、ストリーミング音声認識結果の表示装置を提供し、入力されたオーディオストリームの複数の連続的な音声セグメントを取得するための第1の取得モジュールと、前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするためのシミュレーションモジュールと、前記現在の認識対象の音声セグメントが前記目標音声セグメントである場合、第1の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行い、前記現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うための特徴抽出モジュールと、前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示するための音声認識モジュールと、を含む。
本出願の第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本出願の第1の態様の実施例に記載のストリーミング音声認識結果の表示方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の第1の態様の実施例に記載のストリーミング音声認識結果の表示方法を実行させる。
本出願の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに本出願の第1の態様の実施例に記載のストリーミング音声認識結果の表示方法を実行させる。
本出願の技術によれば、従来技術におけるリアルタイム音声認識結果の画面表示効果に存在している、画面表示速度が遅かったり、表示された音声認識結果が不正確だったりするなどの問題を解決し、ストリーミング入力に対して文末をシミュレーションする方式により、ストリーミングアテンションモデルのデコーダの結果を更新し、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示効果に基づいてTTS(Text To Speech、テキスト読み上げ)リソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができる。
なお、本部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
従来技術におけるストリーミング音声認識結果の表示の例示図である。 本出願の実施例に係る音声認識の処理プロセスを示す概略図である。 本出願の一実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。 本出願の実施例に係るストリーミング音声認識結果の表示効果の例示図である。 本出願の別の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。 本出願のさらに別の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。 本出願の一実施例に係るストリーミング音声認識結果の表示装置の構成のブロック図である。 本出願の別の実施例に係るストリーミング音声認識結果の表示装置の構成のブロック図である。 本出願の実施例に係るストリーミング音声認識結果の表示方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
本出願の実施例の説明では、用語「…含む」及びそれに類似する用語は、「…含むがそれらに限定されない」という非限定の表現として理解すべきである。用語「…に基づいて」は、「少なくとも部分的に…基づいて」と理解すべきである。用語「一実施例」又は「該実施例」は、「少なくとも1つの実施例」と理解すべきである。用語「いくつかの実施例」は、「少なくともいくつかの実施例」と理解すべきである。以下では、他の明確かつ暗黙的な定義がさらに含まれ得る。
コネクショニスト時系列分類(Connectionist Temporal Classification、CTCと略称する)モデルは、大規模な語彙量の音声認識に用いられるエンドツーエンドのモデルであり、DNN(Deep Neural Networks、深層ニューラルネットワーク)+HMM(Hidden Markov Model、隠れマルコフモデル)を混合する音響モデルの構造が完全に統一されたニューラルネットワーク構造によって代替され、これによって音響モデルの構造及びトレーニングの難しさを大幅に簡略化し、音声認識システムの精度をさらに向上させる。また、CTCモデルの出力結果には、音声信号のスパイク情報が含まれ得る。
アテンション(Attention)モデルは、エンコーダ-デコーダモデルに対する拡張であり、長いシーケンスでの予測結果を向上させることができる。先ずGRU(Gate Recurrent Unit、循環ニューラルネットワークの1つ)又はLSTM(Long Short-Term Memory、長短期記憶ネットワーク)モデルを用いて、入力されたオーディオ特徴を符号化して暗黙的な特徴を取得し、続いてアテンションモデルを介してこれらの暗黙的な特徴の異なる部分に対して対応する重みを割り当て、最後にデコーダは、モデリング粒度の違いに基づいて対応する結果を出力する。このような音響と言語モデルの共同モデリングの方式は、音声認識システムの複雑度をさらに簡素化することができる。
ストリーミングマルチレイヤーの切断アテンション(Streaming Multi-Layer Truncated Attention、SMLTAと略称する)モデルは、CTC及びアテンションに基づくストリーミング音声認識モデルである。ストリーミングは、音声の小さなセグメント(必ずしも文全体ではなく)に対してフラグメントごとに直接インクリメンタル復号化できることを表す。マルチレイヤは、マルチレイヤアテンションモデルを積層することを表す。切断は、CTCモデルのスパイク情報を使用して、音声を、アテンションモデルのモデリング及び復号化が展開可能な複数の小さなセグメントに分割することを表す。SMLTAは、従来のグローバルアテンションモデリングをローカルアテンションモデリングに変換し、このプロセスもストリーミング実現可能なプロセッサであり、文の長さにも関わらず、切断することによってストリーミング復号化及び正確なローカルアテンションモデリングを実現することができ、それによりストリーミング復号化が実現される。
本出願の発明者らは、SMLTAモデルを介してストリーミング音声認識を行う場合、すべての認識結果を迅速に画面に表示するために、関連技術において、一般的に、SMLTAモデルにおけるCTCモジュールの出力結果をアテンションデコーダの出力結果とスプライシングする方式により、認識結果のストリーミング画面表示を実現することを発見した。しかしながら、SMLTAモデル自体の特性により、SMLTAモデルにおけるCTCモジュールの出力結果とアテンションデコーダの出力結果自体は、同じではなく、両者をスプライシングすると、接続点が見つからないという問題が発生し、画面表示効果が不正確で不安定になり、これにより音声インタラクションの体験に影響を与える可能性がある。例えば、図1に示すように、
Figure 0007308903000001
というオーディオコンテンツを例として、当該オーディオをSMLTAモデルを用いてリアルタイムに音声認識するときに、CTCモジュールの出力結果はエラー率がより高いため、ストリーミング画面表示の間、アテンションデコーダは、CTCモジュールに対するポスト切断に依存して復号化し、ストリーミング復号化中に、アテンションデコーダの出力長さがCTCモジュールの出力長さよりも短くなり、例えば、図1に示すように、アテンションデコーダの出力結果がCTCモジュールの出力結果よりも2文字少なく、スプライシングを行った結果は、
Figure 0007308903000002
が得られ、これにより、当該画面表示の結果は正確ではないことが分かる。
上記リアルタイム音声認識結果の画面表示効果には、画面表示速度が遅かったり、表示された音声認識結果が不正確だったりするなどの問題が往々にして存在することに対して、本出願は、ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体を提出する。本出願の実施例に係るストリーミング音声認識結果の表示方案において、ストリーミング入力に対して文末をシミュレーションする方式により、ストリーミングアテンションモデルのデコーダの結果を更新し、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させる。以下に、図2~9を参照して本出願の実施例のいくつかの例示を詳細に説明する。
図2は、本出願の実施例に係る音声認識の処理プロセス200を示す概略図である。通常、音声認識システムは、音響モデル、言語モデル及びデコーダなどのコンポーネントを含むことができる。図2に示すように、収集された音声信号210が取得された後、先ずブロック220において音声信号210に対して、後続の音響モデルなどによる処理のために、入力された音声信号210から特徴を抽出することを含む信号処理及び特徴抽出を行う。選択的に、特徴抽出プロセスには、環境ノイズ又は他の要素による特徴への影響を低減するために、いくつかの他の信号処理技術も含まれる。
図2を参照すると、特徴抽出220が完了した後、抽出された特徴をデコーダ230に入力し、デコーダ230によって処理してテキスト認識結果240を出力する。具体的には、デコーダ230は、音声から発音セグメントへの変換を実現できる音響モデル232、及び発音セグメントからテキストへの変換を実現できる言語モデル234に基づいて、最大確率で出力される音声信号のテキストシーケンスを検索する。
音響モデル232は、発音セグメントに対して音響及び言語の共同モデリングを行うために用いられ、そのモデリングユニットは、例えば、音節であってもよく、本出願のいくつかの実施例において、音響モデル232は、ストリーミングマルチレイヤーの切断アテンション(SMLTA)モデルであってもよく、ここで、SMLTAモデルは、CTCモデルのスパイク情報を使用して、音声を複数の小さなセグメントに分割して、アテンションモデルのモデリング及び復号化を各小さなセグメントで展開させることができる。このようなSMLTAモデルは、リアルタイムのストリーミング音声認識をサポートし、高い認識精度を実現することができる。
言語モデル234は、言語をモデリングするためのものである。一般的に、統計的なNグラム文法(N-Gram)を使用でき、すなわち、前後にN個の文字のが出現する確率を統計する。なお、任意の既知又は将来開発される言語モデルは、本出願の実施例と組み合わせて使用することができる。いくつかの実施例において、音響モデル232は、音声データベースに基づいてトレーニング及び/又は動作することができるが、言語モデル234は、テキストデータベースに基づいてトレーニング及び/又は動作することができる。
デコーダ230は、音響モデル232及び言語モデル234の出力認識結果に基づいて、動的に復号化することを実現することができる。ある音声認識のシナリオにおいて、ユーザがユーザ機器に発話しており、ユーザによって生じた音声(及び音)がユーザ機器によって収集され、例えば、ユーザ機器の音収集機器(例えば、マイクロフォン)によって音声を収集できる。ユーザ機器は、音声信号を収集できる任意の電子機器であってもよく、スマートフォン、タブレット、デスクトップコンピュータ、ノートパソコン、スマートウェアラブルデバイス(スマートウォッチ、スマート眼鏡など)、ナビゲーションデバイス、マルチメディアプレーヤーデバイス、教育デバイス、ゲームデバイス、スマートスピーカーなどを含むが、これらに限定されない。ユーザ機器は、収集のプロセスにおいて、音声をネットワークによってサーバにセグメント化して送信することができ、サーバは、リアルタイムかつ正確な音声認識を実現できる音声認識モデルを含み、認識完了後、認識結果をネットワークによってユーザ機器に送信することができる。本出願の実施例に係るストリーミング音声認識結果の表示方法は、ユーザ機器で実行されてもよく、サーバで実行されてもよく、又は一部がユーザ機器で実行されるが、他の一部がサーバで実行されてもよいことを理解されたい。
図3は、本出願の一実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。なお、本出願の実施例のストリーミング認識結果の表示方法は、電子機器(例えば、ユーザ機器)、又はサーバ、又はそれらの組み合わせによって実行されてもよい。図3に示すように、当該ストリーミング音声認識結果の表示方法は、以下のステップ301~304を含むことができる。
ステップ301において、入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションする。ここで、本出願の実施例において、当該文末は、オーディオストリームの入力の終了を表す。
選択的に、入力されたオーディオストリームの複数の連続的な音声セグメントが取得される場合、先ず複数の連続的な音声セグメントから目標音声セグメントを探し出してから、当該目標音声セグメントの末尾を文末としてシミュレーションすることができる。これにより、目標音声セグメントの末尾で文末をシミュレーションすることにより、現在完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙すことができ、これによってストリーミングマルチレイヤーの切断アテンションモデルにおけるアテンションデコーダが現在の完全な認識結果を適時に出力することができる。
ステップ302において、現在の認識対象の音声セグメントが目標音声セグメントである場合、第1の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。
なお、文末記号が含まれる音声セグメントの特徴抽出方式は、文末記号が含まれない音声セグメントの特徴抽出方式と異なるため、現在の認識対象の音声セグメントに対して特徴シーケンス抽出を行う場合、先に現在の認識対象の音声セグメントが目標音声セグメントであるか否かを判断し、判断結果に基づいて異なる特徴抽出方式を採用することができる。
選択的に、現在の認識対象の音声セグメントが目標音声セグメントであるか否かを判断し、現在の認識対象の音声セグメントが目標音声セグメントである場合、すなわち、現在の認識対象の音声セグメントの末尾に文末を識別するための記号が追加されている場合、当該現在の認識対象の音声セグメントをエンコーダに入力して特徴抽出を行うことができ、現在の認識対象の音声セグメントの末尾に文末記号が含まれるため、エンコーダは、当該現在の認識対象の音声セグメントの特徴シーケンスを取得するように、第1の特徴抽出方式に基づいて当該現在の認識対象の音声セグメントに対して特徴抽出を行う。
つまり、特徴シーケンスは、エンコーダが第1の特徴抽出方式を採用して現在の認識対象の音声セグメントを符号化することによって取得することができる。例えば、現在の認識対象の音声セグメントが目標音声セグメントである場合、エンコーダは、第1の特徴抽出方式に基づいて現在の認識対象の音声セグメントを、現在の認識対象の音声セグメントの特徴シーケンスである暗黙的な特徴シーケンスとして符号化する。
ステップ303において、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。
選択的に、現在の認識対象の音声セグメントが非音声セグメントであると判断された場合、すなわち、現在の認識対象の音声セグメントの末尾セグメントに文末を認識するための記号が含まれない場合、当該現在の認識対象の音声セグメントをエンコーダに入力して特徴抽出を行うことができ、現在の認識対象の音声セグメントの末尾に文末記号が含まれないため、エンコーダは、当該現在の認識対象の音声セグメントの特徴シーケンスを取得するように、第2の特徴抽出方式に基づいて当該現在の認識対象の音声セグメントに対して特徴抽出を行う。
つまり、特徴シーケンスは、エンコーダが第2の特徴抽出方式を採用して現在の認識対象の音声セグメントを符号化することによって取得することができる。例えば、現在の認識対象の音声セグメントが非音声セグメントである場合、エンコーダは、第2の特徴抽出方式に基づいて現在の認識対象の音声セグメントを、現在の認識対象の音声セグメントの特徴シーケンスである暗黙的な特徴シーケンスとして符号化する。
ステップ304において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。
本出願のいくつかの実施例において、ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類(CTC)モジュール及びアテンションデコーダを含むことができる。本出願の実施例において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力することができる。コネクショニスト時系列分類(CTC)モジュールにより現在の認識対象の音声セグメントの特徴シーケンスに対してコネクショニスト時系列分類(CTC)処理を行い、現在の認識対象の音声セグメントに関連するスパイク情報を取得し、現在の認識対象の音声セグメント及びスパイク情報に基づいて、アテンションデコーダによってリアルタイム認識結果を取得する。
一例として、コネクショニスト時系列分類モジュールにより現在の認識対象の音声セグメントの特徴シーケンスに対してコネクショニスト時系列分類(CTC)処理を行い、現在の認識対象の音声セグメントに関連するスパイク情報を取得し、取得されたスパイク情報に基づいて、現在の認識対象の音声セグメントの特徴シーケンスの切断情報を決定し、切断情報に基づいて当該現在の認識対象の音声セグメントの特徴シーケンスを複数のサブシーケンスに切断し、複数のサブシーケンスに基づいて、アテンションデコーダによってリアルタイム認識結果を取得する。
いくつかの実施例において、切断情報は、特徴シーケンスに対してコネクショニスト時系列分類(CTC)処理を行うことによって取得された、現在の認識対象の音声セグメントに関連するスパイク情報であってもよく、CTC処理は、スパイクのシーケンスを出力することができ、スパイクの間は、空白(blank)で区切るすることができ、ここで、1つのスパイクは、1つの音節(syllable)又は一群の音素(phone)、例えば、高周波数音素の組合せを表すことができる。なお、本明細書の以下の部分においてCTCスパイク情報を用いて切断情報を提供する一例として説明するが、従来又は将来開発される、入力された音声信号の切断情報を提供できるいずれかの他のモデル及び/又はアルゴリズムは、本出願の実施例と組み合わせて使用することもできる。
一例として、アテンションデコーダにより切断情報に基づいて現在の認識対象の音声セグメントの特徴シーケンス(例えば、暗黙的な特徴シーケンス)を1つ1つの暗黙的な特徴サブシーケンスに切断することができ、ここで、暗黙的な特徴シーケンスは、音声信号の特徴を表すベクトルであってもよい。例えば、暗黙的な特徴シーケンスは、直接観測して取得できないが、観測可能な変数によって決定できる特徴ベクトルを指すことができる。従来技術における固定長を使用する切断方式と異なり、本開示の実施例は、音声信号に基づいて決定された切断情報を使用して特徴切断を行い、有効な特徴部分の排除を回避することにより、高い精度を実現できる。
本出願の実施例において、現在の認識対象の音声セグメントの暗黙的な特徴サブシーケンスが取得された後、アテンションデコーダは、切断によって生成された各暗黙的な特徴サブシーケンスに対して、アテンションモデルにより認識結果を取得し、ここで、アテンションモデルは、重み付け特徴選択を実現して暗黙的な特徴の異なる部分に対して対応する重みを割り当てることができる。従来又は将来開発される、アテンション機構に基づくいずれかのモデル及び/又はアルゴリズムは、本出願の実施例と組み合わせて使用することができる。したがって、本出願の実施例は、従来のアテンションモデルに音声信号に基づいて決定された切断情報を導入することにより、切断のそれぞれに対してアテンションモデリングを実行するようにアテンションモデルを指導でき、連続的な音声認識を実現できるだけでなく、高精度を確保することもできる。
いくつかの実施例において、暗黙的な特徴シーケンスが複数のサブシーケンスに切断された後、複数のサブシーケンスのうちの第1のサブシーケンスに対して、アテンションモデルの第1のアテンションモデリングを実行し、複数のサブシーケンスのうちの第2のサブシーケンスに対して、アテンションモデルの第2のアテンションモデリングを実行することができ、ここで、第1のアテンションモデリングは、第2のアテンションモデリングと異なる。つまり、本出願の実施例は、ローカルで切断されたアテンションモデルのアテンションモデリングを可能にする。
後続のストリーミングコンピューティングの正常な進行を確保するために、選択的に、本出願のいくつかの実施例において、現在の認識対象の音声セグメントから抽出された特徴シーケンスがストリーミングマルチレイヤーの切断アテンションモデルに入力された後、ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶する。ここで、本出願の実施例において、現在の認識対象の音声セグメントが目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスがストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、ストリーミングマルチレイヤーの切断アテンションモデルに基づいて目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得し、記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、ストリーミングマルチレイヤーの切断アテンションモデルによって次の認識対象の音声セグメントのリアルタイム認識結果を取得する。
つまり、画面にストリーミング表示する前に、ストリーミングマルチレイヤーの切断アテンションモデルの現在のモデル状態を記憶することができる。ストリーミングマルチレイヤーの切断アテンションモデルによって、文末がシミュレーションされた現在の認識対象の音声セグメントの認識を完了して画面に表示する場合、記憶されたモデル状態をモデルキャッシュに復元することにより、次の認識対象の音声セグメントの音声認識時に、記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、ストリーミングマルチレイヤーの切断アテンションモデルによって、当該次の認識対象の音声セグメントのリアルタイム認識結果を取得することができる。これにより、画面にストリーミング表示する前にモデル状態を記憶することにより、次の認識対象の音声セグメントを認識するときに、記憶されたモデル状態をモデルキャッシュに復元することにより、後続のストリーミングコンピューティングの正常な進行を確保することができる。
なお、アテンションデコーダは、完全なオーディオを受信した後、完全な認識結果を出力し、ストリーミング音声のすべての認識結果をできるだけ早く画面に表示し、すなわち、アテンションデコーダの認識結果の出力速度を速くするために、本出願の実施例は、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションすることにより、現在既に完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙し、ストリーミングマルチレイヤーの切断アテンションモデル内のアテンションデコーダが現在の完全な認識結果を適時に出力することができる。例えば、図4に示すように、
Figure 0007308903000003
というストリーミング音声セグメントを例として、当該音声セグメントの末尾で現在が文末であることをシミュレーションした後、アテンションデコーダは、完全な認識結果を出力でき、この時の認識結果は、往々にして実際の認識結果により近く、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示結果に基づいてTTSリソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができる。
図5は、本出願の別の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。図5に示すように、当該ストリーミング音声認識結果の表示方法は、以下のステップ501~505を含むことができる。
ステップ501において、入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、複数の連続的な音声セグメントのうちの各音声セグメントを目標音声セグメントとして決定する。
ステップ502において、目標音声セグメントの末尾を文末としてシミュレーションする。ここで、当該文末は、オーディオストリームの入力の終了を表す。
つまり、オーディオストリームの複数の連続的な音声セグメントを取得する際、複数の連続的な音声セグメントのうちの各音声セグメントの末尾を文末としてシミュレーションすることができる。
ステップ503において、現在の認識対象の音声セグメントが目標音声セグメントである場合、第1の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。
ステップ504において、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。
ステップ505において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。
なお、上記ステップ503~ステップ505の実現方式は、上記図3におけるステップ302~304の実現方式を参照することができ、ここで説明を省略する。
本出願の実施例のストリーミング音声認識結果の表示方法によれば、ストリーミングマルチレイヤーの切断アテンションモデルは、完全なオーディオを受信するときに完全なアテンションデコーダの認識結果を出力し、そうしないと、アテンションデコーダの認識出力結果は、常にCTCモジュールの認識出力結果よりも短く、ストリーミング音声認識結果の画面表示速度を向上できるために、本出願の実施例には、画面にストリーミング表示する前に、オーディオストリームの複数の連続的な音声セグメントのうちの各音声セグメントの末尾を文末としてシミュレーションし、既に完全なオーディオが受信されたとモデルを騙し、アテンションデコーダに完全な認識結果を出力させることにより、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示効果に基づいてTTSリソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができることが提供されている。
図6は、本出願の他の実施例に係るストリーミング音声認識結果の表示方法のフローチャートである。なお、文末がシミュレーションされた現在の認識対象の音声セグメントを認識する際に、モデル状態を予め記憶し、複数回の完全な計算を行い、状態を後退する必要があり、このような計算自体は、計算量に対する消耗が大きいため、最終的な認識結果を事前に出力する(すなわち、ストリーミング音声認識結果の速度を向上させる)ことを確保するとともに、計算量の増加が制御可能な範囲内にあることも確保するために、本出願の実施例において、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントに無音データが含まれている場合、当該現在の音声セグメントの末尾を文末としてシミュレーションする。具体的には、図6に示すように、当該ストリーミング音声認識結果の表示方法は、以下のステップ601~606を含むことができる。
ステップ601において、入力されたオーディオストリームの複数の連続的な音声セグメントを取得する。
ステップ602において、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定する。
一例として、複数の連続的な音声セグメントのうちの現在の音声セグメントに対して音声アクティビティ検出を行うことができ、当該検出は、音声境界検出となり得る。主に音声セグメントにおける音声アクティビティ信号の検出に用いられ、音声セグメントデータにおいて、連続的な音声信号が存在する有効なデータ、及び音声信号データが存在しない無音データを決定する。ここで、連続的な音声信号データが存在しない無音セグメントは音声セグメント内の無効なサブセグメントである。このステップにおいて、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントによって音声境界検出を行って、当該現在の音声セグメントの末尾セグメントが無効なセグメントであるか否かを判断することができる。
本出願の実施例において、現在の音声セグメントの末尾セグメントが無効なセグメントである場合、ステップ603を実行する。現在の音声セグメントの末尾セグメントが無効なセグメントでない場合、当該現在の音声セグメントが非目標音声セグメントであると見なされ、この時、ステップ605を実行することができる。
ステップ603において、現在の音声セグメントを目標音声セグメントとして決定し、目標音声セグメントの末尾を文末としてシミュレーションし、ここで、文末は、オーディオストリームの入力の終了を表す。
ステップ604において、現在の認識対象の音声セグメントが目標音声セグメントである場合、第1の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。
ステップ605において、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。
ステップ606において、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。
なお、上記ステップ604~ステップ606の実現方式は、上記図3におけるステップ302~304の実現方式を参照することができ、ここで説明を省略する。
本出願の実施例のストリーミング音声認識結果の表示方法によれば、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定し、そうである場合、現在の音声セグメントを目標音声セグメントとして決定し、この時に、目標音声セグメントの末尾を文末としてシミュレーションすることにより、現在既に完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙し、ストリーミングマルチレイヤーの切断アテンションモデル内のアテンションデコーダが現在の完全な認識結果を適時に出力することができる。これにより、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが無音データを含むか否かという判断を追加することにより、末尾セグメントに無音データが含まれる音声セグメントを目標音声セグメントとし、すなわち、無音データが含まれる末尾セグメントにおいて文末をシミュレーションすることにより、最終的な認識結果を事前に出力する(すなわち、ストリーミング音声認識結果の速度を向上させる)とともに、計算量の増加が制御可能な範囲にあることも確保することができる。
図7は、本出願の一実施例に係るストリーミング音声認識結果の表示装置の構成のブロック図である。図7に示すように、当該ストリーミング音声認識結果の表示装置は、第1の取得モジュール701、シミュレーションモジュール702、特徴抽出モジュール703及び音声認識モジュール704を含むことができる。
具体的には、第1の取得モジュール701は、入力されたオーディオストリームの複数の連続的な音声セグメントを取得する。
シミュレーションモジュール702は、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、オーディオストリームの入力の終了を表す文末としてシミュレーションする。本出願のいくつかの実施例において、シミュレーションモジュール702は、複数の連続的な音声セグメントのうちの各音声セグメントを目標音声セグメントとして決定し、目標音声セグメントの末尾を文末としてシミュレーションする。
最終的な認識結果を事前に出力することを確保するとともに、計算量の増加が制御可能な範囲にあることも確保できるように、本出願のいくつかの実施例において、シミュレーションモジュール702は、複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定し、現在の音声セグメントの末尾セグメントが無効なセグメントである場合、現在の音声セグメントを目標音声セグメントとして決定し、目標音声セグメントの末尾を文末としてシミュレーションする。
特徴抽出モジュール703は、現在の認識対象の音声セグメントが目標音声セグメントである場合、第1の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行い、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて現在の認識対象の音声セグメントに対して特徴抽出を行う。
音声認識モジュール704は、現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示する。本出願のいくつかの実施例において、音声認識モジュール704は、コネクショニスト時系列分類モジュールに基づいて特徴シーケンスに対してコネクショニスト時系列分類処理を行い、現在の認識対象の音声セグメントに関連するスパイク情報を取得し、現在の認識対象の音声セグメント及びスパイク情報に基づいて、アテンションデコーダによってリアルタイム認識結果を取得する。
本出願のいくつかの実施例において、図8に示すように、当該ストリーミング音声認識結果の表示装置は、状態記憶モジュール805及び第2の取得モジュール806をさらに含むことができる。ここで、状態記憶モジュール805は、ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶する。ここで、現在の認識対象の音声セグメントが目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスがストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、第2の取得モジュール806は、ストリーミングマルチレイヤーの切断アテンションモデルに基づいて目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得する。音声認識モジュール804は、記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、ストリーミングマルチレイヤーの切断アテンションモデルによって次の認識対象の音声セグメントのリアルタイム認識結果を取得する。これにより、後続のストリーミング計算の正常な進行を確保することができる。
ここで、図8における801~804及び図7における701~704は、同じ機能及び構造を有する。
上記実施例における装置については、各モジュールが操作を実行する具体的な方式は、当該方法に関する実施例において詳細に説明されたので、ここで詳しく説明しない。
本出願の実施例のストリーミング音声認識結果の表示装置によれば、複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションすることにより、現在既に完全なオーディオが受信されたとストリーミングマルチレイヤーの切断アテンションモデルを騙し、ストリーミングマルチレイヤーの切断アテンションモデル内のアテンションデコーダが現在の完全な認識結果を適時に出力することができる。例えば、図4に示すように、
Figure 0007308903000004
というストリーミング音声セグメントを例として、当該音声セグメントの末尾で現在が文末であることをシミュレーションした後、アテンションデコーダは、完全な認識結果を出力でき、この時の認識結果は、往々にして実際の認識結果により近く、ストリーミング画面表示効果の信頼性を確保し、リアルタイム音声認識結果の画面表示速度を向上させることにより、ダウンストリームモジュールが画面表示結果に基づいてTTSリソースを適時にプリチャージし、音声インタラクションの応答速度を向上させることができる。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供されるストリーミング音声認識結果の表示方法を実行させる。
図9に示すように、本出願の実施例に係るストリーミング音声認識結果の表示方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限するものではない。
図9に示すように、当該電子機器は、1つ又は複数のプロセッサ901と、メモリ902と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内に実行される命令を処理することができ、当該命令は、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図9では、1つのプロセッサ901を例とする。
メモリ902は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、前記少なくとも1つのプロセッサが本出願により提供されるストリーミング音声認識結果の表示方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供されるストリーミング音声認識結果の表示方法を実行させるためのコンピュータ命令が記憶されている。
メモリ902は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるストリーミング音声認識結果の表示方法に対応するプログラム命令/モジュール(例えば、図7に示す第1の取得モジュール701、シミュレーションモジュール702、特徴抽出モジュール703及び音声認識モジュール704)のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ901は、メモリ902に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アクティベーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるストリーミング音声認識結果の表示方法を実現する。
メモリ902は、プログラムストレージエリアとデータストレージエリアとを含むことができ、プログラムストレージエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、ストリーミング音声認識結果の表示方法を実現するための電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ902は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例で、メモリ902は、プロセッサ901に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介してストリーミング音声認識結果の表示方法を実現するための電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
ストリーミング音声認識結果の表示方法を実現するための電子機器は、入力装置903と出力装置904とをさらに含むことができる。プロセッサ901、メモリ902、入力装置903、及び出力装置904は、バス又は他の方式を介して接続することができ、図9では、バスを介して接続することを例とする。
入力装置903は、入力された数字又は文字情報を受信し、ストリーミング音声認識結果の表示方法を実現するための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置904は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施する。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドユニットを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアユニットを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドユニットを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)における、管理の難しさが大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つである。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. ストリーミング音声認識結果の表示方法であって、
    入力されたオーディオストリームの複数の連続的な音声セグメントを取得し、前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするステップと、
    在の認識対象の音声セグメントが前記目標音声セグメントである場合、第1の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、
    在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うステップと、
    前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得して表示するステップと、を含み、
    前記目標音声セグメントの末尾を文末としてシミュレーションすることは、
    目標音声セグメントの末尾に、文末を識別するための記号を挿入することを含む、
    ことを特徴とするストリーミング音声認識結果の表示方法。
  2. 前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションするステップは、
    前記複数の連続的な音声セグメントのうちの各前記音声セグメントを前記目標音声セグメントとして決定するステップと、
    前記目標音声セグメントの末尾を文末としてシミュレーションするステップと、を含む、
    ことを特徴とする請求項1に記載のストリーミング音声認識結果の表示方法。
  3. 前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を文末としてシミュレーションするステップは、
    前記複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定するステップと、
    前記現在の音声セグメントの末尾セグメントが前記無効なセグメントである場合、前記現在の音声セグメントを前記目標音声セグメントとして決定するステップと、
    前記目標音声セグメントの末尾を文末としてシミュレーションするステップと、を含む、
    ことを特徴とする請求項1に記載のストリーミング音声認識結果の表示方法。
  4. 前記ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類モジュール及びアテンションデコーダを含み、
    前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力して、リアルタイム認識結果を取得するステップは、
    前記コネクショニスト時系列分類モジュールに基づいて前記特徴シーケンスに対してコネクショニスト時系列分類処理を行い、前記現在の認識対象の音声セグメントに関連するスパイク情報を取得するステップと、
    前記現在の認識対象の音声セグメント及び前記スパイク情報に基づいて、前記アテンションデコーダによって前記リアルタイム認識結果を取得するステップと、を含む、
    ことを特徴とする請求項1に記載のストリーミング音声認識結果の表示方法。
  5. 前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力するステップの後に、前記方法は、
    前記ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶するステップをさらに含み、
    前記現在の認識対象の音声セグメントが前記目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスが前記ストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、前記方法は、
    前記ストリーミングマルチレイヤーの切断アテンションモデルに基づいて前記目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得するステップと、
    前記記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、前記ストリーミングマルチレイヤーの切断アテンションモデルによって前記次の認識対象の音声セグメントのリアルタイム認識結果を取得するステップと、をさらに含む、
    ことを特徴とする請求項1~4のいずれかに記載のストリーミング音声認識結果の表示方法。
  6. ストリーミング音声認識結果の表示装置であって、
    入力されたオーディオストリームの複数の連続的な音声セグメントを取得するための第1の取得モジュールと、
    前記複数の連続的な音声セグメントのうちの目標音声セグメントの末尾を、前記オーディオストリームの入力の終了を表す文末としてシミュレーションするためのシミュレーションモジュールと、
    在の認識対象の音声セグメントが前記目標音声セグメントである場合、第1の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行い、現在の認識対象の音声セグメントが非目標音声セグメントである場合、第2の特徴抽出方式に基づいて前記現在の認識対象の音声セグメントに対して特徴抽出を行うための特徴抽出モジュールと、
    前記現在の認識対象の音声セグメントから抽出された特徴シーケンスをストリーミングマルチレイヤーの切断アテンションモデルに入力し、リアルタイム認識結果を取得して表示するための音声認識モジュールと、を含み、
    前記目標音声セグメントの末尾を文末としてシミュレーションすることは、
    目標音声セグメントの末尾に、文末を識別するための記号を挿入することを含む、
    ことを特徴とするストリーミング音声認識結果の表示装置。
  7. 前記シミュレーションモジュールが、
    前記複数の連続的な音声セグメントのうちの各前記音声セグメントを前記目標音声セグメントとして決定し、
    前記目標音声セグメントの末尾を文末としてシミュレーションする、
    ことを特徴とする請求項6に記載のストリーミング音声認識結果の表示装置。
  8. 前記シミュレーションモジュールが、
    前記複数の連続的な音声セグメントのうちの現在の音声セグメントの末尾セグメントが、無音データを含む無効なセグメントであるか否かを決定し、
    前記現在の音声セグメントの末尾セグメントが前記無効なセグメントである場合、前記現在の音声セグメントを前記目標音声セグメントとして決定し、
    前記目標音声セグメントの末尾を文末としてシミュレーションする、
    ことを特徴とする請求項6に記載のストリーミング音声認識結果の表示装置。
  9. 前記ストリーミングマルチレイヤーの切断アテンションモデルは、コネクショニスト時系列分類モジュール及びアテンションデコーダを含み、
    前記音声認識モジュールが、
    前記コネクショニスト時系列分類モジュールに基づいて前記特徴シーケンスに対してコネクショニスト時系列分類処理を行い、前記現在の認識対象の音声セグメントに関連するスパイク情報を取得し、
    前記現在の認識対象の音声セグメント及び前記スパイク情報に基づいて、前記アテンションデコーダによって前記リアルタイム認識結果を取得する、
    ことを特徴とする請求項6に記載のストリーミング音声認識結果の表示装置。
  10. 前記装置は、
    前記ストリーミングマルチレイヤーの切断アテンションモデルのモデル状態を記憶するための状態記憶モジュールをさらに含み、
    前記現在の認識対象の音声セグメントが前記目標音声セグメントであり、次の認識対象の音声セグメントの特徴シーケンスが前記ストリーミングマルチレイヤーの切断アテンションモデルに入力される場合、前記装置は、
    前記ストリーミングマルチレイヤーの切断アテンションモデルに基づいて前記目標音声セグメントに対して音声認識を行うときに記憶されたモデル状態を取得するための第2の取得モジュールをさらに含み、
    前記音声認識モジュールが、さらに、前記記憶されたモデル状態及び次の認識対象の音声セグメントの特徴シーケンスに基づいて、前記ストリーミングマルチレイヤーの切断アテンションモデルによって前記次の認識対象の音声セグメントのリアルタイム認識結果を取得する、
    ことを特徴とする請求項6~9のいずれかに記載のストリーミング音声認識結果の表示装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれかに記載のストリーミング音声認識結果の表示方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~5のいずれかに記載のストリーミング音声認識結果の表示方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1~5のいずれかに記載のストリーミング音声認識結果の表示方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021178830A 2020-11-18 2021-11-01 ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体 Active JP7308903B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011295751.2A CN112382278B (zh) 2020-11-18 2020-11-18 流式语音识别结果显示方法、装置、电子设备和存储介质
CN202011295751.2 2020-11-18

Publications (2)

Publication Number Publication Date
JP2022020724A JP2022020724A (ja) 2022-02-01
JP7308903B2 true JP7308903B2 (ja) 2023-07-14

Family

ID=74584277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021178830A Active JP7308903B2 (ja) 2020-11-18 2021-11-01 ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20220068265A1 (ja)
JP (1) JP7308903B2 (ja)
CN (1) CN112382278B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470620A (zh) * 2021-07-06 2021-10-01 青岛洞听智能科技有限公司 一种语音识别方法
CN113889076B (zh) * 2021-09-13 2022-11-01 北京百度网讯科技有限公司 语音识别及编解码方法、装置、电子设备及存储介质
CN114564564A (zh) * 2022-02-25 2022-05-31 山东新一代信息产业技术研究院有限公司 一种用于语音识别的热词增强方法、设备及介质
CN116052674B (zh) * 2022-12-19 2023-06-09 北京数美时代科技有限公司 基于预测未来帧的流式语音识别方法、系统和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013029652A (ja) 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2020112787A (ja) 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
JP6004452B2 (ja) * 2014-07-24 2016-10-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
CN107195295B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
US11126800B2 (en) * 2018-09-28 2021-09-21 Baidu Usa Llc. Systems and methods for simultaneous translation with integrated anticipation and controllable latency (STACL)
US11257481B2 (en) * 2018-10-24 2022-02-22 Tencent America LLC Multi-task training architecture and strategy for attention-based speech recognition system
WO2020146873A1 (en) * 2019-01-11 2020-07-16 Applications Technology (Apptek), Llc System and method for direct speech translation system
US11461638B2 (en) * 2019-03-07 2022-10-04 Adobe Inc. Figure captioning system and related methods
CN110136715B (zh) * 2019-05-16 2021-04-06 北京百度网讯科技有限公司 语音识别方法和装置
CN110189748B (zh) * 2019-05-31 2021-06-11 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110428809B (zh) * 2019-06-28 2022-04-26 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110534095B (zh) * 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN110995943B (zh) * 2019-12-25 2021-05-07 携程计算机技术(上海)有限公司 多用户流式语音识别方法、系统、设备及介质
CN111179918B (zh) * 2020-02-20 2022-10-14 中国科学院声学研究所 联结主义时间分类和截断式注意力联合在线语音识别技术
US11538481B2 (en) * 2020-03-18 2022-12-27 Sas Institute Inc. Speech segmentation based on combination of pause detection and speaker diarization
CN111415667B (zh) * 2020-03-25 2024-04-23 中科极限元(杭州)智能科技股份有限公司 一种流式端到端语音识别模型训练和解码方法
US12073310B2 (en) * 2020-04-01 2024-08-27 Microsoft Technology Licensing, Llc Deep neural network accelerator with independent datapaths for simultaneous processing of different classes of operations
CN111754991A (zh) * 2020-06-28 2020-10-09 汪秀英 一种采用自然语言的分布式智能交互的实现方法及其系统
US11630562B2 (en) * 2020-09-10 2023-04-18 Adobe Inc. Interacting with hierarchical clusters of video segments using a video timeline
US11527238B2 (en) * 2020-10-30 2022-12-13 Microsoft Technology Licensing, Llc Internal language model for E2E models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013029652A (ja) 2011-07-28 2013-02-07 Nippon Hoso Kyokai <Nhk> 音声認識装置および音声認識プログラム
JP2020112787A (ja) 2019-01-08 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIONG, Hao et al.,"DuTongChuan*: Context-aware Translation Model for Simultaneous Interpreting",[online],2019年08月16日,[retrieved on 2022.11.29], Retrieved from the Internet:<URL:https://arxiv.org/pdf/1907.12984v2.pdf>

Also Published As

Publication number Publication date
CN112382278B (zh) 2021-08-17
CN112382278A (zh) 2021-02-19
JP2022020724A (ja) 2022-02-01
US20220068265A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
JP7308903B2 (ja) ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体
US11373049B2 (en) Cross-lingual classification using multilingual neural machine translation
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
JP2022028887A (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
JP2021157802A (ja) テキスト生成モデルのトレーニング方法、装置及び電子機器
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
CN112542155B (zh) 歌曲合成方法及模型训练方法、装置、设备与存储介质
JP7167106B2 (ja) 口形特徴予測方法、装置及び電子機器
CN112633017B (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
JP7246437B2 (ja) 対話感情スタイル予測方法、装置、電子機器、記憶媒体及びプログラム
CN112489637A (zh) 语音识别方法和装置
JP2023165012A (ja) エンド・ツー・エンド音声認識における固有名詞認識
JP2021192119A (ja) 音声合成モデルの属性登録方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
US20220375453A1 (en) Method and apparatus for speech synthesis, and storage medium
CN112528605B (zh) 文本风格处理方法、装置、电子设备和存储介质
JP2022028897A (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
JP2022028889A (ja) 対話生成方法、装置、電子機器及び記憶媒体
CN111328416A (zh) 用于自然语言处理中的模糊匹配的语音模式
JP7204861B2 (ja) 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体
JP7510562B2 (ja) オーディオデータの処理方法、装置、電子機器、媒体及びプログラム製品
JP7268113B2 (ja) 音声認識方法、装置、電子機器及び記憶媒体
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
KR20230156795A (ko) 단어 분할 규칙화

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230704

R150 Certificate of patent or registration of utility model

Ref document number: 7308903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150