JP7216065B2 - 音声認識方法及び装置、電子機器並びに記憶媒体 - Google Patents

音声認識方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP7216065B2
JP7216065B2 JP2020214927A JP2020214927A JP7216065B2 JP 7216065 B2 JP7216065 B2 JP 7216065B2 JP 2020214927 A JP2020214927 A JP 2020214927A JP 2020214927 A JP2020214927 A JP 2020214927A JP 7216065 B2 JP7216065 B2 JP 7216065B2
Authority
JP
Japan
Prior art keywords
syllable
vector
character
speech recognition
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020214927A
Other languages
English (en)
Other versions
JP2021189429A (ja
Inventor
リャオ・チャン
シャオイン・フー
ヂョンシャン・ジャン
ミンシン・リャン
ジュンイャオ・シャオ
チー・チャン
ヂージェ・チェン
チーグァン・ザン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021189429A publication Critical patent/JP2021189429A/ja
Application granted granted Critical
Publication of JP7216065B2 publication Critical patent/JP7216065B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/76Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data
    • G06F7/78Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data for changing the order of data flow, e.g. matrix transposition or LIFO buffers; Overflow or underflow handling therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Description

本願は、音声処理の技術分野に関し、特に、自然言語処理の技術分野に関し、具体的には、音声認識方法及び装置、電子機器並びに記憶媒体に関する。
科学技術の発展に伴い、自然言語処理NLP(Natural Language Processing)はマンマシンインタラクションにおける重要な手段であり、そのうち注意機構は、コンテキストにおける単語の重要度を効果的に捕捉し、自然言語理解タスクの有効性を向上させることができるため、人々に広く注目されている。しかし、関連技術において、注意機構を用いて音声認識を行うとき、認識精度は文の完全性に依存し、そのため、文の長さの増加に伴って認識における計算量は爆発的に増加し、認識速度に大きい影響を与える。
本開示は、音声認識方法及び装置、電子機器並びに記憶媒体を提供する。
本開示の第1の態様により提供される音声認識方法は、
認識待ちオーディオデータを取得するステップと、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するステップ(前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するステップ)と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するステップと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するステップと、を含む。
本開示の第2の態様により提供される音声認識装置は、
認識待ちオーディオデータを取得するための第1の取得モジュールと、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するための第2の取得モジュール(前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するための第2の取得モジュール)と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュールと、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュールと、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュールと、を含む。
本開示の第3の態様により提供される電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに接続されるメモリと、を含み、ただし、
前記メモリは前記少なくとも1つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは上記第1の態様に記載の音声認識方法を実行することができる。
本開示の第4の態様により、コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータコマンドが実行される場合、上記第1の態様に記載の音声認識方法が実行される。
本開示の第5の態様により、コンピュータプログラムが提供され、前記コンピュータプログラムにおける命令が実行された場合に、上記第1の態様に記載の音声認識方法が実行される。
本願の技術によれば、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。
本節に記載されるものは、本開示の実施例の肝要又は重要な特徴を特定するものではなく、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は以下の明細書により容易に理解される。
図面は本解決手段をよく理解するためのものであり、本願を限定するものではない。ここで、
本願の実施例にて提供される音声認識方法のフローチャートである。 本願の実施例にて提供される音声認識方法の原理模式図である。 本願の実施例にて提供される別の音声認識方法のフローチャートである。 本願の実施例にて提供されるさらに別の音声認識方法のフローチャートである。 本願の実施例にて提供される音声認識方法の符号化原理模式図である。 本願の実施例において用いるtransformerモデルにおける符号化器(エンコーダ)の構成模式図である。 本願の実施例にて提供されるさらに別の音声認識方法のフローチャートである。 本願の実施例にて提供されるさらに別の音声認識方法のフローチャートである。 本願の実施例にて提供される音声認識装置のブロック図である。 本願の実施例にて提供される音声認識装置のブロック図である。 本願の実施例の音声認識方法を実現するための電子機器のブロック図である。
本願の実施例の様々な詳細が理解を助けるために含まれている添付の図面を参照して、本願の例示的な実施例を以下に説明する。したがって、当業者であれば、本願の範囲及び精神から逸脱することなく、本明細書に記載の実施例に様々な変更及び補正を加えることができることを認識するであろう。また、以下の説明では、明確性及び簡潔性のために、周知の機能及び構造の説明を省略する。
以下、図面を参照しながら、本願の実施例の音声認識方法及び装置、電子機器並びに記憶媒体について説明する。
図1は本願の実施例にて提供される音声認識方法のフローチャートである。なお、本例の音声認識方法の実行主体は音声認識装置であり、音声認識装置は、いかなる限定もせず、例えばPC(Personal Computer、パーソナルコンピュータ)、タブレットコンピュータ、パームトップコンピュータ又は携帯端末などマンマシンインタラクション機能を有する電子機器、又は他のマンマシンインタラクション機能を有するハードウェア装置におけるソフトウェアなどとして設置することができる。
図1に示すように、本願の実施例の音声認識方法は、以下のステップ101~ステップ105を含む。
ステップ101において、認識待ちオーディオデータを取得する。
ただし、オーディオデータを取得するとき、マンマシンインタラクション機能を有する電子機器の収音装置によってリアルタイムに録音してもよいし、ローカル又は遠隔記憶領域に予め記憶されたオーディオデータを取得してもよい。
ステップ102において、オーディオデータを復号(デコード)し、現在の変換待ち文字の第1の音節を取得する。
ただし、第1の音節は文字に対応する少なくとも1つの音素の組み合わせである。
なお、音素は音声の自然属性に基づいて区分される最小音声単位であり、1つの動作は1つの音素を構成し、少なくとも1つの音素は組み合わせて1つの音節を構成し、例えば、漢字の「哦(中国語)」の音節は1つの音素「o」で構成され、漢字の「愛(中国語)」の音節は「a」と「i」の2つの音素で構成され、漢字の「我(中国語)」の音節は「w」と「o」の2つの音素で構成される。
なお、音響モデル及び言語モデルで構成される復号空間において最適なパスを探すことにより、変換待ち文字の第1の音節を確定することができる。
本願の実施例において、オーディオデータに対する復号はストリーム復号であり、すなわち、変換待ち文字の第1の音節を1つずつ取得するように、オーディオデータにおけるオーディオに対して復号を一字ずつ行うことを理解されたい。つまり、本願は、後続する符号化モジュール及び復号モジュールが一字ずつ分析することを可能にして、ストリーム音声文字変換を実現するように、オーディオデータに対して復号を行って音節を取得するとき、1つの音節を認識するたび、後続する符号化モジュールに1つの音節を入力すべきである。
ステップ103において、変換待ち文字が所属する所属文及び所属文における変換済み文字を取得し、変換済み文字の第2の音節を取得する。
なお、本願において、音節文字変換は自己注意機構を用いて実現され、ただし、自己注意機構の核心はテキストにおける他の単語で目標単語の意味表現を強化することであり、つまり、変換待ち文字にとって、変換待ち文字の所属文における変換待ち文字の前の文字は変換待ち文字の意味に対して一定の影響を有し、したがって、変換待ち文字の意味を認識するために、変換待ち文字の所属文における変換待ち文字の前の文字の第2の音節を取得し、取得した第2の音節を変換待ち文字の第1の音節と結び付ける必要がある。
また、本願はストリーム音声文字変換の処理方式を用い、すなわち、変換待ち文字の前の音節はいずれも音声文字変換を完了し、したがって、変換待ち文字の前の文字は変換済み文字と呼ばれ、すなわち、変換待ち文字の所属文における変換済み文字の第2の音節を直接取得できる。
ただし、変換待ち文字の所属文は、言語習慣の休止時間に基づいて認識でき、例えば、上記復号過程において、各音節と前の音節との間の休止時間を判断することにより各音節が前の音節と同一の文に属するか否かを確定することができ、好ましくは、休止時間が第1のプリセット時間より大きいか否かを判断し、休止時間が第1のプリセット時間以上であれば、現在の音節は文頭の文字であると確定する。
前の音節と現在の音節はそれぞれ2つの文に属し、現在の音節の所属文に変換済み文字がなく、休止時間が第1のプリセット時間より小さければ、現在の音節は文頭の文字ではないと確定し、現在の音節と前の音節は同一の文に属し、前の音節に対応する文字は現在の音節の所属文における変換済み文字であり、現在の音節の所属文の文頭の文字を取得し、前の音節から文頭の文字までの全ての変換済み文字の第2の音節を取得するまで、前の音節に基づいて文頭の文字の判断を行うことを続け、また、例えば、ある音節を文頭の文字として認識するとき、当該音節の前段に開始文字を設定し、好ましくは、開始文字は<begin>とすることができ、現在の音節と開始文字との間における全ての第2の音節を取得する。
別の実施可能な実施例として、変換済み文字の意味に基づいて、現在の音節が前の音節と同一の文に属するか否かを判断することもでき、例えば、意味に基づいて、前の音節が文尾の文字であると判断すれば、現在の音節は文頭の文字であると確定し、意味に基づいて、前の音節が文頭の文字ではないと判断すれば、現在の音節と前の音節が同一の文に属すると確定する。
ステップ104において、第1の音節の第1の符号情報を生成するように、変換待ち文字の第1の音節及び変換済み文字の第2の音節に基づいて符号化(エンコード)する。
ステップ105において、変換待ち文字に対応する文字を取得するように、第1の符号情報を復号する。
つまり、本願の実施例において、変換待ち文字の第1の音節及び変換済み文字の第2の音節に基づいて符号化することにより、第1の符号情報には第1の音節の前の変換済み文字による第1の音節に対応する文字への影響が含まれることになり、第1の符号情報を復号することにより、前文内容の影響に基づいて復号される文字を得ることができる。
例を挙げると、図2に示すように、1つの文における各文字を時間系列に従って第1の音節201に復号し、当該音節の前の変換済み文字に対応する第2の音節202を取得し、符号化により第1の音節の第1の符号情報203を取得し、第1の符号情報203を復号して変換待ち文字に対応する文字204を得る。例えば、t1時刻で、第1の音節201「tian」を取得し、当該第1の音節201の変換済み文字の第2の音節202は「jin」であり、t2時刻で、第1の音節201「ni」を取得し、当該第1の音節201の変換済み文字の第2の音節202は「jintian」であり、t3時刻で、第1の音節201「zhen」を取得し、当該第1の音節201の変換済み文字の第2の音節202は「jintianni」であり、t4時刻で、第1の音節201「shuai」を取得し、当該第1の音節201の変換済み文字の第2の音節202は「jintiannizhen」である。
これにより、本願は、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。
前の実施例をさらに明確に説明するために、図3に示すように、上記ステップ104における第1の音節の第1の符号情報を生成するように、変換待ち文字の第1の音節及び変換済み文字の第2の音節に基づいて符号化することは、以下のステップ301~ステップ302を含む。
ステップ301において、第1の音節及び第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出する。
なお、単語埋め込みベクトルは音節を数学的に処理可能なベクトル方式で表現するものであり、事前にトレーニングされた音節-単語埋め込みベクトルのモデルのうち、例えばWord2Vec、Glove又はtransformerを用いて、各音節の単語埋め込みベクトルをそれぞれ取得することができる。
変換待ち文字にとって、変換待ち文字が文頭の文字ではないとき、その所属文の変換済み文字は少なくとも1つとすることができ、すなわち、変換済み文字は複数とすることができ、第2の音節は各変換済み文字の第2の音節とすることができ、すなわち、第2の音節の単語埋め込みベクトルを取得するときに、各第2の音節に対して、対応する単語埋め込みベクトルを取得することができ、変換待ち文字が文頭の文字であるとき、その所属文に変換済み文字がないため、実際の第2の音節がなく、このとき、ゼロベクトルを第2の音節の単語埋め込みベクトルとすることができることを理解されたい。文の文字含有量が多い場合、先端の変換済み文字による第1の音節への影響が小さく、すなわち、第2の音節による第1の音節への影響程度は第1の音節と第2の音節との間の距離に関連することができ、したがって、計算量をさらに低減させるために、さらに第1の音節の前の予め設定された数の第2の音節、及び当該予め設定された数の第2の音節の単語埋め込みベクトルのみを取得することができることをさらに理解されたい。
ステップ302において、第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成する。
つまり、本願は、まず音節を数学的に変換可能な単語埋め込みベクトルに変換し、変換待ち文字の意味の正確性を保証するために、変換済み文字及び変換待ち文字の単語埋め込みベクトルに基づいて符号化し、さらに、第1の音節に対応する第1の符号情報を取得することができる。
これにより、本願は、単語埋め込みベクトルによって音節データを数学的に処理可能なベクトル情報に変換し、それにより、第1の音節に対する符号化を容易にする。
なお、本願において、1つずつ認識された音節を符号化し、したがって、現在認識される変換待ち文字の第1の音節を符号化する前に、すでに前の変換済み文字に対して符号化処理を行ったことがあり、また、変換待ち文字は前の変換済み文字の符号情報に影響を与えることがなく、したがって、本願において、変換済み文字の符号情報の上で、第1の音節の符号情報を直接生成することができる。
好ましくは、本願において、トレーニングされた音声文字変換モデルを用いて第1の音節に対して符号化及び復号を行うことができ、ただし、音声文字変換モデルの符号化コンポーネントは前の音節の符号化状態を保存し、さらに、第1の音節を符号化するときに、音声文字変換モデルはその符号化コンポーネントにキャッシュされた変換済み文字の符号化状態を多重化することができ、すなわち、第1の音節を符号化するときに、保存された符号化状態をキャッシュから直接読み取り、第1の音節の符号化増分及び前の音節の符号情報をスティッチングして、第1の音節の第1の符号情報を得て、それにより、第1の音節を符号化するときに、変換済み文字の符号内容を繰り返し計算する必要がなく、音節文字変換の速度を大幅に向上させる。
以下、音声文字変換をモデルとし、上記ステップ302における、第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成することについて解釈し説明し、図4に示すように、上記ステップ302は以下のステップ401~ステップ403を含む。
ステップ401において、第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の音節の第1のクエリベクトル及びキーベクトルを生成する。
1つの実施可能な実施例として、第1の音節の単語埋め込みベクトルによって第1の音節の第1のクエリベクトルを構成し、各第2の音節の単語埋め込みベクトルによって第2の音節の第2のクエリベクトルを構成し、そして、第1のクエリベクトル及び第2のクエリベクトルをスティッチングして、キーベクトルを生成する。
ステップ402において、第1のクエリベクトル及びキーベクトルに基づいて、第1の音節の符号化増分を生成する。
1つの実施可能な実施例として、第1のクエリベクトル及びキーベクトルに基づいて、第1の音節の自己注意重み行列を生成し、第1の音節及び第2の音節に基づいて、第1の音節の値ベクトルを生成し、そして、自己注意重み行列に基づいて、値ベクトルに対して重み付けをして、符号化増分を生成する。
さらに、第1のクエリベクトル及びキーベクトルに基づいて、第1の音節の自己注意重み行列を生成することは、キーベクトルの転置ベクトルを取得し、第1のクエリベクトル及び転置ベクトルを乗算して、第1の行列を生成し、そして、第1の行列に対して正規化処理を行って、自己注意重み行列を生成することを含む。
ステップ403において、符号化増分及び第2の音節の第2の符号情報に基づいて、第1の符号情報を生成する。
1つの実施可能な実施例として、符号化増分及び第2の符号情報をスティッチングして、第1の符号情報を取得する。
つまり、本願の実施例において、第1の音節のクエリベクトルは初期の増分であり、符号化過程において、第1の音節の増分及びすでに保存された第2の音節の符号化過程における状態データ、例えばキーベクトル、値ベクトルをスティッチングすることにより、第2の音節に対する繰り返し処理を必要としない第1の音節に対する符号化過程を実現する。
例を挙げると、図5に示すように、現在の時刻Tで入力される第1の音節501に対応する単語埋め込みベクトルを取得してクエリベクトルQ=x{T}とし、第1の音節のクエリベクトル及び所属文の第1の時刻T=1から前の時刻T-1までの各第2の音節のクエリベクトルをスティッチングし、第1の音節のキーベクトルK=x{1,2,…,T-1,T}とする。ただし、値ベクトルとキーベクトルは同じで、V=x{1,2,…,T-1,T}である。
続いて、第1の音節のクエリベクトルQ及びキーベクトルKの転置Kを点乗積して、各第2の音節による第1の音節への影響の重みを取得して、第1の行列とし、次に、第1の行列に対して正規化処理を行って、自己注意重み行列を得て、すなわち、複数の第2の音節による第1の音節への影響の重みの和を1とする。
好ましくは、以下の式を用いて自己注意重み行列を取得する。
Figure 0007216065000001
ただし、dはQ,K行列の列数、すなわち、ベクトルの次元である。
さらに、第1の音節は符号化過程全体の原始増分であるため、クエリベクトルQに基づく演算結果も増分であり、例えば、図5に示すように、第1の音節のクエリベクトルQ及びキーベクトルKに基づいて生成された第1の音節の符号化増分502である。
なお、図5に示す行列構造から分かるように、変換待ち文字の後の文字による影響を考慮する必要がないため、取得した完全な第1の音節の符号情報は対角行列構造であり、実際には、現在の時刻における第1の音節による符号情報への影響は行列の最後の行、すなわち符号化増分502の箇所のみにあるため、本願は、第2の音節の符号情報の多重化を提供することで、符号化コンポーネントが増分部分のみを計算すればよいことになり、正確性を保証する場合で音声文字変換の効率を効果的に向上させる。
これから分かるように、本願は、各変換待ち文字の第1の音節のクエリベクトル、及びスティッチングして生成されたキーベクトルを計算することによって第1の音節の符号化増分を得て、そして、符号化増分及び各変換済み文字の符号化増分をスティッチングすることによって第1の符号情報を得て、すなわち、変換済み文字の符号情報の多重化で計算生成過程を入れ替わり、それにより、音節文字変換の効率を効果的に向上させ、音声翻訳の速度を向上させる。
さらに、transformerモデルにおける符号化器(エンコーダ)の構造について紹介し、図6に示すように、符号化器601はN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、第1から第Nの符号化コンポーネントは順次接続される。
第1の符号化コンポーネント602において、第1の音節の単語埋め込みベクトルに基づいて、第1のクエリベクトルを生成し、第1のクエリベクトル及び各第2の音節の第2のクエリベクトルをスティッチングし、第1の音節のキーベクトルを取得する。
第iの符号化コンポーネント603において、第1の符号化コンポーネントが取得した第1の音節の符号化増分を現在の符号化コンポーネントにおける第1の音節の第1のクエリベクトルとし、前の符号化コンポーネントが取得した第1の音節の第1の符号情報を現在の符号化コンポーネントにおける第1の音節のキーベクトルとする。ただし、iは1より大きく、かつN以下の正の整数である。
ただし、現在のtransformerモデルは、一般的に、6つの符号化コンポーネントを有する符号化器(エンコーダ)を用いる。
1つの実施可能な実施例として、図7に示すように、音声認識方法は、第1の音節に対応する文字を取得した後、以下のステップ701~ステップ702をさらに含む。
ステップ701において、変換待ち文字に対応する文字に基づいて、第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成する。
ステップ702において、第3の表示情報に基づいてオンスクリーン表示を行う。
つまり、本願は、ストリーム音節文字変換、すなわち1つずつの音節文字変換に基づいて、一字ずつのオンスクリーン表示を実現することができ、すなわち、現在の変換待ち文字に対応する文字の第1の表示情報、及び変換が済み、オンスクリーンにした第2の表示情報をスティッチングし、第3の表示情報を生成し、第3の表示情報をオンスクリーン表示させ、それにより、変換-オンスクリーンのつながりを実現することができ、ユーザはオーディオデータに対してストリーム変換を行う効果を明らかに感じることができる。
1つの実施可能な実施例として、第3の表示情報に対して意味分析を行い、所属文の文字含有量を予測し、予測した文字含有量に基づいて、第3の表示情報のスクリーンでの表示位置を確定し、第3の表示情報を表示位置で表示させるように制御する。
なお、異なる表示領域における各行に表示されるバイト数が固定され、異なる文字数を表示する場合、通常、文字数の増加に伴って文字ピッチを自動的に調節し、オンスクリーン表示の内容が行末にあるとき、絶えず調節する状態が発生しやすく、ユーザの閲覧体験に影響を与え、そのため、本願はオンスクリーン表示の前に音声分析を追加することによって所属文の文字含有量を確定し、それにより第3の情報のスクリーンでの表示位置を確定し、行末におけるスクリーンの点滅などの効果の発生を防止する。
別の実施可能な実施例として、前記第3の表示情報における文字含有量を取得し、前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節する。
つまり、第3の表示情報を生成するときに、現在の第3の表示情報の文字含有量を取得し、第3の表示情報の文字含有量に基づいて文字ピッチを確定し、オンスクリーン表示のときに確定された文字ピッチに従って表示することができる。
1つの実施可能な実施例として、図8に示すように、上記ステップ102における、オーディオデータを復号し、現在の変換待ち文字の第1の音節を取得することは以下のステップ801~ステップ803を含む。
ステップ801において、音響モデルを用いてオーディオデータの第1の音節の第1の候補事後確率を取得する。
ステップ802において、音声モデルを用いてオーディオデータの第1の音節の第2の候補事後確率を取得する。
ステップ803において、第2の候補事後確率に基づいて第1の候補事後確率を切り出し、確率の最も大きい第1の音節を取得する。
なお、音響モデルの入力は音声特徴であり、第1の候補事後確率は音節事後確率であり、音声モデルの入力は音節列であり、第2の候補事後確率は音節列が現れる確率であり、ただし、音節事後確率及び音節列事後確率はいずれも変換待ち文字の音節情報を示すことができ、表現形式のみが異なる。さらに、2つの事後確率うち確率が最も大きく、かつ重ね合わせる音節を変換待ち文字の第1の音節とする。
以上をまとめると、本願の技術によれば、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。
図9は本願の実施例にて提供される音声認識装置のブロック図である。図9に示すように、音声認識装置10は、
認識待ちオーディオデータを取得するための第1の取得モジュール11と、
前記オーディオデータを復号し、第1の音節であって文字に対応する少なくとも1つの音素の組み合わせである現在の変換待ち文字の第1の音節を取得するための第2の取得モジュール12と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュール13と、
前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュール14と、
前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュール15と、を含む。
いくつかの実施例において、前記符号化モジュール14は、
前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するための第1の取得ユニットと、
前記第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成するための符号情報生成ユニットと、を含む。
いくつかの実施例において、前記符号情報生成ユニットは、
前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するための第1の生成サブユニットと、
前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するための第2の生成サブユニットと、
前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するための第3の生成サブユニットと、を含む。
いくつかの実施例において、前記第2の生成サブユニットは、
前記第1のクエリベクトル及び前記キーベクトルに基づいて、自己注意重み行列であって前記自己注意重み行列における重み値が音節間の相関程度を特徴付けるために用いられる前記第1の音節の自己注意重み行列を生成するための第1の生成コンポーネントと、
前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するための第2の生成コンポーネントと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第3の生成コンポーネントと、を含む。
いくつかの実施例において、前記第2の音節は複数であり、前記第1の生成サブユニットは、
前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するための第4の生成コンポーネントと、
各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するための第5の生成コンポーネントと、
前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第6の生成コンポーネントと、を含む。
いくつかの実施例において、前記第1の生成コンポーネントは、
前記キーベクトルの転置ベクトルを取得し、
前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成し、また、
前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる。
いくつかの実施例において、前記第3の生成サブユニットは、
前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得するために用いられる。
いくつかの実施例において、前記符号化モジュールはN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、前記第1から第Nの符号化コンポーネントは順次接続され、
前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するために用いられ、
第iの符号化コンポーネントにおいて、前記第1の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするために用いられ、ただし、iは1より大きく、かつN以下の正の整数である。
いくつかの実施例において、前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、さらに、前記第1のクエリベクトル及び各前記第2の音節の第2のクエリベクトルをスティッチングし、前記第1の音節のキーベクトルを取得するために用いられ、
第iの符号化コンポーネントにおいて、前記第1の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするために用いられ、ただし、iは1より大きく、かつN以下の正の整数である。
いくつかの実施例において、図10に示すように、音声認識装置10は、さらに、
前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するための第1の生成モジュール16と、
前記第3の表示情報に基づいてオンスクリーン表示を行うための表示モジュール17と、を含む。
いくつかの実施例において、前記表示モジュール17は、
前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定し、
前記第3の表示情報を前記表示位置で表示させるように制御するために用いられる。
いくつかの実施例において、前記表示モジュール17は、
前記第3の表示情報における文字含有量を取得し、
前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するために用いられる。
いくつかの実施例において、前記第2の取得モジュール12は、
音響モデルを用いて前記オーディオデータの前記第1の音節の第1の候補事後確率を取得し、
音声モデルを用いて前記オーディオデータの前記第1の音節の第2の候補事後確率を取得し、
前記第2の候補事後確率に基づいて前記第1の候補事後確率を切り出し、確率の最も大きい前記第1の音節を取得するために用いられる。
なお、前述した音声認識方法の実施例についての解釈及び説明は当該実施例の音声認識装置にも適用し、ここで重複する説明は省略する。
本願の技術によれば、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。
本願の実施例によれば、本願は電子機器及び読み取り可能な記憶媒体をさらに提供する。
図11に示すように、本願の実施例による音声認識方法の電子機器のブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータを表すことを意図する。電子機器はさらに、様々な形態の移動体装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティングデバイスを表すことができる。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本願の実施を限定することを意図しない。
図11に示すように、当該電子機器は、1つ又は複数のプロセッサ1101と、メモリ1102と、高速インタフェース及び低速インタフェースを含んで、各構成要素を接続するために用いられるインタフェースとを含む。各構成要素は異なるバスによって相互接続され、共通のマザーボード上に実装され、又は必要に応じて他の方式で実装され得る。プロセッサは、GUIのグラフィック情報を外部入力/出力装置(例えば、インタフェースに結合された表示機器)上に表示するようにメモリ内又はメモリ上に記憶されたコマンドを含む電子機器内で実行されるコマンドを処理することができる。他の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。また、複数の電子機器が接続され、それぞれの機器が必要な動作の一部を提供する(例えば、サーバアレイ、ブレードサーバ群、マルチプロセッサシステムとする)。図11において1つのプロセッサ1101を例とする。
メモリ1102は、本願にて提供される非一時的コンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは少なくとも1つのプロセッサで実行可能なコマンドを記憶していることで、前記少なくとも1つのプロセッサは本願にて提供される音声認識方法を実行する。本願の非一時的なコンピュータ読み取り可能な記憶媒体はコンピュータコマンドを記憶し、当該コンピュータコマンドはコンピュータに本願にて提供される音声認識方法を実行させるために用いられる。
メモリ1102は非一時的なコンピュータの読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータの実行可能なプログラム及びモジュール、例えば本願の実施例における音声認識方法に対応するプログラムコマンド/モジュール(例えば、図9に示す第1の取得モジュール11、第2の取得モジュール12、第3の取得モジュール13、符号化モジュール14及び復号モジュール15)を記憶するために用いることができる。プロセッサ1101はメモリ1102に記憶された非一時的なソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声認識方法を実現する。
メモリ1102はプログラム記憶領域とデータ記憶領域とを含んでもよく、ただし、プログラム記憶領域はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は音声認識方法の電子機器の利用に応じて作成されるデータなどを記憶することができる。さらに、メモリ1102は、高速ランダムアクセスメモリを含んでもよく、さらに、非一時的メモリ、例えば少なくとも1つの磁気ディスク記憶装置、フラッシュメモリデバイス、又は他の非一時的ソリッドステート記憶装置を含んでもよい。いくつかの実施形態において、メモリ1102は、任意選択的に、プロセッサ1101に対して遠隔に配置されたメモリを含み、これらの遠隔メモリはネットワークを介して音声認識方法の電子装置に接続することができる。上記ネットワークの例はインターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びその組み合わせを含むが、これらに限定されない。
音声認識方法の電子機器は、さらに、入力装置1103及び出力装置1104を含んでもよい。プロセッサ1101、メモリ1102、入力装置1103及び出力装置1104は、バス又は他の方式によって接続することができ、図11においてバスによる接続を例とする。
入力装置1103は、入力された数字又は文字情報を受信し、音声認識方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置1104は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
本出願の実施例によれば、コンピュータプログラムをさらに提供する。前記コンピュータプログラムにおける命令が実行された場合、本出願の実施例の音声認識方法が実行される。
本明細書に記述されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現される。これらの様々な実施形態は、専用又は汎用のプログラマブルプロセッサであり得、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を送信することができる少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈され得る1つ以上のコンピュータプログラム内で実施されることを含んでもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語でこれらのコンピュータプログラムを実行することができる。本明細書で使用される用語の「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理機器(PLD))を指し、機械読み取り可能な信号として機械命令を受け取る機械読み取り可能な媒体を含む。用語の「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。
ユーザとの対話機能を提供するために、ここで説明されているシステムと技術は、コンピュータで実行されてもよく、当該コンピュータは、ユーザに情報を表示する表示装置(例えばCRT(陰極線管)やLCD(液晶ディスプレイ)モニター)、及びキーボードやポインティング装置(例えばマウスやトラックボール)を有し、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を行うことができる。他の種類の装置はユーザとの対話機能を提供するために用いることができ、例えば、ユーザに提供するフィードバックは、任意の形態の感知フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(声入力、音声入力又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明するシステムと技術は、バックエンド部材を含むコンピューティングシステム(例えば、データサーバーとして)、又はミドルウェア部材を含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンド部材を含むコンピューティングシステム(例えば、グラフィックユーザインタフェース又はインターネットブラウザを有するユーザコンピュータであり、ユーザが当該グラフィックユーザインタフェース又は当該インターネットブラウザを介してここで説明するシステムと技術の実施形態と対話できる)、又はこのようなバックエンド部材、ミドルウェア部材、或いはフロントエンド部材の任意の組み合わせを含むコンピューティングシステム内で実施されてもよい。システムの部材は、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって互に接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般的に、互に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互にクライアント-サーバ関係を有するコンピュータプログラムによって生成される。
本願の技術によれば、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。
以上に示される様々な形態のフロー、並び替え、ステップの追加又は削除が使用され得ることを理解されたい。例えば、本願に記載された各ステップは、並行して実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現することができる限り、ここでは制限しない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要求及び他の要因に応じて、様々な補正、組み合わせ、サブコンビネーション、及び置換を行うことができることを理解すべきである。本願の趣旨及び原則の範囲内で行われた変更、同等の置換、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims (27)

  1. 音声認識方法であって、
    認識待ちオーディオデータを取得するステップと、
    前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するステップと、
    前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するステップと、
    前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップと、
    前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するステップと、を含む、
    ことを特徴とする音声認識方法。
  2. 前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するステップは、
    前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するステップと、
    前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の符号情報を生成するステップと、を含む、
    ことを特徴とする請求項1に記載の音声認識方法。
  3. 前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の符号情報を生成するステップは、
    前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するステップと、
    前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するステップと、
    前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するステップと、を含む、
    ことを特徴とする請求項2に記載の音声認識方法。
  4. 前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するステップは、
    前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するステップと、
    前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するステップと、
    前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するステップと、を含む、
    ことを特徴とする請求項3に記載の音声認識方法。
  5. 前記第2の音節は複数であり、前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するステップは、
    前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するステップと、
    各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するステップと、
    前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するステップと、を含む、
    ことを特徴とする請求項3に記載の音声認識方法。
  6. 前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節の自己注意重み行列を生成するステップは、
    前記キーベクトルの転置ベクトルを取得するステップと、
    前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成するステップと、
    前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するステップと、を含む、
    ことを特徴とする請求項4に記載の音声認識方法。
  7. 前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するステップは、
    前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得することを含む、
    ことを特徴とする請求項3に記載の音声認識方法。
  8. エンコーダによって前記第1の音節に対して前記復号を行い、前記エンコーダはN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、第1から第Nの符号化コンポーネントは順次接続され、前記方法は、
    前記第1の符号化コンポーネントにおいて、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するステップと、
    第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするステップと、をさらに含む、
    ことを特徴とする請求項3に記載の音声認識方法。
  9. 前記第1の符号化コンポーネントにおいて、前記第1のクエリベクトル及び各前記第2の音節の第2のクエリベクトルをスティッチングし、前記第1の音節のキーベクトルを取得するステップと、
    第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするステップと、をさらに含む、
    ことを特徴とする請求項8に記載の音声認識方法。
  10. 前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するステップと、
    前記第3の表示情報に基づいてオンスクリーン表示を行うステップと、を含む、
    ことを特徴とする請求項1~7のいずれかに記載の音声認識方法。
  11. 前記第3の表示情報に基づいてオンスクリーン表示を行うステップは、
    前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測するステップと、
    予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定するステップと、
    前記第3の表示情報を前記表示位置で表示させるように制御するステップと、を含む、
    ことを特徴とする請求項10に記載の音声認識方法。
  12. 前記第3の表示情報に基づいてオンスクリーン表示を行うステップは、
    前記第3の表示情報における文字含有量を取得するステップと、
    前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するステップと、を含む、
    ことを特徴とする請求項10に記載の音声認識方法。
  13. 音声認識装置であって、
    認識待ちオーディオデータを取得するための第1の取得モジュールと、
    前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも1つの音素の組み合わせである第1の音節を取得するための第2の取得モジュールと、
    前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第2の音節を取得するための第3の取得モジュールと、
    前記第1の音節の第1の符号情報を生成するように、前記変換待ち文字の前記第1の音節及び前記変換済み文字の前記第2の音節に基づいて符号化するための符号化モジュールと、
    前記変換待ち文字に対応する文字を取得するように、前記第1の符号情報を復号するための復号モジュールと、を含む、
    ことを特徴とする音声認識装置。
  14. 前記符号化モジュールは、
    前記第1の音節及び前記第2の音節の第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルをそれぞれ抽出するための第1の取得ユニットと、
    前記第1の単語埋め込みベクトル及び第2の単語埋め込みベクトルに基づいて、第1の符号情報を生成するための符号情報生成ユニットと、を含む、
    ことを特徴とする請求項13に記載の音声認識装置。
  15. 前記符号情報生成ユニットは、
    前記第1の単語埋め込みベクトル及び前記第2の単語埋め込みベクトルに基づいて、前記第1の音節の第1のクエリベクトル及びキーベクトルを生成するための第1の生成サブユニットと、
    前記第1のクエリベクトル及びキーベクトルに基づいて、前記第1の音節の符号化増分を生成するための第2の生成サブユニットと、
    前記符号化増分及び前記第2の音節の第2の符号情報に基づいて、前記第1の符号情報を生成するための第3の生成サブユニットと、を含む、
    ことを特徴とする請求項14に記載の音声認識装置。
  16. 前記第2の生成サブユニットは、
    前記第1のクエリベクトル及び前記キーベクトルに基づいて、前記第1の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するための第1の生成コンポーネントと、
    前記第1の音節及び前記第2の音節に基づいて、前記第1の音節の値ベクトルを生成するための第2の生成コンポーネントと、
    前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第3の生成コンポーネントと、を含む、
    ことを特徴とする請求項15に記載の音声認識装置。
  17. 前記第2の音節は複数であり、前記第1の生成サブユニットは、
    前記第1の音節の単語埋め込みベクトルによって前記第1の音節の第1のクエリベクトルを構成するための第4の生成コンポーネントと、
    各前記第2の音節の単語埋め込みベクトルによって前記第2の音節の第2のクエリベクトルを構成するための第5の生成コンポーネントと、
    前記第1のクエリベクトル及び前記第2のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第6の生成コンポーネントと、を含む、
    ことを特徴とする請求項15に記載の音声認識装置。
  18. 前記第1の生成コンポーネントは、
    前記キーベクトルの転置ベクトルを取得し、
    前記第1のクエリベクトル及び前記転置ベクトルを乗算して、第1の行列を生成し、また、
    前記第1の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる、
    ことを特徴とする請求項16に記載の音声認識装置。
  19. 前記第3の生成サブユニットは、
    前記符号化増分及び前記第2の符号情報をスティッチングし、前記第1の符号情報を取得するために用いられる、
    ことを特徴とする請求項15に記載の音声認識装置。
  20. 前記符号化モジュールはN個の符号化コンポーネントを含み、Nは正の整数であり、Nが1より大きい場合、第1から第Nの符号化コンポーネントは順次接続され、
    前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、前記第1の音節の単語埋め込みベクトルに基づいて前記第1のクエリベクトルを生成するために用いられ、
    第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前記第1の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第1の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第1の音節の第1のクエリベクトルとするために用いられる、
    ことを特徴とする請求項15に記載の音声認識装置。
  21. 前記第1の符号化コンポーネントにおいて、前記第1の生成サブユニットは、さらに、前記第1のクエリベクトル及び各前記第2の音節の第2のクエリベクトルをスティッチングし、前記第1の音節のキーベクトルを取得するために用いられ、
    第iの符号化コンポーネント(ただし、iは1より大きく、かつN以下の正の整数である)において、前記第1の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第1の音節の前記第1の符号情報を、現在の符号化コンポーネントにおける前記第1の音節のキーベクトルとするために用いられる、
    ことを特徴とする請求項20に記載の音声認識装置。
  22. 前記変換待ち文字に対応する文字に基づいて第1の表示情報を生成し、現在のオンスクリーンの第2の表示情報とスティッチングして、第3の表示情報を生成するための第1の生成モジュールと、
    前記第3の表示情報に基づいてオンスクリーン表示を行うための表示モジュールと、を含む、
    ことを特徴とする請求項13~19のいずれかに記載の音声認識装置。
  23. 前記表示モジュールは、
    前記第3の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
    予測した前記文字含有量に基づいて、前記第3の表示情報のスクリーンでの表示位置を確定し、
    前記第3の表示情報を前記表示位置で表示させるように制御するために用いられる、
    ことを特徴とする請求項22に記載の音声認識装置。
  24. 前記表示モジュールは、
    前記第3の表示情報における文字含有量を取得し、
    前記文字含有量に基づいて、前記第3の表示情報における文字ピッチを調節するために用いられる、
    ことを特徴とする請求項22に記載の音声認識装置。
  25. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに接続されるメモリと、を含み、
    前記メモリは前記少なくとも1つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサは請求項1~12のいずれかに記載の音声認識方法を実行する、
    ことを特徴とする電子機器。
  26. コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータコマンドが実行される場合、請求項1~12のいずれかに記載の音声認識方法が実行される、
    ことを特徴とするコンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  27. コンピュータプログラムであって、
    前記コンピュータプログラムにおける命令が実行された場合、請求項1~12のいずれかに記載の音声認識方法が実行される、
    ことを特徴とするコンピュータプログラム。
JP2020214927A 2020-05-28 2020-12-24 音声認識方法及び装置、電子機器並びに記憶媒体 Active JP7216065B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010469985.8 2020-05-28
CN202010469985.8A CN111667828B (zh) 2020-05-28 2020-05-28 语音识别方法和装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021189429A JP2021189429A (ja) 2021-12-13
JP7216065B2 true JP7216065B2 (ja) 2023-01-31

Family

ID=72385053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020214927A Active JP7216065B2 (ja) 2020-05-28 2020-12-24 音声認識方法及び装置、電子機器並びに記憶媒体

Country Status (5)

Country Link
US (1) US11756529B2 (ja)
EP (1) EP3916718A1 (ja)
JP (1) JP7216065B2 (ja)
KR (1) KR20210058765A (ja)
CN (1) CN111667828B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116264A (zh) * 2023-02-20 2023-11-24 荣耀终端有限公司 一种语音识别方法、电子设备以及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028848A (ja) 2016-08-19 2018-02-22 日本放送協会 変換処理装置、音訳処理装置、およびプログラム
JP2021176022A (ja) 2020-12-23 2021-11-04 北京百度網訊科技有限公司 オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324718A (ja) 1992-05-19 1993-12-07 Fujitsu Ltd 固有名詞処理装置
JPH0675943A (ja) 1992-08-26 1994-03-18 Toshiba Corp かな漢字変換装置
EP1051701B1 (de) * 1998-02-03 2002-11-06 Siemens Aktiengesellschaft Verfahren zum übermitteln von sprachdaten
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
CN100410852C (zh) * 2002-12-27 2008-08-13 佳能株式会社 字处理方法和装置
KR100486733B1 (ko) * 2003-02-24 2005-05-03 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US20060259301A1 (en) * 2005-05-12 2006-11-16 Nokia Corporation High quality thai text-to-phoneme converter
US8442821B1 (en) * 2012-07-27 2013-05-14 Google Inc. Multi-frame prediction for hybrid neural network/hidden Markov models
CN104756183B (zh) * 2012-08-29 2018-05-11 纽昂斯通讯公司 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
KR20150144031A (ko) * 2014-06-16 2015-12-24 삼성전자주식회사 음성 인식을 이용하는 사용자 인터페이스 제공 방법 및 사용자 인터페이스 제공 장치
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
CN110870004B (zh) * 2017-07-10 2023-09-12 Scti控股公司 基于音节的自动语音识别
CN108510990A (zh) * 2018-07-04 2018-09-07 百度在线网络技术(北京)有限公司 语音识别方法、装置、用户设备及存储介质
CN109243428B (zh) * 2018-10-15 2019-11-26 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及系统
CN111429889B (zh) * 2019-01-08 2023-04-28 百度在线网络技术(北京)有限公司 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN110111775B (zh) * 2019-05-17 2021-06-22 腾讯科技(深圳)有限公司 一种流式语音识别方法、装置、设备及存储介质
CN110335592B (zh) * 2019-06-28 2022-06-03 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110610707B (zh) * 2019-09-20 2022-04-22 科大讯飞股份有限公司 语音关键词识别方法、装置、电子设备和存储介质
CN110675886B (zh) * 2019-10-09 2023-09-15 腾讯科技(深圳)有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110689876B (zh) * 2019-10-14 2022-04-12 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质
US11373639B2 (en) * 2019-12-12 2022-06-28 Mitsubishi Electric Research Laboratories, Inc. System and method for streaming end-to-end speech recognition with asynchronous decoders pruning prefixes using a joint label and frame information in transcribing technique
CN111048082B (zh) 2019-12-12 2022-09-06 中国电子科技集团公司第二十八研究所 一种改进的端到端语音识别方法
CN111144138A (zh) * 2019-12-17 2020-05-12 Oppo广东移动通信有限公司 一种同声传译方法及装置、存储介质
CN110990632B (zh) * 2019-12-19 2023-05-02 腾讯科技(深圳)有限公司 一种视频处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018028848A (ja) 2016-08-19 2018-02-22 日本放送協会 変換処理装置、音訳処理装置、およびプログラム
JP2021176022A (ja) 2020-12-23 2021-11-04 北京百度網訊科技有限公司 オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Shiyu Zhou et al.,Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese,[online],2018年06月04日,arXiv, [2021.01.12検索], インターネット <URL: https://arxiv.org/pdf/1804.10752.pdf>

Also Published As

Publication number Publication date
EP3916718A1 (en) 2021-12-01
JP2021189429A (ja) 2021-12-13
US11756529B2 (en) 2023-09-12
US20210375264A1 (en) 2021-12-02
KR20210058765A (ko) 2021-05-24
CN111667828B (zh) 2021-09-21
CN111667828A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
KR102484967B1 (ko) 음성 전환 방법, 장치 및 전자 기기
JP6916264B2 (ja) 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
US11769482B2 (en) Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium
US11574133B2 (en) Method, electronic device, and storage medium for training text generation model
CN111627418B (zh) 语音合成模型的训练方法、合成方法、系统、设备和介质
CN111859994B (zh) 机器翻译模型获取及文本翻译方法、装置及存储介质
JP2022028887A (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
CN110473516B (zh) 语音合成方法、装置以及电子设备
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
JP2023504219A (ja) 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法
CN110807331B (zh) 一种多音字读音预测方法、装置和电子设备
US11200382B2 (en) Prosodic pause prediction method, prosodic pause prediction device and electronic device
US20220068265A1 (en) Method for displaying streaming speech recognition result, electronic device, and storage medium
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
JP7335569B2 (ja) 音声認識方法、装置及び電子機器
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
JP7216065B2 (ja) 音声認識方法及び装置、電子機器並びに記憶媒体
JP7121791B2 (ja) 言語生成方法、装置及び電子機器
CN117063228A (zh) 用于灵活流式和非流式自动语音识别的混合模型注意力
CN115132210B (zh) 音频识别方法、音频识别模型的训练方法、装置和设备
KR20240065125A (ko) 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택
KR20210040318A (ko) 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램
CN116189666A (zh) 语音识别方法、系统及终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220329

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230119

R150 Certificate of patent or registration of utility model

Ref document number: 7216065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150