JP7216065B2

JP7216065B2 - 音声認識方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP7216065B2
Application number: JP2020214927A
Authority: JP
Inventors: リャオ・チャン; シャオイン・フー; ヂョンシャン・ジャン; ミンシン・リャン; ジュンイャオ・シャオ; チー・チャン; ヂージェ・チェン; チーグァン・ザン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-12-24
Publication date: 2023-01-31
Anticipated expiration: 2040-12-24
Also published as: EP3916718A1; JP2021189429A; US11756529B2; US20210375264A1; KR20210058765A; CN111667828B; CN111667828A

Description

本願は、音声処理の技術分野に関し、特に、自然言語処理の技術分野に関し、具体的には、音声認識方法及び装置、電子機器並びに記憶媒体に関する。

科学技術の発展に伴い、自然言語処理ＮＬＰ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）はマンマシンインタラクションにおける重要な手段であり、そのうち注意機構は、コンテキストにおける単語の重要度を効果的に捕捉し、自然言語理解タスクの有効性を向上させることができるため、人々に広く注目されている。しかし、関連技術において、注意機構を用いて音声認識を行うとき、認識精度は文の完全性に依存し、そのため、文の長さの増加に伴って認識における計算量は爆発的に増加し、認識速度に大きい影響を与える。

本開示は、音声認識方法及び装置、電子機器並びに記憶媒体を提供する。

本開示の第１の態様により提供される音声認識方法は、
認識待ちオーディオデータを取得するステップと、
前記オーディオデータを復号し、第１の音節であって文字に対応する少なくとも１つの音素の組み合わせである現在の変換待ち文字の第１の音節を取得するステップ（前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも１つの音素の組み合わせである第１の音節を取得するステップ）と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第２の音節を取得するステップと、
前記第１の音節の第１の符号情報を生成するように、前記変換待ち文字の前記第１の音節及び前記変換済み文字の前記第２の音節に基づいて符号化するステップと、
前記変換待ち文字に対応する文字を取得するように、前記第１の符号情報を復号するステップと、を含む。

本開示の第２の態様により提供される音声認識装置は、
認識待ちオーディオデータを取得するための第１の取得モジュールと、
前記オーディオデータを復号し、第１の音節であって文字に対応する少なくとも１つの音素の組み合わせである現在の変換待ち文字の第１の音節を取得するための第２の取得モジュール（前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも１つの音素の組み合わせである第１の音節を取得するための第２の取得モジュール）と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第２の音節を取得するための第３の取得モジュールと、
前記第１の音節の第１の符号情報を生成するように、前記変換待ち文字の前記第１の音節及び前記変換済み文字の前記第２の音節に基づいて符号化するための符号化モジュールと、
前記変換待ち文字に対応する文字を取得するように、前記第１の符号情報を復号するための復号モジュールと、を含む。

本開示の第３の態様により提供される電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに接続されるメモリと、を含み、ただし、
前記メモリは前記少なくとも１つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサは上記第１の態様に記載の音声認識方法を実行することができる。

本開示の第４の態様により、コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータコマンドが実行される場合、上記第１の態様に記載の音声認識方法が実行される。
本開示の第５の態様により、コンピュータプログラムが提供され、前記コンピュータプログラムにおける命令が実行された場合に、上記第１の態様に記載の音声認識方法が実行される。

本願の技術によれば、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。

本節に記載されるものは、本開示の実施例の肝要又は重要な特徴を特定するものではなく、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は以下の明細書により容易に理解される。

図面は本解決手段をよく理解するためのものであり、本願を限定するものではない。ここで、
本願の実施例にて提供される音声認識方法のフローチャートである。本願の実施例にて提供される音声認識方法の原理模式図である。本願の実施例にて提供される別の音声認識方法のフローチャートである。本願の実施例にて提供されるさらに別の音声認識方法のフローチャートである。本願の実施例にて提供される音声認識方法の符号化原理模式図である。本願の実施例において用いるｔｒａｎｓｆｏｒｍｅｒモデルにおける符号化器（エンコーダ）の構成模式図である。本願の実施例にて提供されるさらに別の音声認識方法のフローチャートである。本願の実施例にて提供されるさらに別の音声認識方法のフローチャートである。本願の実施例にて提供される音声認識装置のブロック図である。本願の実施例にて提供される音声認識装置のブロック図である。本願の実施例の音声認識方法を実現するための電子機器のブロック図である。

本願の実施例の様々な詳細が理解を助けるために含まれている添付の図面を参照して、本願の例示的な実施例を以下に説明する。したがって、当業者であれば、本願の範囲及び精神から逸脱することなく、本明細書に記載の実施例に様々な変更及び補正を加えることができることを認識するであろう。また、以下の説明では、明確性及び簡潔性のために、周知の機能及び構造の説明を省略する。

以下、図面を参照しながら、本願の実施例の音声認識方法及び装置、電子機器並びに記憶媒体について説明する。

図１は本願の実施例にて提供される音声認識方法のフローチャートである。なお、本例の音声認識方法の実行主体は音声認識装置であり、音声認識装置は、いかなる限定もせず、例えばＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、パーソナルコンピュータ）、タブレットコンピュータ、パームトップコンピュータ又は携帯端末などマンマシンインタラクション機能を有する電子機器、又は他のマンマシンインタラクション機能を有するハードウェア装置におけるソフトウェアなどとして設置することができる。

図１に示すように、本願の実施例の音声認識方法は、以下のステップ１０１～ステップ１０５を含む。

ステップ１０１において、認識待ちオーディオデータを取得する。

ただし、オーディオデータを取得するとき、マンマシンインタラクション機能を有する電子機器の収音装置によってリアルタイムに録音してもよいし、ローカル又は遠隔記憶領域に予め記憶されたオーディオデータを取得してもよい。

ステップ１０２において、オーディオデータを復号（デコード）し、現在の変換待ち文字の第１の音節を取得する。

ただし、第１の音節は文字に対応する少なくとも１つの音素の組み合わせである。

なお、音素は音声の自然属性に基づいて区分される最小音声単位であり、１つの動作は１つの音素を構成し、少なくとも１つの音素は組み合わせて１つの音節を構成し、例えば、漢字の「哦（中国語）」の音節は１つの音素「ｏ」で構成され、漢字の「愛（中国語）」の音節は「ａ」と「ｉ」の２つの音素で構成され、漢字の「我（中国語）」の音節は「ｗ」と「ｏ」の２つの音素で構成される。

なお、音響モデル及び言語モデルで構成される復号空間において最適なパスを探すことにより、変換待ち文字の第１の音節を確定することができる。

本願の実施例において、オーディオデータに対する復号はストリーム復号であり、すなわち、変換待ち文字の第１の音節を１つずつ取得するように、オーディオデータにおけるオーディオに対して復号を一字ずつ行うことを理解されたい。つまり、本願は、後続する符号化モジュール及び復号モジュールが一字ずつ分析することを可能にして、ストリーム音声文字変換を実現するように、オーディオデータに対して復号を行って音節を取得するとき、１つの音節を認識するたび、後続する符号化モジュールに１つの音節を入力すべきである。

ステップ１０３において、変換待ち文字が所属する所属文及び所属文における変換済み文字を取得し、変換済み文字の第２の音節を取得する。

なお、本願において、音節文字変換は自己注意機構を用いて実現され、ただし、自己注意機構の核心はテキストにおける他の単語で目標単語の意味表現を強化することであり、つまり、変換待ち文字にとって、変換待ち文字の所属文における変換待ち文字の前の文字は変換待ち文字の意味に対して一定の影響を有し、したがって、変換待ち文字の意味を認識するために、変換待ち文字の所属文における変換待ち文字の前の文字の第２の音節を取得し、取得した第２の音節を変換待ち文字の第１の音節と結び付ける必要がある。

また、本願はストリーム音声文字変換の処理方式を用い、すなわち、変換待ち文字の前の音節はいずれも音声文字変換を完了し、したがって、変換待ち文字の前の文字は変換済み文字と呼ばれ、すなわち、変換待ち文字の所属文における変換済み文字の第２の音節を直接取得できる。

ただし、変換待ち文字の所属文は、言語習慣の休止時間に基づいて認識でき、例えば、上記復号過程において、各音節と前の音節との間の休止時間を判断することにより各音節が前の音節と同一の文に属するか否かを確定することができ、好ましくは、休止時間が第１のプリセット時間より大きいか否かを判断し、休止時間が第１のプリセット時間以上であれば、現在の音節は文頭の文字であると確定する。

前の音節と現在の音節はそれぞれ２つの文に属し、現在の音節の所属文に変換済み文字がなく、休止時間が第１のプリセット時間より小さければ、現在の音節は文頭の文字ではないと確定し、現在の音節と前の音節は同一の文に属し、前の音節に対応する文字は現在の音節の所属文における変換済み文字であり、現在の音節の所属文の文頭の文字を取得し、前の音節から文頭の文字までの全ての変換済み文字の第２の音節を取得するまで、前の音節に基づいて文頭の文字の判断を行うことを続け、また、例えば、ある音節を文頭の文字として認識するとき、当該音節の前段に開始文字を設定し、好ましくは、開始文字は＜ｂｅｇｉｎ＞とすることができ、現在の音節と開始文字との間における全ての第２の音節を取得する。

別の実施可能な実施例として、変換済み文字の意味に基づいて、現在の音節が前の音節と同一の文に属するか否かを判断することもでき、例えば、意味に基づいて、前の音節が文尾の文字であると判断すれば、現在の音節は文頭の文字であると確定し、意味に基づいて、前の音節が文頭の文字ではないと判断すれば、現在の音節と前の音節が同一の文に属すると確定する。

ステップ１０４において、第１の音節の第１の符号情報を生成するように、変換待ち文字の第１の音節及び変換済み文字の第２の音節に基づいて符号化（エンコード）する。

ステップ１０５において、変換待ち文字に対応する文字を取得するように、第１の符号情報を復号する。

つまり、本願の実施例において、変換待ち文字の第１の音節及び変換済み文字の第２の音節に基づいて符号化することにより、第１の符号情報には第１の音節の前の変換済み文字による第１の音節に対応する文字への影響が含まれることになり、第１の符号情報を復号することにより、前文内容の影響に基づいて復号される文字を得ることができる。

例を挙げると、図２に示すように、１つの文における各文字を時間系列に従って第１の音節２０１に復号し、当該音節の前の変換済み文字に対応する第２の音節２０２を取得し、符号化により第１の音節の第１の符号情報２０３を取得し、第１の符号情報２０３を復号して変換待ち文字に対応する文字２０４を得る。例えば、ｔ１時刻で、第１の音節２０１「ｔｉａｎ」を取得し、当該第１の音節２０１の変換済み文字の第２の音節２０２は「ｊｉｎ」であり、ｔ２時刻で、第１の音節２０１「ｎｉ」を取得し、当該第１の音節２０１の変換済み文字の第２の音節２０２は「ｊｉｎｔｉａｎ」であり、ｔ３時刻で、第１の音節２０１「ｚｈｅｎ」を取得し、当該第１の音節２０１の変換済み文字の第２の音節２０２は「ｊｉｎｔｉａｎｎｉ」であり、ｔ４時刻で、第１の音節２０１「ｓｈｕａｉ」を取得し、当該第１の音節２０１の変換済み文字の第２の音節２０２は「ｊｉｎｔｉａｎｎｉｚｈｅｎ」である。

これにより、本願は、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。

前の実施例をさらに明確に説明するために、図３に示すように、上記ステップ１０４における第１の音節の第１の符号情報を生成するように、変換待ち文字の第１の音節及び変換済み文字の第２の音節に基づいて符号化することは、以下のステップ３０１～ステップ３０２を含む。

ステップ３０１において、第１の音節及び第２の音節の第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルをそれぞれ抽出する。

なお、単語埋め込みベクトルは音節を数学的に処理可能なベクトル方式で表現するものであり、事前にトレーニングされた音節-単語埋め込みベクトルのモデルのうち、例えばＷｏｒｄ２Ｖｅｃ、Ｇｌｏｖｅ又はｔｒａｎｓｆｏｒｍｅｒを用いて、各音節の単語埋め込みベクトルをそれぞれ取得することができる。

変換待ち文字にとって、変換待ち文字が文頭の文字ではないとき、その所属文の変換済み文字は少なくとも１つとすることができ、すなわち、変換済み文字は複数とすることができ、第２の音節は各変換済み文字の第２の音節とすることができ、すなわち、第２の音節の単語埋め込みベクトルを取得するときに、各第２の音節に対して、対応する単語埋め込みベクトルを取得することができ、変換待ち文字が文頭の文字であるとき、その所属文に変換済み文字がないため、実際の第２の音節がなく、このとき、ゼロベクトルを第２の音節の単語埋め込みベクトルとすることができることを理解されたい。文の文字含有量が多い場合、先端の変換済み文字による第１の音節への影響が小さく、すなわち、第２の音節による第１の音節への影響程度は第１の音節と第２の音節との間の距離に関連することができ、したがって、計算量をさらに低減させるために、さらに第１の音節の前の予め設定された数の第２の音節、及び当該予め設定された数の第２の音節の単語埋め込みベクトルのみを取得することができることをさらに理解されたい。

ステップ３０２において、第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルに基づいて、第１の符号情報を生成する。

つまり、本願は、まず音節を数学的に変換可能な単語埋め込みベクトルに変換し、変換待ち文字の意味の正確性を保証するために、変換済み文字及び変換待ち文字の単語埋め込みベクトルに基づいて符号化し、さらに、第１の音節に対応する第１の符号情報を取得することができる。

これにより、本願は、単語埋め込みベクトルによって音節データを数学的に処理可能なベクトル情報に変換し、それにより、第１の音節に対する符号化を容易にする。

なお、本願において、１つずつ認識された音節を符号化し、したがって、現在認識される変換待ち文字の第１の音節を符号化する前に、すでに前の変換済み文字に対して符号化処理を行ったことがあり、また、変換待ち文字は前の変換済み文字の符号情報に影響を与えることがなく、したがって、本願において、変換済み文字の符号情報の上で、第１の音節の符号情報を直接生成することができる。

好ましくは、本願において、トレーニングされた音声文字変換モデルを用いて第１の音節に対して符号化及び復号を行うことができ、ただし、音声文字変換モデルの符号化コンポーネントは前の音節の符号化状態を保存し、さらに、第１の音節を符号化するときに、音声文字変換モデルはその符号化コンポーネントにキャッシュされた変換済み文字の符号化状態を多重化することができ、すなわち、第１の音節を符号化するときに、保存された符号化状態をキャッシュから直接読み取り、第１の音節の符号化増分及び前の音節の符号情報をスティッチングして、第１の音節の第１の符号情報を得て、それにより、第１の音節を符号化するときに、変換済み文字の符号内容を繰り返し計算する必要がなく、音節文字変換の速度を大幅に向上させる。

以下、音声文字変換をモデルとし、上記ステップ３０２における、第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルに基づいて、第１の符号情報を生成することについて解釈し説明し、図４に示すように、上記ステップ３０２は以下のステップ４０１～ステップ４０３を含む。

ステップ４０１において、第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルに基づいて、第１の音節の第１のクエリベクトル及びキーベクトルを生成する。

１つの実施可能な実施例として、第１の音節の単語埋め込みベクトルによって第１の音節の第１のクエリベクトルを構成し、各第２の音節の単語埋め込みベクトルによって第２の音節の第２のクエリベクトルを構成し、そして、第１のクエリベクトル及び第２のクエリベクトルをスティッチングして、キーベクトルを生成する。

ステップ４０２において、第１のクエリベクトル及びキーベクトルに基づいて、第１の音節の符号化増分を生成する。

１つの実施可能な実施例として、第１のクエリベクトル及びキーベクトルに基づいて、第１の音節の自己注意重み行列を生成し、第１の音節及び第２の音節に基づいて、第１の音節の値ベクトルを生成し、そして、自己注意重み行列に基づいて、値ベクトルに対して重み付けをして、符号化増分を生成する。

さらに、第１のクエリベクトル及びキーベクトルに基づいて、第１の音節の自己注意重み行列を生成することは、キーベクトルの転置ベクトルを取得し、第１のクエリベクトル及び転置ベクトルを乗算して、第１の行列を生成し、そして、第１の行列に対して正規化処理を行って、自己注意重み行列を生成することを含む。

ステップ４０３において、符号化増分及び第２の音節の第２の符号情報に基づいて、第１の符号情報を生成する。

１つの実施可能な実施例として、符号化増分及び第２の符号情報をスティッチングして、第１の符号情報を取得する。

つまり、本願の実施例において、第１の音節のクエリベクトルは初期の増分であり、符号化過程において、第１の音節の増分及びすでに保存された第２の音節の符号化過程における状態データ、例えばキーベクトル、値ベクトルをスティッチングすることにより、第２の音節に対する繰り返し処理を必要としない第１の音節に対する符号化過程を実現する。

例を挙げると、図５に示すように、現在の時刻Ｔで入力される第１の音節５０１に対応する単語埋め込みベクトルを取得してクエリベクトルＱ＝ｘ｛Ｔ｝とし、第１の音節のクエリベクトル及び所属文の第１の時刻Ｔ＝１から前の時刻Ｔ－１までの各第２の音節のクエリベクトルをスティッチングし、第１の音節のキーベクトルＫ＝ｘ｛１，２，…，Ｔ－１，Ｔ｝とする。ただし、値ベクトルとキーベクトルは同じで、Ｖ＝ｘ｛１，２，…，Ｔ－１，Ｔ｝である。

続いて、第１の音節のクエリベクトルＱ及びキーベクトルＫの転置Ｋ^Ｔを点乗積して、各第２の音節による第１の音節への影響の重みを取得して、第１の行列とし、次に、第１の行列に対して正規化処理を行って、自己注意重み行列を得て、すなわち、複数の第２の音節による第１の音節への影響の重みの和を１とする。

好ましくは、以下の式を用いて自己注意重み行列を取得する。

ただし、ｄ_ｋはＱ，Ｋ行列の列数、すなわち、ベクトルの次元である。

さらに、第１の音節は符号化過程全体の原始増分であるため、クエリベクトルＱに基づく演算結果も増分であり、例えば、図５に示すように、第１の音節のクエリベクトルＱ及びキーベクトルＫに基づいて生成された第１の音節の符号化増分５０２である。

なお、図５に示す行列構造から分かるように、変換待ち文字の後の文字による影響を考慮する必要がないため、取得した完全な第１の音節の符号情報は対角行列構造であり、実際には、現在の時刻における第１の音節による符号情報への影響は行列の最後の行、すなわち符号化増分５０２の箇所のみにあるため、本願は、第２の音節の符号情報の多重化を提供することで、符号化コンポーネントが増分部分のみを計算すればよいことになり、正確性を保証する場合で音声文字変換の効率を効果的に向上させる。

これから分かるように、本願は、各変換待ち文字の第１の音節のクエリベクトル、及びスティッチングして生成されたキーベクトルを計算することによって第１の音節の符号化増分を得て、そして、符号化増分及び各変換済み文字の符号化増分をスティッチングすることによって第１の符号情報を得て、すなわち、変換済み文字の符号情報の多重化で計算生成過程を入れ替わり、それにより、音節文字変換の効率を効果的に向上させ、音声翻訳の速度を向上させる。

さらに、ｔｒａｎｓｆｏｒｍｅｒモデルにおける符号化器（エンコーダ）の構造について紹介し、図６に示すように、符号化器６０１はＮ個の符号化コンポーネントを含み、Ｎは正の整数であり、Ｎが１より大きい場合、第１から第Ｎの符号化コンポーネントは順次接続される。

第１の符号化コンポーネント６０２において、第１の音節の単語埋め込みベクトルに基づいて、第１のクエリベクトルを生成し、第１のクエリベクトル及び各第２の音節の第２のクエリベクトルをスティッチングし、第１の音節のキーベクトルを取得する。

第ｉの符号化コンポーネント６０３において、第１の符号化コンポーネントが取得した第１の音節の符号化増分を現在の符号化コンポーネントにおける第１の音節の第１のクエリベクトルとし、前の符号化コンポーネントが取得した第１の音節の第１の符号情報を現在の符号化コンポーネントにおける第１の音節のキーベクトルとする。ただし、ｉは１より大きく、かつＮ以下の正の整数である。

ただし、現在のｔｒａｎｓｆｏｒｍｅｒモデルは、一般的に、６つの符号化コンポーネントを有する符号化器（エンコーダ）を用いる。

１つの実施可能な実施例として、図７に示すように、音声認識方法は、第１の音節に対応する文字を取得した後、以下のステップ７０１～ステップ７０２をさらに含む。

ステップ７０１において、変換待ち文字に対応する文字に基づいて、第１の表示情報を生成し、現在のオンスクリーンの第２の表示情報とスティッチングして、第３の表示情報を生成する。

ステップ７０２において、第３の表示情報に基づいてオンスクリーン表示を行う。

つまり、本願は、ストリーム音節文字変換、すなわち１つずつの音節文字変換に基づいて、一字ずつのオンスクリーン表示を実現することができ、すなわち、現在の変換待ち文字に対応する文字の第１の表示情報、及び変換が済み、オンスクリーンにした第２の表示情報をスティッチングし、第３の表示情報を生成し、第３の表示情報をオンスクリーン表示させ、それにより、変換－オンスクリーンのつながりを実現することができ、ユーザはオーディオデータに対してストリーム変換を行う効果を明らかに感じることができる。

１つの実施可能な実施例として、第３の表示情報に対して意味分析を行い、所属文の文字含有量を予測し、予測した文字含有量に基づいて、第３の表示情報のスクリーンでの表示位置を確定し、第３の表示情報を表示位置で表示させるように制御する。

なお、異なる表示領域における各行に表示されるバイト数が固定され、異なる文字数を表示する場合、通常、文字数の増加に伴って文字ピッチを自動的に調節し、オンスクリーン表示の内容が行末にあるとき、絶えず調節する状態が発生しやすく、ユーザの閲覧体験に影響を与え、そのため、本願はオンスクリーン表示の前に音声分析を追加することによって所属文の文字含有量を確定し、それにより第３の情報のスクリーンでの表示位置を確定し、行末におけるスクリーンの点滅などの効果の発生を防止する。

別の実施可能な実施例として、前記第３の表示情報における文字含有量を取得し、前記文字含有量に基づいて、前記第３の表示情報における文字ピッチを調節する。

つまり、第３の表示情報を生成するときに、現在の第３の表示情報の文字含有量を取得し、第３の表示情報の文字含有量に基づいて文字ピッチを確定し、オンスクリーン表示のときに確定された文字ピッチに従って表示することができる。

１つの実施可能な実施例として、図８に示すように、上記ステップ１０２における、オーディオデータを復号し、現在の変換待ち文字の第１の音節を取得することは以下のステップ８０１～ステップ８０３を含む。

ステップ８０１において、音響モデルを用いてオーディオデータの第１の音節の第１の候補事後確率を取得する。

ステップ８０２において、音声モデルを用いてオーディオデータの第１の音節の第２の候補事後確率を取得する。

ステップ８０３において、第２の候補事後確率に基づいて第１の候補事後確率を切り出し、確率の最も大きい第１の音節を取得する。

なお、音響モデルの入力は音声特徴であり、第１の候補事後確率は音節事後確率であり、音声モデルの入力は音節列であり、第２の候補事後確率は音節列が現れる確率であり、ただし、音節事後確率及び音節列事後確率はいずれも変換待ち文字の音節情報を示すことができ、表現形式のみが異なる。さらに、２つの事後確率うち確率が最も大きく、かつ重ね合わせる音節を変換待ち文字の第１の音節とする。

以上をまとめると、本願の技術によれば、現在の変換待ち文字及びその所属文における変換済み文字に基づいて、現在の変換待ち文字を符号化することができ、符号化過程において前の変換済み文字による変換待ち文字への影響のみを考慮し、変換待ち文字の後の文字による影響を考慮せず、正確性を保証する場合で音声文字変換の効率を効果的に向上させ、変換待ち文字の音声の完全な文の入力を必要としない。さらに、上記符号化に基づいて音声文字変換を行うには、変換済み文字に基づいて変換待ち文字の符号情報を取得するので、符号化及び文字変換の計算量を低減させるだけでなく、また、後の文字による影響を考慮する必要がないので、変換待ち文字の符号に対して音声文字変換のインスタント翻訳を行うことができる。

図９は本願の実施例にて提供される音声認識装置のブロック図である。図９に示すように、音声認識装置１０は、
認識待ちオーディオデータを取得するための第１の取得モジュール１１と、
前記オーディオデータを復号し、第１の音節であって文字に対応する少なくとも１つの音素の組み合わせである現在の変換待ち文字の第１の音節を取得するための第２の取得モジュール１２と、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第２の音節を取得するための第３の取得モジュール１３と、
前記第１の音節の第１の符号情報を生成するように、前記変換待ち文字の前記第１の音節及び前記変換済み文字の前記第２の音節に基づいて符号化するための符号化モジュール１４と、
前記変換待ち文字に対応する文字を取得するように、前記第１の符号情報を復号するための復号モジュール１５と、を含む。

いくつかの実施例において、前記符号化モジュール１４は、
前記第１の音節及び前記第２の音節の第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルをそれぞれ抽出するための第１の取得ユニットと、
前記第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルに基づいて、第１の符号情報を生成するための符号情報生成ユニットと、を含む。

いくつかの実施例において、前記符号情報生成ユニットは、
前記第１の単語埋め込みベクトル及び前記第２の単語埋め込みベクトルに基づいて、前記第１の音節の第１のクエリベクトル及びキーベクトルを生成するための第１の生成サブユニットと、
前記第１のクエリベクトル及びキーベクトルに基づいて、前記第１の音節の符号化増分を生成するための第２の生成サブユニットと、
前記符号化増分及び前記第２の音節の第２の符号情報に基づいて、前記第１の符号情報を生成するための第３の生成サブユニットと、を含む。

いくつかの実施例において、前記第２の生成サブユニットは、
前記第１のクエリベクトル及び前記キーベクトルに基づいて、自己注意重み行列であって前記自己注意重み行列における重み値が音節間の相関程度を特徴付けるために用いられる前記第１の音節の自己注意重み行列を生成するための第１の生成コンポーネントと、
前記第１の音節及び前記第２の音節に基づいて、前記第１の音節の値ベクトルを生成するための第２の生成コンポーネントと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第３の生成コンポーネントと、を含む。

いくつかの実施例において、前記第２の音節は複数であり、前記第１の生成サブユニットは、
前記第１の音節の単語埋め込みベクトルによって前記第１の音節の第１のクエリベクトルを構成するための第４の生成コンポーネントと、
各前記第２の音節の単語埋め込みベクトルによって前記第２の音節の第２のクエリベクトルを構成するための第５の生成コンポーネントと、
前記第１のクエリベクトル及び前記第２のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第６の生成コンポーネントと、を含む。

いくつかの実施例において、前記第１の生成コンポーネントは、
前記キーベクトルの転置ベクトルを取得し、
前記第１のクエリベクトル及び前記転置ベクトルを乗算して、第１の行列を生成し、また、
前記第１の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる。

いくつかの実施例において、前記第３の生成サブユニットは、
前記符号化増分及び前記第２の符号情報をスティッチングし、前記第１の符号情報を取得するために用いられる。

いくつかの実施例において、前記符号化モジュールはＮ個の符号化コンポーネントを含み、Ｎは正の整数であり、Ｎが１より大きい場合、前記第１から第Ｎの符号化コンポーネントは順次接続され、
前記第１の符号化コンポーネントにおいて、前記第１の生成サブユニットは、前記第１の音節の単語埋め込みベクトルに基づいて前記第１のクエリベクトルを生成するために用いられ、
第ｉの符号化コンポーネントにおいて、前記第１の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第１の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第１の音節の第１のクエリベクトルとするために用いられ、ただし、ｉは１より大きく、かつＮ以下の正の整数である。

いくつかの実施例において、前記第１の符号化コンポーネントにおいて、前記第１の生成サブユニットは、さらに、前記第１のクエリベクトル及び各前記第２の音節の第２のクエリベクトルをスティッチングし、前記第１の音節のキーベクトルを取得するために用いられ、
第ｉの符号化コンポーネントにおいて、前記第１の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第１の音節の前記第１の符号情報を、現在の符号化コンポーネントにおける前記第１の音節のキーベクトルとするために用いられ、ただし、ｉは１より大きく、かつＮ以下の正の整数である。

いくつかの実施例において、図１０に示すように、音声認識装置１０は、さらに、
前記変換待ち文字に対応する文字に基づいて第１の表示情報を生成し、現在のオンスクリーンの第２の表示情報とスティッチングして、第３の表示情報を生成するための第１の生成モジュール１６と、
前記第３の表示情報に基づいてオンスクリーン表示を行うための表示モジュール１７と、を含む。

いくつかの実施例において、前記表示モジュール１７は、
前記第３の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
予測した前記文字含有量に基づいて、前記第３の表示情報のスクリーンでの表示位置を確定し、
前記第３の表示情報を前記表示位置で表示させるように制御するために用いられる。

いくつかの実施例において、前記表示モジュール１７は、
前記第３の表示情報における文字含有量を取得し、
前記文字含有量に基づいて、前記第３の表示情報における文字ピッチを調節するために用いられる。

いくつかの実施例において、前記第２の取得モジュール１２は、
音響モデルを用いて前記オーディオデータの前記第１の音節の第１の候補事後確率を取得し、
音声モデルを用いて前記オーディオデータの前記第１の音節の第２の候補事後確率を取得し、
前記第２の候補事後確率に基づいて前記第１の候補事後確率を切り出し、確率の最も大きい前記第１の音節を取得するために用いられる。

なお、前述した音声認識方法の実施例についての解釈及び説明は当該実施例の音声認識装置にも適用し、ここで重複する説明は省略する。

本願の実施例によれば、本願は電子機器及び読み取り可能な記憶媒体をさらに提供する。

図１１に示すように、本願の実施例による音声認識方法の電子機器のブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルディジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ及び他の適切なコンピュータを表すことを意図する。電子機器はさらに、様々な形態の移動体装置、例えば、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティングデバイスを表すことができる。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／又は請求される本願の実施を限定することを意図しない。

図１１に示すように、当該電子機器は、１つ又は複数のプロセッサ１１０１と、メモリ１１０２と、高速インタフェース及び低速インタフェースを含んで、各構成要素を接続するために用いられるインタフェースとを含む。各構成要素は異なるバスによって相互接続され、共通のマザーボード上に実装され、又は必要に応じて他の方式で実装され得る。プロセッサは、ＧＵＩのグラフィック情報を外部入力／出力装置（例えば、インタフェースに結合された表示機器）上に表示するようにメモリ内又はメモリ上に記憶されたコマンドを含む電子機器内で実行されるコマンドを処理することができる。他の実施形態において、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリ及び複数のメモリとともに使用することができる。また、複数の電子機器が接続され、それぞれの機器が必要な動作の一部を提供する（例えば、サーバアレイ、ブレードサーバ群、マルチプロセッサシステムとする）。図１１において１つのプロセッサ１１０１を例とする。

メモリ１１０２は、本願にて提供される非一時的コンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは少なくとも１つのプロセッサで実行可能なコマンドを記憶していることで、前記少なくとも１つのプロセッサは本願にて提供される音声認識方法を実行する。本願の非一時的なコンピュータ読み取り可能な記憶媒体はコンピュータコマンドを記憶し、当該コンピュータコマンドはコンピュータに本願にて提供される音声認識方法を実行させるために用いられる。

メモリ１１０２は非一時的なコンピュータの読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータの実行可能なプログラム及びモジュール、例えば本願の実施例における音声認識方法に対応するプログラムコマンド／モジュール（例えば、図9に示す第１の取得モジュール１１、第２の取得モジュール１２、第３の取得モジュール１３、符号化モジュール１４及び復号モジュール１５）を記憶するために用いることができる。プロセッサ１１０１はメモリ１１０２に記憶された非一時的なソフトウェアプログラム、コマンド及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声認識方法を実現する。

メモリ１１０２はプログラム記憶領域とデータ記憶領域とを含んでもよく、ただし、プログラム記憶領域はオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は音声認識方法の電子機器の利用に応じて作成されるデータなどを記憶することができる。さらに、メモリ１１０２は、高速ランダムアクセスメモリを含んでもよく、さらに、非一時的メモリ、例えば少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイス、又は他の非一時的ソリッドステート記憶装置を含んでもよい。いくつかの実施形態において、メモリ１１０２は、任意選択的に、プロセッサ１１０１に対して遠隔に配置されたメモリを含み、これらの遠隔メモリはネットワークを介して音声認識方法の電子装置に接続することができる。上記ネットワークの例はインターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク及びその組み合わせを含むが、これらに限定されない。

音声認識方法の電子機器は、さらに、入力装置１１０３及び出力装置１１０４を含んでもよい。プロセッサ１１０１、メモリ１１０２、入力装置１１０３及び出力装置１１０４は、バス又は他の方式によって接続することができ、図１１においてバスによる接続を例とする。

入力装置１１０３は、入力された数字又は文字情報を受信し、音声認識方法の電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置１１０４は、表示機器、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
本出願の実施例によれば、コンピュータプログラムをさらに提供する。前記コンピュータプログラムにおける命令が実行された場合、本出願の実施例の音声認識方法が実行される。

本明細書に記述されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現される。これらの様々な実施形態は、専用又は汎用のプログラマブルプロセッサであり得、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を送信することができる少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈され得る１つ以上のコンピュータプログラム内で実施されることを含んでもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械語でこれらのコンピュータプログラムを実行することができる。本明細書で使用される用語の「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、プログラマブルプロセッサに機械命令及び／又はデータを提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理機器（ＰＬＤ））を指し、機械読み取り可能な信号として機械命令を受け取る機械読み取り可能な媒体を含む。用語の「機械読み取り可能な信号」は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために用いられる任意の信号を指す。

ユーザとの対話機能を提供するために、ここで説明されているシステムと技術は、コンピュータで実行されてもよく、当該コンピュータは、ユーザに情報を表示する表示装置（例えばＣＲＴ（陰極線管）やＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードやポインティング装置（例えばマウスやトラックボール）を有し、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を行うことができる。他の種類の装置はユーザとの対話機能を提供するために用いることができ、例えば、ユーザに提供するフィードバックは、任意の形態の感知フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（声入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムと技術は、バックエンド部材を含むコンピューティングシステム（例えば、データサーバーとして）、又はミドルウェア部材を含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンド部材を含むコンピューティングシステム（例えば、グラフィックユーザインタフェース又はインターネットブラウザを有するユーザコンピュータであり、ユーザが当該グラフィックユーザインタフェース又は当該インターネットブラウザを介してここで説明するシステムと技術の実施形態と対話できる）、又はこのようなバックエンド部材、ミドルウェア部材、或いはフロントエンド部材の任意の組み合わせを含むコンピューティングシステム内で実施されてもよい。システムの部材は、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互に接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般的に、互に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互にクライアント－サーバ関係を有するコンピュータプログラムによって生成される。

以上に示される様々な形態のフロー、並び替え、ステップの追加又は削除が使用され得ることを理解されたい。例えば、本願に記載された各ステップは、並行して実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現することができる限り、ここでは制限しない。

上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要求及び他の要因に応じて、様々な補正、組み合わせ、サブコンビネーション、及び置換を行うことができることを理解すべきである。本願の趣旨及び原則の範囲内で行われた変更、同等の置換、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

Claims

音声認識方法であって、
認識待ちオーディオデータを取得するステップと、
前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも１つの音素の組み合わせである第１の音節を取得するステップと、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第２の音節を取得するステップと、
前記第１の音節の第１の符号情報を生成するように、前記変換待ち文字の前記第１の音節及び前記変換済み文字の前記第２の音節に基づいて符号化するステップと、
前記変換待ち文字に対応する文字を取得するように、前記第１の符号情報を復号するステップと、を含む、
ことを特徴とする音声認識方法。
前記第１の音節の第１の符号情報を生成するように、前記変換待ち文字の前記第１の音節及び前記変換済み文字の前記第２の音節に基づいて符号化するステップは、
前記第１の音節及び前記第２の音節の第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルをそれぞれ抽出するステップと、
前記第１の単語埋め込みベクトル及び前記第２の単語埋め込みベクトルに基づいて、前記第１の符号情報を生成するステップと、を含む、
ことを特徴とする請求項１に記載の音声認識方法。
前記第１の単語埋め込みベクトル及び前記第２の単語埋め込みベクトルに基づいて、前記第１の符号情報を生成するステップは、
前記第１の単語埋め込みベクトル及び前記第２の単語埋め込みベクトルに基づいて、前記第１の音節の第１のクエリベクトル及びキーベクトルを生成するステップと、
前記第１のクエリベクトル及びキーベクトルに基づいて、前記第１の音節の符号化増分を生成するステップと、
前記符号化増分及び前記第２の音節の第２の符号情報に基づいて、前記第１の符号情報を生成するステップと、を含む、
ことを特徴とする請求項２に記載の音声認識方法。
前記第１のクエリベクトル及びキーベクトルに基づいて、前記第１の音節の符号化増分を生成するステップは、
前記第１のクエリベクトル及び前記キーベクトルに基づいて、前記第１の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するステップと、
前記第１の音節及び前記第２の音節に基づいて、前記第１の音節の値ベクトルを生成するステップと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するステップと、を含む、
ことを特徴とする請求項３に記載の音声認識方法。
前記第２の音節は複数であり、前記第１の単語埋め込みベクトル及び前記第２の単語埋め込みベクトルに基づいて、前記第１の音節の第１のクエリベクトル及びキーベクトルを生成するステップは、
前記第１の音節の単語埋め込みベクトルによって前記第１の音節の第１のクエリベクトルを構成するステップと、
各前記第２の音節の単語埋め込みベクトルによって前記第２の音節の第２のクエリベクトルを構成するステップと、
前記第１のクエリベクトル及び前記第２のクエリベクトルをスティッチングして、前記キーベクトルを生成するステップと、を含む、
ことを特徴とする請求項３に記載の音声認識方法。
前記第１のクエリベクトル及び前記キーベクトルに基づいて、前記第１の音節の自己注意重み行列を生成するステップは、
前記キーベクトルの転置ベクトルを取得するステップと、
前記第１のクエリベクトル及び前記転置ベクトルを乗算して、第１の行列を生成するステップと、
前記第１の行列に対して正規化処理を行って、前記自己注意重み行列を生成するステップと、を含む、
ことを特徴とする請求項４に記載の音声認識方法。
前記符号化増分及び前記第２の音節の第２の符号情報に基づいて、前記第１の符号情報を生成するステップは、
前記符号化増分及び前記第２の符号情報をスティッチングし、前記第１の符号情報を取得することを含む、
ことを特徴とする請求項３に記載の音声認識方法。
エンコーダによって前記第１の音節に対して前記復号を行い、前記エンコーダはＮ個の符号化コンポーネントを含み、Ｎは正の整数であり、Ｎが１より大きい場合、第１から第Ｎの符号化コンポーネントは順次接続され、前記方法は、
前記第１の符号化コンポーネントにおいて、前記第１の音節の単語埋め込みベクトルに基づいて前記第１のクエリベクトルを生成するステップと、
第ｉの符号化コンポーネント（ただし、ｉは１より大きく、かつＮ以下の正の整数である）において、前の前記符号化コンポーネントが取得した前記第１の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第１の音節の第１のクエリベクトルとするステップと、をさらに含む、
ことを特徴とする請求項３に記載の音声認識方法。
前記第１の符号化コンポーネントにおいて、前記第１のクエリベクトル及び各前記第２の音節の第２のクエリベクトルをスティッチングし、前記第１の音節のキーベクトルを取得するステップと、
第ｉの符号化コンポーネント（ただし、ｉは１より大きく、かつＮ以下の正の整数である）において、前の前記符号化コンポーネントが取得した前記第１の音節の前記第１の符号情報を、現在の符号化コンポーネントにおける前記第１の音節のキーベクトルとするステップと、をさらに含む、
ことを特徴とする請求項８に記載の音声認識方法。
前記変換待ち文字に対応する文字に基づいて第１の表示情報を生成し、現在のオンスクリーンの第２の表示情報とスティッチングして、第３の表示情報を生成するステップと、
前記第３の表示情報に基づいてオンスクリーン表示を行うステップと、を含む、
ことを特徴とする請求項１～７のいずれかに記載の音声認識方法。
前記第３の表示情報に基づいてオンスクリーン表示を行うステップは、
前記第３の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測するステップと、
予測した前記文字含有量に基づいて、前記第３の表示情報のスクリーンでの表示位置を確定するステップと、
前記第３の表示情報を前記表示位置で表示させるように制御するステップと、を含む、
ことを特徴とする請求項１０に記載の音声認識方法。
前記第３の表示情報に基づいてオンスクリーン表示を行うステップは、
前記第３の表示情報における文字含有量を取得するステップと、
前記文字含有量に基づいて、前記第３の表示情報における文字ピッチを調節するステップと、を含む、
ことを特徴とする請求項１０に記載の音声認識方法。
音声認識装置であって、
認識待ちオーディオデータを取得するための第１の取得モジュールと、
前記オーディオデータを復号して、変換待ち文字における、文字に対応する少なくとも１つの音素の組み合わせである第１の音節を取得するための第２の取得モジュールと、
前記変換待ち文字が所属する所属文、及び前記所属文における変換済み文字を取得し、前記変換済み文字の第２の音節を取得するための第３の取得モジュールと、
前記第１の音節の第１の符号情報を生成するように、前記変換待ち文字の前記第１の音節及び前記変換済み文字の前記第２の音節に基づいて符号化するための符号化モジュールと、
前記変換待ち文字に対応する文字を取得するように、前記第１の符号情報を復号するための復号モジュールと、を含む、
ことを特徴とする音声認識装置。
前記符号化モジュールは、
前記第１の音節及び前記第２の音節の第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルをそれぞれ抽出するための第１の取得ユニットと、
前記第１の単語埋め込みベクトル及び第２の単語埋め込みベクトルに基づいて、第１の符号情報を生成するための符号情報生成ユニットと、を含む、
ことを特徴とする請求項１３に記載の音声認識装置。
前記符号情報生成ユニットは、
前記第１の単語埋め込みベクトル及び前記第２の単語埋め込みベクトルに基づいて、前記第１の音節の第１のクエリベクトル及びキーベクトルを生成するための第１の生成サブユニットと、
前記第１のクエリベクトル及びキーベクトルに基づいて、前記第１の音節の符号化増分を生成するための第２の生成サブユニットと、
前記符号化増分及び前記第２の音節の第２の符号情報に基づいて、前記第１の符号情報を生成するための第３の生成サブユニットと、を含む、
ことを特徴とする請求項１４に記載の音声認識装置。
前記第２の生成サブユニットは、
前記第１のクエリベクトル及び前記キーベクトルに基づいて、前記第１の音節における、音節間の相関程度を特徴付けるために用いられる自己注意重み行列を生成するための第１の生成コンポーネントと、
前記第１の音節及び前記第２の音節に基づいて、前記第１の音節の値ベクトルを生成するための第２の生成コンポーネントと、
前記自己注意重み行列に基づいて、前記値ベクトルに対して重み付けを行って、前記符号化増分を生成するための第３の生成コンポーネントと、を含む、
ことを特徴とする請求項１５に記載の音声認識装置。
前記第２の音節は複数であり、前記第１の生成サブユニットは、
前記第１の音節の単語埋め込みベクトルによって前記第１の音節の第１のクエリベクトルを構成するための第４の生成コンポーネントと、
各前記第２の音節の単語埋め込みベクトルによって前記第２の音節の第２のクエリベクトルを構成するための第５の生成コンポーネントと、
前記第１のクエリベクトル及び前記第２のクエリベクトルをスティッチングして、前記キーベクトルを生成するための第６の生成コンポーネントと、を含む、
ことを特徴とする請求項１５に記載の音声認識装置。
前記第１の生成コンポーネントは、
前記キーベクトルの転置ベクトルを取得し、
前記第１のクエリベクトル及び前記転置ベクトルを乗算して、第１の行列を生成し、また、
前記第１の行列に対して正規化処理を行って、前記自己注意重み行列を生成するために用いられる、
ことを特徴とする請求項１６に記載の音声認識装置。
前記第３の生成サブユニットは、
前記符号化増分及び前記第２の符号情報をスティッチングし、前記第１の符号情報を取得するために用いられる、
ことを特徴とする請求項１５に記載の音声認識装置。
前記符号化モジュールはＮ個の符号化コンポーネントを含み、Ｎは正の整数であり、Ｎが１より大きい場合、第１から第Ｎの符号化コンポーネントは順次接続され、
前記第１の符号化コンポーネントにおいて、前記第１の生成サブユニットは、前記第１の音節の単語埋め込みベクトルに基づいて前記第１のクエリベクトルを生成するために用いられ、
第ｉの符号化コンポーネント（ただし、ｉは１より大きく、かつＮ以下の正の整数である）において、前記第１の生成サブユニットは、前の前記符号化コンポーネントが取得した前記第１の音節の前記符号化増分を、現在の符号化コンポーネントにおける前記第１の音節の第１のクエリベクトルとするために用いられる、
ことを特徴とする請求項１５に記載の音声認識装置。
前記第１の符号化コンポーネントにおいて、前記第１の生成サブユニットは、さらに、前記第１のクエリベクトル及び各前記第２の音節の第２のクエリベクトルをスティッチングし、前記第１の音節のキーベクトルを取得するために用いられ、
第ｉの符号化コンポーネント（ただし、ｉは１より大きく、かつＮ以下の正の整数である）において、前記第１の生成サブユニットは、さらに、前の前記符号化コンポーネントが取得した前記第１の音節の前記第１の符号情報を、現在の符号化コンポーネントにおける前記第１の音節のキーベクトルとするために用いられる、
ことを特徴とする請求項２０に記載の音声認識装置。
前記変換待ち文字に対応する文字に基づいて第１の表示情報を生成し、現在のオンスクリーンの第２の表示情報とスティッチングして、第３の表示情報を生成するための第１の生成モジュールと、
前記第３の表示情報に基づいてオンスクリーン表示を行うための表示モジュールと、を含む、
ことを特徴とする請求項１３～１９のいずれかに記載の音声認識装置。
前記表示モジュールは、
前記第３の表示情報に対して意味分析を行い、前記所属文の文字含有量を予測し、
予測した前記文字含有量に基づいて、前記第３の表示情報のスクリーンでの表示位置を確定し、
前記第３の表示情報を前記表示位置で表示させるように制御するために用いられる、
ことを特徴とする請求項２２に記載の音声認識装置。
前記表示モジュールは、
前記第３の表示情報における文字含有量を取得し、
前記文字含有量に基づいて、前記第３の表示情報における文字ピッチを調節するために用いられる、
ことを特徴とする請求項２２に記載の音声認識装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに接続されるメモリと、を含み、
前記メモリは前記少なくとも１つのプロセッサによって実行可能なコマンドを記憶しており、前記コマンドは前記少なくとも１つのプロセッサによって実行されることで、前記少なくとも１つのプロセッサは請求項１～１２のいずれかに記載の音声認識方法を実行する、
ことを特徴とする電子機器。
コンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドが実行される場合、請求項１～１２のいずれかに記載の音声認識方法が実行される、
ことを特徴とするコンピュータコマンドが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合、請求項１～１２のいずれかに記載の音声認識方法が実行される、
ことを特徴とするコンピュータプログラム。