JP7034279B2 - フィルタリングモデル訓練方法および音声認識方法 - Google Patents
フィルタリングモデル訓練方法および音声認識方法 Download PDFInfo
- Publication number
- JP7034279B2 JP7034279B2 JP2020524466A JP2020524466A JP7034279B2 JP 7034279 B2 JP7034279 B2 JP 7034279B2 JP 2020524466 A JP2020524466 A JP 2020524466A JP 2020524466 A JP2020524466 A JP 2020524466A JP 7034279 B2 JP7034279 B2 JP 7034279B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- syllables
- corpus
- original
- filtering model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Description
sとtの構音の場所が同じであり、構音の方式が同じである場合、L=0が決定されてよく、
sとtの構音の場所が同じであるが、構音の方式が異なる場合、L=0.2が決定されてよく、
sとtの構音の場所が異なるが、構音の方式が同じである場合、L=0.4が決定されてよく、または
sとtの構音の場所が異なり、構音の方式が異なる場合、L=0.8が決定されてよい。
ピックアップデバイス210、フィルタリングモデル220、および音声認識エンジン230
を含んでよい。車両内音声認識では、場合によっては、システム200はラウドスピーカ201をさらに含んでよく、ラウドスピーカ201は元のコーパスを再生するように構成される。
η(r)=wf×f(r)+wc×c(r)(1)
ここで、wfはユーザの言語選択の重みを示し、f(r)は第rのコーパスサンプルに対するユーザの言語選択のスコアを示し、wcは音節多様性の重みを示し、c(r)は第rのコーパスの音節多様性のスコアを示し、η(r)は第rのコーパスの総合スコアを示す。比較的高い総合スコアを有する少なくとも1つのコーパスサンプルは、モデル訓練に使用される少なくとも1つの元のコーパスとして、式(1)に従ってコーパスサンプルから選択されてよい。
η(r)=ws×s(j)+wf×f(r)+wc×c(r)(2)
η(r)=-ws×s(j)+wf×f(r)+wc×c(r)(3)
第1のユーザ指示を取得するステップであって、第1のユーザ指示が音声指示である、ステップと、
第1のユーザ指示が取得された後のプリセット時間期間内に第2のユーザ指示を取得するステップであって、第2のユーザ指示が音声指示または手動指示である、ステップと、
第2のユーザ指示および第1のユーザ指示が同じユーザの実際の意図に対応する場合、第1の音節ペアに対応する第1の音節距離を決定するステップであって、第1の音節がN個の音節ペアのうちの1つであり、第1の音節ペアの中の第1の音節が第2のユーザ指示に対応するコーパスの音節であり、第1の音節ペアの中の第2の音節が第1のユーザ指示に対応する認識結果の音節である、ステップと
をさらに含んでよい。すなわち、第2のユーザ指示に対応するコーパスは、第1のユーザ指示の元のコーパスである。
0<D<THまたは0<D≦TH(4)
ここで、Dは、第1のユーザ指示に対応する認識結果の音節と第2のユーザ指示に対応するコーパスの音節との間の音節距離を表し、THは第3のしきい値である。
d(da):0.4×1/2=0.2秒
a(da):0.4×1/2=0.2秒
k(kai):0.5×1/2=0.25秒
ai(kai):0.5×1/2=0.25秒
k(kong):0.4×1/2=0.2秒
ong(kong):0.4×1/2=0.2秒
t(tiao):0.3×1/3=0.1秒
i(tiao):0.3×1/3=0.1秒
ao(tiao):0.3×1/3=0.1秒
es(i)=z(i)-S(y(i);θs)(6)
ここで、z(i)は第iの音節ペアに対応する音節距離を表し、S(y(i);θs)は、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値を表し、次いで、現在の採点モデルに入力され、y(i)は、第1のフィルタリングモデルが第iの音節に対応する元のコーパスの音声データを処理した後に取得された出力を表し、θsは現在の採点モデルのモデルパラメータを表し、es(i)は、第iの音節ペアに対応する音節距離と、第iの音節ペアに対応する元のコーパスの音声データが第1のフィルタリングモデルによって処理された後に取得されたスカラー値との間の誤り値を表し、次いで、第1の採点モデルに入力される。
θs’=η∇E(θs)(8)
ここで、ηは学習率ハイパーパラメータを表し、∇は勾配演算子を表す。
ef(i)=S(F(x(i);θf);θs_T)(9)
S(F(x(i);θf);θs_T)は、第iの音節ペアに対応する元のコーパスの音声データが現在のフィルタリングモデルによって処理された後に取得されたスカラー値を表し、次いで、第1の採点モデルに入力され、θs_Tは、第1の採点モデルのモデルパラメータを表し、F(x(i);θf)は、現在のフィルタリングモデルが第iの音節ペアに対応する元のコーパスの音声データを処理した後に取得された出力を表し、θfは現在のフィルタリングモデルのモデルパラメータを表し、x(i)は、第iの音節ペアに対応する元のコーパスの音声データを表すか、またはx(i)は、第iの音節ペアに対応する元のコーパスの音声データ、および第iの音節ペアに対応する元のコーパスの音声データを収集するための動作条件変数値を表す。
θf’=η∇E(θf)(11)
メモリ510、オーディオ管理モジュール520、プロセッサ530、および音声認識エンジン540
を含む。システム500は、ネットワークインターフェース501をさらに含んでよい。
N個の音節ペアと1対1の対応関係にあるN個の音節距離を取得するように構成された取得ユニット710であって、各音節ペアが第1の音節および第2の音節を含み、各音節距離が対応する音節ペア内の第1の音節と第2の音節との間の音節距離であり、第iの音節ペア内の第1の音節が、第iの音節ペアに対応する元のコーパスの音節であり、第iの音節ペア内の第2の音節が、第iの音節ペアに対応する元のコーパスの音声データに対して認識処理が実行された後に取得された認識結果の音節であり、認識処理が、第1のフィルタリングモジュールに基づく処理、および音声認識エンジンに基づく処理を含み、第iの音節ペアがN個の音節ペアのいずれか1つであり、N≧1である、取得ユニット710と、
N個の音節距離に基づいて第1のフィルタリングモデルを訓練して、音声認識エンジンに対応するターゲットフィルタリングモデルを取得するように構成された訓練ユニット420であって、音声認識エンジンおよびターゲットフィルタリングモデルが音声認識に使用される、訓練ユニット420と
を含む。
200 システム
201 ラウドスピーカ
210 ピックアップデバイス
220 フィルタリングモデル
230 音声認識エンジン
300 システム
310 フィルタリングモデル
320 採点モデル
400 システム、システムアーキテクチャ
410 フィルタリングモデル
420 採点モデル
421 回帰モデルまたはニューラルネットワーク
422 プーリングレイヤ
500 システム
501 ネットワークインターフェース
510 メモリ
520 オーディオ管理モジュール
530 プロセッサ
540 音声認識エンジン
600 方法
700 デバイス
710 取得ユニット
720 訓練ユニット
800 デバイス
810 メモリ
820 プロセッサ
Claims (19)
- フィルタリングモデルおよび採点モデルの訓練方法であって、前記方法が、
N個の元の音節を決定するステップであって、前記N個の元の音節が、第1のコーパスの実際の発音に含まれる音節であり、Nが1以上の整数である、ステップと、
N個の認識された音節を決定するステップであって、前記N個の認識された音節が、前記第1のコーパスの音声信号に対して第1の音声認識処理が実行された後に取得された認識結果の音節であり、前記第1の音声認識処理が、前記フィルタリングモデルに基づくフィルタリング処理、および音声認識エンジンに基づく認識処理を備え、前記N個の認識された音節が前記N個の元の音節と1対1の対応関係にある、ステップと、
前記N個の元の音節および前記N個の認識された音節に基づいてN個の音節距離を決定するステップであって、前記N個の音節距離がN個の音節ペアと1対1の対応関係にあり、前記N個の元の音節および前記N個の認識された音節が前記N個の音節ペアを形成し、各音節ペアが互いに対応する前記元の音節の一つおよび前記認識された音節の一つを備え、各音節距離が、対応する音節ペアに含まれる元の音節と認識された音節との間の類似性を示すために使用される、ステップと、
前記フィルタリングモデルを訓練するステップと
を備え、
前記フィルタリングモデルへの入力は、第1のピックアップデバイスによって出力された第1の音声信号であり、前記フィルタリングモデルの出力は、前記フィルタリング処理が実行された前記第1の音声信号であり、
前記採点モデルへの入力は、前記フィルタリングモデルの出力であり、前記採点モデルの出力はスカラー値であり、前記スカラー値は、前記音声認識エンジンの、前記フィルタリング処理によって取得された前記第1の音声信号の認識結果の音節と、前記第1のコーパスに対応する音節との間の距離を表し、
前記フィルタリングモデルを訓練する前記ステップは、
前記採点モデルによって出力されたスカラー値と、前記元の音節と認識された音節との間の音節距離との間の誤り値を最小化するように前記採点モデルを訓練するステップと、
前記訓練した採点モデルと、前記第1のコーパスとは異なる第3のコーパスとを用い、前記採点モデルの出力を最小化するように前記フィルタリングモデルを訓練するステップと
をさらに備える、方法。 - 前記採点モデルの出力を最小化するように前記フィルタリングモデルを訓練する前記ステップは、
前記採点モデルおよび第3のコーパスの音声信号に基づいてK個の音節距離を決定するステップであって、前記第3のコーパスの実際の発音がK個の元の音節を備え、前記第3のコーパスの前記音声信号に対して前記第1の音声認識処理が実行された後に取得された認識結果がK個の認識された音節を備え、前記K個の認識された音節が前記K個の元の音節と1対1の対応関係にあり、前記K個の音節距離がK個の音節ペアと1対1の対応関係にあり、前記K個の元の音節および前記K個の認識された音節が前記K個の音節ペアを形成し、各音節ペアが互いに対応する前記K個の元の音節の一つおよび前記K個の認識された音節の一つを備え、各音節距離が、対応する音節ペアに含まれる元の音節と認識された音節との間の類似性を示すために使用され、Kが1以上の整数である、ステップと、
前記N個の音節距離および前記K個の音節距離に基づいて前記フィルタリングモデルを訓練するステップと
を備える、請求項1に記載の方法。 - 前記フィルタリングモデルを訓練する前記ステップが、
第2のコーパスに対応するM個の音節距離の各々の値が第1のプリセット範囲内に入るように、前記フィルタリングモデルを訓練するステップであって、前記M個の音節距離がM個の音節ペアと1対1の対応関係にあり、前記M個の音節ペアに含まれるM個の元の音節が、前記第2のコーパスの実際の発音に含まれる音節であり、前記M個の音節ペアに含まれるM個の認識された音節が、前記第2のコーパスの音声信号に対して第2の音声認識処理が実行された後に取得された認識結果の音節であり、前記M個の認識された音節が前記M個の元の音節と1対1の対応関係にあり、前記第2の音声認識処理が、前記訓練によって取得されたフィルタリングモデルに基づくフィルタリング処理、および前記音声認識エンジンに基づく前記認識処理を備え、Mが1以上の整数である、ステップ
を備える、請求項1または2に記載の方法。 - 前記第1のコーパスの前記音声信号と前記第2のコーパスの前記音声信号が、第1のピックアップデバイスによって取得される、請求項3に記載の方法。
- 各音節が少なくとも1つの音素を備え、
前記N個の元の音節および前記N個の認識された音節に基づいてN個の音節距離を決定する前記ステップが、
第1のマッピング関係情報を取得するステップであって、前記第1のマッピング関係情報が複数の音素のうちの2つの音素間の音素距離を示すために使用され、前記2つの音素間の音素距離が任意の2つの音素間の類似性を示すために使用される、ステップと、
前記第1のマッピング関係情報に基づいて前記N個の音節距離を決定するステップと
を備える、請求項1から4のいずれか一項に記載の方法。 - 前記第1のマッピング関係情報に基づいて前記N個の音節距離を決定する前記ステップが、
前記N個の元の音節に含まれるW個の元の音素を決定し、前記N個の認識された音節に含まれるW個の認識された音素を決定するステップであって、前記W個の元の音素が前記W個の認識された音素と1対1の対応関係にあり、Wが1以上の整数である、ステップと、
前記第1のマッピング関係に基づいてW個の音素距離を決定するステップであって、前記W個の音素距離が前記W個の音素ペアと1対1の対応関係にあり、各音素距離が対応する音素ペアに含まれる音素間の音素距離であり、音素ペアが互いに対応する元の音素および認識音素を備える、ステップと、
前記W個の音素距離に基づいて前記N個の音節距離を決定するステップと
を備える、請求項5に記載の方法。 - 前記W個の音素距離に基づいて前記N個の音節距離を決定する前記ステップが、
前記W個の音素距離の平均値に基づいて前記N個の音節距離を決定するステップ
を備える、請求項6に記載の方法。 - Nが2以上であるとき、前記方法が、
前記N個の元の音節の配列順序および構音持続時間を決定するステップと、
前記N個の認識された音節の取得時点を決定するステップと、
前記N個の元の音節の前記配列順序および前記構音持続時間、ならびに前記N個の認識された音節の前記取得時点に基づいて、前記N個の音節ペアを決定するステップと
をさらに備え、
前記音節ペアのうちの一つにおける前記元の音節の配列順序が前記音節ペアのうちの一つにおける前記認識された音節の取得時点の前記順序に対応する、
請求項1から7のいずれか一項に記載の方法。 - 前記フィルタリングモデルを訓練する前記ステップが、
前記フィルタリングモデルが使用される環境の環境情報を決定するステップと、
前記N個の音節距離および前記環境情報に基づいて前記フィルタリングモデルを訓練するステップと
を備える、請求項1から8のいずれか一項に記載の方法。 - 前記フィルタリングモデルが車両内で構成され、前記環境情報が、以下の情報:
車両速度情報、車両の窓が開いているか閉じているかに関する情報、およびエアコンの風量情報
のうちの少なくとも1つを備える、請求項9に記載の方法。 - 前記方法が、
フィルタリングモデルを取得するユーザのユーザ情報を取得するステップであって、前記ユーザ情報が、前記ユーザが複数のコーパスの各々を使用する頻度を備える、ステップと、
前記ユーザ情報に基づいて前記複数のコーパスから前記第1のコーパスを決定するステップと
をさらに備える、請求項1から10のいずれか一項に記載の方法。 - 前記N個の元の音節を決定する前記ステップが、
第1の時間範囲内で発生する第1のイベントを決定するステップであって、前記第1の時間範囲が前記N個の認識された音節の前記取得時点に基づいて決定される、ステップと、
第2のマッピング関係情報に基づいて、前記第1のイベントに対応する音節を前記N個の元の音節として決定するステップであって、前記第2のマッピング関係情報が、前記第1のイベントを備える複数のイベントに対応する音節を示すために使用される、ステップと
を備える、請求項1から11のいずれか一項に記載の方法。 - 前記第1の時間範囲が、前記取得時点から始まる第1のプリセット持続時間を伴う時間範囲であり、少なくとも1つの候補イベントが前記第1の時間範囲内で発生するか、または
前記第1の時間範囲が、複数の候補イベントの発生時間に基づいて決定され、前記複数の候補イベントのうちのいずれか2つの間の発生時間間隔が、第2のプリセット持続時間以下であり、
前記第1のイベントが前記複数の候補イベントのいずれか1つである、
請求項12に記載の方法。 - 前記N個の元の音節を決定する前記ステップが、
第3のマッピング関係情報に基づいて、前記第1のコーパスに対応する音節を前記N個の元の音節として決定するステップであって、前記第3のマッピング関係情報が、前記第1のコーパスを備える前記複数のコーパスに対応する音節を示すために使用される、ステップ
を備える、請求項1から11のいずれか一項に記載の方法。 - 音声認識方法であって、
第1の音声信号を取得するステップと、
フィルタリングモデルに基づいて前記第1の音声信号に対してフィルタリング処理を実行するステップであって、前記フィルタリングモデルが、請求項1から14のいずれか一項に記載の方法に従って取得される、ステップと、
前記音声認識エンジンに基づいて、前記フィルタリング処理によって取得された前記第1の音声信号に対して認識処理を実行するステップと
を備える、方法。 - 第1の音声信号を取得する前記ステップが、
第1のピックアップデバイスにより、前記第1の音声信号を取得するステップであって、前記第1のピックアップデバイスが、前記第1のコーパスの音声信号を取得するように構成されたピックアップデバイスである、ステップ
を備える、請求項15に記載の方法。 - 第1の音声信号を取得する前記ステップが、
前記フィルタリングモデルの訓練に使用される環境情報に基づいて前記第1の音声信号を取得するステップ
を備える、請求項15または16に記載の方法。 - 訓練デバイスであって、
コンピュータプログラムを記憶するように構成されたメモリと、
前記訓練デバイスが請求項1から14のいずれか一項に記載の方法を実行するように、前記メモリに記憶された前記コンピュータプログラムを実行するように構成されたプロセッサと
を備える、訓練デバイス。 - 音声認識デバイスであって、
コンピュータプログラムを記憶するように構成されたメモリと、
前記デバイスが請求項15から17のいずれか一項に記載の方法を実行するように、前記メモリに記憶された前記コンピュータプログラムを実行するように構成されたプロセッサと
を備える、音声認識デバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711065322.4 | 2017-11-02 | ||
CN201711065322.4A CN109754784B (zh) | 2017-11-02 | 2017-11-02 | 训练滤波模型的方法和语音识别的方法 |
PCT/CN2018/092114 WO2019085510A1 (zh) | 2017-11-02 | 2018-06-21 | 训练滤波模型的方法和语音识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021501912A JP2021501912A (ja) | 2021-01-21 |
JP7034279B2 true JP7034279B2 (ja) | 2022-03-11 |
Family
ID=66331309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020524466A Active JP7034279B2 (ja) | 2017-11-02 | 2018-06-21 | フィルタリングモデル訓練方法および音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11211052B2 (ja) |
EP (1) | EP3686882A4 (ja) |
JP (1) | JP7034279B2 (ja) |
CN (1) | CN109754784B (ja) |
WO (1) | WO2019085510A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754784B (zh) * | 2017-11-02 | 2021-01-29 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
CN112017075A (zh) * | 2019-05-31 | 2020-12-01 | 浙江口碑网络技术有限公司 | 菜品状态展示方法、装置、设备及可读存储介质 |
CN110428814B (zh) * | 2019-07-25 | 2022-03-01 | 杭州蓦然认知科技有限公司 | 一种语音识别的方法及装置 |
CN112614510B (zh) * | 2020-12-23 | 2024-04-30 | 北京猿力未来科技有限公司 | 一种音频质量评估方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002040926A (ja) | 2000-07-18 | 2002-02-08 | Korea Advanced Inst Of Sci Technol | インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法 |
JP2002156994A (ja) | 2000-10-10 | 2002-05-31 | Sony Internatl Europ Gmbh | 音声認識方法 |
JP2002366187A (ja) | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP2004206063A (ja) | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
JP2005242181A (ja) | 2004-02-27 | 2005-09-08 | Toshiba Corp | 語彙選定方法、語彙選定装置およびプログラム |
JP2008129028A (ja) | 2006-11-16 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体 |
US20100228548A1 (en) | 2009-03-09 | 2010-09-09 | Microsoft Corporation | Techniques for enhanced automatic speech recognition |
JP2015055653A (ja) | 2013-09-10 | 2015-03-23 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、電子機器 |
JP2017049537A (ja) | 2015-09-04 | 2017-03-09 | 株式会社東芝 | 操作装置、訂正方法およびプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126096A (ja) * | 1984-07-16 | 1986-02-05 | 富士通株式会社 | 音声認識単語の事前評価システム |
JP2545960B2 (ja) * | 1989-01-06 | 1996-10-23 | 日本電気株式会社 | 適応型音声認識用学習方式 |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
JP2001166789A (ja) * | 1999-12-10 | 2001-06-22 | Matsushita Electric Ind Co Ltd | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 |
JP3799280B2 (ja) * | 2002-03-06 | 2006-07-19 | キヤノン株式会社 | 対話システムおよびその制御方法 |
TW556150B (en) * | 2002-04-10 | 2003-10-01 | Ind Tech Res Inst | Method of speech segment selection for concatenative synthesis based on prosody-aligned distortion distance measure |
CN1741131B (zh) * | 2004-08-27 | 2010-04-14 | 中国科学院自动化研究所 | 一种非特定人孤立词语音识别方法 |
CN1296887C (zh) * | 2004-09-29 | 2007-01-24 | 上海交通大学 | 用于嵌入式自动语音识别系统的训练方法 |
CN101124623B (zh) * | 2005-02-18 | 2011-06-01 | 富士通株式会社 | 语音认证系统及语音认证方法 |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
US8135590B2 (en) * | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
US8015008B2 (en) * | 2007-10-31 | 2011-09-06 | At&T Intellectual Property I, L.P. | System and method of using acoustic models for automatic speech recognition which distinguish pre- and post-vocalic consonants |
US20110224985A1 (en) * | 2008-10-31 | 2011-09-15 | Ken Hanazawa | Model adaptation device, method thereof, and program thereof |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
US8401856B2 (en) * | 2010-05-17 | 2013-03-19 | Avaya Inc. | Automatic normalization of spoken syllable duration |
CN103680495B (zh) * | 2012-09-26 | 2017-05-03 | 中国移动通信集团公司 | 语音识别模型训练方法和装置及语音识别终端 |
CN103077714B (zh) * | 2013-01-29 | 2015-07-08 | 华为终端有限公司 | 信息的识别方法和装置 |
US9697826B2 (en) * | 2015-03-27 | 2017-07-04 | Google Inc. | Processing multi-channel audio waveforms |
CN107016994B (zh) * | 2016-01-27 | 2020-05-08 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN107195299A (zh) * | 2016-03-14 | 2017-09-22 | 株式会社东芝 | 训练神经网络声学模型的方法和装置及语音识别方法和装置 |
CN107195296B (zh) * | 2016-03-15 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
CN107103903B (zh) | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
CN109754784B (zh) * | 2017-11-02 | 2021-01-29 | 华为技术有限公司 | 训练滤波模型的方法和语音识别的方法 |
-
2017
- 2017-11-02 CN CN201711065322.4A patent/CN109754784B/zh active Active
-
2018
- 2018-06-21 EP EP18874826.3A patent/EP3686882A4/en active Pending
- 2018-06-21 JP JP2020524466A patent/JP7034279B2/ja active Active
- 2018-06-21 WO PCT/CN2018/092114 patent/WO2019085510A1/zh unknown
-
2020
- 2020-04-29 US US16/861,856 patent/US11211052B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002040926A (ja) | 2000-07-18 | 2002-02-08 | Korea Advanced Inst Of Sci Technol | インターネット上での自動発音比較方法を用いた外国語発音学習及び口頭テスト方法 |
JP2002156994A (ja) | 2000-10-10 | 2002-05-31 | Sony Internatl Europ Gmbh | 音声認識方法 |
JP2002366187A (ja) | 2001-06-08 | 2002-12-20 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP2004206063A (ja) | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
JP2005242181A (ja) | 2004-02-27 | 2005-09-08 | Toshiba Corp | 語彙選定方法、語彙選定装置およびプログラム |
JP2008129028A (ja) | 2006-11-16 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応化処理方法、音響モデル適応化処理装置、音響モデル適応化処理プログラム、記録媒体 |
US20100228548A1 (en) | 2009-03-09 | 2010-09-09 | Microsoft Corporation | Techniques for enhanced automatic speech recognition |
JP2015055653A (ja) | 2013-09-10 | 2015-03-23 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、電子機器 |
JP2017049537A (ja) | 2015-09-04 | 2017-03-09 | 株式会社東芝 | 操作装置、訂正方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11211052B2 (en) | 2021-12-28 |
EP3686882A4 (en) | 2021-03-31 |
US20200258499A1 (en) | 2020-08-13 |
CN109754784B (zh) | 2021-01-29 |
WO2019085510A1 (zh) | 2019-05-09 |
JP2021501912A (ja) | 2021-01-21 |
CN109754784A (zh) | 2019-05-14 |
EP3686882A1 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7034279B2 (ja) | フィルタリングモデル訓練方法および音声認識方法 | |
EP3750110B1 (en) | Methods and systems for intent detection and slot filling in spoken dialogue systems | |
EP3857543B1 (en) | Conversational agent pipeline trained on synthetic data | |
US20230197057A1 (en) | Speech Recognition Using Unspoken Text and Speech Synthesis | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
CN108682417B (zh) | 语音识别中的小数据语音声学建模方法 | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
US9460711B1 (en) | Multilingual, acoustic deep neural networks | |
CN113811946A (zh) | 数字序列的端到端自动语音识别 | |
CN111916070A (zh) | 经由深度前馈神经网络使用自然语言理解相关知识的语音识别 | |
Arora et al. | Phonological feature-based speech recognition system for pronunciation training in non-native language learning | |
Sehgal et al. | Model adaptation and adaptive training for the recognition of dysarthric speech | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
Yan et al. | End-to-end mispronunciation detection and diagnosis from raw waveforms | |
JP7393585B2 (ja) | テキスト読み上げのためのWaveNetの自己トレーニング | |
Ons et al. | Fast vocabulary acquisition in an NMF-based self-learning vocal user interface | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
Abraham et al. | An automated technique to generate phone-to-articulatory label mapping | |
Bhable et al. | Multilingual Acoustic modeling of Automatic Speech Recognition (ASR) for low resource languages | |
CN112863486B (zh) | 一种基于音素的口语评测方法、装置及电子设备 | |
Zhang et al. | Discriminatively trained sparse inverse covariance matrices for speech recognition | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム | |
US20220262364A1 (en) | Electronic apparatus and control method thereof | |
JP7173339B2 (ja) | 発話評価装置、発話評価方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200612 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200612 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034279 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |