JP7164098B2 - 音声を認識する方法及び装置 - Google Patents

音声を認識する方法及び装置 Download PDF

Info

Publication number
JP7164098B2
JP7164098B2 JP2021561604A JP2021561604A JP7164098B2 JP 7164098 B2 JP7164098 B2 JP 7164098B2 JP 2021561604 A JP2021561604 A JP 2021561604A JP 2021561604 A JP2021561604 A JP 2021561604A JP 7164098 B2 JP7164098 B2 JP 7164098B2
Authority
JP
Japan
Prior art keywords
pinyin
chinese character
mapping function
sample
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021561604A
Other languages
English (en)
Other versions
JP2022529268A (ja
Inventor
リー フー,
シャオシャオ リー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Publication of JP2022529268A publication Critical patent/JP2022529268A/ja
Application granted granted Critical
Publication of JP7164098B2 publication Critical patent/JP7164098B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

本発明はコンピュータ技術分野に関し、特に音声を認識する方法及び装置に関する。
現在、従来の漢字認識方法を用いて音声を認識する場合、漢字認識結果しか認識できず、従来のピンイン認識方法を用いて音声を認識する場合、ピンイン認識結果しか認識できない。
本発明を実現する過程において、発明者は、従来技術の中に少なくとも以下の問題が存在することを発見した:
同音字、多音字を含む又は発音が曖昧な音声を認識する場合、漢字認識結果しか認識できない又はピンイン認識結果しか認識できなければ、認識精度は高くない。同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証するために、当業者は漢字認識方法及びピンイン認識方法を用いてそれぞれ音声を認識し、漢字認識結果及びピンイン認識結果を得ることを容易に想到する。しかし2種類の認識方法を用いてそれぞれ音声を認識すると、高い認識コストが生じる。
この点に鑑み、本発明の実施例は、同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減できる音声を認識する方法及び装置を提供する。
上記目的を実現するために、本発明の実施例の一つの態様に基づき、音声を認識する方法を提供する。
本発明の実施例の音声を認識する方法は、漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成するステップ、予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成ステップ、及び、前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るステップを含む。
上記目的を実現するために、本発明の実施例の別の態様に基づき、音声を認識する装置を提供する。本発明の実施例の音声を認識する装置は、漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成するための生成ユニット、予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成するための処理ユニット、及び、前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るための認識ユニットを備える。
上記目的を実現するために、本発明の実施例のもう一つの態様に基づき、電子機器を提供する。本発明の実施例の電子機器は、一つの又は複数のプロセッサ、一つの又は複数のプログラムを記録するための記憶装置を備え、前記一つの又は複数のプログラムが前記一つの又は複数のプロセッサにより実行されるとき、前記一つの又は複数のプロセッサが本発明の実施例で提供する音声を認識する方法を実現する。
上記目的を実現するために、本発明の実施例のさらに一つの態様に基づき、コンピュータ読み取り可能な媒体を提供する。本発明の実施例のコンピュータプログラムが記憶されたコンピュータ読み取り可能な媒体は、前記プログラムがプロセッサにより実行されるとき、本発明の実施例で提供する音声を認識する方法を実現する。
上記発明の一つの実施例は以下の長所又は有益な效果を有する:設置された漢字係数の初期値に基づいて漢字マッピング関数を生成し、設置されたピンイン係数の初期値に基づいてピンインマッピング関数を生成し、予め設定された複数の学習サンプルを用いて漢字マッピング関数及びピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成し、ターゲットマッピング関数を用いて音声を認識することにより、2つの識別要求を送信することなく、2つの識別要求を処理する機器を配置することなく、漢字認識結果及びピンイン認識結果を同時に得ることができ、同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減でき、ユーザの意図に対する理解がずれる状況を減少させることができる。
上記の非慣用的な選択可能な方式が有する更なる效果について以下に発明を実施するための形態と合わせて説明する。
図面は本発明をより良く理解するためのものであって、本発明を限定するものではない。
図1は本発明の一つの実施例に基づく音声を認識する方法の主なフローチャートの概略図である。 図2は本発明の一つの実施例に基づく音声を認識する方法におけるディープ・ニューラル・ネットワークの概略図である。 図3は本発明の別の実施例に基づく音声を認識する方法の主なフローチャートの概略図である。 図4は本発明の別の実施例に基づく音声を認識する方法において漢字損失値及びピンイン損失値を計算する主なフローチャートの概略図である。 図5は本発明の別の実施例に基づく音声を認識する方法において結合損失値を計算する主なフローチャートの概略図である。 図6は本発明の別の実施例に基づく音声を認識する方法における漢字認識精度の概略図である。 図7は本発明の別の実施例に基づく音声を認識する方法におけるピンイン認識精度の概略図である。 図8は本発明の別の実施例に基づく音声を認識する方法における漢字損失値の概略図である。 図9は本発明の別の実施例に基づく音声を認識する方法におけるピンイン損失値の概略図である。 図10は本発明の実施例に基づく音声を認識する装置の主なユニットの概略図である。 図11は本発明の実施例が応用される例示的なシステムアーキテクチャ図である。 図12は本発明の実施例の端末機器又はサーバを実現するためのコンピュータシステムの構造概略図である。
以下に図面と合わせて本発明の模範的な実施例について説明する。その中には、理解しやすいように、本発明の実施例の各種の細部が含まれるが、これらは模範でしかないと理解されるべきである。よって、当業者にとって、本発明の範囲と思想を逸脱しない限り、ここに記述される実施例に対して各種の変更や修正を行うことができると理解されるべきである。同様に、明確及び簡潔にするために、以下の記述において公知的な機能及び構造に関する記述は省略される。
なお、衝突しない場合において、本発明の実施例及び実施例における特徴は互いに組み合わせることができる。
近年、人工知能技術の急速な発展に伴い、スマートカスタマセンタシステムは既に、例えば電子商取引、物流又は金融等の複数の分野に応用されている。自動音声認識(Automatic Speech Recognition、略称ASR)はスマートカスタマセンタシステムのコア技術の一つであり、自動音声認識の目的はユーザ音声をテキストに変換し、テキストによりユーザの意図を理解し、それに対する回答を出すことにあるため、自動音声認識の精度は非常に重要である。しかし、実際のカスタマセンタの対話において、ユーザ音声には、なまり、方言及び背景雑音等の多種な問題が存在し、正確な音声認識を実現する上で大きなハードルとなっている。
上記の問題を解決するために、従来の方法では混合ガウスモデル(Gaussian Mixture Model、略称GMM)及び隠れマルコフモデル(-Hidden Markov Model、略称HMM)を用いて音響モデルを構築し、被識別音声のスペクトルを音響モデルに入力し、発音状態を得て(発音状態は音節とすることができる)、発音状態に基づいて発音辞典(発音辞典は発音状態と認識結果の対応関係を記憶している)を調べ、認識結果を得る。従来の方法は音声の前後の依存状態関係を得ることにより(即ちタイミング信号の各タイムフレームの条件確率分布を得る)、音声認識を実現する。
ディープラーニング技術の急速な発展に伴い、ディープ・ニューラル・ネットワーク(Deep Neural Network、略称DNN)に基づく認識音声方法が現れ、当該方法は従来の方法に比べ、認識性能は著しく向上した。例えば、2015年、D. Amodei等が提案したディープスピーチ2(Deep Speech 2、略称DS2)である。従来の方法は音響モデルを構築し、音響モデルの出力を発音辞典の入力とするため、従来の方法には誤差累計の問題が存在するが、DS2はディープ・ニューラル・ネットワークに基づいて被識別音声のスペクトルと認識結果の対応関係を直接構築するため、DS2の認識精度がさらに向上した。
従来の方法でもDS2でも、一種の認識結果しか認識できない。つまり、漢字認識結果だけ、又はピンイン認識結果だけしか認識できない。同音字、多音字を含む又は発音が曖昧な音声を認識する場合、一種の認識結果しか認識できなければ、認識精度は高くなく、上記音声はユーザの肯定、否定又は鍵となる数字等の重要情報に関わるため、ユーザの意図に対する理解がずれる問題も生じ、ユーザの体験クオリティが低下する。同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証し、ユーザの意図に対する理解がずれる状況を減少させるために、漢字認識結果及びピンイン認識結果を認識し、漢字認識結果及びピンイン認識結果を組み合わせて最終的な認識結果を特定することができる(漢字認識結果及びピンイン認識結果を組み合わせて最終的な認識結果を特定するプロセスは従来技術である)。漢字認識結果及びピンイン認識結果を認識するために、当業者が容易に想到する方案は、従来の漢字認識方法を用いて一つのモデルを構築し、従来のピンイン認識方法を用いてもう一つのモデルを構築し、2つのモデルをそれぞれ学習し、学習後の2つのモデルを用いてそれぞれ認識する。しかし、モデル構築及びモデル学習にはコストがかかるため、従来技術には高い認識コストの問題が存在する。
従来技術に存在する問題を解決するために、本発明の一つの実施例は音声を認識する方法を提供する。図1に示されるように、当該方法は以下のステップを含む:
ステップS101:漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成する。
当該ステップにおいて、具体的に実施する時、図2に示されるように、漢字マッピング関数は三層の畳み込みニューラルネットワーク(ConvolutionalNeural Network、略称CNN)の演算関数、一層のゲート付き回帰型ユニットネットワーク(Gated Recurrent Unit、略称GRU)の演算関数及び二層の全結合型ネットワーク(Fully Connected、略称FC)の演算関数を含む。ピンインマッピング関数も三層の畳み込みニューラルネットワークの演算関数、一層のゲート付き回帰型ユニットネットワークの演算関数及び二層の全結合型ネットワークの演算関数を含む。漢字マッピング関数におけるCNN演算関数とピンインマッピング関数におけるCNN演算関数は同じであり、漢字マッピング関数におけるGRU演算関数とピンインマッピング関数におけるGRU演算関数は同じであるが、漢字マッピング関数におけるFC演算関数とピンインマッピング関数におけるFC演算関数は異なる。
以下に一つの具体的な例によりステップS101を説明する:
l1 = c(x、P1、O1)
l2 = c(l1、P2、O2)
l3 = c(l2、P3、O3)
但し、c(x、P1、O1)は第一層畳み込みニューラルネットワークの演算関数を表し、c(l1、P2、O2)は第二層畳み込みニューラルネットワークの演算関数を表し、c(l2、P3、O3)は第三層畳み込みニューラルネットワークの演算関数を表し、l1は第一層畳み込みニューラルネットワークの演算結果を表し、 l2は第二層畳み込みニューラルネットワークの演算結果を表し、 l3は第三層畳み込みニューラルネットワークの演算結果を表し、x はスペクトル(xは引数)を表し、P1は第一層畳み込みニューラルネットワークの畳み込みコアパラメータを表し、P2は第二層畳み込みニューラルネットワークの畳み込みコアパラメータを表し、P3は第三層畳み込みニューラルネットワークの畳み込みコアパラメータを表し、O1は第一層畳み込みニューラルネットワークのステップサイズパラメータを表し、O2は第二層畳み込みニューラルネットワークのステップサイズパラメータを表し、O3は第三層畳み込みニューラルネットワークのステップサイズパラメータを表す。c(x、P1、O1)、c(l1、P2、O2)及びc(l2、P3、O3)は従来の畳み込みニューラルネットワークの演算関数を用いればよい。
l4 = g(l3、 N1、 M1)
但し、g(l3、 N1、 M1)はゲート付き回帰型ユニットネットワークの演算関数を表し、l4はゲート付き回帰型ユニットネットワークの演算結果を表し、N1はゲート付き回帰型ユニットネットワークのパラメータを表し、M1表示ゲート付き回帰型ユニットネットワークの隠れ層数を表す。g(l3、 N1、 M1)は従来のゲート付き回帰型ユニットネットワークの演算関数を用いればよい。
l5_1 =W4_1*l4+b4_1
l5_2 =W4_2*l4+b4_2
但し、W4_1*l4+b4_1は漢字の第一層全結合型ネットワークの演算関数を表し、W4_2*l4+b4_2はピンインの第一層全結合型ネットワークの演算関数を表し、l5_1は漢字の第一層全結合型ネットワークの演算結果を表し、l5_2はピンインの第一層全結合型ネットワークの演算結果を表し、W4_1は漢字の第一層全結合型ネットワークの重み行列を表し、W4_2はピンインの第一層全結合型ネットワークの重み行列を表し、b4_1は漢字の第一層全結合型ネットワークのバイアスベクトルを表し、b4_2はピンインの第一層全結合型ネットワークのバイアスベクトルを表す。
l6_1 =W5_1*l5_1+b5_1
l6_2 =W5_2*l5_2+b5_2
但し、W5_1*l5_1+b5_1は漢字の第二層全結合型ネットワークの演算関数を表し、W5_2*l5_2+b5_2はピンインの第二層全結合型ネットワークの演算関数を表し、l6_1(l6_1は1つ目の従属変数である)は漢字の第二層全結合型ネットワークの演算結果を表し、l6_2(l6_2は2つ目の従属変数である)はピンインの第二層全結合型ネットワークの演算結果を表し、W5_1は漢字の第二層全結合型ネットワークの重み行列を表し、W5_2はピンインの第二層全結合型ネットワークの重み行列を表し、b5_1は漢字の第二層全結合型ネットワークのバイアスベクトルを表し、 b5_2はピンインの第二層全結合型ネットワークのバイアスベクトルを表す。
漢字係数(漢字係数はP1、O1、P2、O2、P3、O3、N1、M1、W4_1、b4_1、W5_1及びb5_1を含む)及びピンイン係数(ピンイン係数はP1、O1、P2、O2、P3、O3、N1、M1、W4_2、b4_2、W5_2及びb5_2を含む)の初期値を設置し、漢字係数の初期値を漢字の第二層全結合型ネットワークの演算関数に代入し、得られた関数を漢字マッピング関数とする。ピンイン係数の初期値をピンインの第二層全結合型ネットワークの演算関数に代入し、得られた関数をピンインマッピング関数とする。
ステップS102:予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成する。
当該ステップにおいて、複数の学習サンプルは3000種の漢字、1200種のピンインを含むことができ、学習サンプルが多いほど、漢字及びピンインの種類は多い。ステップS102の発明を実施するための形態は図3に示される実施例を参照できる。
ステップS103:前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得る。
当該ステップにおいて、具体的に実施する時、被識別音声のセッションに対して短時間フーリエ変換を行い、被識別音声のスペクトルを得て、被識別音声のスペクトルをターゲットマッピング関数のパラメータとして計算し、被識別音声の漢字認識結果及びピンイン認識結果を得る。
当該実施例において、設置された漢字係数の初期値に基づいて漢字マッピング関数を生成し、設置されたピンイン係数の初期値に基づいてピンインマッピング関数を生成し、予め設定された複数の学習サンプルを用いて漢字マッピング関数及びピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成し、ターゲットマッピング関数を用いて音声を認識することにより、2つの識別要求を送信することなく、2つの識別要求を処理する機器を配置することなく、漢字認識結果及びピンイン認識結果を同時に得ることができ、同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減でき、ユーザの意図する意味がずれる状況を減少させることができる。
従来技術に存在する問題を解決するために、本発明の別の実施例音声を認識する方法を提供する。当該実施例において、図1に示される実施例を基に、図3に示されるように、ステップS102は以下のステップを含む:
ステップS301:前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得る。
当該ステップにおいて、ステップS301の発明を実施するための形態は図4に示される実施例を参照できる。
ステップS302:各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得る。
当該ステップにおいて、結合損失関数は従来のコネクショニスト時系列分類(Connectionist Temporal Classification、略称CTC)損失関数に似ているが、結合損失関数のパラメータは漢字損失値及びピンイン損失値を含むのに対し、従来のコネクショニスト時系列分類損失関数のパラメータは漢字損失値しか含まない、又はピンイン損失値しか含まない点で異なる。ステップS302の発明を実施するための形態は図5に示される実施例を参照できる。
ステップS303:各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、前記ターゲット値に基づいてターゲットマッピング関数を生成する。
当該ステップにおいて、具体的に実施する時、各々の学習サンプルの結合損失値に基づいて適応モーメント推定方法(Adaptive Moment Estimation、略称ADAM)を用いて計算し、漢字係数のターゲット値及びピンイン係数のターゲット値を得る。適応モーメント推定方法は、従来の確率的勾配降下法に代わることができる一次最適化アルゴリズムである。
なお、漢字係数及びピンイン係数の初期値は任意に設置され、複数の学習サンプルの学習、結合損失関数計算、逆伝播アルゴリズム計算によって、漢字係数のターゲット値及びピンイン係数のターゲット値を得ることができると理解されるべきである。
ステップS101で挙げた例を基に、一つの具体的な例によりターゲット値に基づいてターゲットマッピング関数を生成することを説明する:漢字係数のターゲット値を漢字の第二層全結合型ネットワークの演算関数に代入し、得られた関数をターゲット漢字マッピング関数とし、ピンイン係数のターゲット値をピンインの第二層全結合型ネットワークの演算関数に代入し、得られた関数をターゲットピンインマッピング関数とし、ターゲットマッピング関数はターゲット漢字マッピング関数及びターゲットピンインマッピング関数を含む。
当該実施例において、漢字マッピング関数、ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得て、各々の学習サンプルの漢字損失値及びピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得て、各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、ターゲット値に基づいてターゲットマッピング関数を生成することにより、2つの識別要求を送信することなく、2つの識別要求を処理する機器を配置することなく、漢字認識結果及びピンイン認識結果を同時に認識でき、、さらに同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減でき、ユーザの意図に対する理解がずれる状況を減少させることができる。
本発明の実施例において、図4に示されるように、前記学習サンプルはサンプル音声のスペクトル、前記サンプル音声とマッチングする漢字及び前記サンプル音声とマッチングするピンインを含み、ステップS301は以下のステップを含む:
ステップS401:予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ前記漢字マッピング関数及び前記ピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得る。
当該ステップにおいて、学習サンプルは下記の方式により得ることができる:サンプル音声のセッションに対して短時間フーリエ変換を行えばサンプル音声のスペクトルを得ることができる。当該サンプル音声とマッチングする漢字(当該サンプル音声マッチングする漢字を人工注記した後、これに対してスクリーニングを行い、注記ミスを発見したらすぐに訂正しなければならない)及び当該サンプル音声とマッチングするピンイン(当該サンプル音声とマッチングするピンインはさらに漢字をピンインに変換するオープンソースツールを用いて当該サンプル音声とマッチングする漢字を変換して得ることもできる)を人工注記する。勿論、1セグメントのサンプル音声を用いて1つの学習サンプルしか得られない。
以下に一つの具体的な例により学習サンプルを説明する。学習サンプルの表現式は以下の通り:
Figure 0007164098000001

但し、i∈[1、s]、sは学習サンプルの数を表し、xiはサンプル音声のスペクトルを表し、yi hは当該サンプル音声とマッチングする漢字を表し、yi pは当該サンプル音声とマッチングするピンインを表す。
なお、サンプル音声に関するシーンが多いほど、学習サンプルの数は多く、本発明の実施例で提供する音声を認識する方法のロバスト性は良い。勿論、サンプル音声は金融カスタマセンタのシーンにおける音声とすることができ、すべてのサンプル音声の総時間は5000時間とすることができ、漢字、数字又はアルファベット等を含むことができ、サンプル音声のサンプリングレートは8kHzとすることができると理解されるべきである。
なお、学習サンプルの漢字認識結果と学習サンプル中の漢字とは差があり、同様に、学習サンプルのピンイン認識結果と学習サンプル中のピンインとは差があるが、本発明の実施例の目的は2つの差をできるだけ小さくして、漢字係数及びピンイン係数のターゲット値を得て、ターゲットマッピング関数を得ることにある。
ステップS101で挙げた例を基に、一つの具体的例により当該ステップを説明する:漢字マッピング関数中のスペクトルは引数であり、学習サンプル中のスペクトルを漢字マッピング関数の引数として計算し、学習サンプルの漢字認識結果(即ちl6_1)を得る。同様に、ピンインマッピング関数中のスペクトルも引数であり、学習サンプル中のスペクトルをピンインマッピング関数の引数として計算し、学習サンプルのピンイン認識結果(即ちl6_2)を得る。
ステップS402:当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とする。
当該ステップにおいて、当該学習サンプル中の漢字とは当該学習サンプルに含まれる前記サンプル音声とマッチングする漢字である。
ステップS403:当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とする。
当該ステップにおいて、当該学習サンプル中のピンインとは当該学習サンプルに含まれる前記サンプル音声とマッチングするピンインである。
当該実施例において、予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ漢字マッピング関数及びピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得て、当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とし、当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とし、学習サンプルの漢字損失値及びピンイン損失値から、ターゲットマッピング関数を得ることにより、2つの識別要求を送信することなく、2つの識別要求を処理する機器を配置することなく、漢字認識結果及びピンイン認識結果を同時に認識でき、さらに同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減でき、ユーザの意図に対する理解がずれる状況を減少させることができる。
本発明の実施例において、図5に示されるように、ステップS302は以下のステップを含む:
ステップS501:各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの前記漢字損失値の積を第1の数値とする。
当該ステップにおいて、漢字重みの値域は[0、1]である。
ステップS502:予め設定されたピンイン重みと当該学習サンプルの前記ピンイン損失値の積を第2の数値とし、但し、前記漢字重みと前記ピンイン重みの和は1である。
当該ステップにおいて、ピンイン重みの値域は[0、1]である。漢字重み及びピンイン重みを変えることによりターゲットマッピング関数の用途を変えることができる。例えば、もし漢字重みが0で、ピンイン重みが1である場合、ターゲットマッピング関数に基づいて認識し、ピンイン認識結果しか認識できない。もし漢字重みが1で、ピンイン重みが0である場合、ターゲットマッピング関数に基づいて認識し、漢字認識結果しか認識できない。もし漢字重みが0.5で、ピンイン重みが0.5である場合、ターゲットマッピング関数に基づいて認識し、ピンイン認識結果及び漢字認識結果を同時に認識できる。
漢字重みの値をそれぞれ0.25、0.5及び0.75とし、対応するピンイン重みの値をそれぞれ0.75、0.5及び0.25とし、漢字認識精度、ピンイン認識精度、漢字損失値及びピンイン損失値を得る。漢字認識精度は図6に示され、ピンイン認識精度は図7に示され、図6及び図7から、ターゲットマッピング関数は有効的にかつ速やかに収束でき、且つ漢字認識精度及びピンイン認識精度はどちらも80%より高く、そのうち、漢字認識精度は83%に収束し、ピンイン認識精度は87%に収束していることが分かる。漢字損失値は図8に示され、ピンイン損失値は図9に示され、図8及び図9から、漢字損失値は12.3に収束し、ピンイン損失値は9.3に収束していることが分かる。ここから、ピンイン認識精度は漢字認識精度よりも良いことが分かる。これは漢字の種類は3000であり、ピンインの種類は1200であり、漢字の種類がピンインの種類よりも多いためである。同時に、図6~図9から、結合損失値に関して、漢字重みの値は収束レートに比較的大きな影響があり、漢字重みの値が小さければ、収束レートは遅いが、最終的な収束結果に対する影響は小さいことが分かる。したがって、漢字重みの値は0.5とするのが最適であり、漢字損失値とピンイン損失値のバランスを取る。
ステップS503:前記漢字係数の初期値の2ノルムと前記ピンイン係数の初期値の2ノルムの和を第3の数値とし、前記第3の数値と予め設定された正則化項係数の積を第4の数値とする。
当該ステップにおいて、具体的に実施する時、正則化項係数を10-5とすることができる。正則化項係数の作用は漢字係数及びピンイン係数を抑制し、ターゲットマッピング関数が漢字係数及びピンイン係数が大きすぎることにより収束できないの防ぐことである。
ステップS504:前記第1の数値、前記第2の数値及び前記第4の数値の和を当該学習サンプルの結合損失値とする。
以下に一つの具体的な例により当該実施例を説明する:
結合損失関数の表現式は以下の通り:
Figure 0007164098000002

但し、Lは学習サンプルの結合損失値を表し、αは漢字重みを表し、(1-α)はピンイン重みを表し、βは正則化項係数を表し、Lhは学習サンプルの漢字損失値を表し、Lpは学習サンプルのピンイン損失値を表し、wkは漢字係数の初期値及びピンイン係数の初期値を表す。
漢字重みを0.5とし、ピンイン重みを0.5とし、正則化項係数を10-5とする。
各々の学習サンプルに対して、当該学習サンプルの漢字損失値、当該学習サンプルのピンイン損失値、漢字重み(0.5)、ピンイン重み(0.5)、正則化項係数(10-5)及び予め設置された漢字係数及びピンイン係数の初期値を結合損失関数の表現式に代入して計算し、当該学習サンプルの結合損失値を得る。
当該実施例において、各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの漢字損失値の積を第1の数値とし、予め設定されたピンイン重みと当該学習サンプルのピンイン損失値の積を第2の数値とし、但し、漢字重みとピンイン重みの和は1であり、漢字係数の初期値の2ノルムとピンイン係数の初期値の2ノルムの和を第3の数値とし、第3の数値と予め設定された正則化項係数の積を第4の数値とし、第1の数値、第2の数値及び第4の数値の和を当該学習サンプルの結合損失値とする。学習サンプルの結合損失値から、ターゲットマッピング関数を得ることにより、2つの識別要求を送信することなく、2つの識別要求を処理する機器を配置することなく、漢字認識結果及びピンイン認識結果を同時に認識でき、さらに同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減でき、ユーザの意図に対する理解がずれる状況を減少させることができる。
本発明の実施例において、ステップS103は以下のステップを含む:
被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得る。
前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得る。
当該実施例において、ステップS303で挙げた例を基に、一つの具体な例により、被識別音声のスペクトルをターゲットマッピング関数のパラメータとして計算し、被識別音声の漢字認識結果及びピンイン認識結果を得ることを説明する:ターゲット漢字マッピング関数中のスペクトルは引数であり、ターゲットピンインマッピング関数中のスペクトルは引数であり、被識別音声のスペクトルをそれぞれターゲット漢字マッピング関数及びターゲットピンインマッピング関数の引数として計算し、被識別音声の漢字認識結果(即ちl6_1)及びピンイン認識結果(即ちl6_2)を得る。
短時間フーリエ変換(Short-Time Fourier Transform、略称STFT)のウィンドウサイズは20msであり、ウィンドウステップサイズは10msであるため、得られた被識別音声のスペクトルは81次元スペクトル情報シーケンスである。短時間フーリエ変換は時変信号の局所領域正弦波の周波数と位相を特定するためのフーリエ変換方法である。
当該実施例において、被識別音声のセッションに対して短時間フーリエ変換を行い、被識別音声のスペクトルを得て、またそれをターゲットマッピング関数のパラメータとして計算することにより、2つの識別要求を送信することなく、2つの識別要求を処理する機器を配置することなく、被識別音声の漢字認識結果及びピンイン認識結果を得ることができ、さらに同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減できる。
なお、本発明の実施例は漢字認識方法で用いるモデル及びピンイン認識方法で用いるモデルを一つに合わせ、一つに合わせられたモデルに対して漢字認識学習及びピンイン認識学習を同時に行い、漢字認識結果及びピンイン認識結果のターゲットマッピング関数を同時に認識でき、認識コストを削減できると理解されるべきである。
以上、図1~図9と合わせて音声を認識する方法について説明した。以下、図10と合わせて音声を認識する装置について説明する。
従来技術に存在する問題を解決するために、本発明の実施例は音声を認識する装置を提供する。図10に示されるように、当該装置は以下のユニットを備える:
生成ユニット1001:漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成する。
処理ユニット1002:予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成する。
認識ユニット1003:前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得る。
本発明の実施例において、前記処理ユニット1002は、
前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得て、
各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得て、
各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、前記ターゲット値に基づいてターゲットマッピング関数を生成するためのものである。
本発明の実施例において、前記学習サンプルはサンプル音声のスペクトル、前記サンプル音声とマッチングする漢字及び前記サンプル音声とマッチングするピンインを含み、
前記処理ユニット1002は、
予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ前記漢字マッピング関数及び前記ピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得て、
当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とし、
当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とするためのものである。
本発明の実施例において、前記処理ユニット1002は、
各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの前記漢字損失値の積を第1の数値とし、
予め設定されたピンイン重みと当該学習サンプルの前記ピンイン損失値の積を第2の数値とし、但し、前記漢字重みと前記ピンイン重みの和は1であり、
前記漢字係数の初期値の2ノルムと前記ピンイン係数の初期値の2ノルムの和を第3の数値とし、前記第3の数値と予め設定された正則化項係数の積を第4の数値とし、
前記第1の数値、前記第2の数値及び前記第4の数値の和を当該学習サンプルの結合損失値とするためのものである。
本発明の実施例において、前記認識ユニット1003は、
被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得て、
前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るためのものである。
なお、本発明の実施例で提供する音声を認識する装置の各部材が実行する機能は既に上記実施例の音声を認識する方法の中で詳細に紹介したと理解されるため、ここでは繰り返し説明しない。
図11は本発明の実施例の音声を認識する方法又は音声を認識する装置が応用される例示的なシステムアーキテクチャ1100である。
図11に示されるように、システムアーキテクチャ1100は端末機器1101、1102、1103、ネットワーク1104及びサーバ1105を含むことができる。ネットワーク1104は端末機器1101、1102、1103及びサーバ1105の間で通信リンクを提供するための媒体である。ネットワーク1104は例えば有線、無線通信リンク又は光ファイバケーブル等の各種接続形態を含むことができる。
ユーザは端末機器1101、1102、1103を用いてネットワーク1104とサーバ1105によりインタラクティブし、情報の送受信などを行うことができる。
端末機器1101、1102、1103はディスプレイを有し、且つウェブブラウジングをサポートする各種電子機器とすることができ、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ及びデスクトップコンピュータ等が挙げられる。
サーバ1105は各種サービスを提供するサーバとすることができ、例えばユーザが端末機器1101、1102、1103を用いて閲覧するショッピングサイトにサポートを提供するバックグラウンド管理サーバとすることができる(一例として)。バックグラウンド管理サーバは受信した商品情報の問い合わせ要求等のデータに対して分析等の処理を行い、処理結果(例えばターゲットプッシュ情報、商品情報、一例として)を端末機器にフィードバックできる。
なお、本発明の実施例で提供する音声を認識する方法は一般的にサーバ1105により実行され、これに応じて、音声を認識する装置は一般的にサーバ1105内に設置される。
なお、図11における端末機器、ネットワーク及びサーバの数は概略的ものである。実現要求に応じて、任意の数の端末機器、ネットワーク及びサーバを有することができると理解されるべきである。
以下に図12を参照する。図12は本発明の実施例の端末機器を実現するためのコンピュータシステム1200の構造概略図である。図12が示す端末機器は一例であり、本発明の実施例の機能及び使用範囲を何ら制限するものではない。
図12に示されるように、コンピュータシステム1200は中央処理装置(CPU)1201を備え、これはリードオンリーメモリ(ROM)1202に記憶されたプログラム又は記憶部1208からランダムアクセスメモリ(RAM)1203にロードされたプログラムに基づいて各種適切な動作及び処理を実行できる。RAM1203にはさらに、システム1200の操作に必要な各種プログラム及びデータが記憶されている。CPU 1201、ROM 1202及びRAM1203はバス1204により互いに接続される。出入力(I/O)インターフェース1205もバス1204に接続される。
以下の部材がI/Oインターフェース1205に接続される:キーボードやマウス等を含む入力部1206、陰極線管(CRT)や液晶ディスプレイ(LCD)等及びスピーカ等を含む出力部1207、ハードディスク等を含む記憶部1208、及びLANカードやモデム等のネットワークインターフェイスカードを含む通信部1209など。通信部1209はインターネット等のネットワークにより通信処理を実行する。ドライブ1210も必要に応じてI/Oインターフェース1205に接続される。読み出されるコンピュータプログラムが必要に応じて記憶部1208にインストールされるように、リムーバブルメディア1211、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等は必要に応じてドライブ1210にインストールされる。
特に、本発明に開示された実施例に基づき、上記においてフローチャートを参照して記述したプロセスはコンピュータソフトウエアプログラムとして実現できる。例えば、本発明に開示された実施例はコンピュータプログラム製品を含み、これはコンピュータ読み取り可能な媒体に搭載されたコンピュータプログラムを含み、当該コンピュータプログラムはフローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは通信部1209によりネットワークからダウンロード及びインストールされる、及び/又はリムーバブルメディア1211からインストールされることができる。当該コンピュータプログラムが中央処理装置(CPU)1201により実行される時、本発明のシステムにおいて限定される上記機能を実行する。
なお、本発明に示されるコンピュータ読み取り可能な媒体はコンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体又は上記両者の任意の組み合わせとすることができる。コンピュータ読み取り可能な記憶媒体としては、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、又は上記の任意の組み合わせ等とすることができる。コンピュータ読み取り可能な記憶媒体の更なる具体的な例としては、一つの又は複数の導線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせ等とすることができる。本発明において、コンピュータ読み取り可能な記憶媒体としては、プログラムを含む又は記憶した如何なる有形媒体とすることができ、当該プログラムは命令実行システム、装置又はデバイスにより使用される又はその組み合わせにより使用されることができる。本発明においては、コンピュータ読み取り可能な信号媒体はベースバンド又は搬送波の一部として伝搬されるデータ信号を含むことができ、その中にコンピュータ読み取り可能なプログラムコードが搭載される。このように伝搬されるデータ信号は複数の形式を採用することができ、電磁気信号、光信号又は上記の任意の適切な組み合わせ等とすることができる。コンピュータ読み取り可能な信号媒体はさらにコンピュータ読み取り可能な記憶媒体以外のコンピュータ読み取り可能な如何なる媒体とすることができ、当該コンピュータ読み取り可能な媒体は命令実行システム、装置又はデバイスにより使用される又はその組み合わせにより使用されるプログラムを送信、伝播又は伝送することができる。コンピュータ読み取り可能な媒体に含まれるプログラムコードは如何なる適切な媒体を用いて伝送することができ、無線、電線、光ケーブル、RF等、又は上記の任意の適切な組み合わせとすることができる。
図中のフローチャート及びブロック図は、本発明の各種実施例に基づくシステム、方法及びコンピュータプログラム製品が実現可能なアーキテクチャ、機能及び操作を示す。この点において、フローチャート又はブロック図中の各ブロックは一つのユニット、プログラムセグメント、又はコードの一部分を表すことができ、上記ユニット、プログラムセグメント、又はコードの一部分は所定の論理機能を実現するための一つの又は複数の実行可能な指令を含む。なお、一部の差し替え案の実現において、ブロック中に注記される機能は図面に注記される順番と異なる順番で発生してもよい。例えば、2つの連続表示されているブロックは実際に基本的に並行して実行されてもよく、場合によっては逆の順番で実行されてもよく、関連する機能により決められる。また、ブロック図又はフローチャート中の各ブロック、及びブロック図又はフローチャート中のブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウエアに基づくシステムにより実現することができ、又は専用ハードウエアとコンピュータ指令の組み合わせにより実現することができる。
本発明の実施例において記述される関連のユニットはソフトウエアにより実現しても、ハードウエアにより実現してもよい。記述されるユニットはプロセッサに設置されてもよく、例えば、プロセッサは生成ユニット、処理ユニット及び認識ユニットを備えると記述することもできる。そのうち、これらユニットの名称はある場合において当該ユニット自身に対する限定にはならず、例えば、認識ユニットはさらに“前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るユニット”と記述することもできる。
別の態様において、本発明はさらにコンピュータ読み取り可能な媒体を提供する。当該コンピュータ読み取り可能な媒体は上記実施例において記述された機器に含まれても、当該機器に取り付けられずに、単独で存在してもよい。上記コンピュータ読み取り可能な媒体は1つ又は複数のプログラムを搭載し、上記1つ又は複数のプログラムが一つの当該機器により実行される時、当該機器は、漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成し、予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成し、前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得ることを含む。
本発明の実施例の技術方案によれば、設置された漢字係数の初期値に基づいて漢字マッピング関数を生成し、設置されたピンイン係数の初期値に基づいてピンインマッピング関数を生成し、予め設定された複数の学習サンプルを用いて漢字マッピング関数及びピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成し、ターゲットマッピング関数を用いて音声を認識することにより、2つの識別要求を送信することなく、2つの識別要求を処理する機器を配置することなく、漢字認識結果及びピンイン認識結果を同時に得ることができ、同音字、多音字を含む又は発音が曖昧な音声に対する認識精度を保証できるとともに認識コストを削減でき、ユーザの意図に対する理解がずれる状況を減少させることができる。
上記発明を実施するための形態は本発明の保護範囲を限定するものではない。当業者にとって、設計要求及び他の要素により、様々な修正、コンビネーション、サブコンビネーション及び替代を行うことができることは明らかである。本発明の思想及び原則を逸脱せずに行われる如何なる修正、均等的な差し替え及び改良等もすべて本発明の保護範囲内に入ると理解されるべきである。

Claims (12)

  1. 音声を認識する方法であって、
    漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成するステップ、
    予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成するステップ、及び、
    前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るステップ、
    を含む、
    方法。
  2. 前記予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成するステップは、
    前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得るステップ、
    各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得るステップ、及び、
    各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、前記ターゲット値に基づいてターゲットマッピング関数を生成するステップ、
    を含む、
    請求項1に記載の方法。
  3. 前記学習サンプルはサンプル音声のスペクトル、前記サンプル音声とマッチングする漢字及び前記サンプル音声とマッチングするピンインを含み、
    前記の前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得るステップは、
    予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ前記漢字マッピング関数及び前記ピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得るステップ、
    当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とするステップ、及び、
    当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とするステップ、
    を含む、
    請求項2に記載の方法。
  4. 前記各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得るステップは、
    各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの前記漢字損失値の積を第1の数値とし、
    予め設定されたピンイン重みと当該学習サンプルの前記ピンイン損失値の積を第2の数値とし、但し、前記漢字重みと前記ピンイン重みの和は1であり、
    前記漢字係数の初期値の2ノルムと前記ピンイン係数の初期値の2ノルムの和を第3の数値とし、前記第3の数値と予め設定された正則化項係数の積を第4の数値とし、
    前記第1の数値、前記第2の数値及び前記第4の数値の和を当該学習サンプルの結合損失値とすることを含む、
    請求項2に記載の方法。
  5. 前記の前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るステップは、
    被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得て、
    前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得ることを含む、
    請求項1に記載の方法。
  6. 漢字係数及びピンイン係数の初期値をそれぞれ設置し、漢字係数の初期値に基づいて漢字マッピング関数を生成し、ピンイン係数の初期値に基づいてピンインマッピング関数を生成するための生成ユニット、
    予め設定された複数の学習サンプルを用いて前記漢字マッピング関数及び前記ピンインマッピング関数を学習し、学習結果を結合損失関数のパラメータとして計算し、計算結果に基づいてターゲットマッピング関数を生成するための処理ユニット、及び、
    前記ターゲットマッピング関数に基づいて被識別音声を認識し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るための認識ユニット、
    を備える、
    音声を認識する装置。
  7. 前記処理ユニットは、
    前記漢字マッピング関数、前記ピンインマッピング関数及び予め設定された複数の学習サンプルに基づいて各々の学習サンプルの漢字損失値及びピンイン損失値を得て、
    各々の学習サンプルの前記漢字損失値及び前記ピンイン損失値を結合損失関数のパラメータとして計算し、各々の学習サンプルの結合損失値を得て、
    各々の学習サンプルの前記結合損失値に基づいて逆伝播アルゴリズムを用いて計算し、漢字係数及びピンイン係数のターゲット値を得て、前記ターゲット値に基づいてターゲットマッピング関数を生成するためのものである、
    請求項6に記載の装置。
  8. 前記学習サンプルはサンプル音声のスペクトル、前記サンプル音声とマッチングする漢字及び前記サンプル音声とマッチングするピンインを含み、
    前記処理ユニットは、
    予め設定された各々の学習サンプルに対して、当該学習サンプル中のスペクトルをそれぞれ前記漢字マッピング関数及び前記ピンインマッピング関数のパラメータとして計算し、当該学習サンプルの漢字認識結果及びピンイン認識結果を得て、
    当該学習サンプルの漢字認識結果と当該学習サンプル中の漢字の差を当該学習サンプルの漢字損失値とし、
    当該学習サンプルのピンイン認識結果と当該学習サンプル中のピンインの差を当該学習サンプルのピンイン損失値とするためのものである、
    請求項7に記載の装置。
  9. 前記処理ユニットは、
    各々の学習サンプルに対して、予め設定された漢字重みと当該学習サンプルの前記漢字損失値の積を第1の数値とし、
    予め設定されたピンイン重みと当該学習サンプルの前記ピンイン損失値の積を第2の数値とし、但し、前記漢字重みと前記ピンイン重みの和は1であり、
    前記漢字係数の初期値の2ノルムと前記ピンイン係数の初期値の2ノルムの和を第3の数値とし、前記第3の数値と予め設定された正則化項係数の積を第4の数値とし、
    前記第1の数値、前記第2の数値及び前記第4の数値の和を当該学習サンプルの結合損失値とするためのものである、
    請求項7に記載の装置。
  10. 前記認識ユニットは、
    被識別音声のセッションに対して短時間フーリエ変換を行い、前記被識別音声のスペクトルを得て、
    前記被識別音声のスペクトルを前記ターゲットマッピング関数のパラメータとして計算し、前記被識別音声の漢字認識結果及びピンイン認識結果を得るためのものである、
    請求項6に記載の装置。
  11. 一つの又は複数のプロセッサ、及び
    一つの又は複数のプログラムを記録するための記憶装置
    を備え、
    前記一つの又は複数のプログラムが前記一つの又は複数のプロセッサにより実行されるとき、前記一つの又は複数のプロセッサが請求項1~5のいずれか一項に記載の方法を実現する、
    電子機器。
  12. プロセッサにより実行されるとき請求項1~5のいずれか一項に記載の方法を実現するコンピュータプログラムが記憶されたコンピュータ読み取り可能な媒体。

JP2021561604A 2019-04-29 2020-03-03 音声を認識する方法及び装置 Active JP7164098B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910354527.7A CN111862961A (zh) 2019-04-29 2019-04-29 识别语音的方法和装置
CN201910354527.7 2019-04-29
PCT/CN2020/077590 WO2020220824A1 (zh) 2019-04-29 2020-03-03 识别语音的方法和装置

Publications (2)

Publication Number Publication Date
JP2022529268A JP2022529268A (ja) 2022-06-20
JP7164098B2 true JP7164098B2 (ja) 2022-11-01

Family

ID=72966440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021561604A Active JP7164098B2 (ja) 2019-04-29 2020-03-03 音声を認識する方法及び装置

Country Status (4)

Country Link
US (1) US20220238098A1 (ja)
JP (1) JP7164098B2 (ja)
CN (1) CN111862961A (ja)
WO (1) WO2020220824A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11257486B2 (en) * 2020-02-28 2022-02-22 Intuit Inc. Machine learning to propose actions in response to natural language questions
CN112800748B (zh) * 2021-03-30 2023-05-12 平安科技(深圳)有限公司 适用于多音字的音素预测方法、装置、设备及存储介质
CN113284499A (zh) * 2021-05-24 2021-08-20 湖北亿咖通科技有限公司 一种语音指令识别方法及电子设备
WO2023177063A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 사운드를 인식하는 전자 장치 및 그 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180247639A1 (en) 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for automatic unit selection and target decomposition for sequence labelling

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
CN107016994B (zh) * 2016-01-27 2020-05-08 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN108510976B (zh) * 2017-02-24 2021-03-19 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
US10657955B2 (en) * 2017-02-24 2020-05-19 Baidu Usa Llc Systems and methods for principled bias reduction in production speech models
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN108564963B (zh) * 2018-04-23 2019-10-18 百度在线网络技术(北京)有限公司 用于增强语音的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180247639A1 (en) 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for automatic unit selection and target decomposition for sequence labelling

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chan et al.,On Online Attention-based Speech Recognition and Joint Mandarin Character-Pinyin Training,INTERSPEECH 2016,2016年09月12日

Also Published As

Publication number Publication date
WO2020220824A1 (zh) 2020-11-05
JP2022529268A (ja) 2022-06-20
US20220238098A1 (en) 2022-07-28
CN111862961A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
JP7164098B2 (ja) 音声を認識する方法及び装置
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN108475505B (zh) 使用部分条件从输入序列生成目标序列
CN108630190B (zh) 用于生成语音合成模型的方法和装置
CN107610709B (zh) 一种训练声纹识别模型的方法及系统
CN107481717B (zh) 一种声学模型训练方法及系统
US10832658B2 (en) Quantized dialog language model for dialog systems
CN110600018A (zh) 语音识别方法及装置、神经网络训练方法及装置
US11282498B2 (en) Speech synthesis method and speech synthesis apparatus
KR20200044388A (ko) 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법
EP4109324A2 (en) Method and apparatus for identifying noise samples, electronic device, and storage medium
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
JP2020086436A (ja) 人工神経網における復号化方法、音声認識装置及び音声認識システム
US20230237993A1 (en) Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models
CN116250038A (zh) 变换器换能器:一种统一流式和非流式语音识别的模型
KR20190136578A (ko) 음성 인식 방법 및 장치
CN114495956A (zh) 语音处理方法、装置、设备及存储介质
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
CN113963679A (zh) 一种语音风格迁移方法、装置、电子设备及存储介质
CN113160820A (zh) 语音识别的方法、语音识别模型的训练方法、装置及设备
US20230005466A1 (en) Speech synthesis method, and electronic device
EP4024393A2 (en) Training a speech recognition model
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
KR20220133064A (ko) 대화 요약 모델 학습 장치 및 방법
CN113920987A (zh) 一种语音识别的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20211018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211013

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20211215

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20211018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221011

R150 Certificate of patent or registration of utility model

Ref document number: 7164098

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150