JP7028203B2 - 音声認識装置、音声認識方法、プログラム - Google Patents

音声認識装置、音声認識方法、プログラム Download PDF

Info

Publication number
JP7028203B2
JP7028203B2 JP2019020396A JP2019020396A JP7028203B2 JP 7028203 B2 JP7028203 B2 JP 7028203B2 JP 2019020396 A JP2019020396 A JP 2019020396A JP 2019020396 A JP2019020396 A JP 2019020396A JP 7028203 B2 JP7028203 B2 JP 7028203B2
Authority
JP
Japan
Prior art keywords
word sequence
recognized
utterance
sequence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019020396A
Other languages
English (en)
Other versions
JP2020129015A (ja
Inventor
亮 増村
智大 田中
隆伸 大庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019020396A priority Critical patent/JP7028203B2/ja
Priority to US17/428,959 priority patent/US12057105B2/en
Priority to PCT/JP2020/002648 priority patent/WO2020162238A1/ja
Publication of JP2020129015A publication Critical patent/JP2020129015A/ja
Priority to JP2021188475A priority patent/JP7160170B2/ja
Application granted granted Critical
Publication of JP7028203B2 publication Critical patent/JP7028203B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識装置、音声認識方法、プログラムに関する。
深層学習技術の進展に伴い、入力を音声とし、出力をテキストとするend-to-end音声認識と呼ばれる音声認識のモデル化方法が登場し、技術的な進展が進んでいる。これまで広く用いられてきた音声認識は、音声と音素系列の関係をモデル化した音響モデル、音素系列と単語の関係をモデル化した発音モデル、単語間の関係をモデル化した言語モデルという3つのモデルの組み合わせにより構成され、各モデルをそれぞれ異なるデータを用いて独立に学習しておくことで音声認識アルゴリズム(装置)を構成していた。一方、end-to-end音声認識は、音声とテキストの関係をモデル化したモデル1つのみで音声認識アルゴリズム(装置)を構成することができ、学習に用いるデータも音声とテキストのペアデータのみである。
従来技術の構成について述べる。end-to-end音声認識の入力となる音声から自動抽出できる音響特徴量系列をX=(x1,…,xT)、出力となる単語系列をW=(w1,…,wN)とし、P(W|X,θ)をモデル化する。ここで、θはモデルパラメータを表す。P(W|X,θ)のモデル化は次式で表される。
Figure 0007028203000001
このモデル化による音声認識アルゴリズム(装置)では、音響特徴量系列Xが入力された時の音声認識結果の単語系列W^を次式に基づき決定する。
Figure 0007028203000002
モデルパラメータθは、複数(2つ以上)の単語系列と音響特徴量系列の組の集合からなる学習データD=(W1,X1),…,(W|D|,X|D|)(ただし、|D|は学習データDの要素数)に基づいて、事前に学習することにより決定される。Dにより最適化されたパラメータθ^は次式に従う。
Figure 0007028203000003
詳細なモデル化には、様々な方法を採用することができる。例えば、ニューラルネットワークを用いた方法が代表的であり、非特許文献1や非特許文献2の方法を用いることができる。
Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, "End-to-end continuous speech recognition using attention-based recurrent NN: first results," in NIPS: Workshop Deep Learning and Representation Learning Workshop, 2014. Jan Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho, and Yoshua Bengio, "Attention-based models for speech recognition," in Advances in Neural Information Processing Systems (NIPS), 2015, pp. 577-585.
上述の従来技術は単一発話の音声を音声認識する問題をモデル化したものであり、連続した複数発話から構成される音声系列を音声認識する場合においても、複数発話中のそれぞれの音声を音声認識する場合において、複数発話の発話間の関係を全く利用することができない。すなわち、過去の発話の音声入力に対してどのような単語系列を出力してきたかといった情報を、現在の発話の音声認識を行う際に考慮することができないという課題がある。
具体例を挙げて説明する。例えば、10分程度の講演音声を音声認識する場面において、この講演音声を無音が0.5秒存在するごとに区切り、合計200発話の音声が含まれていた場合を想定する。この200発話は連続した系列であり、連続した発話は互いに関連する情報についての発話である可能性が高いと考えられる。しかしながら、従来技術を適用すると200発話を各発話それぞれ独立に音声認識することになり、文脈情報を音声認識に利用できない。例えば、100発話目が「今期の業績は素晴らしいですね」という発話であったものとし、101発話目が「すばらしいせいかです」という発話であった場合、100発話目を文脈として考慮できれば、101発話目を「素晴らしい成果です」と音声認識できる可能性が高いが、100発話目を文脈として考慮できない場合は、101発話目を「素晴らしい製菓です」や「素晴らしい聖火です」などと誤認識する可能性がある。
例えば、すべての発話(上述の例では200発話)をまとめて、発話長が長い1発話として扱うことで上記の課題を解決することを想定する。この場合、end-to-end音声認識アルゴリズム(装置)は音声全体をベクトルに変換して扱う仕組みであるために、発話長が長い発話に対してうまく動作しない問題が招来する。すべての発話をまとめて1発話として、end-to-end音声認識アルゴリズム(装置)で扱うことは、非現実的である。従って従来は、文脈を考慮したend-to-end音声認識が実現できない点が課題であった。
そこで本発明では、文脈を考慮したend-to-end音声認識を実現できる音声認識装置を提供することを目的とする。
本発明の音声認識装置は、モデルパラメータ学習部と、発話音声認識部を含む。
モデルパラメータ学習部は、時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤推定を行うことにより、モデルパラメータθを学習する。
発話音声認識部は、時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みのモデルパラメータθをパラメータとし、パラメータの下で観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す。
本発明の音声認識装置によれば、文脈を考慮したend-to-end音声認識を実現できる。
実施例1の音声認識装置の構成を示すブロック図。 実施例1の音声認識装置の動作を示すフローチャート。 実施例1の音声認識装置の発話音声認識部の構成を示すブロック図。 実施例1の音声認識装置の発話音声認識部の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、本実施例の音声認識装置1(最小構成、図1の破線枠内の構成を参照)を説明する。ここでは、モデルパラメータθを音声認識装置1とは別の装置で予め学習してあるものとする。
なお、この明細書では、文書作成ソフトの都合上、文字の後ろに「^」を付す場合があるが、この「^」は、当該文字の上に表示されているものとして扱う。例えば、WL^と表記する場合
Figure 0007028203000004
を意味するものとする。
<音声認識装置1(最小構成)の入力、出力、動作の概要>
入力1:L個の連続した発話の音響特徴量系列の系列X1,…,XL
入力2:モデルパラメータθ(別装置で学習し、本装置に入力)
出力:L個の連続した単語系列の系列W1^,…,WL^
本実施例の音声認識装置1は、L個の連続した発話の音響特徴量系列の系列X1,…,XLと、モデルパラメータθを入力とし、モデルパラメータθに従った確率計算により、L個の連続した単語系列の系列W1^,…,WL^を出力する。ここでは、end-to-end音声認識の入力となるL個の連続した発話の音声系列から自動抽出できる音響特徴量系列の系列をX1,…,XLとする。ここでXlはl番目の発話の音響特徴量系列であり、Xl=(xl 1,…,xl Tl)として表される。出力となる単語系列の系列をW1^,…,WL^、ここでWl^はl番目の発話の単語系列であり、
Figure 0007028203000005
として表される。
ここで、音響特徴量系列には、音声から計算できる任意の特徴量系列を利用することができるが、例えばメルフィルタバンクケプストラム係数や、対数メルフィルタバンクといった特徴量系列を用いることができる。メルフィルタバンクケプストラム係数や対数メルフィルタバンクの説明は割愛する。
単語系列は、英語の場合は例えばスペース区切りの表現、日本語であれば例えば形態素解析により自動分割された表現、または文字単位に区切った表現を単語系列としてもよい。
次に、図1を参照して実施例1の音声認識装置の一般的な構成について説明する。なお、ここでは、モデルパラメータθを音声認識装置1内で学習するものとする。同図に示すように本実施例の音声認識装置1は、モデルパラメータ学習部11とモデルパラメータ記憶部11aと、発話音声認識部12と、単語系列記憶部12aを含む。ただし上述したように、モデルパラメータ学習部11とモデルパラメータ記憶部11aは別装置の構成要件としてもよい。以下、図2を参照して各構成要件の動作を説明する。
<モデルパラメータ学習部11>
入力:複数(2つ以上)の単語系列の系列と音響特徴量系列の系列の組の集合である学習データD=(A1,B1),…,(A|D|,B|D|)
出力:モデルパラメータθ
モデルパラメータ学習部11は、複数(2つ以上)の時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データD=(A1,B1),…,(A|D|,B|D|)に基づき、注目している単語系列(次式のWl)を観測値とし、注目している単語系列よりも過去の単語系列(次式のW1,...,Wl-1)、および注目している単語系列(次式のWl)に対応する音響特徴量系列(次式のXl)、およびモデルパラメータθをパラメータとし、パラメータ(次式のW1,...,Wl-1,Xl,θ)の下で観測値(次式のWl)が生起する確率の尤度関数について最尤推定を行うことにより、モデルパラメータθを学習する(S11)。なお(Am,Bm)={(W1,X1),…,(WLm,XLm)}である。Dにより最適化されたパラメータθ^は次式に従う。
Figure 0007028203000006
ここで学習されたθ^を発話音声認識部12におけるθとして用いる。
<モデルパラメータ記憶部11a>
モデルパラメータ記憶部11aは、学習されたθ^を記憶する。
<発話音声認識部12>
入力1:l番目の発話の音響特徴量系列Xl
入力2:既に音声認識結果として得られた1番目からl-1番目の発話までの単語系列W1^,…,Wl-1^
入力3:モデルパラメータθ
出力:l番目の発話の単語系列Wl^
発話音声認識部12は、時系列順に取得された音響特徴量系列の集合(X1,...,XL)からなる認識用データに基づき、認識対象である単語系列(次式のWl)を観測値とし、認識対象である単語系列(次式のWl)よりも過去の、既に認識済みの単語系列(次式のW1^,…,Wl-1^)、および認識対象である単語系列(次式のWl)に対応する音響特徴量系列(次式のXl)、および学習済みのモデルパラメータθをパラメータとし、パラメータ(次式のW1^,…,Wl-1^,Xl,θ)の下で観測値(次式のWl)が生起する確率の尤度関数について、最尤基準により、認識対象である単語系列(次式のWl^)を認識する処理を時系列順に繰り返す(S12)。
すなわち、発話音声認識部12は、l番目の発話の音響特徴量系列Xlと音声認識結果として得られた1番目からl-1番目の発話までの認識済みの単語系列W1^,…,Wl-1^が入力された時に、モデルパラメータθに従った確率計算により、l番目の発話についての事後確率分布
Figure 0007028203000007
を得て、最尤基準によりl番目の発話の音声認識結果の単語系列Wl^を決定する。すなわち、最尤基準による決定は次式に従う。
Figure 0007028203000008
上述したように、発話音声認識部12は、ステップS12を時系列順に再帰的に実行する。例えば、l番目の発話の音声認識結果の単語系列Wl^を既知の認識結果とすることにより、l+1番目の発話についての事後確率分布
Figure 0007028203000009
を得ることができ、同様に以下のようにl+1番目の発話の音声認識結果の単語系列Wl+1^を決定する。
Figure 0007028203000010
なお、
Figure 0007028203000011
の詳しい定式化と詳細な計算方法は、この後に述べる。
<単語系列記憶部12a>
単語系列記憶部12aは、発話音声認識部12が再帰的に用いる単語系列を記憶する。例えば、ステップS12において、単語系列W1^が認識された場合、単語系列記憶部12aは、当該単語系列W1^を記憶し、単語系列Wl^が認識された場合、単語系列記憶部12aは、当該単語系列Wl^を記憶し、単語系列WL^が認識された場合、単語系列記憶部12aは、当該単語系列WL^を記憶する。
<発話音声認識部12の詳細な構成>
図3に示すように、発話音声認識部12は、発話ベクトル計算部121と、発話系列埋め込みベクトル計算部122と、文脈ベクトル計算部123と、事後確率計算部124を含む。
発話音声認識部12は前述のとおり、
Figure 0007028203000012
を計算する。この詳細な定式化は次式で表される。
Figure 0007028203000013
なお、
Figure 0007028203000014
の計算は、発話音声認識部12内の発話ベクトル計算部121と、発話系列埋め込みベクトル計算部122と、文脈ベクトル計算部123と、事後確率計算部124により実現される。以下では、図4を参照し、l番目の発話のn番目の単語についての確率
Figure 0007028203000015
を計算するための詳細な処理を表す。
<発話ベクトル計算部121>
入力1:l-1番目の発話の単語系列Wl-1^
入力2:モデルパラメータθ
出力:l-1番目の発話の発話ベクトルul-1
発話ベクトル計算部121は、認識対象であるl番目の発話の単語系列Wlよりも過去の、既に認識済みのl-1番目の発話の単語系列Wl-1^をモデルパラメータθに基づく変換関数により、l-1番目の発話の発話ベクトルul-1に変換する(S121)。この時、l-1番目の発話の単語系列Wl-1^は1つ以上の単語を含む。発話ベクトルは単語系列に含まれる情報を埋め込んだベクトルを表し、次発話の音声認識に必要な発話の意味的な情報が埋め込まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルとして人手で次元数を決定する。このとき変換関数には、可変長数の記号列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えば、発話中の単語の頻度ベクトルを構成するような関数を用いることができるし、リカレントニューラルネットワークや双方向リカレントニューラルネットワーク等も用いることができる。
なお、l=1の場合は入力となる単語系列W0は存在しなないため、出力のu0はすべての要素が0.0のベクトルとすればよい。
なお、ステップS121は、W1^,…,Wl-1^のそれぞれに対して行われることになる。したがって、発話ベクトル計算部121は、u1,…,ul-1をそれぞれ出力することなる。
<発話系列埋め込みベクトル計算部122>
入力1:過去の発話についての発話ベクトルの系列u1,…,ul-1
入力2:モデルパラメータθ
出力:l-1番目の発話系列埋め込みベクトルvl-1
発話系列埋め込みベクトル計算部122は、過去の発話についての発話ベクトルの系列u1,…,ul-1をモデルパラメータθに基づく変換関数により、l-1番目の発話系列埋め込みベクトルvl-1に変換する(S122)。この発話系列埋め込みベクトルは単一のベクトルであり、次発話の音声認識に必要な意味的情報が埋め込まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルとして人手で次元数を決定する。このとき変換関数には、可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えばリカレントニューラルネットワークや、発話ベクトル系列の各ベクトルを平均化するような関数を用いることができる。なお、平均化する場合は、発話系列埋め込みベクトルの次元数は、発話ベクトル系列の各次元数に依存する。
なお、l=1の場合は、入力となる過去発話系列についての発話ベクトル系列は存在しないため、出力のv0はすべての要素が0.0のベクトルとすればよい。
<文脈ベクトル計算部123>
入力1:l番目の発話の単語系列Wlの中のn番目の単語wl nよりも過去の単語列wl 1,…,wl n-1
入力2:l番目の発話の音響特徴量系列Xl
入力3:モデルパラメータθ
出力:l番目の発話のn番目の単語向けの文脈ベクトルsl n
文脈ベクトル計算部123は、認識対象であるl番目の発話の単語系列Wlの中のn番目の単語wl nよりも過去の単語列wl 1,…,wl n-1(単語系列と意味を区別するため単語列と呼称する)と、認識対象であるl番目の単語系列Wlに対応するl番目の音響特徴量系列Xlをモデルパラメータθに基づく変換関数によりl番目の発話の単語系列Wlの中のn番目の単語wl n向けの文脈ベクトルsl nに変換する(S123)。この文脈ベクトルは、次の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報が埋め込まれている。このとき変換関数には、2種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えば非特許文献2のように音響特徴量系列と単語系列のそれぞれにリカレントニューラルネットワークを設けて、注意機構を加えることにより単一の文脈ベクトルとして表現する関数を用いることもできる。また、最も単純なものであれば、l番目の発話のn番目の単語よりも過去の単語系列の頻度ベクトルとl番目の発話の音響特徴量系列を平均化したベクトルの結合ベクトルを構成するような関数を用いることもできる。
<事後確率計算部124>
入力1:l-1番目の発話系列埋め込みベクトルvl-1
入力2:l番目の発話のn番目の単語向けの文脈ベクトルsl n
入力3:モデルパラメータθ
出力:l番目の発話のn番目の単語についての事後確率
Figure 0007028203000016
事後確率計算部124は、認識対象である単語系列Wlよりも一つ過去までの発話ベクトル系列u1,…,ul-1を変換してなるl-1番目の発話系列埋め込みベクトルvl-1、および認識対象であるl番目の単語系列Wlのn番目の単語向けの文脈ベクトルsl nから、モデルパラメータθに基づく変換関数により、l番目の単語系列Wlのn番目の単語についての事後確率
Figure 0007028203000017
を計算する(S124)。事後確率は各単語を要素としたベクトルとして表すことができ、ベクトル変換により事後確率分布を表現することが可能である。このとき変換関数には、2種類のベクトルを事後確率分布に変換する関数であれば任意のものを利用できるが、例えば、2つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行う動作を行う関数により実現することができる。それ以外でも、事後確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関数が適用可能である。
本実施例の音声認識装置1によれば、従来のような単一発話を扱うend-to-end音声認識ではなく、発話系列を扱うend-to-end音声認識のモデル化を導入したため、音声入力が発話系列と表される場合に、文脈を考慮したend-to-end音声認識を実現できる。すなわち発話系列中のある発話を音声認識する際に、発話系列の最初の発話から対象発話の1つ前の発話までの情報を文脈として利用することが可能となる。例えば前述と同様に、10分程度の講演音声を音声認識することを想定し、この講演音声を無音が0.5秒存在するごとに区切ると、200発話の音声が含まれていた場合を想定する。この場合、本実施例の音声認識装置1によれば、連続した200発話中のある発話より前の全ての関連する文脈情報を現在の音声認識に利用することができる。例えば、音声認識装置1は、100発話目を音声認識する際に、1発話目から99発話目までの音声認識結果を文脈として利用することができる。
本実施例の音声認識装置1は、例えば講演、電話、会議などの音声認識の認識性能を高めることができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習部と、
    時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みの前記モデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識部
    を含む音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記発話音声認識部は、
    認識対象である単語系列よりも過去の、既に認識済みの単語系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含むベクトルである発話ベクトルに変換する発話ベクトル計算部と、
    前記発話ベクトルの系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含む発話系列埋め込みベクトルに変換する発話系列埋め込みベクトル計算部と、
    認識対象である単語系列中の注目している単語よりも過去の、認識対象である前記単語系列中の単語列と、認識対象である単語系列に対応する音響特徴量系列とを、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列中の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報を含む文脈ベクトルに変換する文脈ベクトル計算部と、
    認識対象である単語系列よりも一つ過去までの発話ベクトル系列を変換してなる前記発話系列埋め込みベクトルと、認識対象である単語系列中の単語向けの文脈ベクトルから、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列の単語についての事後確率を計算する事後確率計算部を含む
    音声認識装置。
  3. 時系列順に取得された単語系列と、対応する音響特徴量系列の組の集合からなる学習データに基づき、注目している単語系列を観測値とし、注目している単語系列よりも過去の単語系列、および注目している単語系列に対応する音響特徴量系列、およびモデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤推定を行うことにより、前記モデルパラメータθを学習するモデルパラメータ学習ステップと、
    時系列順に取得された音響特徴量系列の集合からなる認識用データに基づき、認識対象である単語系列を観測値とし、認識対象である単語系列よりも過去の、既に認識済みの単語系列、および認識対象である単語系列に対応する音響特徴量系列、および学習済みの前記モデルパラメータθをパラメータとし、前記パラメータの下で前記観測値が生起する確率の尤度関数について最尤基準により、認識対象である単語系列を認識する処理を時系列順に繰り返す発話音声認識ステップ
    を含む音声認識方法。
  4. 請求項3に記載の音声認識方法であって、
    前記発話音声認識ステップは、
    認識対象である単語系列よりも過去の、既に認識済みの単語系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含むベクトルである発話ベクトルに変換するステップと、
    前記発話ベクトルの系列を前記モデルパラメータθに基づく変換関数により、次発話の音声認識に必要な意味的情報を含む発話系列埋め込みベクトルに変換するステップと、
    認識対象である単語系列中の注目している単語よりも過去の、認識対象である前記単語系列中の単語列と、認識対象である単語系列に対応する音響特徴量系列とを、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列中の単語の音声認識に必要な意味的情報と音韻的情報を統合した情報を含む文脈ベクトルに変換するステップと、
    認識対象である単語系列よりも一つ過去までの発話ベクトル系列を変換してなる前記発話系列埋め込みベクトルと、認識対象である単語系列中の単語向けの文脈ベクトルから、前記モデルパラメータθに基づく変換関数により、認識対象である単語系列の単語についての事後確率を計算するステップを含む
    音声認識方法。
  5. コンピュータを請求項1または2に記載の音声認識装置として機能させるプログラム。
JP2019020396A 2019-02-07 2019-02-07 音声認識装置、音声認識方法、プログラム Active JP7028203B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019020396A JP7028203B2 (ja) 2019-02-07 2019-02-07 音声認識装置、音声認識方法、プログラム
US17/428,959 US12057105B2 (en) 2019-02-07 2020-01-27 Speech recognition device, speech recognition method, and program
PCT/JP2020/002648 WO2020162238A1 (ja) 2019-02-07 2020-01-27 音声認識装置、音声認識方法、プログラム
JP2021188475A JP7160170B2 (ja) 2019-02-07 2021-11-19 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019020396A JP7028203B2 (ja) 2019-02-07 2019-02-07 音声認識装置、音声認識方法、プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021188475A Division JP7160170B2 (ja) 2019-02-07 2021-11-19 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム

Publications (2)

Publication Number Publication Date
JP2020129015A JP2020129015A (ja) 2020-08-27
JP7028203B2 true JP7028203B2 (ja) 2022-03-02

Family

ID=71947641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019020396A Active JP7028203B2 (ja) 2019-02-07 2019-02-07 音声認識装置、音声認識方法、プログラム

Country Status (3)

Country Link
US (1) US12057105B2 (ja)
JP (1) JP7028203B2 (ja)
WO (1) WO2020162238A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259079A (zh) * 2020-10-19 2021-01-22 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018109760A (ja) 2017-01-04 2018-07-12 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置
JP2018132678A (ja) 2017-02-16 2018-08-23 日本電信電話株式会社 ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP2018528458A (ja) 2015-12-04 2018-09-27 三菱電機株式会社 発話を処理する方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7574358B2 (en) * 2005-02-28 2009-08-11 International Business Machines Corporation Natural language system and method based on unisolated performance metric
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018528458A (ja) 2015-12-04 2018-09-27 三菱電機株式会社 発話を処理する方法
JP2018109760A (ja) 2017-01-04 2018-07-12 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置
JP2018132678A (ja) 2017-02-16 2018-08-23 日本電信電話株式会社 ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体

Also Published As

Publication number Publication date
US12057105B2 (en) 2024-08-06
WO2020162238A1 (ja) 2020-08-13
US20220139374A1 (en) 2022-05-05
JP2020129015A (ja) 2020-08-27

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
CN109686383B (zh) 一种语音分析方法、装置及存储介质
US11580959B2 (en) Improving speech recognition transcriptions
US11276391B2 (en) Generation of matched corpus for language model training
US20140365221A1 (en) Method and apparatus for speech recognition
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20220101835A1 (en) Speech recognition transcriptions
JP2018072697A (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
JP2023033160A (ja) コンピュータ実装方法、システムおよびコンピュータプログラム(順序なしのエンティティを用いたエンドツーエンド音声言語理解システムのトレーニング)
WO2021014612A1 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Viacheslav et al. System of methods of automated cognitive linguistic analysis of speech signals with noise
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
US20230360643A1 (en) Ontology Driven Contextual Automated Speech Recognition
JP2022010410A (ja) 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
CN113763938B (zh) 语音识别方法、介质、装置和计算设备
JP6965846B2 (ja) 言語モデルスコア算出装置、学習装置、言語モデルスコア算出方法、学習方法及びプログラム
US20220319494A1 (en) End to end spoken language understanding model
US20240071368A1 (en) System and Method for Adapting Natural Language Understanding (NLU) Engines Optimized on Text to Audio Input
Sajjan et al. Kannada speech recognition using decision tree based clustering
Sallagundla et al. Voice Enabled Form Filling Using Hidden Markov Model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210527

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220131

R150 Certificate of patent or registration of utility model

Ref document number: 7028203

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150