JP6532619B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP6532619B2
JP6532619B2 JP2018562783A JP2018562783A JP6532619B2 JP 6532619 B2 JP6532619 B2 JP 6532619B2 JP 2018562783 A JP2018562783 A JP 2018562783A JP 2018562783 A JP2018562783 A JP 2018562783A JP 6532619 B2 JP6532619 B2 JP 6532619B2
Authority
JP
Japan
Prior art keywords
learning
determination
domain
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018562783A
Other languages
English (en)
Other versions
JPWO2018134916A1 (ja
Inventor
裕紀 金川
裕紀 金川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2018134916A1 publication Critical patent/JPWO2018134916A1/ja
Application granted granted Critical
Publication of JP6532619B2 publication Critical patent/JP6532619B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

本発明は、入力音声がどのドメインの発話であるかを判定する音声認識装置に関するものである。
住所、名称、電話番号といったカテゴリを示す複数のドメインを認識対象とする音声認識装置において、入力音声がどのドメインかを判定しつつ、所望のドメインの音声認識結果を得るための方法としては次のようなものがあった。すなわち、まず音声認識によってドメイン毎の認識結果を算出し、その後各ドメインの認識結果同士をスコアで比較して最終的な認識結果を得る方法である。例えば、特許文献1に開示された方法では、まず異なるドメイン毎に用意した統計的言語モデルを用いて複数の音声認識システムにて音声認識結果を得る。各ドメインの認識システムにより得た認識結果のうち、どれがその発話のドメインに近いかの信頼度として、音声認識時に得た音響スコアSAMと言語スコアSLMとの加重和によるスコアを用いる。
score=SAM+αSLM
ここでαは音響スコアと言語スコアの影響度合いを制御する係数であり、発話ドメインの誤りが小さくなるよう実験的に決定される。上式のスコアが最大となる認識結果のドメインを最適ドメインと判定し、その認識結果を最適な認識結果として提示する。
国際公開第2015/118645号
上記従来の音声認識装置では、認識時に得たスコア及び認識結果に基づき得たスコアの加重和を取り、そのスコアの大小で最適ドメインを判定していた。しかしながら、加重和における重み係数を経験的に決めなければならないという問題があり、また、発話によっては各ドメイン間でのスコアの差が小さく、スコアの大小だけでは判別が難しいという問題があった。
この発明は、かかる問題を解決するためになされたもので、ドメイン判定精度を向上させ、音声認識精度の向上を図ることのできる音声認識装置を提供することを目的とする。
この発明に係る音声認識装置は、それぞれが各ドメインに対応した複数の音声認識器からなり、学習用音声データから当該各音声認識器による音声認識結果を示す値である学習用スコアを算出する学習用音声認識部と、学習用音声認識部の各音声認識器で算出された各学習用スコアをドメイン毎に並べてベクトル化することで学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、それぞれが各ドメインに対応した複数の音声認識器からなり、入力音声データから当該各音声認識器による音声認識結果を示す値である判定用スコアを算出する判定用音声認識部と、判定用音声認識部の各音声認識器で算出された各判定用スコアをドメイン毎に並べてベクトル化することで判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたものである。
この発明に係る音声認識装置は、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出し、このドメイン判定モデルを用いて入力音声データがどのドメインの発話であるかを判定するようにしたものである。これにより、従来の認識スコアの大小で最適なドメインを決定していた場合よりもドメイン判定精度を向上させ、音声認識性能の向上を図ることができる。
この発明の実施の形態1の音声認識装置を示す構成図である。 この発明の実施の形態1の音声認識装置のハードウェア構成図である。 この発明の実施の形態1の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。 この発明の実施の形態1の音声認識装置のスコアから特徴量に変換する手段を示す説明図である。 この発明の実施の形態1の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。 この発明の実施の形態2の音声認識装置を示す構成図である。 この発明の実施の形態2の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。 この発明の実施の形態2の音声認識装置のスコアから特徴量に変換する手段を示す説明図である。 この発明の実施の形態2の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。 この発明の実施の形態3の音声認識装置を示す構成図である。 この発明の実施の形態3の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。 この発明の実施の形態3の音声認識装置の特徴量を次元圧縮する手段を示す説明図である。 この発明の実施の形態3の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。 この発明の実施の形態4の音声認識装置を示す構成図である。 この発明の実施の形態4の音声認識装置のドメイン判別モデル学習ステップの流れを示すフローチャートである。 この発明の実施の形態4の音声認識装置のドメイン判別ステップの流れを示すフローチャートである。 この発明の実施の形態4の音声認識装置の複数のドメイン判定結果を統合する手段を示す説明図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1による音声認識装置の構成図である。本実施の形態による音声認識装置は、図示のように、学習実行部100と判定実行部200から構成される。学習実行部100は、学習用音声認識部102、学習用特徴量変換部104及びモデル学習部106を備え、判定実行部200は、判定用音声認識部202、判定用特徴量変換部204及びドメイン判定部205を備えている。
学習実行部100における学習用音声認識部102は、学習用音声データ101を用いて学習用スコア103を算出する処理部である。学習用特徴量変換部104は、学習用音声認識部102が算出した学習用スコア103を学習用特徴量に変換する処理部である。モデル学習部106は、学習用特徴量変換部104が算出した学習用特徴量と、学習用音声に対応するドメインの学習用ラベルデータ105を用いてドメイン判定モデル107を算出する処理部である。
判定実行部200において、判定用音声認識部202と判定用特徴量変換部204は、それぞれ学習実行部100と同じものを用いる。すなわち、判定用音声認識部202は学習用音声認識部102と同様の構成であり、入力音声データ201を用いて判定用スコア203を算出する処理部である。判定用特徴量変換部204は、判定用音声認識部202が算出した判定用スコア203を用いて判定用特徴量に変換する処理部である。ドメイン判定部205は、判定用特徴量変換部204により算出した判定用特徴量と、ドメイン判定モデル107を用いてドメイン判定結果206を算出する処理部である。
図2は、実施の形態1の音声認識装置のハードウェア構成図である。
音声認識装置はコンピュータを用いて実現されており、プロセッサ1、メモリ2、入出力インタフェース(入出力I/F)3、バス4を備える。プロセッサ1は、コンピュータとしての演算処理を行う機能部であり、メモリ2は、各種のプログラムや演算結果を記憶し、また、プロセッサ1が演算処理を行う場合の作業領域を構成する記憶部である。入出力インタフェース3は、学習用音声データ101や入力音声データ201を入力したり、ドメイン判定結果206を外部に出力したりする際のインタフェースである。バス4は、プロセッサ1、メモリ2及び入出力インタフェース3を相互に接続するためのバスである。
図1に示す学習用音声認識部102、学習用特徴量変換部104、モデル学習部106、判定用音声認識部202、判定用特徴量変換部204、ドメイン判定部205は、それぞれプロセッサ1がメモリ2に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ101、学習用スコア103、学習用ラベルデータ105、ドメイン判定モデル107、入力音声データ201、判定用スコア203、ドメイン判定結果206は、それぞれメモリ2の記憶領域に記憶されている。プロセッサ1及びメモリ2をそれぞれ複数備え、複数のプロセッサ1とメモリ2とが連携して上述した機能を実行するように構成してもよい。
次に、実施の形態1の音声認識装置の動作について説明する。
まず、学習実行部100が行うドメイン判定モデル学習ステップについて、図3のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声認識部102が学習用音声データ101に対して音声認識を行って、その学習用スコア103を計算する(ステップST101)。ここで、学習用音声認識部102は複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103のスコアA〜Cは各音声認識器A〜Cからの1位の認識結果である。学習用スコア103の例として、音響スコアや言語スコアが利用可能である。なお、本実施の形態では例として音声認識器をA〜Cの三つとしているが、ドメイン数に応じて適宜選択可能である。
次に、学習用特徴量変換部104は学習用スコア103を学習用特徴量に変換する(ステップST102)。具体的に学習用特徴量に変換する方法として、図4に示すように、音響スコアと言語スコアをドメイン毎に並べてベクトル化する方法が考えられる。図4に示す例では2(音響スコア+言語スコア)×ドメイン数であるため、6次元となる。なお、ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他学習用音声認識部102から得られるものであれば何でもよい。
次に、学習用スコア103から変換した学習用特徴量と学習用ラベルデータ105を用いてモデル学習部106により、ドメイン判定モデル107を算出する(ステップST103)。ここで学習用ラベルデータ105は学習用音声データ101がどのドメインの発話かを定義したものである。モデル学習部106は、学習用特徴量変換部104により得た学習用特徴量と学習用ラベルデータ105を対応付けるようモデルを算出する。ここでモデル学習部106が用いる手法として、混合ガウス分布モデルやサポートベクターマシン、ニューラルネットワーク等の統計的手法が利用できる。
このように、学習実行部100は、学習用音声データ101を複数の音声認識器にかけ、得た認識スコアを学習用特徴量に変換し、この学習用特徴量とその発話が何のドメインであるかを示す学習用ラベルデータ105を用いることで、認識スコアの出方とドメインの対応を統計的機械学習の枠組みでモデル化するようにしたものである。
次に、判定実行部200が行うドメイン判定ステップについて、図5のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ201から判定用音声認識部202により判定用スコア203を計算する(ステップST111)。ここで、判定用音声認識部202における各音声認識部は学習ステップと同じ音声認識部を使用する。判定用スコア203のスコアA〜Cは各音声認識器から1位の認識結果である。
次に、判定用スコア203を判定用特徴量変換部204により、判定用特徴量に変換する(ステップST112)。判定用特徴量変換部204には学習ステップと同じ特徴量変換部を使用する。
次に、判定用スコア203から判定用特徴量変換部204により生成した判定用特徴量と、ドメイン判定モデル107をドメイン判定部205に入力し、ドメイン判定結果206を算出する(ステップST113)。ドメイン判定部205は、学習ステップにおけるモデル学習部106と同様の統計的手法を用いる。ドメイン判定部205は、判定用特徴量とドメイン判定モデル107を照合し、生起確率が最も高いドメインを選択し、選択したドメイン及びそのドメインに対応する音声認識結果をドメイン判定結果206とする。
以上説明したように、実施の形態1の音声認識装置によれば、学習用音声データから音声認識結果を示す値である学習用スコアを算出する学習用音声認識部と、学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、入力音声データから音声認識結果を示す値である判定用スコアを算出する判定用音声認識部と、判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたので、事前に音声認識のスコアの傾向とドメインを対応づけて学習しておくことが可能となり、入力音声データから得られるスコアでのドメイン判定方法よりもドメイン判定精度の向上が期待できる。
実施の形態2.
実施の形態2は、学習用音声認識部及び判定用音声認識部の各音声認識器からN(Nは2以上の整数)ベストの認識結果を生成することで、下位の結果も考慮しドメインを判定する例である。
図6は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習実行部100aと判定実行部200aから構成される。学習実行部100aは、学習用音声認識部102a、学習用特徴量変換部104a、モデル学習部106を備え、判定実行部200aは、判定用音声認識部202a、判定用特徴量変換部204a、ドメイン判定部205を備えている。なお、実施の形態1と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。
学習実行部100aにおける学習用音声認識部102aは、学習用音声データ101を用いて認識結果が上位からN個の学習用スコア103aを算出する処理部である。学習用特徴量変換部104aは、学習用音声認識部102aが算出したNベストの学習用スコア103aを学習用特徴量に変換する処理部である。モデル学習部106は、学習用特徴量変換部104aにより算出した学習用特徴量と、学習用音声に対応するドメインのラベルデータである学習用ラベルデータ105を用いてドメイン判定モデル107を算出する処理部である。
判定実行部200aにおいて、判定用音声認識部202aと判定用特徴量変換部204aは、学習実行部100aにおける学習用音声認識部102aと学習用特徴量変換部104aと同じ構成を用いる。判定用音声認識部202aは、入力音声データ201を用いてNベストの判定用スコア203aを算出する処理部である。判定用特徴量変換部204aは、判定用音声認識部202aが算出したNベストの判定用スコア203aを用いて判定用特徴量に変換する処理部である。ドメイン判定部205は、判定用特徴量変換部204aにより算出した判定用特徴量と、ドメイン判定モデル107を用いてドメイン判定結果206を算出する処理部である。
図6に示す学習用音声認識部102a、学習用特徴量変換部104a、モデル学習部106、判定用音声認識部202a、判定用特徴量変換部204a及びドメイン判定部205は、それぞれ図2に示すプロセッサ1がメモリ2に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ101、学習用スコア103a、学習用ラベルデータ105、ドメイン判定モデル107、入力音声データ201、判定用スコア203a、ドメイン判定結果206は、それぞれメモリ2の記憶領域に記憶されている。プロセッサ1及びメモリ2をそれぞれ複数備え、複数のプロセッサ1とメモリ2とが連携して上述した機能を実行するように構成してもよい。
次に、実施の形態2の音声認識装置の動作について説明する。
まず学習実行部100aが行うドメイン判定モデル学習ステップについて、図7のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ101から学習用音声認識部102aによりNベストの学習用スコア103aを計算する(ステップST201)。ここで、学習用音声認識部102aは複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103aのスコアA1〜C1とスコアA2〜C2は各音声認識器から得られる1位と2位の認識結果である。なお本実施の形態では例として認識器をA〜Cの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のNベストの数を変えてもよい。
次に、学習用スコア103aを学習用特徴量変換部104aにより、学習用特徴量に変換する(ステップST202)。具体的に学習用特徴量に変換する方法として、図8のように、音響スコアと言語スコアをドメイン毎にNベストのスコアを並べてベクトル化する方法が考えられる。図示例では、2(音響スコア+言語スコア)×ドメイン数×2ベストで12次元の学習用特徴量に変換した例を示している。ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他学習用音声認識部102aから得られるものであれば何でもよい。
次に、学習用スコア103aから変換した学習用特徴量と学習用ラベルデータ105を用いてモデル学習部106により、ドメイン判定モデル107を算出する(ステップST203)。ここで学習用ラベルデータ105は学習用音声データ101がどのドメインの発話かを定義したものである。モデル学習部106は、学習用特徴量変換部104aにより得た学習用特徴量と学習用ラベルデータ105を対応付けるようドメイン判定モデル107を算出する。
次に、判定実行部200aが行うドメイン判定ステップについて、図9のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ201から判定用音声認識部202aによりNベストの判定用スコア203aを計算する(ステップST211)。ここで、判定用音声認識部202aは学習ステップの学習用音声認識部102aと同じ音声認識部を使用する。判定用スコア203aのスコアA1〜C1とスコアA2〜C2は各音声認識器からの1位と2位の認識結果である。
次に判定用スコア203aを判定用特徴量変換部204aにより判定用特徴量に変換する(ステップST212)。判定用特徴量変換部204aは学習ステップの学習用特徴量変換部104aと同じ特徴量変換部を使用する。
次に判定用スコア203aから判定用特徴量変換部204aにより生成した判定用特徴量と、ドメイン判定モデル107をドメイン判定部205に入力し、ドメイン判定結果206を算出する(ステップST213)。ドメイン判定部205は、学習ステップにおけるモデル学習部106と同じ統計的手法を用いて処理を行う。ドメイン判定部205は、判定用特徴量変換部204aにより入力された特徴量とドメイン判定モデル107を照合し、生起確率が最も高いドメインを選択し、選択したドメイン及びそのドメインに対応する音声認識結果をドメイン判定結果206とする。
以上説明したように、実施の形態2の音声認識装置によれば、学習用音声データからN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、Nベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、入力音声データからNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、Nベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたので、ドメイン判定のための特徴量にNベストを考慮することができるようになり、実施の形態1の効果に加えて、さらにドメイン判定精度の向上が期待できる。
実施の形態3.
実施の形態3は、実施の形態2の構成に加えて、特徴量の次元圧縮を行うようにしたものである。
図10は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習実行部100bと判定実行部200bから構成される。学習実行部100bは、学習用音声認識部102a、学習用特徴量変換部104a、次元圧縮行列推定部108、学習用次元圧縮部110、モデル学習部106を備え、判定実行部200bは、判定用音声認識部202a、判定用特徴量変換部204a、判定用次元圧縮部207、ドメイン判定部205を備えている。なお、実施の形態2と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。
学習実行部100bにおける次元圧縮行列推定部108は、学習用特徴量変換部104aから算出した学習用特徴量と学習用ラベルデータ105を用いて次元圧縮行列109を算出する処理部である。学習用次元圧縮部110は、学習用特徴量変換部104aから算出した学習用特徴量に次元圧縮行列109を乗算し、学習用特徴量の次元を圧縮する処理部である。モデル学習部106は、学習用次元圧縮部110により圧縮した学習用特徴量と学習用ラベルデータ105とを用いてドメイン判定モデル107を算出する処理部である。
判定実行部200bにおいて、判定用音声認識部202aと判定用特徴量変換部204aは、学習実行部100bの学習用音声認識部102aと学習用特徴量変換部104aと同じ構成を用いる。判定用次元圧縮部207は、判定用特徴量変換部204aから算出した判定用特徴量に次元圧縮行列109を乗算し、判定用特徴量の次元を圧縮する処理部である。ここで次元圧縮行列109とは、多次元の特徴量の次元圧縮を行うための行列データである。ドメイン判定部205は、判定用次元圧縮部207により算出した判定用特徴量と、ドメイン判定モデル107を用いてドメイン判定結果206を算出する処理部である。
図10に示す学習用音声認識部102a、学習用特徴量変換部104a、モデル学習部106、次元圧縮行列推定部108、学習用次元圧縮部110、判定用音声認識部202a、判定用特徴量変換部204a、判定用次元圧縮部207及びドメイン判定部205は、それぞれプロセッサ1がメモリ2に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ101、学習用スコア103a、学習用ラベルデータ105、ドメイン判定モデル107、次元圧縮行列109、入力音声データ201、判定用スコア203a、ドメイン判定結果206は、それぞれメモリ2の記憶領域に記憶されている。プロセッサ1及びメモリ2をそれぞれ複数備え、複数のプロセッサ1とメモリ2とが連携して上述した機能を実行するように構成してもよい。
次に、実施の形態3の音声認識装置の動作について説明する。
まず学習実行部100bが行うドメイン判定モデル学習ステップについて、図11のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ101から学習用音声認識部102aにより学習用スコア103aを計算する(ステップST301)。ここで、学習用音声認識部102aは複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103aのスコアA1〜C1とスコアA2〜C2は各音声認識器から得られる1位と2位の認識結果である。なお本実施の形態では例として認識器をA〜Cの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のNベストの数を変えてもよい。
次に学習用スコア103aを学習用特徴量変換部104aにより、学習用特徴量に変換する(ステップST302)。具体的に学習用特徴量に変換する方法として、実施の形態2と同様、図8のように音響スコアと言語スコアをドメイン毎にNベストのスコアを並べてベクトル化する方法が考えられる。ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他学習用音声認識部102aから得られるものであれば何でもよい。
次に、学習用スコア103aから変換した学習用特徴量と学習用ラベルデータ105を用いて次元圧縮行列推定部108により、次元圧縮行列109を推定する(ステップST303)。具体的には図12のように、Nベストのスコアから得た特徴量ベクトルに対して、線形判別分析(LDA:Linear Discriminant Analysis)や不等分散判別分析(HDA: Heteroscedastic Discriminant Analysis)などの次元圧縮方法を用いて行列を算出する。次元圧縮の利点として、LDAやHDAのような教師付きの手法では、識別に適した特徴量を生成できること、また混合ガウス分布でモデル化する場合ではモデルパラメータの数の削減が挙げられる。
次に、次元圧縮行列推定部108により算出した次元圧縮行列109と、学習用スコア103aから変換した学習用特徴量を用いて、学習用次元圧縮部110により、学習用スコア103aから変換した学習用特徴量を次元圧縮する(ステップST304)。次元圧縮とは、図12に示すように、Nベストのスコアから得た特徴量に次元圧縮行列109を乗算することにより、低次のベクトル特徴量に変換することである。なお、図12の例では1位から3位までの認識結果を得た場合を示している。
次に、学習用次元圧縮部110により次元圧縮された学習用特徴量と学習用ラベルデータ105を用いてモデル学習部106により、ドメイン判定モデル107を学習する(ステップST305)。モデル学習部106は、学習用次元圧縮部110により次元圧縮された学習用特徴量と学習用ラベルデータ105を対応付けるようモデルを算出する。
次に、判定実行部200bが行うドメイン判定ステップについて、図13のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ201から判定用音声認識部202aにより判定用スコア203aを計算する(ステップST311)。ここで、判定用音声認識部202aは学習ステップの学習用音声認識部102aと同じ音声認識部を使用する。判定用スコア203aのスコアA1〜C1とスコアA2〜C2は各音声認識器からの1位と2位の認識結果である。
次に判定用スコア203aを判定用特徴量変換部204aにより、判定用特徴量に変換する(ステップST312)。判定用特徴量変換部204aには学習ステップにおける学習用特徴量変換部104aと同じ構成を使用する。
次に、次元圧縮行列推定部108により算出した次元圧縮行列109と、判定用スコア203aから変換した判定用特徴量を用いて、判定用次元圧縮部207により、判定用スコア203aから変換した判定用特徴量を次元圧縮する(ステップST313)。次元圧縮は学習実行部100bの学習用次元圧縮部110と同様に、図12に示すように、Nベストのスコアから得た特徴量に次元圧縮行列109を乗算することにより、低次のベクトル特徴量に変換する。
次に、ドメイン判定部205により、判定用次元圧縮部207により次元圧縮された特徴量と、ドメイン判定モデル107から、ドメイン判定結果206を得る(ステップST314)。ドメイン判定部205は、学習ステップと同じ統計的手法を用いて処理を行う。ドメイン判定部205は、判定用次元圧縮部207により次元圧縮された判定用特徴量とドメイン判定モデル107を照合し、生起確率が最も高いドメインを選択し、選択したドメイン及びそのドメインに対応する音声認識結果をドメイン判定結果206とする。
以上説明したように、実施の形態3の音声認識装置によれば、学習用音声データからN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、Nベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、学習用特徴量の次元を圧縮するための次元圧縮行列を推定する次元圧縮行列推定部と、学習用特徴量と次元圧縮行列とを用いて、学習用特徴量の次元を圧縮する学習用次元圧縮部と、学習用次元圧縮部で圧縮された学習用特徴量と、学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、入力音声データからNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、Nベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、判定用特徴量と、次元圧縮行列とを用いて、判定用特徴量の次元を圧縮する判定用次元圧縮部と、判定用次元圧縮部で圧縮された判定用特徴量とドメイン判定モデルとを照合し、入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたので、実施の形態2の効果に加えて、特徴量を低次元に圧縮することで、識別に適した特徴量を扱えることができると共に、モデルの種類によってはモデルパラメータ数を削減することができる。
また、実施の形態3の音声認識装置によれば、次元圧縮行列推定部は、特徴量と教師ラベルを入力とし、特徴量の次元を低次元に変換する行列を出力するようにしたので、識別に適した特徴量を生成することができる。
実施の形態4.
実施の形態4は、N(Nは2以上の整数)ベストの認識結果を生成すると共に、Nベスト毎にドメイン判定モデルを生成するようにした例である。
図14は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習実行部100cと判定実行部200cから構成される。学習実行部100cは、学習用音声認識部102a、第1の学習用特徴量変換部104b及び第2の学習用特徴量変換部104c、第1のモデル学習部106a及び第2のモデル学習部106bを備え、判定実行部200cは、判定用音声認識部202a、第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204c、第1のドメイン判定部205a及び第2のドメイン判定部205b、ドメイン確定部208を備えている。なお、実施の形態2と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。
第1の学習用特徴量変換部104bと第2の学習用特徴量変換部104cは、それぞれ実施の形態1の学習用特徴量変換部104と同様の構成であり、学習用音声認識部102が算出した学習用スコア103aを学習用特徴量に変換する処理部である。ただし、第1の学習用特徴量変換部104bは認識結果が1位のスコアA1〜C1を、第2の学習用特徴量変換部104cは認識結果が2位のスコアA2〜C2を特徴量に変換するよう構成されている。第1のモデル学習部106aと第2のモデル学習部106bは、それぞれ実施の形態1のモデル学習部106と同様の構成である。ただし、第1のモデル学習部106aが、第1の学習用特徴量変換部104bで算出した学習用特徴量と学習用ラベルデータ105とを用いて第1のドメイン判定モデル107aを算出し、第2のモデル学習部106bが、第2の学習用特徴量変換部104cで算出した学習用特徴量と学習用ラベルデータ105とを用いて第2のドメイン判定モデル107bを算出するよう構成されている。なお、図示例では、Nベスト毎の構成としてN=2の場合を示しているが、Nは任意の値に適用可能である。
判定実行部200cにおいて、判定用音声認識部202aと第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204cは、学習実行部100cにおける学習用音声認識部102aと第1の学習用特徴量変換部104b及び第2の学習用特徴量変換部104cと同じ構成を用いる。第1のドメイン判定部205aは、第1の判定用特徴量変換部204bで算出した判定用特徴量と第1のドメイン判定モデル107aとを用いて、第1のドメイン判定結果206aを算出する処理部である。第2のドメイン判定部205bは、第2の判定用特徴量変換部204cで算出した判定用特徴量と第2のドメイン判定モデル107bとを用いて、第2のドメイン判定結果206bを算出する処理部である。ドメイン確定部208は第1のドメイン判定結果206a及び第2のドメイン判定結果206bを用いてドメイン最終判定結果209を算出する処理部である。なお、図示例の学習実行部100c及び判定実行部200cでは、Nベスト毎の構成としてN=2の場合を示しているが、Nは任意の値に適用可能である。
図14に示す学習用音声認識部102a、第1の学習用特徴量変換部104b及び第2の学習用特徴量変換部104c、第1のモデル学習部106a及び第2のモデル学習部106b、判定用音声認識部202a、第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204c、第1のドメイン判定部205a及び第2のドメイン判定部205b、ドメイン確定部208は、それぞれ図2に示したプロセッサ1がメモリ2に記憶されたプログラムを実行することにより実現されている。また、学習用音声データ101、学習用スコア103a、学習用ラベルデータ105、ドメイン判定モデル107、入力音声データ201、判定用スコア203a、ドメイン判定結果206、ドメイン最終判定結果209は、それぞれメモリ2の記憶領域に記憶されている。プロセッサ1及びメモリ2をそれぞれ複数備え、複数のプロセッサ1とメモリ2とが連携して上述した機能を実行するように構成してもよい。
次に、実施の形態4の音声認識装置の動作について説明する。
まず学習実行部100cが行うドメイン判定モデル学習ステップについて、図15のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ101から学習用音声認識部102aによりNベストの学習用スコア103aを計算する(ステップST401)。ここで、学習用音声認識部102aは複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103aのスコアA1〜C1とスコアA2〜C2は各音声認識器から得られる1位と2位の認識結果である。なお本実施の形態では例として認識器をA〜Cの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のNベストの数を変えてもよい。
次に学習用スコア103aをNベスト毎に、第1の学習用特徴量変換部104b及び第2の学習用特徴量変換部104cにより、それぞれの学習用特徴量に変換する(ステップST402)。具体的に学習用特徴量に変換する方法として、図4に示したように、音響スコアと言語スコアをドメイン毎にNベストのスコアを並べてベクトル化する方法が考えられる。ベクトル化に必要なスコアは音響スコアと言語スコアに限定されるものではなく、音響スコアと言語スコアを加算したものや、その他、学習用音声認識部102aから得られるものであれば何でもよい。
次に、学習用スコア103aから変換したそれぞれの学習用特徴量と学習用ラベルデータ105を用いて第1のモデル学習部106a及び第2のモデル学習部106bにより、Nベスト毎に、第1のドメイン判定モデル107a及び第2のドメイン判定モデル107bを得る(ステップST403)。すなわち、それぞれの第1のモデル学習部106a及び第2のモデル学習部106bは、第1の学習用特徴量変換部104b及び第2の学習用特徴量変換部104cにより得た学習用特徴量と学習用ラベルデータ105を対応付けるようモデルを算出する。
次に、判定実行部200cが行うドメイン判定ステップについて、図16のフローチャートを用いて説明する。
判定ステップでは、まず入力音声データ201から判定用音声認識部202aによりNベストの判定用スコア203aを計算する(ステップST411)。ここで、判定用音声認識部202aは学習ステップの学習用音声認識部102aと同じ音声認識部を使用する。判定用スコア203aのスコアA1〜C1とスコアA2〜C2は各音声認識器からの1位と2位の認識結果である。
次に、判定用スコア203aを第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204cにより、Nベスト毎に判定用特徴量に変換する(ステップST412)。第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204cは、学習ステップの第1の学習用特徴量変換部104b及び第2の学習用特徴量変換部104cと同じ特徴量変換部を使用する。
次に、第1のドメイン判定部205a及び第2のドメイン判定部205bは、Nベスト毎に第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204cにより生成したそれぞれの判定用特徴量と、第1のドメイン判定モデル107a及び第2のドメイン判定モデル107bを取得して、Nベスト個のドメイン判定結果(第1のドメイン判定結果206a及び第2のドメイン判定結果206b)を得る(ステップST413)。第1のドメイン判定部205a及び第2のドメイン判定部205bは、学習ステップにおける第1のモデル学習部106a及び第2のモデル学習部106bと同様の統計的手法を用いる。第1のドメイン判定部205a及び第2のドメイン判定部205bは、第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204cにより生成された判定用特徴量と第1のドメイン判定モデル107a及び第2のドメイン判定モデル107bをそれぞれ照合し、生起確率が最も高いドメインを出力し、ドメイン及びそのドメインに対応する認識結果を第1のドメイン判定結果206a及び第2のドメイン判定結果206bとする。
次に、ドメイン確定部208は、Nベスト個のドメイン判定結果(第1のドメイン判定結果206a及び第2のドメイン判定結果206b)からドメイン最終判定結果209を得る(ステップST414)。ここでドメインの確定方法には、図17のようにNベスト個のドメイン判定結果の単純な多数決を用いる方法や、各ドメイン判定結果の順位に応じて重みをかけて多数決をとるなどの方法が利用できる。なお、図17の例では1位から3位までの認識結果を得た場合を示している。
このように、実施の形態4では、実施の形態2とは異なり、Nベスト毎にモデルを生成するため、任意の順位のスコアの出方をモデル化することができ、特徴量の次元数の増加を抑えることができる。また、Nベストのドメインの判定結果を多数決などの方法で統合することにより、上位の認識結果のみに依存するのを抑制することができる。
以上説明したように、実施の形態4の音声認識装置によれば、学習用音声データからN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、Nベストの学習用スコアをNベスト毎に学習用特徴量に変換する学習用特徴量変換部と、Nベスト毎の学習用特徴量と、学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルをNベスト毎に算出するモデル学習部と、入力音声データからNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、Nベストの判定用スコアをNベスト毎に判定用特徴量に変換する判定用特徴量変換部と、Nベスト毎の判定用特徴量とNベスト毎のドメイン判定モデルとを照合し、Nベスト毎のドメイン判定結果を算出するドメイン判定部と、Nベスト毎のドメイン判定結果を用いて、入力音声データがどのドメインの発話であるかを示すドメイン最終判定結果を算出するドメイン確定部とを備えたので、ドメイン判定のための特徴量にNベストを考慮することができるようになり、実施の形態1の効果に加えて、ドメイン判定精度の向上が期待できる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る音声認識装置は、入力音声がどのドメインの発話であるかを判定する構成に関するものであり、ナビゲーション装置や家電製品などに適用し、音声認識性能の向上に用いるのに適している。
100,100a,100b,100c 学習実行部、101 学習用音声データ、102,102a 学習用音声認識部、103,103a 学習用スコア、104,104a 学習用特徴量変換部、104b 第1の学習用特徴量変換部、104c 第2の学習用特徴量変換部、105 学習用ラベルデータ、106 モデル学習部、106a 第1のモデル学習部、106b 第2のモデル学習部、107 ドメイン判定モデル、107a 第1のドメイン判定モデル、107b 第2のドメイン判定モデル、108 次元圧縮行列推定部、109 次元圧縮行列、110 学習用次元圧縮部、200,200a,200b,200c 判定実行部、201 入力音声データ、202,202a 判定用音声認識部、203,203a 判定用スコア、204,204a 判定用特徴量変換部、204b 第1の判定用特徴量変換部、204c 第2の判定用特徴量変換部、205 ドメイン判定部、205a 第1のドメイン判定部、205b 第2のドメイン判定部、206 ドメイン判定結果、206a 第1のドメイン判定結果、206b 第2のドメイン判定結果、207 判定用次元圧縮部、208 ドメイン確定部、209 ドメイン最終判定結果。

Claims (5)

  1. それぞれが各ドメインに対応した複数の音声認識器からなり、学習用音声データから当該各音声認識器による音声認識結果を示す値である学習用スコアを算出する学習用音声認識部と、
    前記学習用音声認識部の各音声認識器で算出された前記学習用スコアをドメイン毎に並べてベクトル化することで学習用特徴量に変換する学習用特徴量変換部と、
    前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
    それぞれが各ドメインに対応した複数の音声認識器からなり、入力音声データから当該各音声認識器による音声認識結果を示す値である判定用スコアを算出する判定用音声認識部と、
    前記判定用音声認識部の各音声認識器で算出された前記判定用スコアをドメイン毎に並べてベクトル化することで判定用特徴量に変換する判定用特徴量変換部と、
    前記判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。
  2. それぞれが各ドメインに対応した複数の音声認識器からなり、学習用音声データから当該各音声認識器によるN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、
    前記学習用音声認識部の各音声認識器で算出された前記Nベストの学習用スコアをドメイン毎に並べてベクトル化することで学習用特徴量に変換する学習用特徴量変換部と、
    前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
    それぞれが各ドメインに対応した複数の音声認識器からなり、入力音声データから当該各音声認識器によるNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、
    前記判定用音声認識部の各音声認識器で算出された前記Nベストの判定用スコアをドメイン毎に並べてベクトル化することで判定用特徴量に変換する判定用特徴量変換部と、
    前記判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。
  3. それぞれが各ドメインに対応した複数の音声認識器からなり、学習用音声データから当該各音声認識器によるN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、
    前記学習用音声認識部の各音声認識器で算出された前記Nベストの学習用スコアをドメイン毎に並べてベクトル化することで学習用特徴量に変換する学習用特徴量変換部と、
    前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、前記学習用特徴量の次元を圧縮するための次元圧縮行列を推定する次元圧縮行列推定部と、
    前記学習用特徴量と前記次元圧縮行列とを用いて、前記学習用特徴量の次元を圧縮する学習用次元圧縮部と、
    前記学習用次元圧縮部で圧縮された学習用特徴量と、前記学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
    それぞれが各ドメインに対応した複数の音声認識器からなり、入力音声データから当該各音声認識器によるNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、
    前記判定用音声認識部の各音声認識器で算出された前記Nベストの判定用スコアをドメイン毎に並べてベクトル化することで判定用特徴量に変換する判定用特徴量変換部と、
    前記判定用特徴量と、前記次元圧縮行列とを用いて、前記判定用特徴量の次元を圧縮する判定用次元圧縮部と、
    前記判定用次元圧縮部で圧縮された判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。
  4. 前記次元圧縮行列推定部は、特徴量と教師ラベルを入力とし、特徴量の次元を低次元に変換する行列を出力することを特徴とする請求項3記載の音声認識装置。
  5. それぞれが各ドメインに対応した複数の音声認識器からなり、学習用音声データから当該各音声認識器によるN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、
    前記学習用音声認識部の各音声認識器で算出された前記Nベストの学習用スコアを前記Nベスト毎にドメイン毎に並べてベクトル化することでNベスト毎の学習用特徴量に変換する学習用特徴量変換部と、
    前記Nベスト毎の学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを前記Nベスト毎に算出するモデル学習部と、
    それぞれが各ドメインに対応した複数の音声認識器からなり、入力音声データから当該各音声認識器によるNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、
    前記Nベストの判定用スコアをNベスト毎に判定用特徴量に変換する判定用特徴量変換部と、
    前記判定用音声認識部の各音声認識器で算出された前記Nベストの判定用スコアをNベスト毎にドメイン毎に並べてベクトル化することでNベスト毎の判定用特徴量に変換する判定用特徴量変換部と、
    前記Nベスト毎の判定用特徴量と前記Nベスト毎のドメイン判定モデルとを照合し、Nベスト毎のドメイン判定結果を算出するドメイン判定部と、
    前記Nベスト毎のドメイン判定結果を用いて、前記入力音声データがどのドメインの発話であるかを示すドメイン最終判定結果を算出するドメイン確定部とを備えたことを特徴とする音声認識装置。
JP2018562783A 2017-01-18 2017-01-18 音声認識装置 Expired - Fee Related JP6532619B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/001551 WO2018134916A1 (ja) 2017-01-18 2017-01-18 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2018134916A1 JPWO2018134916A1 (ja) 2019-04-11
JP6532619B2 true JP6532619B2 (ja) 2019-06-19

Family

ID=62907889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018562783A Expired - Fee Related JP6532619B2 (ja) 2017-01-18 2017-01-18 音声認識装置

Country Status (2)

Country Link
JP (1) JP6532619B2 (ja)
WO (1) WO2018134916A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210052563A (ko) * 2018-11-02 2021-05-10 주식회사 엘솔루 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
KR20220118754A (ko) * 2021-02-19 2022-08-26 삼성전자주식회사 음성 인식 결과를 분석하는 전자 장치 및 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3265701B2 (ja) * 1993-04-20 2002-03-18 富士通株式会社 多判定器によるパターン認識装置
JP5177561B2 (ja) * 2007-02-06 2013-04-03 日本電気株式会社 認識器重み学習装置および音声認識装置、ならびに、システム
JP5406797B2 (ja) * 2010-07-13 2014-02-05 日本電信電話株式会社 音声認識方法とその装置とプログラム
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP6019604B2 (ja) * 2012-02-14 2016-11-02 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム
JP6003492B2 (ja) * 2012-10-01 2016-10-05 富士ゼロックス株式会社 文字認識装置及びプログラム
US20160336007A1 (en) * 2014-02-06 2016-11-17 Mitsubishi Electric Corporation Speech search device and speech search method

Also Published As

Publication number Publication date
WO2018134916A1 (ja) 2018-07-26
JPWO2018134916A1 (ja) 2019-04-11

Similar Documents

Publication Publication Date Title
CA2652302C (en) Intersession variability compensation for automatic extraction of information from voice
JP3452443B2 (ja) 騒音下音声認識装置及び騒音下音声認識方法
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US20200395028A1 (en) Audio conversion learning device, audio conversion device, method, and program
Gill et al. Vector quantization based speaker identification
JPWO2018051945A1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6532619B2 (ja) 音声認識装置
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
KR100574769B1 (ko) 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
JP6784255B2 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP6791816B2 (ja) 音声区間検出装置、音声区間検出方法、およびプログラム
JP4391179B2 (ja) 話者認識システム及び方法
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP6054004B1 (ja) 音声認識装置
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP4236502B2 (ja) 音声認識装置
CN109872725B (zh) 多视角向量处理方法和设备
Debnath et al. Speaker independent isolated word recognition based on ANOVA and IFS
JP2021092809A (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP2023002421A (ja) 構音異常検出方法、構音異常検出装置、及びプログラム
Bellemin 18-551 Digital Communications and Signal Processing System Design Spring 2002 Professor Casasent

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181206

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181206

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190521

R150 Certificate of patent or registration of utility model

Ref document number: 6532619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees