JP2016177045A - 音声認識装置および音声認識プログラム - Google Patents

音声認識装置および音声認識プログラム Download PDF

Info

Publication number
JP2016177045A
JP2016177045A JP2015055976A JP2015055976A JP2016177045A JP 2016177045 A JP2016177045 A JP 2016177045A JP 2015055976 A JP2015055976 A JP 2015055976A JP 2015055976 A JP2015055976 A JP 2015055976A JP 2016177045 A JP2016177045 A JP 2016177045A
Authority
JP
Japan
Prior art keywords
phrase
speech
recognition
feature amount
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015055976A
Other languages
English (en)
Other versions
JP6481939B2 (ja
Inventor
満次 吉田
Mitsuji Yoshida
満次 吉田
荒金 康人
Yasuto Arakane
康人 荒金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RayTron Inc
Original Assignee
RayTron Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RayTron Inc filed Critical RayTron Inc
Priority to JP2015055976A priority Critical patent/JP6481939B2/ja
Priority to US15/071,878 priority patent/US20160275944A1/en
Publication of JP2016177045A publication Critical patent/JP2016177045A/ja
Application granted granted Critical
Publication of JP6481939B2 publication Critical patent/JP6481939B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】構文分析を行わなくても、事前登録単語と追加登録単語とが連続的に発話された音声を認識すること。
【解決手段】連続的に発話されたフレーズ群の音声を入力する音声入力手段(101)と、フレーズ群に含まれる事前登録単語を推定する第1の推定手段(104)と、追加登録単語の特徴量列についてのパターンデータと入力された音声の特徴量とに基づいて、フレーズ群に含まれる追加登録単語を推定する第2の推定手段(106)とを備える。第1の推定手段(104)は、複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、事前登録単語候補の音声区間を切り出す切出し手段(211)と、モデルパラメータを用いた認識処理によって、切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する認識処理手段(212)とを含む。
【選択図】図2

Description

本発明は、音声認識装置および音声認識プログラムに関し、特に、孤立単語認識方式により音声認識を行う音声認識装置および音声認識プログラムに関する。
一般的に、不特定話者対応の音声認識アルゴリズムと、単語の追加登録に対応した音声認識アルゴリズムとは異なっている。そのため、不特定話者対応の事前登録単語に加え、ユーザが自由に認識対象の単語を追加登録できるようにした音声認識装置においても、事前登録単語と追加登録単語とをそれぞれ異なるアルゴリズムによって認識可能とする技術が提案されている。
たとえば特許第3479691号公報(特許文献1)では、話者依存型認識器がDTW(Dynamic Time Warping)法に基づいて動作し、話者独立型認識器がHMM(Hidden Markov Model)法に基づいて動作することが開示されている。この場合、後処理装置において、双方の認識器のある所定の認識確率を伴う後処理、すなわち構文分析が行われる。
特許第3479691号公報
事前登録単語と追加登録単語との双方を認識可能な音声認識装置において、事前登録単語と追加登録単語とが一語ずつ区切って発話された音声を認識することは可能である。しかしながら、事前登録単語と追加登録単語とが連続的に織り交ぜて発話された場合、単語間に明確な区切りがないため、誤認識してしまう可能性が高い。そのため、事前登録単語と追加登録単語とが連続的に発話された音声を適切に認識するためには、上記特許文献1に示されるように、構文分析等が必須とされる。
本発明は、上記のような課題を解決するためになされたものであって、その目的は、構文分析を行わなくても、事前登録単語と追加登録単語とが連続的に発話された音声を認識することのできる音声認識装置および音声認識プログラムを提供することである。
この発明のある局面に従う音声認識装置は、複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶手段と、事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力する音声入力手段と、記憶手段に記憶されたモデルパラメータと、音声入力手段に入力された音声の特徴量とに基づいて、フレーズ群に含まれる事前登録単語を推定する第1の推定手段と、記憶手段に記憶されたパターンデータと、音声入力手段に入力された音声の特徴量とに基づいて、フレーズ群に含まれる追加登録単語を推定する第2の推定手段とを備える。上記第1の推定手段は、切出し手段と、認識処理手段とを含む。切出し手段は、複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された事前登録単語候補の音声区間を切り出す。認識処理手段は、モデルパラメータを用いた認識処理によって、切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する。
好ましくは、音声認識装置は、第1の推定手段または第2の推定手段により単語が推定された場合に、推定された単語を認識結果として受理するか否かの受理判定を行う受理判定手段と、受理判定手段により受理された単語を出力する出力手段と、受理判定手段により受理された単語の音声区間を認識対象区間から削除することによって、認識対象区間を更新する更新手段とをさらに備える。
また、認識対象区間の音声に対し、先に、第1の推定手段による事前登録単語の推定処理を実行し、第1の推定手段の推定結果が受理判定手段により棄却された場合に、第2の推定手段による追加登録単語の推定処理を実行することが望ましい。
好ましくは、切出し手段で用いられるテンプレート特徴量列は、モデルパラメータから復元された特徴量列である。
この場合、音声認識装置は、記憶手段に記憶されたモデルパラメータから、複数の事前登録単語それぞれの特徴パターンを算出し、テンプレート特徴量列を復元する復元手段をさらに備えていてもよい。
好ましくは、切出し手段は、モデルパラメータに含まれるばらつき情報に基づいて重み付けを行って、事前登録単語候補を抽出する。
好ましくは、第2の推定手段も、切出し手段と、認識処理手段とを含む。この切出し手段は、認識対象区間内の音声の特徴量列に、パターンデータに応じた特徴量列を照合させることによって、追加登録単語候補を抽出し、抽出された追加登録単語候補の音声区間を切り出す。この認識処理手段は、切り出された追加登録単語候補の音声区間内の特徴量列を、パターンデータに応じた特徴量列に照合させることによって、追加登録単語の認識処理を行う。
あるいは、第2の推定手段は、認識対象区間内の音声の特徴量列に、パターンデータに応じた特徴量列を照合させることによって、追加登録単語を推定してもよい。
この発明のある局面に従う音声認識プログラムは、複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶部を備えたコンピュータにおいて実行されるプログラムである。音声認識プログラムは、事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力するステップと、記憶部に記憶されたモデルパラメータと、入力された音声の特徴量とに基づいて、フレーズ群に含まれる事前登録単語を推定する第1の推定ステップと、記憶部に記憶されたパターンデータと、入力された音声の特徴量とに基づいて、フレーズ群に含まれる追加登録単語を推定する第2の推定ステップとを備える。第1の推定ステップは、複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された事前登録単語候補の音声区間を切り出すステップと、モデルパラメータを用いた認識処理によって、切り出された音声区間内の特徴量に基づき事前登録単語を推定するステップとを含む。
本発明によれば、構文分析を行わなくても、事前登録単語と追加登録単語とが連続的に発話された音声を認識することができる。
本発明の実施の形態に係る音声認識装置のハードウェア構成例を示すブロック図である。 本発明の実施の形態に係る音声認識装置の機能構成を示す機能ブロック図である。 本発明の実施の形態において、追加登録単語の認識処理での最小累積距離の計算例を示す図である。 本発明の実施の形態において、追加登録単語候補または事前登録単語候補の抽出処理での最小累積距離の計算例を示す図である。 本発明の実施の形態において、HMMフレーズのモデルパラメータから復元されるテンプレート特徴量列の時間変化を示す図である。 本発明の実施の形態において、あるHMMフレーズについての複数の教師音声の特徴量列と、復元された特徴量列(特徴パターン)との関係を示すグラフである。 本発明の実施の形態における音声認識処理を示すフローチャートである。 本発明の実施の形態における連続的音声認識処理を示すフローチャートである。 本発明の実施の形態において、単語候補の抽出に用いられる計算式を説明するための図である。 実験で用いられた音声波形と認識対象区間との関係を示すグラフである。 実験で用いられた音声波形と認識対象区間との関係を示すグラフである。 実験で用いられた音声波形と認識対象区間との関係を示すグラフである。 実験で用いられた音声波形と認識対象区間との関係を示すグラフである。
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
<概要について>
本実施の形態に係る音声認識装置は、孤立単語認識方式を採用し、音声信号を分析することで、複数の登録単語から、音声信号が表わす単語を推定して出力する。認識対象の登録単語としては、不特定話者対応の事前登録単語と、特定話者対応の追加登録単語との双方を含む。一般的に、事前登録単語の認識には、各単語のモデルパラメータが用いられ、追加登録単語の認識には、各単語の特徴量列(特徴量ベクトル列)についてのパターンデータが用いられる。
本実施の形態に係る音声認識装置は、事前登録単語と追加登録単語とを異なるアルゴリズムで認識する機能を備えつつ、事前登録単語と追加登録単語とが織り交ぜて連続的に発話された音声(以下「連続的音声」という)の認識を可能としている。
なお、本実施の形態では、事前登録単語の認識はHMM法に基づいて行われ、追加登録単語の認識はDTWアルゴリズムに基づいて行われる。そのため、後の説明においては、「事前登録単語」を「HMMフレーズ」、「追加登録単語」を「DTWフレーズ」と記している。
以下に、このような音声認識装置の構成および動作について、詳細に説明する。
<構成について>
(ハードウェア構成)
本実施の形態に係る音声認識装置は、たとえばPC(Personal Computer)などの汎用コンピュータによって実現可能である。
図1は、本発明の実施の形態に係る音声認識装置1のハードウェア構成例を示すブロック図である。図1を参照して、音声認識装置1は、各種演算処理を行うためのCPU(Central Processing Unit)11と、各種データおよびプログラムを格納するROM(Read Only Memory)12と、作業データ等を記憶するRAM(Random Access Memory)13と、不揮発性の記憶装置、たとえばハードディスク14と、キーボードなどを含む操作部15と、各種情報を表示するための表示部16と、記録媒体17aからのデータやプログラムを読み出しおよび書き込み可能なドライブ装置17と、ネットワーク通信するための通信I/F(インターフェイス)18と、マイクロフォン20から音声信号を入力するための入力部19とを備える。記録媒体17aは、たとえば、CD−ROM(Compact Disc-ROM)や、メモリカードなどであってよい。
(機能構成)
図2は、本発明の実施の形態に係る音声認識装置1の機能構成を示す機能ブロック図である。図2を参照して、音声認識装置1は、その主な機能構成として、音声入力部101と、抽出部102と、設定・更新部103と、HMMフレーズ推定部(第1の推定部)104と、DTWフレーズ推定部(第2の推定部)106と、受理判定部105,107と、結果出力部108とを含む。
音声入力部101は、HMMフレーズとDTWフレーズとが連続的に発話されたフレーズ群の音声、すなわち連続的音声を入力する。抽出部102は、入力された音声を分析し、音声の特徴量を抽出する。具体的には、音声信号を所定の時間長のフレーム単位で切出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、切出された音声信号が、MFCC(Mel-frequency cepstral coefficient)特徴量に変換される。
設定・更新部103は、音声の検出区間のなかから、HMMフレーズ推定部104およびDTWフレーズ推定部106におけるフレーズの推定対象の区間(以下「認識対象区間」という)の設定および更新を行う。
HMMフレーズ推定部104は、HMM記憶部201に記憶されたモデルパラメータと、抽出部102で抽出された音声の特徴量とに基づいて、フレーズ群に含まれるHMMフレーズを推定する。DTWフレーズ推定部106は、パターン記憶部301に記憶されたパターンデータと、抽出部102で抽出された音声の特徴量とに基づいて、フレーズ群に含まれるDTWフレーズを推定する。
受理判定部105は、HMMフレーズ推定部104により推定されたHMMフレーズを認識結果として受理するか否かの受理判定を行う。同様に、受理判定部107は、DTWフレーズ推定部106により推定されたDTWフレーズを認識結果として受理するか否かの受理判定を行う。
結果出力部108は、受理判定部105,107により受理された単語を認識結果として確定し、出力する。具体的には、結果出力部108は、たとえば表示部16に出力する。
ここで、HMMフレーズ推定部104は、公知のHMM法に従ってフレーズ認識を行う認識処理部212だけでなく、切出し部211を含んでいる。同様に、DTWフレーズ推定部106も、公知のDTWアルゴリズムに従ってフレーズ認識を行う認識処理部312だけでなく、切出し部311を含んでいる。
HMMフレーズ推定部104の切出し部211は、認識対象区間から、HMMフレーズが存在する可能性の高い音声区間を切り出す処理を実行する。すなわち、切出し部211は、認識対象区間から、HMMフレーズ候補の抽出処理を行い、抽出されたHMMフレーズ候補の音声区間を切り出す。具体的には、HMMフレーズ候補の抽出処理は、複数のHMMフレーズそれぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって行われる。切出し部211で用いられるテンプレート特徴量列については、後述する。これにより、認識処理部212では、切出された音声区間内の特徴量から、HMMフレーズを推定することができる。
DTWフレーズ推定部106の切出し部311は、HMMフレーズ推定部104の切出し部211と同様に、認識対象区間から、DTWフレーズが存在する可能性の高い音声区間を切り出す処理を実行する。すなわち、切出し部311は、認識対象区間から、DTWフレーズ候補の抽出処理を行い、抽出されたDTWフレーズ候補の音声区間を切り出す。具体的には、DTWフレーズ候補の抽出処理は、複数のDTWフレーズそれぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって行われる。ここでのテンプレート特徴量列のパターンデータは、認識処理部312において用いられるデータであり、フレーズの追加登録時に、パターン記憶部301に記憶されている。これにより、認識処理部312では、切出された音声区間内の特徴量から、DTWフレーズを推定することができる。
ここで、切出し部211,311において実行されるフレーズ(候補)抽出処理について説明する。フレーズ抽出処理の理解を深めるために、まず、図3を参照しながら、DTWアルゴリズムに従ったDTWフレーズ認識処理について簡単に説明する。図3では、入力フレーズの特徴量列が横軸に示され、あるDTWフレーズ(追加登録単語)の特徴量列が縦軸に示されている。たとえば、入力フレーズの特徴量列が3,5,6,4,2,5であり、あるDTWフレーズの特徴量列が5,6,3,1,5であると仮定する。
DTW認識処理では、入力フレーズの特徴量列を、DTWフレーズのテンプレート特徴量列に照合させて、両者の類似度を示す最小累積距離を算出する。DTW認識処理において算出される最小累積距離については、以下「DTW距離」という。この場合、両フレーズの始端と終端とを合わせ、たとえば、最大傾き「2」、最小傾き「1/2」とし、一点鎖線で示す平行四辺形内でDTW距離を計算する。この場合、DTW距離は「5」となっている。DTWフレーズ認識においては、各登録フレーズについて上記のような計算を行い、DTW距離が最も小さい登録フレーズが認識結果とされる。
これに対し、切出し部211,311において実行されるフレーズ抽出処理においては、DTW認識処理とは逆に、入力フレーズの特徴量列に、登録フレーズのテンプレート特徴量列を照合させて、両者の類似度を示す最小累積距離を算出する。このように、照合先と照合元とを認識処理と逆にしているのは、連続的に発話されたフレーズ群の入力音声全体から、入力音声のどの部分に登録フレーズが存在するか分からないためである。
図4には、フレーズ抽出処理における最小累積距離の計算例が示されている。図4においても、図3と同様に、たとえば、入力フレーズの特徴量列が3,5,6,4,2,5であり、登録フレーズの特徴量列が5,6,3,1,5である場合の計算例が示されている。この場合、両フレーズの始端だけを合わせ、たとえば、最大傾き「2」、最小傾き「1/2」とし、一点鎖線で示すV字内で最小累積距離を計算する。この場合、登録フレーズの最終フレームで複数の累積距離が算出されるが、これらの累積距離(11,7,7,4)のうちの最小の累積距離(4)が、両フレーズの特徴量列の最小累積距離となる。ただし、登録フレーズのフレーム長が異なるため、計算された最小累積距離を登録フレーズのフレーム数で割った数値を、両フレーズの類似度として求めることが望ましい。
なお、図3および図4の距離計算例では、理解を容易にするために、特徴量の次元を1次元とし、かつ、極めて少ないフレーム数のフレーズを例にしたが、通常の入力音声で距離計算をする場合には、登録フレーズの始端と入力音声の始端付近とを合わせればよい。
ところで、DTWフレーズの抽出処理は、パターン記憶部301に記憶されたフレーズ認識用のパターンデータを用いることで簡単に実現可能であるが、HMMフレーズの抽出処理は、フレーズ認識にパターンデータが用いられないため、上記のような距離計算を可能とするためには、別途テンプレート特徴量列を準備しなければならない。
そこで、本実施の形態では、HMM記憶部201に記憶されたモデルパラメータから、各HMMフレーズのテンプレート特徴量列を復元することとしている。すなわち、音声認識装置1は、その機能として復元部109をさらに備えている。
復元部109は、HMM記憶部201に記憶されたモデルパラメータから、複数のHMMフレーズそれぞれの特徴パターンを算出し、テンプレート特徴量列を復元する。HMM記憶部201には、HMMフレーズごとに、状態遷移確率、出力確率分布、初期状態確率などのパラメータが予め記憶されている。復元部109は、これらのパラメータを用いて、各HMMフレーズのテンプレート特徴量列を復元する。この具体的な方法について、以下に説明する。
状態kから状態lへの状態遷移確率が「akl」、状態kの特徴量「y」の出力確率分布が「b(y)」のHMMフレーズから、テンプレート特徴量列を生成すると仮定する。なお、ここでは、状態数NのスキップなしLR型HMMで、状態kにおける特徴量の出力確率分布が、平均ベクトル「μ」、共分散行列「Σ」の多次元正規分布である場合について述べる。
状態kから出力される特徴量の平均値は平均ベクトル「μ」である。そして、状態kから特徴量が出力される平均フレーム数は「1/(1−akk)」であるため、状態kから状態(k+1)に遷移する時刻の平均値「t」は、次の式(1)で表される。
Figure 2016177045
これにより、本実施の形態では、図5で示すような変化をするテンプレート特徴量列を生成する。この場合、テンプレート特徴量列は、以下の式(2)で表される。なお、状態Nから最後に特徴量が出力される時刻の平均値「t」は、HMMの教師音声の特徴量列の平均フレーム長からも求めることができる。
Figure 2016177045
図6のグラフには、あるHMMフレーズについての複数の教師音声の特徴量列と、復元された特徴量列(特徴パターン)との関係が示されている。
復元部109は、上記のような計算によって、HMMフレーズごとに、テンプレート特徴量列を復元する。なお、復元部109は、切出し部211においてHMMフレーズ抽出処理が行われるたびに作動して復元処理を行ってもよいが、そうすると、認識速度が低下する。そのため、復元部109は、たとえば初期設定時など、ユーザからの所定の指示が入力された場合にのみ作動し、算出された特徴パターンに応じたパターンデータを、パターン記憶部202に記憶しておくことが望ましい。あるいは、音声認識装置1の製造または出荷時に、HMMから復元されたパターンデータを、予めパターン記憶部202に記憶しておいてもよい。この場合、音声認識装置1は復元部109を有していなくてもよい。
なお、図2に示した各記憶部201,202,301は、たとえばハードディスク14に含まれる。音声入力部101は、たとえば入力部19により実現される。それ以外の機能部は、CPU11が、たとえばROM12に格納されたソフトウェアを実行することで実現される。なお、これらの機能部のうちの少なくとも1つは、ハードウェアにより実現されてもよい。
<動作について>
図7は、本発明の実施の形態における音声認識処理を示すフローチャートである。図7のフローチャートに示す処理手順は、予めプログラムとしてROM12に格納されており、CPU11が当該プログラムを読み出して実行することにより音声認識処理の機能が実現される。
図7を参照して、音声入力部101に音声が入力されると(ステップS(以下「S」と略す)2)、音声信号のエネルギー等に基づき音声が検出される(S4)。検出された音声には、連続的に発話されたHMMフレーズとDTWフレーズとが含まれているものとする。
音声が検出されると、その区間内の音声に対し、連続的音声認識処理が実行される(S6)。なお、検出した音声区間の前後に、検出し損ねたエネルギーの小さい音声が存在する可能性を考慮し、音声区間を前後に数百ミリ秒程度ずつ拡大しておくことが望ましい。
図8は、本実施の形態における連続的音声認識処理を示すフローチャートである。図8を参照して、抽出部102は、検出音声を長さ20ミリ秒程度のフレームに区切って分析し、MFCC等の特徴量を抽出する(S12)。抽出部102は、フレームを10ミリ秒程度ずつずらして分析することを繰り返す。これにより、検出音声(入力音声)の特徴量列が得られる。
設定・更新部103は、図7のS4で検出された音声区間全体を、認識対象区間として設定する(S14)。
認識対象区間が設定されると、まず、HMMフレーズ推定部104の切出し部211が、HMMフレーズの抽出処理を実行する(S16)。すなわち、パターン記憶部202に記憶された各HMMフレーズのテンプレート特徴量列を、検出音声の特徴量列に照合させて、HMMフレーズ候補を抽出する。ここでは、認識対象区間の始端付近にHMMフレーズが存在すると仮定して、DTWアルゴリズムに準拠したフレーズ抽出処理を行う。
具体的には、図4に示したような計算方法によりHMMフレーズごとに最小累積距離を算出し、算出された最小累積距離をそのフレーム数で除算することで、1フレーム当たりの最小累積距離を求める。1フレーム当たりの最小累積距離が最小になるHMMフレーズをHMMフレーズ候補とする。このような処理は、所定の計算式により行うことができる。切出し部211は、抽出されたHMMフレーズ候補の音声区間を、HMMフレーズが存在する可能性が最も高い区間として切出す。
なお、HMM記憶部201には、平均ベクトルだけではなく、平均ベクトルからのばらつきの情報、つまり、共分散行列も記憶されている。したがって、HMMフレーズ抽出においては、2つの特徴量列の照合における類似性の距離尺度として、以下の式(3)で示すマハラノビス距離を適用することができる。
Figure 2016177045
マハラノビス距離は、平均ベクトルからのばらつきの程度に応じて距離の重み付けがなされる。そのため、ユークリッド距離による類似度の計算よりも、HMMフレーズ候補の抽出精度を向上させることができる。
次に、HMMフレーズ推定部104の認識処理部212が、HMM記憶部201に記憶されたモデルパラメータを用いて、HMMフレーズの認識処理を実行する(S18)。具体的には、認識処理部212は、切出し部211において切出された音声区間内の特徴量に基づいて、HMMフレーズを推定する。すなわち、HMMフレーズ抽出処理の結果である特徴量列を、HMM法により認識する。
このように、S16でのHMMフレーズ抽出の結果をそのまま認識結果とせず、不特定話者の音声認識に適したHMM法により認識処理を行うことで、認識精度を高めることができる。
続いて、受理判定部105は、S18での認識結果の受理判定を行う(S20)。すなわち、認識処理部212において推定されたHMMフレーズを認識結果として受理するか、棄却するかの判定を行う。簡易な棄却アルゴリズムでは、1位のHMMフレーズの尤度値が或る閾値以上であり、かつ、1位と2位の尤度比が別の或る閾値以上であれば受理し、さもなければ、棄却する。これらの閾値は、事前登録音声から予め求められ、記憶されているものとする。
推定されたHMMフレーズが認識結果として受理されると(S20にて「受理」)、結果出力部108は、受理されたHMMフレーズを認識結果として出力する(S22)。
抽出されたHMMフレーズ候補と受理したHMMフレーズとが異なる場合には、切出し部211による音声区間の切出しと同様に、受理されたHMMフレーズが存在する区間を検出しなおす(S24)。この処理が終わると、S38へ進む。
S20において、推定されたHMMフレーズが棄却された場合(S20にて「棄却」)、認識対象区間の始端付近には、HMMフレーズは存在しないと判断し、S26に移行して、認識対象区間の始端付近にDTWフレーズが存在するか否かの判断が行われる。
なお、HMMフレーズ抽出処理(S16)において最も類似度が高かった1位のHMMフレーズ候補の音声区間における認識結果が棄却された場合、直ちにS26に移行せずに、HMMフレーズの再認識処理を行ってもよい。具体的には、HMMフレーズ抽出処理において次に類似度が高かった2位のHMMフレーズ候補の音声区間について、HMMフレーズ認識処理(S18)および受理判定(S20)を行ってもよい。その場合、S22において出力されるHMMフレーズは、再認識処理で認識および受理されたフレーズであってもよい。これにより、入力音声の認識精度を高めることができる。このような再認識処理は、2位以降の複数(所定数)のHMMフレーズ候補の音声区間について行われてもよい。
S26において、DTWフレーズ推定部106の切出し部311は、DTWフレーズの抽出処理を実行する。すなわち、パターン記憶部301に記憶されたパターンデータに応じた各DTWフレーズのテンプレート特徴量列を、検出音声の特徴量列に照合させて、DTWフレーズ候補を抽出する。ここでも、認識対象区間の始端付近にDTWフレーズが存在すると仮定して、DTWアルゴリズムに準拠したフレーズ抽出処理を行う。
具体的には、図4に示したような計算方法によりDTWフレーズごとに最小累積距離を算出し、算出された最小累積距離をそのフレーム数で除算することで、1フレーム当たりの最小累積距離を求める。1フレーム当たりの最小累積距離が最小になるDTWフレーズをDTWフレーズ候補とする。このような処理も、所定の計算式により行うことができる。切出し部311は、抽出されたDTWフレーズ候補の音声区間を、DTWフレーズが存在する可能性が最も高い区間として切出す。
次に、DTWフレーズ推定部106の認識処理部312は、同じ、パターン記憶部301に記憶されたパターンデータを用いて、DTWフレーズの認識処理を実行する(S28)。具体的には、認識処理部312は、切出し部311において切出された音声区間内の特徴量列を、各DTWフレーズのテンプレート特徴量列に照合させることによって、DTWフレーズを推定する。すなわち、DTWフレーズ抽出処理の結果である特徴量列を、DTWアルゴリズムにより認識する。
このように、S26でのDTWフレーズ抽出の結果をそのまま認識結果とせず、DTWアルゴリズムにより認識処理を別途行う理由は、次の通りである。すなわち、フレーズ抽出のアルゴリズムでは、一般的に、入力音声の各特徴量が照合される回数が、照合元のテンプレート特徴量列によって異なること、および、入力音声の特徴量がすべて1回ずつ照合されているとは限らないことから、認識精度が若干低くなると考えられるためである。
続いて、受理判定部107は、S28での認識結果の受理判定を行う(S30)。すなわち、認識処理部312において推定されたDTWフレーズを認識結果として受理するか、棄却するかの判定を行う。簡易な棄却アルゴリズムでは、1位のDTWフレーズのDTW距離が或る閾値以下ならば受理し、さもなければ、棄却する。この閾値は、追加登録音声から求めてもよい。
あるいは、受理判定部107は、1位のDTWフレーズおよび2位のDTWフレーズそれぞれのDTW距離の差が所定値以上であれば受理し、所定値未満であれば棄却することとしてもよい。
推定されたDTWフレーズが認識結果として受理されると(S30にて「受理」)、結果出力部108は、受理されたDTWフレーズを認識結果として出力する(S32)。
この場合も、抽出されたDTWフレーズ候補と受理されたDTWフレーズとが異なる場合には、切出し部311による音声区間の切出しと同様に、受理されたDTWフレーズが存在する区間を検出しなおす(S34)。この処理が終わると、S38に進む。
S38では、設定・更新部103は、認識対象区間から受理フレーズ区間を削除し、認識対象区間を更新する。具体的には、認識対象区間の始端から、受理フレーズを抽出した区間の終端までの特徴量列を削除する。つまり、認識処理区間の始端が、削除した分だけ後方にずらされる。
一方、S30において、DTWフレーズが棄却された場合には(S30にて「棄却」)、設定・更新部103は、認識対象区間から所定の棄却区間を削除する(S36)。具体的には、認識対象区間の始端から、100〜200ミリ秒程度の特徴量列を削除する。つまり、認識処理区間の始端が、後方に100〜200ミリ秒程度ずらされる。
なお、DTWフレーズ抽出処理(S26)において1位のDTWフレーズ候補の音声区間における認識結果が棄却された場合も、直ちにS36に移行せずに、DTWフレーズの再認識処理を行ってもよい。具体的には、DTWフレーズ抽出処理において2位のDTWフレーズ候補の音声区間について、DTWフレーズ認識処理(S28)および受理判定(S30)を行ってもよい。また、DTWフレーズの再認識処理が、2位以降の複数(所定数)のDTWフレーズ候補の音声区間について行われてもよい。
認識対象区間が更新されると、認識対象区間長を検査する(S40)。具体的には、認識対象区間の時間長が或る閾値以上であれば(S40にて「しきい値以上」)、認識対象区間にフレーズが存在する可能性があると判断し、S16に戻り、上記処理を繰り返す。さもなければ(S40にて「しきい値未満」)、一連の処理は終了される。なお、この閾値は、HMMフレーズおよびDTWフレーズの時間長から求めることができる。具体的には、HMMフレーズおよびDTWフレーズの中で最短のフレーズの時間長のたとえば半分を、閾値として設定してもよい。
上述のように、本実施の形態の音声認識方法によれば、HMMフレーズのテンプレート特徴量列を用いることで、DTWアルゴリズムに準拠したフレーズ抽出を行うことができるため、構文分析を行うことなく連続的音声を認識することができる。なお、認識精度をより向上させるためには、構文分析を組み合わせてもよい。
また、HMMフレーズのテンプレート特徴量列は、HMMパラメータから復元されるため、別途、教師音声による学習を行う必要がない。そのため、簡易な手法で連続的音声を認識することができる。
また、HMMパラメータからテンプレート特徴量列を復元する際に、共分散行列の時系列データも復元しておくことで、HMMフレーズ候補の抽出処理において、特徴量のばらつきに応じて距離の重み付けが可能である。したがって、候補抽出の精確性を向上させることができる。
また、HMMフレーズの最終的な認識処理はHMM法に基づいて行い、かつ、DTWフレーズの最終的な認識処理は、入力音声の特徴量列を照合元とし、テンプレート特徴量列を照合先とするDTWアルゴリズムに基づいて行うため、認識率の低下を防ぐことができる。
また、HMMフレーズおよびDTWフレーズの抽出処理では、通常のDTWアルゴリズムと異なり、テンプレート特徴量列を照合元とすることで、入力音声から、フレーズ認識に最適な範囲を探索することができる。また、通常、フレーズごとに数千回程度必要となる距離計算を、1回の距離計算で済ますこともできる。このことについては、さらに詳細に説明する。
一般的なDTWフレーズ抽出では、入力音声の特徴量列から部分列を取り出して照合元とし、テンプレート特徴量列に照合することによって最小累積距離が計算される。この場合、取り出す部分列ごとに、そこに存在する可能性が最も高いフレーズとその最小累積距離とが求まる。このような計算は、あらゆる部分列について行われる。そして、最小累積距離を部分列の長さであるフレーム数で割った値のうち、最小となる部分列を探す。これにより、見付かった部分列に、存在する可能性が最も高いフレーズが抽出されたことになる。このような計算は、各フレーズについて数千回程度行う必要がある。これは、部分列の入力音声からの取り出し方が数千通り程度あるためである。また、一般的なHMMフレーズ抽出においても、対数尤度の計算を1フレーズ当たり数千回程度計算する必要がある。
これに対し、本実施の形態では、各フレーズ(w)に対して入力音声の特徴量列を照合先、テンプレート特徴量列を照合元とする最小累積距離をテンプレート特徴量列の長さで割った値を計算し、その中で最小となるフレーズWを求める。この際に、次のような式(4)を用いることで、各フレーズ(w)についての距離計算を1回で済ませることができる。
Figure 2016177045
式(4)中の「Rw」はフレーズwのテンプレート特徴量列、「Jw」はその長さを示し、「amin」は始端フレーム番号「a」の最小値、「bmax」は終端フレーム番号「b」の最大値を示す。また、「X(amin,bmax)」は、入力音声の特徴量列Xのaminフレームからbmaxフレームまでを取り出した部分列を示す。この場合、Rwを照合元、X(amin,bmax)を照合先とする最小累積距離「D(Rw,X(amin,bmax))」は、次の式(5)により定義できる。なお、先に示した図4には、参考として、入力フレーズおよび登録フレーズの特徴量列と、式(5)の記号との関係が図示されている。
Figure 2016177045
式(5)の「q,・・・,qJw」に関する制約条件は、次の通りである。
Figure 2016177045
図9には、条件(1)〜(6)の不等式で定まる領域を囲む線が、一点鎖線で示されている。本実施の形態では、フレーズごとに、この領域内で最小累積距離を計算する。
切出し部211,311において、式(4)による計算を行うことで、フレーズ抽出処理に掛かる時間を大幅に短縮することができる。なお、理想的には、式(4)による計算が行われるが、本実施の形態におけるフレーズ抽出処理と、照合元および照合先は同じとしたまま、照合先を、入力音声の特徴量列から取り出されたあらゆる部分列としてもよい。
<実験結果について>
本実施の形態における連続的音声認識方法に従い、「チャピット、メールソーシン(メール送信)、サトーサン(佐藤さん)」という連続的音声に対して行った実験結果について説明する。
図10には、入力音声波形が示されている。「チャピット」と「佐藤さん」はユーザが追加登録したDTWフレーズであり、「メール送信」は事前登録されたHMMフレーズである。なお、「チャピット」は、本実施の形態に係る音声認識装置1を搭載したロボットの名前であり、このロボットは機器(たとえば携帯電話)の遠隔操作が可能な装置であると想定する。
このような入力音声に対して、音声信号のエネルギーに基づいて音声検出を行った場合、これらのフレーズ群の音声は、図10のグラフの0.81秒から3.18秒の間(△印の間)に検出された(図7のS4)。
図10の入力音声波形を見ると、各フレーズ間の間隔は、「チャピット」に含まれる促音「ッ」よりも短いことが分かる。このような音声信号のエネルギーに基づいて1フレーズずつ検出しようとすると、「ッ」のところでも区切られてしまう。本実施の形態の認識方法では、このように、1フレーズずつ検出して認識するのが困難な音声を認識することを想定している。
図8のステップS14で設定される認識対象区間の始端および終端は、図11において□印で示されている。この段階での認識対象区間は、音声が検出された区間(図10の△印の間)と、ほぼ等しい。
認識対象区間の始端付近にHMMフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「右に移動」というフレーズが単語候補として抽出された(図8のS16)。このフレーズは、0.91秒から1.43秒(○の間)にある可能性が最も高いという結果となった。
次に、0.91秒から1.43秒の音声区間を切出し、その区間内の音声をHMM認識したところ、「画面切替」という結果となった(図8のS18)。この場合、認識結果を受理判定したところ、棄却された(図8のS20にて「棄却」)。
そのため、今度は、認識対象区間の始端付近にDTWフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「チャピット」というフレーズが単語候補として抽出された(図8のS26)。このフレーズは、0.80秒から1.37秒(◇の間)にある可能性が最も高いという結果となった。
次に、0.80秒から1.37秒の音声区間を切出し、その区間内の音声をDTW認識したところ、「チャピット」という結果となった(図8のS28)。この場合、認識結果を受理判定したところ、受理された(図8のS30にて「受理」)。そのため、「チャピット」が1つ目の認識結果として出力された(図8のS32)。
単語が受理されると、図12に示す認識対象区間(□印の間)に更新される(図8のS38)。すなわち、認識対象区間は、「チャピット」の終端直後の1.38秒から音声検出区間の終端3.18秒の間となる。更新された認識対象区間の音声に対し2回目の推定処理が実行される(図8のS40にて「しきい値以上」)。
認識対象区間の始端付近にHMMフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「メール送信」というフレーズが、1.44秒から2.28秒(○の間)にある可能性が最も高いという結果となった(図8のS16)。
そのため、1.44秒から2.28秒の音声区間内の音声を認識したところ、「メール送信」という結果となった(図8のS18)。この認識結果を受理判定したところ、受理されたため(図8のS20にて「受理」)、「メール送信」が2つ目の認識結果として出力された(図8のS22)。
単語が受理されると、図13に示す認識対象区間(□印の間)に更新される(図8のS38)。すなわち、認識対象区間は、「メール送信」の終端直後の2.29秒から音声検出区間の終端3.18秒の間となる。更新された認識対象区間の音声に対し3回目の推定処理が実行される(図8のS40にて「しきい値以上」)。
認識対象区間の始端付近にHMMフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「メッセージモード」というフレーズが、2.24秒から3.18秒(○の間)にある可能性が最も高いという結果となった(図8のS16)。そのため、2.24秒から3.18秒の音声を認識したところ、「入力切替」という結果となった(図8のS18)。認識結果を受理判定したところ、棄却された(図8のS20にて「棄却」)。
続いて、認識対象区間の始端付近にDTWフレーズが存在する可能性を見積り、最も可能性が高い単語、および、その単語がある区間を求めたところ、「佐藤さん」というフレーズが、2.58秒から3.10秒(◇の間)にある可能性が最も高いという結果となった(図8のS26)。2.58秒から3.10秒の音声を認識したところ、「佐藤さん」という結果となった(図8のS28)。認識結果を受理判定したところ、受理されたため(図8のS30にて「受理」)、「佐藤さん」が3つ目の認識結果として出力された(図8のS32)。
認識対象区間を更新すると、残りの区間は、「佐藤さん」の終端直後の3.11秒から音声検出区間の終端3.18秒の間となる(図8のS38)。この場合、認識対象区間の長さは0.07秒と非常に短いため、この間にフレーズは存在しないと判断し(図8のS40にて「しきい値未満」)、認識処理が終了される。
上記の実験結果から、連続的音声を精度良く認識できていることが分かる。したがって、本実施の形態に係る音声認識装置1によれば、ユーザの満足度を向上させることができる。
なお、本実施の形態では、図6のグラフに示したように、HMMパラメータからテンプレート特徴量列を階段状に復元することとしたが、多項式補間やスプライン補間等の補間処理を用いて、テンプレート特徴量列を曲線状に復元してもよい。
また、本実施の形態では、認識対象区間の始端付近に登録フレーズが存在すると仮定して、フレーズ抽出処理を行ったが、認識対象区間の終端付近に登録フレーズが存在すると仮定して、フレーズ抽出処理を行ってもよい。この場合、認識対象区間の更新を行う際に、受理フレーズを抽出した区間の始端から、認識対象区間の終端までの特徴量列を削除すればよい。また、棄却区間の削除においては、認識処理区間の終端から、100〜200ミリ秒程度の特徴量列を削除すればよい。
また、本実施の形態では、認識対象区間の音声に対し、HMMフレーズの推定処理とDTWフレーズの推定処理とを直列的に実行することとしたが、これらを並列的に実行してもよい。その場合、受理判定部において、HMMフレーズの尤度およびDTWフレーズのDTW距離それぞれについて上記したような判定を行って、いずれか一方を受理するか、双方を棄却する。
また、本実施の形態では、HMMフレーズ推定部104だけでなく、DTWフレーズ推定部106においても、切出し部311の機能と認識処理部312の機能とを備えることとした。しかしながら、DTWフレーズを推定する場合には、抽出処理および認識処理のいずれにおいても、DTWフレーズの特徴量列が用いられるため、抽出処理においても、比較的高い精度でDTWフレーズ候補を抽出できる。そのため、DTWフレーズ推定部106は、抽出処理で抽出されたDTWフレーズ候補を、推定結果(認識結果)としてもよい。すなわち、DTWフレーズ推定部106は、単純に、認識対象区間内の音声の特徴量列に、DTWフレーズの特徴量列を照合させることによって、発話音声(フレーズ群)に含まれる追加登録単語を推定してもよい。
なお、本実施の形態に係る音声認識装置1により実行される音声認識方法を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な一時的でない(non-transitory)記録媒体にて記録させて提供することができる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 音声認識装置、11 CPU、12 ROM、13 RAM、14 ハードディスク、15 操作部、16 表示部、17 ドライブ装置、17a 記録媒体、18 通信I/F、19 入力部、20 マイクロフォン、101 音声入力部、102 抽出部、103 設定・更新部、104 HMMフレーズ推定部、106 DTWフレーズ推定部、105,107 受理判定部、108 結果出力部、109 復元部、201 HMM記憶部、202,301 パターン記憶部、211,311 切出し部、212,312 認識処理部。

Claims (9)

  1. 複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶手段と、
    事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力する音声入力手段と、
    前記記憶手段に記憶された前記モデルパラメータと、前記音声入力手段に入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる事前登録単語を推定する第1の推定手段と、
    前記記憶手段に記憶された前記パターンデータと、前記音声入力手段に入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる追加登録単語を推定する第2の推定手段とを備え、
    前記第1の推定手段は、
    前記複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された前記事前登録単語候補の音声区間を切り出す切出し手段と、
    前記モデルパラメータを用いた認識処理によって、前記切出し手段により切り出された音声区間内の特徴量に基づき事前登録単語を推定する認識処理手段とを含む、音声認識装置。
  2. 前記第1の推定手段または前記第2の推定手段により単語が推定された場合に、推定された単語を認識結果として受理するか否かの受理判定を行う受理判定手段と、
    前記受理判定手段により受理された単語を出力する出力手段と、
    前記受理判定手段により受理された単語の音声区間を前記認識対象区間から削除することによって、前記認識対象区間を更新する更新手段とをさらに備える、請求項1に記載の音声認識装置。
  3. 前記認識対象区間の音声に対し、先に、前記第1の推定手段による事前登録単語の推定処理を実行し、前記第1の推定手段の推定結果が前記受理判定手段により棄却された場合に、前記第2の推定手段による追加登録単語の推定処理を実行する、請求項2に記載の音声認識装置。
  4. 前記切出し手段で用いられる前記テンプレート特徴量列は、前記モデルパラメータから復元された特徴量列である、請求項1〜3のいずれかに記載の音声認識装置。
  5. 前記記憶手段に記憶された前記モデルパラメータから、前記複数の事前登録単語それぞれの特徴パターンを算出し、前記テンプレート特徴量列を復元する復元手段をさらに備える、請求項4に記載の音声認識装置。
  6. 前記切出し手段は、前記モデルパラメータに含まれるばらつき情報に基づいて重み付けを行って、事前登録単語候補を抽出する、請求項1〜5のいずれかに記載の音声認識装置。
  7. 前記第2の推定手段は、
    前記認識対象区間内の音声の特徴量列に、前記パターンデータに応じた特徴量列を照合させることによって、追加登録単語候補を抽出し、抽出された前記追加登録単語候補の音声区間を切り出す手段と、
    切り出された前記追加登録単語候補の音声区間内の特徴量列を、前記パターンデータに応じた特徴量列に照合させることによって、追加登録単語の認識処理を行う手段とを含む、請求項1〜6のいずれかに記載の音声認識装置。
  8. 前記第2の推定手段は、前記認識対象区間内の音声の特徴量列に、前記パターンデータに応じた特徴量列を照合させることによって、追加登録単語を推定する、請求項1〜6のいずれかに記載の音声認識装置。
  9. 複数の事前登録単語のモデルパラメータと、ユーザによる追加登録単語の特徴量列についてのパターンデータとを記憶する記憶部を備えたコンピュータにおいて実行されるプログラムであって、
    事前登録単語と追加登録単語とが連続的に発話されたフレーズ群の音声を入力するステップと、
    前記記憶部に記憶された前記モデルパラメータと、入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる事前登録単語を推定する第1の推定ステップと、
    前記記憶部に記憶された前記パターンデータと、入力された音声の特徴量とに基づいて、前記フレーズ群に含まれる追加登録単語を推定する第2の推定ステップとを備え、
    前記第1の推定ステップは、
    前記複数の事前登録単語それぞれのテンプレート特徴量列と認識対象区間内の音声の特徴量列とを照合させることによって、事前登録単語候補を抽出し、抽出された前記事前登録単語候補の音声区間を切り出すステップと、
    前記モデルパラメータを用いた認識処理によって、前記切り出された音声区間内の特徴量に基づき事前登録単語を推定するステップとを含む、音声認識プログラム。
JP2015055976A 2015-03-19 2015-03-19 音声認識装置および音声認識プログラム Active JP6481939B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015055976A JP6481939B2 (ja) 2015-03-19 2015-03-19 音声認識装置および音声認識プログラム
US15/071,878 US20160275944A1 (en) 2015-03-19 2016-03-16 Speech recognition device and method for recognizing speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015055976A JP6481939B2 (ja) 2015-03-19 2015-03-19 音声認識装置および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2016177045A true JP2016177045A (ja) 2016-10-06
JP6481939B2 JP6481939B2 (ja) 2019-03-13

Family

ID=56923910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015055976A Active JP6481939B2 (ja) 2015-03-19 2015-03-19 音声認識装置および音声認識プログラム

Country Status (2)

Country Link
US (1) US20160275944A1 (ja)
JP (1) JP6481939B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920513A (zh) * 2018-05-31 2018-11-30 深圳市图灵机器人有限公司 一种多媒体数据处理方法、装置和电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
CN108320750A (zh) * 2018-01-23 2018-07-24 东南大学—无锡集成电路技术研究所 一种基于改进型动态时间规整语音识别算法的实现方法
CN112466288B (zh) * 2020-12-18 2022-05-31 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质
CN118506767B (zh) * 2024-07-16 2024-10-15 陕西智库城市建设有限公司 一种用于智慧物业的语音识别方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5352003A (en) * 1976-10-22 1978-05-12 Nec Corp Recognition equipment of continous word voice
JPS61105599A (ja) * 1984-10-29 1986-05-23 富士通株式会社 連続音声認識装置
JPH04233599A (ja) * 1990-12-28 1992-08-21 Canon Inc 音声認識方法及び装置
JPH0685893A (ja) * 1990-09-28 1994-03-25 Texas Instr Inc <Ti> 音声テレフォン・ダイヤリング
JPH06266393A (ja) * 1993-03-12 1994-09-22 Matsushita Electric Ind Co Ltd 音声認識装置
JPH11506845A (ja) * 1995-09-11 1999-06-15 ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
JPH11202886A (ja) * 1998-01-13 1999-07-30 Hitachi Ltd 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
JP2001318688A (ja) * 2000-05-12 2001-11-16 Kenwood Corp 音声認識装置
JP2010102163A (ja) * 2008-10-24 2010-05-06 Xanavi Informatics Corp 車室内音声対話装置
WO2013027360A1 (ja) * 2011-08-19 2013-02-28 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
DK2293289T3 (da) * 2008-06-06 2012-06-25 Raytron Inc Talegenkendelsessystem og fremgangsmåde
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5352003A (en) * 1976-10-22 1978-05-12 Nec Corp Recognition equipment of continous word voice
JPS61105599A (ja) * 1984-10-29 1986-05-23 富士通株式会社 連続音声認識装置
JPH0685893A (ja) * 1990-09-28 1994-03-25 Texas Instr Inc <Ti> 音声テレフォン・ダイヤリング
JPH04233599A (ja) * 1990-12-28 1992-08-21 Canon Inc 音声認識方法及び装置
JPH06266393A (ja) * 1993-03-12 1994-09-22 Matsushita Electric Ind Co Ltd 音声認識装置
JPH11506845A (ja) * 1995-09-11 1999-06-15 ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
JPH11202886A (ja) * 1998-01-13 1999-07-30 Hitachi Ltd 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
JP2001318688A (ja) * 2000-05-12 2001-11-16 Kenwood Corp 音声認識装置
JP2010102163A (ja) * 2008-10-24 2010-05-06 Xanavi Informatics Corp 車室内音声対話装置
WO2013027360A1 (ja) * 2011-08-19 2013-02-28 旭化成株式会社 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920513A (zh) * 2018-05-31 2018-11-30 深圳市图灵机器人有限公司 一种多媒体数据处理方法、装置和电子设备
CN108920513B (zh) * 2018-05-31 2022-03-15 深圳市图灵机器人有限公司 一种多媒体数据处理方法、装置和电子设备

Also Published As

Publication number Publication date
US20160275944A1 (en) 2016-09-22
JP6481939B2 (ja) 2019-03-13

Similar Documents

Publication Publication Date Title
JP5282737B2 (ja) 音声認識装置および音声認識方法
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
US10665227B2 (en) Voice recognition device and voice recognition method
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JPWO2005096271A1 (ja) 音声認識装置及び音声認識方法
US20110218802A1 (en) Continuous Speech Recognition
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
Këpuska Wake-up-word speech recognition
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
JP3444108B2 (ja) 音声認識装置
KR102098956B1 (ko) 음성인식장치 및 음성인식방법
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP2020008730A (ja) 感情推定システムおよびプログラム
JP4297349B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190201

R150 Certificate of patent or registration of utility model

Ref document number: 6481939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250