JP2019219598A - Voice recognition apparatus, voice recognition method, and program - Google Patents
Voice recognition apparatus, voice recognition method, and program Download PDFInfo
- Publication number
- JP2019219598A JP2019219598A JP2018118508A JP2018118508A JP2019219598A JP 2019219598 A JP2019219598 A JP 2019219598A JP 2018118508 A JP2018118508 A JP 2018118508A JP 2018118508 A JP2018118508 A JP 2018118508A JP 2019219598 A JP2019219598 A JP 2019219598A
- Authority
- JP
- Japan
- Prior art keywords
- score
- phoneme
- unit
- frames
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims description 96
- 230000005236 sound signal Effects 0.000 claims description 82
- 230000008569 process Effects 0.000 claims description 30
- 230000007704 transition Effects 0.000 claims description 29
- 230000006870 function Effects 0.000 description 36
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音声認識装置、音声認識方法及びプログラムに関する。 The present invention relates to a speech recognition device, a speech recognition method, and a program.
音声認識の技術が知られている。例えば特許文献1は、音声認識に関する技術として、音声信号の中から検索語(クエリ)に対応する音声が発せられている部分を検索する音声検索装置を開示している。具体的に説明すると、特許文献1に開示された音声検索装置は、検索対象の音声信号におけるフレームと検索語に対応する音素との対応を動的計画法(DPマッチング)を用いて探索し、探索結果に基づいて、検索対象の音声信号の中から検索語に対応する音声が発せられていると推定される区間を特定する。その際に、特許文献1に開示された音声検索装置は、音声信号の中から検索語を誤検出することを抑制するため、各フレームに対応付けられた音素の出力確率に基づく値を、その音素に対応付けられたフレームの数で正規化することにより正規化尤度を算出する。
There are known voice recognition techniques. For example,
上記のようなフレームと音素との対応関係を探索することにより音声を認識する手法において、フレームと音素との対応関係を探索する際における探索の精度を向上させることで、音声認識の精度を向上させることが望まれている。 In the method of recognizing speech by searching the correspondence between frames and phonemes as described above, the accuracy of speech recognition is improved by improving the search accuracy when searching for the correspondence between frames and phonemes. It is hoped that it will.
本発明は、以上のような課題を解決するためのものであり、音声認識の精度を向上させることが可能な音声認識装置、音声認識方法及びプログラムを提供することを目的とする。 An object of the present invention is to solve the above-described problems, and an object of the present invention is to provide a speech recognition device, a speech recognition method, and a program capable of improving the accuracy of speech recognition.
上記目的を達成するため、本発明に係る音声認識装置は、
音声信号の特徴量が、前記音声信号において発せられているか否かの判定対象となる対象語に対応する複数の音素のそれぞれから出力される出力確率を、前記音声信号における複数のフレームのそれぞれについて取得する出力確率取得手段と、
前記出力確率取得手段により取得された前記出力確率に基づいて、前記複数のフレームと前記複数の音素との対応関係の尤もらしさを示すスコアを、当該対応関係の複数の候補のそれぞれについて算出するスコア算出手段と、
前記スコア算出手段により前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを前記対応関係として特定する特定手段と、
前記特定手段により特定された前記対応関係に基づいて、前記音声信号において前記対象語が発せられているか否かを判定する判定手段と、
を備え、
前記スコア算出手段は、前記複数の候補のそれぞれにおいて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、前記複数のフレームに亘って累積することにより、前記スコアを算出する、
ことを特徴とする。
In order to achieve the above object, a speech recognition device according to the present invention comprises:
The output probability output from each of the plurality of phonemes corresponding to the target word to be determined whether or not the feature amount of the audio signal is issued in the audio signal, for each of the plurality of frames in the audio signal Output probability obtaining means for obtaining;
A score for calculating a likelihood of the correspondence between the plurality of frames and the plurality of phonemes based on the output probability acquired by the output probability acquisition unit, for each of the plurality of candidates of the correspondence. Calculating means;
Identification means for identifying any of the plurality of candidates as the correspondence relationship based on the score calculated for each of the plurality of candidates by the score calculation means,
Determining means for determining whether or not the target word is issued in the audio signal, based on the correspondence specified by the specifying means;
With
The score calculation unit normalizes a value based on the output probability of a phoneme corresponding to each frame in each of the plurality of candidates by the number of frames corresponding to each phoneme, and accumulates the value over the plurality of frames. By calculating the score,
It is characterized by the following.
本発明によれば、音声認識の精度を向上させることができる。 According to the present invention, the accuracy of speech recognition can be improved.
以下、本発明の実施形態について、図面を参照して説明する。なお、図中同一又は相当する部分には同一符号を付す。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings, the same or corresponding portions are denoted by the same reference numerals.
図1に、本実施形態に係る音声認識装置10のハードウェア構成を示す。図1に示すように、音声認識装置10は、制御部11と、記憶部12と、入力部13と、出力部14と、通信部15と、を備える。
FIG. 1 shows a hardware configuration of a
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)を備える。CPUは、例えばマイクロプロセッサ等であって、様々な処理や演算を実行する中央演算処理部である。制御部11において、CPUが、ROMに記憶されている制御プログラムを読み出して、RAMをワークメモリとして用いながら、音声認識装置10全体の動作を制御する。制御部11は、制御手段として機能する。
The
記憶部12は、フラッシュメモリ、ハードディスク等の不揮発性メモリである。記憶部12は、OS(Operating System)及びアプリケーションプログラムを含む、制御部11が各種処理を行うために使用するプログラム及びデータを記憶する。また、記憶部12は、制御部11が各種処理を行うことにより生成又は取得するデータを記憶する。
The
入力部13は、入力キー、ボタン、スイッチ、タッチパッド、タッチパネル等の入力デバイスを備える。入力部13は、ユーザから入力された操作指示を受け付け、受け付けた操作指示を制御部11に送信する。また、入力部13は、マイクロフォン等の音声入力部を備えており、音声認識装置10の外部で発せられた音声信号の入力を受け付ける。音声入力部により受け付けられた音声信号は、図示しないアナログデジタル変換器により規定のサンプリング周波数でデジタル信号に変換され、制御部11に送信される。
The
出力部14は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の表示部と、スピーカ等の音声出力部と、を備える。表示部は、図示しない表示駆動回路によって駆動されて、状況に応じた様々な画像を表示する。なお、表示部は、入力部13と互いに重畳して配置され、表示部と入力部13とでいわゆるタッチパネル(タッチスクリーン)を構成しても良い。音声出力部は、スピーカと音声出力インタフェースとを備え、制御部11によって生成された音声データを音声に変換して外部に出力する。
The
通信部15は、音声認識装置10が外部の機器と通信するための通信モジュールである。通信部15は、例えばWi−Fi(Wireless Fidelity)、USB(Universal Serial Bus)、Bluetooth(登録商標)、NFC(Near Field Communication)等の通信規格に従って、外部の機器と通信する。通信部15は、制御部11の制御の下、このような有線又は無線による通信を介して、外部の機器と各種のデータ及び情報を送受信する。
The
次に図2を参照して、音声認識装置10の機能的な構成について説明する。図2に示すように、音声認識装置10は、機能的に、音声信号取得部110と、特徴量算出部120と、出力確率取得部130と、変換部140と、探索部150と、判定部160と、を備える。制御部11において、CPUがROMに記憶されたプログラムをRAMに読み出して実行することにより、これら各部として機能する。
Next, a functional configuration of the
また、音声認識装置10は、音響モデル記憶部21と、候補語記憶部22と、を備える。音響モデル記憶部21及び候補語記憶部22は、記憶部12の適宜の記憶領域に構築されており、それぞれ音響モデル記憶手段及び候補語記憶手段として機能する。
Further, the
音声信号取得部110は、認識対象の音声信号を取得する。認識対象の音声信号は、音声認識装置10において認識すべき音声を示すデジタル信号である。音声信号取得部110は、認識対象の音声信号として、例えばユーザから発せられた音声、又は会議、テレビ、映画等で発せられた音声を示す信号を、入力部13のマイクロフォンを介して取得する。或いは、音声信号取得部110は、認識対象の音声信号を、通信部15を介して外部から取得しても良いし、記憶部12に予め記憶された音声信号を読み込むことにより取得しても良い。音声信号取得部110は、制御部11が記憶部12、入力部13又は通信部15と協働することによって実現される。音声信号取得部110は、音声信号取得手段として機能する。
The audio
特徴量算出部120は、音声信号取得部110により取得された音声信号の特徴量(音響特徴量)を、フレーム毎に算出する。特徴量とは、音声信号の特徴を示す指標となるパラメータである。具体的に説明すると、特徴量は、ケプストラム又はメルケプストラムと呼ばれる音声信号を周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声信号のエネルギー2乗和又はその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。
The feature
例えば、特徴量は、周波数軸系特徴パラメータ12成分(12次元)及びパワー系特徴パラメータ1成分(1次元)と、直前のフレームの各成分との差分を取った△周波数軸系特徴パラメータ12成分(12次元)及び△パワー系特徴パラメータ1成分(1次元)と、直前のフレームの各成分との差分の差分を取った△△周波数軸系特徴パラメータ12成分(12次元)と、の合計38成分を有する38次元ベクトル量として表現される。或いは、特徴量として、ニューラルネットワークの入力層に適用される40次元のメルフィルタバンクを用いても良い。
For example, the feature amount is obtained by taking the difference between the 12 components (12-dimensional) of the frequency axis system parameter and one component (1D) of the power system parameter and the components of the immediately preceding frame. (12 dimensions) and △ power
フレームとは、音声信号における所定の時間長を有する時間窓である。具体的に図3の上側に、先頭から末尾までの時間長Lの認識対象の音声信号の波形の例を示す。この波形図において、縦軸は波形の振幅(エネルギー)の大きさを表し、横軸は時間を表している。そして、図3の下側に、上側に示した音声信号において設定されるフレームを示す。音声信号の先頭のフレームから末尾のフレームまで、それぞれフレーム長FのT個のフレームが、規定のシフト長Sずつシフトして設定される。フレーム長F及びシフト長Sは、例えばF=25msec、S=10msec等、音響モデルの作成時に定められた時間長に合わせて設定される。シフト長Sよりもフレーム長Fの方が長いため、各フレームは、隣接するフレームと時間長(F−S)だけ重複する。 A frame is a time window having a predetermined time length in an audio signal. Specifically, the upper part of FIG. 3 shows an example of the waveform of a speech signal to be recognized having a time length L from the beginning to the end. In this waveform diagram, the vertical axis represents the amplitude (energy) of the waveform, and the horizontal axis represents time. The lower part of FIG. 3 shows a frame set in the audio signal shown on the upper side. From the first frame to the last frame of the audio signal, T frames each having a frame length F are set by shifting by a specified shift length S. The frame length F and the shift length S are set in accordance with the time length determined when the acoustic model was created, for example, F = 25 msec, S = 10 msec. Since the frame length F is longer than the shift length S, each frame overlaps with an adjacent frame by a time length (FS).
特徴量算出部120は、このように設定されたフレーム単位で、認識対象の音声信号をフーリエ変換することで周波数スペクトルに変換する。そして、特徴量算出部120は、得られた周波数スペクトルにメルフィルタバンクを適用することにより、音声信号の特徴量をフレーム毎に抽出する。特徴量算出部120は、制御部11によって実現される。特徴量算出部120は、特徴量算出手段として機能する。
The feature
図2に戻って、出力確率取得部130は、特徴量算出部120によって算出された特徴量が、音響モデル記憶部21に記憶された音響モデルの各音素から出力される出力確率を取得する。音響モデルとは、音声認識装置10によって認識可能な言葉を構成する複数の音素のそれぞれについて、その周波数特性をモデル化したものである。音素とは、母音、子音等、音声認識の対象となる言語において音声の区切りとなる基本単位である。
Returning to FIG. 2, the output
音響モデル記憶部21は、例えばモノフォン(1音素)による音響モデル(モノフォンモデル)、バイフォン(2音素)による音響モデル(バイフォンモデル)、トライフォン(3音素)による音響モデル(トライフォンモデル)等を記憶している。モノフォンモデルは、1音素毎に生成された音響モデルであり、隣接する音素に依存しない、すなわち前後の音素状態との状態遷移を固定化した音響モデルである。バイフォンモデル及びトライフォンモデルは、それぞれ2音素毎及び3音素毎に生成された音響モデルであり、隣接する音素に依存する音響モデルである。バイフォンモデルは、前後片方の音素状態との状態遷移を考慮した音響モデルである。トライフォンモデルは、前後両方の音素状態との状態遷移を考慮した音響モデルである。
The acoustic
以下では、理解を容易にするため、音響モデルとしてモノフォンモデルを用いる場合を例にとって説明するが、バイフォンモデル又はトライフォンモデルを用いる場合であっても同様に説明可能である。音声認識装置10は、音響モデルを一般的な方法で学習して、音響モデル記憶部21に予め記憶しておく。
In the following, for ease of understanding, a case where a monophone model is used as an acoustic model will be described as an example. However, a case where a biphone model or a triphone model is used can be similarly described. The
音響モデルとして、例えば、一般的な音声認識で利用される音響モデルであるHMM(Hidden Markov Model;隠れマルコフモデル)を利用することができる。HMMは、統計的な手法により音声信号からその音声信号が出力される元となった言葉を確率的に推定するためのモデルである。HMMは、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量を出力する確率(出力確率)と、をパラメータとした標準パターンを用いる。 As the acoustic model, for example, a Hidden Markov Model (HMM), which is an acoustic model used in general speech recognition, can be used. The HMM is a model for probabilistically estimating a word from which the voice signal is output from the voice signal by a statistical method. The HMM uses a standard pattern in which transition probabilities indicating temporal state fluctuations and probabilities of outputting feature values input from each state (output probabilities) are used as parameters.
出力確率は、所定の重み係数で重み付けされた複数のガウス(正規)分布を加算した混合ガウス分布によって表される。出力確率取得部130は、音響モデル記憶部21に記憶された音響モデルの各音素と、特徴量算出部115が算出した各フレームにおける特徴量と、を比較し、各フレームにおける特徴量が各音素から出力される出力確率を計算する。出力確率取得部130は、制御部11が記憶部12と協働することによって実現される。出力確率取得部130は、出力確率取得手段として機能する。
The output probability is represented by a mixed Gaussian distribution obtained by adding a plurality of Gaussian (normal) distributions weighted by a predetermined weighting factor. The output
或いは、出力確率取得部130は、ニューラルネットワークを用いて出力確率を取得しても良い。ニューラルネットワークを用いる場合、出力確率取得部130は、ニューラルネットワークの入力層に、40次元のメルフィルタバンクとして得られた音声信号の特徴量を入力する。そして、出力確率取得部130は、ニューラルネットワークの出力層から出力される値を、この特徴量から出力される各音素の出力確率として取得する。
Alternatively, the output
より詳細に説明すると、出力確率取得部130は、出力確率を、音素の状態(音素状態)毎に取得する。音素の状態とは、音素を時間方向に細分化した単位であり、音響モデルの最小単位に相当する。音響モデルの各音素には、予め状態数が定められている。
More specifically, the output
以下では、各音素に定められた状態数が「3」である場合を例にとって説明する。例えば、音素「a」は、この音素の発話開始時を含む第1状態「a1」と、中間状態である第2状態「a2」と、発話終了時を含む第3状態「a3」と、の3つの状態に分けられる。音響モデルで利用される全音素の数をKと表した場合、(3×K)個の音素状態が存在する。出力確率取得部130は、(3×K)個の音素状態のそれぞれについて、且つ、認識対象の音声信号の先頭から末尾までT個のフレームのそれぞれについて、(3×K×T)個の出力確率を計算する。
Hereinafter, a case where the number of states determined for each phoneme is “3” will be described as an example. For example, the phoneme “a” includes a first state “a1” including the start of the utterance of the phoneme, a second state “a2” that is an intermediate state, and a third state “a3” including the end of the utterance. It can be divided into three states. When the number of all phonemes used in the acoustic model is represented by K, there are (3 × K) phoneme states. The output
候補語記憶部22は、複数の候補語を記憶している。候補語とは、認識対象の音声信号において発せられている言葉の候補であって、認識対象の音声信号において発せられているか否かの判定対象となる対象語である。候補語記憶部22は、候補語として、音声認識の対象となる言語における典型的な単語、句、文節等の語句を複数記憶している。例えば、音声認識の対象となる言語が日本語である場合には、候補語記憶部22は、候補語として、多数の日本語の語句を記憶している。或いは、音声認識の対象となる言語が英語である場合には、候補語記憶部22は、候補語として、多数の英語の語句を記憶している。音声認識装置10は、認識される言葉として想定される複数の候補語を、予め候補語記憶部22に記憶しておく。
The candidate
変換部140は、候補語記憶部22に記憶された複数の候補語のそれぞれを、音素列に変換する。音素列とは、文字列を構成する少なくとも1つの文字に対応する音素を、文字列における文字と同じ順序で並べたものである。変換部140は、複数の候補語のそれぞれについて、音響モデル記憶部21に記憶された音響モデルの複数の音素のうちの、候補語を構成する少なくとも1つの文字に対応する音素を並べることにより、候補語を音素列に変換する。
The
例えば、候補語が日本語「ラーメン」である場合、「ラーメン」は「r」と「a:」と「m」と「e」と「N」との5つの音素(モノフォン)を含むため、変換部140は、候補語「ラーメン」を音素列「r,a:,m,e,N」に変換する。或いは、候補語が英語「cake」である場合、「cake」は「k」と「e」と「i」と「k」との4つの音素(モノフォン)を含むため、変換部140は、候補語「cake」を音素列「k,e,i,k」に変換する。変換部140は、制御部11が記憶部12と協働することによって実現される。変換部140は、変換手段として機能する。
For example, if the candidate word is Japanese "Ramen", "Ramen" includes five phonemes (monophone) of "r", "a:", "m", "e", and "N", The
探索部150は、出力確率取得部130により取得された出力確率に基づいて、認識対象の音声信号における各フレームと、変換部140により変換された音素列を構成する各音素と、の対応関係を探索する。フレームと音素との対応関係とは、認識対象の音声信号において候補語が発せられていると仮定した場合に、音声信号内の各フレームが、候補語に対応する音素列のどの音素に対応するのかを定めた情報である。
The
探索部150は、候補語記憶部22に記憶された複数の候補語のそれぞれについて、動的計画法(DP(Dynamic Programming)マッチング)の手法によりHMMを解くことにより、フレームと音素との対応関係を探索する。探索部150は、制御部11によって実現される。探索部150は、探索手段として機能する。
The
フレームと音素との対応関係を探索するため、探索部150は、距離テーブルを生成する。ここで、距離とは、各音素の音響モデルと各フレームにおける音声信号の特徴量との違いの度合を示す指標である。距離は、出力確率の対数をとった値の符号を逆にすることにより得られる。ある音素のあるフレームにおける距離が小さいほど、その音素からそのフレームにおける音声信号の特徴量が出力される確率が大きい。すなわち、ある音素のあるフレームにおける距離が小さいほど、その音素の音響モデルとそのフレームにおける音声信号の特徴量とが近いことを表す。探索部150は、候補語から変換された音素列の各音素について出力確率取得部130により取得された出力確率から距離を算出し、例えば図4に示す距離テーブル30を生成する。
To search for the correspondence between the frame and the phoneme, the
距離テーブル30は、候補語から変換された音素列の各音素について得られた距離を、フレーム毎に並べて配置したデータテーブルである。図4は、例として、候補語「ラーメン」から変換された音素列「r,a:,m,e,N」について生成された距離テーブル30を示している。探索部150は、認識対象の音声信号における先頭のフレームから末尾のフレームまでのT個のフレームを行にとり、音素列「r,a:,m,e,N」の5個の音素における計15個の音素状態を列にとったマトリックスを用意する。そして、探索部150は、マトリックスの各要素に、出力確率から計算された距離を並べて配置する。
The distance table 30 is a data table in which the distances obtained for each phoneme of the phoneme string converted from the candidate words are arranged for each frame. FIG. 4 shows, as an example, the distance table 30 generated for the phoneme string “r, a :, m, e, N” converted from the candidate word “ramen”. The
具体的に、先頭からm番目のフレーム(第mフレーム;mは1≦m≦Tを満たす自然数)での、先頭からi番目の音素状態(第i音素状態;iは1≦i≦15を満たす自然数)の出力確率をS(m,i)と表すと、探索部150は、マトリックスのm行i列目の位置(m,i)の要素として、距離D(m,i)=−logS(m,i)の値を配置する。これにより、図4に示す距離テーブル30が得られる。距離テーブル30において、距離D(m,i)が小さいほど、フレームと音素状態とが対応している確率が高いことを意味する。なお、図4において、距離テーブル30内の各位置に表記された距離を示す値は、理解を容易にするための一例であって、正確な値とは限らない。
Specifically, in the m-th frame from the beginning (the m-th frame; m is a natural number satisfying 1 ≦ m ≦ T), the i-th phoneme state from the beginning (i-th phoneme state; i is 1 ≦ i ≦ 15) When the output probability of a natural number that satisfies is expressed as S (m, i), the
距離テーブル30を生成すると、探索部150は、距離テーブル30におけるフレームと音素との対応関係を、動的計画法により探索する。図5に、図4に示した距離テーブル30において特定されたフレームと音素との対応関係の例として、斜線を付した経路(系列)を示す。図5では、第1フレームが音素「r」の第1状態に対応し、第2、第3フレームが音素「r」の第2状態に対応し、第4フレームが音素「r」の第3状態に対応し、第5フレームが音素「a:」の第1状態に対応し、…というように、先頭から末尾までのフレームのそれぞれに音素状態が1つずつ対応付けられる。このように、探索部150は、先頭のフレームにおける先頭の音素状態に該当する位置(1,1)から末尾のフレームにおける末尾の音素状態に該当する位置(T,15)までを結ぶ経路(系列)を探索する。
When the distance table 30 is generated, the
このような対応関係を特定するための探索部150による探索について、より詳細に説明する。図2に示すように、探索部150は、指定部151と、スコア算出部152と、特定部153と、繰り返し部154と、の機能を備える。これら各部は、制御部11によって実現され、それぞれ指定手段、スコア算出手段、特定手段及び繰り返し手段として機能する。
The search by the
指定部151は、生成された距離テーブル30において、複数のフレームのうちの一のフレームを指定し、且つ、複数の音素状態のうちの一の音素状態を指定する。ここで、音素状態を指定するとは、各音素を構成する状態が複数存在する場合には、複数の音素のうちの一の音素を指定し、更に複数の状態のうちの一の状態を指定することを意味する。一方で、各音素を構成する状態が1つしか存在しない場合には、音素状態を指定することは、音素を指定することに相当する。
The specifying
探索部150は、複数のフレームのうちの先頭のフレームから指定部151により指定された一のフレームまでの各フレームと、複数の音素状態のうちの先頭の音素状態から指定部151により指定された一の音素状態までの各音素状態と、の対応関係を動的計画法により探索する。例えば、指定部151が、先頭からm番目のフレーム(第mフレーム)と先頭からi番目の音素状態(第i音素状態)とを指定した場合、探索部150は、先頭のフレームから第mフレームまでのm個のフレームと、先頭の音素状態から第i音素状態までのi個の音素状態と、の間の対応関係R(m,i)を探索する。対応関係R(m,i)は、第mフレームと第i音素状態とが対応していると仮定した場合における、先頭からm個のフレームと先頭からi個の音素状態との対応関係である。
The
具体的に図6に、距離テーブル30において、指定部151が第15フレーム(m=15)と第8音素状態(i=8)、すなわち図6において斜線を付した要素を指定した場合の例を示す。ここで、第8音素状態は、先頭から3番目の音素「m」における第2状態に相当する。この場合、探索部150は、先頭から15個のフレームと先頭から8個の音素状態との対応関係R(15,8)を、位置(1,1)から位置(15,8)までの間における120(=15×8)個の距離D(m,i)の値、すなわち図6において太線で囲われた部分における距離D(m,i)の値に基づいて、探索する。
Specifically, FIG. 6 shows an example in which the
より詳細には、探索部150は、指定部151により指定されたフレームよりも1つ前のフレームにおいて特定された対応関係を利用して、指定されたフレームにおける対応関係を探索する。具体的に説明すると、探索部150は、指定部151により第mフレームと第i音素状態とが指定された場合における対応関係R(m,i)を、第(m−1)フレームから第mフレームにかけて音素状態が遷移する場合と遷移しない場合との2通りの候補のうちから特定する。
More specifically, the
ここで、第(m−1)フレームから第mフレームにかけて音素状態が遷移する場合とは、対応関係R(m,i)において第(m−1)フレームが第(i−1)音素状態に対応しており、且つ、第mフレームが第i音素状態に対応している場合である。これに対して、第(m−1)フレームから第mフレームにかけて音素状態が遷移しない場合とは、対応関係R(m,i)において第(m−1)フレームと第mフレームとが共に第i音素状態に対応している場合である。 Here, the case where the phoneme state transitions from the (m-1) th frame to the mth frame means that the (m-1) th frame becomes the (i-1) th phoneme state in the correspondence R (m, i). In this case, the m-th frame corresponds to the i-th phoneme state. On the other hand, the case where the phoneme state does not transition from the (m−1) th frame to the mth frame means that both the (m−1) th frame and the mth frame in the correspondence R (m, i) This is a case corresponding to the i-phoneme state.
図7に、図6に示した第15フレームと第8音素状態とが指定された状態において、対応関係R(15,8)の2通りの候補の例を示す。図7において、実線で示す経路(系列)は、第14フレームから第15フレームにかけて音素状態が遷移しない場合の対応関係R(15,8)の候補C1を表す。一方で、破線で示す経路(系列)は、第14フレームから第15フレームにかけて音素状態が遷移する場合の対応関係R(15,8)の候補C2を表す。 FIG. 7 shows two examples of the correspondence R (15, 8) in a state where the fifteenth frame and the eighth phoneme state shown in FIG. 6 are designated. In FIG. 7, a path (series) indicated by a solid line represents a candidate C1 of the correspondence R (15, 8) when the phoneme state does not transition from the 14th frame to the 15th frame. On the other hand, the path (series) indicated by the broken line represents the candidate C2 of the correspondence R (15, 8) when the phoneme state transitions from the 14th frame to the 15th frame.
2つの候補C1,C2は、図7に示す距離テーブル30において、いずれも先頭の位置(1,1)から指定された位置(15,8)を結ぶ経路によって表される。ここで、第1の候補C1の経路は、指定された第15フレームの1つ前の第14フレームにおいて、太い実線で囲った位置(14,8)を通る。言い換えると、第1の候補C1は、第14フレームと第15フレームとがいずれも第8音素状態に対応していると仮定された場合の対応関係(15,8)に相当する。これに対して、第2の候補C2の経路は、指定された第15フレームの1つ前の第14フレームにおいて、太い破線で囲った位置(14,7)を通る。言い換えると、第2の候補C2は、第14フレームが第7音素状態に対応しており、且つ、第15フレームが第8音素状態に対応していると仮定された場合の対応関係(15,8)に相当する。 Each of the two candidates C1 and C2 is represented by a path connecting the designated position (15, 8) to the designated position (15, 8) in the distance table 30 shown in FIG. Here, the path of the first candidate C1 passes through the position (14, 8) surrounded by a thick solid line in the fourteenth frame immediately before the designated fifteenth frame. In other words, the first candidate C1 corresponds to the correspondence (15, 8) when it is assumed that the fourteenth frame and the fifteenth frame both correspond to the eighth phoneme state. On the other hand, the route of the second candidate C2 passes through the position (14, 7) surrounded by a thick broken line in the fourteenth frame immediately before the specified fifteenth frame. In other words, the second candidate C2 corresponds to the correspondence relationship (15, 15) when it is assumed that the fourteenth frame corresponds to the seventh phoneme state and the fifteenth frame corresponds to the eighth phoneme state. 8).
探索部150は、第1の候補C1の経路のうちの位置(1,1)から位置(14,8)までの経路として、指定部151により第14フレームと第8音素状態とが指定された際に特定された対応関係R(14,8)の経路を利用する。また、探索部150は、第2の候補C2の経路のうちの位置(1,1)から位置(14,7)までの経路として、指定部151により第14フレームと第7音素状態とが指定された際に特定された対応関係R(14,7)の経路を利用する。探索部150は、このような2つの候補C1,C2のうちから、スコア算出部152により算出されるスコアに基づいて対応関係R(15,8)を特定する。
The
スコア算出部152は、出力確率取得部130により取得された出力確率に基づいて、対応関係R(m,i)を探索するためのスコアを算出する。スコアは、フレームと音素との対応関係の尤もらしさを示す尺度であって、尤度とも呼ぶ。スコア算出部152は、2つの候補C1,C2のそれぞれについて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、複数のフレームに亘って累積することにより、スコアを算出する。ここで、出力確率に基づく値とは、具体的には出力確率の対数をとることによって得られる距離に相当する。
The
具体的に説明すると、スコア算出部152は、距離テーブル30における先頭の位置(1,1)から指定された位置(m,i)までを結ぶ経路のスコアとして、下記(1)式に示すP(m,n)を算出する。下記(1)式におけるP1(k)及びP2(m,n)は、スコアの算出対象の経路での第tフレームにおける距離D(t)又は出力確率S(t)を用いて、それぞれ下記(2)式及び下記(3)式のように表される。
More specifically, the
上記(1)式において、nは、指定部151により指定された第i音素状態が含まれる音素が、先頭の音素から何番目であるかを表す値である。例えば、図7において指定された第8音素状態は、先頭から3番目の音素「m」の第2状態であるので、i=8はn=3に対応する。一般的に、各音素の状態数が3である場合、第i音素状態と当該第i音素状態が含まれる第n音素とは、“3×(n−1)<i≦3×n”の関係を満たす。
In the above expression (1), n is a value indicating the number of the phoneme including the i-th phoneme state designated by the
上記(1)式の右辺の第1項は、距離テーブル30における先頭の音素から(n−1)番目の音素までの各音素に関するスコアである。スコア算出部152は、先頭からk番目の音素(第k音素)に関するスコアP1(k)を、上記(2)式に従って算出する。上記(2)式において、T(k)は、スコアの算出対象となる対応関係R(m,i)の候補において、先頭からk番目の音素(第k音素)に対応するフレームの数を表す。すなわち、距離テーブル30における先頭の音素から末尾の音素までT(k)を積算した値“T(1)+T(2)+…”は、フレームの総数Tに一致する。
The first term on the right side of the above equation (1) is a score for each phoneme from the first phoneme to the (n−1) th phoneme in the distance table 30. The
また、上記(2)式において、a(k)は、第k音素に対応するT(k)個のフレームが、距離テーブル30における先頭から何番目のフレームから開始するかを表す値である。言い換えると、対応関係R(m,i)の候補において、第k音素は、第a(k)フレームから開始するT(k)個のフレームに対応付けられている。ここで、a(k)とT(k)とは、“a(k)=T(1)+T(2)+…T(k−1)+1”の関係を満たす。 In the above equation (2), a (k) is a value indicating the number of the T (k) frames corresponding to the k-th phoneme starting from the top in the distance table 30. In other words, in the candidates for the correspondence R (m, i), the k-th phoneme is associated with T (k) frames starting from the a (k) -th frame. Here, a (k) and T (k) satisfy the relationship of “a (k) = T (1) + T (2) +... T (k−1) +1”.
スコア算出部152は、上記(2)式に従って、第k音素の出力確率に基づく値である距離D(t)又は出力確率の対数lоgS(t)を、第k音素に対応する第a(k)フレームからのT(k)個のフレームに亘って累積する。そして、スコア算出部152は、累積した値を、第k音素に対応するフレーム数T(k)で正規化する、すなわちT(k)の値で除算することによって、第k音素のスコアP1(k)を算出する。
The
上記(1)式の右辺の第2項は、距離テーブル30における第n音素、すなわち指定部151により指定された第i音素状態が含まれる音素に関するスコアである。スコア算出部152は、第n音素に関するスコアP2(m,n)を、上記(3)式に従って算出する。スコア算出部152は、第n音素に対応する第a(n)フレームから第mフレームまでの“m−a(n)+1”個のフレームに亘って、距離D(t)又は出力確率の対数lоgS(t)を累積する。そして、スコア算出部152は、累積した値をフレーム数“m−a(n)+1”で除算することによって、スコアP2(m,n)を算出する。
The second term on the right side of the above equation (1) is a score relating to the n-th phoneme in the distance table 30, that is, the phoneme including the i-th phoneme state specified by the specifying
このように、スコア算出部152は、第n音素のスコアP2(m,n)を、第1音素から第(n−1)音素までのスコアP1(k)とは異なる式に基づいて算出する。この理由は、探索部150が対応関係R(m,i)を探索する時点では、第n音素に対応するフレームの数T(n)が未だ確定していないからである。言い換えると、第(m+1)フレーム以降のフレームに対応する音素が引き続き第n音素であるのか、それとも第(n+1)音素以降であるのかが確定していない。例えば図7に示した距離テーブル30では、第16フレーム以降のフレームに対応する音素が引き続き「m」であるのか否かが確定していない。
As described above, the
そのため、スコア算出部152は、m個のフレームのうちの、n個の音素のうちの先頭の音素から(n−1)番目の音素までに対応するフレームを除いた残りのフレームを、第n音素に対応する少なくとも1つのフレームとして用いて、第n音素のスコアP2(m,n)を算出する。すなわち、スコア算出部152は、第n音素のスコアP2(m,n)を算出する際、第n音素に対応する少なくとも1つのフレームの数として最終的に確定する値T(n)の代わりに、先頭から(n−1)個の音素に対応するフレームをm個のフレームから除いた残りのフレームの数“m−a(n)+1”を用いて、距離D(t)を累積した値を正規化する。
Therefore, the
スコア算出部152は、対応関係R(m,i)の複数の候補のそれぞれについて、スコアP(m,n)を算出する。具体的に説明すると、スコア算出部152は、対応関係R(m,i)の複数の候補として、第(m−1)フレームと第i音素状態とが対応していると仮定された場合における第1の候補C1と、第(m−1)フレームと第(i−1)音素状態とが対応していると仮定された場合における第2の候補C2と、のそれぞれについて、スコアP(m,n)を算出する。
The
第1の候補C1について算出されるスコアP(m,n)は、第(m−1)フレームから第mフレームにかけて音素状態が遷移しない(停留する)場合のスコアであるため、「状態停留スコア」と呼ぶ。これに対して、第2の候補C2について算出されるスコアP(m,n)は、第(m−1)フレームから第mフレームにかけて音素状態が遷移する場合のスコアであるため、「状態遷移スコア」と呼ぶ。 The score P (m, n) calculated for the first candidate C1 is a score when the phoneme state does not transition (stops) from the (m-1) th frame to the mth frame, and thus the “state stop score” ". On the other hand, the score P (m, n) calculated for the second candidate C2 is a score when the phoneme state transitions from the (m−1) th frame to the mth frame, and thus “state transition” The score is called.
具体的に図8及び図9を参照して、状態停留スコア及び状態遷移スコアの算出例について説明する。図8は、図7に示した対応関係R(15,8)の第1の候補C1について状態停留スコアを算出する例を示す。これに対して、図9は、図7に示した対応関係R(15,8)の第2の候補C2について状態遷移スコアを算出する例を示す。なお、図8及び図9では、理解を容易にするため、図7に示した距離テーブル30のうちの一部のみを示しており、関与しない部分の距離D(t)の値を省略している。 With reference to FIG. 8 and FIG. 9, an example of calculating the state stop score and the state transition score will be described. FIG. 8 shows an example of calculating the state stationary score for the first candidate C1 of the correspondence R (15, 8) shown in FIG. On the other hand, FIG. 9 shows an example in which the state transition score is calculated for the second candidate C2 of the correspondence R (15, 8) shown in FIG. 8 and 9 show only a part of the distance table 30 shown in FIG. 7 for easy understanding, and omit the value of the distance D (t) of a part that is not involved. I have.
(A1)図8に示す第1の候補C1において、第1音素「r」の3つの状態は、第1から第4フレームまでの4個のフレームに対応付けられている。そのため、スコア算出部152は、上記(2)式に従って、第1から第4フレームにおける第1の候補C1に沿った距離の和“D(1)+D(2)+D(3)+D(4)=3+4+3+2=12”を、対応するフレームの数“T(1)=4”で除算する。これにより、スコア算出部152は、第1音素「r」に関するスコア“P1(1)=12/4=3”を得る。
(A1) In the first candidate C1 shown in FIG. 8, three states of the first phoneme “r” are associated with four frames from the first to fourth frames. Therefore, the
(A2)次に、第2音素「a:」の3つの状態は、第5から第11フレームまでの7個のフレームに対応付けられている。そのため、スコア算出部152は、上記(2)式に従って、第5から第11フレームにおける第1の候補C1に沿った距離の和“D(5)+D(6)+…+D(11)=4+5+5+6+5+2+1=28”を、対応するフレームの数“T(2)=7”で除算する。これにより、スコア算出部152は、第2音素「a:」に関するスコア“P1(2)=28/7=4”を得る。
(A2) Next, the three states of the second phoneme “a:” are associated with seven frames from the fifth to eleventh frames. Therefore, the
(A3)第3音素「m」は、指定部151により指定された第8音素状態が含まれる音素である。そのため、スコア算出部152は、上記(3)式に従って、第3音素「m」に対応する先頭のフレームである第12フレームから指定部151により指定された第15フレームにおける第1の候補C1に沿った距離の和“D(12)+D(13)+D(14)+D(15)=5+3+2+4=14”を、第12から第15フレームまでのフレームの数“15−12+1=4”で除算する。これにより、スコア算出部152は、第3音素「m」に関するスコア“P2(15,3)=14/4=3.5”を得る。
(A3) The third phoneme “m” is a phoneme that includes the eighth phoneme state specified by the specifying
このようにして先頭のフレーム及び音素状態から指定されたフレーム及び音素状態までのスコアP1(1),P1(2),P2(15,3)を算出すると、スコア算出部152は、上記(1)式により、対応関係R(15,8)の状態停留スコア“P(15,3)=P1(1)+P1(2)+P2(15,3)=3+4+3.5=10.5”を得る。
When the scores P1 (1), P1 (2), and P2 (15, 3) from the first frame and the phoneme state to the designated frame and the phoneme state are calculated in this manner, the
(B1)図9に示す第2の候補C2において、第1音素「r」の3つの状態は、第1から第9フレームまでの4個のフレームに対応付けられている。そのため、スコア算出部152は、上記(2)式に従って、第1から第9フレームにおける第2の候補C2に沿った距離の和“D(1)+D(2)+…+D(9)=3+4+3+4+6+4+7+3+2=36”を、対応するフレームの数“T(1)=9”で除算する。これにより、スコア算出部152は、第1音素「r」に関するスコア“P1(1)=36/9=4”を得る。
(B1) In the second candidate C2 shown in FIG. 9, the three states of the first phoneme “r” are associated with four frames from the first to ninth frames. Therefore, the
(B2)次に、第2音素「a:」の3つの状態は、第10から第13フレームまでの4個のフレームに対応付けられている。そのため、スコア算出部152は、上記(2)式に従って、第10から第13フレームにおける第2の候補C2に沿った距離の和“D(10)+D(11)+D(12)+D(13)=4+5+5+1=15”を、対応するフレームの数“T(2)=4”で除算する。これにより、スコア算出部152は、第2音素「a:」に関するスコア“P1(2)=15/4=3.75”を得る。
(B2) Next, the three states of the second phoneme “a:” are associated with four frames from the tenth to thirteenth frames. Therefore, the
(B3)第3音素「m」は、指定部151により指定された第8音素状態が含まれる音素である。そのため、スコア算出部152は、上記(3)式に従って、第3音素「m」に対応する先頭のフレームである第14フレームから指定部151により指定された第15フレームにおける第2の候補C2に沿った距離の和“D(14)+D(15)=6+4=10”を、第14から第15フレームまでのフレームの数“15−14+1=2”で除算する。これにより、スコア算出部152は、第3音素「m」に関するスコア“P2(15,3)=10/2=5”を得る。
(B3) The third phoneme “m” is a phoneme that includes the eighth phoneme state specified by the specifying
このようにして先頭のフレーム及び音素状態から指定されたフレーム及び音素状態までのスコアP1(1),P1(2),P2(15,3)を算出すると、スコア算出部152は、上記(1)式により、対応関係R(15,8)の状態遷移スコア“P(15,3)=P1(1)+P1(2)+P2(15,3)=4+3.75+5=12.75”を得る。
When the scores P1 (1), P1 (2), and P2 (15, 3) from the first frame and the phoneme state to the designated frame and the phoneme state are calculated in this manner, the
このように、スコア算出部152は、距離D(t)の累積値を音素毎にフレームの数で正規化することにより、第k音素におけるスコアを算出する。そして、スコア算出部152は、第k音素におけるkの値が1からnまでのそれぞれである場合に算出されたn個の音素のスコアP1(1)、P1(2)、…、P1(n−1)、P2(m,n)を累積することにより、対応関係R(m,i)の2つの候補C1,C2のそれぞれのスコアP(m,n)を算出する、
As described above, the
ここで、スコア算出部152がスコアを算出する際に、距離D(t)の累積値をフレームの数で正規化する処理を音素毎に分けて実行する理由は、音素列のうちの一部の音素のみの影響によって音声信号を誤認識することを抑制するためである。具体的に、スコア算出部152が、距離D(t)の累積値を、音素毎ではなく先頭のフレームから指定部151により指定された第mフレームまでの全フレームの数で正規化することによって対応関係R(m,i)のスコアを算出する場合について考える。
Here, when the
距離D(t)の累積値を全フレームの数で正規化する場合、スコア算出部152は、対応関係R(m,i)のスコアとして、例えば下記(4)式に示すP’(m)を算出する。すなわち、スコア算出部152は、距離D(t)又は出力確率の対数lоgS(t)の累積値を、先頭のフレームから指定部151により指定された第mフレームまでの全フレームの数“m”で除算することにより、対応関係R(m,i)のスコアP’(m)を算出する。
When the cumulative value of the distance D (t) is normalized by the number of all frames, the
具体的に図10(a)及び(b)を参照して、上記(1)式に従って音素毎にフレーム数で正規化する場合と、上記(4)式に従って全フレーム数で正規化する場合と、の違いについて説明する。なお、図10(a)及び(b)に示す距離テーブル31,32は、図7から図9に示した距離テーブル30とは異なる例であって、11個のフレーム及び5個の音素に亘る対応関係R(11,5)を示している。また、図10(a)及び(b)は、理解を容易にするため、各音素の状態数は1つである場合の例を示している。 Specifically, referring to FIGS. 10A and 10B, a case where normalization is performed by the number of frames for each phoneme according to the above equation (1), and a case where normalization is performed using the total number of frames according to the above equation (4) , Will be described. Note that the distance tables 31 and 32 shown in FIGS. 10A and 10B are examples different from the distance tables 30 shown in FIGS. 7 to 9 and cover 11 frames and 5 phonemes. The correspondence R (11, 5) is shown. FIGS. 10A and 10B show an example in which the number of states of each phoneme is one for easy understanding.
上記(1)式に従って音素毎にフレーム数で正規化してスコアを算出する場合、スコア算出部152は、図10(a)に示した対応関係R(11,5)のスコアを、“P(11,5)=6/1+(2+2+2+3+3+1+2)/7+7/1+4/1+6/1=25.1”と算出する。同様に、スコア算出部152は、図10(b)に示した対応関係R(11,5)のスコアを、“P(11,5)=(4+4)/2+(3+3+3+3)/4+4/1+(3+3)/2+(4+5)/2=18.5”と算出する。このように、図10(b)の方が図10(a)よりも小さいスコアが得られる。
When the score is calculated by normalizing the number of frames for each phoneme according to the above equation (1), the
これに対して、上記(4)式に従って全フレーム数で正規化してスコアを算出する場合、スコア算出部152は、図10(a)に示した対応関係R(11,5)のスコアを、“P’(11)=(6+2+2+2+3+3+1+2+7+4+6)/11=3.45”と算出する。同様に、スコア算出部152は、図10(b)に示した対応関係R(11,5)のスコアを、“P’(11)=(4+4+3+3+3+3+4+3+3+4+5)/11=3.54”と算出する。このように、音素毎にフレーム数で正規化した場合とは異なり、図10(a)の方が図10(b)よりも小さいスコアが得られる。
On the other hand, when the score is calculated by normalizing with the total number of frames according to the above equation (4), the
このように音素毎にフレーム数で正規化するか否かでスコアの大小が異なる理由は、音素列のうちの一部の音素のみの経路が、経路全体の中で長い部分を占めていることに起因する。例えば図10(a)では、音素列「r,a:,m,e,N」のうちの音素「a:」が、全部で11個のフレームのうちの第2から第8フレームまでの7個のフレームに対応している。このように一部の音素のみが全フレームのうちの多くのフレームに対応している場合、その一部の音素について算出された距離D(t)が経路全体のスコアに大きな影響を与え易い。その結果、その一部の音素のみが認識対象の音声信号に類似している場合であっても、音素列全体の類似度が高いと誤判定され易い。 The reason why the scores differ depending on whether or not to normalize by the number of frames for each phoneme is that the path of only some phonemes in the phoneme sequence occupies a long part in the entire path. caused by. For example, in FIG. 10A, the phoneme “a:” of the phoneme string “r, a :, m, e, N” is the 7th from the second to eighth frames of the 11 frames in total. Corresponding to each frame. As described above, when only some phonemes correspond to many frames in all frames, the distance D (t) calculated for some phonemes tends to greatly affect the score of the entire route. As a result, even when only some of the phonemes are similar to the speech signal to be recognized, it is likely to be erroneously determined that the similarity of the entire phoneme sequence is high.
このような誤判定を避けるために、スコア算出部152は、上記(1)式に従って音素毎にフレーム数で正規化してスコアを算出する。その結果、各音素の重みが均一化されるため、一部の音素のみが経路全体のスコアに大きな影響を与え難くなり、DPマッチングの精度を高めることができる。
In order to avoid such erroneous determination, the
図2に示した音声認識装置10の機能の説明に戻る。特定部153は、スコア算出部152により算出されたスコアに基づいて、先頭のフレームから指定部151により指定されたフレームまでの各フレームと、先頭の音素状態から指定部151により指定された音素状態までの各音素状態と、の対応関係を特定する。例えば、指定部151により第mフレームと第i音素状態とが指定された場合、特定部153は、スコア算出部152により対応関係R(m,i)の第1の候補C1について算出された状態停留スコアと、第2の候補C2について算出された状態遷移スコアと、を比較する。そして、特定部153は、2つの候補C1,C2のうちのスコアが良い方の経路を、対応関係R(m,i)の最尤系列として特定する。
Returning to the description of the function of the
ここで、スコアが良いとは、上記(1)式で表されるスコアP(m,n)の値が小さいことに相当する。図7の例では、第1の候補C1について算出された状態停留スコア“10.5”は、第2の候補C2について算出された状態遷移スコア“12.75”よりも小さい。そのため、特定部153は、第1の候補C1を対応関係R(m,i)の最尤系列として選択し、第2の候補C2を対応関係R(m,i)の最尤系列から除外する。このように、特定部153は、経路が異なる2つの候補C1,C2のうちからスコアが良い方の候補を選択することにより、フレームと音素との対応関係を特定する。
Here, a good score corresponds to a small value of the score P (m, n) expressed by the above equation (1). In the example of FIG. 7, the state stop score “10.5” calculated for the first candidate C1 is smaller than the state transition score “12.75” calculated for the second candidate C2. Therefore, the identifying
繰り返し部154は、指定部151により指定されるフレームと音素状態とのうちの少なくとも一方を変化させながら、スコア算出部152及び特定部153の処理を繰り返す。言い換えると、繰り返し部154は、先頭からm個のフレームにおけるmの値と、先頭からn個の音素又はi個の音素状態におけるn又はiの値と、のうちの少なくとも一方を増加させながら、スコア算出部152及び特定部153の処理を繰り返し実行する。
The
繰り返し部154による繰り返し処理において、指定部151により第mフレームと第i音素状態とが指定された場合、スコア算出部152は、第(m−1)フレームと第i音素状態とが指定された際に特定された対応関係R(m−1,i)を用いて、対応関係R(m,i)の第1の候補C1のスコア(状態停留スコア)を算出する。更に、スコア算出部152は、第(m−1)フレームと第(i−1)音素状態とが指定された際に特定された対応関係R(m−1,i−1)を用いて、対応関係R(m,i)の第2の候補C2のスコア(状態遷移スコア)を算出する。そして、特定部153は、スコア算出部152により算出された状態停留スコアと状態遷移スコアとのうちの良い方のスコアの経路を、対応関係R(m,i)として特定する。
In the repetition process by the
このようにして、探索部150は、指定部151により指定されるフレームと音素状態とを先頭から末尾まで順にシフトさせながら、距離テーブル30全体におけるT個のフレームと15個の音素状態との対応関係R(T,15)を徐々に構築していく。
In this way, the
更に、繰り返し部154は、候補語記憶部22に記憶された複数の候補語のそれぞれについて、指定部151、スコア算出部152及び特定部153の処理を繰り返す。これにより、スコア算出部152は、複数の候補語のそれぞれについて、上述した手法によりスコアを算出する。そして、特定部153は、複数の候補語のそれぞれについて、スコア算出部152により算出されたスコアに基づいて、フレームと音素状態との対応関係を特定する。
Further, the
判定部160は、特定部153により特定された対応関係に基づいて、候補語記憶部22に記憶された複数の候補語のそれぞれについて、認識対象の音声信号において発せられている言葉であるか否かを判定する。具体的に説明すると、判定部160は、特定部153により複数の候補語のそれぞれについて特定された対応関係のスコアを比較することにより、複数の候補語のうちのいずれかを、認識対象の音声信号において発せられている言葉として判定する。
The
複数の候補語のそれぞれについて特定された対応関係とは、複数の候補語のそれぞれの距離テーブル30において、先頭から末尾までの各フレームと先頭から末尾までの各音素状態との対応関係として最終的に特定された対応関係である。判定部160は、複数の候補語のそれぞれについて特定された対応関係において、スコア算出部152により算出されたスコアの大小関係を比較する。そして、判定部160は、複数の候補語のうちのスコアが最も良い、すなわちスコアが最も小さい候補語を、認識対象の音声信号において発せられている言葉と判定する。判定部160は、制御部11によって実現される。判定部160は、判定手段として機能する。
The correspondence specified for each of the plurality of candidate words is finally determined as the correspondence between each frame from the beginning to the end and each phoneme state from the beginning to the end in each distance table 30 of the plurality of candidate words. Is the correspondence relationship specified in. The
以上のように構成される音声認識装置10によって実行される音声認識処理の流れについて、図11及び図12に示すフローチャートを参照して説明する。
The flow of the voice recognition processing executed by the
図11に示す音声認識処理は、ユーザから入力部13等を介して音声認識を開始する指示を受け付けると、開始する。音声認識処理を開始すると、制御部11は、認識対象の音声信号を取得する(ステップS1)。例えば、制御部11は、ユーザから発せられた音声、又は会議、テレビ、映画等で発せられた音声を示す信号を、入力部13又は通信部15を介して取得する。なお、音声認識処理を開始する指示を受け付けた時点で既に認識対象の音声信号が取得されていた場合には、ステップS1の処理は省略される。
The speech recognition process illustrated in FIG. 11 starts when an instruction to start speech recognition is received from the user via the
音声信号を取得すると、制御部11は、取得した音声信号の先頭のフレームを指定する(ステップS2)。先頭のフレームを指定すると、制御部11は、特徴量算出部120として機能し、指定したフレームにおける音声信号の特徴量を算出する(ステップS3)。具体的に説明すると、制御部11は、先頭のフレームにおける音声データをフーリエ変換して周波数スペクトルに変換し、メルフィルタバンクを適用することにより、音声信号からその特徴量を抽出する。
After acquiring the audio signal, the
特徴量を算出すると、制御部11は、出力確率取得部130として機能し、音響モデル記憶部21に記憶された音響モデルの全音素について、出力確率を取得する(ステップS4)。例えば、制御部11は、正規混合連続分布又はニューラルネットワークの手法を用いて、モノフォンモデルの全音素について、算出された特徴量が出力される出力確率を算出する。これにより、制御部11は、指定したフレームにおける音声信号が、モノフォンモデルにおけるどの音素に対応する確率が高いかの指標を算出する。
After calculating the feature amount, the
出力確率を取得すると、制御部11は、指定したフレームが音声信号の末尾のフレームに到達したか否かを判定する(ステップS5)。指定したフレームが末尾のフレームに到達していない場合(ステップS5;NO)、制御部11は、次のフレームを指定する(ステップS6)。例えば、現在先頭のフレームを指定している場合には、制御部11は、次のフレームとして先頭から2番目のフレームを指定する。現在先頭からt番目のフレームを指定している場合には、制御部11は、次のフレームとして先頭から(t+1)番目のフレームを指定する。
After acquiring the output probability, the
次のフレームを指定すると、制御部11は、処理をステップS3に戻す。そして、制御部11は、新たに指定したフレームについて、ステップS3における特徴量の算出処理、及びステップS4における出力確率の取得処理を実行する。このように、制御部11は、認識対象の音声信号の先頭から末尾までの各フレームについて特徴量を算出する。そして、制御部11は、算出した特徴量の出力確率を、音響モデルの全音素について取得する。
When the next frame is designated, the
最終的に、指定したフレームが末尾のフレームに到達すると(ステップS5;YES)、制御部11は、変換部140として機能し、候補語記憶部22に記憶された複数の候補語を読み込んで、それぞれ音素列に変換する(ステップS7)。例えば、読み込んだ候補語が「ラーメン」である場合、制御部11は、候補語「ラーメン」を音素列「r,a:,m,e,N」に変換する。或いは、読み込んだ候補語が英語「cake」である場合、制御部11は、候補語「cake」を音素列「k,e,i,k」に変換する。
Finally, when the specified frame reaches the last frame (Step S5; YES), the
複数の候補語のそれぞれを音素列に変換すると、制御部11は、探索部150として機能し、複数の候補語のそれぞれについてフレームと音素状態との対応関係を探索する(ステップS8)。ステップS8の探索処理の詳細については、図12に示すフローチャートを参照して説明する。
When each of the plurality of candidate words is converted into a phoneme string, the
図12に示す探索処理を開始すると、制御部11は、指定部151として機能し、複数の候補語のうちから候補語を1つ指定する(ステップS801)。候補語を1つ指定すると、制御部11は、指定した候補語について、距離テーブル30を生成する(ステップS802)。例えば、指定した候補語が「ラーメン」である場合、制御部11は、ステップS7で得られた音素列「r,a:,m,e,N」を構成する15個の音素状態を列にとり、認識対象の音声信号におけるT個のフレームを行にとったマトリックスを用意する。そして、制御部11は、ステップS4で取られた出力確率から距離を算出し、算出した距離をマトリックスの各要素に配置することにより、図4に示す距離テーブル30を生成する。
When the search process illustrated in FIG. 12 starts, the
距離テーブル30を生成すると、制御部11は、指定部151として機能し、生成した距離テーブル30におけるフレームを1つ指定する(ステップS803)。更に、制御部11は、生成した距離テーブル30における音素状態を1つ指定する(ステップS804)。そして、制御部11は、スコア算出部152として機能し、指定したフレームと音素状態について、1つ前のフレームからの状態停留スコア及び状態遷移スコアを算出する(ステップS805)。
When the distance table 30 is generated, the
具体的に説明すると、先頭からm番目のフレームと先頭からi番目の音素状態とを指定した場合、制御部11は、対応関係R(m,i)の2つの候補について、上述した式(1)に従ってスコアP(m,n)を算出する。例えば、図7に示したように先頭から15番目のフレームと先頭から8番目の音素状態(先頭から3番目の音素の第2状態)とを指定した場合、制御部11は、対応関係R(15,8)における第1の候補C1のスコアP(15,3)を状態停留スコアとして算出し、第2の候補C2のスコアP(15,3)を状態遷移スコアとして算出する。
More specifically, when the m-th frame from the beginning and the i-th phoneme state from the beginning are specified, the
状態停留スコア及び状態遷移スコアを算出すると、制御部11は、特定部153として機能し、算出した状態停留スコアと状態遷移スコアとを比較して、スコアが良い方の経路を残す(ステップS806)。具体的に説明すると、制御部11は、状態停留スコアと状態遷移スコアとのうちのスコアが小さい方に対応する経路を、先頭のフレーム及び音素状態から指定したフレーム及び音素状態までの最尤系列として決定する。このとき、制御部11は、スコアが大きい方の経路については候補から除去する。
After calculating the state stop score and the state transition score, the
このようにして経路を選択すると、制御部11は、指定した音素状態が末尾の音素状態に到達したか否かを判定する(ステップS807)。指定した音素状態が末尾の音素状態に到達していない場合(ステップS807;NO)、制御部11は、次の音素状態を指定する(ステップS808)。例えば、現在先頭からi番目の音素状態を指定している場合には、制御部11は、次の音素状態として先頭から(i+1)番目の音素状態を指定する。
When the route is selected in this way, the
次の音素状態を指定すると、制御部11は、処理をステップS805に戻す。そして、制御部11は、繰り返し部154として機能し、新たに指定した音素状態について、ステップS805における状態遷移スコア及び状態停留スコアの算出処理、及びステップS806における経路の選択処理を実行する。このように、制御部11は、ステップS803で指定したフレームについて、距離テーブル30における先頭から順に音素状態を1つずつ指定する。そして、制御部11は、先頭のフレームから指定されたフレームまでの各フレームと、先頭の音素状態から指定された音素状態までの各音素状態と、の対応関係を特定する。
When the next phoneme state is designated, the
なお、ステップS804で先頭の音素状態を指定した場合には、1つ前の音素状態が存在しないため、制御部11は、ステップS805において状態遷移スコアを算出しない。この場合、制御部11は、ステップS806において、状態停留スコアに対応する経路、すなわち、先頭のフレームから指定されたフレームまでに亘る全てのフレームが先頭の音素状態に対応しているとの対応関係を特定する。
When the first phoneme state is specified in step S804, there is no previous phoneme state, and thus the
指定した音素状態が末尾の音素状態に到達すると(ステップS807;YES)、制御部11は、指定したフレームが音声信号の認識区間における末尾のフレームに到達したか否かを判定する(ステップS809)。指定したフレームが末尾のフレームに到達していない場合(ステップS809;NO)、制御部11は、次のフレームを指定する(ステップS810)。例えば、現在先頭からm番目のフレームを指定している場合には、制御部11は、次のフレームとして先頭から(m+1)番目のフレームを指定する。
When the specified phoneme state reaches the last phoneme state (step S807; YES), the
次のフレームを指定すると、制御部11は、処理をステップS804に戻す。そして、制御部11は、繰り返し部154として機能し、新たに指定したフレームについて、ステップS804からステップS808の処理を実行する。なお、ステップS803で先頭のフレームを指定した場合には、1つ前のフレームが存在しないため、制御部11は、ステップS804からステップS808の処理をスキップする。このように、制御部11は、認識対象の音声信号の2番目のフレームから順にフレームを1つずつ指定しながら、認識対象の音声信号における各フレームと、指定された候補語における各音素状態と、の対応関係を特定する。
When the next frame is designated, the
指定したフレームが末尾のフレームに到達すると(ステップS809;YES)、制御部11は、全ての候補語を指定したか否かを判定する(ステップS811)。全ての候補語を指定していない場合(ステップS811;NO)、制御部11は、候補語記憶部22に記憶された複数の候補語のうちの未指定の候補語を次の候補語として指定する(ステップS812)。
When the specified frame reaches the last frame (step S809; YES), the
次の候補語を指定すると、制御部11は、処理をステップS802に戻す。そして、制御部11は、繰り返し部154として機能し、新たに指定した候補語について、ステップS802からステップS811の処理を実行する。このように、制御部11は、候補語記憶部22に記憶された複数の候補語のそれぞれについて、認識対象の音声信号の各フレームと各音素状態との間の対応関係を探索する。
When the next candidate word is specified, the
最終的に、全ての候補語の指定を終えると(ステップS811;YES)、制御部11は、図12に示した探索処理を終了する。
Finally, when all candidate words have been designated (step S811; YES), the
図11に示した音声認識処理に戻る。複数の候補語のそれぞれについてフレームと音素状態との対応関係を探索すると、制御部11は、判定部160として機能し、複数の候補語のうちのスコアが最良の候補語を認識結果として判定する(ステップS9)。具体的に説明すると、制御部11は、指定したフレームが末尾のフレームに到達し、且つ、指定した音素状態が末尾の音素状態に到達した場合において、ステップS805で算出された状態停留スコアと状態遷移スコアのうちの、ステップS806で残された経路のスコア、すなわち良い方のスコアを、複数の候補語間で比較する。そして、制御部11は、複数の候補語のうちのスコアが最良の候補語を、音声信号において発せられている言葉として判定する。
The process returns to the speech recognition processing shown in FIG. When the correspondence between the frame and the phoneme state is searched for each of the plurality of candidate words, the
認識対象の音声信号において発せられている言葉を判定すると、制御部11は、認識結果を出力する(ステップS10)。例えば、制御部11は、音声信号において発せられていると判定された言葉を出力部14の表示部に表示する。或いは、制御部11は、音声信号において発せられていると判定された言葉をスピーカから音声で出力する。これにより、ユーザは、音声信号の認識結果を確認することができる。以上により、図11に示した音声認識処理は終了する。
When determining the words uttered in the speech signal to be recognized, the
以上説明したように、本実施形態に係る音声認識装置10は、動的計画法によりフレームと音素との対応関係を探索し、認識対象の音声信号において発せられている言葉を判定する装置であって、フレームと音素との対応関係を探索する過程で、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、複数のフレームに亘って累積することにより算出されたスコアに基づいて対応関係を特定する。
As described above, the
音素毎に対応するフレームの数で正規化されたスコアを用いることにより、各音素の重みの偏りを小さくすることができ、各音素のスコア全体に対する寄与度が均一化される。これにより、音素列の中で一部の音素が多くのフレームに対応している場合、その一部の音素のみの影響によって精度の良いスコアが得られなくなることを抑制することができる。その結果、フレームと音素との対応関係を探索する際における探索の精度を向上させることができるため、音声認識の精度の向上につながる。 By using the score normalized by the number of frames corresponding to each phoneme, the bias of the weight of each phoneme can be reduced, and the contribution of each phoneme to the entire score is made uniform. Thereby, when some phonemes correspond to many frames in the phoneme sequence, it is possible to suppress that an accurate score cannot be obtained due to the influence of only some phonemes. As a result, the accuracy of the search when searching for the correspondence between the frame and the phoneme can be improved, which leads to an improvement in the accuracy of speech recognition.
また、本実施形態に係る音声認識装置10によれば、精度の良いスコアを算出することにより、フレームと音素との対応関係を探索する過程で候補の枝刈りの精度を高めることができるため、残すべき候補の数を抑えることができる。そのため、対応関係の探索時の計算コストを抑えることができ、省メモリ化が可能となる。特に、多くの候補語の中から認識対象の音声信号において発せられている言葉を判定する場合において、少ない計算コストで効率的な音声認識が可能となる。
Further, according to the
(変形例)
以上に本発明の実施形態について説明したが、上記実施形態は一例であり、本発明の適用範囲はこれに限られない。すなわち、本発明の実施形態は種々の応用が可能であり、あらゆる実施の形態が本発明の範囲に含まれる。
(Modification)
Although the embodiment of the present invention has been described above, the above embodiment is an example, and the scope of the present invention is not limited to this. That is, the embodiments of the present invention can be applied in various ways, and all embodiments are included in the scope of the present invention.
例えば、上記実施形態では、音声認識装置10は、認識対象の音声信号を取得し、候補語記憶部22に記憶された複数の候補語のうちのいずれかを、取得した音声信号において発せられている言葉として判定した。しかしながら、本発明において、音声認識装置10は、対象語として検索語を取得し、検索対象となる音声信号のうちから取得した検索語が発せられている区間を検索しても良い。すなわち、音声認識装置10は、いわゆる音声検索装置として機能しても良い。
For example, in the above-described embodiment, the
音声認識装置10が音声検索装置として機能する場合、探索部150は、上記実施形態において複数の候補語のそれぞれについて実行したフレームと音素との対応関係の探索処理を、音声信号における異なる複数の区間のそれぞれについて実行する。具体的に説明すると、スコア算出部152は、出力確率取得部130により取得された出力確率に基づいて、音声信号における異なる複数の区間のそれぞれについて、フレームと音素との対応関係の複数の候補のスコアを上記(1)式に従って算出する。特定部153は、複数の区間のそれぞれについて、スコア算出部152により算出されたスコアに基づいて、フレームと音素との対応関係を特定する。そして、判定部160は、特定部153により複数の区間のそれぞれについて特定された対応関係のスコアを比較することにより、複数の区間のうちから対象語が発せられている区間を判定する。
When the
上記実施形態では、出力確率取得部130は、出力確率を、音響モデル記憶部21に記憶された音響モデルの全音素について取得した。しかしながら、本発明において、出力確率取得部130は、少なくとも候補語記憶部22に記憶された複数の候補語に対応する複数の音素のそれぞれについて出力確率を取得すれば良い。言い換えると、出力確率取得部130は、音響モデルの全音素のうちの少なくとも音声認識で使用する一部の音素について出力確率を取得すれば良く、音声認識で使用しない音素については出力確率を取得しなくても良い。
In the above embodiment, the output
本発明において、音声認識装置10は、図2に示した構成を全て備えていなくても良い。例えば、音響モデル記憶部21又は候補語記憶部22は、音声認識装置10の外部の装置に設けられていても良い。その場合、音声認識装置10は、必要に応じて外部の装置と通信することにより、音響モデル記憶部21に記憶された音響モデルの情報、又は候補語記憶部22に記憶された複数の候補語の情報を取得する。
In the present invention, the
また、本発明において、音声認識装置10は、特徴量算出部120、出力確率取得部130又は変換部140の機能を備えていなくても良い。例えば、外部の装置が候補語記憶部22に記憶された複数の候補語を対応する音素列に変換する機能を備えており、音声認識装置10は、外部の装置から各候補語に対応する音素列の情報を取得しても良い。或いは、外部の装置が特徴量算出部120による音声信号の特徴量を算出する処理、又は出力確率取得部130による出力確率を取得する処理を実行し、音声認識装置10は、その結果を示す情報を外部の装置から取得しても良い。
Further, in the present invention, the
上記実施形態では、制御部11において、CPUがROMに記憶されたプログラムを実行することによって、図2に示した各部として機能した。しかしながら、本発明において、制御部11は、CPUの代わりに、例えばASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、各種制御回路等の専用のハードウェアを備え、専用のハードウェアが、図2に示した各部として機能しても良い。この場合、各部の機能それぞれを個別のハードウェアで実現しても良いし、各部の機能をまとめて単一のハードウェアで実現しても良い。また、各部の機能のうち、一部を専用のハードウェアによって実現し、他の一部をソフトウェア又はファームウェアによって実現しても良い。
In the above embodiment, the
なお、本発明に係る機能を実現するための構成を予め備えた音声認識装置として提供できることはもとより、プログラムの適用により、既存の情報処理装置等を、本発明に係る音声認識装置として機能させることもできる。すなわち、上記実施形態で例示した音声認識装置10による各機能構成を実現させるためのプログラムを、既存の情報処理装置等を制御するCPU等が実行できるように適用することで、本発明に係る音声認識装置として機能させることができる。
It should be noted that the present invention can be provided not only as a speech recognition device having a configuration for realizing the function according to the present invention but also as an existing information processing device or the like as a speech recognition device according to the present invention by applying a program. You can also. That is, by applying a program for realizing each functional configuration by the
また、このようなプログラムの適用方法は任意である。プログラムを、例えば、フレキシブルディスク、CD(Compact Disc)−ROM、DVD(Digital Versatile Disc)−ROM、メモリカード等のコンピュータ読み取り可能な記憶媒体に格納して適用できる。さらに、プログラムを搬送波に重畳し、インターネットなどの通信媒体を介して適用することもできる。例えば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)にプログラムを掲示して配信してもよい。そして、このプログラムを起動し、OS(Operating System)の制御下で、他のアプリケーションプログラムと同様に実行することにより、上記の処理を実行できるように構成してもよい。 The method of applying such a program is arbitrary. The program can be applied by being stored in a computer-readable storage medium such as a flexible disk, a CD (Compact Disc) -ROM, a DVD (Digital Versatile Disc) -ROM, and a memory card. Furthermore, the program can be superimposed on a carrier wave and applied via a communication medium such as the Internet. For example, the program may be posted on a bulletin board (BBS: Bulletin Board System) on a communication network and distributed. Then, this program may be activated and executed in the same manner as other application programs under the control of an OS (Operating System), so that the above-described processing can be executed.
以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
(付記1)
音声信号の特徴量が、前記音声信号において発せられているか否かの判定対象となる対象語に対応する複数の音素のそれぞれから出力される出力確率を、前記音声信号における複数のフレームのそれぞれについて取得する出力確率取得手段と、
前記出力確率取得手段により取得された前記出力確率に基づいて、前記複数のフレームと前記複数の音素との対応関係の尤もらしさを示すスコアを、当該対応関係の複数の候補のそれぞれについて算出するスコア算出手段と、
前記スコア算出手段により前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを前記対応関係として特定する特定手段と、
前記特定手段により特定された前記対応関係に基づいて、前記音声信号において前記対象語が発せられているか否かを判定する判定手段と、
を備え、
前記スコア算出手段は、前記複数の候補のそれぞれにおいて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、前記複数のフレームに亘って累積することにより、前記スコアを算出する、
ことを特徴とする音声認識装置。
(付記2)
前記スコア算出手段は、前記複数のフレームのうちの先頭からm個のフレームと、前記複数の音素のうちの先頭からn個の音素と、の対応関係の複数の候補のそれぞれについて、前記スコアを算出し、
前記特定手段は、前記スコア算出手段により前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを、前記m個のフレームと前記n個の音素との前記対応関係として特定し、
前記m個のフレームにおけるmの値と前記n個の音素におけるnの値との少なくとも一方を変化させながら、前記スコア算出手段及び前記特定手段の処理を繰り返す繰り返し手段、を更に備える、
ことを特徴とする付記1に記載の音声認識装置。
(付記3)
前記スコア算出手段は、前記m個のフレームと前記n個の音素との前記対応関係の前記複数の候補として、前記複数のフレームのうちの先頭から(m−1)番目のフレームからm番目のフレームにかけて状態が停留する場合における第1の候補と、前記(m−1)番目のフレームから前記m番目のフレームにかけて状態が遷移する場合における第2の候補と、のそれぞれについて前記スコアを算出し、
前記特定手段は、前記スコア算出手段により前記第1の候補と前記第2の候補とのそれぞれについて算出された前記スコアに基づいて、前記第1の候補と前記第2の候補とのうちのいずれか一方を、前記m個のフレームと前記n個の音素との前記対応関係として特定する、
ことを特徴とする付記2に記載の音声認識装置。
(付記4)
前記スコア算出手段は、
前記n個の音素のうちの先頭からk番目の音素の出力確率に基づく値を、当該k番目の音素に対応する少なくとも1つのフレームに亘って累積し、且つ、当該少なくとも1つのフレームの数で正規化することにより、当該k番目の音素のスコアを算出し、
前記k番目の音素におけるkの値が1からnまでのそれぞれである場合に算出された前記n個の音素のスコアを累積することにより、前記m個のフレームと前記n個の音素との対応関係の前記複数の候補のそれぞれのスコアを算出する、
ことを特徴とする付記2又は3に記載の音声認識装置。
(付記5)
前記スコア算出手段は、前記m個のフレームのうちの、前記n個の音素のうちの前記先頭の音素から(n−1)番目の音素までに対応するフレームを除いた残りのフレームを、前記n個の音素のうちの先頭からn番目の音素に対応する少なくとも1つのフレームとして用いて、当該n番目の音素のスコアを算出する、
ことを特徴とする付記4に記載の音声認識装置。
(付記6)
前記音声信号の前記特徴量をフレーム毎に算出する特徴量算出手段、を更に備え、
前記出力確率取得手段は、前記特徴量算出手段により算出された前記特徴量に基づいて、前記出力確率を取得する、
ことを特徴とする付記1から5のいずれか1つに記載の音声認識装置。
(付記7)
認識対象となる前記音声信号を取得する音声信号取得手段と、
前記音声信号取得手段により取得された前記音声信号において発せられている言葉の候補となる複数の候補語が記憶された候補語記憶手段と、を更に備え、
前記出力確率取得手段は、前記候補語記憶手段に記憶された前記複数の候補語のそれぞれを前記対象語として、前記出力確率を取得し、
前記スコア算出手段は、前記複数の候補語のそれぞれについて、前記出力確率取得手段により取得された前記出力確率に基づいて、前記スコアを算出し、
前記特定手段は、前記複数の候補語のそれぞれについて、前記スコア算出手段により算出された前記スコアに基づいて、前記対応関係を特定し、
前記判定手段は、前記特定手段により前記複数の候補語のそれぞれについて特定された前記対応関係の前記スコアを比較することにより、前記複数の候補語のうちのいずれかを、前記音声信号において発せられている前記言葉として判定する、
ことを特徴とする付記1から6のいずれか1つに記載の音声認識装置。
(付記8)
前記スコア算出手段は、検索対象となる前記音声信号における異なる複数の区間のそれぞれにおいて、前記出力確率取得手段により取得された前記出力確率に基づいて、前記スコアを算出し、
前記特定手段は、前記複数の区間のそれぞれについて、前記スコア算出手段により算出された前記スコアに基づいて、前記対応関係を特定し、
前記判定手段は、前記特定手段により前記複数の区間のそれぞれについて特定された前記対応関係の前記スコアを比較することにより、前記複数の区間のうちから前記対象語が発せられている区間を判定する、
ことを特徴とする付記1から6のいずれか1つに記載の音声認識装置。
(付記9)
音声信号の特徴量が、前記音声信号において発せられているか否かの判定対象となる対象語に対応する複数の音素のそれぞれから出力される出力確率を、前記音声信号における複数のフレームのそれぞれについて取得する出力確率取得ステップと、
前記出力確率取得ステップで取得された前記出力確率に基づいて、前記複数のフレームと前記複数の音素との対応関係の尤もらしさを示すスコアを、当該対応関係の複数の候補のそれぞれについて算出するスコア算出ステップと、
前記スコア算出ステップで前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを前記対応関係として特定する特定ステップと、
前記特定ステップで特定された前記対応関係に基づいて、前記音声信号において前記対象語が発せられているか否かを判定する判定ステップと、
を含み、
前記スコア算出ステップでは、前記複数の候補のそれぞれにおいて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、前記複数のフレームに亘って累積することにより、前記スコアを算出する、
ことを特徴とする音声認識方法。
(付記10)
コンピュータを、
音声信号の特徴量が、前記音声信号において発せられているか否かの判定対象となる対象語に対応する複数の音素のそれぞれから出力される出力確率を、前記音声信号における複数のフレームのそれぞれについて取得する出力確率取得手段、
前記出力確率取得手段により取得された前記出力確率に基づいて、前記複数のフレームと前記複数の音素との対応関係の尤もらしさを示すスコアを、当該対応関係の複数の候補のそれぞれについて算出するスコア算出手段、
前記スコア算出手段により前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを前記対応関係として特定する特定手段、
前記特定手段により特定された前記対応関係に基づいて、前記音声信号において前記対象語が発せられているか否かを判定する判定手段、
として機能させ、
前記スコア算出手段は、前記複数の候補のそれぞれにおいて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、前記複数のフレームに亘って累積することにより、前記スコアを算出する、
ことを特徴とするプログラム。
As described above, the preferred embodiments of the present invention have been described, but the present invention is not limited to the specific embodiments, and the present invention includes the invention described in the claims and the equivalents thereof. included. Hereinafter, the invention described in the claims of the present application is additionally described.
(Appendix 1)
The output probability output from each of the plurality of phonemes corresponding to the target word to be determined whether or not the feature amount of the audio signal is issued in the audio signal, for each of the plurality of frames in the audio signal Output probability obtaining means for obtaining;
A score for calculating a likelihood of the correspondence between the plurality of frames and the plurality of phonemes based on the output probability acquired by the output probability acquisition unit, for each of the plurality of candidates of the correspondence. Calculating means;
Identification means for identifying any of the plurality of candidates as the correspondence relationship based on the score calculated for each of the plurality of candidates by the score calculation means,
Determining means for determining whether or not the target word is issued in the audio signal, based on the correspondence specified by the specifying means;
With
The score calculation unit normalizes a value based on the output probability of a phoneme corresponding to each frame in each of the plurality of candidates by the number of frames corresponding to each phoneme, and accumulates the value over the plurality of frames. By calculating the score,
A speech recognition device characterized by the above-mentioned.
(Appendix 2)
The score calculation means calculates the score for each of a plurality of candidates having a correspondence relationship between m frames from the beginning of the plurality of frames and n phonemes from the beginning of the plurality of phonemes. Calculate,
The specifying means, based on the score calculated by the score calculation means for each of the plurality of candidates, any one of the plurality of candidates, the m frames and the n phonemes Specified as the correspondence,
A repetition unit that repeats the processes of the score calculation unit and the identification unit while changing at least one of the value of m in the m frames and the value of n in the n phonemes,
3. The speech recognition device according to
(Appendix 3)
The score calculation means may include, as the plurality of candidates for the correspondence relationship between the m frames and the n phonemes, the (m-1) th frame to the mth frame from the top of the plurality of frames. The score is calculated for each of a first candidate in the case where the state stops over the frame and a second candidate in the case where the state transitions from the (m-1) th frame to the mth frame. ,
The specifying unit is configured to determine which of the first candidate and the second candidate based on the score calculated for each of the first candidate and the second candidate by the score calculating unit. One of them is specified as the correspondence between the m frames and the n phonemes,
3. The speech recognition device according to
(Appendix 4)
The score calculation means,
A value based on the output probability of the k-th phoneme from the head of the n phonemes is accumulated over at least one frame corresponding to the k-th phoneme, and is calculated by the number of the at least one frame. By normalizing, the score of the k-th phoneme is calculated,
By accumulating the scores of the n phonemes calculated when the value of k in the k-th phoneme is 1 to n, the correspondence between the m frames and the n phonemes is calculated. Calculating a score for each of the plurality of candidates in the relationship;
The speech recognition device according to
(Appendix 5)
The score calculation means calculates the remaining frames excluding the frames corresponding to the (n-1) th phoneme from the first phoneme of the n phonemes of the m frames. Using at least one frame corresponding to the n-th phoneme from the beginning of the n phonemes, calculating the score of the n-th phoneme;
The speech recognition device according to
(Appendix 6)
A feature value calculating unit configured to calculate the feature value of the audio signal for each frame,
The output probability obtaining unit obtains the output probability based on the feature amount calculated by the feature amount calculating unit,
6. The speech recognition device according to any one of
(Appendix 7)
Audio signal acquisition means for acquiring the audio signal to be recognized,
Candidate word storage means in which a plurality of candidate words that are candidates for words emitted in the audio signal acquired by the audio signal acquisition means are stored,
The output probability obtaining means obtains the output probability, each of the plurality of candidate words stored in the candidate word storage means as the target word,
The score calculating means calculates the score based on the output probability obtained by the output probability obtaining means, for each of the plurality of candidate words,
The specifying unit specifies, for each of the plurality of candidate words, the correspondence based on the score calculated by the score calculating unit,
The determination unit is configured to compare any of the scores of the correspondence specified for each of the plurality of candidate words by the specifying unit, thereby causing any of the plurality of candidate words to be emitted in the audio signal. Judge as the said word,
7. The speech recognition device according to any one of
(Appendix 8)
The score calculation unit calculates the score based on the output probability acquired by the output probability acquisition unit in each of a plurality of different sections in the audio signal to be searched,
The specifying unit specifies, for each of the plurality of sections, the correspondence based on the score calculated by the score calculating unit,
The determining unit determines a section in which the target word is emitted from the plurality of sections by comparing the scores of the correspondence relationships specified for each of the plurality of sections by the specifying unit. ,
7. The speech recognition device according to any one of
(Appendix 9)
The output probability output from each of the plurality of phonemes corresponding to the target word to be determined whether or not the feature amount of the audio signal is issued in the audio signal, for each of the plurality of frames in the audio signal An output probability obtaining step to obtain;
A score for calculating a likelihood of the correspondence between the plurality of frames and the plurality of phonemes based on the output probability acquired in the output probability acquisition step, for each of the plurality of candidates of the correspondence. A calculating step;
A specifying step of specifying any of the plurality of candidates as the correspondence relationship based on the score calculated for each of the plurality of candidates in the score calculating step;
A determining step of determining whether or not the target word is issued in the audio signal based on the correspondence relationship identified in the identifying step;
Including
In the score calculating step, in each of the plurality of candidates, a value based on the output probability of a phoneme corresponding to each frame is normalized by the number of frames corresponding to each phoneme, and accumulated over the plurality of frames. By calculating the score,
A speech recognition method characterized in that:
(Appendix 10)
Computer
The output probability output from each of the plurality of phonemes corresponding to the target word to be determined whether or not the feature amount of the audio signal is issued in the audio signal, for each of the plurality of frames in the audio signal Output probability obtaining means to obtain,
A score for calculating a likelihood of the correspondence between the plurality of frames and the plurality of phonemes based on the output probability acquired by the output probability acquisition unit, for each of the plurality of candidates of the correspondence. Calculation means,
Specifying means for specifying any of the plurality of candidates as the correspondence, based on the score calculated for each of the plurality of candidates by the score calculating means,
Determining means for determining whether or not the target word is issued in the audio signal, based on the correspondence specified by the specifying means;
Function as
The score calculation unit normalizes a value based on the output probability of a phoneme corresponding to each frame in each of the plurality of candidates by the number of frames corresponding to each phoneme, and accumulates the value over the plurality of frames. By calculating the score,
A program characterized by the following.
10…音声認識装置、11…制御部、12…記憶部、13…入力部、14…出力部、15…通信部、21…音響モデル記憶部、22…候補語記憶部、30,31,32…距離テーブル、110…音声信号取得部、120…特徴量算出部、130…出力確率取得部、140…変換部、150…探索部、151…指定部、152…スコア算出部、153…特定部、154…繰り返し部、160…判定部
DESCRIPTION OF
Claims (10)
前記出力確率取得手段により取得された前記出力確率に基づいて、前記複数のフレームと前記複数の音素との対応関係の尤もらしさを示すスコアを、当該対応関係の複数の候補のそれぞれについて算出するスコア算出手段と、
前記スコア算出手段により前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを前記対応関係として特定する特定手段と、
前記特定手段により特定された前記対応関係に基づいて、前記音声信号において前記対象語が発せられているか否かを判定する判定手段と、
を備え、
前記スコア算出手段は、前記複数の候補のそれぞれにおいて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、前記複数のフレームに亘って累積することにより、前記スコアを算出する、
ことを特徴とする音声認識装置。 The output probability output from each of the plurality of phonemes corresponding to the target word to be determined whether or not the feature amount of the audio signal is issued in the audio signal, for each of the plurality of frames in the audio signal Output probability obtaining means for obtaining;
A score for calculating a likelihood of the correspondence between the plurality of frames and the plurality of phonemes based on the output probability acquired by the output probability acquisition unit, for each of the plurality of candidates of the correspondence. Calculating means;
Identification means for identifying any of the plurality of candidates as the correspondence relationship based on the score calculated for each of the plurality of candidates by the score calculation means,
Determining means for determining whether or not the target word is issued in the audio signal, based on the correspondence specified by the specifying means;
With
The score calculation unit normalizes a value based on the output probability of a phoneme corresponding to each frame in each of the plurality of candidates by the number of frames corresponding to each phoneme, and accumulates the value over the plurality of frames. By calculating the score,
A speech recognition device characterized by the above-mentioned.
前記特定手段は、前記スコア算出手段により前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを、前記m個のフレームと前記n個の音素との前記対応関係として特定し、
前記m個のフレームにおけるmの値と前記n個の音素におけるnの値との少なくとも一方を変化させながら、前記スコア算出手段及び前記特定手段の処理を繰り返す繰り返し手段、を更に備える、
ことを特徴とする請求項1に記載の音声認識装置。 The score calculation means calculates the score for each of a plurality of candidates having a correspondence relationship between m frames from the beginning of the plurality of frames and n phonemes from the beginning of the plurality of phonemes. Calculate,
The specifying means, based on the score calculated by the score calculation means for each of the plurality of candidates, any one of the plurality of candidates, the m frames and the n phonemes Specified as the correspondence,
A repetition unit that repeats the processes of the score calculation unit and the identification unit while changing at least one of the value of m in the m frames and the value of n in the n phonemes,
The speech recognition device according to claim 1, wherein:
前記特定手段は、前記スコア算出手段により前記第1の候補と前記第2の候補とのそれぞれについて算出された前記スコアに基づいて、前記第1の候補と前記第2の候補とのうちのいずれか一方を、前記m個のフレームと前記n個の音素との前記対応関係として特定する、
ことを特徴とする請求項2に記載の音声認識装置。 The score calculation means may include, as the plurality of candidates for the correspondence relationship between the m frames and the n phonemes, the (m-1) th frame to the mth frame from the top of the plurality of frames. The score is calculated for each of a first candidate in the case where the state stops over the frame and a second candidate in the case where the state transitions from the (m-1) th frame to the mth frame. ,
The specifying unit is configured to determine which of the first candidate and the second candidate based on the score calculated for each of the first candidate and the second candidate by the score calculating unit. One of them is specified as the correspondence between the m frames and the n phonemes,
The speech recognition device according to claim 2, wherein:
前記n個の音素のうちの先頭からk番目の音素の出力確率に基づく値を、当該k番目の音素に対応する少なくとも1つのフレームに亘って累積し、且つ、当該少なくとも1つのフレームの数で正規化することにより、当該k番目の音素のスコアを算出し、
前記k番目の音素におけるkの値が1からnまでのそれぞれである場合に算出された前記n個の音素のスコアを累積することにより、前記m個のフレームと前記n個の音素との対応関係の前記複数の候補のそれぞれのスコアを算出する、
ことを特徴とする請求項2又は3に記載の音声認識装置。 The score calculation means,
A value based on the output probability of the k-th phoneme from the head of the n phonemes is accumulated over at least one frame corresponding to the k-th phoneme, and is calculated by the number of the at least one frame. By normalizing, the score of the k-th phoneme is calculated,
By accumulating the scores of the n phonemes calculated when the value of k in the k-th phoneme is 1 to n, the correspondence between the m frames and the n phonemes is calculated. Calculating a score for each of the plurality of candidates in the relationship;
The speech recognition device according to claim 2 or 3, wherein:
ことを特徴とする請求項4に記載の音声認識装置。 The score calculation means calculates the remaining frames excluding the frames corresponding to the (n-1) th phoneme from the first phoneme of the n phonemes of the m frames. Using at least one frame corresponding to the n-th phoneme from the beginning of the n phonemes, calculating the score of the n-th phoneme;
The speech recognition device according to claim 4, wherein:
前記出力確率取得手段は、前記特徴量算出手段により算出された前記特徴量に基づいて、前記出力確率を取得する、
ことを特徴とする請求項1から5のいずれか1項に記載の音声認識装置。 A feature value calculating unit configured to calculate the feature value of the audio signal for each frame,
The output probability obtaining unit obtains the output probability based on the feature amount calculated by the feature amount calculating unit,
The speech recognition device according to any one of claims 1 to 5, wherein:
前記音声信号取得手段により取得された前記音声信号において発せられている言葉の候補となる複数の候補語が記憶された候補語記憶手段と、を更に備え、
前記出力確率取得手段は、前記候補語記憶手段に記憶された前記複数の候補語のそれぞれを前記対象語として、前記出力確率を取得し、
前記スコア算出手段は、前記複数の候補語のそれぞれについて、前記出力確率取得手段により取得された前記出力確率に基づいて、前記スコアを算出し、
前記特定手段は、前記複数の候補語のそれぞれについて、前記スコア算出手段により算出された前記スコアに基づいて、前記対応関係を特定し、
前記判定手段は、前記特定手段により前記複数の候補語のそれぞれについて特定された前記対応関係の前記スコアを比較することにより、前記複数の候補語のうちのいずれかを、前記音声信号において発せられている前記言葉として判定する、
ことを特徴とする請求項1から6のいずれか1項に記載の音声認識装置。 Audio signal acquisition means for acquiring the audio signal to be recognized,
Candidate word storage means in which a plurality of candidate words that are candidates for words emitted in the audio signal acquired by the audio signal acquisition means are stored,
The output probability obtaining means obtains the output probability, each of the plurality of candidate words stored in the candidate word storage means as the target word,
The score calculating means calculates the score based on the output probability obtained by the output probability obtaining means, for each of the plurality of candidate words,
The specifying unit specifies, for each of the plurality of candidate words, the correspondence based on the score calculated by the score calculating unit,
The determination unit is configured to compare any of the scores of the correspondence specified for each of the plurality of candidate words by the specifying unit, thereby causing any of the plurality of candidate words to be emitted in the audio signal. Judge as the said word,
The speech recognition device according to any one of claims 1 to 6, wherein:
前記特定手段は、前記複数の区間のそれぞれについて、前記スコア算出手段により算出された前記スコアに基づいて、前記対応関係を特定し、
前記判定手段は、前記特定手段により前記複数の区間のそれぞれについて特定された前記対応関係の前記スコアを比較することにより、前記複数の区間のうちから前記対象語が発せられている区間を判定する、
ことを特徴とする請求項1から6のいずれか1項に記載の音声認識装置。 The score calculation unit calculates the score based on the output probability acquired by the output probability acquisition unit in each of a plurality of different sections in the audio signal to be searched,
The specifying unit specifies, for each of the plurality of sections, the correspondence based on the score calculated by the score calculating unit,
The determining unit determines a section in which the target word is emitted from the plurality of sections by comparing the scores of the correspondence relationships specified for each of the plurality of sections by the specifying unit. ,
The speech recognition device according to any one of claims 1 to 6, wherein:
前記出力確率取得ステップで取得された前記出力確率に基づいて、前記複数のフレームと前記複数の音素との対応関係の尤もらしさを示すスコアを、当該対応関係の複数の候補のそれぞれについて算出するスコア算出ステップと、
前記スコア算出ステップで前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを前記対応関係として特定する特定ステップと、
前記特定ステップで特定された前記対応関係に基づいて、前記音声信号において前記対象語が発せられているか否かを判定する判定ステップと、
を含み、
前記スコア算出ステップでは、前記複数の候補のそれぞれにおいて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、前記複数のフレームに亘って累積することにより、前記スコアを算出する、
ことを特徴とする音声認識方法。 The output probability output from each of the plurality of phonemes corresponding to the target word to be determined whether or not the feature amount of the audio signal is issued in the audio signal, for each of the plurality of frames in the audio signal An output probability obtaining step to obtain;
A score for calculating a likelihood of the correspondence between the plurality of frames and the plurality of phonemes based on the output probability acquired in the output probability acquisition step, for each of the plurality of candidates of the correspondence. A calculating step;
A specifying step of specifying any of the plurality of candidates as the correspondence relationship based on the score calculated for each of the plurality of candidates in the score calculating step;
A determining step of determining whether or not the target word is issued in the audio signal based on the correspondence relationship identified in the identifying step;
Including
In the score calculating step, in each of the plurality of candidates, a value based on the output probability of a phoneme corresponding to each frame is normalized by the number of frames corresponding to each phoneme, and accumulated over the plurality of frames. By calculating the score,
A speech recognition method characterized in that:
音声信号の特徴量が、前記音声信号において発せられているか否かの判定対象となる対象語に対応する複数の音素のそれぞれから出力される出力確率を、前記音声信号における複数のフレームのそれぞれについて取得する出力確率取得手段、
前記出力確率取得手段により取得された前記出力確率に基づいて、前記複数のフレームと前記複数の音素との対応関係の尤もらしさを示すスコアを、当該対応関係の複数の候補のそれぞれについて算出するスコア算出手段、
前記スコア算出手段により前記複数の候補のそれぞれについて算出された前記スコアに基づいて、前記複数の候補のうちのいずれかを前記対応関係として特定する特定手段、
前記特定手段により特定された前記対応関係に基づいて、前記音声信号において前記対象語が発せられているか否かを判定する判定手段、
として機能させ、
前記スコア算出手段は、前記複数の候補のそれぞれにおいて、各フレームに対応する音素の出力確率に基づく値を、音素毎に対応するフレームの数で正規化し、且つ、前記複数のフレームに亘って累積することにより、前記スコアを算出する、
ことを特徴とするプログラム。 Computer
The output probability output from each of the plurality of phonemes corresponding to the target word to be determined whether or not the feature amount of the audio signal is issued in the audio signal, for each of the plurality of frames in the audio signal Output probability obtaining means to obtain,
A score for calculating a likelihood of the correspondence between the plurality of frames and the plurality of phonemes based on the output probability acquired by the output probability acquisition unit, for each of the plurality of candidates of the correspondence. Calculation means,
Specifying means for specifying any of the plurality of candidates as the correspondence, based on the score calculated for each of the plurality of candidates by the score calculating means,
Determining means for determining whether or not the target word is issued in the audio signal, based on the correspondence specified by the specifying means;
Function as
The score calculation unit normalizes a value based on the output probability of a phoneme corresponding to each frame in each of the plurality of candidates by the number of frames corresponding to each phoneme, and accumulates the value over the plurality of frames. By calculating the score,
A program characterized by the following.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018118508A JP2019219598A (en) | 2018-06-22 | 2018-06-22 | Voice recognition apparatus, voice recognition method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018118508A JP2019219598A (en) | 2018-06-22 | 2018-06-22 | Voice recognition apparatus, voice recognition method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019219598A true JP2019219598A (en) | 2019-12-26 |
Family
ID=69096431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018118508A Pending JP2019219598A (en) | 2018-06-22 | 2018-06-22 | Voice recognition apparatus, voice recognition method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019219598A (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04254896A (en) * | 1991-02-07 | 1992-09-10 | Seiko Epson Corp | Speech recognition correction device |
JP2015169698A (en) * | 2014-03-05 | 2015-09-28 | カシオ計算機株式会社 | Speech retrieval device, speech retrieval method, and program |
-
2018
- 2018-06-22 JP JP2018118508A patent/JP2019219598A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04254896A (en) * | 1991-02-07 | 1992-09-10 | Seiko Epson Corp | Speech recognition correction device |
JP2015169698A (en) * | 2014-03-05 | 2015-09-28 | カシオ計算機株式会社 | Speech retrieval device, speech retrieval method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249294B2 (en) | Speech recognition system and method | |
US11145292B2 (en) | Method and device for updating language model and performing speech recognition based on language model | |
US11996097B2 (en) | Multilingual wakeword detection | |
JP6188831B2 (en) | Voice search apparatus and voice search method | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
JP5282737B2 (en) | Speech recognition apparatus and speech recognition method | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
KR20190002812A (en) | Method for recognizing speech and Apparatus thereof | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
JP2017097162A (en) | Keyword detection device, keyword detection method and computer program for keyword detection | |
JP6011565B2 (en) | Voice search device, voice search method and program | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
JP6585112B2 (en) | Voice keyword detection apparatus and voice keyword detection method | |
JP6585022B2 (en) | Speech recognition apparatus, speech recognition method and program | |
CN112750445B (en) | Voice conversion method, device and system and storage medium | |
JP2007047412A (en) | Apparatus and method for generating recognition grammar model and voice recognition apparatus | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
JPH0760318B2 (en) | Continuous speech recognition method | |
JP4966324B2 (en) | Speech translation apparatus and method | |
US11308939B1 (en) | Wakeword detection using multi-word model | |
EP3309778A1 (en) | Method for real-time keyword spotting for speech analytics | |
JP2019219598A (en) | Voice recognition apparatus, voice recognition method, and program | |
JP6604013B2 (en) | Speech recognition apparatus, speech recognition method and program | |
JP4741452B2 (en) | Language model creation device, language model creation program, speech recognition device, and speech recognition program | |
JP4610451B2 (en) | Speech recognition apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230307 |