JP2014206642A - Voice recognition device and voice recognition program - Google Patents
Voice recognition device and voice recognition program Download PDFInfo
- Publication number
- JP2014206642A JP2014206642A JP2013084104A JP2013084104A JP2014206642A JP 2014206642 A JP2014206642 A JP 2014206642A JP 2013084104 A JP2013084104 A JP 2013084104A JP 2013084104 A JP2013084104 A JP 2013084104A JP 2014206642 A JP2014206642 A JP 2014206642A
- Authority
- JP
- Japan
- Prior art keywords
- word
- similar
- recognition
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、音声認識装置および音声認識プログラムに関し、特に、孤立単語認識方式により音声認識を行う音声認識装置および音声認識プログラムに関する。 The present invention relates to a speech recognition apparatus and a speech recognition program, and more particularly to a speech recognition apparatus and speech recognition program that perform speech recognition using an isolated word recognition method.
従来から、音響的に互いに類似する単語を認識する技術が存在する。 Conventionally, there is a technique for recognizing words that are acoustically similar to each other.
特開平10−274994号公報(特許文献1)には、DRNN(Dynamic Recurrent Neural Networks)単語モデルを用いた音声認識技術において、「なんじ」と「なんど」といった類似語を認識するための処理が開示されている。具体的には、たとえば「なんじ」に対応するDRNN出力のうち、類似語の特徴部分(「じ」、「ど」の音韻部分)に対応するDRNN出力を含む区間t1を設定し、区間t1にどのような母音が存在するかを調べることが記載されている。 Japanese Patent Laid-Open No. 10-274994 (Patent Document 1) discloses a process for recognizing similar words such as “Nanji” and “Nando” in a speech recognition technique using a DRNN (Dynamic Recurrent Neural Networks) word model. It is disclosed. Specifically, for example, among the DRNN output corresponding to “Nanji”, a section t1 including a DRNN output corresponding to a characteristic part of a similar word (phonetic part of “ji” and “do”) is set, and a section t1 is set. Describes what kind of vowels exist.
上記文献では、DRNN単語モデルという特殊な音響モデルを用いた場合に、認識対象単語(キーワード)と類似する、認識対象でない類似語が一定以上の確からしさを持つ場合があり、そのような問題に対処するために単語の特徴部分の母音が調べられる。 In the above document, when a special acoustic model called DRNN word model is used, a similar word that is similar to a recognition target word (keyword) and is not a recognition target may have a certain degree of certainty. To deal with, the vowels of the word features are examined.
一方で、HMM(Hidden Markov Model)などの一般的な音響モデルを用いた音声認識では、あるキーワード(登録された単語)の認識率は、そのキーワードに音響的に類似する単語が登録されている場合と登録されていない場合とでは、前者の方が低い傾向にある。したがって、一般的な音響モデルを用いた音声認識においては、キーワード間の誤認識を低減させることが、全体の認識率の向上につながる。 On the other hand, in speech recognition using a general acoustic model such as HMM (Hidden Markov Model), the recognition rate of a certain keyword (registered word) is registered as a word that is acoustically similar to the keyword. There is a tendency for the former to be lower in cases where it is not registered and cases where it is not registered. Therefore, in speech recognition using a general acoustic model, reducing misrecognition between keywords leads to an improvement in the overall recognition rate.
本発明は、上記のような課題を解決するためになされたものであって、その目的は、キーワード間の誤認識を低減させることのできる音声認識装置および音声認識プログラムを提供することである。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech recognition apparatus and a speech recognition program capable of reducing erroneous recognition between keywords.
この発明のある局面に従う音声認識装置は、音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、複数のキーワードから第1の単語を推定するための第1の認識処理手段と、音響的に互いに類似するキーワードについての類似語情報を予め格納するための記憶部と、類似語情報を参照することで、第1の認識処理手段により推定された第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するための判断手段と、判断手段により第2の単語が存在すると判断された場合に、音声信号から予め定められた特定の区間における部分音声信号を抽出するための抽出手段と、抽出手段により抽出された部分音声信号の特徴量を用いて認識処理を実行するための第2の認識処理手段とを備える。第2の認識処理手段は、部分音声信号の特徴量と、第1の単語および第2の単語それぞれについての特定の区間に対応する第2のモデルパラメータとに基づいて、第1の単語および第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行する判定手段を含む。 A speech recognition apparatus according to an aspect of the present invention executes a recognition process based on a feature amount of a speech signal and a first model parameter for each of a plurality of keywords, thereby obtaining a first word from the plurality of keywords. By referring to the first recognition processing means for estimating, the storage unit for storing similar word information about acoustically similar keywords in advance, and the similar word information, the first recognition processing means When a determination means for determining whether or not a second word that is a keyword similar to the estimated first word exists, and when the determination means determines that the second word exists, an audio signal The recognition process is executed using the extraction means for extracting a partial speech signal in a specific section determined in advance and the feature amount of the partial speech signal extracted by the extraction means. And a second recognition processing means. The second recognition processing means, based on the feature amount of the partial speech signal and the second model parameter corresponding to the specific section for each of the first word and the second word, A determination unit configured to execute a determination process using a keyword having a higher likelihood of the two words as a recognition result;
好ましくは、類似語情報は、音響的に類似するキーワードと誤認識の可能性のある特定のキーワードごとに、類似するキーワードについての識別情報を含み、記憶手段は、特定のキーワードごとに、特定の区間を定めた区間情報をさらに記憶する。抽出手段は、所定のアルゴリズムで音声信号を複数の区間に分割し、分割された複数の区間と区間情報とに基づいて、部分音声信号を抽出する。 Preferably, the similar word information includes identification information about a similar keyword for each specific keyword that may be erroneously recognized as an acoustically similar keyword, and the storage means includes a specific keyword for each specific keyword. Section information defining the section is further stored. The extraction unit divides the audio signal into a plurality of sections using a predetermined algorithm, and extracts the partial sound signal based on the plurality of divided sections and the section information.
好ましくは、第1の認識処理手段は、音声信号を第1の時間長のフレーム単位で切出し、フレームごとに分析を行うことで音声信号の特徴量を算出する第1の分析手段を含み、第2の認識処理手段は、部分音声信号を第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレームごとに分析を行うことで部分音声信号の特徴量を算出する第2の分析手段をさらに含む。 Preferably, the first recognition processing unit includes a first analysis unit that calculates a feature amount of the voice signal by cutting out the voice signal in units of frames of the first time length and performing analysis for each frame. The second recognition processing means extracts a partial speech signal in units of frames having a second time length shorter than the first time, and performs analysis for each frame to calculate a feature amount of the partial speech signal. Means are further included.
好ましくは、判定手段により認識結果として判定されたキーワードを出力するための出力手段をさらに備え、出力手段は、判断手段により第2の単語が存在しないと判断された場合には、第1の認識処理手段により推定された第1の単語を認識結果として出力する。 Preferably, an output means for outputting the keyword determined as the recognition result by the determination means is further provided, and the output means performs the first recognition when the determination means determines that the second word does not exist. The first word estimated by the processing means is output as a recognition result.
好ましくは、判定手段は、判断手段により第1の単語と類似するキーワードが複数あると判断された場合には、第1の認識処理手段における認識処理において、尤度が高かった方のキーワードを第2の単語として、判定処理を実行する。 Preferably, when the determination unit determines that there are a plurality of keywords similar to the first word, the determination unit selects the keyword with the higher likelihood in the recognition process in the first recognition processing unit. The determination process is executed as the second word.
好ましくは、判定手段は、判断手段により第1の単語と類似するキーワードが複数あると判断された場合には、第1の単語および複数の類似するキーワードそれぞれについての第2のモデルパラメータを用いて、第1の単語および複数の類似するキーワードのうち最も尤度が高いキーワードを認識結果として判定する。 Preferably, when the determination unit determines that there are a plurality of keywords similar to the first word, the determination unit uses the second model parameter for each of the first word and the plurality of similar keywords. The keyword having the highest likelihood among the first word and a plurality of similar keywords is determined as the recognition result.
好ましくは、判定手段は、判断手段により第1の単語と類似するキーワードが複数あると判断された場合には、複数の類似するキーワードそれぞれについての第2のモデルパラメータを用いて複数の類似するキーワードのうち尤度が高い方のキーワードを判定し、尤度が高い方のキーワードを第2の単語として判定処理を実行する。 Preferably, when the determination unit determines that there are a plurality of keywords similar to the first word, the determination unit uses a plurality of similar keywords using the second model parameter for each of the plurality of similar keywords. The keyword having the higher likelihood is determined, and the keyword having the higher likelihood is determined as the second word to execute the determination process.
好ましくは、特定の区間は、学習時に、計算シミュレーションにより、音響的に互いに類似するキーワード間での認識率が最も高い区間として定められている。 Preferably, the specific section is determined as a section having the highest recognition rate between keywords that are acoustically similar to each other by a simulation during learning.
この発明の他の局面に従う音声認識プログラムは、音声信号の特徴量と、複数のキーワードそれぞれについての第1のモデルパラメータとに基づいて認識処理を実行することで、複数のキーワードから第1の単語を推定するステップと、予め記憶された、音響的に互いに類似するキーワードについての類似語情報を参照することで、推定された第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するステップと、第2の単語が存在すると判断された場合に、音声信号から予め定められた特定の区間における部分音声信号を抽出するステップと、抽出された部分音声信号の特徴量と、第1の単語および第2の単語それぞれについての特定の区間に対応する第2のモデルパラメータとに基づいて、第1の単語および第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行するステップとをコンピュータに実行させる。 A speech recognition program according to another aspect of the present invention executes a recognition process based on a feature amount of a speech signal and a first model parameter for each of the plurality of keywords, so that the first word from the plurality of keywords is obtained. Whether or not there is a second word that is a keyword similar to the estimated first word by referring to the pre-stored similar word information for the keywords that are acoustically similar to each other. A step of determining whether or not, a step of extracting a partial speech signal in a predetermined specific section from the speech signal when it is determined that the second word is present, and a feature amount of the extracted partial speech signal And a second model parameter corresponding to a particular interval for each of the first word and the second word, the first word and the second And a step of executing the determination processing of the recognition result keyword higher likelihood among word to the computer.
本発明によれば、キーワード間の誤認識を低減させることができる。 According to the present invention, erroneous recognition between keywords can be reduced.
本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。 Embodiments of the present invention will be described in detail with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals and description thereof will not be repeated.
本実施の形態に係る音声認識装置は、孤立単語認識方式を採用し、音声信号を分析することで、複数のキーワードから、音声信号が表わす単語を推定して出力する。本実施の形態において「キーワード」とは、登録されている単語、すなわち認識対象の単語を表わすものとする。 The speech recognition apparatus according to the present embodiment employs an isolated word recognition method and analyzes a speech signal to estimate and output a word represented by the speech signal from a plurality of keywords. In this embodiment, the “keyword” represents a registered word, that is, a word to be recognized.
本実施の形態に係る音声認識装置は、音響モデルとしてHMMを用い、かつ、認識の際にたとえばビタビアルゴリズムにより尤度を計算することとする。ビタビアルゴリズムによれば、尤度を計算する際に、HMMの状態(状態番号)と音声区間との対応付けがなされる。このビタビアルゴリズムによる対応付け(以下「ビタビアライメント」という)によって、音声信号が、少なくとも音素の区間と調音結合の区間とに分割され、各区間に状態番号が割り当てられる。なお、ビタビアライメントなどにより音声信号のアライメントが可能な音響モデルであれば、たとえばDTW(Dynamic time warping)などHMM以外の音響モデルを用いてもよい。 The speech recognition apparatus according to the present embodiment uses an HMM as an acoustic model and calculates the likelihood by, for example, a Viterbi algorithm at the time of recognition. According to the Viterbi algorithm, when the likelihood is calculated, the state of the HMM (state number) is associated with the speech section. By the association by the Viterbi algorithm (hereinafter referred to as “Viterbi alignment”), the speech signal is divided into at least a phoneme section and an articulation connection section, and a state number is assigned to each section. Note that an acoustic model other than the HMM such as DTW (Dynamic Time Warping) may be used as long as it is an acoustic model capable of aligning audio signals by Viterbi alignment or the like.
以下に、本実施の形態に係る音声認識装置の構成および動作について、詳細に説明する。 Hereinafter, the configuration and operation of the speech recognition apparatus according to the present embodiment will be described in detail.
<構成について>
(ハードウェア構成)
本実施の形態に係る音声認識装置は、たとえばPC(Personal Computer)などの汎用コンピュータによって実現可能である。
<About configuration>
(Hardware configuration)
The speech recognition apparatus according to the present embodiment can be realized by a general-purpose computer such as a PC (Personal Computer).
図1は、本発明の実施の形態に係る音声認識装置1のハードウェア構成例を示すブロック図である。図1を参照して、音声認識装置1は、各種演算処理を行うためのCPU(Central Processing Unit)11と、各種データおよびプログラムを格納するROM(Read Only Memory)12と、作業データ等を記憶するRAM(Random Access Memory)13と、不揮発性の記憶装置であるハードディスク14と、キーボードなどを含む操作部15と、各種情報を表示するための表示部16と、記録媒体17aからのデータやプログラムを読み出しおよび書き込み可能なドライブ装置17と、インターネット通信するための通信I/F(インターフェイス)18とを備える。記録媒体17aは、たとえば、CD−ROM(Compact Disc-ROM)や、メモリカードなどであってよい。
FIG. 1 is a block diagram showing a hardware configuration example of a
音声認識装置1は、マイクロフォン20から音声信号を入力するための入力部19をさらに備えていてもよい。音声認識装置1が入力部19を有さない場合には、たとえば通信I/F18から得られた音声信号や、記録媒体17aから読み出された音声信号に対して、認識処理が実行される。
The
(機能構成)
図2は、本発明の実施の形態に係る音声認識装置1の機能構成を示す機能ブロック図である。図2を参照して、音声認識装置1は、一般的な音声認識装置と同様に、1次認識処理部100、1次HMMデータ201および出力部116を含む。1次HMMデータ201は、全てのキーワードそれぞれに対応しており、1次認識処理部100による1次認識の際に用いられる。各1次HMMは、キーワードの音声全体から生成されたモデルパラメータである。本実施の形態では、2次認識処理部110にて用いられるHMM(2次HMMデータ202)と区別するために「1次HMM」と表わしている。1次HMMには、それぞれに識別番号が対応付けられている。
(Functional configuration)
FIG. 2 is a functional block diagram showing a functional configuration of the
1次認識処理部100は、音声信号の特徴量と1次HMMデータ201とに基づいて認識処理を実行する。1次認識処理部100は、その機能として分析部102および推定部104を含む。分析部102は、音声信号を第1の時間長のフレーム単位で切出し、フレーム単位で音声信号を分析することで特徴量を算出する。たとえば、切出された音声信号が、MFCC(Mel-frequency cepstral coefficient)特徴量に変換される。推定部104は、各1次HMMが、算出された特徴量の系列を生成する尤度を算出し、尤度が最も高い1次HMMが示すキーワードを認識結果として推定する。ここで推定されたキーワードを、以下「推定単語」ともいう。
The primary
出力部116は、認識結果を出力する。出力部116は、たとえば表示部16により実現される。
The
一般的な音声認識装置では、1次認識処理部100での認識結果(1次認識結果)すなわち推定単語が、そのまま出力される。しかしながら、推定単語に音響的に類似するキーワードが登録されている場合、周囲の雑音が大きくなるにつれ、誤認識の可能性が高くなる。
In a general speech recognition apparatus, a recognition result (primary recognition result) in the primary
そこで、本実施の形態に係る音声認識装置1は、その機能として、判断部106、抽出部108および2次認識処理部110をさらに含む。また、1次HMMデータ201とともに、たとえばハードディスク14には、2次HMMデータ202および類似語データベース(DB)203が格納される。
Therefore, the
2次HMMデータ202は、誤認識する可能性のある複数のキーワードそれぞれに対応しており、キーワードの音声のうち特定の区間における音声から生成されたモデルパラメータである。2次HMMには、それぞれに識別番号が対応付けられている。この「特定の区間」とは、音響的に互いに類似するキーワード間での類似度が小さくなる確率が高い区間、すなわち、特徴量に差異が出やすい区間である。その意味で、特定の区間は「差異区間」とも表現できる。学習時において、音声信号を抽出する区間を構成するHMMの状態(状態番号)を様々に変えて、計算シミュレーションにより、類似するキーワード間での認識率が最も高い区間が差異区間として定められている。また、その差異区間における音声信号から2次HMMが生成されている。本実施の形態において、差異区間内の音声信号を「部分音声信号」という。
The secondary HMM
類似語データベース203は、音響的に互いに類似するキーワードについての情報(以下「類似語情報」という)を記憶する。類似語情報は、誤認識の可能性のあるキーワードについての情報とも言い換えられる。類似語情報は、少なくとも、誤認識の可能性のあるキーワードごとに、類似するキーワードについての識別情報としてたとえば1次HMMの識別番号を含む。また、類似語データベース203は、誤認識の可能性のあるキーワードごとに、2次認識の際に用いるべき差異区間についての区間情報および2次HMMの識別情報を記憶している。類似語データベース203のデータ構造例については後述する。
The
判断部106は、類似語データベース203の類似語情報を参照することで、推定単語に類似するキーワード(以下「類似語」という)が存在するか否かを判断する。つまり、1次認識結果としての推定単語が、誤認識の可能性があるか否かを判断する。
The
抽出部108は、判断部106により類似語が存在すると判断された場合に、類似語データベース203の区間情報を参照することで、音声信号全体から、差異区間における部分音声信号を抽出する。具体的には、ビタビアルゴリズムで音声信号を複数の区間に分割し、分割された複数の区間と区間情報とに基づいて、部分音声信号を抽出する。
When the
2次認識処理部110は、抽出部108により抽出された部分音声信号の特徴量を用いて認識処理を実行する。2次認識処理部110は、その機能として、分析部112および判定部114を含む。分析部112は、部分音声信号を、第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレーム単位で部分音声信号を分析することで特徴量を算出する。判定部114は、算出された部分音声信号の特徴量と、推定単語および類似語それぞれについての2次HMMとに基づいて、推定単語および類似語のうち尤度の高い方のキーワードを認識結果として判定する。具体的には、各2次HMMが、算出された特徴量の系列を生成する尤度を算出し、尤度が高い方の2次HMMの元となるキーワードを認識結果(2次認識結果)として判定する。
The secondary
ここで、1次認識に用いられる第1の時間長は、一般的な音声認識方法と同様に、たとえば、20〜30msの範囲で予め定められる。2次認識に用いられる第2の時間長は、たとえば、第1の時間長の半分程度であってよく、10〜15msの範囲で予め定められる。一般的に、第1の時間長は、母音の周期が数個含まれ得るように定められている。これに対し、互いに類似するキーワードは、母音以外の子音部分および調音結合部分の特徴量が異なることが多く、それらの部分の時間長は母音の時間長よりも短いため、第2の時間長を第1の時間長よりも短くすることで、互いに類似するキーワード間の認識率を改善することができる。なお、1次認識および2次認識のいずれの場合においても、フレームの位置は、隣り合うフレーム同士が重なるようにずらして切出される。このフレームをずらす時間長についても、1次認識時よりも2次認識時の方を短くすることが望ましい。 Here, the 1st time length used for primary recognition is predetermined in the range of 20-30 ms similarly to the general speech recognition method, for example. The second time length used for the secondary recognition may be, for example, about half of the first time length and is predetermined in the range of 10 to 15 ms. In general, the first time length is determined so that several vowel periods can be included. On the other hand, keywords similar to each other often have different features in the consonant part other than the vowel and the articulation combination part, and the time length of these parts is shorter than the time length of the vowel. By making it shorter than the first time length, the recognition rate between similar keywords can be improved. Note that, in both cases of primary recognition and secondary recognition, the positions of the frames are cut out by shifting so that adjacent frames overlap each other. As for the time length for shifting the frame, it is desirable to shorten the time for secondary recognition than for primary recognition.
出力部116は、1次認識結果および2次認識結果のうちいずれかを出力する。推定単語と類似するキーワードが存在しない場合には、1次認識結果すなわち推定単語が出力される。これに対し、推定単語と類似するキーワードが存在した場合には、2次認識結果、すなわち推定単語または類似語が出力される。
The
なお、図2に示した出力部116以外の機能ブロックは、図1に示したCPU11が、たとえばROM12に格納されたソフトウェアを実行することで実現されてもよいし、これらのうち少なくとも1つは、ハードウェアにより実現されてもよい。
The functional blocks other than the
ここで、類似語データベース203のデータ構造例について説明する。
Here, a data structure example of the
(データ構造例)
図3は、本発明の実施の形態における類似語データベース203のデータ構造例を示す図である。図3を参照して、類似語データベース203は、複数の行および複数のカラム31〜45により構成されている。本実施の形態では、複数の行それぞれは全てのキーワードに対応しているものとする。
(Data structure example)
FIG. 3 is a diagram showing an example of the data structure of the
カラム31,32には、各キーワード自体の情報として、キーワード(読み仮名)および1次HMM番号が記録されている。カラム33〜36,41には、類似語情報として、類似語の個数(カラム33)、類似語A,Bの読み仮名(カラム34,35)、および、類似語A,Bそれぞれの1次HMM番号(カラム36,41)が記憶されている。たとえば、キーワードが「きゅう」の場合、類似語は「じゅう」(類似語A)と「ちゅう」(類似語B)の2つであることが記憶されている。なお、これらのうち、キーワードの読み仮名に関するカラム31,34,35は、理解を容易にするために設けたものであり、これらは省いてもよい。
In
また、類似語データベース203において、比較する類似語ごとに、区間情報として、始端状態番号(カラム37,42)および終端状態番号(カラム38,43)が記憶され、2次HMMの識別情報として、2つの2次HMM番号(カラム39,40、および、カラム44,45)が記憶されている。カラム37〜40内のデータ360は、推定単語と類似語Aとを判定する場合に用いられる。カラム42〜45内のデータ410は、推定単語と類似語Bとを判定する場合に用いられる。
Further, in the
なお、本実施の形態では、類似語データベース203に、類似語情報だけでなく、区間情報および2次HMMの識別情報も含めたが、これらを別のデータベースに記憶させてもよい。また、全てのキーワードについての類似語情報を類似語データベース203に含め、カラム33(類似語の個数)によって類似語の有無についても記憶させることとしたが、誤認識の可能性のあるキーワードのみの類似語情報を記憶させてもよい。
In the present embodiment, the
<動作について>
(音声認識処理)
図4は、本発明の実施の形態における音声認識処理を示すフローチャートである。図4のフローチャートに示す処理手順は、予めプログラムとしてROM12に格納されており、CPU11が当該プログラムを読み出して実行することにより音声認識処理の機能が実現される。
<About operation>
(Voice recognition processing)
FIG. 4 is a flowchart showing voice recognition processing in the embodiment of the present invention. The processing procedure shown in the flowchart of FIG. 4 is stored in advance in the
図4を参照して、入力部19より、音声信号が入力されると(ステップS(以下「S」と略す)2)、入力された音声信号がたとえばRAM13に時系列に記憶される。S2で入力される音声信号には、人の声が含まれているものとする。1次認識処理部100の分析部102は、記憶された音声信号からフレームを切出す(S4)。つまり、音声信号が、たとえば25msのフレーム単位で切出される。フレームは、隣り合うフレーム同士が重なるように、たとえば10msずつずらして切出される。
Referring to FIG. 4, when an audio signal is input from input unit 19 (step S (hereinafter abbreviated as “S”) 2), the input audio signal is stored in
フレームが切出されると、分析部102は、フレームごとに音声信号の特徴量を算出する(S6)。
When the frame is cut out, the
次に、推定部104は、S6で算出された特徴量より、1次HMMデータ201に基づいて、音声信号が表わす単語(キーワード)を推定する(S8)。具体的には、まず、各1次HMMが、算出された特徴量の系列を生成する尤度を求める。その後、各1次HMMの尤度値を比較し、尤度が最大となる1次HMMに対応したキーワードを1次認識結果とする。
Next, the
1次認識処理が終わると、判断部106は、類似語データベース203を参照して、認識結果としての推定単語には類似語が存在するか否かを判断する(S10)。具体的には、判断部106は、類似語データベース203において、S8で尤度が最大となったキーワードの1次HMM番号(カラム32)の行を参照し、「類似語の個数」のカラム33に「1」または「2」が記録されているか否かを判断する。類似語が存在すると判断された場合(S10にてYES)、S12に進む。これに対し、類似語が存在しないと判断された場合には(S10にてNO)、出力部116によって、S8で推定されたキーワードが正式な認識結果として出力される(S20)。
When the primary recognition processing is completed, the
S12において、抽出部108は、類似語データベース203から区間情報を読出し、RAM13に記憶されている音声信号から、差異区間の音声信号すなわち部分音声信号を抽出する。抽出部108は、類似語が1つの場合、そのキーワードは類似語データベース203における「類似語A」であるため、始端状態番号A(カラム37)および終端状態番号A(カラム38)を読出す。類似語が2つの場合、1次認識処理において尤度が高かった方の類似語の始端状態番号および終端状態番号を読出す。
In S <b> 12, the
抽出部108は、音声信号全体を、推定単語の1次HMMでビタビアライメントする。そして、読出した始端状態番号および終端状態番号で区切られる差異区間の部分音声信号を抽出する。なお、本実施の形態では、音声信号を推定単語の1次HMMでビタビアライメントすることとしたが、学習の際に、類似語の1次HMMでビタビアライメントして2次HMMを生成しておけば、類似語の1次HMMでビタビアライメントしてもよい。
The
部分音声信号が抽出されると、分析部112は、部分音声信号からたとえば10msのフレームを切出す(S14)。この場合も、フレームは、隣り合うフレーム同士が重なるように、たとえば5msずつずらして切出される。
When the partial audio signal is extracted, the
フレームが切出されると、分析部112は、フレームごとに音声信号の特徴量を算出する(S16)。判定部114は、この特徴量より、推定単語および類似語それぞれの2次HMMデータ202に基づいて、認識結果を決定する(S18)。つまり、入力された音声信号が表わすキーワードが、推定単語および類似語のいずれであるかを判定する。具体的には、判定部114は、2つの2次HMMが、S16で算出した特徴量の系列を生成する尤度を求める。そして、尤度が大きい方の2次HMMの元となるキーワードを、正式な認識結果として決定する。正式な認識結果は、出力部116によって出力される(S20)。これにより、音声認識処理は終了される。
When the frame is cut out, the
上記した音声認識処理について、具体例を挙げてより詳細に説明する。 The above speech recognition processing will be described in more detail with a specific example.
(具体例)
たとえば、1次認識処理(S4〜S8)により得られた推定単語が「きゅう」であったと仮定する。また、「きゅう」の1次HMMは、11個の状態を有していると仮定する。
(Concrete example)
For example, it is assumed that the estimated word obtained by the primary recognition process (S4 to S8) is “kyu”. Further, it is assumed that the primary HMM of “Kyu” has 11 states.
判断部106は、「きゅう」の1次HMM番号は「9」であるので、図3に示した類似語データベース203のカラム32に「9」が記録された行にアクセスする。その行のカラム33を参照すると、類似語が2個あるため(S10にてYES)、2次認識処理を実行することになる。ここで、類似語が「じゅう」と「ちゅう」の2個あるが、本実施の形態では、1次認識処理での尤度が高い方の類似語と推定単語とについて、2次認識処理を実行する。当該具体例においては、「ちゅう」よりも「じゅう」の方が尤度が高かったと仮定する。
Since the primary HMM number of “kyu” is “9”, the
抽出部108は、「じゅう」のHMM番号と一致するカラムを検索すると、「類似語の1次HMM番号A」のカラム36がそのカラムであると分かる。そのため、始端状態番号A(カラム37)および終端状態番号A(カラム38)として、それぞれ「2」および「6」が読み出される。抽出部108は、音声信号を、推定単語である「きゅう」の1次HMMでビタビアライメントし、状態1〜11のうち、状態2〜6で区切られる差異区間の音声信号を抽出する(S12)。
When the
ここで、図5および図6を参照して、差異区間について具体的に説明する。図5の上段には、「きゅう」の音声信号V1について、「きゅう」の1次HMMでビタビアライメントした例が示されている。図5の下段には、「きゅう」の音声信号全体から、差異区間の部分音声信号V2が抽出された例が示されている。図6の上段には、「じゅう」の音声信号VA1について、「きゅう」の1次HMMでビタビアライメントした例が示されている。図6の下段には、「じゅう」の音声信号全体から、差異区間の部分音声信号VA2が抽出された例が示されている。 Here, with reference to FIG. 5 and FIG. 6, a difference area is demonstrated concretely. In the upper part of FIG. 5, an example in which the “Kyu” audio signal V <b> 1 is Viterbi-aligned with the “Kyu” primary HMM is shown. The lower part of FIG. 5 shows an example in which the partial audio signal V2 in the difference section is extracted from the entire audio signal of “kyu”. In the upper part of FIG. 6, an example of Viterbi alignment of the voice signal VA <b> 1 of “10” with the primary HMM of “Kyu” is shown. The lower part of FIG. 6 shows an example in which the partial audio signal VA2 in the difference section is extracted from the entire “10” audio signal.
図5および図6のいずれの音声信号V1,VA1も、「きゅう」の1次HMMにより11個の状態に区切られている。「きゅう」と「じゅう」とを判定する際には、状態番号2〜6の差異区間50,60内の部分音声信号V2,VA2のみが、2次認識に用いられる。
Each of the audio signals V1 and VA1 shown in FIGS. 5 and 6 is divided into 11 states by the “Kyu” primary HMM. When determining “10” and “10”, only the partial audio signals V2 and VA2 in the
差異区間の部分音声信号が抽出されると、分析部112は、部分音声信号の分析を行って、差異区間における特徴量を求める(S14,S16)。判定部114は、2次HMM番号A−1,A−2を記録しているカラム39,40を参照し、対応する2つの2次HMM(9109,9110)のパラメータを取得する。2次HMM番号が「9109」のパラメータは、学習の際に、「きゅう」の教師音声の差異区間(状態番号2〜6)における部分音声信号に対して作成されたHMMである。2次HMM番号が「9110」のパラメータは、学習の際に、「じゅう」の教師音声の差異区間(状態番号2〜6)における部分音声信号に対して作成されたHMMである。なお、学習時においても、第2の時間長のフレームごとに算出された特徴量が用いられている。
When the partial speech signal in the difference section is extracted, the
判定部114は、2つの2次HMMについて、差異区間における特徴量の系列を生成する尤度を算出する。尤度が算出されると、尤度が高い方の2次HMMの元となるキーワードの番号を、2次HMMを用いた認識結果として出力し、これを最終結果とする。たとえば2次HMM番号「9110」の2次HMMの方が尤度が高い場合、認識結果を「じゅう」と決定する(S18)。
The
なお、「きゅう」と「ちゅう」とで判定する場合は、類似語データベース203において、「きゅう」の行のカラム42,43を見ると「3」および「6」が格納されている。これは、「きゅう」と「ちゅう」とを判定するには、差異区間は、状態番号3〜6で区切られる区間であることを示している。
In the case where the determination is based on “kyu” and “chu”, “3” and “6” are stored in the
このように、本実施の形態によれば、1次HMMを用いた1次認識処理において誤認識の可能性があっても、音響的に類似するキーワード同士で再認識される。したがって、キーワード間の誤認識を低減させることができる。その結果、全体の認識率を向上させることができる。 As described above, according to the present embodiment, even if there is a possibility of erroneous recognition in the primary recognition processing using the primary HMM, keywords that are acoustically similar are re-recognized. Therefore, misrecognition between keywords can be reduced. As a result, the overall recognition rate can be improved.
なお、本実施の形態では、1次認識での推定単語の尤度に関わらず、推定単語に類似するキーワードが存在すれば2次認識を行うこととしたが、たとえば、1次認識での推定単語の尤度が所定値以下の場合にのみ、類似するキーワードが存在するかの判断(S10)以降の処理を行ってもよい。あるいは、2次認識を行った後に、1次認識での推定単語の尤度を考慮してもよい。 In this embodiment, the secondary recognition is performed if there is a keyword similar to the estimated word regardless of the likelihood of the estimated word in the primary recognition. For example, the estimation in the primary recognition is performed. Only when the likelihood of a word is less than or equal to a predetermined value, the processing subsequent to the determination of whether a similar keyword exists (S10) may be performed. Or after performing secondary recognition, you may consider the likelihood of the presumed word in primary recognition.
<変形例>
上記実施の形態では、2つの類似語が存在した場合、1次認識で尤度が高い方の類似語について2次認識を行ったが、尤度が低い方の類似語も含めて2次認識を行ってもよい。
<Modification>
In the above embodiment, when there are two similar words, the secondary recognition is performed for the similar word having the higher likelihood in the primary recognition, but the secondary recognition is also performed including the similar word having the lower likelihood. May be performed.
たとえば、1次認識結果が「きゅう」であった場合、「きゅう」のHMMに基づき差異区間の部分音声信号を切出した後、部分音声信号の特徴量より、「きゅう」、「じゅう」および「ちゅう」それぞれの2次HMMの尤度を比較し、最も尤度が高い2次HMMの元となる単語を認識結果として判定してもよい。この場合、類似語データベース203には、2次認識において用いるべき3つの2次HMM番号が記録されていることとする。
For example, when the primary recognition result is “kyu”, after extracting the partial speech signal of the difference section based on the HMM of “kyu”, from the feature amount of the partial speech signal, “kyu”, “ju” and “ The likelihood of each secondary HMM may be compared, and the word that is the source of the secondary HMM with the highest likelihood may be determined as a recognition result. In this case, it is assumed that three secondary HMM numbers to be used in secondary recognition are recorded in the
あるいは、1次認識結果が「きゅう」であった場合、先に、類似語同士の「じゅう」と「ちゅう」とのうちどちらが尤度が高いかを判定し、その後、尤度の高い方の類似語と「きゅう」とのうちどちらが尤度が高いかを判定するようにしてもよい。この場合、図3に示した類似語データベース203をそのまま利用することができる。
Alternatively, when the primary recognition result is “kyu”, first, it is determined which one of “ju” and “chu” between similar words has the highest likelihood, and then the one with the higher likelihood It may be determined which of the similar words and “kyu” has the highest likelihood. In this case, the
具体的には、まず、判断部106は、図3に示した類似語データベース203のカラム32に「じゅう」のHMM番号である「10」が記録された行にアクセスする。抽出部108は、「ちゅう」のHMM番号と一致するカラムを検索すると、「類似語の1次HMM番号B」のカラム41がそのカラムであると分かる。そのため、始端状態番号B(カラム42)および終端状態番号B(カラム43)として、それぞれ「3」および「5」が読み出される。抽出部108は、音声信号を、「じゅう」の1次HMMでビタビアライメントし、状態3〜5で区切られる差異区間の音声信号を抽出する(S12)。
Specifically, first, the
差異区間の部分音声信号が抽出されると、分析部112は、部分音声信号の分析を行って、差異区間における特徴量を求める(S14,S16)。判定部114は、2次HMM番号B−1,B−2を記録しているカラム44,45を参照し、対応する2つの2次HMM(10210,10212)のパラメータを取得する。2次HMM番号が「10210」のパラメータは、学習の際に、「じゅう」の教師音声の差異区間(状態番号3〜5)における部分音声信号に対して作成されたHMMである。2次HMM番号が「10212」のパラメータは、学習の際に、「ちゅう」の教師音声の差異区間(状態番号3〜5)における部分音声信号に対して作成されたHMMである。
When the partial speech signal in the difference section is extracted, the
判定部114は、2つの2次HMMについて、差異区間における特徴量の系列を生成する尤度を算出する。尤度が算出されると、尤度が高い方の2次HMMの元となる類似語(「じゅう」または「ちゅう」)と推定単語である「きゅう」とについて、再度、S12以降の処理が行われる。尤度が高い方の類似語と推定単語との2次認識処理は、上記と同様であるため、詳細な説明は繰り返さない。
The
なお、本実施の形態では、推定単語に類似するキーワードは2つ以下であるとして説明したが、3つ以上ある場合でも適用可能である。 In the present embodiment, it has been described that the number of keywords similar to the estimated word is two or less.
本実施の形態に係る音声認識装置1により実行される音声認識方法を、プログラムとして提供することもできる。このようなプログラムは、CD−ROM(Compact Disc-ROM)などの光学媒体や、メモリカードなどのコンピュータ読取り可能な一時的でない(non-transitory)記録媒体にて記録させて提供することができる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。
The speech recognition method executed by the
なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム(OS)の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずOSと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。 The program according to the present invention is a program module that is provided as a part of a computer operating system (OS) and calls necessary modules in a predetermined arrangement at a predetermined timing to execute processing. Also good. In that case, the program itself does not include the module, and the process is executed in cooperation with the OS. A program that does not include such a module can also be included in the program according to the present invention.
また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。 The program according to the present invention may be provided by being incorporated in a part of another program. Even in this case, the program itself does not include the module included in the other program, and the process is executed in cooperation with the other program. Such a program incorporated in another program can also be included in the program according to the present invention.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
1 音声認識装置、11 CPU、12 ROM、13 RAM、14 ハードディスク、15 操作部、16 表示部、17 ドライブ装置、18 通信I/F、19 入力部、20 マイクロフォン、50,60 差異区間、100 1次認識処理部、102 分析部、104 推定部、106 判断部、108 抽出部、110 2次認識処理部、112 分析部、114 判定部、116 出力部、201 1次HMMデータ、202 2次HMMデータ、203 類似語データベース。
DESCRIPTION OF
Claims (9)
音響的に互いに類似するキーワードについての類似語情報を予め格納するための記憶部と、
前記類似語情報を参照することで、前記第1の認識処理手段により推定された前記第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するための判断手段と、
前記判断手段により前記第2の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するための抽出手段と、
前記抽出手段により抽出された前記部分音声信号の特徴量を用いて認識処理を実行するための第2の認識処理手段とを備え、
前記第2の認識処理手段は、前記部分音声信号の特徴量と、前記第1の単語および前記第2の単語それぞれについての前記特定の区間に対応する第2のモデルパラメータとに基づいて、前記第1の単語および前記第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行する判定手段を含む、音声認識装置。 First recognition processing means for estimating a first word from the plurality of keywords by executing recognition processing based on the feature amount of the audio signal and the first model parameter for each of the plurality of keywords. When,
A storage unit for preliminarily storing similar word information about keywords that are acoustically similar to each other;
Judgment means for judging whether or not there is a second word that is similar to the first word estimated by the first recognition processing means by referring to the similar word information; ,
An extracting means for extracting a partial speech signal in a predetermined specific section from the speech signal when the judging means judges that the second word is present;
Second recognition processing means for executing recognition processing using the feature amount of the partial speech signal extracted by the extraction means;
The second recognition processing means, based on the feature amount of the partial speech signal and the second model parameter corresponding to the specific section for each of the first word and the second word, A speech recognition apparatus including a determination unit that executes a determination process using a keyword having a higher likelihood of the first word and the second word as a recognition result.
前記記憶手段は、前記特定のキーワードごとに、前記特定の区間を定めた区間情報をさらに記憶し、
前記抽出手段は、所定のアルゴリズムで前記音声信号を複数の区間に分割し、分割された前記複数の区間と前記区間情報とに基づいて、前記部分音声信号を抽出する、請求項1に記載の音声認識装置。 The similar word information includes identification information about the similar keyword for each specific keyword that may be erroneously recognized as an acoustically similar keyword,
The storage means further stores section information defining the specific section for each specific keyword,
The said extraction means divides | segments the said audio | voice signal into a some area with a predetermined | prescribed algorithm, The said partial audio | voice signal is extracted based on these divided | segmented some area and the said area information. Voice recognition device.
前記第2の認識処理手段は、前記部分音声信号を前記第1の時間よりも短い第2の時間長のフレーム単位で切出し、フレームごとに分析を行うことで前記部分音声信号の特徴量を算出する第2の分析手段をさらに含む、請求項1または2に記載の音声認識装置。 The first recognition processing means includes first analysis means for cutting out the voice signal in units of a frame having a first time length and calculating a feature value of the voice signal by performing analysis for each frame,
The second recognition processing means calculates the feature amount of the partial speech signal by cutting out the partial speech signal in units of frames having a second time length shorter than the first time and performing analysis for each frame. The speech recognition apparatus according to claim 1, further comprising: a second analysis unit that performs the analysis.
前記出力手段は、前記判断手段により前記第2の単語が存在しないと判断された場合には、前記第1の認識処理手段により推定された前記第1の単語を前記認識結果として出力する、請求項1〜3のいずれかに記載の音声認識装置。 An output unit for outputting the keyword determined as the recognition result by the determination unit;
The output means outputs the first word estimated by the first recognition processing means as the recognition result when the determination means determines that the second word does not exist. Item 4. The speech recognition device according to any one of Items 1 to 3.
予め記憶された、音響的に互いに類似するキーワードについての前記類似語情報を参照することで、推定された前記第1の単語と類似するキーワードである第2の単語が存在するか否かを判断するステップと、
前記第2の単語が存在すると判断された場合に、前記音声信号から予め定められた特定の区間における部分音声信号を抽出するステップと、
抽出された前記部分音声信号の特徴量と、前記第1の単語および前記第2の単語それぞれについての前記特定の区間に対応する第2のモデルパラメータとに基づいて、前記第1の単語および前記第2の単語のうち尤度の高い方のキーワードを認識結果とする判定処理を実行するステップとをコンピュータに実行させる、音声認識プログラム。 Estimating a first word from the plurality of keywords by performing a recognition process based on a feature amount of the audio signal and a first model parameter for each of the plurality of keywords;
It is determined whether or not there is a second word that is a keyword similar to the estimated first word by referring to the similar word information about the keywords that are acoustically similar to each other stored in advance. And steps to
Extracting a partial speech signal in a predetermined specific section from the speech signal when it is determined that the second word is present;
Based on the extracted feature amount of the partial speech signal and the second model parameter corresponding to the specific section for each of the first word and the second word, the first word and the The speech recognition program which makes a computer perform the step which performs the determination process which uses as a recognition result the keyword with a higher likelihood among 2nd words.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084104A JP6276513B2 (en) | 2013-04-12 | 2013-04-12 | Speech recognition apparatus and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013084104A JP6276513B2 (en) | 2013-04-12 | 2013-04-12 | Speech recognition apparatus and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014206642A true JP2014206642A (en) | 2014-10-30 |
JP6276513B2 JP6276513B2 (en) | 2018-02-07 |
Family
ID=52120222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013084104A Active JP6276513B2 (en) | 2013-04-12 | 2013-04-12 | Speech recognition apparatus and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6276513B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019039965A (en) * | 2017-08-22 | 2019-03-14 | アルパイン株式会社 | Speech recognition system |
JP2019124937A (en) * | 2018-01-15 | 2019-07-25 | ネイバー コーポレーションNAVER Corporation | Apparatus and method for recognizing ringing tone |
US10418027B2 (en) | 2016-10-12 | 2019-09-17 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
CN112420020A (en) * | 2019-08-23 | 2021-02-26 | 株式会社东芝 | Information processing apparatus and information processing method |
US11545144B2 (en) | 2018-07-27 | 2023-01-03 | Samsung Electronics Co., Ltd. | System and method supporting context-specific language model |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60121499A (en) * | 1983-12-05 | 1985-06-28 | 富士通株式会社 | Voice collation system |
JPS63306500A (en) * | 1987-06-08 | 1988-12-14 | 株式会社リコー | Voice recognition post-processing system |
JPH05303391A (en) * | 1992-04-24 | 1993-11-16 | Seiko Epson Corp | Speech recognition device |
JPH06266393A (en) * | 1993-03-12 | 1994-09-22 | Matsushita Electric Ind Co Ltd | Speech recognition device |
JP2001083978A (en) * | 1999-07-15 | 2001-03-30 | Matsushita Electric Ind Co Ltd | Speech recognition device |
-
2013
- 2013-04-12 JP JP2013084104A patent/JP6276513B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60121499A (en) * | 1983-12-05 | 1985-06-28 | 富士通株式会社 | Voice collation system |
JPS63306500A (en) * | 1987-06-08 | 1988-12-14 | 株式会社リコー | Voice recognition post-processing system |
JPH05303391A (en) * | 1992-04-24 | 1993-11-16 | Seiko Epson Corp | Speech recognition device |
JPH06266393A (en) * | 1993-03-12 | 1994-09-22 | Matsushita Electric Ind Co Ltd | Speech recognition device |
JP2001083978A (en) * | 1999-07-15 | 2001-03-30 | Matsushita Electric Ind Co Ltd | Speech recognition device |
Non-Patent Citations (1)
Title |
---|
桑野裕康 他: "カード型不特定話者音声認識装置", 日本音響学会平成7年度春季研究発表会講演論文−I−, JPN6017020205, 14 March 1995 (1995-03-14), pages 161 - 162 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10418027B2 (en) | 2016-10-12 | 2019-09-17 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
JP2019039965A (en) * | 2017-08-22 | 2019-03-14 | アルパイン株式会社 | Speech recognition system |
JP2019124937A (en) * | 2018-01-15 | 2019-07-25 | ネイバー コーポレーションNAVER Corporation | Apparatus and method for recognizing ringing tone |
US11545144B2 (en) | 2018-07-27 | 2023-01-03 | Samsung Electronics Co., Ltd. | System and method supporting context-specific language model |
CN112420020A (en) * | 2019-08-23 | 2021-02-26 | 株式会社东芝 | Information processing apparatus and information processing method |
CN112420020B (en) * | 2019-08-23 | 2024-05-03 | 株式会社东芝 | Information processing apparatus and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP6276513B2 (en) | 2018-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105723449B (en) | speech content analysis system and speech content analysis method | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
CN108630200B (en) | Voice keyword detection device and voice keyword detection method | |
JP6276513B2 (en) | Speech recognition apparatus and speech recognition program | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
US20110218802A1 (en) | Continuous Speech Recognition | |
EP2891147B1 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
JP6481939B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
US10553205B2 (en) | Speech recognition device, speech recognition method, and computer program product | |
KR20130126570A (en) | Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof | |
KR102442020B1 (en) | Method and apparatus for automatic proficiency evaluation of speech | |
WO2012150658A1 (en) | Voice recognition device and voice recognition method | |
KR102300303B1 (en) | Voice recognition considering utterance variation | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
JP7159655B2 (en) | Emotion estimation system and program | |
JP7035476B2 (en) | Speech processing program, speech processor, and speech processing method | |
JP6497651B2 (en) | Speech recognition apparatus and speech recognition program | |
US20210327435A1 (en) | Voice processing device, voice processing method, and program recording medium | |
JP5369079B2 (en) | Acoustic model creation method and apparatus and program thereof | |
KR100981540B1 (en) | Speech recognition method of processing silence model in a continous speech recognition system | |
KR20180057315A (en) | System and method for classifying spontaneous speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6276513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |