JPH06149286A - Unspecified speaker speech recognizing device - Google Patents

Unspecified speaker speech recognizing device

Info

Publication number
JPH06149286A
JPH06149286A JP32377292A JP32377292A JPH06149286A JP H06149286 A JPH06149286 A JP H06149286A JP 32377292 A JP32377292 A JP 32377292A JP 32377292 A JP32377292 A JP 32377292A JP H06149286 A JPH06149286 A JP H06149286A
Authority
JP
Japan
Prior art keywords
data
evaluation
voice
identification system
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP32377292A
Other languages
Japanese (ja)
Inventor
Hirofumi Yajima
弘文 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Faurecia Clarion Electronics Co Ltd
Original Assignee
Clarion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clarion Co Ltd filed Critical Clarion Co Ltd
Priority to JP32377292A priority Critical patent/JPH06149286A/en
Publication of JPH06149286A publication Critical patent/JPH06149286A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To provide the unspecified speaker speech recognizing device which has high robust performance to variation on the time base and frequency base of a specific word and also has a high recognition rate. CONSTITUTION:This speech recognizing device is equipped with speech analyzing means (11-14) which analyzes inputted speech signals and generate monitor waveform data, and a data recognizing means 15 having a means which generates one identification system identified with data for identification corresponding to the specific word that one unspecified person voices and plural evaluation systems identified with data for evaluation corresponding to specific words that other speakers voice, and a means which finds the minimum sum of squares of the differences between similarity estimated values obtained by inputting respective evaluation data to corresponding evaluation systems for the specific words and similarity estimated values obtained by inputting the respective evaluation data to the identification system.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、不特定話者から発せら
れる特定単語の音声を認識する不特定話者音声認識装置
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an unspecified speaker voice recognition device for recognizing the sound of a specific word emitted by an unspecified speaker.

【0002】[0002]

【従来の技術】従来の不特定話者音声認識装置において
は、不特定話者から発せられる特定単語の音声を認識す
るために、話者間によって異なる時間軸上および周波数
軸上の変動を吸収するために、様々な方法が提案されて
きた。
2. Description of the Related Art In a conventional speaker-independent voice recognition device, in order to recognize a voice of a specific word uttered by a speaker, variations on a time axis and a frequency axis which are different among speakers are absorbed. To do this, various methods have been proposed.

【0003】例えば、複合類似度法、時間軸上および周
波数軸上でのDPマッチング法、ファジィ理論を用いた
音声認識法等である。
For example, there are a composite similarity method, a DP matching method on the time axis and the frequency axis, a voice recognition method using a fuzzy theory, and the like.

【0004】図4に従来のDPマッチング法を用いたシ
ステム構成例のブロック図を示す。図4において、1は
音声を受けて音声信号に変換するマイク、2は音声信号
を増幅するマイクアンプ、3は音声信号を周波数分割し
て複数の音声信号とするバンドパスフィルタ群(以下
「フィルタバンク」という)、4はアナログ音声信号を
ディジタル信号に変換するA/Dコンバータ、5は予め
登録されている基準の登録音声データと認識すべき音声
データとを比較して音声認識を行う音声認識部、6は基
準の音声データを格納するデータ登録部である。
FIG. 4 shows a block diagram of a system configuration example using the conventional DP matching method. In FIG. 4, 1 is a microphone for receiving a voice and converting it into a voice signal, 2 is a microphone amplifier for amplifying the voice signal, 3 is a band-pass filter group (hereinafter referred to as “filter”) for frequency-dividing the voice signal into a plurality of voice signals. "Bank"), 4 is an A / D converter for converting an analog voice signal into a digital signal, and 5 is voice recognition for performing voice recognition by comparing pre-registered reference registered voice data with voice data to be recognized. Reference numeral 6 is a data registration unit for storing reference voice data.

【0005】次に、上記従来例の動作について説明す
る。音声認識に先だって、マイク1から基準となる特定
単語に対して、不特定多数の話者(例えば20人)の音
声が入力されると、20個の基準音声データがデータ登
録部6に格納される。その後、任意の話者から認識すべ
き音声がマイク1に入力されると、その認識音声データ
が、登録されている20個の基準音声データと順次パタ
ーンマッチングされて、音声認識部5から類似度出力が
送出される。
Next, the operation of the above conventional example will be described. Prior to voice recognition, when voices of an unspecified number of speakers (for example, 20 people) are input from the microphone 1 to a reference specific word, 20 reference voice data are stored in the data registration unit 6. It After that, when a voice to be recognized by an arbitrary speaker is input to the microphone 1, the recognized voice data is sequentially pattern-matched with the 20 reference voice data registered, and the voice recognition unit 5 calculates the similarity. Output is sent.

【0006】[0006]

【発明が解決しようとする課題】しかしながら上記従来
の不特定話者音声認識装置においては、理想出力を基に
していないので、特定単語に対する高認識率を期待でき
ないという問題があった。 本発明は上記従来の問題を
解決するものであり、特定単語における時間軸上および
周波数軸上の変動に対するロバスト性が高く、高認識率
が得られる優れた不特定話者音声認識装置を提供するこ
とを目的とする。
However, the above-described conventional unspecified speaker voice recognition device has a problem that a high recognition rate for a specific word cannot be expected because it is not based on an ideal output. The present invention solves the above-mentioned conventional problems, and provides an excellent speaker-independent voice recognition device that is highly robust against fluctuations in a specific word on the time axis and the frequency axis and that can obtain a high recognition rate. The purpose is to

【0007】[0007]

【課題を解決するための手段】本発明は上記目的を達成
するために、不特定話者から発声される1つ又は複数の
特定単語に応じた音声信号を解析してモニタ波形データ
を生成する音声解析手段と、前記不特定話者の一人から
のモニタ波形データを同定用データとし該同定用データ
で同定した1つの同定システムと、他の複数の話者から
のモニタ波形データを複数の評価用データとして該評価
用データで同定した複数の評価システムとを生成する手
段と、前記特定単語に対して前記各評価用データを対応
する評価システムに入力して得られる類似度推定値と、
前記各評価用データを前記同定システムに入力して得ら
れる類似度推定値とのそれぞれの差分の最小2乗和を求
める手段と、を有するデータ認識手段と、を備えた構成
となっている。
In order to achieve the above object, the present invention analyzes a voice signal corresponding to one or more specific words uttered by an unspecified speaker to generate monitor waveform data. Voice analysis means, one identification system in which monitor waveform data from one of the unspecified speakers is used as identification data and identified by the identification data, and monitor waveform data from a plurality of other speakers are evaluated a plurality of times. Means for generating a plurality of evaluation systems identified by the evaluation data as use data, and a similarity degree estimation value obtained by inputting each evaluation data for the specific word into a corresponding evaluation system,
And a data recognizing unit having a unit for obtaining a least square sum of respective differences from the similarity estimation value obtained by inputting each of the evaluation data to the identification system.

【0008】[0008]

【作用】従って、本発明によれば、特定単語に対する一
人の特定話者の同定用データと、他の複数の話者の評価
用データを規定し、同定用データおよび評価用データに
よる類似度推定値の差分の最小2乗和を求めて特定単語
の音声データを認識することにより、各特定単語におけ
る話者間の時間軸上および周波数軸上の変動を吸収し、
ロバスト性の高い高認識率の音声認識を行うことができ
る。
Therefore, according to the present invention, the identification data of one specific speaker for a specific word and the evaluation data of a plurality of other speakers are defined, and the similarity estimation based on the identification data and the evaluation data is performed. By recognizing the voice data of a specific word by obtaining the least square sum of the difference between the values, the fluctuations on the time axis and the frequency axis between speakers in each specific word are absorbed,
It is possible to perform speech recognition with high robustness and high recognition rate.

【0009】[0009]

【実施例】以下、本発明の実施例について図を参照して
詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0010】図1に本発明の実施例の不特定話者音声認
識装置の概略ブロック図を示す。図1において、11は
音声を受けて音声信号に変換するマイク、12は音声信
号を増幅するマイクアンプ、13は音声信号を周波数分
割して複数(n個とする)の音声信号とするフィルタバ
ンク、14は音声信号をディジタル信号の音声データに
変換するA/Dコンバータである。これらは話者からの
音声を解析する音声解析手段を構成する。また、15は
フィルタバンク13通過後の波形データ(以下「モニタ
波形データ」という)から、類似度を出力するファジィ
同定システムであり、データ認識手段を構成する。
FIG. 1 is a schematic block diagram of an unspecified speaker voice recognition apparatus according to an embodiment of the present invention. In FIG. 1, 11 is a microphone that receives voice and converts it into a voice signal, 12 is a microphone amplifier that amplifies the voice signal, and 13 is a filter bank that frequency-divides the voice signal into multiple (n) voice signals. , 14 are A / D converters for converting a voice signal into voice data of a digital signal. These constitute a voice analysis means for analyzing the voice from the speaker. Reference numeral 15 is a fuzzy identification system that outputs the degree of similarity from the waveform data that has passed through the filter bank 13 (hereinafter referred to as "monitor waveform data"), which constitutes data recognition means.

【0011】次に、ファジィ同定システムの作成につい
て説明する。図1は認識すべき予定の単語ごとにその類
似度を推定する類似度差同定システムである。最初はこ
のように、登録単語ごとに類似度出力を送出するシステ
ムを作成する。この場合、認識すべき予定の単語数は
「0〜9」までの数字10個であり、したがって類似度
差同定システムも10システムとなる。各類似度差同定
システムには、入力パラメータx1〜xnが供給され、
推定出力y′が出力される。
Next, the creation of the fuzzy identification system will be described. FIG. 1 shows a similarity difference identification system that estimates the similarity of each word to be recognized. Initially, a system for sending the similarity output for each registered word is created in this way. In this case, the number of words to be recognized is 10 numbers from “0 to 9”, and therefore the similarity difference identification system is also 10 systems. Input parameters x1 to xn are supplied to each similarity difference identification system,
The estimated output y'is output.

【0012】図3に各類似度差同定システムの前件部お
よび後件部の同定システムの構成を示す。この構成にお
ける同定システムは、if−then形式で記述される
もので、前件部が台形型のメンバーシップ関数のファジ
ィ変数であるファジィ命題からなり、後件部が通常の線
形式からなるものである。特定単語の数をm個(この場
合、m=10となる)とすると、ファジィ規則(以下
「ルール」と称する)Ri (i=1,2,3,…,m)
はm個のルールとなり、前件部のファジィ入力xj (j
=1,2,3,…,n)のメンバーシップ関数をAniと
すると、(数1)で示すファジィモデルとなる。
FIG. 3 shows the configuration of the antecedent and consequent identification systems of each similarity difference identification system. The identification system in this configuration is described in the if-then format, in which the antecedent part is a fuzzy proposition that is a fuzzy variable of a trapezoidal membership function, and the consequent part is an ordinary linear form. is there. If the number of specific words is m (in this case, m = 10), fuzzy rule (hereinafter referred to as “rule”) Ri (i = 1, 2, 3, ..., M)
Becomes m rules, and the fuzzy input xj (j
= 1, 2, 3, ..., N), the fuzzy model shown in (Equation 1) is obtained when the membership function is Ani.

【0013】[0013]

【数1】 ここで、ファジィ入力xj を確定入力(非ファジィ入
力)xj0(x10, x20,…, xn0)とすると、推論出力
y′はn個の適合度による重み付き平均で与えられ、
(数2)及び(数3)で表される。
[Equation 1] Here, if the fuzzy input xj is a deterministic input (non-fuzzy input) xj0 (x10, x20, ..., xn0), the inference output y'is given by the weighted average by n goodness of fit,
It is represented by (Equation 2) and (Equation 3).

【0014】[0014]

【数2】 [Equation 2]

【0015】[0015]

【数3】 (数2)におけるyi は、(数4)で示されるように、
(数1)の後件部の式に入力xj0を代入して求めたもの
である。
[Equation 3] Yi in (Equation 2) is, as shown in (Equation 4),
This is obtained by substituting the input xj0 into the expression of the consequent part of (Equation 1).

【0016】[0016]

【数4】 また、Aji(xj0)はファジィ変数Ajiのxj0における
メンバーシップ値であり、(数3)はこれらn個の積で
ある。ωiは入力x10, x20, …, xn0に対するルール
Riの適合度の積であるが、(数2)においては、yi
を求めるときの「重み付け」係数として働いている。
[Equation 4] Aji (xj0) is the membership value of the fuzzy variable Aji at xj0, and (Equation 3) is the product of these n pieces. ωi is the product of the goodness of fit of the rule Ri with respect to the inputs x10, x20, ..., Xn0.
It acts as a "weighting" factor when determining.

【0017】このように前件部がメンバーシップ関数で
与えられ、後件部が線形式で与えられるので、例えば図
3に示すように記述される。
Since the antecedent part is given by the membership function and the consequent part is given by the linear form in this way, it is described as shown in FIG. 3, for example.

【0018】(数2)において、(数5)に示すような
〔ωi〕を定義する。
In (Equation 2), [ωi] as shown in (Equation 5) is defined.

【0019】[0019]

【数5】 この〔ωi〕及び(数4)に示すyiを(数2)に代入
すると、(数6)が得られる。
[Equation 5] By substituting [ωi] and yi shown in (Equation 4) into (Equation 2), (Equation 6) is obtained.

【0020】[0020]

【数6】 さらに、z0i=〔ωi〕,z1i=〔ωi〕x10,z2i=
〔ωi〕x20,…,zni=〔ωi〕xn0とすると、出力
パラメータy′は、(数7)で表される。
[Equation 6] Furthermore, z0i = [ωi], z1i = [ωi] x10, z2i =
Assuming that [ωi] x20, ..., Zni = [ωi] xn0, the output parameter y'is represented by (Equation 7).

【0021】[0021]

【数7】 また、後件部が線形式で表されるので、前件部が決まれ
ば後件部は1つの線形式と見なせる。したがって、複数
個の変数の間の関係を解析するための重回帰分析法によ
り、未知の定数の推定値を求めるために最小2乗法を用
いる。すなわち推定値と実測値との残差を求めて、残差
の平方和を最小とすることにより最小2乗推定できる。
また、前件部は非線形計画法のシンプレックス法により
求めることができる。
[Equation 7] Further, since the consequent part is expressed in a linear format, if the antecedent part is determined, the consequent part can be regarded as one linear format. Therefore, the least squares method is used to obtain the estimated value of the unknown constant by the multiple regression analysis method for analyzing the relationship between a plurality of variables. That is, the least squares can be estimated by obtaining the residual between the estimated value and the measured value and minimizing the sum of squares of the residual.
The antecedent part can be obtained by the simplex method of nonlinear programming.

【0022】ファジィ同定システム15の入力パラメー
タの選択は次のようにして行う。ある1つの他の音声認
識を参照し、認識実験を繰り返して、各単語の特徴量
(例えば波形データの山の数)となると思われるモニタ
波形データ(x1〜xn)を選ぶものとする。この場
合、音声認識の参照は、例えば図1のフィルタバンク1
3から出力されたモニタ波形データを得て、類似度によ
り音声認識結果を出力するものとする。
The selection of the input parameters of the fuzzy identification system 15 is performed as follows. It is assumed that the monitor waveform data (x1 to xn) that is considered to be the feature amount of each word (for example, the number of peaks of the waveform data) is selected by referring to a certain other speech recognition and repeating the recognition experiment. In this case, the reference of the voice recognition is, for example, the filter bank 1 of FIG.
It is assumed that the monitor waveform data output from 3 is obtained and the voice recognition result is output according to the similarity.

【0023】(表1)は類似度同定システム作成用のデ
ータシートであり、資料noは数字のコード番号に相当
する。出力パラメータは(表1)に示すように、対象単
語に対する出力値は200と大きい値を与え、他の単語
に対する出力値は0(又は0に近い値、もしくは乱数を
使用して選択した値)とする。この場合、音声解析系は
本発明の装置と同じものを使用する。
Table 1 is a data sheet for making the similarity identification system, and the material no corresponds to a code number of a numeral. As the output parameter, as shown in (Table 1), the output value for the target word is as large as 200, and the output value for other words is 0 (or a value close to 0 or a value selected using a random number). And In this case, the same voice analysis system as the device of the present invention is used.

【0024】[0024]

【表1】 すなわちこのシステムは、より単語の選択性が高いシス
テムを構築する。結局、このファジィ同定システムは、
参照音声認識装置の、より性能アップされた理想音声認
識装置であるといえる。
[Table 1] That is, this system builds a system with higher word selectivity. After all, this fuzzy identification system
It can be said that the reference speech recognition apparatus is an ideal speech recognition apparatus with improved performance.

【0025】資料データとしては、複数の話者(例えば
20人)が発生した数字「0〜9」の10個の単語を用
いる。さらに、同定用データとしては、ある一人の話者
のデータとし、残りの19人分のデータは評価用データ
とする。通常、ファジィ同定では、非線形システムの入
出力関係を入力変数の多項式でモデル化するGMDH法
で使われている不遍性規範UCを用いる。しかし、本実
施例の場合においては、評価用データが19個あるた
め、(数8)に示すUCを使用する。
As the material data, 10 words of numbers "0-9" generated by a plurality of speakers (for example, 20 people) are used. Further, the identification data is data of one speaker, and the data of the remaining 19 speakers is evaluation data. Usually, in fuzzy identification, the nonuniformity criterion UC used in the GMDH method for modeling the input-output relationship of a nonlinear system with a polynomial of input variables is used. However, in the case of this embodiment, since there are 19 pieces of evaluation data, the UC shown in (Equation 8) is used.

【0026】[0026]

【数8】 この(数8)において、Aは同定用データで同定したシ
ステム、B〜Tは評価用データで同定したシステムを示
す。例えば、yiAJは、Aの固定用データの資料番号
の内の1つの番号iのデータを、同定システムJに入力
したときの類似度推定値を示す。
[Equation 8] In this (Equation 8), A indicates the system identified by the identification data, and BT indicates the system identified by the evaluation data. For example, yiAJ indicates the similarity estimation value when the data of one number i of the material numbers of the fixed data of A is input to the identification system J.

【0027】次に、複数のファジィ同定システム(ここ
では10個の固定システム)の合成を行う。この場合の
合成同定システムは、1つの前件部に対して後件部に複
数の類似度推定値をもつ合成同定システムとなる。この
前件部の合成は、各入力パラメータの共通集合をとるこ
とによりなされる。
Next, a plurality of fuzzy identification systems (here, 10 fixed systems) are synthesized. The synthetic identification system in this case is a synthetic identification system having a plurality of similarity degree estimated values in the consequent part with respect to one antecedent part. The composition of the antecedent part is performed by taking a common set of each input parameter.

【0028】すなわち、図1に示す不特定話者音声認識
装置におけるファジィ同定システム15は、1つの前件
部に対して、後件部にy′1ないしy′10の10個の
類似度推定値を出力する合成同定システムである。した
がって、図1における認識時の動作は、話者が特定単語
(ここでは数字「0〜9」)を発生することにより、音
声解析手段であるマイク11、マイクアンプ12、フィ
ルタバンク13およびA/Dコンバータ14を経て得ら
れるモニタ波形データが、データ認識手段であるファジ
ィ同定システム15に入力され、数字「0〜9」の10
個の単語に対する類似度推定値が出力される。
That is, the fuzzy identification system 15 in the unspecified speaker speech recognition apparatus shown in FIG. 1 estimates 10 similarity degrees of y'1 to y'10 in the consequent part with respect to one antecedent part. It is a synthetic identification system that outputs a value. Therefore, in the recognition operation in FIG. 1, when the speaker generates a specific word (here, the numbers “0 to 9”), the microphone 11, the microphone amplifier 12, the filter bank 13, and A / The monitor waveform data obtained through the D converter 14 is input to the fuzzy identification system 15 which is a data recognition means, and the numeral 10 of the numbers "0 to 9" is input.
The estimated similarity value for each word is output.

【0029】[0029]

【発明の効果】以上のように、上記実施例から明らかな
ように、本発明によれば、特定単語を認識する不特定話
者音声認識装置に、ファジィ同定システムを適用するこ
とにより、以下に示す効果が得られる。
As described above, according to the present invention, as is apparent from the above-described embodiment, the fuzzy identification system is applied to the unspecified speaker voice recognition device for recognizing a specific word. The effect shown is obtained.

【0030】特定単語において、話者間の時間軸上およ
び周波数軸上の変動を吸収するロバスト性の高い認識動
作が可能で、高認識率の音声認識を実現することができ
る。
In a specific word, a highly robust recognition operation that absorbs variations on the time axis and the frequency axis between speakers is possible, and it is possible to realize speech recognition with a high recognition rate.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の不特定話者音声認識装置の概略ブロッ
ク図である。
FIG. 1 is a schematic block diagram of an unspecified speaker voice recognition device of the present invention.

【図2】特定単語ごとの類似度差同定システムの入出力
関係を示す図である。
FIG. 2 is a diagram showing an input / output relationship of a similarity difference identification system for each specific word.

【図3】図2の類似度差同定システムのファジィルール
の記述法を示す図である。
FIG. 3 is a diagram showing a description method of a fuzzy rule of the similarity difference identification system of FIG.

【図4】従来のサブトラクション法を適用した不特定話
者音声認識装置の概略ブロック図である。
FIG. 4 is a schematic block diagram of an unspecified speaker voice recognition device to which a conventional subtraction method is applied.

【符号の説明】[Explanation of symbols]

11 マイク 12 アンプ 13 フィルタバンク 14 A/Dコンバータ 15 ファジィ同定システム 11 Microphone 12 Amplifier 13 Filter bank 14 A / D converter 15 Fuzzy identification system

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 不特定話者から発声される1つ又は複数
の特定単語に応じた音声信号を解析してモニタ波形デー
タを生成する音声解析手段と、 前記不特定話者の一人からのモニタ波形データを同定用
データとし該同定用データで同定した1つの同定システ
ムと、他の複数の話者からのモニタ波形データを複数の
評価用データとして該評価用データで同定した複数の評
価システムとを生成する手段と、前記特定単語に対して
前記各評価用データを対応する評価システムに入力して
得られる類似度推定値と、前記各評価用データを前記同
定システムに入力して得られる類似度推定値とのそれぞ
れの差分の最小2乗和を求める手段と、を有するデータ
認識手段と、 を備えた不特定話者音声認識装置。
1. A voice analysis unit that analyzes a voice signal corresponding to one or more specific words uttered by an unspecified speaker to generate monitor waveform data, and a monitor from one of the unspecified speakers. One identification system in which waveform data is used as identification data and identified by the identification data; and a plurality of evaluation systems in which monitor waveform data from other speakers are identified as the plurality of evaluation data by the evaluation data And a similarity estimate value obtained by inputting each of the evaluation data for the specific word into a corresponding evaluation system, and a similarity obtained by inputting each of the evaluation data into the identification system. An unspecified speaker voice recognition device comprising: a data recognition means having a means for obtaining a least sum of squares of respective differences from the degree estimation value.
JP32377292A 1992-11-10 1992-11-10 Unspecified speaker speech recognizing device Pending JPH06149286A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32377292A JPH06149286A (en) 1992-11-10 1992-11-10 Unspecified speaker speech recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32377292A JPH06149286A (en) 1992-11-10 1992-11-10 Unspecified speaker speech recognizing device

Publications (1)

Publication Number Publication Date
JPH06149286A true JPH06149286A (en) 1994-05-27

Family

ID=18158454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32377292A Pending JPH06149286A (en) 1992-11-10 1992-11-10 Unspecified speaker speech recognizing device

Country Status (1)

Country Link
JP (1) JPH06149286A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200027554A (en) * 2017-07-19 2020-03-12 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 Speech recognition method and apparatus, and storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200027554A (en) * 2017-07-19 2020-03-12 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 Speech recognition method and apparatus, and storage medium
JP2020527754A (en) * 2017-07-19 2020-09-10 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド Speech recognition method and device, and storage medium
US11244672B2 (en) 2017-07-19 2022-02-08 Tencent Technology (Shenzhen) Company Limited Speech recognition method and apparatus, and storage medium

Similar Documents

Publication Publication Date Title
US7620547B2 (en) Spoken man-machine interface with speaker identification
US5638486A (en) Method and system for continuous speech recognition using voting techniques
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5509103A (en) Method of training neural networks used for speech recognition
JP3584458B2 (en) Pattern recognition device and pattern recognition method
US5651094A (en) Acoustic category mean value calculating apparatus and adaptation apparatus
DE112021001064T5 (en) Device-directed utterance recognition
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
JPH0585916B2 (en)
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
JPH0540497A (en) Speaker adaptive voice recognizing device
JPH02165388A (en) Pattern recognition system
JPH06149286A (en) Unspecified speaker speech recognizing device
JPH06301396A (en) Specific speaker's speech recognition system
JP3342761B2 (en) Voice recognition device
JP2001350494A (en) Device and method for collating
Silva et al. A novel intelligent system for speech recognition
JPH04324499A (en) Speech recognition device
JP2000030069A (en) Signal collating device
Seman et al. The optimization of artificial neural networks connection weights using genetic algorithms for isolated spoken Malay parliamentary speeches
JPH10124084A (en) Voice processer
Timms et al. Speaker verification utilising artificial neural networks and biometric functions derived from time encoded speech (TES) data
JPH03276199A (en) Speaker recognizing system
JPS63223798A (en) Voice recognition