JPH05257496A - 単語認識方式 - Google Patents

単語認識方式

Info

Publication number
JPH05257496A
JPH05257496A JP4053464A JP5346492A JPH05257496A JP H05257496 A JPH05257496 A JP H05257496A JP 4053464 A JP4053464 A JP 4053464A JP 5346492 A JP5346492 A JP 5346492A JP H05257496 A JPH05257496 A JP H05257496A
Authority
JP
Japan
Prior art keywords
neural network
word
input
frequency characteristics
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4053464A
Other languages
English (en)
Inventor
Kazuhiko Okashita
和彦 岡下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP4053464A priority Critical patent/JPH05257496A/ja
Publication of JPH05257496A publication Critical patent/JPH05257496A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 類似単語や時間伸縮した単語に対する認識精
度が良い単語認識方式を提供すること。 【構成】 ニューラルネットワークを用いて入力音声か
らその単語を認識する単語認識方式において、入力音声
を予め登録単語にて学習した分割用ニューラルネットワ
ーク13で音節単位に分割してブロック化し、入力音声
の周波数特性を上述の音節ブロック内で平均化したもの
を、複数の認識用ニューラルネットワーク15A〜15
Dへの入力とするようにしたものである。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ニューラルネットワー
クを用いた単語認識方式に関する。
【0002】
【従来の技術】従来のニューラルネットワークを用いた
単語認識方式では、特願平1-98376 号に記載の如く、入
力音声の特徴パラメータ(周波数特性)を算出し、時間
的に等分割した音声区間を1つのブロックとして、その
中で周波数特性の平均を算出している。
【0003】
【発明が解決しようとする課題】従来法では、音声を等
分割し1つのブロック内で特徴パラメータ(周波数特
性)を平均化しているため、同じ単語でも発声が異なる
場合にブロック内の平均化するパラメータが異なること
があり、類似単語や時間伸縮した単語に対する認識精度
が悪い。
【0004】本発明は、類似単語や時間伸縮した単語に
対する認識精度が良い単語認識方式を提供することを目
的とする。
【0005】
【課題を解決するための手段】請求項1に記載の本発明
は、ニューラルネットワークを用いて入力音声からその
単語を認識する単語認識方式において、入力音声を予め
登録単語にて学習した分割用ニューラルネットワークで
音節単位に分割してブロック化し、入力音声の周波数特
性を上述の音節ブロック内で平均化したものを、複数の
認識用ニューラルネットワークへの入力とするようにし
たものである。
【0006】請求項2に記載の本発明は、請求項1に記
載の本発明において更に、分割用ニューラルネットワー
クの学習が、登録単語音声の周波数特性nフレーム分を
逐次ニューラルネットワークに入力し、予め登録単語音
声を視察により切り出し、ニューラルネットワークの入
力に対応するフレームと切り出し位置が一致すれば、当
該フレームに対応する出力層のユニットの目標値が他の
ユニットの目標値よりも大きな値をとるよう行なうよう
にしたものである。
【0007】請求項3に記載の本発明は、請求項1に記
載の本発明において更に、分割用ニューラルネットワー
クの学習が、登録単語音声の周波数特性の隣接フレーム
間差分値、nフレーム分を逐次ニューラルネットワーク
に入力し、予め登録単語音声を視察により切り出し、ニ
ューラルネットワークの入力に対応するフレームと切り
出し位置が一致すれば、当該フレームに対応する出力層
のユニットの目標値が他のユニットの目標値よりも大き
な値をとるよう行なうようにしたものである。
【0008】
【作用】ニューラルネットワークの動作は単純計算であ
り、処理時間が短い。そして、ニューラルネットワーク
への入力として、音節ブロック内で求めた周波数特性を
用いるものであるから、類似単語や時間伸縮した単語に
対する認識精度が良い。
【0009】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
【0010】(1)ニューラルネットワークは、その構造
から、図5(A)に示す階層的ネットワークと図5
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
【0011】(2)ネットワークの構造 階層的ネットワークは、図6に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
【0012】(3)ユニットの構造 ユニットは図7に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
【0013】(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には図7に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
【0014】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
【0015】
【実施例】図1は本発明の第1実施例に用いられる単語
認識装置を示す模式図、図2は本発明の第2実施例に用
いられる単語認識装置を示す模式図、図3は分割用ニュ
ーラルネットワークの動作を示す模式図、図4は認識用
ニューラルネットワークの動作を示す模式図、図5はニ
ューラルネットワークを示す模式図、図6は階層的なニ
ューラルネットワークを示す模式図、図7はユニットの
構造を示す模式図である。
【0016】(第1実施例)(図1、図3、図4参照) 単語認識装置10は、図1に示す如く、音声入力部1
1、nチャンネルバンドパスフィルタ12、分割用ニュ
ーラルネットワーク13、ブロック分割部14、ネット
ワーク選択部100、2音節認識用ニューラルネットワ
ーク15A、3音節認識用ニューラルネットワーク15
B、4音節認識用ニューラルネットワーク15C、5音
節認識用ニューラルネットワーク15D、判定部16を
有して構成される。
【0017】(A) 概要:認識単語:100 単語(人名)、
特定話者 1名 (1) バンドパスフィルタ12に音声が入力される。
【0018】(2) バンドパスフィルタ12から分割用ニ
ューラルネットワーク13に周波数特性を入力する。
【0019】(3) 予め学習した分割用ニューラルネット
ワーク13により入力音声を音節単位に分割し、分割位
置をブロック分割部14へ、分割数をネットワーク選択
部100へ送る。
【0020】(4) ブロック分割部14では、分割用ニュ
ーラルネットワーク13からの分割位置をもとに音節ブ
ロック内でバンドパスフィルタ12からの周波数特性を
平均化し、周波数特性の平均をネットワーク選択部10
0に送る。
【0021】(5) ネットワーク選択部100では、分割
用ニューラルネットワーク13からの分割数をもとに複
数の認識用ニューラルネットワーク15A〜15Dの中
から1つを選択し、周波数特性を当該ネットワーク15
A〜15Dに入力する。
【0022】(6) 予め学習した認識用ニューラルネット
ワーク15A〜15Dの出力層の各ユニットの値より判
定部16で単語を判定する。
【0023】(B) 分割用ニューラルネットワークの学
習:(図3参照) 1.入力作成 登録単語を視察により予め音節単位に分割し、分割位
置を登録しておく。
【0024】登録単語の音声波形を16チャンネルの
バンドパスフィルタ12に通し、 1フレーム(窓長25.6
msec、分析長12.8msec)毎に周波数特性を得る。
【0025】得られた16個の周波数特性、12フレーム
分を1つの単位として192 個の周波数特性を得る。ま
た、分析した12フレームを単語音声の終端の方に 1フレ
ームずらし同様に192 個の周波数特性を得る。この操作
を単語音声の始端から終端まで行なう。
【0026】2.学習 で得た周波数特性をニューラルネットワーク13に
入力する。ニューラルネットワーク13の構造は入力層
192 ユニット、出力層は入力の12フレームに対応する12
ユニットの3層の階層型である。
【0027】入力したフレームの内で登録した音節
の分割位置に対応するものがあれば、当該フレームに対
応する出力層のユニットを中心として0, 0, …0, 0.25,
0.5, 1.0, 0.5, 0.25, 0 …0, 0 と学習の目標値を設
定、また、入力したフレームのうちで登録した音節の
分割位置が1つもなければ、出力層のすべてのユニット
が0 になるように十分学習する。
【0028】(C) 認識用ニューラルネットワークの学
習:(図4参照) 1.入力作成 登録単語の音声波形を16チャンネルのバンドパスフ
ィルタ12に通し、 1フレーム(窓長25.6msec、分析長
12.8msec)毎に周波数特性を得る。
【0029】得られた16個の周波数特性、12フレーム
分を1つの単位として192 個の周波数特性を得る。ま
た、分析した12フレームを単語音声の終端の方に 1フレ
ームずらし、同様に192 個の周波数特性を得る。この操
作を単語音声の始端から終端まで行なう。
【0030】で得た周波数特性を予め学習した分割
用ニューラルネットワーク13に入力し、単語音声を音
節毎に分割し、ブロック化する。(単語音声の音節毎の
分割は、あるしきい値θ1 を設けニューラルネットワー
クの出力層のユニットの値がθ1 を超えたとき、出力ユ
ニットに対応するフレームを分割位置とする。)また、
このとき分割数を求めておく。
【0031】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応した認識用ニュー
ラルネットワーク15A〜15Dの入力とする。(音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。)
【0032】認識用ニューラルネットワーク15A〜1
5Dの構造は3層の階層型で、入力層については、2音
節用−32ユニット、3音節用−48ユニット、4音節用−
64ユニット、5音節用−80ユニットを用意した。また、
出力層については、100 単語に対応する100 ユニットを
用意した。
【0033】2.学習 100 単語に番号付けしニューラルネットワーク15A
〜15Dの出力層の100 個のユニットに対応させ、で
求めた入力層が0 の値(目標値)になるように、バッッ
クプロパゲーションにより十分学習する。
【0034】(D) 評価:(図3、図4参照) 1.入力作成 入力された音声波形を16チャンネルのバンドパスフ
ィルタ12に通し、 1フレーム(窓長25.6msec、分析長
12.8msec)毎に周波数特性を得る。
【0035】得られた16個の周波数特性、12フレーム
分を1つの単位として192 個の周波数特性を得る。ま
た、分析した12フレームを単語音声の終端の方に 1フレ
ームずらし同様に192 個の周波数特性を得る。この操作
を単語音声の始端から終端まで行なう。
【0036】で得た周波数特性を予め学習した分割
用ニューラルネットワーク13に入力し、単語音声を音
節毎に分割し、ブロック化する。(単語音声の音節毎の
分割は、あるしきい値θ1 を設けニューラルネットワー
クの出力層のユニットの値がθ1 を超えたとき、出力ユ
ニットに対応するフレームを分割位置とする。)
【0037】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応する認識用ニュー
ラルネットワーク15A〜15Dの入力とする。(音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。)
【0038】2.評価 学習した認識用ネットワーク15A〜15Dにを入
力する。
【0039】ニューラルネットワーク15A〜15D
の出力層のユニットのうち最大のユニットに対応する単
語を認識結果として判定する。
【0040】(E) 実験:特定話者 1名、認識対象単語10
0 単語で以下のを比較した。 入力音声を時間的に等分割( 4個)した音声区間を1
つのブロックとして、その中で周波数特性の平均を算出
(16チャンネルバンドパスフィルタを用いる)したも
のをニューラルネットワーク15A〜15Dの入力にし
たとき。
【0041】入力音声を予め登録単語にて学習した分
割用ニューラルネットワーク13で音節単位に分割し、
これを1つのブロックとして、ブロック内で求めた特徴
パラメータを平均化したものを認識用ニューラルネット
ワーク15A〜15Dの入力とする。
【0042】(F) 結果:はに比べ誤り率が約1/10で
あった。
【0043】(第2実施例)(図2、図3、図4参照) 単語識装置20は、図2に示す如く、音声入力部11、
nチャンネルバンドパスフィルタ12、分割用ニューラ
ルネットワーク13、ブロック分割部14、ネットワー
ク選択部100、2音節認識用ニューラルネットワーク
15A、3音節認識用ニューラルネットワーク15B、
4音節認識用ニューラルネットワーク15C、5音節認
識用ニューラルネットワーク15D、判定部16、差分
計算部17を有して構成される。
【0044】(A) 概要:認識単語:100 単語(人名)、
特定話者 1名 (1) バンドパスフィルタ12に音声が入力される。
【0045】(2) バンドパスフィルタ12から差分計算
部を経て分割用ニューラルネットワーク13に周波数特
性の隣接フレーム間差分値を入力する。
【0046】(3) 予め学習した分割用ニューラルネット
ワーク13により入力音声を音節単位に分割し、分割位
置をブロック分割部14へ、分割数をネットワーク選択
部100へ送る。
【0047】(4) ブロック分割部14では、分割用ニュ
ーラルネットワーク13からの分割位置をもとに音節ブ
ロック内でバンドパスフィルタ12からの周波数特性を
平均化し、周波数特性の平均をネットワーク選択部10
0に送る。
【0048】(5) ネットワーク選択部100では、分割
用ニューラルネットワーク13からの分割数をもとに複
数の認識用ニューラルネットワーク15A〜15Dの中
から1つを選択し、周波数特性を当該ネットワーク15
A〜15Dに入力する。
【0049】(6) 予め学習した認識用ニューラルネット
ワーク15A〜15Dの出力層の各ユニットの値より判
定部16で単語を判定する。
【0050】(B) 分割用ニューラルネットワークの学
習:(図3参照) 1.入力作成 登録単語を視察により予め音節単位に分割し、分割位
置を登録しておく。
【0051】登録単語の音声波形を16チャンネルの
バンドパスフィルタ12に通し、 1フレーム(窓長25.6
msec、分析長12.8msec)毎の周波数特性から隣接するフ
レーム間の周波数特性の差分値を各帯域毎に算出する。
【0052】算出した16個の周波数特性の差分値、12
フレーム分を1つの単位として192個の周波数特性の差
分値を得る。また、分析した12フレームの単語音声の終
端の方に 1フレームずらし同様に192 個の周波数特性の
差分値を得る。この操作を単語音声の始端から終端まで
行なう。
【0053】2.学習 で得た周波数特性の差分値をニューラルネットワー
ク13に入力する。ニューラルネットワーク13の構造
は入力層192 ユニット、出力層は入力の12フレームに対
応する12ユニットの3層の階層型である。
【0054】入力したフレームの内で登録した音節
の分割位置に対応するものがあれば、当該フレームに対
応する出力層のユニットを中心として、0, 0, …0, 0.2
5, 0.5, 1.0, 0.5, 0.25, 0 …0, 0 と学習の目標値を
設定、また、入力したフレームの内で登録した音節の
分割位置が1つもなければ、出力層のすべてのユニット
が0 になるように十分学習する。
【0055】(C) 認識用ニューラルネットワークの学
習:(図4参照) 1.入力作成 登録単語の音声波形を16チャンネルのバンドパスフ
ィルタ12に通し、 1フレーム(窓長25.6msec、分析長
12.8msec)毎の周波数特性から隣接するフレーム間の周
波数特性の差分値を各帯域毎に算出する。
【0056】算出した16個の周波数特性の差分値、12
フレーム分を1つの単位として192個の周波数特性の差
分値を得る。また、分析した12フレームの単語音声の終
端の方に 1フレームずらし同様に192 個の周波数特性の
差分値を得る。この操作を単語音声の始端から終端まで
行なう。
【0057】で得た周波数特性の差分値を予め学習
した分割用ニューラルネットワーク13に入力し、単語
音声を音節毎に分割し、ブロック化する。(音声単語の
音節毎の分割は、あるしきい値θ1 を設けニューラルネ
ットワークの出力層のユニットの値がθ1 を超えたと
き、出力ユニットに対応するフレームを分割位置とす
る。)また、このとき分割数を求めておく。
【0058】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応した認識用ニュー
ラルネットワーク15A〜15Dの入力とする。(音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。)
【0059】認識用ニューラルネットワーク15A〜1
5Dの構造は3層の階層型で、入力層については、2音
節用−32ユニット、3音節用−48ユニット、4音節用−
64ユニット、5音節用−80ユニットを用意した。また、
出力層については、100 単語に対応する100 ユニットを
用意した。
【0060】2.学習 100 単語に番号付けしニューラルネットワーク15A
〜15Dの出力層の100 個のユニットと対応させ、で
求めた入力層に対し、その単語に対応した出力層が 1、
その他の出力層が0 の値(目標値)になるように、バッ
クプロパゲーションにより十分学習する。
【0061】(D) 評価:(図3、図4参照) 1.入力作成 登録単語の音声波形を16チャンネルバンドパスフィ
ルタ12に通し、 1フレーム(窓長25.6msec、分析長1
2.8msec)毎の周波数特性から隣接するフレーム間の周
波数特性の差分値を各帯域毎に算出する。
【0062】算出した16個の周波数特性の差分値、12
フレームを1つの単位として192 個の周波数特性の差分
値を得る。また、分析した12フレームを単語音声の終端
の方に 1フレームずらし同様に192 個の周波数特性の差
分値を得る。この操作を単語音声の始端から終端まで行
なう。
【0063】で得た周波数特性の差分値を予め学習
した分割用ニューラルネットワーク13に入力し、単語
音声を音節毎に分割し、ブロック化する。(単語音声の
音節毎の分割は、あるしきい値θ1 を設けニューラルネ
ットワークの出力層のユニットの値がθ1 を超えたと
き、出力ユニットに対応するフレームを分割位置とす
る。)
【0064】で求めたブロック内での周波数特性
を各帯域毎に平均化し、分割数に対応する認識用ニュー
ラルネットワーク15A〜15Dの入力とする。(音節
の分割数に対応するニューラルネットワークがないと
き、再度入力を促す。)
【0065】2.評価 学習した認識用ニューラルネットワーク15A〜15
Dにを入力する。 ニューラルネットワーク15A〜15Dの出力層のユ
ニットのうち最大のユニットに対応する単語を認識結果
として判定する。
【0066】(E) 実験:特定話者 1名、認識対象単語10
0 単語で以下のを比較した。 入力音声を時間的に等分割( 4個)した音声区間を1
つのブロックとして、その中で周波数特性の平均を算出
(16チャンネルバンドパスフィルタを用いる)したも
のをニューラルネットワーク15A〜15Dの入力にし
たとき。
【0067】入力音声を予め登録単語にて学習した分
割用ニューラルネットワーク13で音節単位に分割し、
これを1つのブロックとして、ブロック内で求めた特徴
パラメータを平均化したものを認識用ニューラルネット
ワーク15A〜15Dの入力とする。
【0068】(F) 結果:はに比べ誤り率が約1/10で
あった。
【0069】
【発明の効果】以上のように本発明によれば、類似単語
や時間伸縮した単語に対する認識精度が良い単語認識方
式を得ることができる。
【図面の簡単な説明】
【図1】図1は本発明の第1実施例に用いられる単語認
識装置を示す模式図である。
【図2】図2は本発明の第2実施例に用いられる単語認
識装置を示す模式図である。
【図3】図3は分割用ニューラルネットワークの動作を
示す模式図である。
【図4】図4は認識用ニューラルネットワークの動作を
示す模式図である。
【図5】図5はニューラルネットワークを示す模式図で
ある。
【図6】図6は階層的なニューラルネットワークを示す
模式図である。
【図7】図7はユニットの構造を示す模式図である。
【符号の説明】 10、20 単語認識装置 11 音声入力部 12 バンドパスフィルタ 13 分割用ニューラルネットワーク 14 ブロック分割部 15A〜15D 認識用ニューラルネットワーク 16 判定部 17 差分計算部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ニューラルネットワークを用いて入力音
    声からその単語を認識する単語認識方式において、 入力音声を予め登録単語にて学習した分割用ニューラル
    ネットワークで音節単位に分割してブロック化し、 入力音声の周波数特性を上述の音節ブロック内で平均化
    したものを、複数の認識用ニューラルネットワークへの
    入力とすることを特徴とする単語認識方式。
  2. 【請求項2】 分割用ニューラルネットワークの学習
    が、登録単語音声の周波数特性nフレーム分を逐次ニュ
    ーラルネットワークに入力し、予め登録単語音声を視察
    により切り出し、ニューラルネットワークの入力に対応
    するフレームと切り出し位置が一致すれば、当該フレー
    ムに対応する出力層のユニットの目標値が他のユニット
    の目標値よりも大きな値をとるよう行なうものである請
    求項1記載の単語認識方式。
  3. 【請求項3】 分割用ニューラルネットワークの学習
    が、登録単語音声の周波数特性の隣接フレーム間差分
    値、nフレーム分を逐次ニューラルネットワークに入力
    し、予め登録単語音声を視察により切り出し、ニューラ
    ルネットワークの入力に対応するフレームと切り出し位
    置が一致すれば、当該フレームに対応する出力層のユニ
    ットの目標値が他のユニットの目標値よりも大きな値を
    とるよう行なうものである請求項1記載の単語認識方
    式。
JP4053464A 1992-03-12 1992-03-12 単語認識方式 Pending JPH05257496A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4053464A JPH05257496A (ja) 1992-03-12 1992-03-12 単語認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4053464A JPH05257496A (ja) 1992-03-12 1992-03-12 単語認識方式

Publications (1)

Publication Number Publication Date
JPH05257496A true JPH05257496A (ja) 1993-10-08

Family

ID=12943588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4053464A Pending JPH05257496A (ja) 1992-03-12 1992-03-12 単語認識方式

Country Status (1)

Country Link
JP (1) JPH05257496A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010041301A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 音声文字化サーバー及び音声文字化方法
JP2014512572A (ja) * 2011-04-01 2014-05-22 株式会社ソニー・コンピュータエンタテインメント 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010041301A (ja) * 2008-08-04 2010-02-18 Fujitsu Ltd 音声文字化サーバー及び音声文字化方法
JP2014512572A (ja) * 2011-04-01 2014-05-22 株式会社ソニー・コンピュータエンタテインメント 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
US9251783B2 (en) 2011-04-01 2016-02-02 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
JP2016128935A (ja) * 2011-04-01 2016-07-14 株式会社ソニー・インタラクティブエンタテインメント 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US10049657B2 (en) 2012-11-29 2018-08-14 Sony Interactive Entertainment Inc. Using machine learning to classify phone posterior context information and estimating boundaries in speech from combined boundary posteriors

Similar Documents

Publication Publication Date Title
US5461697A (en) Speaker recognition system using neural network
CA2165229A1 (en) Method and Apparatus for Characterizing an Input Signal
US5278911A (en) Speech recognition using a neural net
JPH05257496A (ja) 単語認識方式
JP2001000007U (ja) 音声認識装置
JPH05257495A (ja) 単語認識方式
JP2510301B2 (ja) 話者認識システム
EP0369485B1 (en) Speaker recognition system
JPH01276200A (ja) 音声合成装置
JP2543603B2 (ja) 単語認識システム
JPH05119798A (ja) 単語認識方式
KR20180106479A (ko) 엔드투엔드 기반의 외국어 유창성 평가 방법 및 시스템
JPH0566798A (ja) 話者認識方式
JPH05204399A (ja) 不特定話者音素認識方法
JP2518940B2 (ja) 話者照合システム
JP2559506B2 (ja) 話者照合システム
JPH05143094A (ja) 話者認識システム
KR950013117B1 (ko) 시간 지연 신경 회로망을 이용한 한국어 고립 단어 인식 시스템
JPH05313689A (ja) 話者認識方式
JPH02254498A (ja) 音韻分類記号化装置
JPH03276199A (ja) 話者認識方法
JPH05119791A (ja) 話者認識方式
JPH05119799A (ja) 話者認識方式
Brunet et al. Artificial neural networks for phoneme recognition
JPH02195399A (ja) 男女声の識別方式