JPS605960B2 - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS605960B2
JPS605960B2 JP49041341A JP4134174A JPS605960B2 JP S605960 B2 JPS605960 B2 JP S605960B2 JP 49041341 A JP49041341 A JP 49041341A JP 4134174 A JP4134174 A JP 4134174A JP S605960 B2 JPS605960 B2 JP S605960B2
Authority
JP
Japan
Prior art keywords
standard
similarity
phoneme
time
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP49041341A
Other languages
English (en)
Other versions
JPS50149207A (ja
Inventor
博 平川
敏夫 杉原
靖夫 徳永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP49041341A priority Critical patent/JPS605960B2/ja
Publication of JPS50149207A publication Critical patent/JPS50149207A/ja
Publication of JPS605960B2 publication Critical patent/JPS605960B2/ja
Expired legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は、音声認識方式、特に文章を含む単語および該
単語を発した話者のいずれか一方または両方を認識する
音声認識において、声道に関する特徴係数(音素)が複
数個組合わせられた標準音素組および声帯に関する特徴
係数(ピッチ)の両方の標準時間系列パターンを用いて
または標準音素および声帯に関する特徴係数(ピッチ)
の両方の標準時間系列パターンを用いて音声認識を行な
うようにし、単語の認識にあわせて話者の認識をも行な
い得るようにした音声認識方式に関するものである。
ここで、音声合成または音声伝送帯城圧縮のため、音声
分析方式の1つとして、入力音声を一定区間例えば30
肌sec毎に区切り、それらから既知手段によってkパ
ラメータを抽出することは、「第8回東北大学電気通信
研究所シンポジューム論文集 板倉又忠“統計的手法に
よる音声の特徴抽出”」で提案されており、又、kパラ
メータよりピッチを抽出することは、「昭和49三電子
通信学会全国大会講演論文集S−3一9、板倉文忠他“
PARCOR型音声合成”」で提案されている。
一方、音声認識方法としては、Qパラメータを使用し、
最尤法を用いて類似度を定義して、類似度和(尤度和)
をとることにより認識することが、「電子通信学会論文
誌vo155一DNo.3(1972年3月)好田正紀
他“数学音声の機械認識系”」に提案されている。上記
提案は音声認識のために有効な手法の1つであるが、単
語の認識のみでなく該単語を発した話者の認識をあわせ
決定しようとしたり、話者による発音の違いを考慮して
単語の認識を行なわせようとする場合、上記単一の標準
音素による時間系列パターンに代えて複数の標準音素を
組合わせた標準音素組を用いることがより有効な手段と
なることが考慮された。
それは例えば同じ数字“4”を発音するに当っても、話
者によって可成り発音に差異があるからである。また上
記単一の標準音素による時間系列パターンによる認識に
加えて話者の声帯に関する特徴係数則ちピッチの時間系
列パターンを利用することがより有効な手段であること
が見出された。
これは定性的には上記音素はいわば声道に関する特徴で
あり、これに話者の特徴を大きく含むと考えられる声帯
に関する特徴を加味することが有効であると考え得るこ
とから理解されよう。本発明は、上述の如く標準音素組
を用いたり「ピッチに関する情報を利用することによっ
て、より有効な音声認識を行なうことを目的としている
そしてそのため本発明の音声認識方式は文章を含む単語
および該単語を発した話者のいずれか一方または両方を
認識する音声認識方式において、標準音素の複数の時間
系列パターンおよび該各標準音素の声帯に関する標準特
徴係数の複数の時間系列パターンをそなえると共に、入
力音声を予め定めた時間間隔で区分した当該時間間隔内
の音素と上記標準音素との類似度を演算する手段および
上記当該時間間隔内の声帯に関する特徴係数と上記標準
特徴係数との類似度を演算する手段をそなえ、上記入力
音声の上記音素の時間系列についての上記標準音素の時
間系列パタ−ンに対する類似度と上記入力音声の上記声
帯に関する特徴係数の時間系列についての上記標準特徴
係数の時間系列パターンに対する類似度との関数値にも
とづいて上記認識を行なうことを、特徴とし同じく、文
章を含む単語および該単語を発した話者のいずれか一方
または両方を認識する音声認識方式において「標準音素
が複数個分組合わせられた標準音素組を単位とし該複数
個の標準音素組を時系列に配列した複数の時間系列パタ
ーンおよび該各標準音素組の声帯に関する標準特徴係数
の複数の時間系列パターンをそなえると共に、入力音声
を予め定めた時間間隔で区分した当該時間間隔内の音素
と上記複数の標準音素組との類似度を演算する手段およ
び上記当該時間間隔内の声帯に関する特徴係数と上記標
準特徴係数との類似度を演算する手段をそなえ、上記入
力音声の上記音素の時間系列についての上記標準音素組
の時間系列パターンに対する類似度と上記入力音声の上
記声帯に関する特徴係数の時間系列についての上記標準
特徴係数の複数の時間系列パターンに対する類似度との
関数値にもとづいて上記認識を行なうことを特徴として
いる。以下具体的に説明する。本発明では、入力音声を
例えば30msecの一定区間に区切りkパラメータを
抽出し、該抽出された各kパラメータにもとずし、て例
えばlal、li l、lul・・・・・・等の標準音
素との類似度Sを計算し、入力音声の入力音素の時間系
列がいずれの標準音素の時間系列パターンともっともよ
く類似するかによって音声認識を行なう。
ここで言う類似度Sは次式で定義される。
但し i組についてのi番目の標準kパラメータ又、本発明の
場合、単語の認識にあわせて話者が誰であるかを認識す
るために、上記標準kパラメータにもとずし、た類似度
を演算するがト未知入力音声から抽出された音素が少な
くとも2つ以上の標準音素を組合わせたいずれかの標準
音素組の1つともっとも類似するかを調べて行くように
する。
これは、話者によって同じ例えば数字1‘4”を発音す
る場合にも発音にあいまいさがあり、該あいまいさが話
者認識のための特徴を担っていると考えられるからであ
る。このため、本発明の場合例えば標準音素組として(
li,l li2l)、(li2l、lel)、(lu
llol)・・・・・・等を用意し、例えば数字“0”
ないし“9”の発音に含まれる上記標準音素組の時間系
列を、各話者毎に用意しておくようにする。
そして、今特定の1人の話者による数字“4”について
の標準音素組の時間系列として(li,l li2l)
(li2l lel)(lul lol)(ln,l
l■l)が用意されているものとして、禾知入力との類
似度を調べるために次のようにされる。なお標準音素組
(lらl li2l)におけるli,lは一般に数字‘
‘1”を発音する場合に生ずる音素l ilでありli
2lは一般に数字“2’’を発音する場合に生ずる音素
lilと考えてよく、上記標準音素組(li,l li
2l)は上記2つの音素を組合わせたものを表わしてい
る。また標準音素組(li2l lel)は2つの音素
ii2lとlelとの組合わせたものを表わしている。
標準音素組(lullol)または(!n,l l〜!
)についても同様である。第1表は未知入力音声を一定
時間毎に区切ってら、t,…・・・t7の各区間におけ
る各音素が上記ある話者が数字“4”を発音したときの
標準音素組とどの程度類似するかを調べる過程を表わし
ている。
第1表 第1表において類似度sij例えばs,。
として値1.81を得る計算は次のように行なわれてい
る。即ち、未知入力の時間帯toにおけるkパラメータ
を抽出し、標準kパラメータにもとずし、て、標準音素
li,lとの類似度を求めると共に標準音素li2!と
の類似度を求め両者を加算するようにしている。このた
め一般に類似度Sは1より小さい値であるが、両者の和
をとる場合最大2となる。未知入力を時間帯to、t.
・・…・らと区分して各時間帯毎に各標準音素組との類
似度を求めておいて、上記表中の□で囲んだ類似度の和
をとって行き、この類似度和が他の標準音素組の時間系
列パターンによる類似度和にくらべてより大きいか小さ
いかを調べるようにする。この類似度和の計算処理は次
のように行なわれる。即ちm 先ずS,oをセットする
■ ついで時間帯t,においてs,.Ss2,なるばs
2,をSI・>S21ならばS・・を加える。
表の場合s,.を加える。潮 時間帯ら‘こおいてs,
2Ss22であるのでS22を加える。
‘4} 以下同様にs23、s34、s濁、s46、s
47を加える。
この場合、未知入力音声が特定の話者よる数字“4”に
ついての発音でれば、該類似度和は他の標準音素組の時
間系列パターンとの類似度を代表する類似度和に〈らべ
てより大きい値をとるだろうことが推察されよう。
そして標準音素組による時間系列をとっているので、話
者の発音上の“なまり”のような特徴をとらえている。
本発明の場合、上記標準音素組の時間系列による類似度
和処理の外に、さらに話者の声帯に関する特徴をとらえ
るピッチ軌条を導入している。
特定の話者による上記(li,l li2l)、(li
2llel)、(lullol)、(ln,ll〜l)
の時間系列に対応して標準ピッチの時間系列を用意し、
未知入力ピッチと該標準ピッチとの差をとる相違度を考
慮するようにしている。なお一般に相違度と類似度とは
定義の上での差であり、本願特許請求の範囲に関連する
記載においては「類似度」や「相違度」を包含する言葉
として「類似度」を用いている。第2表 第2表は上述の相違度をとる過程を表にしたものである
そして表中の□で囲んだ相違度の和をとり、この相違度
和の絶対値を上記第1表で得た類似度和から差引くよう
にしている。そして該 (類似度和)−Ql(相違度和l ■但しQ‘ま重
み が他に〈らべて大きい値をとるか否かによって、単語の
認識と話者の認識とをあわせ行なうようにしている。
以下図面を参照して説明する。第1図は本発明による音
声認識方式の一実施例を表わす全体構成図、第2図は第
1図においてブロックAとして表わした−実施例の類似
度計算回路、第3図は第1図においてブロックCとして
表わした一実施例の類似度和計算回路で予め単語毎およ
び話者毎に用意された標準時間系列パターンにしたがっ
て類似度和を計算するもの、第4図は第1図においてブ
ロックBおよびDとして表わした−実施例の相違度計算
回路および相違度和計算回路で予め単語毎および話者毎
に用意された標準時間系列パターンにしたがって相違度
和を計算するもの、第5図は第1図においてブロックE
として表わした一実施例の相違度和絶対値化回路、第6
図は第1図においてブロックGとして表わした一実施例
の最大検出回路を夫々示している。
第1図において1はkパラメータ抽出・ピッチ抽出装置
、2,4,6,8,10・・・・”はある話者によるあ
る単語(短文章)の標準kパラメータ格納部、3,5,
7,9,11・・・・・・は対応する標準ピッチ格納部
、Aは類似度計算回路、Bは相違度計算回路、Cは類似
度和計算回路、Dは相違度知計算回路、Eは相違和絶対
値化回路、Wは重み付け回路、Fは加算回路、Gは最大
検出回路を夫々表わしている。上記標準kパラメータ格
納部2や4や6・・・・・・には夫々、格納部2を例に
とって言えば、或る特定の1人の話者による例えば標準
音素li,lを構成する標準kパラメータk,(SI)
、k2(SI)、k3(SI)......が格納され
る如く、或る話者による或る標準音素に対応した標準k
パラメータが格納されている。
また上記標準ピッチ格納部3や5や7・・・・・・には
夫々、格納部3を例にとつて言えば、或る特定の1人の
話者による例えば標準音素組(li,l li2l)に
対応する標準ピッチP総く標準音素li,lのピッチと
標準音素li2lのピッチとの平均値)が格納される如
く、或る話者による或る標準音素組についての標準ピッ
チが格納されている。即ち、標準kパラメータ格納部2
,4,6・・・・・・には或る話者による個々の「標準
音素」に対応した標準kパラメータが格納されるが、標
準ピッチ格納部3,5,7・・・・・・には或る話者に
よる「標準音素組」に対応した標準ピッチが格納されて
いる。未知入力音声デー外ま公知の如く抽出装置1に導
びかれ、各時間帯毎に未知入力のkパラメー外ま類似度
計算回路Aによって標準kパラメータk(SI)、k(
SI)・・・・・・と類似度を計算される。また一方未
知入力のピッチは相違度計算回路Bによって標準ピッチ
P(SI)、P(S2)……と相違度を計算される。そ
して類似度和計算回路C(第3図)は第1表に示した如
き類似度和を計算し、相違度和計算回路D(第4図)は
第2表に示した如き相違度和を計算する。
得られた相違度和は絶対値化回路(第5図)によって絶
対値をとられ加算回路Fによって上記第‘2}式による
計算が行なわれる。そして最大検出回路Gによって最大
値をとるものを抽出し、こを認識出力即ちある話者によ
るある単語の発音であることを出力する。なお第1図図
示において、図示a,b,c,・・・・・・などの出力
は個々の話者による数字‘‘4”などの夫々の数字に対
応した第2)式に示す関数値を与えている。また上述の
如く、図示出力aが或る特定の話者よる数字“4”に対
応した第■式に示す関数値を与えているとすると、第1
図図示最上位に位置する計算回路Cに対しては、(i)
該当する話者による標準音素li,lに対応する標準k
パラメータを与えている格納部の内容例えば格納部2の
内容を利用して得た類似度(第{1)式によって与えら
れる類似度S)が、対応する1つの計算回路Aから、(
ii)該当する話者による標準音素li2lに対応する
標準kパラメータを与えている格納部例えば格納部4の
内容を利用して得た類似度が、対応する計算回路Aから
、(ーii)該当する話者による標準音素lelに対応
する標準kパラメータを与えている格納部例えば格納部
6の内容を利用して得た類似度が、対応する計算回路A
から、ND……の如く夫々導びかれる。
これらの状態は第2図および第3図を参照して後述され
る。一方第1図図示計算回路○として最上位に位置する
計算回路Dに対しては、(i)該当する話者による標準
音素組(li,l li2l)に対応する標準ピッチP
益峯を与えている格納部の内容例えば格納部3の内容を
利用して得た相違度が、対応する1つの計算回路Bから
、(ii)該当する話者による標準音素組(li2l
lel)に対応する標準ピッチP鎚を与えている格納部
の内容例えば格納部5の内容を利用して得た相違度が、
対応する計算回路Bから、(lii)……の如く夫々導
びかれる。
このために第1図図示の各計算回路Aから各計算回路C
への矢印や各計算回路Bから各計算回路Dへの矢印は、
各計算回路AやBが計算するものが何に対応しているも
のであるかや、各計算回路Cや○がどの数字(認識対象
である単語)に対応しているかによって一義的に定まっ
ている。しかし、第1図においては上記の事柄を概念的
に図示するにとどまっている。第2図に示す類似度計算
回路Aにおいて、12はマルチプレクサで標準kパラメ
ータを1つずつ順次選択するもの、13はマルチプレク
サで未知入力kパラメータを1つずつ順次選択するもの
、14はクロツク回路、15はシーケンス制御回路、1
6は乗算器、17は2乗器、18,19は加算器、20
,21はしジスタ、22は除算器、23はしジスタを表
わしている。
図の場合シーケンス制御回路の制御の下で上記第{1拭
にしたがってk,k,(SI)+k2k2【SI)+…
…をレジスタ20にセットし、またk牢+k葦十…… をレジスタ21にセットして、両者を除算した後に類似
度Sとしてレジスタ23に轍1)式にしたがって計算し
た結果がセットされる。
即ち1つの標準音素li,l、lj2l、lel、lo
l・・・・・・などに対する類似度が各類似度計算回路
A,A,・・・・・・のレジスタ23に各時間帯毎にセ
ットされる。第3図に示す類似度和計算回路Cにおいて
、23はしジスタ、24なし、し27は加算器、28な
いし30‘ま比較器、31なし、し33はアンド回路、
34なし、し37はフリツプ・フロツプ、38なし、し
41はゲート、42は加算器、43はしジスタ、イ,口
,ハ,二は後述(第4図)に導びかれる信号を表わして
いる。ある特定の話者によるある単語の発音の認識のた
めに1つの類似度和計算回路Cが用意される。
例えばある話者の数字“4”の認識のためには「第2図
において説明した如く各回路Aにおいて標準音素li,
lとの類似度がセットされたレジスタ23li,l、標
準音素li2lとの類似度がセットされたレジスタ23
lj2l,・・・・・・標準音素ln2lとの類似度が
セットされたレジスタ23ln2lが当該類似度和計算
回路Cに導びかれる。そして加算器24なし、し27に
よって夫々本発明による標準音素組に対する類似度s,
;、s2I、s3I、s4i、(第1表参照)が計算さ
れる。第1表に示す時間帯toにおいてはフリツブ・フ
ロップ34がセット状態にあり、先ず加算器24の出力
s,。
がゲート38を介して加算器42に導びかれる。そして
時間帯t,において比較器28によってs,.とs2,
とが比較され、s,.Ss2,とならない限りs,.が
ゲート38を介して加算器42に導びかれる。そしてs
,.Ssのとなったとアンド回路31によってフリツプ
・フロツブ34をリセットし、フリップ・フロッブ35
をセットして、加算器25からのその時点の類似度sa
がゲート39を介して加算器42に導びかれる。以下同
様に第1表に関連して説明した如く第1表□で囲んだ値
が加算器42に順に導びかれ、レジスタ43にセットさ
れる。第4図に示す相違度計算回路B部および相違度天
0計算回路D部において、44はしジスタで第1図に示
す抽出装置1内で得られた未知入力ピッチがセットされ
るもの、45はしジスタで夫々対応する標準ピッチP滋
、Pもき)、Pも葦)、P総2がセットされているレジ
スタが特定の話者による数字“4”の認識のために用意
されるもの、46なし、し49は減算器、50なし「し
63はゲート、64は加算器、55はしジスタを表わし
ている。
なお上記相違度計算回路B部において、図示レジスタ4
5(Pける)と減算器49との粗、レジス夕45(P銭
))と減算器48との絹、などが夫々第1図図示の個々
の相違度計算回路別こ相当している。また第4図図示の
レジスタ44は第愚図図示のkパラメータ抽出・ピッチ
抽出装置1内に位置していると考えてよい。各減算器4
6なし、し49から夫々各相違度d,j、Qi、d3i
、qiが出力されており、第2表に示す時間帯がち、t
,、…・・・と進むにつれて例えば減算器46からは相
違度d,o、d,.、d,2、……が出力されて行く。
そして、第3図に示す出力信号イ,口,ハ,二が与えら
れるとき各ゲート回路50なし、し53を介して加算器
54に導ぴかれる。即ち、第2表に示した相違度d,o
、d,.、d22、ら3、d34、d35、d簿、q7
が加算され、該相違度和が相違度和しジスタ55にセッ
トされる。第5図に示す絶対値化回路Eをこおいて、5
5は第4図に示した相違度和しジス夕55と同一物であ
り「 56は加算器も蓬霧ないし63はアンド回路、6
4なし、し68はオア回路も69なし、し73はノット
回路を表わしている。
第4図に関連して説明した如くレジスタ55にセットさ
れた相違度和が第5図において絶対値に変換される。
即ち、レジスタ55の内容は符号ビットと数値ビットと
で構成されているが、符号ビットの内容によって正の数
値を示している場合数値ビットの内容がそのまま「負の
数値を示している場合数値ビットの内容の補数をとって
加算器56に導びくようにしている。第3図に示した類
似度和しジス夕43の内容は第1図図示の加算回路日こ
導びかれ、一方第5図図示の相違度和絶対値加算器56
の内容が第1図図示の重み付け回路Wを介して加算回路
F‘こ導びかれる。
そして加算回路Fでは上記第■式にしたがった演算が行
なわれる。第6図に示す最大検出回路Gにおいて、74
ないし8川まアナログ出力化回路、81ないし87はア
ナログ比較回路、覇8ないし94はダイオード、95な
し、し101はアンド回路、a,b,……g・・・・・
・は第1図図示の各加算回路Fからの出力(デジタル)
、“A”、“B”、……蝋G”、……は認識カテゴリの
名称に対応した信号で識別すべき話者がPi、識別すべ
き単語(単文章)がQ個存在し得るものとすればカテゴ
リの名称はP×Q個存在することとなり、該最大検出回
路GはP×Q個のうちの1つを例えば出力“A”として
選出する。
各アナログ化回路74なし、し函川ま第6図下方に示さ
れる如き構成をもつており「上記第{21式にしたがっ
た演算結果がデジタル量としてレジスタREGにセット
されたとき、各ビットに対して重み抵抗1ないしi′才
6が与えられ「アナログ加算器ADDE則こ導びかれる
。このようにアナログ量に変換した各アナログ化回路の
出力は対応するアナログ比較回路81なし、し87に導
びかれる。
そして各アナログ比較回路の一方の入力には、各アナロ
グ化回路74ないし80の出力をダイオード88ないし
94に導びし、た最大レベル選出手段の出力を供給され
る。なお各ダイオードの出力側端には各アナログ化回路
74ないし80の出力のうち最大レベルにあるもののレ
ベルよりも僅かに小さい値となる。各アナログ比較回路
81なし「し87は、上記最大レベル選出手段からの出
力レベルと各対応するアナログ化回路74なし、し80
からの出力レベルとを比較し、信号a,b,……g・・
・・・・のうち最大値をもつものに対応した1つの比較
回路から“1”出力が発生される。
そして、これによって識別されたカテゴリに対応した出
力“A”(上述の説明ではある特定の話者が数字“4”
を発したものと識別した出力)が現われる。以上説明し
た如く「本発明によれば、複数の標準音素組と入力音声
の音素との類似度をとるようにしているので、話者のな
まりなど特徴をつかむことが可能となり、また標準音素
による類似度とピッ升こよる相違度との両者を認識に利
用するようにしたので話者の声帯に関する特徴を把握し
て話者の認識をより有効に行なうことができる。
第3図および第4図に示した信号イ,口,ハ,二はピッ
チによる相違度の側を主体として音素よる類似度側の切
換えを行なってもよいことは言うまでもない。
【図面の簡単な説明】
第1図は本発明による音声認識方式の一実施例を表わす
全体構成図、第2図は第1図においてブロックAとして
表わした一実施例の類似度計算回路、第3図は第1図に
おいてブロックCとして表わした一実施例の類似度和の
計算回路で予め単語毎および話者毎に用意された標準時
間系列パターンにしたがって類似度和を計算するもの、
第4図は第1図においてブロックBおよびDとして表わ
した一実施例の相違度計算回路および相違度和計算回路
で予め単語毎および話者毎に用意された標準時間系列パ
ターンにしたがって相違度和を計算するもの、第5図は
第1図においてブロックEとして表わした−実施例の相
違度和絶対値化回路、第6図は第1図においてブロック
Gとして表わした−実施例の最大検出回路を夫々示して
いる。 図中1はkパラメータ抽出・ピッチ抽出装置、2,4,
6,8,10,…・・・は標準kパラメータ格納部、3
,5,7,9,11,・・・・・・は標準ピッチ格納部
、Aは類似度計算回路、Bは相違度計算回路、Cは類似
度和計算回路、Dは相違度天0計算回路、Eは絶対値化
回路、Wは重み付け回路、Fは加算回路、Gは最大抽出
回路を表わしている。ナー図ナZ脚 了3凶 才4凶 寸ぶ斑 ÷r 6 斑

Claims (1)

  1. 【特許請求の範囲】 1 文章を含む単語および該単語を発した話者のいずれ
    か一方または両方を認識する音声認識方式において、標
    準音素の複数の時間系列パターンおよび該各標準音素の
    声帯に関する標準特徴係数の複数の時間系列パターンを
    そなえると共に、入力音声を予め定めた時間間隔で区分
    した当該時間間隔内の音楽と上記標準音素との類似度を
    演算する手段および上記当該時間間隔内の声帯に関する
    特徴係数と上記標準特徴係数との類似度を演算する手段
    をそなえ、上記入力音声の上記音素の時間系列について
    の上記標準音素の時間系列パターンに対する類似度と上
    記入力音声の上記声帯に関する特徴係数の時間系列につ
    いての上記標準特徴係数の時間系列パターンに対する類
    似度との関数値にもとづいて上記認識を行なうことを、
    特徴とする音声認識方式。 2 文章を含む単語および該単語を発した話者のいずれ
    か一方または両方を認識する音声認識方式において、標
    準音素が複数個分組合わせられた標準音素組を単位とし
    該複数個の標準音素組を時系列に配列した複数の時間系
    列パターンおよび該各標準音素組の声帯に関する標準特
    徴係数の複数の時間系列パターンをそなえると共に、入
    力音声を予め定めた時間間隔で区分した当該時間間隔内
    の音素と上記複数の標準音素組との類似度を演算する手
    段および上記当該時間間隔内の声帯に関する特徴係数と
    上記標準特徴係数との類似度を演算する手段をそなえ、
    上記入力音声の上記音素の時間系列についての上記標準
    音素組の時間系列パターンに対する類似度と上記入力音
    声の上記声帯に関する特徴係数の時間系列についての上
    記標準特徴の複数係数の時間系列パターンに対する類似
    度との関数値にもとづいて上記認識を行なうことを特徴
    とする音声認識方式。
JP49041341A 1974-04-12 1974-04-12 音声認識方式 Expired JPS605960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP49041341A JPS605960B2 (ja) 1974-04-12 1974-04-12 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP49041341A JPS605960B2 (ja) 1974-04-12 1974-04-12 音声認識方式

Publications (2)

Publication Number Publication Date
JPS50149207A JPS50149207A (ja) 1975-11-29
JPS605960B2 true JPS605960B2 (ja) 1985-02-14

Family

ID=12605805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP49041341A Expired JPS605960B2 (ja) 1974-04-12 1974-04-12 音声認識方式

Country Status (1)

Country Link
JP (1) JPS605960B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
JPS56132400A (en) * 1980-03-22 1981-10-16 Sanyo Electric Co Voice recognition device
JPS56135900A (en) * 1980-03-27 1981-10-23 Sanyo Electric Co Word voice recognition device
JPS5764298A (en) * 1980-10-06 1982-04-19 Nippon Denso Co Voice recognizing device

Also Published As

Publication number Publication date
JPS50149207A (ja) 1975-11-29

Similar Documents

Publication Publication Date Title
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
US4754485A (en) Digital processor for use in a text to speech system
JPS58100199A (ja) 音声認識及び再生方法とその装置
JPH0643897A (ja) 会話認識システム
JPS6466698A (en) Voice recognition equipment
US10453476B1 (en) Split-model architecture for DNN-based small corpus voice conversion
CN115206293B (zh) 一种基于预训练的多任务空管语音识别方法及装置
CN112633175A (zh) 复杂环境下基于多尺度卷积神经网络单音符实时识别算法
JPS6128998B2 (ja)
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
CN113707112A (zh) 基于层标准化的递归跳跃连接深度学习音乐自动生成方法
JPS605960B2 (ja) 音声認識方式
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN115985310A (zh) 一种基于多级视听融合的构音障碍语音识别方法
Ranjan et al. Using a bi-directional lstm model with attention mechanism trained on midi data for generating unique music
JPS59223499A (ja) 音素認識装置
Watada Speech recognition in a multi-speaker environment by using hidden markov model and mel-frequency approach
JPS616732A (ja) 発声訓練装置
CN113539232B (zh) 一种基于慕课语音数据集的语音合成方法
Wei et al. TFC-SpeechFormer: Efficient Emotion Recognition Based on Deep Speech Analysis and Hierarchical Progressive Structures
Monica et al. Emotion Recognition Results using Deep Learning Neural Networks for the Romanian and German Language
JP2980382B2 (ja) 話者適応音声認識方法および装置
Deriche On the performance of ensemble-based classifiers for Arabic speech recognition
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
Alferaih A Voice and Facial Recognition System to Protect Students from Being Forgotten Inside School Buses in the Kingdom of Saudi Arabia