JPH0719159B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0719159B2
JPH0719159B2 JP62087099A JP8709987A JPH0719159B2 JP H0719159 B2 JPH0719159 B2 JP H0719159B2 JP 62087099 A JP62087099 A JP 62087099A JP 8709987 A JP8709987 A JP 8709987A JP H0719159 B2 JPH0719159 B2 JP H0719159B2
Authority
JP
Japan
Prior art keywords
phoneme
hypothesis
phonological
utterance
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62087099A
Other languages
English (en)
Other versions
JPS63253997A (ja
Inventor
達郎 松本
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62087099A priority Critical patent/JPH0719159B2/ja
Publication of JPS63253997A publication Critical patent/JPS63253997A/ja
Publication of JPH0719159B2 publication Critical patent/JPH0719159B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔概要〕 この発明は、入力文字列候補に対して音素変形ルールを
適用して生成される多数の音韻仮説と、音声の音韻候補
とをマッチングする手数を削減するため、前回検証して
認識した認識結果と発声時間長とに基づいて適用する音
素変形ルールを選択し、生成される音韻仮説数を削減し
て音声認識を行うことにより、処理量を削減して高速に
音声認識を行うようにしている。
〔産業上の利用分野〕
本発明は、前回検証した認識結果と発声時間長とに基づ
いて適用する音素変形ルールを選択して生成される音韻
仮説数を削減し、高速に音声認識を行うよう構成した音
声認識装置に関するものである。
〔従来の技術〕
第4図構成を用いて従来のトップダウン音声認識におけ
る処理を説明する。
第4図において、仮説生成部21は、図示外の言語処理部
あるいは言語辞書から通知された文字列候補に対して、
音素変形ルール22を適用し、考えられる全ての音韻仮説
を生成する。一方、音声分析部4は、入力された音声
と、音韻辞書25とのマッチングを行い、音声に対する距
離付きの音韻候補列を生成する。これら音韻仮説および
音韻候補列の通知を受けた仮説検証部26は、両者のマッ
チングを行っていずれかのパスが所定閾値以下の距離で
あれば、文字列候補を音声認識結果として出力してい
た。
尚、音素変形ルール(日本語に適用するルール)として
は、例えば下記のものがある。
i 無声子音に挟まれた母音“i"または“u"は無声化す
る可能性がある。
ii 語中の“G"は鼻濁音化する可能性がある。
iii 鼻子音に隣接する母音は鼻音化する可能性がある。
iv 母音“i"が後続する子音は口蓋化する。
また、この音素変形ルールを、例えば“ASHITAGA"(あ
したが、明日が)という文字列候補を仮説生成部21に入
力すると、第5図に示すように、上記ルールi、ii、お
よびivが適用されて図示のような音韻仮説ネットワーク
を用いて示す音韻仮説群が生成される。
〔発明が解決しようとする問題点〕
従来の第4図構成は、起こり得る全ての音素変形を考慮
して音韻仮説(例えば第5図音韻仮説ネットワークを用
いて示す音韻仮説)を生成していたため、ある音声速度
では、起こり得ないものまでも含めて多数の音韻仮説を
生成して無駄に処理量を多くしてしまい、高速に音声認
識を行えないという問題点があった。これは、人間の発
声が、ゆっくりとていねいに発声された場合と、速くあ
いまいに発声された場合とでは、適用される音素変形ル
ールが異なるにもかかわらず、全ての音韻仮説を生成し
て音声認識を行っていたためと考えられる。
〔問題点を解決するための手段〕
本発明は、前記問題点を解決するため、前回の入力音声
の認識結果および発声時間長に基づいて発声速度を計算
する発声速度計算部7と、この発声速度計算部7によっ
て計算された発声速度に基づいて、音素変形ルール2の
うち適用するものを選択制御するルール制御部3とを設
け、このルール制御部3によって選択された音素変形ル
ールを上記仮説生成部1に通知して入力された文字列候
補に対する音韻仮説を生成し、音声認識を行うようにし
ている。
第1図は本発明の原理構成図を示す。図中仮説生成部1
は、図示外の言語処理部あるいは単語辞書から通知され
た文字列候補を受け取り、ルール制御部3を介して得ら
れた音素変形ルールを適用して音韻仮説を生成するもの
である。
音素変形ルール2は、文字列候補に対する音韻仮説を生
成するためのルールである。例えば無声子音に挟まれた
母音“i"または“u"は、無声化する可能性があるという
ルールである。
ルール制御部3は、発声速度計算部7から通知された発
声速度情報に基づいて、仮説生成部1に与える音素変形
ルールを選択制御するものである。
音声分析部4は、入力された音声と、音韻辞書5とのマ
ッチングを行い、距離付きの音韻候補列を生成するもの
である。
音韻辞書5は、各音韻毎にスペクトルパターンを格納し
たものである。
仮説検証部6は、音韻仮説と、音韻候補列とのマッチン
グを行っていずれかのパスが所定閾値以下の距離であれ
ば、文字列候補を音声認識結果として出力するものであ
る。
発声速度計算部7は、前回の発声の認識結果と、発声時
間長とを用いて計算した発声速度情報をルール制御部3
に通知するものである。
バッファ8は、前回の発声の認識結果と、発声時間長と
を記憶するものである。
〔作用〕
次に動作を説明する。
第1図において、仮説生成部1は、入力された音声に対
応して図示外の音声処理部などから通知された文字列候
補に対して、ルール制御部3を介して読み出された音素
変形ルールを適用し、音韻仮説を生成する。一方、音声
分析部4は、入力された音声と、音韻辞書5とのマッチ
ングを行い、距離付きの音韻候補列を生成する。仮説検
証部6は、音韻候補列と音韻仮説とのマッチングを行
い、その結果、いずれかのパスが所定の閾値以下の距離
であれば、当該文字列候補を音声認識結果として出力す
る。この際、発声速度計算部7は、バッファ8に記憶さ
れている前回の認識結果および音声の発声時間長に基づ
いて発声速度例えば5モーラ/秒をルール制御部3に通
知し、この発声速度の時に適用される音素変形ルール2
のみを仮説生成部1に通知するようにする。これによ
り、仮説生成部1は、前回の認識結果および発声時間長
によって選択された音素変形ルールのみを用いてマッチ
ングを行い、音韻仮説を生成する。
以上のように、入力された前回の音声の認識結果と、発
声時間長とに基づいて計算された発声速度をルール制御
部3に通知し、これに適合する音素変形ルールのみを用
いて文字列候補に対して音韻仮説を生成し、音声認識を
行うことにより、生成される音韻仮説数を削減して高速
に音声認識を行うことが可能となる。
〔実施例〕 次に、第2図および第3図を用いて本発明の1実施例の
構成および動作を詳細に説明する。
第2図において、仮説生成部1は、通知された文字列候
補(ローマ字列)に対し、音素変形ルールを適用し、音
韻仮説を生成するものである。
音素変形ルール2は、文字列候補に対し、音韻仮説を生
成するためのルールであって、下式の形式で表されるも
のである。
“発声速度:変形対象→変形結果/変形対象の環境”…
(1) ここで、発声速度は当該ルールが使用可能な最小の発声
速度例えば5モーラ(5音節)/秒を示し、変形対象は
音素変形の対象となる音素を示し、変形結果は音素が変
形した後の音韻を示し、変形対象の環境は変形対象の位
置とその音素環境を示す。具体例を第3図に示す。この
第3図具体例は、“発声速度が5モーラ/秒以上の場合
には、音素Iの前に無声化の音素があると、Iあるいは
無声化したIになる”というルールを表している。詳述
すると、第1番目の“5"が発声速度であって、第2番目
以降に示すルールが5モーラ/秒以上の時に適用される
旨を表している。第2番目の“I"は変形対象を表してい
る。第3番目の“{I,I−}”は、変形結果が“I"ある
いは“I−”(無声化したIを意味する)となることを
表している。第4番目の“[−voc]_"は、変形対象
“_"の前に無声音を示す音素があるという環境(条件)
を表している。以上のように、音声の発声速度に対応し
て適用される音素変形ルールの区別を設けることによ
り、生成される音韻仮説数を削減することが可能とな
る。
ルール制御部3は、発声速度計算部7から通知された発
声速度例えば5モーラ/秒に基づいて、音素変形ルール
2に付加された発声速度を考慮し、仮説生成部1に渡す
音素変形ルールを制限するものである。
音韻ラティス生成部4−1は、音韻辞書5に格納されて
いる各音素毎のスペクトルパターンと、入力音声とのマ
ッチングを行い、距離を計算して音韻ラティスを生成す
るものである。
音韻辞書5は、各音韻毎にスペクトルパターンを格納し
たものである。
仮説検証部6は、音韻仮説と、生成された音韻ラティス
とのマッチングを行い、音韻仮説ネットワークのいずれ
かのパスが、所定の閾値以下の距離であれば、文字列候
補を認識結果として出力するものである。
発声速度計算部7は、前回発声した認識結果から文字列
のモーラ数を計算、例えば“ASHITAGA"(あしたが、明
日が)に対しては“4"を計算し、これを発声時間長で割
算した発声速度(モーラ/秒)を計算するものである。
バッファ8は、前回の発声の認識結果と、発声時間長と
を記憶するものである。
単語辞書9は、認識すべき単語をローマ字表記(日本語
の場合)で格納するものである。
次に、第2図本発明の1実施例の構成の動作を説明す
る。
第2図において、発声速度計算部7は、バッファ8に記
憶されている前回の発声時間長および認識結果に基づい
て発声速度例えば5モーラ/秒を計算してルール制御部
3に通知する。この発声速度の通知を受けたルール制御
部3は、音素変形ルール2例えば第3図音素変形ルール
の先頭に記述されている発声速度を読み出し、適用でき
るもののみを抽出し、仮説生成部1に通知する。この音
素変形ルールの通知を受けた仮説生成部1は、音声入力
に伴って通知された文字列候補に対して、当該音素変形
ルールを適用して例えば第5図音韻仮説ネットワークを
用いて表される音韻仮説群を生成する。仮説検証部6
は、音声分析部4から通知された音韻ラティスが、この
音韻仮説ネットワークのいずれかのパスと所定の閾値以
下の距離で一致するものがあるか否かのマッチングを行
う。このマッチングの結果、所定閾値以下の距離のパス
があれば、文字列候補を音声認識候補として出力する。
最終的に、複数個の文字列が認識候補として出力される
が、仮説検証部6で計算される各文字列候補毎の音韻ラ
ティスとの距離が最も小さいものが認識結果とされる。
以上のように、発声速度計算部7およびルール制御部3
を用いて、前回の認識結果および発声時間長に基づいて
計算した発声速度によって適用される音素変形ルールの
みを抽出し、この音素変形ルールを仮説生成部1に通知
して音韻仮説ネットワークを生成し、音韻ラティスとの
マッチングを行って音声認識を行うことにより、音韻仮
説数を削減して高速に音声認識を行うことが可能とな
る。
〔発明の効果〕
以上説明したように、本発明によれば、前回検証して認
識した認識結果と発声時間長とに基づいて適用する音素
変形ルールを選択し、生成される音韻仮説数を削減して
音声認識を行う構成を採用しているため、音韻仮説数を
制限し、処理量を削減することができる。これにより、
高速に音声認識を行うことが可能となる。
【図面の簡単な説明】
第1図は本発明の原理構成図、第2図は本発明の1実施
例構成図、第3図は音素変形ルール例、第4図は従来装
置の構成図、第5図は音韻仮説ネットワーク例を示す。 図中、1は仮説生成部、2は音素変形ルール、3はルー
ル制御部、4は音声分析部、5は音韻辞書、6は仮説検
証部、7は発声速度計算部、8はバッファを表す。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭59−149400(JP,A) 特開 昭61−233793(JP,A) IEEE Trans.Acous t.,Speech,Signal Pr ocessing.Vol.ASSP− 32,No.2,PP.272−280,Apri l 1984

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力文字列候補に対して音素変形ルール
    (2)を適用し、音韻仮説を生成する仮説生成部(1)
    と、 入力音声と音韻辞書(5)とのマッチングを行い、音韻
    候補列を生成する音声分析部(4)と、 上記生成された音韻仮説と、上記音韻候補列とのマッチ
    ングを行い、音韻仮説の検証を行う仮説検証部(6)と
    を設け、音声認識を行う音声認識装置において、 前回の入力音声の認識結果および発声時間長に基づいて
    発声速度を計算する発声速度計算部(7)と、 この発声速度計算部(7)によって計算された発声速度
    に基づいて、音素変形ルール(2)のうち適用するもの
    を選択制御するルール制御部(3)とを備え、 このルール制御部(3)によって選択された音素変形ル
    ールを上記仮説生成部(1)に通知して入力された文字
    列候補に対する音韻仮説を生成し、音声認識を行うよう
    構成したことを特徴とする音声認識装置。
JP62087099A 1987-04-10 1987-04-10 音声認識装置 Expired - Fee Related JPH0719159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62087099A JPH0719159B2 (ja) 1987-04-10 1987-04-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62087099A JPH0719159B2 (ja) 1987-04-10 1987-04-10 音声認識装置

Publications (2)

Publication Number Publication Date
JPS63253997A JPS63253997A (ja) 1988-10-20
JPH0719159B2 true JPH0719159B2 (ja) 1995-03-06

Family

ID=13905503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62087099A Expired - Fee Related JPH0719159B2 (ja) 1987-04-10 1987-04-10 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0719159B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101689364B (zh) 2007-07-09 2011-11-23 富士通株式会社 声音识别装置和声音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEETrans.Acoust.,Speech,SignalProcessing.Vol.ASSP−32,No.2,PP.272−280,April1984

Also Published As

Publication number Publication date
JPS63253997A (ja) 1988-10-20

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
Siniscalchi et al. An artificial neural network approach to automatic speech processing
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
JP2815579B2 (ja) 音声認識における単語候補削減装置
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JPH073640B2 (ja) 音声パタンテンプレ−トを発生する装置及び方法
Abdelhamid et al. End-to-end arabic speech recognition: A review
Celin et al. A weighted speaker-specific confusion transducer-based augmentative and alternative speech communication aid for dysarthric speakers
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JPH0719159B2 (ja) 音声認識装置
US10600407B2 (en) Generation device, recognition system, and generation method for generating finite state transducer
Kaur et al. Formant Text to Speech Synthesis Using Artificial Neural Networks
Dropuljić et al. Development of acoustic model for Croatian language using HTK
JP2001188556A (ja) 音声認識方法及び装置
JPS6229796B2 (ja)
JP3299170B2 (ja) 音声登録認識装置
Schneider et al. Use of word Pairs and context to achieve better automatic speech recognition results with foreign English speakers
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
Alfadhli et al. qArI: A Hybrid CTC/Attention-Based Model for Quran Recitation Recognition using Bidirectional LSTMP in an End-to-End Architecture
JP2578771B2 (ja) 音声認識装置
JPH08171396A (ja) 音声認識装置
JPH07104782A (ja) 音声認識装置
JPS60182499A (ja) 音声認識装置
JPH0585918B2 (ja)
JPS6180298A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees