JPH03171199A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH03171199A
JPH03171199A JP1311756A JP31175689A JPH03171199A JP H03171199 A JPH03171199 A JP H03171199A JP 1311756 A JP1311756 A JP 1311756A JP 31175689 A JP31175689 A JP 31175689A JP H03171199 A JPH03171199 A JP H03171199A
Authority
JP
Japan
Prior art keywords
value
section
continuous
memory
power signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1311756A
Other languages
English (en)
Inventor
Makoto Yamamoto
誠 山本
Ryohei Kumagai
熊谷 良平
Sunao Takatori
直 高取
Koji Matsumoto
幸治 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TAKAYAMA KK
Original Assignee
TAKAYAMA KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TAKAYAMA KK filed Critical TAKAYAMA KK
Priority to JP1311756A priority Critical patent/JPH03171199A/ja
Priority to KR1019900017967A priority patent/KR910010398A/ko
Priority to EP19900121501 priority patent/EP0429924A3/en
Publication of JPH03171199A publication Critical patent/JPH03171199A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声を認識する方法に関する。
〔従来の技術〕
従来、音声認識の手法として、音声を音素に分割し、各
音素を周波数解析する方法がある。この方法における音
素への分割に際し、まず音声パワーのレベルを検出し、
このレベルが所定値まで低下した点を音素の境界として
音声を分割することが試みられている。
[発明が解決しようとする課題] しかし、音声のパワーレベルは必ずしも各音素間におい
て所定値まで低下するとは限らず、音声パワーが全体的
に低下することもあり、パワーレベルの低下だけでは音
声の分割は困難である。
本発明の目的は、音声を確実に音素に分割して、音声を
正確に認識することを可能ならしめる音声認識方法を提
供することにある。
〔課題を解決するための手段〕
本発明は、音声分割ステップと周波数解析ステップとを
行う音声認識方法であって、上記分割ステップにおいて
、連続音声パワー信号の輪郭の凹部の深さを求めて、所
定値よりも大きい深さを有する凹部が音素境界であると
見做し、上記周波数解析ステップが、上記連続音声パワ
ー信号を2値化するステップと、この2値化された連続
パワー信号の積算値を計算するステップと、上記積算値
の微分値を求めるステップとを備えることを特徴として
いる。
〔実施例〕
以下図示実施例により本発明を説明する。
本発明の一実施例における音声認識においては、分割ス
テップおよび周波数解析ステップが行われ、これらの分
割ステップおよび周波数解析ステップの内容を列挙する
と次のようになる。
(1)分割ステップ 分割ステップでは、次の■〜■の処理が行われる。
■連続対数パワーのメモリへの格納 これは、音声のデシベル値をとるために行われる。
■連続パワーに対するスムージング ■において得られた音声のデータは、雑音によるパワー
の低下を減少させるとともに後の工程を簡単化するため
、スムージングが施され、音声信号の細かい凹凸が除去
される。
■連続パワーにおける凹部の検出 ある形状における輪郭は、方向コードにより表され、凸
閉包(包絡図形)は、包路線の頂点の候補から境界画素
へ向かう傾斜を検討することにより検出される。凹部は
、包絡線上の隣接する2つの点を接続する理論線から境
界画素までの距離を検討することにより、検出される。
その距離は、方向コードから演算により求められる。連
続パワーは既にスムージングされているので、所定の深
さよりも深い凹部は、通常、連続する音素の境界である
■各凹部の弦の中点の検出 音素の境界を明瞭に定めるため、各凹部の弦の中点が検
出される。この中点は、以後、r境界Jと定義される。
■連続パワーの各中点における分割 上記■により、連続パワーが音素に分割される。
この分割は、例えば元データの指標点を登録することに
より、実行される。
(2)周波数解析ステップ 周波数解析ステップでは、次の■〜■の処理が行われる
■連続対数パワーのヒストグラムの算出音声信号は通常
、音素と雑音から成り、周波数解析のため、音素の音声
信号が抽出されなければならない。雑音は音素よりも低
いパワーレベルを有しているので、音素信号は閾値処理
を行うことにより抽出される。この闇値処理は最適闇値
により行われ、闇値の最適化は、rモード法』あるいは
r判別分析法』のような画像処理における方法と同様に
して実施される。
本実施例において、ヒストグラムはrモード法』と同様
な闇値の最適化のために算出される。
■連続パワーの最適闇値の計算 ここでは、最適闇値は『モード法1により求めるものと
する。この方法において、画像処理の場合、最初、濃度
が画素数の順に並べ変えられる。
音声解析においては、パワーレベルの数が、そのレベル
が発生する頻度に従って、並べ変えられる。
並べ変えられたテーブルにおいて、最適闇値は次の式の
値が最大になるようなNbとして求められる。
(Na−Nb)X (Nc−Nb) なお、ここでNa,Ncはパワーの頻度の極大値、Nb
はパワーの頻度の極小値を示す。
■連続パワーの2値化 連続パワーは、上記■において計算された最適闇値を用
いて2{+!化される。
■2値化された連続パワーの積算 2値化された連続パワーは、時間とともに積算され、す
なわち時間TIにおける積算値は、初めから時間TIま
での2値化されたパワーの積算値に等しい。
■積算された連続パワーの微分 メモリに格納された積算値が微分され、これにより各時
間における周波数が計算される。
■各音素毎の微分値列の出力 上記(1)■の分割により得られた各音素毎に、微分値
列が出力される。この連続パワーの微分値は、その音素
の周波数を意味する。
さて、このようにして得られた音素の周波数およびパワ
ーのデータは、例えばDPマッチングにより予め定めら
れたパターンと比較され、これにより音声認識を行うこ
とが可能である。しかし、このような方法ではパターン
の数が多いために、マノチングのルールの適用が複雑で
あり、迅速かつ確実に音声認識をすることは困難である
。そこで本実施例では、次に述べる回路を用いて、より
高速かつ確実に音声認識を行っている。
第1図は音声認識システムの概略の構戒を示し、この音
声認識システムは、入力音韻に対応したデジタルデータ
パターンを生成する人力部lと、特徴処理部2と、認識
部3とを備え、これらはバスBを通して相互に接続され
るとともに、MPU4に接続されている。人力部lには
マイクロフォン等の入力機器とI/Oとを含み、I/O
には適宜、データ圧縮手段、データ保持のためのメモリ
等が含まれる。特徴処理部2は特徴抽出を行う処理部5
と、人力部で生威されたデジタルデータパタンを保持す
るメモリ6とを備え、所望により内部に人力部1が設け
られる。認識部3は、認識すべき音韻の特徴を抽出した
データが入力される入力部7と、人力パターンを経たデ
ータに基づいて連想を行う連想部8と、連想部8の出力
に基づいて、記憶事項が登録されたメモリ9のアドレス
を指定する変換部IOとを備えている。
第2図は特徴処理部2における処理部5を示すものであ
り、処理部5は、メモリ6からマルチプレクサl1を介
して選択的に取り込んだデータを1:’  ;hルハス
LBlt!してシリアル/パラレル変換部l2に転送し
ている。変換部12は所定バイト単位(例えば数10バ
イト)でデータを保持し、これらのデータを並列に演算
部l3に人力する。
演算部13は数値演算部14および状態演算部15を有
し、シリアル/パラレル変換部12の出力は数値演算部
14に入力される。
数値演算部14は、乗算部16、セレクタ17、統合部
18を順次接続してなり、微分その他のオペレータ処理
や画像間演算を行う。数値演算としては、例えばサンプ
リング周波数に乗数を乗した後にこれを数値的に統合す
る処理が行われるが、同一のデータには異なる絶対値の
乗数が掛けられることはないという発明者の知見に基づ
き最前段に乗算部16が配置されている。これによって
乗算部のカーネル数(乗算を行うための回路の組の数)
は、同時に処理するデータ数に等しい数すなわち最小値
とすることができ、これにともなって後段のセレクタお
よび統合部のゲート数も減少する。従って数値演算部は
小規模回路で最大限の機能をもつことができ、処理速度
も高速化される。
数値演算部l4内のデータは状態演算部15に導かれ、
状態演算部15は所定時間内のデータに対し次のような
判断または演算を行う。
a)パワーの急激な変化等セグメント(分割)に有効な
特徴。
b)周波数、パワーの極大値等音a員の中心フレーム検
出に有効な特徴。
C)その他。
このように数値演算とともに状態演算を並列的にしかも
別回路で行うことにより、各回路の効率化および高速化
を図ることができる。また状態演算部l5の出力は、そ
れ自体が有効な特徴量であり、あるいは特1vl.量抽
出のための有効なデータである。
状態演算部15の出力は変換部19に人力され、さらに
特徴抽出や、積算、比較などの処理により特徴量が求め
られる。
変換部l9はスタティックRAMなどの高速メモリの出
力の分岐にフルアダーなどの軽演算部を接続し、この軽
演算部の出力を高速メモリのデータ人力にフィードバッ
クしてなるものである。このような構戒により、同一デ
ータに同一演算を繰り返し施したり、データの積算、デ
ータの逐次比較等の複雑な演算を小規模の回路において
高速で行うことができる。
演算部13、変換部19の出力は出力側のローカルバス
LBを通して前記メモリ6のいずれかに戻されている。
出力側のローカルバスLBにはさらに逐次処理部20が
接続され、フィードバック的な逐次処理はこの逐次処理
部で行われる。逐次処理部20はラインメモリとラッチ
と論理部を備え、現在処理対象となっているデータより
一定時間前に処理されたデータを参照しつつ、逐次処理
を行う。
このような処理部においては、極めて多様な特ftlu
jtを高速で求めることができ、認識部3に貴重な特徴
量を供給し得る。なおメモリ6としてデュアルポートメ
モリを採用すれば、データの読出し、書き込みを極めて
高速で行い得る。
認識部3における連想部8としては、たとえば第3図に
示す回路が採用され、いわゆる記憶マトリックスに対す
る以下のようなマトリックス演算が行われる。
Z一φ。 (Myl M=xx X :記憶事項(縦ヘクトル) x’:xの転置行列 M :記憶行列 y :入力(縦ベクトル)の転置行列 φ。:量子化関数(行列の各要素を正のとき1、Oのと
きO、負のとき−1に 変換する。) Z :連想(縦ベクトル) 認識部3はデュアルポートメモリ21を備え、デュアル
ポートメモリ21のシリアルI/O(図中SIOで示す
)には連想部あるいは行列演算部22が接続されている
。行列演算部22の出力は量子化部23に接続されてい
る。
デュアルボートメモリ2lには、記憶事項を示すヘクト
ル(n行とする)とその転置行列との積よりなるnXn
のマトリクスがその行列の配列に応して登録され、シリ
アルI/O (S I○)にはこのマトリクスが1行単
位で読み出される。S■0に読み出されたデータは1ク
ロツク毎に1要素ずつ出力され、その読み出しは高速で
ある。
行列演算部22はn行のベクトルよりなる入力パターン
全体を保持する連想用入力部24を備え、この連想用入
力部24は例えばシフトレジスタで構威されている。入
力部24で保持された入力パターンとSfOから出力さ
れるデータは乗算部25で要素毎に乗算され、乗算結果
は加算部26においてそれまでの乗算結果の累積と加算
される。
それまでの乗算結果の累積は保持部27に格納される。
入力パターンの積の累積値すなわち MXy が求められたときには、その値は量子化部23に入力さ
れる。
量子化部23では MXy の各要素を、正ならば1に、0ならばOに、負ならば−
1に変換し、その結果を第2のデュアルポートメモリ2
8に格納する。
量子化部3は例えば第4図のように構威され、要素Eの
絶対値を閾値Hと比較し、そのサインフラグS2を出力
する。また要素EのサインフラグS1とサインフラグs
2から、次の論理により量子化した値の絶対値Vとその
サインフラグs:lをを出力する。
S:l  =S+  x丁2 入力パターンとしては前述の特徴処理部2で得られた特
徴量が人力される。ここで入カパターンの大きさをIK
ハイトとすると、全体で1000行の縦ヘクトルとなり
、記憶行列は1000 X 1000、要素数100万
の行列となる。
デュアルポートメモリにおける続出しサイクルを40n
secとすると、記憶行列の読出しは、40X10−9
XI,000,OOO=40msec程度の時間で行う
ことができる。
なお各プロソク間をパイプライン処理とすれば、全体の
処理をより高速化でき、また第2のデュアルボートメモ
リ2日を省略して、第1のデュアルポートメモリ2lに
処理結果を格納してもよい。
行列演算部22にはさらに学習のための構戒要素が含ま
れており、学習のための構成要素と連想のための構或要
素はマルチプレクサ等で選択される。
乗算部25には、SIOと学習用の人力パターンとを選
択するマルチプレクサ29が接続され、加算部26には
、保持部27の出力とSIOの出力とを選択するマルチ
プレクサ30が接続されている。
学習用の入力パターンは、人力パターンとその転置行列
との積であり、シフトレジスタ24に保持されたヘクト
ルの全要素の1つを乗じたものを加算する。この1つの
要素の保持のために保持部31が設けられている。
このように構威された人力パターンはl行毎に加算部2
6において記憶行列Mに加算される。
前記量子化部23は最大値を固定する機能に切換わるこ
とが可能であり、人力パターンと記憶行列との和におい
て所定の最大値を越えるものがあるときにはそれを所定
の最大値に変更する。例えば記憶行列の各要素を8ビッ
トとすると、人力パターンとの加算により要素が255
を越え0に戻るおそれがあるが、最大値を255に規制
しておけばそのような問題は生じない。
このようなニューラルネットワーク型の認識部3は、連
想結果に対して教師信号を与えていくことにより、記憶
行列の各要素が変化し、最適な連想を生しるように教育
し得る。従って、人為的に連想パターンを決定する必要
はなく、容量の許す範囲内で任意の音韻の認識に適用で
き、音声認識においては、ユーザの音韻群の特性を学習
してそのユーザの音声を高い確率で認識し得るようにな
る。
第1図において、メモリ9には種々の記憶行列の各値お
よび最終的に連想すべき文字などのデータが登録されて
おり、一定の連想を行うときには記憶行列の各要素を連
想部8のデュアルポートメモリ21(第3図)に転送す
る。連想部8の出力は連想すべき音韻のコード番号等と
し、コード番号でメモリ9のアドレスを直接指定し、あ
るいは、連想部8の出力を変換部10でコード番号に変
換してメモリ9のアドレスを指定してもよい。
なお連想部8の構成は以上の実施例に限定されるもので
はなくマカロツク・ビンツモデルに基づいたコネクショ
ンマシーン等をも使用し得る。ただし現在の半導体技術
では大容量、小型のコネクションマシーンをハードウエ
アで構成することは困難であるので、記憶行列を用いた
構戒が好ましい さらに特徴処理部2は前記実施例に限定されるものでは
なく、多くの特徴量を抽出し得る処理システムであれば
任意の構成を採用し得る。
さて、上述した(1)および(2)を再び参照し、分割
ステップおよび周波数解析ステップにおける各処理がど
の回路において行われるかについて説明する。
(1)分割ステップ ■連続対数パワーの登録 リアルタイムの音声信号が入力部1に人力され、アナロ
グ回路によって連続対数パワーに変換される。そして連
続対数パワーは、特徴処理部2のメモリ6に入力される
■連続パワーのスムージング スムージングされたデータは、元のデータを保持するた
め、元のデータが格納されたのとは別のメモリ6に格納
される。このスムージングのステップは、特徴処理部2
の処理部5において行われる。乗算部l6は、所定時間
の間、音声データに「1」を乗じる。統合部18は、加
算および減算の機能によって、乗算されたデータの平均
値を計算する。
■連続パワーの凹部の検出 MPU4により実行される。
■各凹部の弦の中点の検出 MPU4により実行される。
■連続パワーの各中点における分割 (2)周波数解析ステップ ■連続対数パワーのヒストグラムの算出ヒストグラムは
処理部5の変換部19の高速メモリ内に格納される。
■連続パワーの最適闇値の計算 最低閾値はMPU4により求められる。
■連続パワーの2値化 2値化は、変換テーブルとしての変換部l9を用いて、
この変換部19によって行われる。
■2値化された連続パワーの積算 2値化された連続パワーは連続的に積算される。
この積算は、アダーとしての光演算部を定義するととも
に、処理部5の変換部l9において実行される。高速メ
モリ内に格納されている値は、新しい2値化されたパワ
ーに加算され、そして再び高速メモリ内に格納される。
各時間における積算値は同時にメモリ6内にも格納され
る。
■積算された連続パワーの微分 微分演算は、シリアル/パラレル変換部12および数値
演算部l4によって実行される。所定時間内のパワーの
データは、いったん変換部l2に格納される。乗算部1
6は、微分のために、各時間毎に所定の乗数をデータに
乗じる。統合部1日は、微分値を得るために主6こ引算
を行う。微分値は各時間における周波数であり、これは
元のデータが格納されていたのとは異なるメモリ6内に
格納される。
■各音素の微分値列の出力 微分値列が上記(1)、■の分割により得られた各音素
ムこ連想部8に出力される。微分された連続パワーは、
ローカルバスLBを介してメモリから処理部3へ出力さ
れる。
なお連想部8の構或は以上の実施例に限定されるもので
はなくマカロツタ・ピソッモデルに基づいたコネクショ
ンマシーン等をも使用し得る。ただし現在の半導体技術
では大容量、小型のコネクションマシーンをハードウエ
アで構戒することは困難であるので、記憶行列を用いた
構戚が好ましい。
さらに特徴処理部2は前記実施例に限定されるものでは
なく、多くの特ffilを抽出し得る処理システムであ
れば任意の構成を採用し得る。
〔発明の効果〕
以上のように本発明によれば、音声が確実に音素に分割
され、音声が正確に認識されることが可能になるという
効果が得られる。
【図面の簡単な説明】
第L図はこの発明に係る音声認識システムの一実施例を
示すブロック図、 第2図は同実施例における特徴処理部を示すブロック図
、 第3図は同実施例における連想部を示すブロノク図、 第4図は連想部における量子化部を示すブロック図ある
。 第 1 図

Claims (1)

    【特許請求の範囲】
  1. (1)音声分割ステップと周波数解析ステップとを行う
    音声認識方法であって、 上記分割ステップにおいて、連続音声パワー信号の輪郭
    の凹部の深さを求めて、所定値よりも大きい深さを有す
    る凹部が音素境界であると見做し、上記周波数解析ステ
    ップが、上記連続音声パワー信号を2値化するステップ
    と、この2値化された連続パワー信号の積算値を計算す
    るステップと、上記積算値の微分値を求めるステップと
    を備えることを特徴とする音声認識方法。
JP1311756A 1989-11-30 1989-11-30 音声認識方法 Pending JPH03171199A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP1311756A JPH03171199A (ja) 1989-11-30 1989-11-30 音声認識方法
KR1019900017967A KR910010398A (ko) 1989-11-30 1990-11-07 음성인식방법
EP19900121501 EP0429924A3 (en) 1989-11-30 1990-11-09 Acoustic recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1311756A JPH03171199A (ja) 1989-11-30 1989-11-30 音声認識方法

Publications (1)

Publication Number Publication Date
JPH03171199A true JPH03171199A (ja) 1991-07-24

Family

ID=18021103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1311756A Pending JPH03171199A (ja) 1989-11-30 1989-11-30 音声認識方法

Country Status (3)

Country Link
EP (1) EP0429924A3 (ja)
JP (1) JPH03171199A (ja)
KR (1) KR910010398A (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3688126A (en) * 1971-01-29 1972-08-29 Paul R Klein Sound-operated, yes-no responsive switch
US4468204A (en) * 1982-02-25 1984-08-28 Scott Instruments Corporation Process of human-machine interactive educational instruction using voice response verification
US4817159A (en) * 1983-06-02 1989-03-28 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US4665548A (en) * 1983-10-07 1987-05-12 American Telephone And Telegraph Company At&T Bell Laboratories Speech analysis syllabic segmenter

Also Published As

Publication number Publication date
KR910010398A (ko) 1991-06-29
EP0429924A2 (en) 1991-06-05
EP0429924A3 (en) 1993-04-07

Similar Documents

Publication Publication Date Title
CN111488985B (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
JPH04312184A (ja) 画像処理システムのエッジ検出方法及びその装置
CN110780923B (zh) 应用于二值化卷积神经网络的硬件加速器及其数据处理方法
KR19990010210A (ko) 대용량 패턴 정합 장치 및 방법
CN111860077A (zh) 人脸检测方法、装置、计算机可读存储介质及设备
CN112270366A (zh) 基于自适应多特征融合的微小目标检测方法
US6240209B1 (en) Method for deriving character features in a character recognition system
CN113888505B (zh) 一种基于语义分割的自然场景文本检测方法
JPH03171199A (ja) 音声認識方法
US5136653A (en) Acoustic recognition system using accumulate power series
KR20190118332A (ko) 전자 장치 및 그 제어 방법
JPH02210589A (ja) 文字認識装置
JPS60132280A (ja) 直線/曲線デ−タ分離装置
EP0457909B1 (en) Data processing system
JPH01209582A (ja) 画像認識システム
JP2710139B2 (ja) 認識装置
CN112863520A (zh) 一种二值权重卷积神经网络模块及其用于声纹识别的方法
JPH04101284A (ja) 高精度ハフ変換装置
JPH06251202A (ja) 文字認識装置
CN114820680A (zh) 数字图像的细化方法及装置、设备、存储介质
JP3835937B2 (ja) 特徴抽出方法及び該方法を実施するための特徴抽出装置及び記録媒体
JP2861816B2 (ja) パターン認識辞書生成装置とパターン認識装置
JP2574517B2 (ja) パターン認識装置
JP2806436B2 (ja) 演算回路
JP2684857B2 (ja) 認識判断装置