JPH06161495A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06161495A
JPH06161495A JP34395392A JP34395392A JPH06161495A JP H06161495 A JPH06161495 A JP H06161495A JP 34395392 A JP34395392 A JP 34395392A JP 34395392 A JP34395392 A JP 34395392A JP H06161495 A JPH06161495 A JP H06161495A
Authority
JP
Japan
Prior art keywords
voice
recognition
unit
speaker
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP34395392A
Other languages
English (en)
Inventor
Tomohiko Beppu
智彦 別府
Fuoogeru Deetoritsuhi
フォーゲル デートリッヒ
Takahiro Watanabe
孝宏 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP34395392A priority Critical patent/JPH06161495A/ja
Publication of JPH06161495A publication Critical patent/JPH06161495A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 単語音声認識との融合が容易な音声認識装置
を提供すること。 【構成】 入力音声の時間−周波数パターンを2値化す
る周波数分析部13と2値化部14とを有して入力音声
の特徴量を抽出する特徴量抽出手段12と、抽出された
入力音声の特徴量BTSPをニューラルネットワークの
入力として話者認識を行う認識処理手段15とにより構
成し、単語音声認識の場合と同じ2値化特徴量BTSP
に基づき話者認識可能とすることにより、単語音声認識
を融合させたシステムを構築し得るようにした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声によるパスワード
の設定などのセキュリティ分野、或いは、音声によるO
A機器の制御などに適用可能な音声認識装置に関する。
【0002】
【従来の技術】一般に、人間による基本的な意志伝達手
段は音声であり、古くから、身近にいる人に対しては音
声により意志伝達がなされている。ここに、近年では機
械とのコミュニケーションが注目されているが、人間の
立場から考えると、マン−マシンインターフェースとし
て、音声による対話が望ましい。このため、機械に人間
の言葉を入力するために音声認識の研究が盛んになされ
ているが、現状では、単語認識を目的とし、かつ、使用
者の音声でトレーニング後に使えるようにした特定話者
方式のものが多い。また、単語音声認識とは別に話者が
誰でるかを認識する音声話者認識の研究も行われてい
る。
【0003】例えば、特開平2−273798号公報に
よれば、入力として音声の平均的な周波数特性及び平均
的なピッチ周波数を特徴量として、ニューラルネットワ
ークにより話者認識を行うようにした話者認識方式が示
されている。この方式によれば、経時的な認識率の劣化
が少なく、かつ、容易に実時間処理し得る。
【0004】また、特開平3−157698号公報によ
れば、同様にニューラルネットワークを用いた話者認識
システムにおいて、登録話者認識用、追加学習用閾値に
基づいて話者判定、追加学習実施判定を行うことで、経
時的な認識率の劣化を少なくしつつ実時間処理を可能に
したものが示されている。
【0005】例えば、図18にこの特開平3−1576
98号公報中に示される話者認識システム例を示す。ま
ず、複数のバンドパスフィルタ(BPF)1とピッチ抽
出部2と、これらのBPF1とピッチ抽出部2からの出
力値を各々平均する平均化回路3とにより構成されて入
力音声の特徴量として周波数特性の時間的変化とピッチ
周波数の時間的変化とを抽出する特徴量抽出部4が設け
られている。このような特徴量抽出部4の各平均化回路
3からの出力はニューラルネットワーク部5に入力され
て処理され、その出力を判定回路部6で処理するように
構成されている。
【0006】一方、人間の立場から考えると、我々自身
がいろいろな人の声でも認識し得ることから、不特定話
者認識が可能な単語音声認識方式が望まれることもあ
り、このような観点から研究したものとして、電気学会
論文誌Vol.108−C,No10,’88中の858
〜865頁に示される「2値のTSPを用いた単語音声
認識システムの開発」によれば、音声の特徴量として時
間−周波数パターン(Time Spectrum Pattern =T
SP) を2値化したものを用い、不特定話者による音
声認識を行うようにしたものが報告されている。これ
は、不特定話者方式の課題である話者による特徴量の変
動を吸収するために、ファジー理論でいうメンバーシッ
プ関数の概念を導入したものである。
【0007】また、別の観点として、音声ないし話者の
認識結果の出力形態に着目すると、例えば特開平3−1
11899号公報に示される音声錠装置のように、入力
音声から話者を認識し、その認識結果により錠の開閉を
行うようにしたもの(即ち、話者認識結果は、錠の開閉
により示されることになる)や、特開平2−30939
8号公報に示される音声による照明制御装置のように、
音声認識結果により照明の制御を行うようにしたもの
(即ち、音声認識結果は照明の変化により示されること
になる)がある。さらに、ディスプレイを備えたコンピ
ュータなどにおいて音声認識を行う場合では、音声認識
結果をディスプレイに表示するようにしたものもある。
【0008】
【発明が解決しようとする課題】ところが、このような
従来の話者認識方式と単語音声認識方式とでは異なる特
徴量を用いて各々の認識を行うので、両者を融合したシ
ステムを構築するのは困難な状況にある。
【0009】また、音声認識を行う場合においては、話
者が異なればその単語音声も異なるため、認識率が低下
してしまう可能性がある。その解決手段として、音声の
特徴量を抽出する方式では、できるだけ、話者に依存し
ない特徴量を用いることが考えられるが、まだ、充分な
認識率を得るまでには至っていないものである。また、
予め登録しておく音声辞書のデータが大きくなればパタ
ーンマッチングの演算に時間がかかり過ぎてしまう。一
方、ニューラルネットワークを利用した方式では、ネッ
トワークの持つ記憶容量を大きくする等、高機能化を図
るためには、ネットワーク規模を大きくする必要がある
が、ソフトウエア構成のニューラルネットワークの場合
であれば演算時間が長くかかってしまい、ハードウエア
構成のニューラルネットワークの場合、結線の問題もあ
りネットワークの大規模化には限度があり、学習可能な
データ量にも限度がある。
【0010】さらに、認識結果の出力形態を考えた場
合、何れによる場合も、単に認識結果を示すだけのもの
であり、マン−マシンコミュニケーションを考慮した出
力形態とはなっていない。人間同士の会話であれば、ノ
イズなどで音声が聞きとりにくく、音声認識が不確かな
ときは、相手に聞きかえすことで、音声認識が不十分で
あったことを示し、音声認識を確実にするとか、認識が
確かであっても重要な情報であれば、やはり、相手に確
認をとるといったように、確実に意志伝達ができるよう
に、相手とのコミュニケーションを図っているのとは程
遠いものとなってしまう。
【0011】
【課題を解決するための手段】請求項1記載の発明で
は、入力音声の時間−周波数パターンを2値化する周波
数分析部と2値化部とを有して入力音声の特徴量を抽出
する特徴量抽出手段と、抽出された入力音声の特徴量を
ニューラルネットワークの入力として話者認識を行う認
識処理手段とにより構成した。
【0012】加えて、請求項2記載の発明では、2値化
部により入力音声の2値化した特徴量に基づき単語音声
の認識を行う単語音声認識手段を設けた。この際、請求
項3記載の発明では、抽出された入力音声の特徴量をニ
ューラルネットワークの入力として単語音声の認識を行
う単語音声認識手段とした。
【0013】一方、請求項4記載の発明では、入力音声
の時間−周波数パターンを2値化する周波数分析部と2
値化部とを有して入力音声の特徴量を抽出する特徴量抽
出手段と、音声の特徴量を格納した音声辞書と、この音
声辞書に格納された音声の特徴量と前記特徴量抽出手段
により抽出された音声の特徴量とを比較してその類似度
を算出する類似度算出手段と、算出された類似度に基づ
き入力音声の認識を行う認識手段と、前記類似度算出手
段により算出された類似度の度合いと前記認識手段によ
る入力音声の認識結果とに応じて報知内容を生成する報
知内容生成手段と、生成された報知内容を認識結果とし
て報知する報知手段とにより構成した。
【0014】請求項5記載の発明では、入力音声の時間
−周波数パターンを2値化する周波数分析部と2値化部
とを有して入力音声の特徴量を抽出する特徴量抽出手段
と、抽出された入力音声の特徴量をニューラルネットワ
ークの入力としこのニューラルネットワークの出力信号
に応じて前記入力音声の認識を行う認識手段と、前記ニ
ューラルネットワークの出力信号の信号強度と前記認識
手段による入力音声の認識結果とに応じて報知内容を生
成する報知内容生成手段と、生成された報知内容を認識
結果として報知する報知手段とにより構成した。
【0015】請求項6記載の発明では、これらの請求項
4又は5記載の発明において、報知手段を、音声出力手
段とした。
【0016】一方、請求項7記載の発明では、入力音声
の時間−周波数パターンを2値化する周波数分析部と2
値化部とを有して入力音声の特徴量を抽出する特徴量抽
出手段と、音声の特徴量を格納した複数の音声辞書と、
これらの音声辞書中の一つを選択する選択手段と、選択
された前記音声辞書に格納された音声の特徴量と前記特
徴量抽出手段により抽出された音声の特徴量とを比較し
てその類似度を算出する類似度算出手段と、算出された
類似度に基づき入力音声の認識を行う認識手段とにより
構成した。
【0017】この際、請求項8記載の発明では、話者毎
に異ならせた複数の音声辞書とし、また、請求項9記載
の発明では、入力音声に応じて音声辞書の一つを選択す
る選択手段とし、さらに、請求項10記載の発明では、
話者認識手段を設け、この話者認識手段の認識結果に応
じて音声辞書の一つを選択する選択手段とした。
【0018】また、請求項11記載の発明では、入力音
声の時間−周波数パターンを2値化する周波数分析部と
2値化部とを有して入力音声の特徴量を抽出する特徴量
抽出手段と、複数のニューラルネットワークと、これら
のニューラルネットワーク中の一つを選択する選択手段
と、抽出された入力音声の特徴量を選択されたニューラ
ルネットワークの入力としこのニューラルネットワーク
の出力信号に応じて前記入力音声の認識を行う認識手段
とにより構成した。
【0019】この際、請求項12記載の発明では、話者
毎に異ならせた複数のニューラルネットワークとし、請
求項13記載の発明では、入力音声に応じてニューラル
ネットワークの一つを選択する選択手段とし、さらに、
請求項14記載の発明では、話者認識手段を設け、この
話者認識手段の認識結果に応じてニューラルネットワー
クの一つを選択する選択手段とした。
【0020】さらに、請求項15記載の発明では、入力
音声の時間−周波数パターンを2値化する周波数分析部
と2値化部とを有して入力音声の特徴量を抽出する特徴
量抽出手段と、ニューラルネットワークと、このニュー
ラルネットワークの複数種のシナプス荷重を記憶する記
憶手段と、これらのシナプス荷重中の一種を選択する選
択手段と、選択されたシナプス荷重を前記ニューラルネ
ットワーク中に書込む書込み手段と、抽出された入力音
声の特徴量を前記ニューラルネットワークの入力としこ
のニューラルネットワークの出力信号に応じて前記入力
音声の認識を行う認識手段とにより構成した。
【0021】この際、請求項16記載の発明では、話者
毎にニューラルネットワークを学習させて得られた話者
毎に異ならせた複数種のシナプス荷重とし、請求項17
記載の発明では、入力音声に応じてシナプス荷重の一種
を選択する選択手段とし、請求項18記載の発明では、
話者認識手段を設け、この話者認識手段の認識結果に応
じてシナプス荷重の一種を選択する選択手段とした。
【0022】
【作用】請求項1記載の発明においては、特徴量抽出手
段により入力音声の時間−周波数パターンを2値化した
ものを話者認識の特徴量として、ニューラルネットワー
ク構成の認識処理手段に入力させて話者認識を行うの
で、単語音声認識の場合と同じ特徴量による話者認識が
可能となり、単語音声認識との融合が可能となる。
【0023】よって、請求項2又は3記載の発明のよう
に、2値化部により入力音声の2値化した特徴量に基づ
き認識処理を行う単語音声認識手段、特に、ニューラル
ネットワーク構成の単語音声認識手段を設けることによ
り、容易に同じ特徴量を用いて話者認識と単語音声認識
とを行い得るシステムの構築が可能となり、例えば、パ
スワードなどの特定の単語の認識を加えることなどによ
り、より高い精度の話者認識が可能となる。
【0024】一方、請求項4記載の発明においては、算
出された類似度の度合いと入力音声の認識結果とに応じ
て報知内容を生成する報知内容生成手段を設け、生成さ
れた報知内容を認識結果として報知手段で報知するの
で、音声の類似度が低い場合には認識結果を確認する旨
の報知内容とする、といったようにヒューマンライクな
報知を行うことができ、誤認率が低下するものとなる。
【0025】請求項5記載の発明においても、同様に、
ニューラルネットワークの出力信号の信号強度と認識手
段による入力音声の認識結果とに応じて報知内容を生成
する報知内容生成手段を設け、生成された報知内容を認
識結果として報知手段で報知するので、ニューラルネッ
トワークの認識による出力信号の信号強度が弱い場合に
は認識結果を確認する旨の報知内容とする、といったよ
うにヒューマンライクな報知を行うことができ、誤認率
が低下するものとなる。
【0026】請求項6記載の発明においては、報知手段
を音声出力手段としたので、音声のみによる応答が可能
となり、よりヒューマンライクなマン−マシンコミュニ
ケーションが可能となる。
【0027】また、請求項7記載の発明においては、音
声辞書を複数備えて選択手段でその内の一つを選択使用
するので、個々の音声辞書を小規模化して類似度算出時
間を短縮させ得るとともに、適正な音声辞書を使用する
ことにより認識率を向上させることができる。特に、請
求項8記載の発明においては、複数の音声辞書が話者毎
に異なるものであるので、話者に応じて音声辞書を選択
することで、高い認識率が得られる。また、請求項9記
載の発明においては、選択手段が入力音声に応じて音声
辞書を選択するので、特別な切換え操作を要せず、音声
を入力するだけで音声辞書の切換えが可能となる。特
に、請求項10記載の発明においては、話者認識手段を
有するので、話者に応じた音声辞書の選択が可能とな
る。
【0028】また、請求項11記載の発明においては、
ニューラルネットワークを複数備えて選択手段でその内
の一つを選択使用するので、ニューラルネットワークの
大規模化を回避して、実現容易な規模のニューラルネッ
トワークにより、認識率の高い音声認識を行わせること
ができる。特に、請求項12記載の発明においては、複
数のニューラルネットワークが話者毎に異なるものであ
るので、話者に応じてニューラルネットワークを選択す
ることで、高い認識率が得られる。また、請求項13記
載の発明においては、選択手段が入力音声に応じてニュ
ーラルネットワークを選択するので、特別な切換え操作
を要せず、音声を入力するだけでニューラルネットワー
クの切換えが可能となる。特に、請求項14記載の発明
においては、話者認識手段を有するので、話者に応じた
ニューラルネットワークの選択が可能となる。
【0029】また、請求項15記載の発明においては、
ニューラルネットワークは一つとするが、このニューラ
ルネットワークで使用するシナプス荷重を複数種記憶さ
せておき、選択手段でその内の一種を選択使用するの
で、ニューラルネットワークの大規模化を回避して、実
現容易な規模のニューラルネットワークを実質的に多様
化して、認識率の高い音声認識を行わせることができ
る。特に、請求項16記載の発明においては、複数種の
シナプス荷重を話者毎に学習させたものとしているの
で、話者に応じたシナプス荷重を選択することで、高い
認識率が得られる。また、請求項17記載の発明におい
ては、選択手段が入力音声に応じてシナプス荷重を選択
するので、特別な切換え操作を要せず、音声を入力する
だけでシナプス荷重の切換えが可能となる。特に、請求
項18記載の発明においては、話者認識手段を有するの
で、話者に応じたシナプス荷重の選択が可能となる。
【0030】
【実施例】請求項1記載の発明の一実施例を図1及び図
2に基づいて説明する。まず、音声を入力するためのマ
イクロフォン11が設けられ、このマイクロフォン11
には特徴量抽出部(特徴量抽出手段)12が接続されて
いる。この特徴量抽出部12中にはフィルタバンクなど
による周波数分析部13と2値化部14とが設けられて
いる。これにより、マイクロフォン11を通して入力さ
れた音声を周波数分析部13で周波数分析し、パワース
ペクトルに変換する。このパワースペクトルから周波数
上のピークを抽出し、それに基づいて2値化部14で
「0」と「1」の2値化処理を行うことで、入力音声の
時間−周波数パターンを2値化して特徴量として抽出す
るように構成されている。
【0031】このように2値化された特徴量は、前述の
文献「2値のTSPを用いた単語認識システムの開発」
において、BTSP(Binary Time Spectrum Patte
rn)として詳細に説明されているものと同じであり、こ
こでは詳細は省略し、以後、入力音声の2値化された特
徴量をBTSPと称するものとする。
【0032】特徴量抽出部12で抽出された特徴量BT
SPは、ニューラルネットワーク構成の話者認識部(認
識処理手段)15に入力されて認識処理に供され、この
話者認識部15より認識結果が出力されるように構成さ
れている。
【0033】ここに、話者認識部15の内部のニューラ
ルネットワーク16の構成例を図2に示す。図示例は、
入力層17と中間層18と出力層19とからなる3層階
層型構造の例を示す。このようなニューラルネットワー
ク16の学習アルゴリズムとしては誤差逆伝搬法(バッ
クプロパゲーション法)などが利用できる。入力層17
の各ニューロンに対する入力データは特徴量抽出部12
で抽出された特徴量BTSPである。教師データとして
は、登録する話者を出力層19の各ニューロンに対応さ
せ、入力データの話者に対応したニューロンの出力を
「1」、その他のニューロンの出力を「0」とするもの
を採用する。これにより、ニューラルネットワーク16
を学習させ、学習が終了した時点において登録話者によ
る音声入力で、その話者に対応した出力層19のニュー
ロンの出力のみが「1」となり、出力層19のその他の
ニューロンの出力は「0」となる。このような出力状態
により登録話者を認識できたことになる。
【0034】ここに、入力層17のニューロン数は、特
徴量BTSPの時間分解能及び周波数分解能に依存す
る。このため、入力層17のニューロン数が多ければ多
いほど認識率が向上すると予想されるが、ニューラルネ
ットワーク16の規模が大きくなることで、その学習に
時間がかかってしまう弊害を生ずる。このような点を考
慮した本出願の発明者の実験によれば、周波数チャネル
を15、1単語を8ブロックに時分割した120の入力
データ(中間層18のニューロン数は25とした)で高
い認識率が得られたものである。このようにして、入力
音声の時間−周波数パターンを2値化した特徴量BTS
Pでも、ニューラルネットワーク16により話者認識が
可能なことが確認されたものである。
【0035】もっとも、このようなニューラルネットワ
ーク構成は一例であり、上記のものに限らず、登録話者
数、単語認識/話者認識など実現したい機能や、入力信
号の種類などにより最適な構成は変化するものであり、
条件に応じてニューラルネットワーク構成を適宜変更し
てもよい。具体的には、図3に示したような階層型構造
に限らず、相互結合型、再帰型ネットワーク(リカレン
トネット)などがある。また、ニューラルネットワーク
演算は、ソフトウエアにより実現するものでも、ハード
ウエアにより実現するものでもよい。
【0036】つづいて、請求項2記載の発明の一実施例
を図4により説明する。前記実施例で示した部分と同一
部分は同一符号を用いて示す(以下の実施例でも同様と
する)。本実施例は、基本的には、前記実施例のような
音声話者認識装置に単語音声認識手段を組入れ、例え
ば、音声によるパスワードなどを登録しておくことによ
り、登録話者以外の部外者を確実にリジェクトでき、セ
キュリティの面でより信頼性の高い音声認識装置となる
ようにしたものである。
【0037】このため、図4に示すように、特徴量抽出
部12で抽出された2値化特徴量BTSPを入力とする
単語音声認識部(単語音声認識手段)20が話者認識部
15と並列的に設けられている。即ち、単語音声認識部
20と話者認識部15とでは共通の特徴量BTSPに基
づき単語音声認識と話者認識とを行うので、両認識の融
合性に優れ、システム構成が簡単となる。
【0038】ところで、単語音声認識部20で認識され
た単語音声は、予め登録しておいたキーワード又はパス
ワードを記憶した記憶データ21の内容と単語照合部2
2で照合される。単語照合部22は登録されている単語
であれば「1」を、その他の単語であれば「0」を出力
し、ANDゲート23により話者認識部15からの出力
との論理積がとられる。このような処理を行うことによ
り、同一の音声入力に対して、話者認識でのリジェクト
と単語照合でのリジェクトとの2重チェックを行うこと
ができるので、前述したように、例えばセキュリティシ
ステムなどで音声入力を利用する場合には、より信頼性
の高いものとなる。
【0039】ちなみに、図18により前述した従来の話
者認識システムは入力音声の特徴量を抽出してニューラ
ルネットワークで処理している点で、本発明に類似して
いるといえるが、図18方式の話者認識システムで扱う
特徴量は、周波数依存の高いものであり、周波数情報を
必要としない単語音声認識(単語認識には周波数は必要
でない)では採用しにくいものである。この点、本発明
では、単語音声認識で用いられているBTSPを特徴量
としているので、上記のように容易に単語音声認識を組
込むことが可能である。よって、セキュリティなどへの
応用を考えた場合、本発明による音声認識装置によれば
信頼性の高いセキュリティシステムを容易に構築できる
ものであり、図18方式のものとは大きく異なる。
【0040】また、請求項3記載の発明の一実施例を図
5ないし図7により説明する。本実施例は、特徴量抽出
部12から特徴量BTSPが入力される話者認識部(認
識処理手段)51と単語音声認識部(単語音声認識手
段)52とをともにニューラルネットワーク構成とした
ものである。即ち、話者認識部51は前処理部53とニ
ューラルネットワーク54とにより構成され、単語音声
認識部52は前処理部55とニューラルネットワーク5
6とにより構成されている。前処理部53,55は特徴
量抽出部12による特徴量BTSPを、ニューラルネッ
トワーク54,56が学習しやすい形に変換するもの
で、ネットワーク構成、学習方法等によって必要とされ
る処理は異なる。話者認識部51による話者認識結果と
単語音声認識部52による音声認識結果とは認識結果出
力部57に入力されており、認識結果が出力されるよう
に構成されている。
【0041】この認識結果出力部57の処理としては、
前記実施例に準ずるものでよい。例えば、話者認識部5
1は入力された音声が、登録されている話者のものであ
れば「1」、その他の話者のものであれば「0」を出力
する。一方、単語音声認識部52は入力された音声単語
が登録されている単語であれば「1」、その他の単語で
あれば「0」を出力する。これらの両出力のANDをと
ることにより、前記実施例と同じく、同一音声入力に対
して、話者認識部51におけるリジェクトと単語音声認
識部52におけるリジェクトとの2重のチェックを行う
ことができる。
【0042】ここに、話者認識部51中のニューラルネ
ットワーク54は、図2や図3に示したようなニューラ
ルネットワーク16でよいが、再度、図示すると、例え
ば、図6に示すように構成される。学習方法、その他に
関する詳細は、図2のニューラルネットワーク16のも
のと同様でよい。
【0043】一方、単語音声認識部52中のニューラル
ネットワーク56に関しても、ニューラルネットワーク
16,54と同様に構成し得る。図7に示す例は、図6
のニューラルネットワーク54と同じ構成とし、入力層
58と中間層59と出力層60とからなる3層階層型構
造の例を示す。このようなニューラルネットワーク56
の学習アルゴリズムとしても誤差逆伝搬法などが利用で
きる。入力層58の各ニューロンに対する入力データは
特徴量抽出部12で抽出された特徴量BTSPである。
学習後のニューラルネットワーク56は音声認識結果を
出力する。教師データとしては、登録する単語を出力層
60の各ニューロンに対応させ、入力データの単語に対
応したニューロンの出力を「1」、その他のニューロン
の出力を「0」とするものを採用する。これにより、ニ
ューラルネットワーク56を学習させ、学習が終了した
時点において登録単語の入力で、その単語に対応した出
力層60のニューロンの出力のみが「1」となり、出力
層60のその他のニューロンの出力は「0」となる。こ
のような出力状態により登録単語を認識できたことにな
る。
【0044】ここに、ニューラルネットワーク56にお
いても、入力層58のニューロン数は、特徴量BTSP
の時間分解能及び周波数分解能に依存する。このため、
入力層58のニューロン数が多ければ多いほど認識率が
向上すると予想されるが、ニューラルネットワーク56
の規模が大きくなることで、その学習に時間がかかって
しまう弊害を生ずる。このような点を考慮した本出願の
発明者の実験によれば、周波数チャネルを15、1単語
を4ブロックに時分割した60の入力データ(中間層5
9のニューロン数を25とした)で高い認識率が得られ
たものである。このようにして、入力音声の時間−周波
数パターンを2値化した特徴量BTSPでも、ニューラ
ルネットワーク56により単語認識が可能なことが確認
されたものである。
【0045】もっとも、この場合も、このようなニュー
ラルネットワーク56の構成は一例であり、上記のもの
に限らず、登録単語数などにより最適な構成は変化する
ものであり、条件に応じてニューラルネットワーク構成
を適宜変更してもよい。
【0046】なお、本実施例では、話者認識用と単語音
声認識用とで別個のニューラルネットワーク54,56
を設けたが、ニューラルネットワークの持つ並列計算と
いう特徴を利用して、一つのニューラルネットワークで
共用するようにしてもよい。図8はこの変形例を示すも
ので、話者認識部51用と単語音声認識部52用とで共
用するニューラルネットワーク61として、入力層62
と中間層63と出力層64とからなる3層階層型構造の
例を示す。入力層62には特徴量抽出部12からの音声
情報として特徴量BTSPが入力される。このニューラ
ルネットワーク61も前述の場合と同様の学習方法を用
いて単語の学習、話者の学習を行い、各々の特徴量を学
習する。学習後のニューラルネットワーク61は入力さ
れた音声情報と学習結果とに従い、単語と音声を認識
し、話者認識結果と単語認識結果とを出力する。
【0047】前述したように、本実施例では、ニューラ
ルネットワークの構成及び学習方法としては多層型の誤
差逆伝播法が用いられている。一方、音声情報処理はそ
の時系列的な変化が重要である場合が知られており、そ
うした場合、ニューラルネットワーク54,56の構造
として、時系列信号を学習しやすいネットワーク構成と
して知られている再帰型ネットワーク、タイムディレイ
ニューラルネットワーク(TDNN)などのネットワー
ク構造を用いることもできる。
【0048】このように話者認識部51に用いられるニ
ューラルネットワーク54と単語音声認識部52に用い
られるニューラルネットワーク56とは必ずしも同じ構
成、学習法を採る必要はなく、また、個別の構成を採る
必要もない。このため、各々に付随する前処理部53,
55も、ニューラルネットワーク54,56の構成、学
習法に応じて異なるものを用いることができる。
【0049】何れにしても、本実施例によれば、特徴抽
出部12で特徴量としてBTSPを用い、音声情報の認
識にニューラルネットワーク54,56を用いたので、
特徴量BTSPを用いることよって音声の持つ情報量を
減らすことができ、単語や話者を登録、記憶させるのに
必要とされる記憶容量を減らし、かつ、登録や照合に必
要とされる処理時間も減らすことができる。一方、特徴
量BTSPは不特定話者に対する単語音声認識に優れた
処理方式であり、個人個人の話者間にある音声情報が持
つ特徴の差を減少させるような特徴抽出方式である。こ
のため、話者認識に適さないという難点があるが、本実
施例では、特徴量BTSPによって表現された音声情報
の認識をニューラルネットワーク54,56に行わせ、
特徴量BTSPの持つ限られた情報から、話者認識する
ことのできる情報を取出すことが可能となる。
【0050】さらに、請求項4及び6記載の発明の一実
施例を図9ないし図11により説明する。本実施例は、
音声認識結果についての出力形態を工夫したものであ
る。まず、認識処理に用いられる単語音声などの特徴量
を格納した音声辞書24が設けられている。ついで、周
波数分析部13と2値化部14とを備えた特徴量抽出部
12により抽出された特徴量BTSPと前記音声辞書2
4に格納されている単語音声の特徴量とのパターンマッ
チングにより類似度を算出し、最も類似度の高い単語を
選択する認識処理を行うパターンマッチング部(類似度
算出手段及び認識手段)25が設けられている。このパ
ターンマッチング部25の出力側には報知内容生成部
(報知内容生成手段)26を介して音声合成部27とス
ピーカ28とによる音声出力手段(報知手段)29が設
けられている。
【0051】ここに、前記報知内容生成部26はパター
ンマッチング部25により認識された結果及びその根拠
となった類似度の度合いに応じた報知内容を生成するも
のである。例えば、単語認識において「おはようござい
ます」を認識し、かつ、その類似度が高い場合には、報
知内容として「おはようございます」というテキストを
生成し、音声合成部27及びスピーカ28を通して、
「おはようございます」と発声する。また、上記のよう
な単語認識機能のみならず、話者認識機能をも持つ場合
においては、認識した話者の名前を付加したテキストを
生成する。例えば、上例で、佐藤さんを話者として認識
した場合、「おはようございます、佐藤さん」というテ
キストを作成し、音声合成部27及びスピーカ28を通
して「おはようございます、佐藤さん」と発声させるこ
とも可能である。一方、話者認識において、例えば鈴木
さんを話者として認識した場合でも、その類似度が低い
場合には、「鈴木さんですか」或いは「鈴木さんです
ね」といったようなテキストが作成され、スピーカ28
より発声される。これにより、話者に確認をとるような
応答となり、話者からの返事「はい、そうです」といっ
た音声入力を受けて再び話者認識を行うことで、認識率
の高いものとなる。さらには、単語認識処理において類
似度が継続して低い場合には、「音声辞書を更新してく
ださい」といったテキストを作成し、スピーカ28より
発声させることで、音声辞書24の更新を促すこともで
きる。要は、認識結果を単に出力するだけでなく、類似
度の度合い(認識の確からしさ)が加味された報知内容
とされて出力されるので、よりヒューマンライクな出力
応答となり、優れたマン−マシンコミュニケーションを
実現でき、誤認率も低下するものとなる。特に、本実施
例では出力応答もスピーカ28を通して音声により行わ
れるので、入出力全てが音声で済む、よりヒューマンラ
イクなものとなる。
【0052】図10はこのような処理の概要を示すフロ
ーチャートである。図11は単語音声認識を例にとり、
認識結果の報知内容をテキストで生成する場合の処理例
を示すフローチャートである。まず、類似度の度合いに
応じた処理を行うため、閾値としてTh1,Th2が設
定されている。パターンマッチング部25における処理
の結果、類似度が閾値Th1よりも小さい場合には、認
識が不十分であるとして、テキスト0が選択される。こ
のテキスト0の内容としては、認識が不十分であること
を示し得るものであればよく、例えば「よく聞こえませ
んでした」といったテキストでよい。出力形態として
は、コンピュータのディスプレイでも可能であるが、前
述したように、音声合成部27で合成した音声をスピー
カ28を通して発声させるほうが、よりヒューマンライ
クな装置となる。
【0053】一方、類似度が閾値Th1以上であって、
単語認識の結果、認識語がW1となった場合には、テキ
スト1を選択する。このレベルでの認識語W1に相当す
る単語としては、「おはようございます」といった挨拶
語のような、誤認識があっても比較的影響の小さい単語
である。テキスト1の内容としても、これらの認識語W
1に相当するそのままの語「おはようございます」等が
妥当である。この際、話者認識機能を持つものであれ
ば、「おはようございます、○○さん」といったように
話者の名前を付加したテキストを合成することにより、
よりヒューマンライクなマン−マシンコミュニケーショ
ンが実現される。
【0054】さらに、類似度が閾値Th1以上であって
も、認識語がW1ではなく、誤認があるとその影響の大
きな語W2となった場合を考える。この語W2として
は、機械に対して具体的に命令を行う場合の単語などが
考えられる。ここに、語W2の重要性を考慮し、その誤
認率を低下させるため、Th2>Th1なる閾値Th2
を用いて認識結果の類似度の度合いを判断する。類似度
が閾値Th2より大きい時のみ、テキスト2を選択し、
それ以外はテキスト3を選択する。テキスト2として
は、「はい、わかりました」、テキスト3としては、
「もう一度おっしゃつてください」なとが考えられる。
無論、テキストとしては例示した言葉等に限られるもの
ではなく、適宜設定されるものである。
【0055】さらに、請求項5及び6記載の発明の一実
施例を図12により説明する。本実施例は、ニューラル
ネットワーク30を主体とする認識処理手段31を用い
た音声認識装置に関するものであり、この認識処理手段
31の出力側に報知内容生成部26に相当する報知内容
生成部32を設けたものである。ニューラルネットワー
ク30は特徴量抽出部12により抽出された特徴量BT
SPを入力とするもので、例えば図2や図3に示したニ
ューラルネットワーク16と同様の構成・動作とされ
る。よって、例えば単語認識の場合であれば、特徴量B
TSPの入力に基づく演算の結果、最も大きな出力に対
応した単語を、音声認識結果として出力するものであ
る。
【0056】このようなニューラルネットワーク30側
からの出力を受ける報知内容生成部32では、認識され
た内容(単語)及びその内容に対応した出力信号の信号
強度に応じた報知内容を生成する。その内容は、前記実
施例の場合と同様でよく、例えば、単語認識において
「おはようごさいます」と認識され、その出力値の強度
が強い場合には、音声合成部27及びスピーカ28を通
してそのまま「おはようございます」と発声すればよ
い。話者認識機能をも持つ場合であれば、認識した話者
の名前を付加したテキストとし、例えば「おはようござ
います、佐藤さん」のように発声させればよい。一方、
ニューラルネットワーク30から得られる認識結果につ
いての出力信号の信号強度が弱い場合、前記実施例にお
ける類似度が低い場合と同様な内容の報知内容として出
力させるようにすればよい。また、出力信号の強度が継
続して低い場合には、「追加学習をしてください」とい
った内容のテキストを発声させ、利用者にニューラルネ
ットワーク30の学習を促すようにすればよい。
【0057】なお、本実施例の具体的処理としては、図
11中に示した「類似度」を「出力信号の強度」に置換
えればよい。
【0058】ついで、請求項7記載の発明の一実施例を
図13により説明する。本実施例では、複数(ここで
は、単純化させるため、2個とする)の音声辞書24
a,24bを用意しておき、認識処理に際して選択部
(選択手段)33により何れか一方の音声辞書24a又
は24bを選択し、選択したものを類似度算出用音声辞
書34として、類似度算出部(類似度算出手段)35に
よる類似度演算に供するようにしたものである。類似度
算出部35の出力側には判定部(認識手段)36が接続
され、算出された類似度に基づき類似度算出用音声辞書
34内で最も高い類似度を示したもの(単語認識であれ
ば、単語)を認識結果と判定する。
【0059】ここに、選択手段33による音声辞書24
a,24bの具体的な選択切換え方式としては、外部に
スイッチを設け、話者自身がこのスイッチを操作して認
識率の高いほうの音声辞書24a又は24bを選択する
ことで行うようにすればよい。特に、請求項8記載の発
明のように複数の音声辞書を話者毎に異ならせて用意し
た場合であれば、話者に自己用の音声辞書を選択させる
ことで、より認識率の高いものとなる。
【0060】何れにしても、本実施例によれば、複数の
音声辞書24a,24bを用意しておき、その内の一つ
を選択して認識処理を行うので、個々の音声辞書は小規
模のものでよく、よって、辞書の大規模化を回避しつ
つ、認識率の向上するものとなる。
【0061】また、請求項8ないし10記載の発明の一
実施例を図14により説明する。本実施例では、複数の
音声辞書24a,24bを話者毎に異なるものとし、か
つ、特徴量抽出部12で抽出された特徴量BTSPに基
づき入力音声の話者同定を行う話者認識部(話者認識手
段)37を設け、この話者認識部37の認識結果により
選択手段33を切換え動作させ、音声辞書24a又は2
4bを選択するようにしたものである。
【0062】本実施例によれば、音声を入力するだけ
で、話者に応じた音声辞書の選択が可能となり、外部ス
イッチ切換え操作等を要せず、適正な辞書を用いた認識
率の高い認識処理が可能となる。
【0063】なお、話者認識部37としては、図1等で
説明したものが好ましいが、例えば単語を限定した話者
認識などのような、従来技術による話者認識手段であっ
ても、充分な認識率が得られているものであり、支障な
い。
【0064】さらに、請求項11記載の発明の一実施例
を図15により説明する。本実施例は、ニューラルネッ
トワーク30を利用するものであるが、複数個(ここで
は、単純化させるため、2個とする)のニューラルネッ
トワーク30a,30bを用意し、認識処理に際して選
択手段38で何れか一方のニューラルネットワーク30
a又は30bを選択し、選択されたニューラルネットワ
ーク30a又は30bによりニューラルネットワーク演
算を行うようにしたものである。これらのニューラルネ
ットワーク30a,30bの出力側には最終的な認識処
理を行う判定部(認識手段)39が設けられている。こ
の判定部39は、例えば図3に示したような構成のニュ
ーラルネットワークの出力層60のニューロンに単語を
割当てておき(これは、ニューラルネットワークの学
習、例えばバックプロパゲーションなどにより実現でき
る)、入力された特徴量BTSPに対してどのニューロ
ンからの出力信号が大きいかによって、入力音声の単語
の判定を行うものである。
【0065】ここに、選択手段38によるニューラルネ
ットワーク30a,30bの具体的な選択切換え方式と
しては、音声辞書24a,24bの選択切換えと同様
に、外部にスイッチを設け、話者がスイッチを操作して
選択するようにすればよい。特に、請求項12記載の発
明のように複数のニューラルネットワークを話者毎に異
ならせたものを用意した場合であれば、話者に自己用の
ニューラルネットワークを選択させることで、より認識
率の高いものとなる。
【0066】何れにしても、本実施例によれば、複数の
ニューラルネットワーク30a,30bを用意してお
き、その内の一つを選択して認識処理を行うので、個々
のニューラルネットワークとしては実現容易な規模のも
のでよく、全体としてニューラルネットワークの大規模
化を回避しつつ、実質的に記憶容量の大容量化、認識率
の向上を図れるものとなる。
【0067】さらに、請求項12ないし14記載の発明
の一実施例を図16により説明する。本実施例では、複
数のニューラルネットワーク30a,30bを話者毎に
異ならせたものとし、かつ、特徴量抽出部12で抽出さ
れた特徴量BTSPに基づき入力音声の話者同定を行う
話者認識部(話者認識手段)40を設け、この話者認識
部40の認識結果により選択手段38を切換え動作さ
せ、ニューラルネットワーク30a又は30bを選択す
るようにしたものである。
【0068】本実施例によれば、音声を入力するだけ
で、話者に応じたニューラルネットワークの選択が可能
となり、外部スイッチ切換え操作等を要せず、適正なニ
ューラルネットワークを用いた認識率の高い認識処理が
可能となる。
【0069】さらに、請求項15ないし18記載の発明
の一実施例を図17により説明する。本実施例も、ニュ
ーラルネットワーク30を利用したものであるが、その
個数を複数個とはせずに、例えば、図2や図3に示した
ような構成において、各ニューロン間がシナプス結合4
1により結合されており、そのシナプス荷重を可変させ
ることにより、一つのニューラルネットワーク30であ
っても多様性を持ち得る点に着目し、複数種(ここで
は、簡単化するため、2種とする)のシナプス荷重を記
憶したメモリ(記憶手段)42a,42bを設け、認識
処理に際して選択手段43で何れか一つのシナプス荷重
を選択し、図示しない書込み手段によりそのシナプス荷
重をニューラルネットワーク30に書込むようにしたも
のである。ここに、各シナプス荷重は、話者毎にニュー
ラルネットワーク30を学習処理させて得られたもので
ある。これに対応して、特徴量抽出部12の出力側には
抽出された特徴量BTSPから入力音声の話者を同定す
る話者認識部(話者認識手段)44が設けられ、この話
者認識結果により選択動作をする選択手段43とされて
いる。
【0070】本実施例によれば、音声を入力するだけ
で、その話者に適したネットワーク構成となるシナプス
荷重によるニューラルネットワーク30により演算処理
が行われて認識されるので、認識率の高いものとなる。
本実施例によれば、ニューラルネットワーク30は一つ
でよいので、ハードウエア構成としニューラルネットワ
ーク数を増やすのが困難な場合に特に効果的となる。
【0071】
【発明の効果】本発明は、上述したように構成したの
で、請求項1記載の発明によれば、特徴量抽出手段によ
り入力音声の時間−周波数パターンを2値化したものを
話者認識の特徴量として、ニューラルネットワーク構成
の認識処理手段に入力させて話者認識を行うため、単語
音声認識の場合と同じ特徴量による話者認識が可能とな
り、単語音声認識との融合が可能となり、よって、請求
項2又は3記載の発明のように、2値化部により入力音
声の2値化した特徴量に基づき認識処理を行う単語音声
認識手段、特に、認識処理手段側と同じくニューラルネ
ットワーク構成とした単語音声認識手段を付加すること
により、同じ特徴量を用いて容易に話者認識と単語音声
認識とを行い得るシステムを構築でき、例えば、パスワ
ードなどの特定の単語の認識を加えることなどにより、
より高い精度の話者認識システムとなり、信頼性の高い
セキュリティシステムなどを提供し得るものとなる。
【0072】一方、請求項4記載の発明によれば、算出
された類似度の度合いと入力音声の認識結果とに応じて
報知内容を生成する報知内容生成手段を設け、生成され
た報知内容を認識結果として報知手段で報知するように
したので、音声の類似度が低い場合には認識結果を確認
する旨の報知内容とする、といったようにヒューマンラ
イクな報知を行うことができ、誤認率を低下させること
ができる。
【0073】請求項5記載の発明においても、同様に、
ニューラルネットワークの出力信号の信号強度と認識手
段による入力音声の認識結果とに応じて報知内容を生成
する報知内容生成手段を設け、生成された報知内容を認
識結果として報知手段で報知するようにしたので、ニュ
ーラルネットワークの認定による出力信号の信号強度が
弱い場合には認識結果を確認する旨の報知内容とする、
といったようにヒューマンライクな報知を行うことがで
き、誤認率を低下させることができる。
【0074】請求項6記載の発明によれば、請求項4又
は5記載の発明における報知手段を音声出力手段とした
ので、音声のみによる応答が可能となり、よりヒューマ
ンライクなマン−マシンコミュニケーションが可能とな
る。
【0075】また、請求項7記載の発明によれば、音声
辞書を複数備えて選択手段でその内の一つを選択使用す
るようにしたので、個々の音声辞書を小規模化して類似
度算出時間を短縮させ得るとともに、適正な音声辞書を
使用することにより認識率を向上させることができ、特
に、請求項8記載の発明によれば、複数の音声辞書が話
者毎に異なるものとしたので、話者に応じて音声辞書を
選択することで、高い認識率を得ることができ、また、
請求項9記載の発明によれば、選択手段が入力音声に応
じて音声辞書を選択するようにしたので、特別な切換え
操作を要せず、音声を入力するだけで音声辞書の切換え
が可能となり、特に、請求項10記載の発明によれば、
話者認識手段を有するので、話者に応じた音声辞書の選
択が可能となる。
【0076】また、請求項11記載の発明によれば、ニ
ューラルネットワークを複数備えて選択手段でその内の
一つを選択使用するようにしたので、ニューラルネット
ワークの大規模化を回避して、実現容易な規模のニュー
ラルネットワークにより、認識率の高い音声認識を行わ
せることができ、特に、請求項12記載の発明によれ
ば、複数のニューラルネットワークが話者毎に異なるの
で、話者に応じてニューラルネットワークを選択するこ
とで、高い認識率が得られ、また、請求項13記載の発
明によれば、選択手段が入力音声に応じてニューラルネ
ットワークを選択するようにしたので、特別な切換え操
作を要せず、音声を入力するだけでニューラルネットワ
ークの切換えが可能となり、特に、請求項14記載の発
明によれば、話者認識手段を有するので、話者に応じた
ニューラルネットワークの選択が可能となる。
【0077】また、請求項15記載の発明によれば、ニ
ューラルネットワークは1つとするが、このニューラル
ネットワークで使用するシナプス荷重を複数種記憶させ
ておき、選択手段でその内の一種を選択使用するように
したので、ニューラルネットワークの大規模化を回避し
て、実現容易な規模のニューラルネットワークを実質的
に多様化して、認識率の高い音声認識を行わせることが
でき、特に、請求項16記載の発明によれば、複数種の
シナプス荷重を話者毎に学習させたものとしているの
で、話者に応じたシナプス荷重を選択することで、高い
認識率が得られ、また、請求項17記載の発明によれ
ば、選択手段が入力音声に応じてシナプス荷重を選択す
るようにしたので、特別な切換え操作を要せず、音声を
入力するだけでシナプス荷重の切換えが可能となり、特
に、請求項18記載の発明によれば、話者認識手段を有
するので、話者に応じたシナプス荷重の選択が可能とな
る。
【図面の簡単な説明】
【図1】請求項1記載の発明の一実施例を示すブロック
図である。
【図2】話者認識部のニューラルネットワーク構成例を
示す模式的構造図である。
【図3】ニューラルネットワーク構成例の変形例を示す
模式的構造図である。
【図4】請求項2記載の発明の一実施例を示すブロック
図である。
【図5】請求項3記載の発明の一実施例を示すブロック
図である。
【図6】ニューラルネットワーク構成例を示す模式的構
造図である。
【図7】ニューラルネットワーク構成例を示す模式的構
造図である。
【図8】変形例のニューラルネットワーク構成例を示す
模式的構造図である。
【図9】請求項4及び6記載の発明の一実施例を示すブ
ロック図である。
【図10】その処理を示す概略フローチャートである。
【図11】具体的処理例を示すフローチャートである。
【図12】請求項5及び6記載の発明の一実施例を示す
ブロック図である。
【図13】請求項7記載の発明の一実施例を示すブロッ
ク図である。
【図14】請求項8ないし10記載の発明の一実施例を
示すブロック図である。
【図15】請求項11記載の発明の一実施例を示すブロ
ック図である。
【図16】請求項12ないし14記載の発明の一実施例
を示すブロック図である。
【図17】請求項15ないし18記載の発明の一実施例
を示すブロック図である。
【図18】従来例を示すブロック図である。
【符号の説明】
12 特徴量抽出手段 13 周波数分析部 14 2値化部 15 認識処理手段 16 ニューラルネットワーク 20 単語音声認識手段 25 類似度算出手段&認識手段 26 報知内容生成手段 29 音声出力手段=報知手段 30 ニューラルネットワーク 31 認識処理手段 32 報知内容生成手段 33 選択手段 35 類似度算出手段 36 認識手段 37 話者認識手段 38 選択手段 39 認識手段 40 話者認識手段 44 話者認識手段 51 認識処理手段 52 単語音声認識手段 54 ニューラルネットワーク 56 ニューラルネットワーク 61 ニューラルネットワーク

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 入力音声の時間−周波数パターンを2値
    化する周波数分析部と2値化部とを有して入力音声の特
    徴量を抽出する特徴量抽出手段と、抽出された入力音声
    の特徴量をニューラルネットワークの入力として話者認
    識を行う認識処理手段とよりなることを特徴とする音声
    認識装置。
  2. 【請求項2】 2値化部により入力音声の2値化した特
    徴量に基づき単語音声の認識を行う単語音声認識手段を
    設けたことを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 抽出された入力音声の特徴量をニューラ
    ルネットワークの入力として単語音声の認識を行う単語
    音声認識手段としたことを特徴とする請求項2記載の音
    声認識装置。
  4. 【請求項4】 入力音声の時間−周波数パターンを2値
    化する周波数分析部と2値化部とを有して入力音声の特
    徴量を抽出する特徴量抽出手段と、音声の特徴量を格納
    した音声辞書と、この音声辞書に格納された音声の特徴
    量と前記特徴量抽出手段により抽出された音声の特徴量
    とを比較してその類似度を算出する類似度算出手段と、
    算出された類似度に基づき入力音声の認識を行う認識手
    段と、前記類似度算出手段により算出された類似度の度
    合いと前記認識手段による入力音声の認識結果とに応じ
    て報知内容を生成する報知内容生成手段と、生成された
    報知内容を認識結果として報知する報知手段とよりなる
    ことを特徴とする音声認識装置。
  5. 【請求項5】 入力音声の時間−周波数パターンを2値
    化する周波数分析部と2値化部とを有して入力音声の特
    徴量を抽出する特徴量抽出手段と、抽出された入力音声
    の特徴量をニューラルネットワークの入力としこのニュ
    ーラルネットワークの出力信号に応じて前記入力音声の
    認識を行う認識手段と、前記ニューラルネットワークの
    出力信号の信号強度と前記認識手段による入力音声の認
    識結果とに応じて報知内容を生成する報知内容生成手段
    と、生成された報知内容を認識結果として報知する報知
    手段とよりなることを特徴とする音声認識装置。
  6. 【請求項6】 報知手段を、音声出力手段としたことを
    特徴とする請求項4又は4記載の音声認識装置。
  7. 【請求項7】 入力音声の時間−周波数パターンを2値
    化する周波数分析部と2値化部とを有して入力音声の特
    徴量を抽出する特徴量抽出手段と、音声の特徴量を格納
    した複数の音声辞書と、これらの音声辞書中の一つを選
    択する選択手段と、選択された前記音声辞書に格納され
    た音声の特徴量と前記特徴量抽出手段により抽出された
    音声の特徴量とを比較してその類似度を算出する類似度
    算出手段と、算出された類似度に基づき入力音声の認識
    を行う認識手段とよりなることを特徴とする音声認識装
    置。
  8. 【請求項8】 話者毎に異ならせた複数の音声辞書とし
    たことを特徴とする請求項7記載の音声認識装置。
  9. 【請求項9】 入力音声に応じて音声辞書の一つを選択
    する選択手段としたことを特徴とする請求項7記載の音
    声認識装置。
  10. 【請求項10】 話者認識手段を設け、この話者認識手
    段の認識結果に応じて音声辞書の一つを選択する選択手
    段としたことを特徴とする請求項8記載の音声認識装
    置。
  11. 【請求項11】 入力音声の時間−周波数パターンを2
    値化する周波数分析部と2値化部とを有して入力音声の
    特徴量を抽出する特徴量抽出手段と、複数のニューラル
    ネットワークと、これらのニューラルネットワーク中の
    一つを選択する選択手段と、抽出された入力音声の特徴
    量を選択されたニューラルネットワークの入力としこの
    ニューラルネットワークの出力信号に応じて前記入力音
    声の認識を行う認識手段とよりなることを特徴とする音
    声認識装置。
  12. 【請求項12】 話者毎に異ならせた複数のニューラル
    ネットワークとしたことを特徴とする請求項11記載の
    音声認識装置。
  13. 【請求項13】 入力音声に応じてニューラルネットワ
    ークの一つを選択する選択手段としたことを特徴とする
    請求項11記載の音声認識装置。
  14. 【請求項14】 話者認識手段を設け、この話者認識手
    段の認識結果に応じてニューラルネットワークの一つを
    選択する選択手段としたことを特徴とする請求項12記
    載の音声認識装置。
  15. 【請求項15】 入力音声の時間−周波数パターンを2
    値化する周波数分析部と2値化部とを有して入力音声の
    特徴量を抽出する特徴量抽出手段と、ニューラルネット
    ワークと、このニューラルネットワークの複数種のシナ
    プス荷重を記憶する記憶手段と、これらのシナプス荷重
    中の一種を選択する選択手段と、選択されたシナプス荷
    重を前記ニューラルネットワーク中に書込む書込み手段
    と、抽出された入力音声の特徴量を前記ニューラルネッ
    トワークの入力としこのニューラルネットワークの出力
    信号に応じて前記入力音声の認識を行う認識手段とより
    なることを特徴とする音声認識装置。
  16. 【請求項16】 話者毎にニューラルネットワークを学
    習させて得られた話者毎に異ならせた複数種のシナプス
    荷重としたことを特徴とする請求項15記載の音声認識
    装置。
  17. 【請求項17】 入力音声に応じてシナプス荷重の一種
    を選択する選択手段としたことを特徴とする請求項15
    記載の音声認識装置。
  18. 【請求項18】 話者認識手段を設け、この話者認識手
    段の認識結果に応じてシナプス荷重の一種を選択する選
    択手段としたことを特徴とする請求項16記載の音声認
    識装置。
JP34395392A 1992-01-24 1992-12-24 音声認識装置 Pending JPH06161495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34395392A JPH06161495A (ja) 1992-01-24 1992-12-24 音声認識装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP1121692 1992-01-24
JP4-257910 1992-09-28
JP25791092 1992-09-28
JP4-11216 1992-09-28
JP34395392A JPH06161495A (ja) 1992-01-24 1992-12-24 音声認識装置

Publications (1)

Publication Number Publication Date
JPH06161495A true JPH06161495A (ja) 1994-06-07

Family

ID=27279330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34395392A Pending JPH06161495A (ja) 1992-01-24 1992-12-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPH06161495A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509254A (ja) * 2013-01-10 2016-03-24 センソリー・インコーポレイテッド 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定
WO2019235191A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム
CN110706714A (zh) * 2018-06-21 2020-01-17 株式会社东芝 说话者模型制作系统
JP2020201911A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法
CN113646835A (zh) * 2019-04-05 2021-11-12 谷歌有限责任公司 联合自动语音识别和说话人二值化

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509254A (ja) * 2013-01-10 2016-03-24 センソリー・インコーポレイテッド 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定
WO2019235191A1 (ja) * 2018-06-05 2019-12-12 日本電信電話株式会社 モデル学習装置、方法及びプログラム
CN110706714A (zh) * 2018-06-21 2020-01-17 株式会社东芝 说话者模型制作系统
CN110706714B (zh) * 2018-06-21 2023-12-01 株式会社东芝 说话者模型制作系统
CN113646835A (zh) * 2019-04-05 2021-11-12 谷歌有限责任公司 联合自动语音识别和说话人二值化
CN113646835B (zh) * 2019-04-05 2024-05-28 谷歌有限责任公司 联合自动语音识别和说话人二值化
JP2020201911A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法

Similar Documents

Publication Publication Date Title
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
Rohanian et al. Alzheimer's dementia recognition using acoustic, lexical, disfluency and speech pause features robust to noisy inputs
TWI223791B (en) Method and system for utterance verification
CN115641543A (zh) 一种多模态抑郁情绪识别方法及装置
CN115563290B (zh) 一种基于语境建模的智能情感识别方法
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Saifan et al. A machine learning based deaf assistance digital system
JPH06161495A (ja) 音声認識装置
CN113724693B (zh) 语音判别方法、装置、电子设备及存储介质
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
Handam et al. Artificial neural networks for voice activity detection Technology
Venkateswarlu et al. Developing efficient speech recognition system for Telugu letter recognition
Deng et al. Alzheimer's Disease Detection Using Acoustic And Linguistic Features
Avikal et al. Estimation of age from speech using excitation source features
Chelliah et al. Robust Hearing-Impaired Speaker Recognition from Speech using Deep Learning Networks in Native
Sharma et al. SNR Improvement in Voice Activity Detection
Benıtez et al. Word verification using confidence measures in speech recognition
Warnapura et al. Automated Customer Care Service System for Finance Companies
Tharwat et al. Wearable Device With Speech and Voice Recognition for Hearing-Impaired People
Luo et al. Research and application of voiceprint recognition based on a deep recurrent neural network
WO2023094657A1 (en) Spoken language understanding by means of representations learned unsupervised
Farhadipour et al. Gammatonegram representation for end-to-end dysarthric speech processing tasks: speech recognition, speaker identification, and intelligibility assessment
Sharma et al. Recognition of Voice and Noise Based on Artificial Neural Networks