JPH0784592A

JPH0784592A - 音声認識装置

Info

Publication number: JPH0784592A
Application number: JP5228990A
Authority: JP
Inventors: Hitoshi Iwamida; 均岩見田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-09-14
Filing date: 1993-09-14
Publication date: 1995-03-31
Also published as: US5839109A

Abstract

(57)【要約】【目的】本発明は音声認識装置に関し、人間の言葉以
外の音を認識して報知できるようにすることを目的とす
る。【構成】音声入力手段１と、音声信号の特徴を抽出す
る特徴抽出手段２と、標準音声信号の特徴パターンを記
憶する特徴標準パターン記憶手段３と、抽出された音声
入力信号の特徴と記憶された特徴パターンとを照合し入
力音声信号に対応する標準音声信号を特定する照合手段
４と、標準音声信号に対応する表示情報を記憶する表示
パターン記憶手段５と、表示情報を表示する表示手段６
とを備える音声認識装置において、特徴標準パターン記
憶手段３は、人間の言葉の特徴パターン３１と人間の言
葉以外の特徴パターン３２を記憶しており、表示パター
ン記憶手段５は、標準音声信号をそのまま文字にした言
葉表示情報５１と、非言葉標準音声信号に対応する非言
葉表示情報５２とを記憶しているように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力された音声信号を
自動認識し、その認識結果を表示する音声認識装置に関
し、特に人間の言葉以外の音声信号も認識しその音声信
号が認識できる形で表示するようにした音声認識装置に
関する。

【０００２】

【従来の技術】音声認識装置が実用化されつつある。従
来の音声認識装置は、あらかじめ認識すべき音声信号を
標準パターンとして登録して記憶し、入力された音声信
号とこれらの標準パターンとを照合し、もっとも良く一
致する標準パターンを特定し、その一致具合が所定のレ
ベル以上の場合に標準パターンの音声が入力されたと認
識している。標準パターンとして登録するためには、そ
の標準パターンを入力する必要があり、通常標準パター
ンとしては使用者が入力できる音声信号に限られるが、
プラント等の自動制御のために異常音を認識する場合に
は、そのような異常音を標準パターンとする場合もあ
る。

【０００３】認識結果を、音声信号の認識が正しく行わ
れたものとしてそのまま出力する場合もあるが、認識の
正確さを期すために、認識結果に従って合成した音声を
出力し、話者に確認してもらうことが一般に行われる。
この確認方法には、合成音声を出力するだけなく、認識
結果を文字情報として表示して確認する方法もあるが、
いずれにしろ、入力された音声信号を正確に表現できる
方法であることが必要である。そのため、人間の話言葉
を標準パターンとし、確認のための音声合成又は文字表
示が行えるようにしている。上記の異常音を標準パター
ンとした場合には、確認する必要がないため確認は行わ
れない。

【０００４】聴覚障害者が他者と会話する場合には手話
や筆談によるが、上記の音声認識装置を利用して聴覚障
害者が通常の言語能力を有する者と会話するのを支援す
ることが考えられる。通常の言語能力を有する者は、通
常通り会話を行い、その音声を音声認識装置で認識し、
認識結果を文字情報として表示して聴覚障害者に知らせ
る。

【０００５】本発明は、特にこのような目的で使用され
る音声認識装置に適しているが、このようなものに限ら
れず、例えば、会議中のような音を発することが好まし
くない状態で、別の場所の音声情報を知る必要がある場
合等に使用される音声認識装置にも適用可能である。し
かしここでは、聴覚障害者用音声認識装置が例としても
っとも適当と思われるので、これを例として説明する。

【０００６】

【発明が解決しようとする課題】上記のような認識した
音声信号を表示する音声認識装置では、認識した音声信
号が表示できることが必要であるから、登録される標準
パターンは人間の話言葉に限定されていた。また、表示
するのは人間の話言葉に対応した文字であるから、表示
装置も文字を表示できるものであればよかった。

【０００７】聴覚障害者用音声認識装置が通常の言語能
力を有する者との会話を支援するためだけのものであれ
ば、上記のような登録される標準パターンは人間の話言
葉に限定され、表示装置も文字を表示できる音声認識装
置で十分と思われる。しかし、聴覚障害者により広い音
声情報を提供するという観点からは、人間の話言葉以外
の音声情報も提供できることが望ましい。

【０００８】本発明は、このような観点から、人間の話
言葉以外の音声情報も表示情報として提供できる音声認
識装置の実現を目的とする。

【０００９】

【課題を解決するための手段】図１は本発明の音声認識
装置の原理構成図である。図示のように、本発明の音声
認識装置は、音声信号を入力する音声入力手段１と、音
声信号を認識するための特徴を抽出する特徴抽出手段２
と、標準音声信号の特徴パターンを記憶する特徴標準パ
ターン記憶手段３と、抽出された音声入力信号の特徴と
特徴標準パターン記憶手段３に記憶された特徴パターン
とを照合して入力された音声信号に対応する標準音声信
号を特定する照合手段４と、標準音声信号に対応する表
示情報を記憶する表示パターン記憶手段５と、照合手段
４で標準音声信号が特定された場合に標準音声信号に対
応する表示情報を表示する表示手段６とを備える音声認
識装置において、上記目的を達成するため、特徴標準パ
ターン記憶手段３は、人間の言葉の標準音声信号の特徴
パターン３１の他に、人間の言葉以外の非言葉標準音声
信号の特徴パターン３２を記憶しており、表示パターン
記憶手段５は、標準音声信号をそのまま文字にした言葉
表示情報５１と、非言葉標準音声信号に対応する非言葉
表示情報５２とを記憶していることを特徴とする。

【００１０】

【作用】本発明の音声認識装置において、特徴標準パタ
ーン記憶手段３に、人間の言葉以外の音声信号、例え
ば、「サイレン」の音を非言葉標準音声信号の特徴パタ
ーン３２として記憶しておけば、サイレンの音を認識す
ることができる。そして、サイレンの音を認識した時に
は、表示パターン記憶手段５にサイレンの音に対応する
非言葉表示情報５２として記憶されている「サイレンが
鳴っています。」という表示を行うことができる。

【００１１】また、「サイレンが鳴っています。」とい
うだけでは、他者が「サイレンが鳴っています。」と言
っているのか、実際に「サイレン」の音が聞こえるのか
判別できないため、例えば、消防車の「サイレン」の音
であれば、消防車の画像を表示するようにすれば、より
大きな情報を提供することが可能になる。

【００１２】

【実施例】図２は本発明の１実施例の音声認識装置の構
成を示す図であり、聴覚障害者のための音声認識装置で
ある。図２において、参照番号１１は音声信号を電気信
号に変換するマイクロフォン、２１はマイクロフォン１
１から得られる電気信号を、例えば、１２ｋＨｚのサン
プリング周期でサンプリングしてディジタル信号に変換
するＡ／Ｄ変換器、２２は周波数分析部である。周波数
分析部２２は、Ａ／Ｄ変換されたディジタル時系列信号
を１０ｍｓ毎にファーストフーリエ変換（ＦＦＴ）等で
周波数分析し、聴覚的な尺度で８帯域に分割した各周波
数帯域でのパワーを求め、周波数特徴パラメータの時系
列を得る。３３は標準パターン格納用ＲＯＭであり、上
記のマイクロフォン１１、Ａ／Ｄ変換器２１及び周波数
分析部２２であらかじめ求めておいた認識対象信号の周
波数特徴パラメータの時系列を記憶する。ここでは、認
識対象信号の周波数特徴パラメータの時系列を標準パタ
ーンと呼ぶことにする。４１は照合部であり、ＤＰマッ
チング等の手法を用いて、入力音声信号の周波数特徴パ
ラメータの時系列（入力パターン）と標準パターンとの
照合を行い、入力パターンともっともよく一致する標準
パターンを求める。５３は文字の表示パターンを記憶し
たキャラクタ用ＲＯＭであり、５３は絵等のグラフィッ
ク表示パターンを記憶したグラフィックパターン用ＲＯ
Ｍであり、６１は表示制御部であり、６２はＣＲＴ、液
晶表示装置等の表示装置である。

【００１３】標準パターン格納用ＲＯＭ３３に記憶され
る標準パターンの種類は、標準パターン格納用ＲＯＭ３
３の容量及び照合部４１の処理能力によって決定され
る。標準パターン格納用ＲＯＭ３３の容量を増加させれ
ば、記憶できる標準パターンの種類は増加するが、入力
パターンとの照合に要する演算量が増加するため、標準
パターンの種類が増加した場合には、音声信号が入力さ
れてから認識して表示するまでの時間が長くなる。その
ため、標準パターンの種類は照合部４１の処理能力を考
えて決定される。本実施例では、標準パターンとして、
日常生活に必要な「おはよう」、「食事です」等の数十
種類の言葉と、消防車のサイレン音、乳児の泣き声等の
数種類の言葉以外の音が記憶される。

【００１４】照合部４１は実際にはコンピュータであ
り、ＤＰマッチングの手法を用いて入力パターンに近い
標準パターンを探し出す。ここで、ＤＰマッチングの手
法について簡単に説明する。図３はＤＰマッチングの概
念を示す図である。図中、ａ₁、ａ₂、ａ₃…は入力の
周波数特徴パラメータ時系列、ｂ₁、ｂ₂、ｂ₃…は標
準パターンの周波数特徴パラメータ時系列である。ＤＰ
マッチングでは、入力と標準パターン周波数特徴パラメ
ータ時系列がもっともよく一致するように時間軸を変換
した後、距離を求める。すなわち、図中の経路Ｐが最適
な経路とすると、そのＰ上の各位置で対応するａとｂの
差をＰ上の全位置について総和したものを入力と標準パ
ターンの距離とする。このようにして全標準パターンに
ついての距離を求め、もっとも距離の小さい標準パター
ンを認識結果とする。

【００１５】グラフィックパターン用ＲＯＭ５４には、
各標準パターンのうち、非音声の標準パターンに対応す
る画像情報、すなわち、消防車の絵や乳児が泣いている
絵等が標準パターンに対応付けて記憶されている。表示
制御部６１は、照合部４１での照合結果に従って、もっ
ともよく一致する標準パターンに対応する表示を表示装
置６２に行う。表示する標準パターンが音声であった場
合には、表示する文字列を表すコードと各文字のパター
ンをキャラクタ用ＲＯＭ５３から読み出して合成し、表
示装置６２にビデオ信号として出力する。すなわち、入
力された音声信号のことばを表す文字が表示される。な
お、キャラクタ用ＲＯＭ５３に標準パターンに対応する
文字列のパターンを記憶させておくことも可能であり、
そのようにすれば、表示制御装置６１を簡単にすること
ができる。

【００１６】入力された音声信号がことばでない時に
は、その音が聞こえることを示す文字情報か、グラフィ
ック表示パターンを表示する。図４はその例である。図
４の（１）は、入力された音声信号がことばでない時
に、その音が聞こえることを文字で表示する例であり、
（２）は関連させたグラフィック表示パターンを表示す
る例である。どちらも、（ａ）がサイレンの音が聞こえ
る場合を示し、（ｂ）が赤ん坊が泣いている場合を示
す。前述のように、文字で表示した場合には、他者がそ
のような言葉を言っている場合との差が判別できないと
いう問題があるので、入力された音声信号がことばでな
い時にはグラフィックパターンが表示されると決めてお
くか、図４の（１）に更に、他者がそのような言葉を言
っていないことを示す表示を追加することが望ましい。

【００１７】以上が本発明の実施例であるが、照合部４
１における照合は、図３に示すように、入力の周波数特
徴パラメータ時系列と標準パターンの周波数特徴パラメ
ータ時系列の経路Ｐに対して各位置で対応するａとｂの
差をＰ上の全位置について総和したものを距離とした。
しかし、全位置について総和したものを距離とするので
はなく、図５に示すように、経路Ｐの始端と終端の入力
パターンに対応する位置をそれぞれａ₁とａ_Iに固定せ
ずに求めるといった変形例も可能である。この図の例の
場合は、ａ_mとａ_nがそれぞれ始端と終端になってい
る。このようにして、入力パターンの一部分との距離が
もっとも小さい標準パターンを求めてそれを認識結果と
する。

【００１８】音声認識する対象の音をマイクロフォンで
捕らえるが、複数の音源が存在するために、マイクロフ
ォンが複数の音を同時に捕らえる場合がある。このよう
な場合、そのまま標準パターンと照合したのでは一致す
る標準パターンを特定するのは難しくなる。このような
場合には、例えば、指向性のマイクロフォンを複数、指
向性を異ならせて設け、各マイクロフォンの入力信号を
比較して、一致する場合には音源は１個であると認識し
て照合処理を行い、各マイクロフォンの入力信号が異な
る場合には異なる音源が存在すると認識し、それぞれの
音源からの音声信号について照合処理を行う。

【００１９】複数の音声信号を認識した場合には、同時
に認識した音声信号を表示する必要がある。そこで、例
えば、人間の言葉と消防車のサイレンを認識した場合に
は、人間の言葉を文字表示すると共に、消防車の画像を
表示する。また、消防車のサイレンと赤ん坊の泣き声を
認識した場合には、消防車の画像と赤ん坊が泣く画像を
同時に表示する。図６の（１）はこの表示例を示してい
る。

【００２０】更に、照合部４１における照合の結果、距
離の類似した標準パターンが複数存在する場合があり得
る。このような場合、その中のもっとも近い標準パター
ンを特定するのは危険である。そこでこのような場合に
は、可能性のある複数の標準パターンをそのまま表示す
るといった具合に、表示を変形する。図６の（２）は、
そのような変形例における表示例を示す図であり、赤ん
坊の泣き声か猫の鳴き声か完全に特定できない場合に、
赤ん坊が泣いている画像と猫の画像を同時に表示し、認
識結果に応じてそれぞれに確率を表示している。

【００２１】以上のように、上記の装置を使用すれば人
間の話言葉以外の音も認識して関連する情報を表示する
ことができるようになる。話言葉を認識して表示するの
であれば、相手に対面して会話する時だけに使用するの
であるから、その時に表示画面を見れば良いが、人間の
話言葉以外の音はいつ入力されるかわからない。そのた
め、装置は常時オン状態とし、そのような音が入力され
たことを認識した時に表示を行うことになるが、装置を
使用している人はそのような音の入力があったことも認
識できないと考えられる。しかも常時表示画面を見てい
ることはできない。そこで、人間の話言葉以外の特定の
音が入力されことを認識した時には、音や表示以外の別
の手段、例えば、振動等により、使用者に報知するよう
にする。このような装置を聴覚障害者の支援装置に使用
し、消防車のサイレンを認識した時に振動により報知す
るようにすれば、聴覚障害者の安全に大いに寄与する。

【００２２】

【発明の効果】以上説明したように、本発明によれば、
音声認識装置において、人間の言葉だけを認識して文字
で表示するだけでなく、人間の言葉の音も認識してそれ
に対応する情報を表示できるようになる。このような装
置を聴覚障害者用に使用した場合、聴覚障害者に周囲の
音も含めた情報を提供できるようになる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の原理構成図である。

【図２】本発明の実施例の装置の構成を示す図である。

【図３】ＤＰマッチングの説明図である。

【図４】非言葉の表示パターンの例を示す図である。

【図５】ＤＰマッチングの変形例の説明図である。

【図６】非言葉の表示パターンの変形例を示す図であ
る。

【符号の説明】

１…音声入力手段２…特徴抽出手段３…特徴標準パターン記憶手段４…照合手段５…表示パターン記憶手段６…表示手段３１…言葉の特徴パターン３２…非言葉の特徴パターン５１…言葉表示情報５２…非言葉表示情報

Claims

【特許請求の範囲】

【請求項１】音声信号を入力する音声入力手段（１）
と、音声信号を認識するための特徴を抽出する特徴抽出手段
（２）と、標準音声信号の特徴パターンを記憶する特徴標準パター
ン記憶手段（３）と、抽出された音声入力信号の特徴と前記特徴標準パターン
記憶手段（３）に記憶された特徴パターンとを照合し、
入力された音声信号に対応する標準音声信号を特定する
照合手段（４）と、前記標準音声信号に対応する表示情報を記憶する表示パ
ターン記憶手段（５）と、該照合手段（４）で標準音声信号が特定された場合に、
標準音声信号に対応する表示情報を表示する表示手段
（６）とを備える音声認識装置において、前記特徴標準パターン記憶手段（３）は、人間の言葉の
標準音声信号の特徴パターン（３１）の他に、人間の言
葉以外の非言葉標準音声信号の特徴パターン（３２）を
記憶しており、前記表示パターン記憶手段（５）は、前記標準音声信号
をそのまま文字にした言葉表示情報（５１）と、前記非
言葉標準音声信号に対応する非言葉表示情報（５２）と
を記憶していることを特徴とする音声認識装置。
【請求項２】前記非言葉表示情報（５２）は画像情報
であり、前記表示手段（６）は、画像情報を表示可能であること
を特徴とする請求項１に記載の音声認識装置。
【請求項３】前記非言葉表示情報（５２）の画像情報
は動画像情報を含み、前記表示手段（６）は動画像情報
を表示可能であることを特徴とする請求項２に記載の音
声認識装置。
【請求項４】前記表示手段（６）に情報が表示された
ことを、音声以外の手段で報知する報知手段を備えるこ
とを特徴とする請求項１に記載の音声認識装置。
【請求項５】前記照合手段（４）は、抽出された音声
入力信号の特徴と前記特徴標準パターン記憶手段（３）
に記憶された特徴パターンとの一致具合を順位付けて出
力するものであり、前記表示手段（６）は、所定の一致具合の標準音声信号
までの複数の表示情報を表示することを特徴とする請求
項１に記載の音声認識装置。
【請求項６】前記照合手段（４）は、同時に複数の標
準音声信号が入力されたことを検出した場合には、前記
表示手段（６）は複数の表示情報を表示することを特徴
とする請求項１に記載の音声認識装置。