JPH0784592A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0784592A JPH0784592A JP5228990A JP22899093A JPH0784592A JP H0784592 A JPH0784592 A JP H0784592A JP 5228990 A JP5228990 A JP 5228990A JP 22899093 A JP22899093 A JP 22899093A JP H0784592 A JPH0784592 A JP H0784592A
- Authority
- JP
- Japan
- Prior art keywords
- standard
- display
- voice
- feature
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 208000032041 Hearing impaired Diseases 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 206010011469 Crying Diseases 0.000 description 6
- 206010011878 Deafness Diseases 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000269400 Sirenidae Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Abstract
(57)【要約】
【目的】 本発明は音声認識装置に関し、人間の言葉以
外の音を認識して報知できるようにすることを目的とす
る。 【構成】 音声入力手段1と、音声信号の特徴を抽出す
る特徴抽出手段2と、標準音声信号の特徴パターンを記
憶する特徴標準パターン記憶手段3と、抽出された音声
入力信号の特徴と記憶された特徴パターンとを照合し入
力音声信号に対応する標準音声信号を特定する照合手段
4と、標準音声信号に対応する表示情報を記憶する表示
パターン記憶手段5と、表示情報を表示する表示手段6
とを備える音声認識装置において、特徴標準パターン記
憶手段3は、人間の言葉の特徴パターン31と人間の言
葉以外の特徴パターン32を記憶しており、表示パター
ン記憶手段5は、標準音声信号をそのまま文字にした言
葉表示情報51と、非言葉標準音声信号に対応する非言
葉表示情報52とを記憶しているように構成する。
外の音を認識して報知できるようにすることを目的とす
る。 【構成】 音声入力手段1と、音声信号の特徴を抽出す
る特徴抽出手段2と、標準音声信号の特徴パターンを記
憶する特徴標準パターン記憶手段3と、抽出された音声
入力信号の特徴と記憶された特徴パターンとを照合し入
力音声信号に対応する標準音声信号を特定する照合手段
4と、標準音声信号に対応する表示情報を記憶する表示
パターン記憶手段5と、表示情報を表示する表示手段6
とを備える音声認識装置において、特徴標準パターン記
憶手段3は、人間の言葉の特徴パターン31と人間の言
葉以外の特徴パターン32を記憶しており、表示パター
ン記憶手段5は、標準音声信号をそのまま文字にした言
葉表示情報51と、非言葉標準音声信号に対応する非言
葉表示情報52とを記憶しているように構成する。
Description
【0001】
【産業上の利用分野】本発明は、入力された音声信号を
自動認識し、その認識結果を表示する音声認識装置に関
し、特に人間の言葉以外の音声信号も認識しその音声信
号が認識できる形で表示するようにした音声認識装置に
関する。
自動認識し、その認識結果を表示する音声認識装置に関
し、特に人間の言葉以外の音声信号も認識しその音声信
号が認識できる形で表示するようにした音声認識装置に
関する。
【0002】
【従来の技術】音声認識装置が実用化されつつある。従
来の音声認識装置は、あらかじめ認識すべき音声信号を
標準パターンとして登録して記憶し、入力された音声信
号とこれらの標準パターンとを照合し、もっとも良く一
致する標準パターンを特定し、その一致具合が所定のレ
ベル以上の場合に標準パターンの音声が入力されたと認
識している。標準パターンとして登録するためには、そ
の標準パターンを入力する必要があり、通常標準パター
ンとしては使用者が入力できる音声信号に限られるが、
プラント等の自動制御のために異常音を認識する場合に
は、そのような異常音を標準パターンとする場合もあ
る。
来の音声認識装置は、あらかじめ認識すべき音声信号を
標準パターンとして登録して記憶し、入力された音声信
号とこれらの標準パターンとを照合し、もっとも良く一
致する標準パターンを特定し、その一致具合が所定のレ
ベル以上の場合に標準パターンの音声が入力されたと認
識している。標準パターンとして登録するためには、そ
の標準パターンを入力する必要があり、通常標準パター
ンとしては使用者が入力できる音声信号に限られるが、
プラント等の自動制御のために異常音を認識する場合に
は、そのような異常音を標準パターンとする場合もあ
る。
【0003】認識結果を、音声信号の認識が正しく行わ
れたものとしてそのまま出力する場合もあるが、認識の
正確さを期すために、認識結果に従って合成した音声を
出力し、話者に確認してもらうことが一般に行われる。
この確認方法には、合成音声を出力するだけなく、認識
結果を文字情報として表示して確認する方法もあるが、
いずれにしろ、入力された音声信号を正確に表現できる
方法であることが必要である。そのため、人間の話言葉
を標準パターンとし、確認のための音声合成又は文字表
示が行えるようにしている。上記の異常音を標準パター
ンとした場合には、確認する必要がないため確認は行わ
れない。
れたものとしてそのまま出力する場合もあるが、認識の
正確さを期すために、認識結果に従って合成した音声を
出力し、話者に確認してもらうことが一般に行われる。
この確認方法には、合成音声を出力するだけなく、認識
結果を文字情報として表示して確認する方法もあるが、
いずれにしろ、入力された音声信号を正確に表現できる
方法であることが必要である。そのため、人間の話言葉
を標準パターンとし、確認のための音声合成又は文字表
示が行えるようにしている。上記の異常音を標準パター
ンとした場合には、確認する必要がないため確認は行わ
れない。
【0004】聴覚障害者が他者と会話する場合には手話
や筆談によるが、上記の音声認識装置を利用して聴覚障
害者が通常の言語能力を有する者と会話するのを支援す
ることが考えられる。通常の言語能力を有する者は、通
常通り会話を行い、その音声を音声認識装置で認識し、
認識結果を文字情報として表示して聴覚障害者に知らせ
る。
や筆談によるが、上記の音声認識装置を利用して聴覚障
害者が通常の言語能力を有する者と会話するのを支援す
ることが考えられる。通常の言語能力を有する者は、通
常通り会話を行い、その音声を音声認識装置で認識し、
認識結果を文字情報として表示して聴覚障害者に知らせ
る。
【0005】本発明は、特にこのような目的で使用され
る音声認識装置に適しているが、このようなものに限ら
れず、例えば、会議中のような音を発することが好まし
くない状態で、別の場所の音声情報を知る必要がある場
合等に使用される音声認識装置にも適用可能である。し
かしここでは、聴覚障害者用音声認識装置が例としても
っとも適当と思われるので、これを例として説明する。
る音声認識装置に適しているが、このようなものに限ら
れず、例えば、会議中のような音を発することが好まし
くない状態で、別の場所の音声情報を知る必要がある場
合等に使用される音声認識装置にも適用可能である。し
かしここでは、聴覚障害者用音声認識装置が例としても
っとも適当と思われるので、これを例として説明する。
【0006】
【発明が解決しようとする課題】上記のような認識した
音声信号を表示する音声認識装置では、認識した音声信
号が表示できることが必要であるから、登録される標準
パターンは人間の話言葉に限定されていた。また、表示
するのは人間の話言葉に対応した文字であるから、表示
装置も文字を表示できるものであればよかった。
音声信号を表示する音声認識装置では、認識した音声信
号が表示できることが必要であるから、登録される標準
パターンは人間の話言葉に限定されていた。また、表示
するのは人間の話言葉に対応した文字であるから、表示
装置も文字を表示できるものであればよかった。
【0007】聴覚障害者用音声認識装置が通常の言語能
力を有する者との会話を支援するためだけのものであれ
ば、上記のような登録される標準パターンは人間の話言
葉に限定され、表示装置も文字を表示できる音声認識装
置で十分と思われる。しかし、聴覚障害者により広い音
声情報を提供するという観点からは、人間の話言葉以外
の音声情報も提供できることが望ましい。
力を有する者との会話を支援するためだけのものであれ
ば、上記のような登録される標準パターンは人間の話言
葉に限定され、表示装置も文字を表示できる音声認識装
置で十分と思われる。しかし、聴覚障害者により広い音
声情報を提供するという観点からは、人間の話言葉以外
の音声情報も提供できることが望ましい。
【0008】本発明は、このような観点から、人間の話
言葉以外の音声情報も表示情報として提供できる音声認
識装置の実現を目的とする。
言葉以外の音声情報も表示情報として提供できる音声認
識装置の実現を目的とする。
【0009】
【課題を解決するための手段】図1は本発明の音声認識
装置の原理構成図である。図示のように、本発明の音声
認識装置は、音声信号を入力する音声入力手段1と、音
声信号を認識するための特徴を抽出する特徴抽出手段2
と、標準音声信号の特徴パターンを記憶する特徴標準パ
ターン記憶手段3と、抽出された音声入力信号の特徴と
特徴標準パターン記憶手段3に記憶された特徴パターン
とを照合して入力された音声信号に対応する標準音声信
号を特定する照合手段4と、標準音声信号に対応する表
示情報を記憶する表示パターン記憶手段5と、照合手段
4で標準音声信号が特定された場合に標準音声信号に対
応する表示情報を表示する表示手段6とを備える音声認
識装置において、上記目的を達成するため、特徴標準パ
ターン記憶手段3は、人間の言葉の標準音声信号の特徴
パターン31の他に、人間の言葉以外の非言葉標準音声
信号の特徴パターン32を記憶しており、表示パターン
記憶手段5は、標準音声信号をそのまま文字にした言葉
表示情報51と、非言葉標準音声信号に対応する非言葉
表示情報52とを記憶していることを特徴とする。
装置の原理構成図である。図示のように、本発明の音声
認識装置は、音声信号を入力する音声入力手段1と、音
声信号を認識するための特徴を抽出する特徴抽出手段2
と、標準音声信号の特徴パターンを記憶する特徴標準パ
ターン記憶手段3と、抽出された音声入力信号の特徴と
特徴標準パターン記憶手段3に記憶された特徴パターン
とを照合して入力された音声信号に対応する標準音声信
号を特定する照合手段4と、標準音声信号に対応する表
示情報を記憶する表示パターン記憶手段5と、照合手段
4で標準音声信号が特定された場合に標準音声信号に対
応する表示情報を表示する表示手段6とを備える音声認
識装置において、上記目的を達成するため、特徴標準パ
ターン記憶手段3は、人間の言葉の標準音声信号の特徴
パターン31の他に、人間の言葉以外の非言葉標準音声
信号の特徴パターン32を記憶しており、表示パターン
記憶手段5は、標準音声信号をそのまま文字にした言葉
表示情報51と、非言葉標準音声信号に対応する非言葉
表示情報52とを記憶していることを特徴とする。
【0010】
【作用】本発明の音声認識装置において、特徴標準パタ
ーン記憶手段3に、人間の言葉以外の音声信号、例え
ば、「サイレン」の音を非言葉標準音声信号の特徴パタ
ーン32として記憶しておけば、サイレンの音を認識す
ることができる。そして、サイレンの音を認識した時に
は、表示パターン記憶手段5にサイレンの音に対応する
非言葉表示情報52として記憶されている「サイレンが
鳴っています。」という表示を行うことができる。
ーン記憶手段3に、人間の言葉以外の音声信号、例え
ば、「サイレン」の音を非言葉標準音声信号の特徴パタ
ーン32として記憶しておけば、サイレンの音を認識す
ることができる。そして、サイレンの音を認識した時に
は、表示パターン記憶手段5にサイレンの音に対応する
非言葉表示情報52として記憶されている「サイレンが
鳴っています。」という表示を行うことができる。
【0011】また、「サイレンが鳴っています。」とい
うだけでは、他者が「サイレンが鳴っています。」と言
っているのか、実際に「サイレン」の音が聞こえるのか
判別できないため、例えば、消防車の「サイレン」の音
であれば、消防車の画像を表示するようにすれば、より
大きな情報を提供することが可能になる。
うだけでは、他者が「サイレンが鳴っています。」と言
っているのか、実際に「サイレン」の音が聞こえるのか
判別できないため、例えば、消防車の「サイレン」の音
であれば、消防車の画像を表示するようにすれば、より
大きな情報を提供することが可能になる。
【0012】
【実施例】図2は本発明の1実施例の音声認識装置の構
成を示す図であり、聴覚障害者のための音声認識装置で
ある。図2において、参照番号11は音声信号を電気信
号に変換するマイクロフォン、21はマイクロフォン1
1から得られる電気信号を、例えば、12kHzのサン
プリング周期でサンプリングしてディジタル信号に変換
するA/D変換器、22は周波数分析部である。周波数
分析部22は、A/D変換されたディジタル時系列信号
を10ms毎にファーストフーリエ変換(FFT)等で
周波数分析し、聴覚的な尺度で8帯域に分割した各周波
数帯域でのパワーを求め、周波数特徴パラメータの時系
列を得る。33は標準パターン格納用ROMであり、上
記のマイクロフォン11、A/D変換器21及び周波数
分析部22であらかじめ求めておいた認識対象信号の周
波数特徴パラメータの時系列を記憶する。ここでは、認
識対象信号の周波数特徴パラメータの時系列を標準パタ
ーンと呼ぶことにする。41は照合部であり、DPマッ
チング等の手法を用いて、入力音声信号の周波数特徴パ
ラメータの時系列(入力パターン)と標準パターンとの
照合を行い、入力パターンともっともよく一致する標準
パターンを求める。53は文字の表示パターンを記憶し
たキャラクタ用ROMであり、53は絵等のグラフィッ
ク表示パターンを記憶したグラフィックパターン用RO
Mであり、61は表示制御部であり、62はCRT、液
晶表示装置等の表示装置である。
成を示す図であり、聴覚障害者のための音声認識装置で
ある。図2において、参照番号11は音声信号を電気信
号に変換するマイクロフォン、21はマイクロフォン1
1から得られる電気信号を、例えば、12kHzのサン
プリング周期でサンプリングしてディジタル信号に変換
するA/D変換器、22は周波数分析部である。周波数
分析部22は、A/D変換されたディジタル時系列信号
を10ms毎にファーストフーリエ変換(FFT)等で
周波数分析し、聴覚的な尺度で8帯域に分割した各周波
数帯域でのパワーを求め、周波数特徴パラメータの時系
列を得る。33は標準パターン格納用ROMであり、上
記のマイクロフォン11、A/D変換器21及び周波数
分析部22であらかじめ求めておいた認識対象信号の周
波数特徴パラメータの時系列を記憶する。ここでは、認
識対象信号の周波数特徴パラメータの時系列を標準パタ
ーンと呼ぶことにする。41は照合部であり、DPマッ
チング等の手法を用いて、入力音声信号の周波数特徴パ
ラメータの時系列(入力パターン)と標準パターンとの
照合を行い、入力パターンともっともよく一致する標準
パターンを求める。53は文字の表示パターンを記憶し
たキャラクタ用ROMであり、53は絵等のグラフィッ
ク表示パターンを記憶したグラフィックパターン用RO
Mであり、61は表示制御部であり、62はCRT、液
晶表示装置等の表示装置である。
【0013】標準パターン格納用ROM33に記憶され
る標準パターンの種類は、標準パターン格納用ROM3
3の容量及び照合部41の処理能力によって決定され
る。標準パターン格納用ROM33の容量を増加させれ
ば、記憶できる標準パターンの種類は増加するが、入力
パターンとの照合に要する演算量が増加するため、標準
パターンの種類が増加した場合には、音声信号が入力さ
れてから認識して表示するまでの時間が長くなる。その
ため、標準パターンの種類は照合部41の処理能力を考
えて決定される。本実施例では、標準パターンとして、
日常生活に必要な「おはよう」、「食事です」等の数十
種類の言葉と、消防車のサイレン音、乳児の泣き声等の
数種類の言葉以外の音が記憶される。
る標準パターンの種類は、標準パターン格納用ROM3
3の容量及び照合部41の処理能力によって決定され
る。標準パターン格納用ROM33の容量を増加させれ
ば、記憶できる標準パターンの種類は増加するが、入力
パターンとの照合に要する演算量が増加するため、標準
パターンの種類が増加した場合には、音声信号が入力さ
れてから認識して表示するまでの時間が長くなる。その
ため、標準パターンの種類は照合部41の処理能力を考
えて決定される。本実施例では、標準パターンとして、
日常生活に必要な「おはよう」、「食事です」等の数十
種類の言葉と、消防車のサイレン音、乳児の泣き声等の
数種類の言葉以外の音が記憶される。
【0014】照合部41は実際にはコンピュータであ
り、DPマッチングの手法を用いて入力パターンに近い
標準パターンを探し出す。ここで、DPマッチングの手
法について簡単に説明する。図3はDPマッチングの概
念を示す図である。図中、a1 、a2 、a3 …は入力の
周波数特徴パラメータ時系列、b1 、b2 、b3 …は標
準パターンの周波数特徴パラメータ時系列である。DP
マッチングでは、入力と標準パターン周波数特徴パラメ
ータ時系列がもっともよく一致するように時間軸を変換
した後、距離を求める。すなわち、図中の経路Pが最適
な経路とすると、そのP上の各位置で対応するaとbの
差をP上の全位置について総和したものを入力と標準パ
ターンの距離とする。このようにして全標準パターンに
ついての距離を求め、もっとも距離の小さい標準パター
ンを認識結果とする。
り、DPマッチングの手法を用いて入力パターンに近い
標準パターンを探し出す。ここで、DPマッチングの手
法について簡単に説明する。図3はDPマッチングの概
念を示す図である。図中、a1 、a2 、a3 …は入力の
周波数特徴パラメータ時系列、b1 、b2 、b3 …は標
準パターンの周波数特徴パラメータ時系列である。DP
マッチングでは、入力と標準パターン周波数特徴パラメ
ータ時系列がもっともよく一致するように時間軸を変換
した後、距離を求める。すなわち、図中の経路Pが最適
な経路とすると、そのP上の各位置で対応するaとbの
差をP上の全位置について総和したものを入力と標準パ
ターンの距離とする。このようにして全標準パターンに
ついての距離を求め、もっとも距離の小さい標準パター
ンを認識結果とする。
【0015】グラフィックパターン用ROM54には、
各標準パターンのうち、非音声の標準パターンに対応す
る画像情報、すなわち、消防車の絵や乳児が泣いている
絵等が標準パターンに対応付けて記憶されている。表示
制御部61は、照合部41での照合結果に従って、もっ
ともよく一致する標準パターンに対応する表示を表示装
置62に行う。表示する標準パターンが音声であった場
合には、表示する文字列を表すコードと各文字のパター
ンをキャラクタ用ROM53から読み出して合成し、表
示装置62にビデオ信号として出力する。すなわち、入
力された音声信号のことばを表す文字が表示される。な
お、キャラクタ用ROM53に標準パターンに対応する
文字列のパターンを記憶させておくことも可能であり、
そのようにすれば、表示制御装置61を簡単にすること
ができる。
各標準パターンのうち、非音声の標準パターンに対応す
る画像情報、すなわち、消防車の絵や乳児が泣いている
絵等が標準パターンに対応付けて記憶されている。表示
制御部61は、照合部41での照合結果に従って、もっ
ともよく一致する標準パターンに対応する表示を表示装
置62に行う。表示する標準パターンが音声であった場
合には、表示する文字列を表すコードと各文字のパター
ンをキャラクタ用ROM53から読み出して合成し、表
示装置62にビデオ信号として出力する。すなわち、入
力された音声信号のことばを表す文字が表示される。な
お、キャラクタ用ROM53に標準パターンに対応する
文字列のパターンを記憶させておくことも可能であり、
そのようにすれば、表示制御装置61を簡単にすること
ができる。
【0016】入力された音声信号がことばでない時に
は、その音が聞こえることを示す文字情報か、グラフィ
ック表示パターンを表示する。図4はその例である。図
4の(1)は、入力された音声信号がことばでない時
に、その音が聞こえることを文字で表示する例であり、
(2)は関連させたグラフィック表示パターンを表示す
る例である。どちらも、(a)がサイレンの音が聞こえ
る場合を示し、(b)が赤ん坊が泣いている場合を示
す。前述のように、文字で表示した場合には、他者がそ
のような言葉を言っている場合との差が判別できないと
いう問題があるので、入力された音声信号がことばでな
い時にはグラフィックパターンが表示されると決めてお
くか、図4の(1)に更に、他者がそのような言葉を言
っていないことを示す表示を追加することが望ましい。
は、その音が聞こえることを示す文字情報か、グラフィ
ック表示パターンを表示する。図4はその例である。図
4の(1)は、入力された音声信号がことばでない時
に、その音が聞こえることを文字で表示する例であり、
(2)は関連させたグラフィック表示パターンを表示す
る例である。どちらも、(a)がサイレンの音が聞こえ
る場合を示し、(b)が赤ん坊が泣いている場合を示
す。前述のように、文字で表示した場合には、他者がそ
のような言葉を言っている場合との差が判別できないと
いう問題があるので、入力された音声信号がことばでな
い時にはグラフィックパターンが表示されると決めてお
くか、図4の(1)に更に、他者がそのような言葉を言
っていないことを示す表示を追加することが望ましい。
【0017】以上が本発明の実施例であるが、照合部4
1における照合は、図3に示すように、入力の周波数特
徴パラメータ時系列と標準パターンの周波数特徴パラメ
ータ時系列の経路Pに対して各位置で対応するaとbの
差をP上の全位置について総和したものを距離とした。
しかし、全位置について総和したものを距離とするので
はなく、図5に示すように、経路Pの始端と終端の入力
パターンに対応する位置をそれぞれa1 とaI に固定せ
ずに求めるといった変形例も可能である。この図の例の
場合は、am とan がそれぞれ始端と終端になってい
る。このようにして、入力パターンの一部分との距離が
もっとも小さい標準パターンを求めてそれを認識結果と
する。
1における照合は、図3に示すように、入力の周波数特
徴パラメータ時系列と標準パターンの周波数特徴パラメ
ータ時系列の経路Pに対して各位置で対応するaとbの
差をP上の全位置について総和したものを距離とした。
しかし、全位置について総和したものを距離とするので
はなく、図5に示すように、経路Pの始端と終端の入力
パターンに対応する位置をそれぞれa1 とaI に固定せ
ずに求めるといった変形例も可能である。この図の例の
場合は、am とan がそれぞれ始端と終端になってい
る。このようにして、入力パターンの一部分との距離が
もっとも小さい標準パターンを求めてそれを認識結果と
する。
【0018】音声認識する対象の音をマイクロフォンで
捕らえるが、複数の音源が存在するために、マイクロフ
ォンが複数の音を同時に捕らえる場合がある。このよう
な場合、そのまま標準パターンと照合したのでは一致す
る標準パターンを特定するのは難しくなる。このような
場合には、例えば、指向性のマイクロフォンを複数、指
向性を異ならせて設け、各マイクロフォンの入力信号を
比較して、一致する場合には音源は1個であると認識し
て照合処理を行い、各マイクロフォンの入力信号が異な
る場合には異なる音源が存在すると認識し、それぞれの
音源からの音声信号について照合処理を行う。
捕らえるが、複数の音源が存在するために、マイクロフ
ォンが複数の音を同時に捕らえる場合がある。このよう
な場合、そのまま標準パターンと照合したのでは一致す
る標準パターンを特定するのは難しくなる。このような
場合には、例えば、指向性のマイクロフォンを複数、指
向性を異ならせて設け、各マイクロフォンの入力信号を
比較して、一致する場合には音源は1個であると認識し
て照合処理を行い、各マイクロフォンの入力信号が異な
る場合には異なる音源が存在すると認識し、それぞれの
音源からの音声信号について照合処理を行う。
【0019】複数の音声信号を認識した場合には、同時
に認識した音声信号を表示する必要がある。そこで、例
えば、人間の言葉と消防車のサイレンを認識した場合に
は、人間の言葉を文字表示すると共に、消防車の画像を
表示する。また、消防車のサイレンと赤ん坊の泣き声を
認識した場合には、消防車の画像と赤ん坊が泣く画像を
同時に表示する。図6の(1)はこの表示例を示してい
る。
に認識した音声信号を表示する必要がある。そこで、例
えば、人間の言葉と消防車のサイレンを認識した場合に
は、人間の言葉を文字表示すると共に、消防車の画像を
表示する。また、消防車のサイレンと赤ん坊の泣き声を
認識した場合には、消防車の画像と赤ん坊が泣く画像を
同時に表示する。図6の(1)はこの表示例を示してい
る。
【0020】更に、照合部41における照合の結果、距
離の類似した標準パターンが複数存在する場合があり得
る。このような場合、その中のもっとも近い標準パター
ンを特定するのは危険である。そこでこのような場合に
は、可能性のある複数の標準パターンをそのまま表示す
るといった具合に、表示を変形する。図6の(2)は、
そのような変形例における表示例を示す図であり、赤ん
坊の泣き声か猫の鳴き声か完全に特定できない場合に、
赤ん坊が泣いている画像と猫の画像を同時に表示し、認
識結果に応じてそれぞれに確率を表示している。
離の類似した標準パターンが複数存在する場合があり得
る。このような場合、その中のもっとも近い標準パター
ンを特定するのは危険である。そこでこのような場合に
は、可能性のある複数の標準パターンをそのまま表示す
るといった具合に、表示を変形する。図6の(2)は、
そのような変形例における表示例を示す図であり、赤ん
坊の泣き声か猫の鳴き声か完全に特定できない場合に、
赤ん坊が泣いている画像と猫の画像を同時に表示し、認
識結果に応じてそれぞれに確率を表示している。
【0021】以上のように、上記の装置を使用すれば人
間の話言葉以外の音も認識して関連する情報を表示する
ことができるようになる。話言葉を認識して表示するの
であれば、相手に対面して会話する時だけに使用するの
であるから、その時に表示画面を見れば良いが、人間の
話言葉以外の音はいつ入力されるかわからない。そのた
め、装置は常時オン状態とし、そのような音が入力され
たことを認識した時に表示を行うことになるが、装置を
使用している人はそのような音の入力があったことも認
識できないと考えられる。しかも常時表示画面を見てい
ることはできない。そこで、人間の話言葉以外の特定の
音が入力されことを認識した時には、音や表示以外の別
の手段、例えば、振動等により、使用者に報知するよう
にする。このような装置を聴覚障害者の支援装置に使用
し、消防車のサイレンを認識した時に振動により報知す
るようにすれば、聴覚障害者の安全に大いに寄与する。
間の話言葉以外の音も認識して関連する情報を表示する
ことができるようになる。話言葉を認識して表示するの
であれば、相手に対面して会話する時だけに使用するの
であるから、その時に表示画面を見れば良いが、人間の
話言葉以外の音はいつ入力されるかわからない。そのた
め、装置は常時オン状態とし、そのような音が入力され
たことを認識した時に表示を行うことになるが、装置を
使用している人はそのような音の入力があったことも認
識できないと考えられる。しかも常時表示画面を見てい
ることはできない。そこで、人間の話言葉以外の特定の
音が入力されことを認識した時には、音や表示以外の別
の手段、例えば、振動等により、使用者に報知するよう
にする。このような装置を聴覚障害者の支援装置に使用
し、消防車のサイレンを認識した時に振動により報知す
るようにすれば、聴覚障害者の安全に大いに寄与する。
【0022】
【発明の効果】以上説明したように、本発明によれば、
音声認識装置において、人間の言葉だけを認識して文字
で表示するだけでなく、人間の言葉の音も認識してそれ
に対応する情報を表示できるようになる。このような装
置を聴覚障害者用に使用した場合、聴覚障害者に周囲の
音も含めた情報を提供できるようになる。
音声認識装置において、人間の言葉だけを認識して文字
で表示するだけでなく、人間の言葉の音も認識してそれ
に対応する情報を表示できるようになる。このような装
置を聴覚障害者用に使用した場合、聴覚障害者に周囲の
音も含めた情報を提供できるようになる。
【図1】本発明の音声認識装置の原理構成図である。
【図2】本発明の実施例の装置の構成を示す図である。
【図3】DPマッチングの説明図である。
【図4】非言葉の表示パターンの例を示す図である。
【図5】DPマッチングの変形例の説明図である。
【図6】非言葉の表示パターンの変形例を示す図であ
る。
る。
1…音声入力手段 2…特徴抽出手段 3…特徴標準パターン記憶手段 4…照合手段 5…表示パターン記憶手段 6…表示手段 31…言葉の特徴パターン 32…非言葉の特徴パターン 51…言葉表示情報 52…非言葉表示情報
Claims (6)
- 【請求項1】 音声信号を入力する音声入力手段(1)
と、 音声信号を認識するための特徴を抽出する特徴抽出手段
(2)と、 標準音声信号の特徴パターンを記憶する特徴標準パター
ン記憶手段(3)と、 抽出された音声入力信号の特徴と前記特徴標準パターン
記憶手段(3)に記憶された特徴パターンとを照合し、
入力された音声信号に対応する標準音声信号を特定する
照合手段(4)と、 前記標準音声信号に対応する表示情報を記憶する表示パ
ターン記憶手段(5)と、 該照合手段(4)で標準音声信号が特定された場合に、
標準音声信号に対応する表示情報を表示する表示手段
(6)とを備える音声認識装置において、 前記特徴標準パターン記憶手段(3)は、人間の言葉の
標準音声信号の特徴パターン(31)の他に、人間の言
葉以外の非言葉標準音声信号の特徴パターン(32)を
記憶しており、 前記表示パターン記憶手段(5)は、前記標準音声信号
をそのまま文字にした言葉表示情報(51)と、前記非
言葉標準音声信号に対応する非言葉表示情報(52)と
を記憶していることを特徴とする音声認識装置。 - 【請求項2】 前記非言葉表示情報(52)は画像情報
であり、 前記表示手段(6)は、画像情報を表示可能であること
を特徴とする請求項1に記載の音声認識装置。 - 【請求項3】 前記非言葉表示情報(52)の画像情報
は動画像情報を含み、前記表示手段(6)は動画像情報
を表示可能であることを特徴とする請求項2に記載の音
声認識装置。 - 【請求項4】 前記表示手段(6)に情報が表示された
ことを、音声以外の手段で報知する報知手段を備えるこ
とを特徴とする請求項1に記載の音声認識装置。 - 【請求項5】 前記照合手段(4)は、抽出された音声
入力信号の特徴と前記特徴標準パターン記憶手段(3)
に記憶された特徴パターンとの一致具合を順位付けて出
力するものであり、 前記表示手段(6)は、所定の一致具合の標準音声信号
までの複数の表示情報を表示することを特徴とする請求
項1に記載の音声認識装置。 - 【請求項6】 前記照合手段(4)は、同時に複数の標
準音声信号が入力されたことを検出した場合には、前記
表示手段(6)は複数の表示情報を表示することを特徴
とする請求項1に記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5228990A JPH0784592A (ja) | 1993-09-14 | 1993-09-14 | 音声認識装置 |
US08/250,433 US5839109A (en) | 1993-09-14 | 1994-05-27 | Speech recognition apparatus capable of recognizing signals of sounds other than spoken words and displaying the same for viewing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5228990A JPH0784592A (ja) | 1993-09-14 | 1993-09-14 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0784592A true JPH0784592A (ja) | 1995-03-31 |
Family
ID=16885042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5228990A Pending JPH0784592A (ja) | 1993-09-14 | 1993-09-14 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5839109A (ja) |
JP (1) | JPH0784592A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0999542A1 (en) * | 1998-11-02 | 2000-05-10 | Ncr International Inc. | Methods of and apparatus for hands-free operation of a voice recognition system |
JP2000308198A (ja) * | 1999-02-16 | 2000-11-02 | Gm & M:Kk | 補聴器 |
JP2005304014A (ja) * | 2004-03-26 | 2005-10-27 | Mitsubishi Electric Research Laboratories Inc | 音情報を伝搬する方法及びシステム |
US7403895B2 (en) | 2002-06-26 | 2008-07-22 | Fujitsu Limited | Control system outputting received speech with display of a predetermined effect or image corresponding to its ambient noise power spectrum |
JP2008192109A (ja) * | 2007-01-11 | 2008-08-21 | Tamotsu Koyama | 警報表示システム |
US7676372B1 (en) | 1999-02-16 | 2010-03-09 | Yugen Kaisha Gm&M | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6961002B2 (en) * | 1999-06-07 | 2005-11-01 | Traptec Corporation | Sonic detection system and method of using the same |
US6965312B2 (en) * | 1999-06-07 | 2005-11-15 | Traptec Corporation | Firearm shot helmet detection system and method of use |
US6888455B2 (en) * | 1999-06-07 | 2005-05-03 | Traptec Corporation | Method of detecting firearm shot |
WO2000075899A1 (en) * | 1999-06-07 | 2000-12-14 | Traptec Corporation | Graffiti detection system and method of using the same |
EP1194909A4 (en) * | 1999-06-07 | 2003-05-02 | Traptec Corp | GRAFFIT DETECTING SYSTEM AND METHOD |
US6721701B1 (en) * | 1999-09-20 | 2004-04-13 | Lucent Technologies Inc. | Method and apparatus for sound discrimination |
US6377925B1 (en) | 1999-12-16 | 2002-04-23 | Interactive Solutions, Inc. | Electronic translator for assisting communications |
US6999923B1 (en) * | 2000-06-23 | 2006-02-14 | International Business Machines Corporation | System and method for control of lights, signals, alarms using sound detection |
US6823312B2 (en) | 2001-01-18 | 2004-11-23 | International Business Machines Corporation | Personalized system for providing improved understandability of received speech |
WO2002077975A1 (en) * | 2001-03-27 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method to select and send text messages with a mobile |
US7027986B2 (en) * | 2002-01-22 | 2006-04-11 | At&T Corp. | Method and device for providing speech-to-text encoding and telephony service |
US8265931B2 (en) | 2002-01-22 | 2012-09-11 | At&T Intellectual Property Ii, L.P. | Method and device for providing speech-to-text encoding and telephony service |
US20040155770A1 (en) * | 2002-08-22 | 2004-08-12 | Nelson Carl V. | Audible alarm relay system |
US6760408B2 (en) * | 2002-10-03 | 2004-07-06 | Cingular Wireless, Llc | Systems and methods for providing a user-friendly computing environment for the hearing impaired |
US20040143437A1 (en) * | 2003-01-06 | 2004-07-22 | Jbs Technologies, Llc | Sound-activated system for remotely operating vehicular or other functions |
FR2854483B1 (fr) * | 2003-05-02 | 2005-12-09 | Miriad Technologies | Procede d'identification de sons specifiques |
WO2005002433A1 (en) * | 2003-06-24 | 2005-01-13 | Johnson & Johnson Consumer Compagnies, Inc. | System and method for customized training to understand human speech correctly with a hearing aid device |
US7953228B2 (en) * | 2003-11-18 | 2011-05-31 | Honeywell International Inc. | Automatic audio systems for fire detection and diagnosis, and crew and person locating during fires |
US20070241863A1 (en) * | 2004-01-15 | 2007-10-18 | Ken Udagawa | Information Recognition Device, Information Recognition Method, Information Recognition Program, and Alarm System |
US20080165978A1 (en) * | 2004-06-14 | 2008-07-10 | Johnson & Johnson Consumer Companies, Inc. | Hearing Device Sound Simulation System and Method of Using the System |
WO2005125002A2 (en) * | 2004-06-14 | 2005-12-29 | Johnson & Johnson Consumer Companies, Inc. | Low-cost hearing testing system and method of collecting user information |
EP1767057A4 (en) * | 2004-06-15 | 2009-08-19 | Johnson & Johnson Consumer | SYSTEM AND METHOD FOR ENHANCED INTELLIGIBILITY OF SOUND ISSUED BY TELEVISION FOR THE DISABLED |
EP1767054A4 (en) * | 2004-06-15 | 2009-06-10 | Johnson & Johnson Consumer | PROGRAMMABLE HEALTHCARE DEVICE IN A HEADPHONE DEVICE, USE METHOD AND SYSTEM FOR ITS PROGRAMMING |
US7936885B2 (en) * | 2005-12-06 | 2011-05-03 | At&T Intellectual Property I, Lp | Audio/video reproducing systems, methods and computer program products that modify audio/video electrical signals in response to specific sounds/images |
FR2923043A1 (fr) * | 2007-10-29 | 2009-05-01 | Orelia Sas | Procede et systeme de creation automatisee de modeles de reconnaissance de contenu sonore |
US20100088096A1 (en) * | 2008-10-02 | 2010-04-08 | Stephen John Parsons | Hand held speech recognition device |
WO2011000113A1 (en) * | 2009-06-30 | 2011-01-06 | Harmonya Technologies | Multiple sound and voice detector for hearing- impaired or deaf person |
EP2299440B1 (en) * | 2009-09-11 | 2012-10-31 | Vodafone Holding GmbH | Method and Device for automatic recognition of given keywords and/or terms within voice data |
KR20120002737A (ko) * | 2010-07-01 | 2012-01-09 | 삼성전자주식회사 | 마이크를 이용한 휴대용 단말기의 동작 제어 방법 및 장치 |
JP5017441B2 (ja) * | 2010-10-28 | 2012-09-05 | 株式会社東芝 | 携帯型電子機器 |
US20130070928A1 (en) * | 2011-09-21 | 2013-03-21 | Daniel P. W. Ellis | Methods, systems, and media for mobile audio event recognition |
US9412375B2 (en) * | 2012-11-14 | 2016-08-09 | Qualcomm Incorporated | Methods and apparatuses for representing a sound field in a physical space |
US9602937B2 (en) * | 2014-04-17 | 2017-03-21 | Continental Automotive Systems, Inc. | Method and apparatus to provide surroundings awareness using sound recognition |
WO2016033325A1 (en) * | 2014-08-27 | 2016-03-03 | Ruben Rathnasingham | Word display enhancement |
US10231056B2 (en) * | 2014-12-27 | 2019-03-12 | Intel Corporation | Binaural recording for processing audio signals to enable alerts |
US20200118302A1 (en) * | 2018-10-10 | 2020-04-16 | Farimehr Schlake | Display of a single or plurality of picture(s) or visual element(s) as a set or group to visually convey information that otherwise would be typed or written or read or sounded out as words or sentences. |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5359695A (en) * | 1984-01-30 | 1994-10-25 | Canon Kabushiki Kaisha | Speech perception apparatus |
US5329609A (en) * | 1990-07-31 | 1994-07-12 | Fujitsu Limited | Recognition apparatus with function of displaying plural recognition candidates |
-
1993
- 1993-09-14 JP JP5228990A patent/JPH0784592A/ja active Pending
-
1994
- 1994-05-27 US US08/250,433 patent/US5839109A/en not_active Expired - Lifetime
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0999542A1 (en) * | 1998-11-02 | 2000-05-10 | Ncr International Inc. | Methods of and apparatus for hands-free operation of a voice recognition system |
JP2000308198A (ja) * | 1999-02-16 | 2000-11-02 | Gm & M:Kk | 補聴器 |
US7676372B1 (en) | 1999-02-16 | 2010-03-09 | Yugen Kaisha Gm&M | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech |
JP4439740B2 (ja) * | 1999-02-16 | 2010-03-24 | 有限会社ジーエムアンドエム | 音声変換装置及び方法 |
US7403895B2 (en) | 2002-06-26 | 2008-07-22 | Fujitsu Limited | Control system outputting received speech with display of a predetermined effect or image corresponding to its ambient noise power spectrum |
JP2005304014A (ja) * | 2004-03-26 | 2005-10-27 | Mitsubishi Electric Research Laboratories Inc | 音情報を伝搬する方法及びシステム |
JP2008192109A (ja) * | 2007-01-11 | 2008-08-21 | Tamotsu Koyama | 警報表示システム |
Also Published As
Publication number | Publication date |
---|---|
US5839109A (en) | 1998-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0784592A (ja) | 音声認識装置 | |
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
KR20170009337A (ko) | 사용자 관심 음성 알림 장치 및 방법 | |
CN107819929A (zh) | 优选表情符号的识别和生成 | |
CN108762494A (zh) | 显示信息的方法、装置及存储介质 | |
US20180067928A1 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
US8340968B1 (en) | System and method for training diction | |
JP2000056676A (ja) | 情報告知装置及び情報告知端末装置 | |
KR101846218B1 (ko) | 근거리 무선 통신망을 기반으로 청각 장애인의 음성 대화를 지원하는 청각 장애인용 언어통역 보조장치, 음성합성서버, 음성인식서버, 알람 장치, 강연장 로컬 서버, 및 음성 통화 지원 어플리케이션 | |
JP2011232521A (ja) | 音声認識装置 | |
US20220262363A1 (en) | Speech processing device, speech processing method, and recording medium | |
JP2007286376A (ja) | 音声案内システム | |
JP4741817B2 (ja) | 音声出力装置、キャラクタ画像表示装置、音声出力方法、およびキャラクタ画像表示方法 | |
CN112581977A (zh) | 实现声音检测及其响应的计算机装置和方法 | |
JPH09146585A (ja) | 音声認識翻訳システム | |
US20020118804A1 (en) | Caller-identification phone without ringer | |
JPH0546557B2 (ja) | ||
JPH04167749A (ja) | 音声応答装置 | |
JP2000184077A (ja) | ドアホンシステム | |
US20210104243A1 (en) | Audio recording method with multiple sources | |
KR102496398B1 (ko) | 사용자 디바이스에 페어링되어 음성-텍스트를 변환하는 장치 및 그 방법 | |
KR100322516B1 (ko) | 청각장애자용 음향인식 자막시스템 | |
JP2000338986A (ja) | 音声入力装置及びその制御方法及び記憶媒体 | |
JPH10198393A (ja) | 会話記録装置 | |
JPS59195300A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020716 |