JPH03129400A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03129400A
JPH03129400A JP1267721A JP26772189A JPH03129400A JP H03129400 A JPH03129400 A JP H03129400A JP 1267721 A JP1267721 A JP 1267721A JP 26772189 A JP26772189 A JP 26772189A JP H03129400 A JPH03129400 A JP H03129400A
Authority
JP
Japan
Prior art keywords
voice
recognition
image
data
lips
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1267721A
Other languages
English (en)
Inventor
Michihiro Nagaishi
道博 長石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP1267721A priority Critical patent/JPH03129400A/ja
Publication of JPH03129400A publication Critical patent/JPH03129400A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、音声認識装置に関する。
[従来の技術] 音声認識を行なう場合、対象となる音声の時間的な変化
の仕方を多方面から解析して、その変化を元となるデー
タと比較して発音された音声を推定していた。音声の解
析は、高度なデータ処理(FFTなとの信号解析)が不
可欠で処理速度、精度を上げるために汎用のCPUの他
にDSPなど専用の高速演算処理のできるプロセッサー
を使用する必要があった。
[発明が解決しようとする課M] このように音声認識では、音声をかなり高い精度で分析
しないと認識ができない。そして認識率・認識速度を高
めようとすればするほど、音声の分析能力を上げる必要
があるので、処理のためのハードウェアが非常に高度な
ものが必要になり、コストも大幅に上昇する。しかも認
識率が高くなるにつれて、認識率を僅か向上させるだけ
でも非常に大幅なハードウェアの改良が必要である。
本発明の音声認識装置は以上述べたような課題を解決す
るもので、その目的は音声以外の情報を利用する事によ
って認識率の高い音声認識装置を供することにある。
[yA題を解決するための手段] 本発明の音声認識装置は、 (1)音声を電気信号に変換する音声入力手段と、前記
音声入力手段が変換した電気信号の信号処理をする音声
分析手段と、人の口、唇などの形を画像として取り込み
電気信号に変換・記録する画像入力手段と、前記画像入
力手段で変換した電気信号から画像を解析する特徴抽出
手段と、前記音声分析手段の分析結果と、前記特徴抽出
手段の結果から音声を!!il!する音声認識手段と、
前記音声認識手段の認識結果を表示する表示手段とから
構成されることを特徴とする。
(2)前記音声入力中に人の口、唇などの形を連続して
一定間隔で静止画像として取り込むことを特徴とする。
(3)前記取り込んだ人の口、唇などの形の画像を解析
する時、同時に取り込んだ音声の発声時間に応じて解析
する画像のデータ量を変更することを特徴とする。
〔作用〕
音声が発音されるとき、口や唇などの形が発音される音
ごとに形状が異なっている。第3図は、ある音を発音し
たときの唇の時間的形状変化を示した模式図である。第
3図の(a)、 (b)とも各々の模式図は、一定間隔
で捉えた唇の形状である。第3図(a)、 (b)とも
まったく別の音を発音したもので唇の動き方が異なって
いることが分かる。唇の形は発声する音声ごとに特徴が
あるので、唇の形の特徴から発音している音声を予測す
ることが可能である。そこで音声と同時に取り込んだ唇
の画像からこの特徴を取り出して、音声だけのデータで
は判定が難しい場合、参考としてもちいて確実な判定を
行なうことができる。
[実施例] 以下本発明の音声認識装置について実施例にもとすいて
詳細に説明する。
第1図は、本発明の音声認識装置の基本構成を明示した
図である。
音声は、音声入力手段1で集音され雑音処理などを施し
てA/D変換後、電気信号に変換される。
変換された音声信号は、音声分析手段2で周波数や強度
など各項目ごとに信号解析をして認識に必要なデータを
求める。
一方、画像入力手段3は、音声と同゛時に口や唇などの
形を画像として取り込み電気信号に変換後記録する。記
録された画像情報をもとに特徴抽出手段4は、音声認識
時に参照すべきデータを画像データから解析して取り出
す。
以上のようにして取り出された認識に必要なデータをも
とに、音声認識手段5は総合的にデータを判断して目的
の音声が何であったかを判定する。
判定された結果は、表示手段6゛で表示され使用者に知
らされる。
第2図は、本発明の音声認識装置の回路構成の一例を示
したブロック“図である。
音声は、まずマイクロフォン7で集音され電気信号に変
えられフィルター8で帯域制限、雑音除去を行なう。信
号は増幅器9で一定の電圧に変換後、A/D変換器10
でデジタル値に直される。
次に、音声分析部11で音声信号の信号処理を行なう。
音声分析部11は、DSPなど高速のハードウェアで構
成した専用の回路で信号の処理、解析を高速に効率よく
行なうことができる。分析した結果は一時外部メモリー
14におかれる。分折が終了したら、認識を行なうため
マツチングをマツチング部12で行なう。マツチング部
12のハードウェア構成も音声分析部11と同様で専用
回路である。マツチングのためのデータはデータROM
18にあり、マツチング時にこのデータを参照する。以
上の処理はすべて各専用の回路で行ないCPU13は、
回路間のデータの受渡し・管理を行なう。またこれら一
連の動作はプログラムROM17の命令によって行なわ
れる。データの保存はメモリー以外にフロッピーディス
ク15で、フロッピードライブ16を介して行なう。
画像は、カメラ19で唇や口の形を捉える。音声入力中
はカメラ19を目標の口など画角から外さないように固
定しておく必要がある。カメラ19の駆動信号の供給、
映像信号の処理などはカメラ駆動部20が行なう。処理
された映像信号はA/D変換器21でデジタル信号化さ
れる。信号はメモリー制御部22を介してフレームメモ
リー23に一旦納められる。画像情報は膨大であり、か
つすぐに取り出すために半導体メモリーに取り込む。そ
して画像から認識に使うデータを取り出すために、フレ
ームメモリー23からデータをメモリー制御部22を介
して逐次取り出し特徴抽出部24で処理する。特徴抽出
部24は、音声分析部11やマツチング部12と同様に
DSP等を用いた専用の回路構成となっている。
音声認識は、CPU13が音声分析部11、マツチング
部12、特徴抽出部24で求められたデータ(これらは
外部メモリー14にある)をもとにして総合的な判断を
行なう。
認識結果は、デイスプレー25で表示する。デイスプレ
ー25はCRTや液晶表示板などを使用する。また、音
声認識装置の制御などを行なう際にはキーボード26か
ら命令を入力する。
第4図は、音声と同時に取り込む唇の画像の時間的な関
係を示した図である。
第゛4図のグラフは、横軸が時間、縦軸が音声の強度を
示している。一方第4図の下の図は静止画で取り込んだ
唇の画像をフレームごとに示した模式図である。
画像は音声が入力されてからすぐに取り込みが開始され
る。そして音声が途絶えるまで連続して続ける。各フレ
ームの番号は1からnまでありn個のフレームは一定時
間ごとに取り込む。−回の音声の発音時間はまちまちで
、発声が始まってからいつ終了するか予想がつかない。
そこで後で特徴を抽出するために必要な分解能の確保、
メモリーの容量に応じて適当な時間間隔を設定する。
第5図は、同時に取り込んだ音声の長さに応じて解析す
る画像のデータ量を変更する様子を示した図である。
第5図のグラフは、入力した音声の一部について時間的
な強度変化を示したものである。期間Tの部分を切り出
したとして、この部分に相当する画像データを参照する
とする。期間Tの長さによって参照すべき静止画像デー
タ量(第4図で示したフレーム数に相当)が変わってく
る。特に音声の発音時間が非常に長かった場合、静止画
像データ量も大きくなりこのまま処理して特徴を抽出し
ていたのでは時間がかかる。
そこで第5図の中段に示すように、一連の画像フレーム
から単純に期間Tの部分に当たる画像フレームだけを抜
き出すのではなく、第5図の下段に示すように期間Tの
間の画像フレームから認識のためのデータ抽出を行なう
上で必要な精度を保つことのできる範囲内で適当に画像
フレームを間引いて、抽出を行なう。間引くフレーム数
や時間間隔は期間Tの長さによって適応的に変化させる
このように必要最小限のデータで処理を行なう。
第6図は、画像の処理を行なうプログラムの一例を示し
たフローチャートである。
入力した音声は音声分析部11で各音節ごとに切り出さ
れて(ステップ40)、切り出された音節の時間的な位
置が確定する。(ステップ41)画像を取り込んだとき
に時間情報も記録しているので、確定した時間的位置に
対応する画像フレームが分かる。そして第5図で説明し
たように適当なデータ数に加減して(ステップ42)、
そのフレームからP!19に必要なデータを抽出する。
 (ステップ43)特徴抽出は切り出した音節がある限
り続ける。 (ステップ44)このように音声の処理が
終了してから画像処理を行なう。
第7図は、音声F!gIlを行なプログラム例を示した
フローチャートである。
入力した音声は、分析(切り出しを含む)後特徴抽出し
て認識に必要なデータを取り出しくステップ45)、切
り出した音節と比較用のデータ(データROM18に格
納されている)とのマツチングを行なう。 (ステップ
46)この時点では、画像フレームからの特徴抽出は既
に終了している。
音声だけのデータでマツチングを行なった際、マツチン
グ度が低かった場合には(ステップ47)、先に抽出し
た画像の抽出データを用いて画像による音声の予測を行
なう。 (ステップ48)そしてもう−度入力された音
声が何か、抽出した画像データを元にした結果も参考に
して音声のデータも含めて総合的に判断する。このよう
に音声以外のデータを用いるのでより多角的な判断がで
きる。
(ステップ49)こうして得られた認識結果を表示して
使用者に知らせる。 (ステップ゛50)[発明の効果
1 以上のように本発明の音声認識装置は、音声を入力する
際に、同時にしゃべる人の唇の形を画像として記録し、
音声認識時に音声の情報と発声時の轡の形の情報の両方
を総合的に判断して発声した音声を予測するので、音声
だけの情報で認識が難しい場合でも高い認識率を得るこ
とができる。
また唇の形を画像として取り込む際に、ある−定間隔で
静止画として連続的に取り込むので、発声時間がまちま
ちでも認識に必要なデータの抽出の精度を保つことがで
きる。
そして発声時間が長くその間の唇の形の画像データが非
常に多くなっても、認識に必要なデータの抽出精度を憚
つ範囲で適当に間引いてデータ数を削減してから抽出を
行なうので、発声時間に関係なく常に一定時間で処理を
行なうことができる。
音°声認識の判断の元になるデータに音声以外の情報を
利用するので、音声の分析の精度を必要以上にあげる必
要がなく音声解析のハードウェアに多大な負担をかけな
いという効果を得る。
【図面の簡単な説明】
第1図は、本発明の音声認識装置の基本構成を明示した
図、 第2図は、本発明の音声認識装置の回路構成の一例を示
したブロック図、 第3図は、ある音を発音したときの唇の時間的形状変化
を示した模式図、 第4図は、音声と同時に取り込む唇の画像の時間的な関
係を示した図、 第5図は、同時に取り込んだ音声の長さに応じて解析す
る画像のデータ量を変更する様子を示した図、 第6図は、画像の処理を行なうプログラムの一例を示し
たフローチャート、 第7図は、音声認識を行なプログラム例を示したフロー
チャートである。 l ・・・ 音声入力手段 2 ・・・ 音声解析手段 3 ・・・ 画像入力手段 4 − ヂ 5  ・ ・ 6  ・ ・ 日  ・ ・ 9  ・ ・ 10.21  ・ 11 ・ ・ ・ 12 ・ 13 ・ ・ 14 ・ ・ 15 ・ ・ 16 ・ ・ 17 ・ ・ l 8 ・ ・ 19 ・ 20 ・ 22 ・ ・ 23 ・ ・ 24 ・ ・ 特徴抽出手段 音声認識手段 表示手段 マイクロフォン フィルター 増幅器 ・・ A/D変換器 音声分析部 マツチング部 PU 外部メモリー フロッピーディスク フロッピードライブ プログラムROM データROM カメラ カメラ駆動部 メモリー制御部 フレームメモリー 特徴抽出部 5 デイスプレー キーボード 以上

Claims (3)

    【特許請求の範囲】
  1. (1)音声を電気信号に変換する音声入力手段と、前記
    音声入力手段が変換した電気信号の信号処理をする音声
    分析手段と、人の口、唇などの形を画像として取り込み
    電気信号に変換・記録する画像入力手段と、前記画像入
    力手段で変換した電気信号から画像を解析する特徴抽出
    手段と、前記音声分析手段の分析結果と、前記特徴抽出
    手段の結果から音声を認識する音声認識手段と、前記音
    声認識手段の認識結果を表示する表示手段とから構成さ
    れることを特徴とする音声認識装置。
  2. (2)前記音声入力中に人の口、唇などの形を連続して
    一定間隔で静止画像として取り込むことを特徴とする請
    求項1記載の音声認識装置。
  3. (3)前記取り込んだ人の口、唇などの形の画像を解析
    する時、同時に取り込んだ音声の発声時間に応じて解析
    する画像のデータ量を変更することを特徴とする請求項
    1または請求項2記載の音声認識装置。
JP1267721A 1989-10-13 1989-10-13 音声認識装置 Pending JPH03129400A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1267721A JPH03129400A (ja) 1989-10-13 1989-10-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1267721A JPH03129400A (ja) 1989-10-13 1989-10-13 音声認識装置

Publications (1)

Publication Number Publication Date
JPH03129400A true JPH03129400A (ja) 1991-06-03

Family

ID=17448641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1267721A Pending JPH03129400A (ja) 1989-10-13 1989-10-13 音声認識装置

Country Status (1)

Country Link
JP (1) JPH03129400A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998029864A1 (fr) * 1996-12-26 1998-07-09 Sony Corporation Appareil et procede de reconnaissance, et appareil et procede d'apprentissage
US5884257A (en) * 1994-05-13 1999-03-16 Matsushita Electric Industrial Co., Ltd. Voice recognition and voice response apparatus using speech period start point and termination point
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
JP2011070224A (ja) * 2010-12-24 2011-04-07 Kyocera Corp 発声内容認識装置
KR101373206B1 (ko) * 2007-02-12 2014-03-12 삼성전자 주식회사 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884257A (en) * 1994-05-13 1999-03-16 Matsushita Electric Industrial Co., Ltd. Voice recognition and voice response apparatus using speech period start point and termination point
US6471420B1 (en) 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
WO1998029864A1 (fr) * 1996-12-26 1998-07-09 Sony Corporation Appareil et procede de reconnaissance, et appareil et procede d'apprentissage
US6396954B1 (en) 1996-12-26 2002-05-28 Sony Corporation Apparatus and method for recognition and apparatus and method for learning
KR100578260B1 (ko) * 1996-12-26 2006-11-07 소니 가부시끼 가이샤 인식장치및인식방법과,학습장치및학습방법
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
US7979276B2 (en) 2005-01-28 2011-07-12 Kyocera Corporation Speech recognition apparatus and speech recognition method
KR101373206B1 (ko) * 2007-02-12 2014-03-12 삼성전자 주식회사 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법
JP2011070224A (ja) * 2010-12-24 2011-04-07 Kyocera Corp 発声内容認識装置

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
JP4795919B2 (ja) 音声区間検出方法
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
JP4286860B2 (ja) 動作内容判定装置
CN108461081B (zh) 语音控制的方法、装置、设备和存储介质
CN110097890A (zh) 一种语音处理方法、装置和用于语音处理的装置
JPS6128998B2 (ja)
JPH03129400A (ja) 音声認識装置
CN113314145A (zh) 样本生成、模型训练、口型驱动方法、装置、设备及介质
CN113939871A (zh) 讲话区间检测装置、讲话区间检测方法及讲话区间检测程序
JP3377463B2 (ja) 映像/音声ずれ補正システム、方法および記録媒体
JP3266124B2 (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
JP4408205B2 (ja) 話者認識装置
JP4017748B2 (ja) 発話速度計測システム、方法および記録媒体
Yoshinaga et al. Audio-visual speech recognition using new lip features extracted from side-face images
JP2002229592A (ja) 音声認識装置
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2806048B2 (ja) 自動採譜装置
CN109819319A (zh) 一种录像记录关键帧的方法
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
JP2007206154A (ja) 実環境騒音下の音声区間の検出
CN1288224A (zh) 语音识别装置和方法
JPH0883095A (ja) 話速変換方法および装置
JP2000250566A (ja) 有音・無音判定装置および話速変換装置