JPH0340177A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0340177A
JPH0340177A JP1176276A JP17627689A JPH0340177A JP H0340177 A JPH0340177 A JP H0340177A JP 1176276 A JP1176276 A JP 1176276A JP 17627689 A JP17627689 A JP 17627689A JP H0340177 A JPH0340177 A JP H0340177A
Authority
JP
Japan
Prior art keywords
lip
data
voice
database
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1176276A
Other languages
English (en)
Inventor
Shunji Handa
伴田 俊二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP1176276A priority Critical patent/JPH0340177A/ja
Publication of JPH0340177A publication Critical patent/JPH0340177A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用用が〕 本発明は音声入力、音声通信等に用いられる音声認識装
置に関する。
〔発明の概要〕
本発明は入力音声の処理のみならず、発生音と唇の動き
との相関による情報を画像処理手法を用いて(−1加す
ることにより認識を行う音声認識装置である。
〔従来の技術〕
一般に音声理解システムは、音声の物理的な特徴である
音響情報と言語情報に代表される高次情報とを用いて、
発話の構文あるいは意味的な制約情報を付加して音声の
認識を行っている。
システムの流れとしては、入力音声を受けてからの音響
処理部、文節候補生成部及び言語処理部等から構成され
るが、音響処理部においては音韻の位置と種類とを知識
工学の手法を用いてシュミレートし、音韻単位の認識を
行う。もう少し詳しく述べると、入力音声は音響処理部
の特徴抽出部で分析及び特徴抽出され、記号化されたデ
ータは知識データベースを持つ音響処理部の認識処理部
へ送られ、ルール表現された知識を適用することにより
音韻境界と音韻の認識が行われる。
音響処理により得られた文節単位の音韻列は、文節候補
生成部において文節内の構文規則を考慮した」二で単語
辞書とのマツチングが行われ、該当する文節候補が生成
される。
言語処理部では、文節候補生成部において生成された文
節候補列を人力として、構文、意味及び文脈等の知識を
用いて正しい文節列を同定する。
〔発明が解決しようとする課題〕
しかし、従来の認識手法においては音声のみによる特徴
抽出、認識処理のため、不特定話者の音声に対しては認
識が困難であり、従って膨大な知識としてのデータベー
スを抱える必要があった。
さらには、膨大なデータベースを用いたとしても、不特
定話者の音韻特徴は非常に異なっており、単純な母音と
子音とを組み合わせた程度の短音認識が具現化されてい
る程度である。さらには膨大なデータベースを検索する
ための時間を要し、リアルタイムで処理することも困難
であった。
そこで本発明では、認識手法の一部として音声以外の情
報を付加することによって、認識率の向上と高速化を図
ることを目的とする。
〔課題を解決するための手段〕
本発明の音声認識装置は、 (1)音声処理に加え、発生音と唇の動きとの相関によ
る情報を画像処理手法を用いて付加することにより認識
を行うことを特徴とする。
(2)唇形状データ及び音声特徴の記号化データの両方
を用いて認識処理部で@韻認識処理する。
(3)唇形状の知識データベース、発声音と唇の動きと
の相関データベース及び言語処理データベースとを含む
ことを特徴とする。
〔実施例〕
第1図は本発明の実施例の処理フローを示すブロック図
である。
入力音声(2)、特徴抽出部(7)、認識処理部(8)
、文節候補生成部(9)、データベース(10)、単語
辞@(11)、  言語処理部(■2)及びデータベー
ス(13)等の流れは、従来の音声理解システムの一つ
の例と同じであり、従来の技術の所で概要を述べである
。本発明ではさらなる付加処理として、顔画像をカメラ
等で取り込み(入力顔画像(1))、唇画像分煎(5)
によりカメラから取り込まれた画像のうち唇部分だけを
分離・抽出し、画像処理部(6)で、例えばワイヤーフ
レーム法(領域を3角形等の要素に分割し、それぞれの
交点の情報を、数点の基準点からの変化の情報として得
、画像の動きを検出する。)等の方法で唇の形状変化を
解析した後、ワイヤーフレーム法に基づく唇形状の情報
をデータとして持っているデータベース(4)の内容を
′検索することにより、得られた唇形状データ列を認識
処理部(8)に送る。認識処理部(8〉においては、音
声データベースとともに発声音と唇の動きとの相関デー
タを持っているデータベース(10)の内容を検索する
ことにより、特徴抽出部(7)から得られた音声特徴の
記号化データとともに音韻の認識を行い、確定音韻列と
して文節候補生成部(9)に送る。文節候補生成部(9
)では、文節内の構文規則を考慮した上で単語辞書との
マツチングが行われ、該当する文節候補が生成される。
タイミング発生回路(3)は、人力音声と唇の動きどの
同11Ilデータを、唇形状データ列と音声特徴の記弓
化データとの取り込み部である認識処理部に送るための
ものであり、本図面では省略しであるが、唇の動きと発
声音とのタイミングについては全て中央処理装置のコン
トロール下に置かれる。文節候補生成部(9)からの文
節候補列は言語処理部(12)に送られ、言語処理部(
12)は言語処理データベース(13)の内容を検索す
ることにより、構文、意味及び文脈等の知識を用いて正
しい文節列を同定し出力する。
〔発明の効果〕
以上本発明によれば、唇の動きは話者には余り依存しな
いため、一つあるいは数種のANDをとった典型的な発
声音と唇の動きとのデータベースを持てばよく、膨大な
知識としてのデータベースを抱える必要がない。さらに
は同じ様な理由から、認識列象者が非常に独特な音声特
徴を持つ不特定話者であっても、唇の動きによる認識フ
ローのイづ加により音韻境界と音l′i貝とを認識する
ことは容易であり、データベース量の少ないより身軽な
システムにおいても、短音のみならず連続発声音の認識
が可能になる。さらには、データベース量の少ない分だ
け検索に要する時間が少なくなり、よりリアルタイムな
音声理解システムが得られる。
従って、本発明はコンピューターの入力装置、自動翻訳
装置等の音声通信機器、音声人力のワードプロセサー、
等のよりコンバク1−性が必要とされるシステムに応用
できる。
【図面の簡単な説明】
第1図は本発明の実施例の処理フローを示すブロック図
。 以 上

Claims (3)

    【特許請求の範囲】
  1. (1)音声処理に加え、発生音と唇の動きとの相関によ
    る情報を画像処理手法を用いて付加することにより認識
    を行うことを特徴とする音声認識装置。
  2. (2)唇形状データ及び音声特徴の記号化データの両方
    を用いて認識処理部で音韻認識処理することを特徴とす
    る請求項1記載の音声認識装置。
  3. (3)唇形状の知識データベース、発声音と唇の動きと
    の相関データベース及び言語処理データベースとを含む
    ことを特徴とする請求項1、または請求項2記載の音声
    認識装置。
JP1176276A 1989-07-07 1989-07-07 音声認識装置 Pending JPH0340177A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1176276A JPH0340177A (ja) 1989-07-07 1989-07-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1176276A JPH0340177A (ja) 1989-07-07 1989-07-07 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0340177A true JPH0340177A (ja) 1991-02-20

Family

ID=16010748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1176276A Pending JPH0340177A (ja) 1989-07-07 1989-07-07 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0340177A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0604035A3 (en) * 1992-12-21 1994-08-10 Tektronix, Inc. Semiautomatic lip sync recovery system
JPH08234789A (ja) * 1995-02-27 1996-09-13 Sharp Corp 統合認識対話装置
EP0676899A3 (en) * 1994-04-06 1997-11-19 AT&T Corp. Audio-visual communication system having integrated perceptual speech and video coding
JP2000148183A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
US6343269B1 (en) 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
US7081915B1 (en) * 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
US9071723B2 (en) 1995-12-07 2015-06-30 Cascades Av Llc AV timing measurement and correction for digital television

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0604035A3 (en) * 1992-12-21 1994-08-10 Tektronix, Inc. Semiautomatic lip sync recovery system
US5387943A (en) * 1992-12-21 1995-02-07 Tektronix, Inc. Semiautomatic lip sync recovery system
EP0676899A3 (en) * 1994-04-06 1997-11-19 AT&T Corp. Audio-visual communication system having integrated perceptual speech and video coding
JPH08234789A (ja) * 1995-02-27 1996-09-13 Sharp Corp 統合認識対話装置
US9071723B2 (en) 1995-12-07 2015-06-30 Cascades Av Llc AV timing measurement and correction for digital television
US9386192B2 (en) 1995-12-07 2016-07-05 Cascades Av Llc AV timing measurement and correction for digital television
US9692945B2 (en) 1995-12-07 2017-06-27 Cascades Av Llc AV timing measurement and correction for digital television
US6272466B1 (en) 1997-03-04 2001-08-07 Fuji Xerox Co., Ltd Speech detection apparatus using specularly reflected light
US7081915B1 (en) * 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
US6343269B1 (en) 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
JP2000148183A (ja) * 1998-11-06 2000-05-26 Sanyo Electric Co Ltd 音声認識装置

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN112002308B (zh) 一种语音识别方法及装置
US7231019B2 (en) Automatic identification of telephone callers based on voice characteristics
CN112767958A (zh) 一种基于零次学习的跨语种音色转换系统及方法
CN106710585A (zh) 语音交互过程中的多音字播报方法及系统
Arslan et al. A detailed survey of Turkish automatic speech recognition
US7295979B2 (en) Language context dependent data labeling
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JPH0340177A (ja) 音声認識装置
Tasnia et al. An overview of bengali speech recognition: Methods, challenges, and future direction
Fu et al. A survey on Chinese speech recognition
CN116052655A (zh) 音频处理方法、装置、电子设备和可读存储介质
He et al. Learning adapters for code-switching speech recognition
KR20220112560A (ko) 실시간 End-to-End 방식의 음성 인식 및 음성DNA 생성 시스템
Kumar et al. Spoken Language Translation using Conformer model
JPH0398078A (ja) 音声評価システム
Zhang et al. Chinese speech synthesis system based on end to end
JPH0355600A (ja) 音声システム
JPH0194398A (ja) 音声標準パターンの作成方法
Yao Machine Learning Algorithms for Speech Emotion Classification
CN118366454A (zh) 音频数据的处理方法、装置、电子设备及存储介质
Verma et al. Information Extraction with Speech Recognition
KOBAYASHI et al. SUSKIT-< cd02d36. gif>--A Speech Understanding System Based on Robust Phone Spotting--
JP2004309654A (ja) 音声認識装置
Koo et al. A Korean large vocabulary speech recognition system for automatic telephone number query service