JP2002229592A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2002229592A
JP2002229592A JP2001022358A JP2001022358A JP2002229592A JP 2002229592 A JP2002229592 A JP 2002229592A JP 2001022358 A JP2001022358 A JP 2001022358A JP 2001022358 A JP2001022358 A JP 2001022358A JP 2002229592 A JP2002229592 A JP 2002229592A
Authority
JP
Japan
Prior art keywords
speech
recognition
image
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001022358A
Other languages
English (en)
Inventor
Hiroaki Arai
宏昭 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001022358A priority Critical patent/JP2002229592A/ja
Publication of JP2002229592A publication Critical patent/JP2002229592A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識装置において、入力音声を分析して
特徴を認識することにより、音声を入力する人に適合す
る1つの音声認識辞書を選択する方法があるが、体調に
より認識率が低下することがある。 【解決手段】 画像認識部116で話者を特定し、あら
かじめ用意した複数の話者の音声認識辞書108から特
定した話者に適合した音声認識辞書108に切り替えて
音声認識を行い認識結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に画像認識機能を有した自律移動型ロボットにお
いて、画像認識を用いて複数の音声認識辞書を切り替え
ることにより、信頼性の高い音声認識を実現するための
音声認識装置に関する。
【0002】
【従来の技術】音声認識装置において、認識率の低下す
る場合の要因として、話者の年齢、性別の違い、すなわ
ち話者の声の特徴に起因する部分が知られている。この
話者の特徴の影響を押さえるために、話者がある文章を
発声して学習する方法などが採られている。従来の音声
認識装置の一例が、特開平1−180599号公報に記
載されている。この従来の音声識装置において、係員コ
ードまたは係員カードを入力することにより、話者に適
合する辞書を選択使用することが開示されている。
【0003】従来例の音声認識装置を図面を用いて説明
する。図2は、従来例の音声認識装置のブロック構成図
である。この装置は図2に示すように、音声を入力する
音声入力部201、入力音声の特徴を抽出する周波数分
析装置として音声処理部206、音声認識辞書208と
のマッチングをする音声認識部207、音声認識辞書を
選択する手段として比較パターンを持つ音声辞書切り替
え部209、あらかじめ音声の特徴により分類して用意
された複数の音声認識辞書208、他の入力装置210
として係員コードまたは係員カードから構成される。
(1)係員コードまたは係員カードを入力することによ
り、あるいは(2)入力音声を分析して特徴を認識する
ことにより、音声を入力する人に適合する1つの音声認
識辞書を選択する音声認識装置で、従来例の音声認識装
置はこのような制御により認識結果を出力している。
【0004】
【発明が解決しようとする課題】しかしながら、上述し
た従来の音声認識装置では、次のような問題があった。
(1)の係員コードをまたは係員カードを入力する場合
は、ユーザに係員コードを入力する負担を与えてしまう
ことがあり、また、コード等を忘れてしまうことが懸念
される。係員カードを入力する場合は、カードの管理が
必要になる。(2)の入力音声を分析して特徴を認識す
ることにより、音声を入力する人に適合する1つの音声
認識辞書を選択する場合は、入力音声から特徴を認識す
る場合、体調等により認識率低下の要因になることが知
られている。このような問題点があるため、音声認識装
置では学習機能で認識率を向上させる方法を用いている
装置がある。
【0005】本発明の目的は、画像認識で話者を特定
し、特定した話者に適合した音声認識辞書を複数の音声
認識辞書から選択、切り替え、その話者に適合した音声
認識辞書を用いて音声認識を行うことにより、認識率を
向上させることができる音声認識装置を提供することに
ある。
【0006】
【課題を解決するための手段】上記課題を解決するた
め、本発明は次に列挙する新規な特徴的手法及び手段を
採用する。すなわち本発明装置の特徴は、話者の音声を
入力して音声データに変換する音声入力手段と、変換さ
れた音声データを処理する音声処理手段と、その音声処
理データと音声認識辞書のデータとを比較して音声認識
する音声認識手段と、話者の画像を入力する画像入力手
段と、変換された画像データを処理する画像処理手段
と、その画像処理データと画像認識辞書のデータとを比
較して画像認識する画像認識手段とを具備した音声認識
装置において、画像認識手段で話者を特定し、あらかじ
め用意した複数の話者の音声認識辞書から特定した話者
に適合した音声認識辞書に切り替える手段で辞書を切り
替え音声認識を行い認識結果を出力する。
【0007】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。図1は本発明の実施
の形態の音声認識装置のブロック構成図である。入力さ
れた音声102を音声データに変換する音声入力部10
1は、音声を入力するマイク103、その音声を増幅す
るアンプ104、その音声をデジタル変換するA/D変
換器105から構成される。
【0008】A/D変換された音声データは音声処理部
106で処理された後、音声認識部107にて音声認識
辞書108とのマッチングを行い音声認識の結果を得
る。ここで音声認識辞書切り替え部109は、話者の音
声認識辞書を切り替え、選択する。音声認識辞書108
には、複数の話者に適合した辞書として固有の特徴デー
タがあらかじめ登録されている。
【0009】入力された画像112を画像データに変換
する画像入力部111は、人物を撮像するCCDカメラ
113、その画像をデジタル変換するA/D変換器11
4から構成される。
【0010】A/D変換された画像データから、画像処
理部115で顔部分の画像データを切り出した結果を出
力し、画像認識部116で画像認識辞書117とマッチ
ングを行い顔画像認識の結果すなわち人物を特定する。
【0011】ここで得た認識結果を音声認識辞書切り替
え部109に与えることにより音声認識辞書切り替え部
109は、複数の話者の音声認識辞書108から、先に
特定した人物の音声認識辞書108を選択、切り替え
る。以後切り替えた音声認識辞書108を使用して音声
認識を行う。
【0012】ユーザが変わったときは、CCDカメラ1
13から画像を取り込むことにより、上記と同じく動作
し、音声認識辞書108を切り替え、音声認識を行い認
識結果を出力する。たとえば、自律移動型ロボットにお
いては、話者とロボットに搭載されているマイクとの距
離が離れているため、音声認識としては、不利になる
が、話者固有の情報である顔画像データを用い話者に適
合した音声認識辞書108を選択することにより、複数
の話者に対して、信頼性の高い音声認識装置を実現する
ことができる。
【0013】本発明の他の実施例として、その基本的構
成は上記の通りであるが、音声認識辞書に学習する機能
を持つことも考えられる。また、顔画像の代わりに別の
入力装置110を設けて音声認識辞書を切り替えること
も考えられる。例えば、指紋を入力として使用すること
で、さらに高い信頼性を得ることも可能である。
【0014】
【発明の効果】以上説明したように、本発明の音声認識
装置においては、次のような利点がある。顔画像デー
タ、指紋での認識結果により、音声認識辞書を切り替え
ることができるのでユーザに面倒な負担をかけることが
なく簡便になるという利点がある。この認識結果を使っ
て、ロボットの行動、対話動作等の制御を行うことが考
えられるが、画像を入力として使うことにより、ユーザ
に負担をかけることなくより親しみやすいロボットを実
現することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態の音声認識装置のブロック
構成図である。
【図2】従来例の音声認識装置のブロック構成図であ
る。
【符号の説明】
101、201 音声入力部 102、202 音声 103、203 マイク 104、204 アンプ 105、205 A/D変換器 106、206 音声処理部 107、207 音声認識部 108、208 音声認識辞書 109、209 音声認識辞書切り替え部 110、210 入力装置 111 画像入力部 112 画像 113 CCDカメラ 114 A/D変換器 115 画像処理部 116 画像認識部 117 画像認識辞書

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 話者の音声を入力して音声データに変換
    する音声入力手段と、 変換された前記音声データを処理して音声処理データと
    する音声処理手段と、 前記音声処理データと音声認識辞書のデータと、を比較
    して音声認識する音声認識手段と、 前記話者の画像を入力して画像データに変換する画像入
    力手段と、 変換された前記画像データを処理して画像処理データと
    する画像処理手段と、 前記画像処理データと画像認識辞書のデータと、を比較
    して画像認識する画像認識手段と、を具備した音声認識
    装置であって、 前記画像認識手段により前記話者を特定し、特定した前
    記話者に適合した前記音声認識辞書に切り替える手段お
    よび複数の前記話者に適合した前記音声認識辞書を備え
    ることにより、複数の前記話者に対しての認識率を向上
    させることを特徴とする音声認識装置。
  2. 【請求項2】 前記画像認識の代わりに、前記話者に固
    有の情報である指紋を入力する手段を具備したことを特
    徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 前記音声認識辞書を学習する手段を具備
    することを特徴とする請求項1記載の音声認識装置。
JP2001022358A 2001-01-30 2001-01-30 音声認識装置 Withdrawn JP2002229592A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001022358A JP2002229592A (ja) 2001-01-30 2001-01-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001022358A JP2002229592A (ja) 2001-01-30 2001-01-30 音声認識装置

Publications (1)

Publication Number Publication Date
JP2002229592A true JP2002229592A (ja) 2002-08-16

Family

ID=18887788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001022358A Withdrawn JP2002229592A (ja) 2001-01-30 2001-01-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP2002229592A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173109A (ja) * 2003-12-10 2005-06-30 Nissan Motor Co Ltd 音声認識装置
JP2007114329A (ja) * 2005-10-19 2007-05-10 Nec Corp 電話機及びそれに用いる音声認識方法並びにそのプログラム
JP2010169861A (ja) * 2009-01-22 2010-08-05 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
JP2013257598A (ja) * 2013-09-30 2013-12-26 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
WO2014049461A1 (en) * 2012-09-26 2014-04-03 International Business Machines Corporation Captioning using socially derived acoustic profiles
JP2017054065A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム
JP2017062349A (ja) * 2015-09-24 2017-03-30 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173109A (ja) * 2003-12-10 2005-06-30 Nissan Motor Co Ltd 音声認識装置
JP2007114329A (ja) * 2005-10-19 2007-05-10 Nec Corp 電話機及びそれに用いる音声認識方法並びにそのプログラム
JP2010169861A (ja) * 2009-01-22 2010-08-05 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
WO2014049461A1 (en) * 2012-09-26 2014-04-03 International Business Machines Corporation Captioning using socially derived acoustic profiles
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
GB2526929A (en) * 2012-09-26 2015-12-09 Ibm Captioning using socially derived acoustic profiles
GB2526929B (en) * 2012-09-26 2016-12-28 Ibm Captioning using socially derived acoustic profiles
JP2013257598A (ja) * 2013-09-30 2013-12-26 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
JP2017054065A (ja) * 2015-09-11 2017-03-16 株式会社Nttドコモ 対話装置および対話プログラム
JP2017062349A (ja) * 2015-09-24 2017-03-30 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
JP4085924B2 (ja) 音声処理装置
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
EP1282113A1 (en) Method for detecting emotions from speech using speaker identification
JP7279494B2 (ja) 会議支援装置、および会議支援システム
EP2504745B1 (en) Communication interface apparatus and method for multi-user
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP2004523788A (ja) 音声認識モデルの効率的な記憶のためのシステムおよび方法
JPS61252594A (ja) 音声パタ−ン照合方式
JP2002229592A (ja) 音声認識装置
CN113921026A (zh) 语音增强方法和装置
JP3838159B2 (ja) 音声認識対話装置およびプログラム
JP2008052178A (ja) 音声認識装置と音声認識方法
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
KR19980076309A (ko) 음성인식 방법 및 그 장치
JP2005165887A (ja) 単語認識装置
JP2003295892A (ja) 通訳システム及びプログラム
JPH04324499A (ja) 音声認識装置
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
JP2000311077A (ja) 音声情報入力装置
JP2003323196A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JPH10116093A (ja) 音声認識装置
KR20010026402A (ko) 신경망을 이용한 음성인식장치 및 그 방법
JP2000125397A (ja) 話者識別型ディジタル補聴器

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080401