JPH096390A - 音声認識対話処理方法および音声認識対話装置 - Google Patents

音声認識対話処理方法および音声認識対話装置

Info

Publication number
JPH096390A
JPH096390A JP7156529A JP15652995A JPH096390A JP H096390 A JPH096390 A JP H096390A JP 7156529 A JP7156529 A JP 7156529A JP 15652995 A JP15652995 A JP 15652995A JP H096390 A JPH096390 A JP H096390A
Authority
JP
Japan
Prior art keywords
voice
word
data
input
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7156529A
Other languages
English (en)
Other versions
JP3968133B2 (ja
Inventor
Yasunaga Miyazawa
康永 宮沢
Isanaka Edatsune
伊佐央 枝常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP15652995A priority Critical patent/JP3968133B2/ja
Priority to US08/536,563 priority patent/US5794204A/en
Publication of JPH096390A publication Critical patent/JPH096390A/ja
Application granted granted Critical
Publication of JP3968133B2 publication Critical patent/JP3968133B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

(57)【要約】 (修正有) 【目的】 特待話者の音声認識機能を付加することによ
り、認識性能の向上を図った不特定話者音声認識可能な
音声認識対話装置。 【構成】 音声入力手段1により入力音声を音声分析部
2で分析した音声特徴データを入力し、予め登録された
認識可能な単語に対する不特定話者の標準音声特徴デー
タを基に、登録単語に対応した検出データを出力する不
特定話者単語データ出力手段3と、特定話者の発する単
語の標準音声特徴データを該入力音声を基に登録し特定
話者の入力音声に対する単語検出データを出力する特定
話者単語登録手段8と、特定話者の単語登録時データ入
力設定を行うデータ入力設定手段9と、それぞれの単語
検出データを入力し、検出データを基に入力音声を認識
し、該応答内容を決定して、データ入力設定手段からの
設定データを受け各種制御を行う音声認識会話制御手段
4を有し、応答内容を音声合成部8で音声合成後、音声
出力部10から出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識し、その認
識結果に対応した応答や特定動作を行う音声認識対話処
理方法および音声認識対話装置に関する。
【0002】
【従来の技術】この種の音声認識装置においては、特定
話者のみの音声を認識可能な特定話者音声認識装置と不
特定話者の音声を認識可能な不特定話者音声認識装置が
ある。
【0003】特定話者音声認識装置は、或る特定の話者
が認識可能な単語を一単語ずつ所定の手順に従って入力
することによって、その特定話者の標準的な音声信号パ
ターンを登録しておき、登録終了後、特定話者が登録し
た単語を話すと、その入力音声を分析した特徴パターン
と登録された特徴パターンとを比較して音声認識を行う
ものである。この種の音声認識対話装置の一例として音
声認識玩具がある。たとえば、音声指令となる複数の命
令語として、「おはよう」、「おやすみ」、「こんにち
わ」などの言葉を10単語程度、その玩具を使用する子
どもが予め登録しておき、話者がたとえば「おはよう」
というと、その音声信号と、登録されている「おはよ
う」の音声信号を比較して、両音声信号が一致したと
き、音声指令に対する定められた電気信号を出力し、こ
れに基づいて玩具に特定動作を行わせるものである。
【0004】このような特定話者音声認識装置は、特定
話者かあるいはそれに近い音声パターンを有する音声し
か認識されず、また、初期設定として、認識させたい単
語を一単語ずつすべて登録させる必要がありその手間は
極めて面倒であった。
【0005】これに対して、不特定話者音声認識装置
は、多数(たとえば、200人程度)の話者が発話した
音声を用いて、前記したような認識対象単語の標準音声
特徴データを予め作成して記憶(登録)させておき、こ
れら予め登録された認識可能な単語に対して、不特定な
話者の発する音声を認識可能としたものである。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
不特定話者音声認識装置は、話者の話した言葉と違う単
語や言葉を認識してしまうことも多く、また、話者の話
し方の個性などによって、認識される単語、認識されな
い単語があったり、また、話者によっては、全ての単語
が全く認識されないという問題が多く発生していた。
【0007】そこで、本発明は、不特定話者の音声認識
が可能な音声認識装置において、話者の個性などによっ
て認識されない単語がある場合には、特定話者の音声認
識機能を用いて音声登録を可能とすることで、認識不可
の単語を大幅に減らし、認識性能の向上を図ることを目
的としている。
【0008】
【課題を解決するための手段】本発明の音声認識対話処
理方法は、音声入力手段により入力された音声を分析し
て音声特徴データを発生する音声分析工程と、この音声
分析工程からの音声特徴データを入力し、予め登録され
た認識可能な単語に対する不特定話者の標準音声特徴デ
ータを基に、入力音声に含まれる登録単語に対応した検
出データを出力する不特定話者単語データ出力工程と、
特定話者の入力音声を基に当該特定話者の発する単語の
標準音声特徴データを登録するとともに特定話者の入力
音声に対する単語検出データを出力する特定話者単語登
録工程と、前記不特定話者単語データ出力工程から出力
された入力音声に対する単語検出データおよび前記特定
話者単語登録工程から得られた入力音声に対する単語検
出データを入力して、それぞれの検出データを基に入力
音声を認識し、それに対応した応答内容を決定するとと
もに、特定話者の単語登録を行う際に外部からの設定デ
ータを受けて各種制御を行う音声認識会話制御工程と、
前記音声認識会話制御工程により決定された応答内容に
基づいた音声合成出力を発生する音声合成工程と、この
音声合成工程からの音声合成出力を外部に出力する音声
出力工程とを有することを特徴としている。
【0009】前記特定話者単語登録工程は、特定話者の
入力音声を基にDPマッチングによる単語検出データを
出力するものであって、音声分析工程からの特定話者の
所定の音声入力に対する特徴データを入力して標準パタ
ーンを作成する単語登録工程、この単語登録工程により
作成された標準パターンを記憶する標準パターン記憶工
程、前記音声分析工程からの特定話者の所定の音声入力
に対する特徴データを入力し、前記標準パターンとの比
較により単語検出データを出力する単語検出工程を有し
たものであってもよく、また、前記特定話者単語登録工
程は、特定話者の入力音声から前記不特定話者の標準音
声特徴データを基に話者適応した標準音声パターンを作
成する単語登録工程、この単語登録工程により作成され
た話者適応された標準パターンを記憶する話者適応標準
パターン記憶工程を少なくとも有し、前記音声分析工程
からの特定話者の所定の音声入力に対する特徴データを
入力し、前記話者適応標準パターンとの比較により単語
検出データを出力するようにしたものでもよい。
【0010】また、本発明の音声認識対話処理方法は、
音声入力手段により入力された音声を分析して音声特徴
データを発生する音声分析工程と、この音声分析工程か
らの音声特徴データを入力し、予め登録された認識可能
な単語に対する不特定話者の標準音声特徴データを基
に、入力音声に含まれる登録単語に対応した検出データ
を出力する不特定話者単語データ出力工程と、特定話者
の入力音声を基に当該特定話者の発する単語の標準音声
特徴データを登録するとともに特定話者の入力音声に対
する単語検出データを出力する特定話者単語登録工程
と、前記不特定話者単語データ出力工程から出力された
入力音声に対する単語検出データおよび前記特定話者単
語登録工程から得られた入力音声に対する単語検出デー
タを入力して、それぞれの検出データを基に入力音声を
認識し、それに対応した応答内容を決定するとともに、
特定話者の単語登録を行う際に外部からの設定データを
受けて各種制御を行う音声認識会話制御工程と、前記外
部からの設定データとして応答データ作成に関する設定
入力があった場合、前記音声認識会話制御工程からの指
示を受けて、入力された音声信号に基づいた応答データ
を作成する応答データ登録工程と、予め装置に登録され
ている応答データまたは前記応答データ登録工程により
作成された応答データのうち、前記音声認識会話制御工
程により決定された応答データに基づいた音声合成出力
を発生する音声合成工程と、この音声合成工程からの音
声合成出力を外部に出力する音声出力工程とを有するこ
とを特徴としている。
【0011】また、本発明の音声認識対話装置は、音声
を入力する音声入力手段と、この音声入力手段により入
力された音声を分析して音声特徴データを発生する音声
分析手段と、この音声分析手段からの音声特徴データを
入力し、予め登録された認識可能な単語に対する不特定
話者の標準音声特徴データを基に、入力音声に含まれる
登録単語に対応した検出データを出力する不特定話者単
語データ出力手段と、特定話者の入力音声を基に当該特
定話者の発する単語の標準音声特徴データを登録すると
ともに特定話者の入力音声に対する単語検出データを出
力する特定話者単語登録手段と、特定話者の単語登録を
行う際にデータ入力設定を行うデータ入力設定手段と、
前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、予め登録された応答内
容を記憶する応答データ記憶手段と、この応答データ記
憶手段に記憶された応答内容のうち、前記音声認識会話
制御手段により決定された応答内容に基づいた音声合成
出力を発生する音声合成手段と、この音声合成手段から
の音声合成出力を外部に出力する音声出力手段とを有し
た構成とする。
【0012】そして、前記特定話者単語登録手段は、特
定話者の入力音声を基にDPマッチングによる単語検出
データを出力するものであって、音声分析部からの特定
話者の所定の音声入力に対する特徴データを入力して標
準パターンを作成する単語登録手段、この単語登録手段
により作成された標準パターンを記憶する標準パターン
記憶手段、前記音声分析手段からの特定話者の所定の音
声入力に対する特徴データを入力し、前記標準パターン
との比較により単語検出データを出力する単語検出手段
を有したものであってもよく、また、前記特定話者単語
登録手段は、特定話者の入力音声から前記不特定話者の
標準音声特徴データを基に話者適応した標準音声パター
ンを作成する単語登録手段、この単語登録手段により作
成された話者適応された標準パターンを記憶する話者適
応標準パターン記憶手段を少なくとも有し、前記音声分
析手段からの特定話者の所定の音声入力に対する特徴デ
ータを入力し、前記話者適応標準パターンとの比較によ
り単語検出データを出力するものであってもよい。
【0013】また、本発明の音声認識対話装置は、音声
を入力する音声入力手段と、この音声入力手段により入
力された音声を分析して音声特徴データを発生する音声
分析手段と、この音声分析手段からの音声特徴データを
入力し、予め登録された認識可能な単語に対する不特定
話者の標準音声特徴データを基に、入力音声に含まれる
登録単語に対応した検出データを出力する不特定話者単
語データ出力手段と、特定話者の入力音声を基に当該特
定話者の発する単語の標準音声特徴データを登録すると
ともに特定話者の入力音声に対する単語検出データを出
力する特定話者単語登録手段と、特定話者の単語登録を
行う際にデータ入力設定を行うデータ入力設定手段と、
前記不特定話者単語データ出力手段から出力された入力
音声に対する単語検出データおよび前記特定話者単語登
録手段から得られた入力音声に対する単語検出データを
入力して、それぞれの検出データを基に入力音声を認識
し、それに対応した応答内容を決定するとともに、前記
データ入力設定手段からの設定データを受けて各種制御
を行う音声認識会話制御手段と、前記データ入力設定手
段から応答データ作成に関する設定入力があった場合、
前記音声認識会話制御手段からの指示を受けて、入力さ
れた音声信号に基づいた応答データを作成する応答デー
タ登録手段と、予め装置に登録された応答内容を記憶す
る応答データ記憶手段と、前記応答データ登録手段によ
り作成された応答データを記憶する記憶手段と、前記予
め装置に登録されている応答データまたは前記応答デー
タ登録手段により作成された応答データのうち、前記音
声認識会話制御手段により決定された応答データに基づ
いた音声合成出力を発生する音声合成手段と、この音声
合成手段からの音声合成出力を外部に出力する音声出力
手段とを有する構成としている。
【0014】
【作用】このよう本発明は、不特定話者の音声認識機能
と、特定話者の音声を登録する機能および特定話者の音
声認識機能を兼ね備えている。話者の話し方の個性など
によって、認識される単語、認識されない単語があった
り、また、話者によっては、すべての登録単語が全く認
識されない場合もあるが、このような場合には、特定話
者音声登録機能を用いて認識されない単語を登録するこ
とができる。これにより、認識できない単語を殆どなく
すことができ、装置の認識性能を大幅に向上させること
ができる。また、特定話者に対しては、登録単語以外の
単語の登録も可能となる。
【0015】また、応答データを作成する機能を有し、
前記データ入力設定手段から応答データ作成に関する設
定入力があった場合、前記音声認識会話制御手段からの
指示を受けて、入力された音声信号に基づいた応答デー
タを作成し、それを登録することを可能としている。こ
れにより、必要に応じて、身近な色々な人の声による応
答メッセージの作成が可能となり、より多彩な会話が可
能となる。
【0016】
【実施例】以下、本発明の実施例を図面を参照して説明
する。なお、この実施例では、本発明を玩具に適用した
場合を例にとり、特にここでは、幼児用の玩具として、
たとえば、犬などのぬいぐるみに適用した場合について
説明する。
【0017】(第1の実施例)図1は本発明の第1の実
施例を説明する構成図である。図1において、話者の音
声を入力する音声入力部1、入力音声を分析して音声特
徴データを出力する音声分析部2、この音声分析部2か
らの音声特徴データを入力し、予め登録された認識可能
な単語に対する不特定話者の標準音声特徴データを基
に、入力音声に含まれる登録単語に対応した検出データ
を出力する不特定話者単語データ出力手段3、音声認識
会話制御部4(詳細な説明は後述する)、予め設定され
た応答データを記憶する応答データ記憶部5、音声合成
部6、音声出力部7などは、不特定話者の話す単語を認
識して、その認識結果に応じた応答メッセージを発生す
る部分であり、この第1の実施例では、これに特定話者
の入力音声を基に当該特定話者の発する単語の標準音声
特徴データを登録するとともに特定話者の入力音声に対
する単語検出データを出力する特定話者単語登録手段8
を設け、さらに、外部から様々なデータ入力設定(これ
については後述する)を行うためのデータ入力設定手段
としての設定スイッチ9が設けられた構成となってい
る。
【0018】なお、これらの構成要素のうち、音声分析
部2、不特定話者単語データ出力手段3、音声認識会話
制御部4、応答データ記憶部5、音声合成部6、特定話
者単語登録手段8などは、犬のぬいぐるみの内部に収納
され、音声入力部(マイクロホン)1はぬいぐるみのた
とえば耳の部分、音声出力部(スピーカ)7はたとえば
口の部分に設けられ、設定スイッチ9はたとえばぬいぐ
るみの腹の部分に外部から操作可能に設けられる。
【0019】前記不特定話者単語データ出力手段3は、
複数の認識対象登録単語の標準音声特徴データとして、
それぞれの単語に対応した標準パターンを記憶する標準
パターン記憶部31、音声分析部2からの音声特徴デー
タを入力して前記標準パターン記憶部31の標準パター
ンと比較して、単語検出データを出力する単語検出部3
2などから構成されている。
【0020】前記標準パターン記憶部31は、1つ1つ
の単語に対し多数(たとえば、200人程度)の話者が
発話した音声を用いて予め作成した認識対象単語の標準
パターンを記憶(登録)している。ここでは、ぬいぐる
みを例にしているので、認識対象単語は10単語程度と
し、その単語としては、たとえば、「おはよう」、「お
やすみ」、「こんにちは」、「明日」、「天気」など挨
拶に用いる言葉が多いが、これに限定されるものではな
く、色々な単語を登録することができ、登録単語数も1
0単語に限られるものではない。単語検出部32は図示
されていないが主に演算器(CPU)と処理プログラム
を記憶しているROMから構成され、標準パターン記憶
部31に登録されている単語が、入力音声中のどの部分
にどれくらいの確かさで存在するかを検出するものであ
り、これについては後述する。
【0021】一方、特定話者単語登録手段8は、単語登
録部81、入力音声の標準音声特徴データとして入力音
声標準パターンを記憶する標準パターン記憶部82、単
語検出部83などから構成され、特定話者の音声信号を
入力して特定話者の話す単語を登録するとともに、入力
音声に対する特定話者登録された単語の検出データを出
力する機能を有している。なお、ここでは、DPマッチ
ングにより、入力音声と登録音声標準パターンとを比較
して、その比較結果をもとに、単語検出部83から単語
検出データを出力するものであるとする。この特定話者
単語音録手段8による単語登録は、設定スイッチ9によ
って単語登録モードを設定することにより、単語登録が
可能となるが、これらについては後に詳細に説明する。
【0022】これら各部におけるそれぞれの機能などに
ついて、以下に順次説明する。
【0023】前記音声入力部1は図示されていないがマ
イクロホン、増幅器、ローパスフィルタ、A/D変換器
などから構成され、マイクロホンから入力された音声
を、増幅器、ローパスフィルタを通して適当な音声波形
としたのち、A/D変換器によりディジタル信号(たと
えば、12KHz.16bits)に変換して出力し、
その出力を音声分析部2に送る。音声分析部2では、音
声入力部1から送られてきた音声波形信号を、演算器
(CPU)を用いて短時間毎に周波数分析を行い、周波
数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEP
STRUM係数が一般的)し、この特徴ベクトルの時系列
(以下、音声特徴ベクトル列という)を出力する。 ま
た、前記不特定話者単語データ出力手段3としては、隠
れマルコフモデル(HMM)方式やDPマッチング方式
などを用いることも可能であるが、ここでは、DRNN
(ダイナミック リカレント ニューラル ネットワー
ク)方式によるキーワードスポッティング処理技術(こ
の技術に関しては、本出願人が特開平6ー4097、特
開平6ー119476により、すでに特許出願済みであ
る。)を用いて、不特定話者による連続音声認識に近い
音声認識を可能とするための単語検出データを出力する
ものであるとする。
【0024】この不特定話者単語データ出力手段3の具
体的な処理について、図2を参照しながら簡単に説明す
る。単語検出部32は、標準パターン記憶部31に登録
されている単語が、入力音声中のどの部分にどれくらい
の確かさで存在するかを検出するものである。今、話者
から「明日の天気は、・・・」というような音声が入力
され、図2(a)に示すような音声信号が出力されたと
する。この「明日の天気は、・・・」の文節のうち、
「明日」と「天気」がこの場合のキーワードとなり、こ
れらは、予め登録されている10単語程度の登録単語の
1つとして、標準パターン記憶部31にそのパターンが
記憶されている。そして、これら登録単語をたとえば1
0単語としたとき、これら10単語(これを、単語1、
単語2、単語3、・・・とする)に対応して各単語を検
出するための信号が出力されていて、その検出信号の値
などの情報から、入力音声中にどの程度の確かさで対応
する単語が存在するかを検出する。つまり、「天気」と
いう単語(単語1)が入力音声中に存在したときに、そ
の「天気」という信号を待っている検出信号が、同図
(b)の如く、入力音声の「天気」の部分で立ち上が
る。同様に、「明日」という単語(単語2)が入力音声
中に存在したときに、その「明日」という信号を待って
いる検出信号が、同図(c)の如く、入力音声の「明
日」の部分で立ち上がる。同図(b),(c)におい
て、0.9あるいは0.8といった数値は、確からしさ(近似
度)を示す数値であり、0.9や0.8といった高い数値であ
れば、その高い確からしさを持った登録単語は、入力さ
れた音声に対する認識候補であるということができる。
つまり、「明日」という登録単語は、同図(c)に示す
ように、入力音声信号の時間軸上のw1の部分に0.8と
いう確からしさで存在し、「天気」という登録単語は、
同図(b)に示すように、入力音声信号の時間軸上のw
2の部分に0.9という確からしさで存在することがわか
る。
【0025】また、この図2の例では、「天気」という
入力に対して、同図(d)に示すように、単語3(この
単語3は「何時」という登録単語であるとする)を待つ
信号も、時間軸上のw2の部分に、ある程度の確からし
さ(その数値は0.6程度)を有して立ち上がっている。
このように、入力音声信号に対して同一時刻上に、2つ
以上の登録単語が認識候補として存在する場合には、最
も近似度(確からしさを示す数値)の高い単語を認識単
語として選定する方法、各単語間の相関規則を表した相
関表を予め作成しておき、この相関表により、いずれか
1つの単語を認識単語として選定する方法などを用い
て、或る1つの認識候補単語を決定する。たとえば、前
者の方法で認識候補を決定するとすれば、この場合は、
時間軸上のw2の部分に対応する近似度は、「天気」を
検出する検出信号の近似度が最も高いことから、その部
分の入力音声に対する認識候補は「天気」であるとの判
定を行う。なお、これらの近似度を基に入力音声の認識
は音声認識会話制御部4にて行う。
【0026】音声認識会話制御部4は、主に演算器(C
PU)と処理プログラムを記憶しているROMから構成
され、以下に述べるような様々な処理を行う。なお、以
上の各部に設けられたCPUは、各部ごとに設けるよう
にしてもよいが、1台のCPUで各部の処理を行うよう
にしてもよい。
【0027】音声認識会話制御部4は、単語検出部32
または単語検出部83からの単語検出データのいずれか
を選択して、その単語検出データを基に、音声を認識し
(入力音声全体の意味を理解し)、応答データ記憶部5
を参照して、入力音声の意味に応じた応答内容を決定
し、音声合成部8および音声出力部9へ出力信号を送
る。たとえば、単語検出部32からの図2(b)〜
(e)に示すような検出データ(これをワードラティス
という。このワードラティスは、登録単語名、近似度、
単語の始点sと終点eを示す信号などが含まれる)が入
力されると、まず、そのワードラティスを基に、入力音
声の中のキーワードとしての単語を1つまたは複数個決
定する。この例では、入力音声は「明日の天気は・・
・」であるので、「明日」と「天気」が検出されること
になり、この「明日」と「天気」のキーワードから「明
日の天気は・・・」という連続的な入力音声の内容を理
解する。
【0028】なお、以上説明したキーワードスポッティ
ング処理による連続音声認識に近い音声認識処置は、日
本語だけでなく他の言語においても適用可能である。た
とえば、使用する言語が英語であるとすれば、登録され
ている認識可能な単語は、たとえば、“good-mornin
g”、“time”、“tommorow”、“good-night”などが
一例として挙げられるが、これらの認識可能な登録単語
の特徴データが、標準パターン記憶部31に記憶されて
いる。そして今、話者が「what time is it now」
と問いかけた場合、この「what time is it now」
の文節の内、「time」という単語がこの場合のキーワー
ドとなり、単語「time」が入力音声の中に存在したとき
に、単語「time」の音声信号を待っている検出信号が、
入力音声の「time」の部分で立ち上がる。そして、単語
検出部32からの検出データ(ワードラティス)が入力
されると、まず、そのワードラティスを基に、入力音声
のキーワードとしての単語を1つまたは複数個決定す
る。この例では、入力音声は、「what time is it
now」であるので、「time」がキーワードとして検出さ
れることになり、このキーワードを基に、「what time
is it now」という連続的な入力音声の内容を理解
する。
【0029】ところで、今まで説明した内容は、不特定
話者単語データ出力手段3から単語データが出力される
場合、つまり、話者の話す言葉が認識される場合である
が、話者によっては、登録単語のうち、たとえば「おは
よう」と問いかけても、全く認識されない場合がある。
このような場合、話し方を変えると認識される場合もあ
るが、話者の声の個性などによって、全く認識されない
場合もある。この場合には、認識されない単語を特定話
者単語登録を行う。以下、これについて説明する。
【0030】特定話者単語登録を行う場合には、設定ス
イッチ9を用いる。この設定スイッチ9は、たとえば図
3に示すように、「0」〜「9」の数値からなる番号キ
ー部91、登録開始ボタン92、登録終了ボタン93、
応答メッセージ選択ボタン94、応答メッセージ登録終
了ボタン95、応答内容番号入力ボタン96などから構
成されている。なお、応答メッセージ選択ボタン94、
応答メッセージ登録終了ボタン95、応答内容番号入力
ボタン96などについては後に説明する。
【0031】ここでは、たとえば、「おはよう」という
単語が認識されないため、この「おはよう」を特定話者
単語登録する場合について説明する。まず、設定スイッ
チ9の登録開始ボタン92を操作する。これにより、音
声認識会話制御部4では、特定話者単語登録モードと
し、この単語登録モードにあっては、通常の認識動作を
行わないようにする。
【0032】この状態で、話者が「おはよう」という単
語の番号(あらかじめ認識可能な登録単語には、それぞ
れの単語に対応して番号が割り当てられている)を番号
キー91より入力、たとえば、「おはよう」が1番であ
るとすると、「1」の数値キーを押すと、音声認識会話
制御部4では、「おはよう」という単語の登録であるこ
とを検出し、「おはようと言ってください」などという
ような応答出力を発するように制御を行う。これによっ
て、話者が「おはよう」というと、その音声は、音声入
力部1から音声分析部2に送られ、音声分析された特徴
ベクトルが単語登録部81に送られる。単語登録部81
では、標準音声特徴データとして入力音声に対する標準
パターンを作成する。この標準パターンは標準パターン
記憶部82に記憶される。
【0033】なお、前記登録される特徴パターンは、話
者が「おはよう」と言ったそのままの特徴ベクトル列を
用いて標準パターンを作成してもよいが、話者に対して
数回、「おはよう」と発話させて、それぞれの特徴ベク
トル列の平均的な標準特徴ベクトル列を求めて、その標
準特徴ベクトル列により標準パターンを作成するように
してもよい。
【0034】このようにして、或る特定の話者の発する
認識されない単語の登録がなされる。これは、「おはよ
う」のみならず、認識されない登録単語すべてについて
行うことが可能であることは勿論である。このようにし
て、認識されない単語に対して特定話者単語登録がなさ
れる。
【0035】次に、話者と装置(ぬいぐるみ)との間の
具体的な会話例を用いて第1の実施例を説明する。ま
た、話者の問いかけ内容のなかで中括弧内の単語は文字
認識を行う上でのキーワードであることを示している。
【0036】まず、話者が「{おはよう}ございます」
と問いかけたとする。この「おはよう」という音声は音
声入力部1から音声分析部2に送られ、音声分析された
特徴ベクトルが出力される。このとき、不特定話者単語
データ出力手段3の単語検出部32と、特定話者単語登
録部8の単語検出部83はともに音声分析部2からの信
号を待っている状態にあり、これらそれぞれの単語検出
部32、83からは音声分析部2からの出力に応じた単
語検出データ(ワードラティス)がそれぞれ出力され
る。なお、単語検出部83からのワードラティスに含ま
れる確からしさを示す数値は近似度ではなく距離値であ
る。
【0037】ところで、単語検出部32、83から出力
されるワードラティスに含まれる確からしさを示す数値
は、単語検出部32の場合は、図2により説明したよう
に、0.9や0.7といった近似度であり、数値が高いほど確
からしさが高いものとなり、これに対して、単語検出部
83の場合は、入力音声の特徴パターンと標準パターン
との距離を示す数値で表されるため、数値が小さいほど
確からしさが高いものとなる。したがって、音声認識会
話制御部4では、これら単語検出部32、83から出力
されるワードラティスを受け取ると、それぞれの近似度
および距離値を、それぞれに対応して設定されたしきい
値th1,th2(ここでは、th1=0.7、th2=
0.3とする)と比較して、認識候補単語を決定する。
【0038】たとえば、「天気」という単語が入力され
た場合、単語検出部32から、図2(b)に示すよう
に、「天気」を検出する信号が、0.9の高い近似度を有
して出力されたとすれば、この0.9としきい値th1(th
1=0.7)を比較してth1より大きければ入力音声は
「天気」であるとの認識を行う。
【0039】また、話者が特定話者単語登録されている
「おはよう」という単語を話した場合は、単語検出部3
2からは、たとえば、図4(a)〜(d)に示すような
ワードラティスが出力される。この場合は、話者の「お
はよう」に対する「おはよう」を検出するための検出信
号の近似度は0.2と低く、他の単語を検出するための検
出信号に高い近似度が現れる場合もある。ここでは、
「おやすみ」を待っている信号に比較的高い近似度(近
似度0.6)が現れているものとする。
【0040】一方、単語検出部83からは、話者の「お
はよう」に対する音声信号と標準パターン記憶部82に
記憶されている標準パターンとを比較して得られた距離
値が出力される。この距離値は極めて小さい値となり、
たとえば、0.1であるとする。
【0041】音声認識会話制御部4では、前記したそれ
ぞれの単語検出部32、83からのワードラティスを受
けて、認識候補を決定する。この場合、音声認識会話制
御部4は、登録単語のうちどの単語が特定話者単語登録
された単語であるかを把握している(話者が単語登録を
行うときに単語番号を入力することにより把握できる)
ため、単語検出部32からのワードラティスのうち、
「おはよう」を検出するための検出信号(図4(a))の
データは認識対象としないで、図4(b)〜(d)の検
出信号のデータを用いて、単語検出部83からのワード
ラティス(距離値)との比較を行う。なお、図4では、
単語検出部32からの検出データは、4つの単語の検出
データしか図示されていないが、実際には、これ以外の
登録単語のワードラティスも音声理解会話制御部4に入
力される。なお、話者の「おはよう」に対するすべての
登録単語の検出データのなかで、「おやすみ」の検出デ
ータにおける近似度が最も高いものとする。
【0042】これにより、音声認識会話制御部4では、
単語検出部32、82からの近似度および距離値をそれ
ぞれのしきい値(th1=0.7、th2=0.3)と比較し
て、認識候補を決定して入力音声の意味を理解する。こ
の場合、単語検出部32からの最も高い近似度は0.6で
あり、しきい値th1よりも小さい。一方、単語検出部
83からの「おはよう」の入力音声に対する距離値は、
0.1であり、しきい値th2と比較するとth2よりも
小さいので、この場合は、「おはよう」を認識候補と決
定する。
【0043】なお、単語検出部32からの最も高い近似
度が、しきい値th1よりも大きいものがあって、か
つ、単語検出部83からの距離値が、しきい値th2よ
りも小さいものがあった場合には、予め何らかの規則を
決めておき、いずれかを認識候補として決定するように
する。たとえば、単語検出部83からのデータを優先し
てそれを認識候補とする方法、あるいは、装置側から再
度入力を促すような応答をするなどの方法がある。
【0044】以上のようにして、話者の音声入力に対し
て認識単語が決定される。しかも、認識されない単語
(登録単語)がある場合には、その単語を特定話者登録
することができるため、登録単語を認識できないという
不都合を解消することができる。そして、認識単語が決
定されると、音声認識会話制御部4では、入力音声の意
味を理解して、それに対する応答内容を決定し、音声出
力部7から出力する。なお、このとき、ここでは図示さ
れていないが、時刻、日付、気圧、気温などの変動デー
タを検出する変動データ検出部とこれらのデータを記憶
する記憶部を設けることにより、これらのデータを基
に、より多彩な応答データを作成することができる。た
とえば、話者が「おはよう」と問いかけると、ぬいぐる
みからは、「おはよう、今日はいいお天気だから(気圧
情報より)、お花見に行こうよ(日付情報より)」など
という応答も可能となる。このような会話において、話
者の話す内容に対するぬいぐるみからの応答内容は、話
者の話す内容に対応させて、予め設定しておく。
【0045】ところで、以上の説明は、登録単語の中
で、話者の個性などによって認識されない単語を、特定
話者単語登録して、それを認識して応答メッセージを発
する場合について説明したが、登録単語以外の単語をも
特定話者単語登録することができる。たとえば、ぬいぐ
るみであれば、そのぬいぐるみに独自の名前を付けてそ
れを登録することも可能である。以下にぬいぐるみの名
前を登録する場合について説明する。
【0046】たとえば、設定スイッチ9の番号キー91
のうち、「0」の数値キーを名前登録用のキーとしてお
き、最初に、登録開始ボタン92を押して、続いて
「0」の数値キーを押す。これにより、装置側からは、
「名前を言ってください」というようなメッセージが発
せられ、話者が、たとえば、「ぽち」などと言うとそれ
が登録される。これは、前記した認識されない単語登録
と同じ要領で行われる。たとえば、複数回「ぽち」と言
わせて、その平均の特徴ベクトル列から標準パターンを
求めてそれを標準パターン記憶部82に記憶させる。そ
して、この「ぽち」に対する応答内容としては、たとえ
ば、「わん、わん」などを予め設定しておく。これによ
って、話者が「ぽち」と名前を呼ぶことによって、「わ
ん、わん」などと答える。
【0047】また、話者が独自に登録したい単語がある
場合には、それを登録し、その登録単語に対する応答メ
ッセージを作ることも可能である(ただし、応答内容は
ある程度限定される)。この場合には、たとえば操作手
順などを示すマニュアルなどを作成しておき、そのマニ
ュアルに従った操作を行うことにより、応答メッセージ
を作成するようにしてもよい。以下これについて説明す
る。
【0048】これを実現するには、装置側では予め応答
内容をたとえば100種類程度用意しておき、話者が独
自に登録した単語に対応させて、応答内容を選択する。
具体的には、図5に示すように、応答内容A0、応答内
容A1、応答内容A2、・・・というような応答内容
に、応答内容番号を0,1,2,・・・というように割
り当てて、応答データ記憶部5に格納しておき、これら
応答内容番号と応答内容を対応づけた一覧表を記載した
操作マニュアルを用意し、ユーザは操作マニュアルにし
たがって、一覧表を見ながら、登録した単語ごとに応答
内容を設定する。この設定は設定スイッチ9を用いて以
下のようにして行う。
【0049】まず、予め登録されていない単語の登録を
番号キー91により「11」以降の数値を入力して行う
(ちなみに、「0」の数値は前記したように、この実施
例では名前の登録用であり、「1」から「10」の数値
は登録単語に対応した数値キーであり、登録単語が認識
されないときに特定話者単語登録を行うような場合に用
いられる)。
【0050】まず、登録開始ボタン92を押したあと、
番号キー91により、たとえば「11」を入力して、或
る単語を音声入力すると、その単語の標準音声パターン
が標準音声パターン記憶部82に記憶される。そして、
応答メッセージ選択ボタン94を操作し、前記一覧表の
中から登録した単語にふさわしい応答内容を選択する。
たとえば、応答内容番号1の応答内容A1を登録したい
場合には、応答内容番号入力ボタン96を押して、続い
て番号キー91から応答内容番号1に対応する「1」の
数値キーを押し、さらに、応答メッセージ登録終了ボタ
ン95を押す。これにより、「11」の数値キーを押し
て登録された単語が、話者から音声入力として入力され
た場合には、装置からは応答内容A1による応答がなさ
れることになる。
【0051】このように、設定スイッチ9により、「1
1」以降の数値を用いて、ユーザが独自に登録したい単
語の登録が行え、しかもそれぞれの単語に対応した応答
内容を選択して登録することができる。さらに、応答内
容は、応答内容番号を幾つか組み合わせることにより、
たとえば、応答内容A0、応答内容A2、応答内容A4
の組み合わせたより多彩な応答内容を作成して登録する
ことも可能である。
【0052】(第2の実施例)次に本発明の第2の実施
例について説明する。前記第1の実施例では、認識され
ない登録単語に対しては、DPマッチングによる単語検
出を行うために、話者の音声入力を音声分析した特徴ベ
クトルを用いて標準パターンを作成し、入力音声との比
較を行って単語検出データ(ワードラティス)を出力す
る例を示したが、この第2の実施例では、不特定話者標
準パターンモデルを用いて話者適応を行い、話者適応し
た標準特徴パターンを作成して、この新たな話者適応し
た標準パターンを用いて認識を行おうとするものであ
る。以下、図6を参照しながら第2の実施例について説
明する。
【0053】図6において、図1と同一部分には同一符
号が付されている。この第2の実施例では、音声入力部
1、音声分析部2、不特定話者単語データ出力手段3
(標準パターン記憶部31、単語検出部32)、単語認
識会話制御部4、応答データ記憶部5、音声合成部6、
音声出力部7、設定スイッチ9の他に、特定話者単語登
録手段10として、特定話者の入力音声(音声分析部2
の出力)をもとに、DRNNの不特定話者標準パターン
モデルを用いて、話者適応した標準パターンを作成する
単語登録部101、この単語登録部101で作成された
話者適応された新たな標準パターンを記憶する話者適応
標準パターン記憶部102、音声分析部2からの出力を
受けて前記話者適応標準パターン記憶部102を基に、
単語検出データ(ワードラティス)を出力する単語検出
部103が設けられた構成となっている。
【0054】このような構成において以下にその動作を
説明する。なお、話者の話す単語が認識される場合につ
いては、第1の実施例と同じであるので、ここでは、認
識されない単語の認識処理について説明する。
【0055】前記第1の実施例と同様に、話者の話す
「おはよう」が認識されない場合、この「おはよう」と
いう単語を特定話者単語登録を行う。以下、これについ
て説明する。
【0056】特定話者単語登録を行う場合には、図3で
その一例を示した設定スイッチ9を用いる。まず、設定
スイッチ9の登録開始ボタン92を操作する。これによ
り、音声理解会話制御部4では、単語登録モードとし、
この単語登録モードにあっては、通常の認識動作を行わ
ないようにする。
【0057】この状態で、話者が「おはよう」という単
語に割り当てられた「1」の数値キーを押すと、音声認
識会話制御部4では、「おはよう」という単語の登録で
あることを検出し、「おはようと言ってください」など
というような応答出力を発するように制御を行う。これ
によって、話者が「おはよう」というと、その音声は、
音声入力部1から音声分析部2に送られ、音声分析され
た特徴ベクトルが単語登録部101に送られる。単語登
録部101では、音声分析部2からの出力を基に、DR
NNの標準パターンから話者の音声の特性に見合った新
たな標準パターン、つまり話者適応した標準パターンを
作成し、それを話者適応標準パターン記憶部102に記
憶させる。
【0058】このような状態で、話者が特定話者単語登
録されている「おはよう」という単語を話した場合は、
単語検出部32からは、たとえば、第1の実施例で説明
したように、図4(a)〜(d)に示すようなワードラ
ティスが出力される。この場合は、話者の「おはよう」
に対する「おはよう」を検出するための検出信号の近似
度は低く、他の単語を検出するための検出信号に高い近
似度が現れる場合もある。ここでは、「おやすみ」を待
っている信号に比較的高い近似度(近似度0.6)が現れ
ているものとする。一方、単語検出部103からの「お
はよう」を検出する信号は図7(a)に示すように、高
い近似度を持った信号が出力される。これは、話者適応
された「おはよう」の標準パターンと、当該話者の「お
はよう」の入力音声との比較により出力されるためであ
る。
【0059】音声認識会話制御部4では、単語検出部3
2、103からのワードラティスを受けて、認識候補を
決定する。この場合、音声認識会話制御部4は、登録単
語のうちどの単語が特定話者単語登録された単語である
かを把握している(話者が単語登録を行うときに単語番
号を入力することにより把握できる)ため、単語検出部
32からのワードラティスのうち、「おはよう」を検出
するための検出信号(図4(a))のデータは認識対象と
しないで、図7に示すように、同図(a)に示す単語検
出部103からの検出データ(近似度)と、図4(b)
〜(d)で示した単語検出部32からの検出データを用
いて近似度の比較を行う。なお、図7では、単語検出部
32からの単語データは3つの単語の検出データしか図
示されていないが、実際には、それ以外の登録単語のワ
ードラティスも音声理解会話制御部4に入力される。
【0060】これにより、音声認識会話制御部4では、
単語検出部32、103からの近似度を比較して、認識
候補を決定するとともに入力音声の意味を理解する。こ
の場合、単語検出部32からの最も高い近似度は「おや
すみ」の0.6であり、一方、単語検出手段103からの
「おはよう」の近似度は、0.9であり、この場合は、
「おはよう」を認識候補と決定する。
【0061】なお、単語検出部32、103からのワー
ドラティスの近似度が高い数値の単語が幾つかあるよう
な場合の認識候補の決定の仕方としては、最も高い近似
度の単語を認識候補として決定する方法や、各単語間の
近似度の相関関係を表す相関表を各単語毎に作成してお
き、この相関表を基に認識単語を決定する方法など幾つ
かの方法がある。
【0062】また、図6においては、単語検出部として
単語検出部32と単語検出部103とをそれぞれ設けた
構成としたが、この第2に実施例の場合には、特定話者
単語登録に、DRNNによる標準パターンを用いた話者
適応を用いているので、ワードラティスに含まれる数値
の基準は同じであるため、単語検出部32を共用するこ
とも可能である。
【0063】以上のようにして、話者の音声入力に対し
て認識単語が決定される。しかも、認識されない単語
(登録単語)がある場合には、その単語を特定話者登録
することができるため、登録単語を認識できないという
不都合を解消することができる。なお、特定話者登録用
として話者適応した標準パターンを予め登録されている
認識率の悪い標準パターンと入れ替えるということも可
能となる。
【0064】そして、認識単語が決定されると、音声認
識会話制御部4では、入力音声の意味を理解して、それ
に対する応答内容を決定し、音声出力部7から出力す
る。なお、このとき、ここでは図示されていないが、時
刻、日付、気圧、気温などの変動データを検出する変動
データ検出部とこれらのデータを記憶する記憶部をもう
けることにより、これらのデータを基に、より多彩な応
答データを作成することができる。たとえば、話者が
「おはよう」と問いかけると、ぬいぐるみからは、「お
はよう、今日はいいお天気だから(気圧情報より)、お
花見に行こうよ(日付情報より)」などという応答も可
能となる。このような会話において、話者の話す内容に
対するぬいぐるみからの応答内容は、話者の話す内容に
対応させて、予め設定しておく。
【0065】(第3の実施例)以上説明した第1、第2
の実施例においては、応答メッセージは予め決められた
声優などの声を用いて応答内容が作成され、それが登録
されているが、この第3の実施例では、応答メッセージ
として自分の声、母親の声、おるいは友人の声などで応
答内容を作成して登録することができるようにしたもの
である。これを図8を参照して説明する。なお、この第
3の実施例は、第1、第2の各実施例に適応可能である
が、ここでは第1の実施例で説明した構成に適応した例
を説明する。
【0066】図8において、図1と同一部分には同一符
号を付し、これら同一部分の説明はここでは省略する。
この第3の実施例を実現するための新たな構成要件とし
ては、自分の声、家族の声、あるいは友人の声などの応
答データを登録するための応答データ登録部40、この
応答データ登録部40で登録された応答内容を記憶する
応答データ記憶部41が設けられている。
【0067】前記応答データ登録部40は、音声入力部
1からの入力音声に対するA/D変換後の出力を、データ
圧縮した応答データを作成するものであり、ここで作成
された応答データは応答データ記憶部41に記憶され
る。なお、この応答データ登録を行う際は、図9で示し
た設定スイッチ9の応答メッセージ作成ボタン97を押
すことにより行う。この図9で示した設定スイッチ9
は、この第3の実施例を実現するための設定スイッチで
あり、図3で示したものと基本的には同じものである
が、図3で示したものに対して、応答メッセージ作成ボ
タン97と応答選択ボタン98が新たに設けられた構成
となっている。この応答メッセージ作成ボタン97が押
されると、音声認識会話制御部4が装置のモードを応答
データ登録モードとし、応答データの登録が可能とな
る。この応答データ登録モードのときは、前記第1、第
2の実施例で説明したような単語検出などの処理は行わ
れない。また、応答選択ボタン98は、応答内容を予め
登録されている内容とするか、あるいは新たに登録され
た内容とするかを選択するスイッチであり、予め登録さ
れた応答内容側とした場合には、音声認識会話制御部4
は応答データ記憶部5を参照し、新たに登録された応答
内容側とすることにより、音声認識会話制御部4は応答
データ記憶部41を参照する。なお、この設定スイッチ
9の構成は図9のものに限定されるものではなく、各種
設定ボタンなどは必要に応じて設けられる。
【0068】このような構成において、たとえば、この
ぬいぐるみで遊ぶ子どもの母親の声で応答メッセージを
作成して登録する場合は、まず、設定スイッチ9の応答
メッセージ作成ボタン97を押し、続いて、応答内容番
号入力ボタン96を押して、たとえば、番号キー91か
ら「100」を入力したのち、母親が何らかの応答メッ
セージを入力する。これにより、応答データ登録部40
により、入力した応答メッセージの内容に対応した応答
データが作成され、その応答データが応答データ記憶部
41に記憶される。このようにして、母親のみに限ら
ず、所定の人が新たに登録したい応答内容を入力するこ
とにより、それぞれの応答データ(応答内容a0、応答
内容a1,応答内容a2、・・・とする)が作成され、
それぞれの応答データは応答データ記憶部41に、図1
0に示すように、応答内容番号100、101,10
2,・・・に対応して、応答内容a0、応答内容a1,
応答内容a2、・・・というように登録される。なお、
この応答データ記憶部41は、前記第1、第2の実施例
で示した応答データ記憶部5のメモリを共用して、応答
内容番号0〜99番までを、装置に予め登録されている
応答内容として、たとえば0から99番のアドレスに登
録し、応答内容番号100番以降を新たに登録された応
答内容として、100番以降のアドレスに登録するよう
にしてもよい。
【0069】以上のようにして、新たな音声による応答
内容が登録される。そして、これら新たに登録された応
答内容を、話者の問いかける単語に対する応答内容とし
て予め設定しておく。たとえば、登録単語番号1の単語
(「おはよう」であるものとする)に対して応答内容番
号100の応答内容a0(母親の声による「おはよう、
・・・ちゃん」であるとする)を登録したい場合には、
まず、番号キー91から「1」の数値キーを押して、応
答内容番号入力ボタン96を押して、続いて番号キー9
1から「100」の数値キーを押し、さらに、応答メッ
セージ登録終了ボタン95を押す。このようにして話者
の話す登録単語に応答内容を対応づけることができる。
【0070】これにより、応答選択ボタン98を登録応
答内容側に切り替えた状態で、登録単語番号1に対応す
る単語が、話者から音声入力として入力された場合に
は、装置からは応答内容a0による応答がなされること
になる。つまり、たとえば、ぬいぐるみと遊ぶ子ども
が、「おはよう」と問いかけると、ぬいぐるみからは、
母親の声で、「おはよう、・・・ちゃん」というような
応答がなされる。
【0071】なお、この例では、応答選択ボタン98を
設けて、これにより、応答内容をすでに登録されている
内容のものか、あるいは新たに登録した内容のものかを
選択するようにしたが、応答内容の選択はこのような方
式に限られるものではなく、条件などを予め設定してお
き、たとえば、話者の発話内容などがその条件に合致し
たときに、応答内容がいずれかに選択されるようにして
もよい。また、話者の話す登録単語と応答内容の対応付
けの方法も前記したような方法に限られることなく、種
々の方法が考えられる。
【0072】さらにまた、前記第1の実施例で説明した
ように、設定スイッチ9により、「11」以降の数値を
用いて、ユーザが独自に認識可能な単語の登録を新たに
行い、その新たに登録した単語に対応して、前記した新
たな応答内容a0,a1,a2,・・・を選択して登録
することができる。さらに、応答内容は、応答内容番号
を幾つか組み合わせることにより、たとえば、応答内容
a0、応答内容a2、応答内容a4などの3つを組み合
わせることにより多彩な応答内容を作成し、登録するこ
とも可能である。
【0073】このように第3の実施例では、装置に予め
設定された声優などによる応答だけではなく、身近な人
の声での応答が可能となるため、ぬいぐるみなどの玩具
に適用した場合には、子どもは、より一層会話を楽しむ
ことができ、玩具にありがちなすぐ飽きるというような
ことが無くなる。
【0074】また、以上の各実施例では、本発明を玩具
としてぬいぐるみに適用した例を説明したが、ぬいぐる
みに限られるものではなく。他の玩具にも適用できるこ
とは勿論であり、さらに、玩具だけではなく、ゲーム機
や、日常使われる様々な電子機器などにも適用でき、そ
の適用範囲は極めて広いものと考えられる。
【0075】
【発明の効果】以上説明したように、本発明の音声認識
対話処理方法は、請求項1によれば、音声入力手段によ
り入力された音声を分析して音声特徴データを発生する
音声分析工程と、この音声分析工程からの音声特徴デー
タを入力し、予め登録された認識可能な単語に対する不
特定話者の標準音声特徴データを基に、入力音声に含ま
れる登録単語に対応した検出データを出力する不特定話
者単語データ出力工程と、特定話者の入力音声を基に当
該特定話者の発する単語の標準音声特徴データを登録す
るとともに特定話者の入力音声に対する単語検出データ
を出力する特定話者単語登録工程と、前記不特定話者単
語データ出力工程から出力された入力音声に対する単語
検出データおよび前記特定話者単語登録工程から得られ
た入力音声に対する単語検出データを入力して、それぞ
れの検出データを基に入力音声を認識し、それに対応し
た応答内容を決定するとともに、特定話者の単語登録を
行う際に外部からの設定データを受けて各種制御を行う
音声認識会話制御工程とを有しているので、話者の話し
方の個性などによって、認識される単語、認識されない
単語があったり、また、話者によっては、すべての登録
単語が全く認識されない場合もあるが、このような場合
には、特定話者音声登録機能を用いて認識されない単語
を登録することができる。これにより、認識できない単
語を殆どなくすことができ、認識性能を大幅に向上させ
ることができ、また、特定話者に対しては、登録単語以
外の単語の登録も可能となるなど、より一層、高性能な
ものとすることができる。
【0076】また、請求項2によれば、特定話者単語登
録工程は、特定話者の入力音声を基にDPマッチング方
式による単語登録および単語検出データ出力を行うよう
にしたので、単語検出を簡単に行うことができ、また、
登録単語以外の単語の登録とその認識が容易に行うこと
ができる。これによって、色々な応答メッセージを予め
用意しておけば、新たに登録した単語に対して応答メッ
セージを設定することも可能となり、より多彩な会話も
可能とすることができる。
【0077】また請求項3によれば、特定話者単語登録
工程は、特定話者の入力音声から前記不特定話者の標準
音声特徴データを基に話者適応した標準音声パターンを
作成することで特定話者の音声を登録するようにしたの
で、単語データ検出工程として新たなものを設ける必要
が無く、処理の簡素化が図れる。また、単語データ検出
方式が同じであることから検出データの数値の基準など
が同じであるため、データ処理部を共用することも可能
であり、さらに、特定話者登録された標準パターンを予
め登録されている認識率の悪い標準パターンと入れ替え
ることも可能となるなどの効果を得ることができる。
【0078】また請求項4によれば、予め装置側に登録
されている応答メッセージの他に、自分の声や身近な人
の声などで応答内容を作成して登録することができるよ
うにしたので、より一層、多彩な会話を可能とすること
ができ、適用範囲もより広いものとすることができる。
【0079】また、本発明の音声認識対話装置は、請求
項5によれば、音声入力手段により入力された入力音声
を音声分析部で分析して得られた音声特徴データを入力
し、予め登録された認識可能な単語に対する不特定話者
の標準音声特徴データを基に、登録単語に対応した検出
データを出力する不特定話者単語データ出力手段と、特
定話者の入力音声を基に当該特定話者の発する単語の標
準音声特徴データを登録するとともに特定話者の入力音
声に対する単語検出データを出力する特定話者単語登録
手段と、特定話者の単語登録を行う際にデータ入力設定
を行うデータ入力設定手段と、前記それぞれの単語検出
データを入力して、それぞれの検出データを基に入力音
声を認識し、それに対応した応答内容を決定するととも
に、前記データ入力設定手段からの設定データを受けて
各種制御を行う音声認識会話制御手段を有しているの
で、話者の話し方の個性などによって、認識される単
語、認識されない単語があったり、また、話者によって
は、すべての登録単語が全く認識されない場合もある
が、このような場合には、特定話者音声登録機能を用い
て認識されない単語を登録することができる。これによ
り、認識できない単語を殆どなくすことができ、装置の
認識性能を大幅に向上させることができ、また、特定話
者に対しては、登録単語以外の単語の登録も可能となる
など、この種の音声認識対話装置としては、より一層、
高性能なものとすることができる。
【0080】また、請求項6によれば、特定話者単語登
録手段は、特定話者の入力音声を基にDPマッチング方
式による単語登録および単語検出データ出力を行うよう
にしたので、単語検出を簡単に行うことができ、また、
登録単語以外の単語の登録とその認識が容易に行うこと
ができる。これによって、色々な応答メッセージを予め
用意しておけば、新たに登録した単語に対して応答メッ
セージを設定することも可能となり、より多彩な会話も
可能とすることができる。
【0081】また請求項7によれば、特定話者単語登録
手段は、特定話者の入力音声から前記不特定話者の標準
音声特徴データを基に話者適応した標準音声パターンを
作成することで特定話者の音声を登録するようにしたの
で、単語データ検出部として新たなものを設ける必要が
無く、構成の簡素化が図れる。また、単語データ検出方
式が同じであることから検出データの数値の基準などが
同じであるため、データ処理部を共用することも可能で
あり、さらに、特定話者登録された標準パターンを予め
登録されている認識率の悪い標準パターンと入れ替える
ことも可能となるなどの効果を得ることができる。
【0082】また請求項8によれば、予め装置側に登録
されている応答メッセージの他に、自分の声や身近な人
の声などで応答内容を作成して登録することができるよ
うにしたので、より一層、多彩な会話を可能とすること
ができ、適用範囲もより広い音声認識対話装置とするこ
とができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の構成を説明するブロッ
ク図。
【図2】不特定話者単語データ出力手段から出力される
ワードラティスの一例を示す図。
【図3】設定スイッチの構成例を示す図。
【図4】同実施例における或る登録単語が入力された場
合の不特定話者単語データ出力例を示す図。
【図5】応答データ記憶部5に記憶される応答内容とそ
れに対応した応答内容番号の一例を示す図。
【図6】本発明の第2の実施例の構成を説明するブロッ
ク図。
【図7】同実施例における或る登録単語が入力された場
合の特定話者単語登録手段からの単語データ出力例およ
び不特定話者単語データ出力例を示す図。
【図8】本発明の第3の実施例の構成を説明するブロッ
ク図。
【図9】同実施例において使用される設定スイッチの構
成例を示す図。
【図10】同実施例における応答データ記憶部41に記
憶される応答内容とそれに対応した応答内容番号の一例
を示す図。
【符号の説明】
1・・・音声入力部 2・・・音声分析部 3・・・不特定話者単語データ出力手段 4・・・音声認識会話制御部 5・・・応答データ記憶部 6・・・音声合成部 7・・・音声出力部 8・・・特定話者単語登録手段 9・・・設定スイッチ 31・・・標準パターン記憶部 32・・・単語検出部 40・・・応答データ登録部 41・・・応答データ記憶部 81・・・単語登録部 82・・・標準パターン記憶部 83・・・単語検出部 91・・・番号キー部 92・・・登録開始ボタン 93・・・登録終了ボタン 94・・・応答メッセージ選択ボタン 95・・・応答メッセージ登録終了ボタン 96・・・応答内容番号入力ボタン 97・・・応答メッセージ作成ボタン 98・・・応答選択ボタン

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声入力手段により入力された音声を分
    析して音声特徴データを発生する音声分析工程と、 この音声分析工程からの音声特徴データを入力し、予め
    登録された認識可能な単語に対する不特定話者の標準音
    声特徴データを基に、入力音声に含まれる登録単語に対
    応した検出データを出力する不特定話者単語データ出力
    工程と、 特定話者の入力音声を基に当該特定話者の発する単語の
    標準音声特徴データを登録するとともに特定話者の入力
    音声に対する単語検出データを出力する特定話者単語登
    録工程と、 前記不特定話者単語データ出力工程から出力された入力
    音声に対する単語検出データおよび前記特定話者単語登
    録工程から得られた入力音声に対する単語検出データを
    入力して、それぞれの検出データを基に入力音声を認識
    し、それに対応した応答内容を決定するとともに、特定
    話者の単語登録を行う際に外部からの設定データを受け
    て各種制御を行う音声認識会話制御工程と、 前記音声認識会話制御工程により決定された応答内容に
    基づいた音声合成出力を発生する音声合成工程と、 この音声合成工程からの音声合成出力を外部に出力する
    音声出力工程と、 を有することを特徴とする音声認識対話処理方法。
  2. 【請求項2】 前記特定話者単語登録工程は、特定話者
    の入力音声を基にDPマッチングによる単語検出データ
    を出力するものであって、音声分析工程からの特定話者
    の所定の音声入力に対する特徴データを入力して標準パ
    ターンを作成する単語登録工程、この単語登録工程によ
    り作成された標準パターンを記憶する標準パターン記憶
    工程、前記音声分析工程からの特定話者の所定の音声入
    力に対する特徴データを入力し、前記標準パターンとの
    比較により単語検出データを出力する単語検出工程を有
    したことを特徴とする請求項1記載の音声認識対話処理
    方法。
  3. 【請求項3】 前記特定話者単語登録工程は、特定話者
    の入力音声から前記不特定話者の標準音声特徴データを
    基に話者適応した標準音声パターンを作成する単語登録
    工程、この単語登録工程により作成された話者適応され
    た標準パターンを記憶する話者適応標準パターン記憶工
    程を少なくとも有し、前記音声分析工程からの特定話者
    の所定の音声入力に対する特徴データを入力し、前記話
    者適応標準パターンとの比較により単語検出データを出
    力することを特徴とする請求項1記載の音声認識対話処
    理方法。
  4. 【請求項4】 音声入力手段により入力された音声を分
    析して音声特徴データを発生する音声分析工程と、 この音声分析工程からの音声特徴データを入力し、予め
    登録された認識可能な単語に対する不特定話者の標準音
    声特徴データを基に、入力音声に含まれる登録単語に対
    応した検出データを出力する不特定話者単語データ出力
    工程と、 特定話者の入力音声を基に当該特定話者の発する単語の
    標準音声特徴データを登録するとともに特定話者の入力
    音声に対する単語検出データを出力する特定話者単語登
    録工程と、 前記不特定話者単語データ出力工程から出力された入力
    音声に対する単語検出データおよび前記特定話者単語登
    録工程から得られた入力音声に対する単語検出データを
    入力して、それぞれの検出データを基に入力音声を認識
    し、それに対応した応答内容を決定するとともに、特定
    話者の単語登録を行う際に外部からの設定データを受け
    て各種制御を行う音声認識会話制御工程と、 前記外部からの設定データとして応答データ作成に関す
    る設定入力があった場合、前記音声認識会話制御工程か
    らの指示を受けて、入力された音声信号に基づいた応答
    データを作成する応答データ登録工程と、 予め装置に登録されている応答データまたは前記応答デ
    ータ登録工程により作成された応答データのうち、前記
    音声認識会話制御工程により決定された応答データに基
    づいた音声合成出力を発生する音声合成工程と、 この音声合成工程からの音声合成出力を外部に出力する
    音声出力工程と、 を有することを特徴とする音声認識対話処理方法。
  5. 【請求項5】 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声を分析して音声
    特徴データを発生する音声分析手段と、 この音声分析手段からの音声特徴データを入力し、予め
    登録された認識可能な単語に対する不特定話者の標準音
    声特徴データを基に、入力音声に含まれる登録単語に対
    応した検出データを出力する不特定話者単語データ出力
    手段と、 特定話者の入力音声を基に当該特定話者の発する単語の
    標準音声特徴データを登録するとともに特定話者の入力
    音声に対する単語検出データを出力する特定話者単語登
    録手段と、 特定話者の単語登録を行う際にデータ入力設定を行うデ
    ータ入力設定手段と、 前記不特定話者単語データ出力手段から出力された入力
    音声に対する単語検出データおよび前記特定話者単語登
    録手段から得られた入力音声に対する単語検出データを
    入力して、それぞれの検出データを基に入力音声を認識
    し、それに対応した応答内容を決定するとともに、前記
    データ入力設定手段からの設定データを受けて各種制御
    を行う音声認識会話制御手段と、 予め登録された応答内容を記憶する応答データ記憶手段
    と、 この応答データ記憶手段に記憶された応答内容のうち、
    前記音声認識会話制御手段により決定された応答内容に
    基づいた音声合成出力を発生する音声合成手段と、 この音声合成手段からの音声合成出力を外部に出力する
    音声出力手段と、 を有することを特徴とする音声認識対話装置。
  6. 【請求項6】 前記特定話者単語登録手段は、特定話者
    の入力音声を基にDPマッチングによる単語検出データ
    を出力するものであって、音声分析部からの特定話者の
    所定の音声入力に対する特徴データを入力して標準パタ
    ーンを作成する単語登録手段、この単語登録手段により
    作成された標準パターンを記憶する標準パターン記憶手
    段、前記音声分析手段からの特定話者の所定の音声入力
    に対する特徴データを入力し、前記標準パターンとの比
    較により単語検出データを出力する単語検出手段を有し
    たことを特徴とする請求項5記載の音声認識対話装置。
  7. 【請求項7】 前記特定話者単語登録手段は、特定話者
    の入力音声から前記不特定話者の標準音声特徴データを
    基に話者適応した標準音声パターンを作成する単語登録
    手段、この単語登録手段により作成された話者適応され
    た標準パターンを記憶する話者適応標準パターン記憶手
    段を少なくとも有し、前記音声分析手段からの特定話者
    の所定の音声入力に対する特徴データを入力し、前記話
    者適応標準パターンとの比較により単語検出データを出
    力することを特徴とする請求項5記載の音声認識対話装
    置。
  8. 【請求項8】 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声を分析して音声
    特徴データを発生する音声分析手段と、 この音声分析手段からの音声特徴データを入力し、予め
    登録された認識可能な単語に対する不特定話者の標準音
    声特徴データを基に、入力音声に含まれる登録単語に対
    応した検出データを出力する不特定話者単語データ出力
    手段と、 特定話者の入力音声を基に当該特定話者の発する単語の
    標準音声特徴データを登録するとともに特定話者の入力
    音声に対する単語検出データを出力する特定話者単語登
    録手段と、 特定話者の単語登録を行う際にデータ入力設定を行うデ
    ータ入力設定手段と、 前記不特定話者単語データ出力手段から出力された入力
    音声に対する単語検出データおよび前記特定話者単語登
    録手段から得られた入力音声に対する単語検出データを
    入力して、それぞれの検出データを基に入力音声を認識
    し、それに対応した応答内容を決定するとともに、前記
    データ入力設定手段からの設定データを受けて各種制御
    を行う音声認識会話制御手段と、 前記データ入力設定手段から応答データ作成に関する設
    定入力があった場合、前記音声認識会話制御手段からの
    指示を受けて、入力された音声信号に基づいた応答デー
    タを作成する応答データ登録手段と、 予め装置に登録された応答内容を記憶する応答データ記
    憶手段と、 前記応答データ登録手段により作成された応答内容を記
    憶する応答データ記憶手段と、 前記予め装置に登録されている応答データまたは前記応
    答データ登録手段により作成された応答データのうち、
    前記音声認識会話制御手段により決定された応答データ
    に基づいた音声合成出力を発生する音声合成手段と、 この音声合成手段からの音声合成出力を外部に出力する
    音声出力手段と、 を有することを特徴とする音声認識対話装置。
JP15652995A 1995-06-22 1995-06-22 音声認識対話処理方法および音声認識対話装置 Expired - Lifetime JP3968133B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP15652995A JP3968133B2 (ja) 1995-06-22 1995-06-22 音声認識対話処理方法および音声認識対話装置
US08/536,563 US5794204A (en) 1995-06-22 1995-09-29 Interactive speech recognition combining speaker-independent and speaker-specific word recognition, and having a response-creation capability

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15652995A JP3968133B2 (ja) 1995-06-22 1995-06-22 音声認識対話処理方法および音声認識対話装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005002229A Division JP2005148764A (ja) 2005-01-07 2005-01-07 音声認識対話処理方法および音声認識対話装置

Publications (2)

Publication Number Publication Date
JPH096390A true JPH096390A (ja) 1997-01-10
JP3968133B2 JP3968133B2 (ja) 2007-08-29

Family

ID=15629791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15652995A Expired - Lifetime JP3968133B2 (ja) 1995-06-22 1995-06-22 音声認識対話処理方法および音声認識対話装置

Country Status (2)

Country Link
US (1) US5794204A (ja)
JP (1) JP3968133B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100369732B1 (ko) * 1999-12-21 2003-01-30 주식회사 글로벌데이타시스템. 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
KR100423495B1 (ko) * 2001-06-21 2004-03-18 삼성전자주식회사 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
KR100485864B1 (ko) * 2001-12-28 2005-04-28 최중인 벨소리 겸용 음향바코드를 이용한 인증시스템
JP2009151314A (ja) * 2008-12-25 2009-07-09 Sony Corp 情報処理装置及び情報処理方法
WO2019078492A1 (ko) * 2017-10-20 2019-04-25 주식회사 공훈 음성 인증 시스템

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5691897A (en) * 1995-05-30 1997-11-25 Roy-G-Biv Corporation Motion control systems
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US6665639B2 (en) 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
US6038531A (en) * 1997-01-30 2000-03-14 Seiko Epson Corporation Similar word discrimination method and its apparatus
US20010032278A1 (en) * 1997-10-07 2001-10-18 Brown Stephen J. Remote generation and distribution of command programs for programmable devices
JPH11120240A (ja) * 1997-10-14 1999-04-30 Fujitsu Ltd 携帯型端末装置及びそれを用いた情報管理システム並びに情報管理方法
DE19837102A1 (de) * 1998-08-17 2000-02-24 Philips Corp Intellectual Pty Verfahren und Anordnung zum Durchführen einer Datenbankanfrage
DE69939124D1 (de) * 1998-09-09 2008-08-28 Asahi Chemical Ind Spracherkenner und spracherkennungsverfahren
US6192342B1 (en) * 1998-11-17 2001-02-20 Vtel Corporation Automated camera aiming for identified talkers
US6314402B1 (en) * 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US6584439B1 (en) 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US6823313B1 (en) * 1999-10-12 2004-11-23 Unisys Corporation Methodology for developing interactive systems
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
US7130802B1 (en) * 2000-10-02 2006-10-31 Ninesigma, Inc. Systems and methods for facilitating research and development
US6876987B2 (en) * 2001-01-30 2005-04-05 Itt Defense, Inc. Automatic confirmation of personal notifications
US7904194B2 (en) * 2001-02-09 2011-03-08 Roy-G-Biv Corporation Event management systems and methods for motion control systems
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
US7698228B2 (en) * 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7437295B2 (en) * 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US6944447B2 (en) * 2001-04-27 2005-09-13 Accenture Llp Location-based services
US7970648B2 (en) * 2001-04-27 2011-06-28 Accenture Global Services Limited Advertising campaign and business listing management for a location-based services system
US7801826B2 (en) * 2002-08-08 2010-09-21 Fujitsu Limited Framework and system for purchasing of goods and services
US7606560B2 (en) * 2002-08-08 2009-10-20 Fujitsu Limited Authentication services using mobile device
US7784684B2 (en) 2002-08-08 2010-08-31 Fujitsu Limited Wireless computer wallet for physical point of sale (POS) transactions
US20040107170A1 (en) * 2002-08-08 2004-06-03 Fujitsu Limited Apparatuses for purchasing of goods and services
US7822688B2 (en) * 2002-08-08 2010-10-26 Fujitsu Limited Wireless wallet
US7593842B2 (en) * 2002-12-10 2009-09-22 Leslie Rousseau Device and method for translating language
US20090209341A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Gaming Apparatus Capable of Conversation with Player and Control Method Thereof
US8655660B2 (en) * 2008-12-11 2014-02-18 International Business Machines Corporation Method for dynamic learning of individual voice patterns
US20100153116A1 (en) * 2008-12-12 2010-06-17 Zsolt Szalai Method for storing and retrieving voice fonts
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8990092B2 (en) * 2010-06-28 2015-03-24 Mitsubishi Electric Corporation Voice recognition device
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
JP5957269B2 (ja) * 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9697824B1 (en) * 2015-12-30 2017-07-04 Thunder Power New Energy Vehicle Development Company Limited Voice control system with dialect recognition
US10268679B2 (en) 2016-12-02 2019-04-23 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network
US11120817B2 (en) * 2017-08-25 2021-09-14 David Tuk Wai LEONG Sound recognition apparatus
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10636419B2 (en) * 2017-12-06 2020-04-28 Sony Interactive Entertainment Inc. Automatic dialogue design

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57158251U (ja) * 1981-03-31 1982-10-05
JPS61167997A (ja) * 1985-01-21 1986-07-29 カシオ計算機株式会社 会話ロボツト
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH05313692A (ja) * 1992-05-07 1993-11-26 Sanyo Electric Co Ltd 音声認識装置
JPH06119476A (ja) * 1992-10-09 1994-04-28 Seiko Epson Corp 時系列データ処理装置
JPH06230794A (ja) * 1993-02-02 1994-08-19 Nippondenso Co Ltd 音声認識装置
JPH06327842A (ja) * 1993-05-24 1994-11-29 Takara Co Ltd 動物玩具

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2338551A (en) * 1942-07-09 1944-01-04 Rca Corp Automatic volume control
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
US4712242A (en) * 1983-04-13 1987-12-08 Texas Instruments Incorporated Speaker-independent word recognizer
US4763278A (en) * 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
JPS62253093A (ja) * 1986-04-25 1987-11-04 株式会社 バンダイ 乗用玩具
US4827520A (en) * 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
US5117460A (en) * 1988-06-30 1992-05-26 Motorola, Inc. Voice controlled pager and programming techniques therefor
US5040212A (en) * 1988-06-30 1991-08-13 Motorola, Inc. Methods and apparatus for programming devices to recognize voice commands
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
JPH064097A (ja) * 1992-06-18 1994-01-14 Seiko Epson Corp 話者認識方法
US5278944A (en) * 1992-07-15 1994-01-11 Kokusai Electric Co., Ltd. Speech coding circuit
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5577164A (en) * 1994-01-28 1996-11-19 Canon Kabushiki Kaisha Incorrect voice command recognition prevention and recovery processing method and apparatus
US5444673A (en) * 1994-07-12 1995-08-22 Mathurin; Trevor S. Audio controlled and activated wristwatch memory aid device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57158251U (ja) * 1981-03-31 1982-10-05
JPS61167997A (ja) * 1985-01-21 1986-07-29 カシオ計算機株式会社 会話ロボツト
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH05313692A (ja) * 1992-05-07 1993-11-26 Sanyo Electric Co Ltd 音声認識装置
JPH06119476A (ja) * 1992-10-09 1994-04-28 Seiko Epson Corp 時系列データ処理装置
JPH06230794A (ja) * 1993-02-02 1994-08-19 Nippondenso Co Ltd 音声認識装置
JPH06327842A (ja) * 1993-05-24 1994-11-29 Takara Co Ltd 動物玩具

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100369732B1 (ko) * 1999-12-21 2003-01-30 주식회사 글로벌데이타시스템. 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법
KR100423495B1 (ko) * 2001-06-21 2004-03-18 삼성전자주식회사 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
KR100485864B1 (ko) * 2001-12-28 2005-04-28 최중인 벨소리 겸용 음향바코드를 이용한 인증시스템
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2009151314A (ja) * 2008-12-25 2009-07-09 Sony Corp 情報処理装置及び情報処理方法
WO2019078492A1 (ko) * 2017-10-20 2019-04-25 주식회사 공훈 음성 인증 시스템

Also Published As

Publication number Publication date
JP3968133B2 (ja) 2007-08-29
US5794204A (en) 1998-08-11

Similar Documents

Publication Publication Date Title
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
US5946658A (en) Cartridge-based, interactive speech recognition method with a response creation capability
EP0974141B1 (en) Extensible speech recognition system that provides a user with audio feedback
JP4867804B2 (ja) 音声認識装置及び会議システム
JP2003255991A (ja) 対話制御システム、対話制御方法及びロボット装置
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2002123289A (ja) 音声対話装置
JP2008275987A (ja) 音声認識装置および会議システム
JP2000020089A (ja) 音声認識方法及びその装置、並びに音声制御システム
JP2007286376A (ja) 音声案内システム
JP4498906B2 (ja) 音声認識装置
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置
US10854196B1 (en) Functional prerequisites and acknowledgments
JP2000122678A (ja) 音声認識機器制御装置
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP3001000B1 (ja) 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体
JP2000089780A (ja) 音声認識方法および音声認識装置
JPH04324499A (ja) 音声認識装置
JP3050232B2 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050107

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050125

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050225

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070604

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 6

EXPY Cancellation because of completion of term