JP2005148764A - 音声認識対話処理方法および音声認識対話装置 - Google Patents

音声認識対話処理方法および音声認識対話装置 Download PDF

Info

Publication number
JP2005148764A
JP2005148764A JP2005002229A JP2005002229A JP2005148764A JP 2005148764 A JP2005148764 A JP 2005148764A JP 2005002229 A JP2005002229 A JP 2005002229A JP 2005002229 A JP2005002229 A JP 2005002229A JP 2005148764 A JP2005148764 A JP 2005148764A
Authority
JP
Japan
Prior art keywords
voice
word
data
input
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005002229A
Other languages
English (en)
Inventor
Yasunaga Miyazawa
康永 宮沢
Isanaka Edatsune
伊佐央 枝常
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2005002229A priority Critical patent/JP2005148764A/ja
Publication of JP2005148764A publication Critical patent/JP2005148764A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】不特定話者の音声認識装置において、話者の個性などによって認識されない単語がある場合の認識性能の向上を図る。
【解決手段】予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、登録単語に対応した検出データを出力する不特定話者単語データ出力手段3と、特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段8と、特定話者の単語登録を行う際にデータ入力設定を行うデータ入力設定手段9と、前記それぞれの単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、前記データ入力設定手段からの設定データを受けて各種制御を行う音声認識会話制御手段4を有する。そして、応答内容を音声合成部6で音声合成した後、音声出力部7から出力する。
【選択図】図1

Description

本発明は、音声を認識し、その認識結果に対応した応答や特定動作を行う音声認識対話処理方法および音声認識対話装置に関する。
この種の音声認識装置においては、特定話者のみの音声を認識可能な特定話者音声認識装置と不特定話者の音声を認識可能な不特定話者音声認識装置がある。
特定話者音声認識装置は、或る特定の話者が認識可能な単語を一単語ずつ所定の手順に従って入力することによって、その特定話者の標準的な音声信号パターンを登録しておき、登録終了後、特定話者が登録した単語を話すと、その入力音声を分析した特徴パターンと登録された特徴パターンとを比較して音声認識を行うものである。この種の音声認識対話装置の一例として音声認識玩具がある。たとえば、音声指令となる複数の命令語として、「おはよう」、「おやすみ」、「こんにちわ」などの言葉を10単語程度、その玩具を使用する子どもが予め登録しておき、話者がたとえば「おはよう」というと、その音声信号と、登録されている「おはよう」の音声信号を比較して、両音声信号が一致したとき、音声指令に対する定められた電気信号を出力し、これに基づいて玩具に特定動作を行わせるものである。
このような特定話者音声認識装置は、特定話者かあるいはそれに近い音声パターンを有する音声しか認識されず、また、初期設定として、認識させたい単語を一単語ずつすべて登録させる必要がありその手間は極めて面倒であった。
これに対して、不特定話者音声認識装置は、多数(たとえば、200人程度)の話者が発話した音声を用いて、前記したような認識対象単語の標準音声特徴データを予め作成して記憶(登録)させておき、これら予め登録された認識可能な単語に対して、不特定な話者の発する音声を認識可能としたものである。
しかしながら、従来の不特定話者音声認識装置は、話者の話した言葉と違う単語や言葉を認識してしまうことも多く、また、話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、全ての単語が全く認識されないという問題が多く発生していた。
そこで、本発明は、不特定話者の音声認識が可能な音声認識装置において、話者の個性などによって認識されない単語がある場合には、特定話者の音声認識機能を用いて音声登録を可能とすることで、認識不可の単語を大幅に減らし、認識性能の向上を図ることを目的としている。
本発明の音声認識対話処理方法は、音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析工程と、この音声分析工程からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力工程と、特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録工程と、前記不特定話者単語データ出力工程から出力された入力音声に対する単語検出データおよび前記特定話者単語登録工程から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、特定話者の単語登録を行う際に外部からの設定データを受けて各種制御を行う音声認識会話制御工程と、前記音声認識会話制御工程により決定された応答内容に基づいた音声合成出力を発生する音声合成工程と、この音声合成工程からの音声合成出力を外部に出力する音声出力工程とを有することを特徴としている。
前記特定話者単語登録工程は、特定話者の入力音声を基にDPマッチングによる単語検出データを出力するものであって、音声分析工程からの特定話者の所定の音声入力に対する特徴データを入力して標準パターンを作成する単語登録工程、この単語登録工程により作成された標準パターンを記憶する標準パターン記憶工程、前記音声分析工程からの特定話者の所定の音声入力に対する特徴データを入力し、前記標準パターンとの比較により単語検出データを出力する単語検出工程を有したものであってもよく、また、前記特定話者単語登録工程は、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成する単語登録工程、この単語登録工程により作成された話者適応された標準パターンを記憶する話者適応標準パターン記憶工程を少なくとも有し、前記音声分析工程からの特定話者の所定の音声入力に対する特徴データを入力し、前記話者適応標準パターンとの比較により単語検出データを出力するようにしたものでもよい。
また、本発明の音声認識対話処理方法は、音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析工程と、この音声分析工程からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力工程と、特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録工程と、前記不特定話者単語データ出力工程から出力された入力音声に対する単語検出データおよび前記特定話者単語登録工程から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、特定話者の単語登録を行う際に外部からの設定データを受けて各種制御を行う音声認識会話制御工程と、前記外部からの設定データとして応答データ作成に関する設定入力があった場合、前記音声認識会話制御工程からの指示を受けて、入力された音声信号に基づいた応答データを作成する応答データ登録工程と、予め装置に登録されている応答データまたは前記応答データ登録工程により作成された応答データのうち、前記音声認識会話制御工程により決定された応答データに基づいた音声合成出力を発生する音声合成工程と、この音声合成工程からの音声合成出力を外部に出力する音声出力工程とを有することを特徴としている。
また、本発明の音声認識対話装置は、音声を入力する音声入力手段と、この音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析手段と、この音声分析手段からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力手段と、特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段と、特定話者の単語登録を行う際にデータ入力設定を行うデータ入力設定手段と、前記不特定話者単語データ出力手段から出力された入力音声に対する単語検出データおよび前記特定話者単語登録手段から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、前記データ入力設定手段からの設定データを受けて各種制御を行う音声認識会話制御手段と、予め登録された応答内容を記憶する応答データ記憶手段と、この応答データ記憶手段に記憶された応答内容のうち、前記音声認識会話制御手段により決定された応答内容に基づいた音声合成出力を発生する音声合成手段と、この音声合成手段からの音声合成出力を外部に出力する音声出力手段とを有した構成とする。
そして、前記特定話者単語登録手段は、特定話者の入力音声を基にDPマッチングによる単語検出データを出力するものであって、音声分析部からの特定話者の所定の音声入力に対する特徴データを入力して標準パターンを作成する単語登録手段、この単語登録手段により作成された標準パターンを記憶する標準パターン記憶手段、前記音声分析手段からの特定話者の所定の音声入力に対する特徴データを入力し、前記標準パターンとの比較により単語検出データを出力する単語検出手段を有したものであってもよく、また、前記特定話者単語登録手段は、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成する単語登録手段、この単語登録手段により作成された話者適応された標準パターンを記憶する話者適応標準パターン記憶手段を少なくとも有し、前記音声分析手段からの特定話者の所定の音声入力に対する特徴データを入力し、前記話者適応標準パターンとの比較により単語検出データを出力するものであってもよい。
また、本発明の音声認識対話装置は、音声を入力する音声入力手段と、この音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析手段と、この音声分析手段からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力手段と、特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段と、特定話者の単語登録を行う際にデータ入力設定を行うデータ入力設定手段と、前記不特定話者単語データ出力手段から出力された入力音声に対する単語検出データおよび前記特定話者単語登録手段から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、前記データ入力設定手段からの設定データを受けて各種制御を行う音声認識会話制御手段と、前記データ入力設定手段から応答データ作成に関する設定入力があった場合、前記音声認識会話制御手段からの指示を受けて、入力された音声信号に基づいた応答データを作成する応答データ登録手段と、予め装置に登録された応答内容を記憶する応答データ記憶手段と、前記応答データ登録手段により作成された応答データを記憶する記憶手段と、前記予め装置に登録されている応答データまたは前記応答データ登録手段により作成された応答データのうち、前記音声認識会話制御手段により決定された応答データに基づいた音声合成出力を発生する音声合成手段と、この音声合成手段からの音声合成出力を外部に出力する音声出力手段とを有する構成としている。
このよう本発明は、不特定話者の音声認識機能と、特定話者の音声を登録する機能および特定話者の音声認識機能を兼ね備えている。話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、すべての登録単語が全く認識されない場合もあるが、このような場合には、特定話者音声登録機能を用いて認識されない単語を登録することができる。これにより、認識できない単語を殆どなくすことができ、装置の認識性能を大幅に向上させることができる。また、特定話者に対しては、登録単語以外の単語の登録も可能となる。
また、応答データを作成する機能を有し、前記データ入力設定手段から応答データ作成に関する設定入力があった場合、前記音声認識会話制御手段からの指示を受けて、入力された音声信号に基づいた応答データを作成し、それを登録することを可能としている。これにより、必要に応じて、身近な色々な人の声による応答メッセージの作成が可能となり、より多彩な会話が可能となる。
(実施例)
以下、本発明の実施例を図面を参照して説明する。なお、この実施例では、本発明を玩具に適用した場合を例にとり、特にここでは、幼児用の玩具として、たとえば、犬などのぬいぐるみに適用した場合について説明する。
(第1の実施例)
図1は本発明の第1の実施例を説明する構成図である。図1において、話者の音声を入力する音声入力部1、入力音声を分析して音声特徴データを出力する音声分析部2、この音声分析部2からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力手段3、音声認識会話制御部4(詳細な説明は後述する)、予め設定された応答データを記憶する応答データ記憶部5、音声合成部6、音声出力部7などは、不特定話者の話す単語を認識して、その認識結果に応じた応答メッセージを発生する部分であり、この第1の実施例では、これに特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段8を設け、さらに、外部から様々なデータ入力設定(これについては後述する)を行うためのデータ入力設定手段としての設定スイッチ9が設けられた構成となっている。
なお、これらの構成要素のうち、音声分析部2、不特定話者単語データ出力手段3、音声認識会話制御部4、応答データ記憶部5、音声合成部6、特定話者単語登録手段8などは、犬のぬいぐるみの内部に収納され、音声入力部(マイクロホン)1はぬいぐるみのたとえば耳の部分、音声出力部(スピーカ)7はたとえば口の部分に設けられ、設定スイッチ9はたとえばぬいぐるみの腹の部分に外部から操作可能に設けられる。
前記不特定話者単語データ出力手段3は、複数の認識対象登録単語の標準音声特徴データとして、それぞれの単語に対応した標準パターンを記憶する標準パターン記憶部31、音声分析部2からの音声特徴データを入力して前記標準パターン記憶部31の標準パターンと比較して、単語検出データを出力する単語検出部32などから構成されている。
前記標準パターン記憶部31は、1つ1つの単語に対し多数(たとえば、200人程度)の話者が発話した音声を用いて予め作成した認識対象単語の標準パターンを記憶(登録)している。ここでは、ぬいぐるみを例にしているので、認識対象単語は10単語程度とし、その単語としては、たとえば、「おはよう」、「おやすみ」、「こんにちは」、「明日」、「天気」など挨拶に用いる言葉が多いが、これに限定されるものではなく、色々な単語を登録することができ、登録単語数も10単語に限られるものではない。単語検出部32は図示されていないが主に演算器(CPU)と処理プログラムを記憶しているROMから構成され、標準パターン記憶部31に登録されている単語が、入力音声中のどの部分にどれくらいの確かさで存在するかを検出するものであり、これについては後述する。
一方、特定話者単語登録手段8は、単語登録部81、入力音声の標準音声特徴データとして入力音声標準パターンを記憶する標準パターン記憶部82、単語検出部83などから構成され、特定話者の音声信号を入力して特定話者の話す単語を登録するとともに、入力音声に対する特定話者登録された単語の検出データを出力する機能を有している。なお、ここでは、DPマッチングにより、入力音声と登録音声標準パターンとを比較して、その比較結果をもとに、単語検出部83から単語検出データを出力するものであるとする。この特定話者単語音録手段8による単語登録は、設定スイッチ9によって単語登録モードを設定することにより、単語登録が可能となるが、これらについては後に詳細に説明する。
これら各部におけるそれぞれの機能などについて、以下に順次説明する。
前記音声入力部1は図示されていないがマイクロホン、増幅器、ローパスフィルタ、A/D変換器などから構成され、マイクロホンから入力された音声を、増幅器、ローパスフィルタを通して適当な音声波形としたのち、A/D変換器によりディジタル信号(たとえば、12KHz.16bits)に変換して出力し、その出力を音声分析部2に送る。音声分析部2では、音声入力部1から送られてきた音声波形信号を、演算器(CPU)を用いて短時間毎に周波数分析を行い、周波数の特徴を表す数次元の特徴ベクトルを抽出(LPCーCEPSTRUM係数が一般的)し、この特徴ベクトルの時系列(以下、音声特徴ベクトル列という)を出力する。 また、前記不特定話者単語データ出力手段3としては、隠れマルコフモデル(HMM)方式やDPマッチング方式などを用いることも可能であるが、ここでは、DRNN(ダイナミック リカレント ニューラル ネットワーク)方式によるキーワードスポッティング処理技術(この技術に関しては、本出願人が特開平6ー4097、特開平6ー119476により、すでに特許出願済みである。)を用いて、不特定話者による連続音声認識に近い音声認識を可能とするための単語検出データを出力するものであるとする。
この不特定話者単語データ出力手段3の具体的な処理について、図2を参照しながら簡単に説明する。単語検出部32は、標準パターン記憶部31に登録されている単語が、入力音声中のどの部分にどれくらいの確かさで存在するかを検出するものである。今、話者から「明日の天気は、・・・」というような音声が入力され、図2(a)に示すような音声信号が出力されたとする。この「明日の天気は、・・・」の文節のうち、「明日」と「天気」がこの場合のキーワードとなり、これらは、予め登録されている10単語程度の登録単語の1つとして、標準パターン記憶部31にそのパターンが記憶されている。そして、これら登録単語をたとえば10単語としたとき、これら10単語(これを、単語1、単語2、単語3、・・・とする)に対応して各単語を検出するための信号が出力されていて、その検出信号の値などの情報から、入力音声中にどの程度の確かさで対応する単語が存在するかを検出する。つまり、「天気」という単語(単語1)が入力音声中に存在したときに、その「天気」という信号を待っている検出信号が、同図(b)の如く、入力音声の「天気」の部分で立ち上がる。同様に、「明日」という単語(単語2)が入力音声中に存在したときに、その「明日」という信号を待っている検出信号が、同図(c)の如く、入力音声の「明日」の部分で立ち上がる。同図(b),(c)において、0.9あるいは0.8といった数値は、確からしさ(近似度)を示す数値であり、0.9や0.8といった高い数値であれば、その高い確からしさを持った登録単語は、入力された音声に対する認識候補であるということができる。つまり、「明日」という登録単語は、同図(c)に示すように、入力音声信号の時間軸上のw1の部分に0.8という確からしさで存在し、「天気」という登録単語は、同図(b)に示すように、入力音声信号の時間軸上のw2の部分に0.9という確からしさで存在することがわかる。
また、この図2の例では、「天気」という入力に対して、同図(d)に示すように、単語3(この単語3は「何時」という登録単語であるとする)を待つ信号も、時間軸上のw2の部分に、ある程度の確からしさ(その数値は0.6程度)を有して立ち上がっている。このように、入力音声信号に対して同一時刻上に、2つ以上の登録単語が認識候補として存在する場合には、最も近似度(確からしさを示す数値)の高い単語を認識単語として選定する方法、各単語間の相関規則を表した相関表を予め作成しておき、この相関表により、いずれか1つの単語を認識単語として選定する方法などを用いて、或る1つの認識候補単語を決定する。たとえば、前者の方法で認識候補を決定するとすれば、この場合は、時間軸上のw2の部分に対応する近似度は、「天気」を検出する検出信号の近似度が最も高いことから、その部分の入力音声に対する認識候補は「天気」であるとの判定を行う。なお、これらの近似度を基に入力音声の認識は音声認識会話制御部4にて行う。
音声認識会話制御部4は、主に演算器(CPU)と処理プログラムを記憶しているROMから構成され、以下に述べるような様々な処理を行う。なお、以上の各部に設けられたCPUは、各部ごとに設けるようにしてもよいが、1台のCPUで各部の処理を行うようにしてもよい。
音声認識会話制御部4は、単語検出部32または単語検出部83からの単語検出データのいずれかを選択して、その単語検出データを基に、音声を認識し(入力音声全体の意味を理解し)、応答データ記憶部5を参照して、入力音声の意味に応じた応答内容を決定し、音声合成部8および音声出力部9へ出力信号を送る。たとえば、単語検出部32からの図2(b)〜(e)に示すような検出データ(これをワードラティスという。このワードラティスは、登録単語名、近似度、単語の始点sと終点eを示す信号などが含まれる)が入力されると、まず、そのワードラティスを基に、入力音声の中のキーワードとしての単語を1つまたは複数個決定する。この例では、入力音声は「明日の天気は・・・」であるので、「明日」と「天気」が検出されることになり、この「明日」と「天気」のキーワードから「明日の天気は・・・」という連続的な入力音声の内容を理解する。
なお、以上説明したキーワードスポッティング処理による連続音声認識に近い音声認識処置は、日本語だけでなく他の言語においても適用可能である。たとえば、使用する言語が英語であるとすれば、登録されている認識可能な単語は、たとえば、"good-morning"、"time"、"tommorow"、"good-night"などが一例として挙げられるが、これらの認識可能な登録単語の特徴データが、標準パターン記憶部31に記憶されている。そして今、話者が「what time is it now」と問いかけた場合、この「what time is it now」の文節の内、「time」という単語がこの場合のキーワードとなり、単語「time」が入力音声の中に存在したときに、単語「time」の音声信号を待っている検出信号が、入力音声の「time」の部分で立ち上がる。そして、単語検出部32からの検出データ(ワードラティス)が入力されると、まず、そのワードラティスを基に、入力音声のキーワードとしての単語を1つまたは複数個決定する。この例では、入力音声は、「what time is it now」であるので、「time」がキーワードとして検出されることになり、このキーワードを基に、「what time is it now」という連続的な入力音声の内容を理解する。
ところで、今まで説明した内容は、不特定話者単語データ出力手段3から単語データが出力される場合、つまり、話者の話す言葉が認識される場合であるが、話者によっては、登録単語のうち、たとえば「おはよう」と問いかけても、全く認識されない場合がある。このような場合、話し方を変えると認識される場合もあるが、話者の声の個性などによって、全く認識されない場合もある。この場合には、認識されない単語を特定話者単語登録を行う。以下、これについて説明する。
特定話者単語登録を行う場合には、設定スイッチ9を用いる。この設定スイッチ9は、たとえば図3に示すように、「0」〜「9」の数値からなる番号キー部91、登録開始ボタン92、登録終了ボタン93、応答メッセージ選択ボタン94、応答メッセージ登録終了ボタン95、応答内容番号入力ボタン96などから構成されている。なお、応答メッセージ選択ボタン94、応答メッセージ登録終了ボタン95、応答内容番号入力ボタン96などについては後に説明する。
ここでは、たとえば、「おはよう」という単語が認識されないため、この「おはよう」を特定話者単語登録する場合について説明する。まず、設定スイッチ9の登録開始ボタン92を操作する。これにより、音声認識会話制御部4では、特定話者単語登録モードとし、この単語登録モードにあっては、通常の認識動作を行わないようにする。
この状態で、話者が「おはよう」という単語の番号(あらかじめ認識可能な登録単語には、それぞれの単語に対応して番号が割り当てられている)を番号キー91より入力、たとえば、「おはよう」が1番であるとすると、「1」の数値キーを押すと、音声認識会話制御部4では、「おはよう」という単語の登録であることを検出し、「おはようと言ってください」などというような応答出力を発するように制御を行う。これによって、話者が「おはよう」というと、その音声は、音声入力部1から音声分析部2に送られ、音声分析された特徴ベクトルが単語登録部81に送られる。単語登録部81では、標準音声特徴データとして入力音声に対する標準パターンを作成する。この標準パターンは標準パターン記憶部82に記憶される。
なお、前記登録される特徴パターンは、話者が「おはよう」と言ったそのままの特徴ベクトル列を用いて標準パターンを作成してもよいが、話者に対して数回、「おはよう」と発話させて、それぞれの特徴ベクトル列の平均的な標準特徴ベクトル列を求めて、その標準特徴ベクトル列により標準パターンを作成するようにしてもよい。
このようにして、或る特定の話者の発する認識されない単語の登録がなされる。これは、「おはよう」のみならず、認識されない登録単語すべてについて行うことが可能であることは勿論である。このようにして、認識されない単語に対して特定話者単語登録がなされる。
次に、話者と装置(ぬいぐるみ)との間の具体的な会話例を用いて第1の実施例を説明する。また、話者の問いかけ内容のなかで中括弧内の単語は文字認識を行う上でのキーワードであることを示している。
まず、話者が「{おはよう}ございます」と問いかけたとする。この「おはよう」という音声は音声入力部1から音声分析部2に送られ、音声分析された特徴ベクトルが出力される。このとき、不特定話者単語データ出力手段3の単語検出部32と、特定話者単語登録部8の単語検出部83はともに音声分析部2からの信号を待っている状態にあり、これらそれぞれの単語検出部32、83からは音声分析部2からの出力に応じた単語検出データ(ワードラティス)がそれぞれ出力される。なお、単語検出部83からのワードラティスに含まれる確からしさを示す数値は近似度ではなく距離値である。
ところで、単語検出部32、83から出力されるワードラティスに含まれる確からしさを示す数値は、単語検出部32の場合は、図2により説明したように、0.9や0.7といった近似度であり、数値が高いほど確からしさが高いものとなり、これに対して、単語検出部83の場合は、入力音声の特徴パターンと標準パターンとの距離を示す数値で表されるため、数値が小さいほど確からしさが高いものとなる。したがって、音声認識会話制御部4では、これら単語検出部32、83から出力されるワードラティスを受け取ると、それぞれの近似度および距離値を、それぞれに対応して設定されたしきい値th1,th2(ここでは、th1=0.7、th2=0.3とする)と比較して、認識候補単語を決定する。
たとえば、「天気」という単語が入力された場合、単語検出部32から、図2(b)に示すように、「天気」を検出する信号が、0.9の高い近似度を有して出力されたとすれば、この0.9としきい値th1(th1=0.7)を比較してth1より大きければ入力音声は「天気」であるとの認識を行う。
また、話者が特定話者単語登録されている「おはよう」という単語を話した場合は、単語検出部32からは、たとえば、図4(a)〜(d)に示すようなワードラティスが出力される。この場合は、話者の「おはよう」に対する「おはよう」を検出するための検出信号の近似度は0.2と低く、他の単語を検出するための検出信号に高い近似度が現れる場合もある。ここでは、「おやすみ」を待っている信号に比較的高い近似度(近似度0.6)が現れているものとする。
一方、単語検出部83からは、話者の「おはよう」に対する音声信号と標準パターン記憶部82に記憶されている標準パターンとを比較して得られた距離値が出力される。この距離値は極めて小さい値となり、たとえば、0.1であるとする。
音声認識会話制御部4では、前記したそれぞれの単語検出部32、83からのワードラティスを受けて、認識候補を決定する。この場合、音声認識会話制御部4は、登録単語のうちどの単語が特定話者単語登録された単語であるかを把握している(話者が単語登録を行うときに単語番号を入力することにより把握できる)ため、単語検出部32からのワードラティスのうち、「おはよう」を検出するための検出信号(図4(a))のデータは認識対象としないで、図4(b)〜(d)の検出信号のデータを用いて、単語検出部83からのワードラティス(距離値)との比較を行う。なお、図4では、単語検出部32からの検出データは、4つの単語の検出データしか図示されていないが、実際には、これ以外の登録単語のワードラティスも音声理解会話制御部4に入力される。なお、話者の「おはよう」に対するすべての登録単語の検出データのなかで、「おやすみ」の検出データにおける近似度が最も高いものとする。
これにより、音声認識会話制御部4では、単語検出部32、82からの近似度および距離値をそれぞれのしきい値(th1=0.7、th2=0.3)と比較して、認識候補を決定して入力音声の意味を理解する。この場合、単語検出部32からの最も高い近似度は0.6であり、しきい値th1よりも小さい。一方、単語検出部83からの「おはよう」の入力音声に対する距離値は、0.1であり、しきい値th2と比較するとth2よりも小さいので、この場合は、「おはよう」を認識候補と決定する。
なお、単語検出部32からの最も高い近似度が、しきい値th1よりも大きいものがあって、かつ、単語検出部83からの距離値が、しきい値th2よりも小さいものがあった場合には、予め何らかの規則を決めておき、いずれかを認識候補として決定するようにする。たとえば、単語検出部83からのデータを優先してそれを認識候補とする方法、あるいは、装置側から再度入力を促すような応答をするなどの方法がある。
以上のようにして、話者の音声入力に対して認識単語が決定される。しかも、認識されない単語(登録単語)がある場合には、その単語を特定話者登録することができるため、登録単語を認識できないという不都合を解消することができる。そして、認識単語が決定されると、音声認識会話制御部4では、入力音声の意味を理解して、それに対する応答内容を決定し、音声出力部7から出力する。なお、このとき、ここでは図示されていないが、時刻、日付、気圧、気温などの変動データを検出する変動データ検出部とこれらのデータを記憶する記憶部を設けることにより、これらのデータを基に、より多彩な応答データを作成することができる。たとえば、話者が「おはよう」と問いかけると、ぬいぐるみからは、「おはよう、今日はいいお天気だから(気圧情報より)、お花見に行こうよ(日付情報より)」などという応答も可能となる。このような会話において、話者の話す内容に対するぬいぐるみからの応答内容は、話者の話す内容に対応させて、予め設定しておく。
ところで、以上の説明は、登録単語の中で、話者の個性などによって認識されない単語を、特定話者単語登録して、それを認識して応答メッセージを発する場合について説明したが、登録単語以外の単語をも特定話者単語登録することができる。たとえば、ぬいぐるみであれば、そのぬいぐるみに独自の名前を付けてそれを登録することも可能である。以下にぬいぐるみの名前を登録する場合について説明する。
たとえば、設定スイッチ9の番号キー91のうち、「0」の数値キーを名前登録用のキーとしておき、最初に、登録開始ボタン92を押して、続いて「0」の数値キーを押す。これにより、装置側からは、「名前を言ってください」というようなメッセージが発せられ、話者が、たとえば、「ぽち」などと言うとそれが登録される。これは、前記した認識されない単語登録と同じ要領で行われる。たとえば、複数回「ぽち」と言わせて、その平均の特徴ベクトル列から標準パターンを求めてそれを標準パターン記憶部82に記憶させる。そして、この「ぽち」に対する応答内容としては、たとえば、「わん、わん」などを予め設定しておく。これによって、話者が「ぽち」と名前を呼ぶことによって、「わん、わん」などと答える。
また、話者が独自に登録したい単語がある場合には、それを登録し、その登録単語に対する応答メッセージを作ることも可能である(ただし、応答内容はある程度限定される)。この場合には、たとえば操作手順などを示すマニュアルなどを作成しておき、そのマニュアルに従った操作を行うことにより、応答メッセージを作成するようにしてもよい。以下これについて説明する。
これを実現するには、装置側では予め応答内容をたとえば100種類程度用意しておき、話者が独自に登録した単語に対応させて、応答内容を選択する。具体的には、図5に示すように、応答内容A0、応答内容A1、応答内容A2、・・・というような応答内容に、応答内容番号を0,1,2,・・・というように割り当てて、応答データ記憶部5に格納しておき、これら応答内容番号と応答内容を対応づけた一覧表を記載した操作マニュアルを用意し、ユーザは操作マニュアルにしたがって、一覧表を見ながら、登録した単語ごとに応答内容を設定する。この設定は設定スイッチ9を用いて以下のようにして行う。
まず、予め登録されていない単語の登録を番号キー91により「11」以降の数値を入力して行う(ちなみに、「0」の数値は前記したように、この実施例では名前の登録用であり、「1」から「10」の数値は登録単語に対応した数値キーであり、登録単語が認識されないときに特定話者単語登録を行うような場合に用いられる)。
まず、登録開始ボタン92を押したあと、番号キー91により、たとえば「11」を入力して、或る単語を音声入力すると、その単語の標準音声パターンが標準音声パターン記憶部82に記憶される。そして、応答メッセージ選択ボタン94を操作し、前記一覧表の中から登録した単語にふさわしい応答内容を選択する。たとえば、応答内容番号1の応答内容A1を登録したい場合には、応答内容番号入力ボタン96を押して、続いて番号キー91から応答内容番号1に対応する「1」の数値キーを押し、さらに、応答メッセージ登録終了ボタン95を押す。これにより、「11」の数値キーを押して登録された単語が、話者から音声入力として入力された場合には、装置からは応答内容A1による応答がなされることになる。
このように、設定スイッチ9により、「11」以降の数値を用いて、ユーザが独自に登録したい単語の登録が行え、しかもそれぞれの単語に対応した応答内容を選択して登録することができる。さらに、応答内容は、応答内容番号を幾つか組み合わせることにより、たとえば、応答内容A0、応答内容A2、応答内容A4の組み合わせたより多彩な応答内容を作成して登録することも可能である。
(第2の実施例)
次に本発明の第2の実施例について説明する。前記第1の実施例では、認識されない登録単語に対しては、DPマッチングによる単語検出を行うために、話者の音声入力を音声分析した特徴ベクトルを用いて標準パターンを作成し、入力音声との比較を行って単語検出データ(ワードラティス)を出力する例を示したが、この第2の実施例では、不特定話者標準パターンモデルを用いて話者適応を行い、話者適応した標準特徴パターンを作成して、この新たな話者適応した標準パターンを用いて認識を行おうとするものである。以下、図6を参照しながら第2の実施例について説明する。
図6において、図1と同一部分には同一符号が付されている。この第2の実施例では、音声入力部1、音声分析部2、不特定話者単語データ出力手段3(標準パターン記憶部31、単語検出部32)、単語認識会話制御部4、応答データ記憶部5、音声合成部6、音声出力部7、設定スイッチ9の他に、特定話者単語登録手段10として、特定話者の入力音声(音声分析部2の出力)をもとに、DRNNの不特定話者標準パターンモデルを用いて、話者適応した標準パターンを作成する単語登録部101、この単語登録部101で作成された話者適応された新たな標準パターンを記憶する話者適応標準パターン記憶部102、音声分析部2からの出力を受けて前記話者適応標準パターン記憶部102を基に、単語検出データ(ワードラティス)を出力する単語検出部103が設けられた構成となっている。
このような構成において以下にその動作を説明する。なお、話者の話す単語が認識される場合については、第1の実施例と同じであるので、ここでは、認識されない単語の認識処理について説明する。
前記第1の実施例と同様に、話者の話す「おはよう」が認識されない場合、この「おはよう」という単語を特定話者単語登録を行う。以下、これについて説明する。
特定話者単語登録を行う場合には、図3でその一例を示した設定スイッチ9を用いる。まず、設定スイッチ9の登録開始ボタン92を操作する。これにより、音声理解会話制御部4では、単語登録モードとし、この単語登録モードにあっては、通常の認識動作を行わないようにする。
この状態で、話者が「おはよう」という単語に割り当てられた「1」の数値キーを押すと、音声認識会話制御部4では、「おはよう」という単語の登録であることを検出し、「おはようと言ってください」などというような応答出力を発するように制御を行う。これによって、話者が「おはよう」というと、その音声は、音声入力部1から音声分析部2に送られ、音声分析された特徴ベクトルが単語登録部101に送られる。単語登録部101では、音声分析部2からの出力を基に、DRNNの標準パターンから話者の音声の特性に見合った新たな標準パターン、つまり話者適応した標準パターンを作成し、それを話者適応標準パターン記憶部102に記憶させる。
このような状態で、話者が特定話者単語登録されている「おはよう」という単語を話した場合は、単語検出部32からは、たとえば、第1の実施例で説明したように、図4(a)〜(d)に示すようなワードラティスが出力される。この場合は、話者の「おはよう」に対する「おはよう」を検出するための検出信号の近似度は低く、他の単語を検出するための検出信号に高い近似度が現れる場合もある。ここでは、「おやすみ」を待っている信号に比較的高い近似度(近似度0.6)が現れているものとする。一方、単語検出部103からの「おはよう」を検出する信号は図7(a)に示すように、高い近似度を持った信号が出力される。これは、話者適応された「おはよう」の標準パターンと、当該話者の「おはよう」の入力音声との比較により出力されるためである。
音声認識会話制御部4では、単語検出部32、103からのワードラティスを受けて、認識候補を決定する。この場合、音声認識会話制御部4は、登録単語のうちどの単語が特定話者単語登録された単語であるかを把握している(話者が単語登録を行うときに単語番号を入力することにより把握できる)ため、単語検出部32からのワードラティスのうち、「おはよう」を検出するための検出信号(図4(a))のデータは認識対象としないで、図7に示すように、同図(a)に示す単語検出部103からの検出データ(近似度)と、図4(b)〜(d)で示した単語検出部32からの検出データを用いて近似度の比較を行う。なお、図7では、単語検出部32からの単語データは3つの単語の検出データしか図示されていないが、実際には、それ以外の登録単語のワードラティスも音声理解会話制御部4に入力される。
これにより、音声認識会話制御部4では、単語検出部32、103からの近似度を比較して、認識候補を決定するとともに入力音声の意味を理解する。この場合、単語検出部32からの最も高い近似度は「おやすみ」の0.6であり、一方、単語検出手段103からの「おはよう」の近似度は、0.9であり、この場合は、「おはよう」を認識候補と決定する。
なお、単語検出部32、103からのワードラティスの近似度が高い数値の単語が幾つかあるような場合の認識候補の決定の仕方としては、最も高い近似度の単語を認識候補として決定する方法や、各単語間の近似度の相関関係を表す相関表を各単語毎に作成しておき、この相関表を基に認識単語を決定する方法など幾つかの方法がある。
また、図6においては、単語検出部として単語検出部32と単語検出部103とをそれぞれ設けた構成としたが、この第2に実施例の場合には、特定話者単語登録に、DRNNによる標準パターンを用いた話者適応を用いているので、ワードラティスに含まれる数値の基準は同じであるため、単語検出部32を共用することも可能である。
以上のようにして、話者の音声入力に対して認識単語が決定される。しかも、認識されない単語(登録単語)がある場合には、その単語を特定話者登録することができるため、登録単語を認識できないという不都合を解消することができる。なお、特定話者登録用として話者適応した標準パターンを予め登録されている認識率の悪い標準パターンと入れ替えるということも可能となる。
そして、認識単語が決定されると、音声認識会話制御部4では、入力音声の意味を理解して、それに対する応答内容を決定し、音声出力部7から出力する。なお、このとき、ここでは図示されていないが、時刻、日付、気圧、気温などの変動データを検出する変動データ検出部とこれらのデータを記憶する記憶部をもうけることにより、これらのデータを基に、より多彩な応答データを作成することができる。たとえば、話者が「おはよう」と問いかけると、ぬいぐるみからは、「おはよう、今日はいいお天気だから(気圧情報より)、お花見に行こうよ(日付情報より)」などという応答も可能となる。このような会話において、話者の話す内容に対するぬいぐるみからの応答内容は、話者の話す内容に対応させて、予め設定しておく。
(第3の実施例)
以上説明した第1、第2の実施例においては、応答メッセージは予め決められた声優などの声を用いて応答内容が作成され、それが登録されているが、この第3の実施例では、応答メッセージとして自分の声、母親の声、おるいは友人の声などで応答内容を作成して登録することができるようにしたものである。これを図8を参照して説明する。なお、この第3の実施例は、第1、第2の各実施例に適応可能であるが、ここでは第1の実施例で説明した構成に適応した例を説明する。
図8において、図1と同一部分には同一符号を付し、これら同一部分の説明はここでは省略する。この第3の実施例を実現するための新たな構成要件としては、自分の声、家族の声、あるいは友人の声などの応答データを登録するための応答データ登録部40、この応答データ登録部40で登録された応答内容を記憶する応答データ記憶部41が設けられている。
前記応答データ登録部40は、音声入力部1からの入力音声に対するA/D変換後の出力を、データ圧縮した応答データを作成するものであり、ここで作成された応答データは応答データ記憶部41に記憶される。なお、この応答データ登録を行う際は、図9で示した設定スイッチ9の応答メッセージ作成ボタン97を押すことにより行う。この図9で示した設定スイッチ9は、この第3の実施例を実現するための設定スイッチであり、図3で示したものと基本的には同じものであるが、図3で示したものに対して、応答メッセージ作成ボタン97と応答選択ボタン98が新たに設けられた構成となっている。この応答メッセージ作成ボタン97が押されると、音声認識会話制御部4が装置のモードを応答データ登録モードとし、応答データの登録が可能となる。この応答データ登録モードのときは、前記第1、第2の実施例で説明したような単語検出などの処理は行われない。また、応答選択ボタン98は、応答内容を予め登録されている内容とするか、あるいは新たに登録された内容とするかを選択するスイッチであり、予め登録された応答内容側とした場合には、音声認識会話制御部4は応答データ記憶部5を参照し、新たに登録された応答内容側とすることにより、音声認識会話制御部4は応答データ記憶部41を参照する。なお、この設定スイッチ9の構成は図9のものに限定されるものではなく、各種設定ボタンなどは必要に応じて設けられる。
このような構成において、たとえば、このぬいぐるみで遊ぶ子どもの母親の声で応答メッセージを作成して登録する場合は、まず、設定スイッチ9の応答メッセージ作成ボタン97を押し、続いて、応答内容番号入力ボタン96を押して、たとえば、番号キー91から「100」を入力したのち、母親が何らかの応答メッセージを入力する。これにより、応答データ登録部40により、入力した応答メッセージの内容に対応した応答データが作成され、その応答データが応答データ記憶部41に記憶される。このようにして、母親のみに限らず、所定の人が新たに登録したい応答内容を入力することにより、それぞれの応答データ(応答内容a0、応答内容a1,応答内容a2、・・・とする)が作成され、それぞれの応答データは応答データ記憶部41に、図10に示すように、応答内容番号100、101,102,・・・に対応して、応答内容a0、応答内容a1,応答内容a2、・・・というように登録される。なお、この応答データ記憶部41は、前記第1、第2の実施例で示した応答データ記憶部5のメモリを共用して、応答内容番号0〜99番までを、装置に予め登録されている応答内容として、たとえば0から99番のアドレスに登録し、応答内容番号100番以降を新たに登録された応答内容として、100番以降のアドレスに登録するようにしてもよい。
以上のようにして、新たな音声による応答内容が登録される。そして、これら新たに登録された応答内容を、話者の問いかける単語に対する応答内容として予め設定しておく。たとえば、登録単語番号1の単語(「おはよう」であるものとする)に対して応答内容番号100の応答内容a0(母親の声による「おはよう、・・・ちゃん」であるとする)を登録したい場合には、まず、番号キー91から「1」の数値キーを押して、応答内容番号入力ボタン96を押して、続いて番号キー91から「100」の数値キーを押し、さらに、応答メッセージ登録終了ボタン95を押す。このようにして話者の話す登録単語に応答内容を対応づけることができる。
これにより、応答選択ボタン98を登録応答内容側に切り替えた状態で、登録単語番号1に対応する単語が、話者から音声入力として入力された場合には、装置からは応答内容a0による応答がなされることになる。つまり、たとえば、ぬいぐるみと遊ぶ子どもが、「おはよう」と問いかけると、ぬいぐるみからは、母親の声で、「おはよう、・・・ちゃん」というような応答がなされる。
なお、この例では、応答選択ボタン98を設けて、これにより、応答内容をすでに登録されている内容のものか、あるいは新たに登録した内容のものかを選択するようにしたが、応答内容の選択はこのような方式に限られるものではなく、条件などを予め設定しておき、たとえば、話者の発話内容などがその条件に合致したときに、応答内容がいずれかに選択されるようにしてもよい。また、話者の話す登録単語と応答内容の対応付けの方法も前記したような方法に限られることなく、種々の方法が考えられる。
さらにまた、前記第1の実施例で説明したように、設定スイッチ9により、「11」以降の数値を用いて、ユーザが独自に認識可能な単語の登録を新たに行い、その新たに登録した単語に対応して、前記した新たな応答内容a0,a1,a2,・・・を選択して登録することができる。さらに、応答内容は、応答内容番号を幾つか組み合わせることにより、たとえば、応答内容a0、応答内容a2、応答内容a4などの3つを組み合わせることにより多彩な応答内容を作成し、登録することも可能である。
このように第3の実施例では、装置に予め設定された声優などによる応答だけではなく、身近な人の声での応答が可能となるため、ぬいぐるみなどの玩具に適用した場合には、子どもは、より一層会話を楽しむことができ、玩具にありがちなすぐ飽きるというようなことが無くなる。
また、以上の各実施例では、本発明を玩具としてぬいぐるみに適用した例を説明したが、ぬいぐるみに限られるものではなく。他の玩具にも適用できることは勿論であり、さらに、玩具だけではなく、ゲーム機や、日常使われる様々な電子機器などにも適用でき、その適用範囲は極めて広いものと考えられる。
以上説明したように、本発明の音声認識対話処理方法は、請求項1によれば、音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析工程と、この音声分析工程からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力工程と、
特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録工程と、前記不特定話者単語データ出力工程から出力された入力音声に対する単語検出データおよび前記特定話者単語登録工程から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、特定話者の単語登録を行う際に外部からの設定データを受けて各種制御を行う音声認識会話制御工程とを有しているので、話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、すべての登録単語が全く認識されない場合もあるが、このような場合には、特定話者音声登録機能を用いて認識されない単語を登録することができる。これにより、認識できない単語を殆どなくすことができ、認識性能を大幅に向上させることができ、また、特定話者に対しては、登録単語以外の単語の登録も可能となるなど、より一層、高性能なものとすることができる。
また、請求項2によれば、特定話者単語登録工程は、特定話者の入力音声を基にDPマッチング方式による単語登録および単語検出データ出力を行うようにしたので、単語検出を簡単に行うことができ、また、登録単語以外の単語の登録とその認識が容易に行うことができる。これによって、色々な応答メッセージを予め用意しておけば、新たに登録した単語に対して応答メッセージを設定することも可能となり、より多彩な会話も可能とすることができる。
また請求項3によれば、特定話者単語登録工程は、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成することで特定話者の音声を登録するようにしたので、単語データ検出工程として新たなものを設ける必要が無く、処理の簡素化が図れる。また、単語データ検出方式が同じであることから検出データの数値の基準などが同じであるため、データ処理部を共用することも可能であり、さらに、特定話者登録された標準パターンを予め登録されている認識率の悪い標準パターンと入れ替えることも可能となるなどの効果を得ることができる。
また請求項4によれば、予め装置側に登録されている応答メッセージの他に、自分の声や身近な人の声などで応答内容を作成して登録することができるようにしたので、より一層、多彩な会話を可能とすることができ、適用範囲もより広いものとすることができる。
また、本発明の音声認識対話装置は、請求項5によれば、音声入力手段により入力された入力音声を音声分析部で分析して得られた音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、登録単語に対応した検出データを出力する不特定話者単語データ出力手段と、特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段と、特定話者の単語登録を行う際にデータ入力設定を行うデータ入力設定手段と、前記それぞれの単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、前記データ入力設定手段からの設定データを受けて各種制御を行う音声認識会話制御手段を有しているので、話者の話し方の個性などによって、認識される単語、認識されない単語があったり、また、話者によっては、すべての登録単語が全く認識されない場合もあるが、このような場合には、特定話者音声登録機能を用いて認識されない単語を登録することができる。これにより、認識できない単語を殆どなくすことができ、装置の認識性能を大幅に向上させることができ、また、特定話者に対しては、登録単語以外の単語の登録も可能となるなど、この種の音声認識対話装置としては、より一層、高性能なものとすることができる。
また、請求項6によれば、特定話者単語登録手段は、特定話者の入力音声を基にDPマッチング方式による単語登録および単語検出データ出力を行うようにしたので、単語検出を簡単に行うことができ、また、登録単語以外の単語の登録とその認識が容易に行うことができる。これによって、色々な応答メッセージを予め用意しておけば、新たに登録した単語に対して応答メッセージを設定することも可能となり、より多彩な会話も可能とすることができる。
また請求項7によれば、特定話者単語登録手段は、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成することで特定話者の音声を登録するようにしたので、単語データ検出部として新たなものを設ける必要が無く、構成の簡素化が図れる。また、単語データ検出方式が同じであることから検出データの数値の基準などが同じであるため、データ処理部を共用することも可能であり、さらに、特定話者登録された標準パターンを予め登録されている認識率の悪い標準パターンと入れ替えることも可能となるなどの効果を得ることができる。
また請求項8によれば、予め装置側に登録されている応答メッセージの他に、自分の声や身近な人の声などで応答内容を作成して登録することができるようにしたので、より一層、多彩な会話を可能とすることができ、適用範囲もより広い音声認識対話装置とすることができる。
本発明の第1の実施例の構成を説明するブロック図。 不特定話者単語データ出力手段から出力されるワードラティスの一例を示す図。 設定スイッチの構成例を示す図。 同実施例における或る登録単語が入力された場合の不特定話者単語データ出力例を示す図。 応答データ記憶部5に記憶される応答内容とそれに対応した応答内容番号の一例を示す図。 本発明の第2の実施例の構成を説明するブロック図。 同実施例における或る登録単語が入力された場合の特定話者単語登録手段からの単語データ出力例および不特定話者単語データ出力例を示す図。 本発明の第3の実施例の構成を説明するブロック図。 同実施例において使用される設定スイッチの構成例を示す図。 同実施例における応答データ記憶部41に記憶される応答内容とそれに対応した応答内容番号の一例を示す図。
符号の説明
1・・・音声入力部
2・・・音声分析部
3・・・不特定話者単語データ出力手段
4・・・音声認識会話制御部
5・・・応答データ記憶部
6・・・音声合成部
7・・・音声出力部
8・・・特定話者単語登録手段
9・・・設定スイッチ
31・・・標準パターン記憶部
32・・・単語検出部
40・・・応答データ登録部
41・・・応答データ記憶部
81・・・単語登録部
82・・・標準パターン記憶部
83・・・単語検出部
91・・・番号キー部
92・・・登録開始ボタン
93・・・登録終了ボタン
94・・・応答メッセージ選択ボタン
95・・・応答メッセージ登録終了ボタン
96・・・応答内容番号入力ボタン
97・・・応答メッセージ作成ボタン
98・・・応答選択ボタン

Claims (8)

  1. 音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析工程と、
    この音声分析工程からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力工程と、
    特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録工程と、
    前記不特定話者単語データ出力工程から出力された入力音声に対する単語検出データおよび前記特定話者単語登録工程から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、特定話者の単語登録を行う際に外部からの設定データを受けて各種制御を行う音声認識会話制御工程と、
    前記音声認識会話制御工程により決定された応答内容に基づいた音声合成出力を発生する音声合成工程と、
    この音声合成工程からの音声合成出力を外部に出力する音声出力工程と、
    を有することを特徴とする音声認識対話処理方法。
  2. 前記特定話者単語登録工程は、特定話者の入力音声を基にDPマッチングによる単語検出データを出力するものであって、音声分析工程からの特定話者の所定の音声入力に対する特徴データを入力して標準パターンを作成する単語登録工程、この単語登録工程により作成された標準パターンを記憶する標準パターン記憶工程、前記音声分析工程からの特定話者の所定の音声入力に対する特徴データを入力し、前記標準パターンとの比較により単語検出データを出力する単語検出工程を有したことを特徴とする請求項1記載の音声認識対話処理方法。
  3. 前記特定話者単語登録工程は、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成する単語登録工程、この単語登録工程により作成された話者適応された標準パターンを記憶する話者適応標準パターン記憶工程を少なくとも有し、前記音声分析工程からの特定話者の所定の音声入力に対する特徴データを入力し、前記話者適応標準パターンとの比較により単語検出データを出力することを特徴とする請求項1記載の音声認識対話処理方法。
  4. 音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析工程と、
    この音声分析工程からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力工程と、
    特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録工程と、
    前記不特定話者単語データ出力工程から出力された入力音声に対する単語検出データおよび前記特定話者単語登録工程から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、特定話者の単語登録を行う際に外部からの設定データを受けて各種制御を行う音声認識会話制御工程と、
    前記外部からの設定データとして応答データ作成に関する設定入力があった場合、前記音声認識会話制御工程からの指示を受けて、入力された音声信号に基づいた応答データを作成する応答データ登録工程と、
    予め装置に登録されている応答データまたは前記応答データ登録工程により作成された応答データのうち、前記音声認識会話制御工程により決定された応答データに基づいた音声合成出力を発生する音声合成工程と、
    この音声合成工程からの音声合成出力を外部に出力する音声出力工程と、
    を有することを特徴とする音声認識対話処理方法。
  5. 音声を入力する音声入力手段と、
    前記音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析手段と、
    この音声分析手段からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力手段と、
    特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段と、
    特定話者の単語登録を行う際にデータ入力設定を行うデータ入力設定手段と、
    前記不特定話者単語データ出力手段から出力された入力音声に対する単語検出データおよび前記特定話者単語登録手段から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、前記データ入力設定手段からの設定データを受けて各種制御を行う音声認識会話制御手段と、
    予め登録された応答内容を記憶する応答データ記憶手段と、
    この応答データ記憶手段に記憶された応答内容のうち、前記音声認識会話制御手段により決定された応答内容に基づいた音声合成出力を発生する音声合成手段と、
    この音声合成手段からの音声合成出力を外部に出力する音声出力手段と、
    を有することを特徴とする音声認識対話装置。
  6. 前記特定話者単語登録手段は、特定話者の入力音声を基にDPマッチングによる単語検出データを出力するものであって、音声分析部からの特定話者の所定の音声入力に対する特徴データを入力して標準パターンを作成する単語登録手段、この単語登録手段により作成された標準パターンを記憶する標準パターン記憶手段、前記音声分析手段からの特定話者の所定の音声入力に対する特徴データを入力し、前記標準パターンとの比較により単語検出データを出力する単語検出手段を有したことを特徴とする請求項5記載の音声認識対話装置。
  7. 前記特定話者単語登録手段は、特定話者の入力音声から前記不特定話者の標準音声特徴データを基に話者適応した標準音声パターンを作成する単語登録手段、この単語登録手段により作成された話者適応された標準パターンを記憶する話者適応標準パターン記憶手段を少なくとも有し、前記音声分析手段からの特定話者の所定の音声入力に対する特徴データを入力し、前記話者適応標準パターンとの比較により単語検出データを出力することを特徴とする請求項5記載の音声認識対話装置。
  8. 音声を入力する音声入力手段と、
    前記音声入力手段により入力された音声を分析して音声特徴データを発生する音声分析手段と、
    この音声分析手段からの音声特徴データを入力し、予め登録された認識可能な単語に対する不特定話者の標準音声特徴データを基に、入力音声に含まれる登録単語に対応した検出データを出力する不特定話者単語データ出力手段と、
    特定話者の入力音声を基に当該特定話者の発する単語の標準音声特徴データを登録するとともに特定話者の入力音声に対する単語検出データを出力する特定話者単語登録手段と、
    特定話者の単語登録を行う際にデータ入力設定を行うデータ入力設定手段と、
    前記不特定話者単語データ出力手段から出力された入力音声に対する単語検出データおよび前記特定話者単語登録手段から得られた入力音声に対する単語検出データを入力して、それぞれの検出データを基に入力音声を認識し、それに対応した応答内容を決定するとともに、前記データ入力設定手段からの設定データを受けて各種制御を行う音声認識会話制御手段と、
    前記データ入力設定手段から応答データ作成に関する設定入力があった場合、前記音声認識会話制御手段からの指示を受けて、入力された音声信号に基づいた応答データを作成する応答データ登録手段と、
    予め装置に登録された応答内容を記憶する応答データ記憶手段と、
    前記応答データ登録手段により作成された応答内容を記憶する応答データ記憶手段と、
    前記予め装置に登録されている応答データまたは前記応答データ登録手段により作成された応答データのうち、前記音声認識会話制御手段により決定された応答データに基づいた音声合成出力を発生する音声合成手段と、
    この音声合成手段からの音声合成出力を外部に出力する音声出力手段と、
    を有することを特徴とする音声認識対話装置。
JP2005002229A 2005-01-07 2005-01-07 音声認識対話処理方法および音声認識対話装置 Withdrawn JP2005148764A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005002229A JP2005148764A (ja) 2005-01-07 2005-01-07 音声認識対話処理方法および音声認識対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005002229A JP2005148764A (ja) 2005-01-07 2005-01-07 音声認識対話処理方法および音声認識対話装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP15652995A Division JP3968133B2 (ja) 1995-06-22 1995-06-22 音声認識対話処理方法および音声認識対話装置

Publications (1)

Publication Number Publication Date
JP2005148764A true JP2005148764A (ja) 2005-06-09

Family

ID=34698165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005002229A Withdrawn JP2005148764A (ja) 2005-01-07 2005-01-07 音声認識対話処理方法および音声認識対話装置

Country Status (1)

Country Link
JP (1) JP2005148764A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Similar Documents

Publication Publication Date Title
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US5946658A (en) Cartridge-based, interactive speech recognition method with a response creation capability
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP4867804B2 (ja) 音声認識装置及び会議システム
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP6654611B2 (ja) 成長型対話装置
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2011504624A (ja) 自動同時通訳システム
JP2018013549A (ja) 発話内容認識装置
JP2002123289A (ja) 音声対話装置
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2008275987A (ja) 音声認識装置および会議システム
JP2000020089A (ja) 音声認識方法及びその装置、並びに音声制御システム
JP4498906B2 (ja) 音声認識装置
JP2007286376A (ja) 音声案内システム
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置
JP3179370B2 (ja) おしゃべりオウム発声装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2000122678A (ja) 音声認識機器制御装置
JP2000242295A (ja) 音声認識装置および音声対話装置
JPH04324499A (ja) 音声認識装置
JP2001134291A (ja) 音声認識のための方法及び装置
JPS6126678B2 (ja)
KR20010026402A (ko) 신경망을 이용한 음성인식장치 및 그 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060711

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060824