JPH10307594A - 認識結果処理方法および認識結果処理装置 - Google Patents

認識結果処理方法および認識結果処理装置

Info

Publication number
JPH10307594A
JPH10307594A JP9277261A JP27726197A JPH10307594A JP H10307594 A JPH10307594 A JP H10307594A JP 9277261 A JP9277261 A JP 9277261A JP 27726197 A JP27726197 A JP 27726197A JP H10307594 A JPH10307594 A JP H10307594A
Authority
JP
Japan
Prior art keywords
voice
language
input
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9277261A
Other languages
English (en)
Inventor
Yasunaga Miyazawa
康永 宮沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP9277261A priority Critical patent/JPH10307594A/ja
Publication of JPH10307594A publication Critical patent/JPH10307594A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ユーザの音声にて登録した認識用単語を認識
時に読み出して、その読み出した音声と装置側で持って
いる音声とを連続させて出力する際、ユーザの音声を装
置側の音声に近づけるように声質変換する。 【解決手段】 ユーザの音声を分析して音声データを出
力する音声入力手段1と、各言語ごとの音声データを登
録音声データとして記憶し、認識時には入力言語の音声
データを前記登録音声データと比較して認識を行う音声
認識手段2と、前記ユーザの音声データと装置が持つ音
声データとから変換関数を求めておき、前記登録音声デ
ータを作成するために入力された音声データを、変換関
数を用いて声質変換し、その声質変換された音声データ
を記憶する声質変換手段3と、認識を行うために入力さ
れた言語の音声データをもとに入力言語が認識されたと
き、前記声質変換手段3から読み出された認識結果対応
の声質変換後の音声データを音声として出力する音声出
力手段4を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、認識用として登録
された音声データを声質変換して記憶し、入力された音
声の認識時に、その認識結果に対応する声質変換された
音声を読み出して出力する認識結果処理方法および認識
結果処理装置に関する。
【0002】
【従来の技術】入力された音声を認識しその認識結果に
基づいて何らかの動作を行わせることが様々な分野で実
用化されつつある。たとえば、ユーザが電話をかけよう
とする相手先の名前を声で入力することにより、自動的
にその相手先の電話番号にダイアルするいわゆる自動ダ
イヤラー技術にも適用できるものと考えられる。
【0003】この自動ダイヤラーシステムは、たとえ
ば、携帯電話を例に取れば、その携帯電話を所有するユ
ーザにとって、電話をかける頻度の高い相手の名前など
相手を特定することのできる単語と、その電話番号を登
録しておき、実際に電話をかけるときは登録した名前を
言うだけで自動的にダイヤルされるものである。
【0004】このとき、登録される言語としては、たと
えば、「田中」、「佐藤」などというような名前そのも
のや、愛称やニックネームなど、相手を特定できる比較
的短い単語が用いられる。
【0005】このような相手を特定できる単語を登録す
る際は、携帯電話を単語登録モードとして、ユーザが、
予め、自分の声で、相手の名前や愛称などの音声データ
をそれぞれの単語毎に登録する。そして、その登録され
た相手に電話をかける場合は、たとえば、ユーザが予め
登録された「田中」という人物に電話をかけようとした
場合、携帯電話(装置という)に向かって「田中」とい
うと、装置側では、ユーザの入力音声を認識処理して、
「田中さんに電話します」などと応答する。
【0006】ここで、装置側からの「田中さんに電話し
ます」という内容のうち、「田中」の部分は、ユーザが
登録するときに入力した音声をそのまま読み出して、装
置側で用意された「・・さんに電話します」の「・・」
の部分に挿入して「田中さんに電話します」という内容
の応答を行うことは既に行われている。
【0007】このように、音声認識を行う際の学習用と
して入力された音声を記憶し、認識結果に基づいて認識
された音声を読み出して再生する技術の一例としては、
たとえば、特公平5ー59440がある。この技術を用
いれば、前述したように、ユーザが装置に向かって「田
中」というと、装置側では、ユーザの入力音声を認識処
理して、ユーザが登録するときに入力した「田中」とい
う音声をそのまま読み出して、装置側で用意された「・
・さんに電話します」の「・・」の部分に挿入して「田
中さんに電話します」という内容の応答を行うことは可
能である。
【0008】携帯電話などにあっては、装置側からの応
答内容において前述した「・・」の部分は、ユーザが登
録した音声(人名)をそのまま出す用にした方が処理が
簡単となって好ましい。これは、人名は種々雑多であ
り、また、本人同志しか通じない愛称などを用いて登録
している場合も多いからである。
【0009】
【発明が解決しようとする課題】しかしながら、このよ
うに、単に、ユーザが登録するときに入力した音声をそ
のまま読み出して、装置側で用意された音声とを合わせ
た応答内容とすると、ユーザの音声の声質と装置側で用
意した音声の声質が余りにもことなると不自然な応答と
なる問題がある。たとえば、ユーザが男性で、装置側で
用意した音声が女性であるような場合は、前述した例で
言えば、「田中さんに電話します」という装置側からの
応答は、「田中」の部分が男性の声で、その後に続く
「に電話します」という音声が女性の声となるため、不
自然な応答となる。
【0010】さらに、ユーザが登録した音声(人名)を
そのまま読み出して出力する方式では、ユーザの音声が
明瞭性を欠くような声質である場合、たとえば、「加
藤」や「佐藤」といった誤認識し易い名前が登録されて
いると、電話をかけるときに、ユーザが「加藤」と入力
しても、「佐藤」と認識される場合もある。このように
誤認識されると、装置側からは、「佐藤さんに電話しま
す」と応答されるが、「佐藤」の部分はもともとユーザ
の音声そのものであるため、そのユーザの音声が明瞭性
を欠く場合、「佐藤」の部分が「加藤」に聞こえて、ユ
ーザには「加藤さんに電話します」と聞こえる場合もあ
る。
【0011】このような場合、装置側で誤認識されたに
もかかわらず、正しく認識されたと判断して、スタート
ボタンを押してしまうと、そのまま、「佐藤」さんにダ
イヤルされてしまうという問題もあった。
【0012】そこで、本発明は、音声認識を行う際の学
習用として入力された音声を所定の変換関数を用いて装
置側で用意された音声に近い明瞭性に富んだ音声に変換
して記憶させておき、認識時には、声質変換されたユー
ザの音声を読み出すようにすることにより、登録した内
容と装置側で用意された内容とを続けて出力する場合、
声質の違いによる不自然さを解消するとともに、ユーザ
の発話する認識結果が正しいか否かを表す内容を判定し
て正しい場合だけ所望とする動作を行わせることによ
り、装置の誤動作を防止し得る認識結果処理方法および
認識結果処理装置を実現することを目的としている。
【0013】
【課題を解決するための手段】前記した目的を達成する
ために、本発明の認識結果処理方法における請求項1の
発明は、入力話者の発する言語の音声データと装置が持
つ音声データとから変換関数を求め、認識用として登録
される言語の音声特徴データを作成するために入力され
た言語に対する入力話者の音声データを、前記変換関数
を用いて声質変換し、その声質変換された音声データを
変換音声データ記憶部に記憶しておき、認識時には、認
識を行うために入力された言語の音声特徴データと前記
登録された音声特徴データとから入力言語を認識し、そ
の認識結果に対応した声質変換後の音声データを前記変
換音声データ記憶部から読み出して出力するようにした
ことを特徴としている。
【0014】また、請求項2の発明は、請求項1の発明
において、前記変換音声データ記憶部から認識結果に対
応した声質変換後の音声データを読み出して出力する
際、声質変換後の入力話者の発話した言語に対する音声
データと装置側で予め持っている言語に対する音声デー
タとを合成し、両者の言語を連続させて或る発話内容を
構成して出力するようにしている。
【0015】また、請求項3の発明は、請求項2の発明
において、前記声質変換後の入力話者の発話した言語と
装置側で予め持っている言語とを連続させて或る発話内
容を出力する際、認識が正しく行われたか否かを表す入
力話者からの言語を認識して、その認識結果に対応した
発話内容を構成し、認識が正しく行われたことを表す入
力話者からの言語を認識した場合に、所望とする動作を
行うことを意味する発話内容を出力するようにしてい
る。
【0016】また、請求項4の発明は、請求項2の発明
において、前記声質変換後の入力話者の発話した言語と
装置側で予め持っている言語とを連続させて或る発話内
容を出力する際、入力話者の発話した言語に対する認識
結果をスコア順に抽出し、そのスコア順に抽出された認
識結果と装置がわで持っている言語とを連続させて出力
し、その出力結果に対して認識が正しく行われたか否か
を表す入力話者からの言語を認識して、予め定めた順位
までの認識候補の認識が正しく行われなかったことを表
す入力話者からの言語を認識した場合に、再度入力を促
す発話内容を出力するようにしている。
【0017】また、請求項5の発明は、請求項2または
3の発明において、前記認識が正しく行われたか否かを
表す入力話者からの言語を認識する際、認識が正しく行
われなかったことを表す入力話者からの音声をもとに、
誤認識される率の高い認識用言語を判定し、その言語に
ついては再度登録するような指示を出力するようにして
いる。
【0018】また、請求項6の発明は請求項1から5の
発明において、前記入力された或る言語に対する音声デ
ータを、変換関数を用いて声質変換する処理は、装置側
の持つ音声データから標準話者コードブックを作成し、
この標準話者コードブックを用いて入力話者の発話する
幾つかの言語に対する音声データから入力話者コードブ
ックを作成し、登録すべき言語の音声特徴データを作成
するために入力された入力話者の複数の言語に対するそ
れぞれの音声データを、前記入力話者コードブックを用
いてそれぞれの言語ごとにコード化し、それぞれの言語
ごとの変換データを得て、これら各変換データを変換音
声データ記憶部に記憶させておき、認識時には、認識を
行うために入力された入力話者の音声データをもとに入
力言語を認識し、前記変換音声データ記憶部から認識結
果に対応したデータを読み出してそのデータを前記標準
話者コードブックにより標準話者音声データ空間のデー
タに変換して出力するようにしている。
【0019】また、本発明の認識結果処理装置における
請求項7の発明は、入力話者により発話された言語の音
声を分析して音声データを出力する音声入力手段と、こ
の音声入力手段で得られた各言語ごとの音声データを登
録音声特徴データとして記憶し、認識時には入力言語に
対する音声データを前記登録音声特徴データと比較して
音声認識を行う音声認識手段と、前記入力話者の発する
言語の音声データと装置が持つ音声データとから変換関
数を求めるとともに、前記登録音声特徴データを作成す
るために入力された言語に対する音声データを、前記変
換関数を用いて声質変換し、その声質変換された音声デ
ータを言語ごとに記憶する声質変換手段と、認識を行う
ために入力された言語の音声データをもとに入力言語が
認識されたとき、前記声質変換手段から読み出された認
識結果対応の声質変換後の音声データを音声として出力
する音声出力手段とを少なくとも有することを特徴とし
ている。
【0020】また、請求項8の発明は、請求項7におい
て、前記音声出力手段は、装置側で予め持っている出力
用言語に対する音声データを記憶する出力用音声データ
記憶部と、この出力用音声データ記憶部に記憶された音
声データと前記声質変換後のユーザの音声データとを合
成し、声質変換後のユーザの発話した言語と装置側で予
め持っている言語とを連続させて或る発話内容を構成し
て出力する音声合成部とを有している。
【0021】また、請求項9の発明は、請求項8の発明
において、前記声質変換後の入力話者の発話した言語と
装置側で予め持っている言語とを連続させて或る発話内
容を出力する際、認識が正しく行われたか否かを表す入
力話者からの言語を認識して、その認識結果に対応した
発話内容を構成し、認識が正しく行われたことを表す入
力話者からの言語を認識した場合に、所望とする動作を
行うことを意味する発話内容を出力するようにしてい
る。
【0022】また、請求項10の発明は、請求項8の発
明において、前記声質変換後の入力話者の発話した言語
と装置側で予め持っている言語とを連続させて或る発話
内容を出力する際、入力話者の発話した言語に対する認
識結果をスコア順に抽出し、そのスコア順に抽出された
認識結果と装置がわで持っている言語とを連続させて出
力し、その出力結果に対して認識が正しく行われたか否
かを表す入力話者からの言語を認識して、予め定めた順
位までの認識候補の認識が正しく行われなかったことを
表す入力話者からの言語を認識した場合に、再度入力を
促す発話内容を出力するようにしている。
【0023】また、請求項11の発明は、請求項9また
は10の発明において、前記認識が正しく行われたか否
かを表す入力話者からの言語を認識する際、認識が正し
く行われなかったことを表す入力話者からの音声をもと
に、誤認識される率の高い認識用言語を判定し、その言
語については再度登録するような指示を出力するように
している。
【0024】また、請求項12の発明は請求項7から1
1のいずれかの発明において、前記声質変換手段は、変
換音声データ記憶部と、装置側の持つ音声データにより
作成された標準話者コードブックと、この標準話者コー
ドブックを用い、入力話者の発話する幾つかの言語の音
声データから作成した入力話者コードブックと、登録言
語の音声特徴データを作成するために入力された入力話
者の或る言語に対する音声データを、前記入力話者コー
ドブックを用いてそれぞれコード化し、それぞれの言語
ごとの変換データを得て、それぞれの言語ごとの変換デ
ータを前記変換音声データ記憶部に記憶させる声質変換
処理部とを有し、認識を行うために入力された或る言語
に対する音声データを声質変換する処理は、入力された
入力話者の音声データをもとに入力言語を認識し、その
認識結果に対応した変換データを前記変換音声データ記
憶部から読み出してその変換データを前記標準話者コー
ドブックにより標準話者音声データ空間のデータに変換
して出力するようにしている。
【0025】このように本発明は、入力話者の発する言
語の音声データと装置が持つ音声データとから変換関数
を求め、登録言語の音声特徴データを作成するために入
力された言語に対する入力話者の音声データを、その変
換関数を用いて声質変その声質変換された音声データを
記憶しておき、認識時には、認識結果に対応した声質変
換後の音声データを読み出して出力するようにしてい
る。これにより、入力話者の明瞭性に欠ける音声でも装
置側で持っている声質の音声となるので、明瞭で聞き易
い音声とすることができる。
【0026】また、装置側で入力話者が登録するときに
入力した音声を読み出して、装置側で用意された音声と
を連続させた応答内容とした場合、本発明は、ユーザの
音声を装置が持っている音声の声質に近い声質とするこ
とができ、全体的に同じような声質の音声とすることが
できる。しかも装置側で用意した声質に近いものとする
ことにより、明瞭性が高いものとなり、その応答内容を
入力話者が聞いて装置を作動させるような場合、誤動作
を未然に防止できる。
【0027】また、装置側の持つ音声データにより作成
された標準話者コードブックを用い、入力話者の発話す
る幾つかの言語に対する音声データから入力話者コード
ブックを作成して、登録すべき言語の音声特徴データを
作成するために入力された入力話者の複数の言語に対す
るそれぞれの音声データを、前記入力話者コードブック
を用いてそれぞれの言語ごとにコード化し、それぞれの
言語ごとの変換データを得るようにしている。これによ
り、入力話者の音声を装置側の音声に変換するための変
換関数を得る処理をわずかな単語を入力するだけで行う
ことができ、しかも高精度な変換が可能となる。
【0028】さらに、認識結果が正しいか否かを装置側
からユーザに対して問い合わせ、ユーザからの正しいと
いう応答を判断したときのみ、所望の動作を行うように
することにより、誤動作を未然に防止することができ
る。また、認識結果のスコア順に認識候補を並べ、第1
位から順に出力し、ユーザからの肯定/否定の内容を判
断し、予め設定した順位の認識候補でもなお不正解であ
るような場合には、一旦、認識処理を中断し、ユーザに
対して入力し直すように指示することにより、誤動作の
防止をより一層確実に行うことができ、誤認識しやすい
単語を抽出することもできる。これにより、一定期間使
用した結果、誤認識しやすい単語については、再度、登
録し直すことをユーザに指示することも可能となり、こ
の指示に基づいて認識率の悪い単語をユーザが再登録を
行うことにより認識率を向上させることができる。
【0029】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。この実施の形態では、本発明
を携帯電話に適用した例について説明する。
【0030】(第1の実施の形態)図1は本発明の第1
の実施の形態を説明する構成図である。本発明の認識結
果処理装置は、概略的には、入力話者により発話された
言語(以下、この実施の形態では、入力話者から発せら
れる言語は単語であるとして説明する)の音声を分析し
て音声データを出力する音声入力手段1と、この音声入
力手段1で得られた各単語ごとの音声データを登録音声
特徴データとして記憶し、認識時には入力単語に対する
音声データを前記登録音声特徴データと比較して音声認
識を行う音声認識手段2と、前記入力話者の発する単語
の音声データと装置が持つ音声データとから変換関数を
求めるとともに、前記登録音声特徴データを作成するた
めに入力された単語に対する音声データを、前記変換関
数を用いて声質変換し、その声質変換された音声データ
を単語ごとに記憶する声質変換手段3と、認識を行うた
めに入力された単語の音声データをもとに入力言語が認
識されたとき、前記声質変換手段から読み出された認識
結果対応の声質変換後の音声データを音声として出力す
る音声出力手段4とから構成されている。
【0031】その他に、入力話者(ユーザという)が操
作する各種のボタンスイッチ類などからなるユーザ操作
部5、全体を制御する制御部6を有したものとなってい
る。なお、この制御部6は、音声入力手段1、音声認識
手段2、声質変換手段3、音声出力手段4それぞれに持
たせることも可能である。以下、これら各構成要素につ
いて順次説明する。
【0032】音声入力手段1は、マイクロホン11、A
/D変換部12、音声分析部13などから構成され、入
力された音声をA/D変換したのち、音声分析(たとえ
ばLPC分析)してその音声データを出力するものであ
る。
【0033】音声認識手段2は、認識処理部21、登録
単語データ記憶部22、認識された単語データを記憶す
る認識単語データ記憶部23などから構成されている。
なお、ここでは電話(携帯電話)を例にしているので、
登録単語は、前述したように、電話をかける頻度の高い
相手側の名前や略称あるいは愛称などである。
【0034】このような登録単語を登録する際は、装置
を登録モ−ドとしたのち、入力話者(ユ−ザという)が
自分の声で、たとえば、「田中」、「佐藤」、「加藤」
などの名前を発話することによって行う。すなわち、ユ
ーザが「田中」と発話すると、その音声はA/D変換部
12でディジタル変換されたのち、音声分析部13で音
声分析されて、その特徴データ(たとえばLPCケプス
トラム係数)が登録単語データ記憶部22に記憶され
る。
【0035】声質変換手段3は、ユーザの発する音声
(「田中」、「佐藤」、「加藤」などの名前の音声)の
声質を装置側が持っている音声の声質に近づける処理を
行うもので、声質変換処理部31、変換関数記憶部3
2、変換関数を求めるための標準音声(装置側の音声)
データを記憶する変換関数作成用音声データ記憶部3
3、変換音声データ記憶部34などから構成されてい
る。
【0036】この声質変換手段3は、ユーザの発話する
音声の声質を装置側が持っている音声の声質に近づける
処理を行うものである。すなわち、前述したように、ユ
ーザが「田中」さんに電話をかけようとした場合、ユー
ザが「田中」と発話したとき、装置(携帯電話)から
「田中(ユーザの音声)さんに電話します(装置側の音
声)」というように、登録されたユーザの音声を利用し
て応答を行う場合、「田中」というユーザの音声を「さ
んに電話します」という装置側の音声に近づけるため
に、ユーザの発する音声の声質変換を行うものである。
この声質変換処理については後に詳細に説明する。
【0037】音声出力手段4は、出力用音声データ記憶
部41、音声合成部42、スピーカ43などから構成さ
れている。出力用音声データ記憶部41は、装置側で予
め持っている出力用言語(たとえば、「誰に電話します
か」、「さんですか」、「さんに電話します」などの発
話内容)に対するそれぞれの音声データを記憶するもの
である。なお、音声合成部42の動作については後に説
明する。
【0038】また、ユーザ操作部5は、各種の機能を行
うためにユーザが操作する各種ボタンからの信号や、ア
ンテナの上げ下げを示す信号などを制御部6に送るもの
である。各種ボタンとして、この発明に関係あるものと
しては、たとえば、変換関数を作成するときに操作され
る変換関数作成モードボタン、認識すべき単語を登録す
るときに操作される登録モードボタン、認識を行うため
に音声を入力するときに操作される音声入力モードボタ
ン、認識結果が正しい場合に電話番号信号を発信可能と
するスタートボタンなどがある。
【0039】以上のように構成された認識結果処理装置
において、その処理動作について説明する。まず、声質
変換手段3が行う声質変換処理について説明する。
【0040】声質変換処理は、ユーザの発する音声の音
声データと装置側で持っている音声の音声データとを基
にして変換関数を作成してその変換関数を用いることに
より行う。この変換関数を作成する処理について簡単に
説明する。
【0041】まず、装置のモードを変換関数作成モード
とすると、装置側から、ユーザに対して変換係数を求め
るのに適した複数の単語を発話してもらうような指示が
なされる。
【0042】すなわち、装置側から、たとえば、「おは
ようと話して下さい」と指示がなされ、それに対してユ
ーザが「おはよう」と発話することにより、ユーザの発
する「おはよう」の音声データと装置側が持っている
「おはよう」の音声データとの差分データを求める。す
なわち、声質変換処理部31によって、ユーザの発話し
た「おはよう」の音声データと、変換関数作成用音声デ
ータ記憶部33に格納されている「おはよう」の音声デ
ータとから両者の差分データを求める。同様にして、
「おはよう」以外の幾つかの単語について、差分データ
を求める。
【0043】このようにして求められたそれぞれの差分
データを基に、装置側の持っている音声の特徴データと
ユーザの発する音声の特徴データの変換関数を求め、求
められた変換関数を変換関数記憶部32に記憶してお
く。
【0044】このようにして、ユーザの音声と装置側で
持っている音声との変換関数を予め求めておいてそれを
装置側で記憶しておく。
【0045】このように変換関数が求められると、次
に、装置を認識単語登録モードとし、登録すべき相手先
の名前を発話する。たとえば、登録すべき名前を「田
中」、「佐藤」、「加藤」などとすれば、「田中」と発
話したときに音声分析部13から得られる音声データ
を、声質変換処理部31が受けて、変換関数記憶部32
に記憶されている変換関数を用いて変換する。つまり、
ユーザの発話する「田中」という音声データは、予め求
められている変換関数を用いて変換されることになる。
このようにして変換された「田中」という音声データは
変換音声データ記憶部34に記憶される。同様にして、
他の登録すべき相手先の名前すべてについて、ユーザが
それぞれの名前を発話するごとに、変換関数を用いて変
換を行いそれそれ変換音声データ記憶部34に記憶され
る。
【0046】一方、この認識単語登録モードにおいて
は、ユーザの発話した登録すべき名前「田中」、「佐
藤」、「加藤」などのそれぞれの音声データは、登録単
語データ記憶部22に記憶される。このように、認識単
語登録モードにおいては、登録すべき幾つかの名前のそ
れぞれの音声データが登録単語データ記憶部22に記憶
されるとともに、前述した変換関数により変換されたそ
れぞれの名前ごとの音声データが変換音声データ記憶部
34に記憶される。
【0047】このような各種設定がなされた状態で、ユ
ーザが「田中」という人物に電話をかけようとする場合
について説明する。
【0048】一般に携帯電話の場合は、電話をかける
際、アンテナを引き伸ばした状態とするのが一般的であ
る。制御部6は、このアンテナが引き伸ばされたことを
検知して、かつ、音声入力ボタンが押されたことを検知
する。
【0049】これにより、制御部6は出力用音声データ
記憶部41から「誰に電話しますか」などという音声を
読み出して、スピーカ43から出力する。これに対し
て、ユーザが「田中」と発話すると、その音声は、A/
D変換されたのち、音声分析部13で音声分析される。
【0050】認識処理部21では、音声分析部13での
分析された音声データと登録単語データ記憶部22に記
憶されている複数の登録単語データとのマッチングをと
り、この場合、入力音声が「田中」であるとの認識を行
う。
【0051】このようにして、ユーザの入力音声の認識
が行われると、その認識結果に基づいて、「田中」に対
応する変換後の音声データを変換音声データ記憶部34
から読み出すとともに、出力用音声データ記憶部41か
ら「さんに電話します」という音声データを読み出し
て、音声合成部42で両者を合成して、「田中さんに電
話します」という応答データを作成し、音声信号として
スピーカ43を介して出力する。
【0052】このとき、「田中さんに電話します」とい
う応答内容のうち、「さんに電話します」の部分は、装
置がもともと持っている明瞭な音声(たとえば女性の音
声)であり、「田中」の部分は、認識単語の登録時にユ
ーザの入力した「田中」の音声を変換関数により変換し
て得られた音声である。したがって、「田中」の部分も
装置がもともと持っている明瞭な音声に近い音声とな
り、「田中さんに電話します」は、全体的に同じ声質の
音声となり、明瞭で聞き取りやすい音声となる。ユーザ
は、装置側からの「田中さんに電話します」の応答を聞
いてそれが正しければ、スタートボタンを押す。これに
より、すでに登録されている田中さんの電話番号が自動
的に発信される。
【0053】図2は変換関数を用いて認識すべき登録単
語を声質変換する処理を具体的に説明するものであり、
この図2を用いて具体的に説明する。(a)は認識単語
登録時にユーザの発話した「田中」という音声波形であ
るとすると、この音声波形の1フレーム(たとえば20
msec程度)について音声分析部3で周波数分析され(ス
テップs1)、スペクトル包絡パラメータとしてたとえ
ばLPC係数とパルス信号(残差成分から得られたパル
ス信号)を得る(ステップs2)。そして、LPC係数
を前記した変換関数を用いて変換し(ステップs3)、
変換後のLPC係数を得る(ステップs4)。この処理
を(a)の音声波形の各フレームごとに(1フレームは
前記したように20msec、シフト量は10msec程度)に
処理を行い、変換後のLPC係数とパルス信号(パルス
信号はそのまま)を変換音声データ記憶部34に記憶さ
せておく(ステップs5)。
【0054】そして、認識時には、認識結果(名前)に
対応するLPC係数とパルス信号が変換音声データ記憶
部34から読み出され(ステップs6)、音声合成部4
2でLPC係数とパルス信号が合成され(ステップs
7)、音声信号が得られる。これにより得られた音声波
形の例が(i)である。
【0055】なお、出力用音声データ記憶部41には装
置側に予め用意された出力用音声のLPC係数とパルス
信号が記憶されており、認識された名前と出力用音声と
を連続させて出力する場合は、両者を音声合成部42で
合成して前述したように、たとえば、「田中さんに電話
します」というような音声として出力される。
【0056】この「田中さんに電話します」という応答
内容のうち「田中」の部分は、前述したように、装置側
で持っている音声とほぼ同じ声質の音声となり、全体と
して同じ声質の音声となるため、明瞭で聞き取りやすい
音声となる。そして、この応答内容はスピーカ43から
出力され、ユーザがそれを聞いて正しければ、スタート
ボタンを押す。
【0057】以上のような処理を行うことにより、装置
側から「田中さんに電話します」というような応答を行
う場合、「田中」の部分はもともとユーザの音声を使用
しているが、ユーザの音声は声質変換されて装置側の持
っている音声の声質に近い音声となっているので、「田
中さんに電話します」という応答内容全体を同じような
声質の音声とすることができ、その応答内容を聞く側に
違和感を与えることがない。
【0058】また、「田中」の部分は明瞭な音声となる
ので、聞き間違えが少なくなり、誤ダイヤルを防止でき
る。すなわち、従来のように、ユーザが登録した音声を
そのまま読み出して出力する方式では、ユーザの音声が
明瞭性を欠くような声質である場合、たとえば、「加
藤」と「佐藤」といった誤認識し易い名前が登録されて
いると、電話をかけるときに、ユーザが「加藤」と入力
しても、「佐藤」と認識される場合もある。このとき、
装置側からは、「佐藤さんに電話します」と応答される
が、「佐藤」の部分はもともとユーザの音声そのもので
あるため、そのユーザの音声が明瞭性を欠く場合、「佐
藤」の部分が「加藤」に聞こえて、ユーザには「加藤さ
んに電話します」と聞こえる場合もある。
【0059】このような場合、装置側で誤認識されたに
もかかわらず、正しく認識されたと判断して、スタート
ボタンを押してしまうと、そのまま、「佐藤」さんにダ
イヤルされることになるが、この実施の形態で説明した
ように、明瞭な音声で応答されるので、「加藤」と「佐
藤」などの間違いやすい名前でも明確に区別することが
できる。
【0060】図3は以上説明した第1の実施の形態をさ
らに具体的に説明するための構成図であり、以下、この
図3を参照しながら説明する。この図3は変換関数につ
いてを具体化した例を示す構成図であり、図1と同一部
分には同一符号が付されている。
【0061】この例では、声質変換手段3の変換関数作
成用音声データ記憶部33が持つデータとして、標準話
者(装置側の音声)がたとえば200単語を数回発話し
て得られた音声をコード化した標準話者コードブック3
31と、変換関数を作成するための複数の単語(おはよ
う、こんにちわなど)のコード列データ332を持ち、
変換関数記憶部32には、前記標準話者コードブック3
31をもとに作成した入力話者コードブック321を持
つ。以下、この入力話者コードブック321を作成する
処理について説明する。
【0062】図4は標準話者コードブック331を表
し、ここでは、そのサイズを256とし、256個の標
準話者コードベクトルで構成されている。そして、これ
らの標準話者のコードベクトルをCk1,Ck2,Ck
3,・・・,Ck256で表し、実際には、256個の
コードベクトルで構成されるが、図4ではこのコードベ
クトルはCk1,Ck2,・・・,Ck9のみが図示さ
れている。この標準話者コードベクトルは、たとえば、
200単語程度の単語数をそれぞれの単語ごとに標準話
者に数回発話してもらったとき得られる特徴ベクトルを
ベクトル量子化して256個の代表のコードベクトルに
まとめたものである。このような標準話者コードブック
を用いて入力話者コードブックを作成する。
【0063】このような標準話者コードブック331に
対して、たとえば、標準話者の発話データを分析して求
められた「おはよう」に対する10次元のLPC係数か
らなる特徴ベクトル列(ここでは、図中、黒丸で示し、
特徴ベクトルCs1,Cs2,・・・,Cs7で構成さ
れているものとする)をベクトル量子化する。
【0064】つまり、「おはよう」の標準話者データの
特徴ベクトル列の各特徴ベクトルCs1,Cs2,・・
・,Cs7とCk1,Ck2,・・・,Ck256のコ
ードベクトルとの距離計算を行い、各特徴ベクトルを最
短距離のコードベクトルに対応づけると、標準話者特徴
ベクトル列の1番目と2番目の特徴ベクトルCs1,C
s2はコードベクトルCk1と対応づけられ、3番目の
特徴ベクトルCs3はコードベクトルCk3と対応づけ
られ、4番目の特徴ベクトルCs4はコードベクトルC
k4と対応づけられ、5番目、6番目、7番目の特徴ベ
クトルCs5,Cs6,Cs7はそれぞれコードベクト
ルCk5と対応づけられる。
【0065】これにより、「おはよう」の特徴ベクトル
列は、Ck1, Ck1,Ck3,Ck4,Ck5,C
k5,Ck5のコードベクトル列に置き換えられること
になる。
【0066】この変換関数作成用の単語の1つである
「おはよう」を量子化して得られた特徴ベクトル列(標
準話者コードベクトル列という)は、変換関数作成用単
語コードデータ列332として変換関数作成用データ記
憶部33に記憶される。
【0067】この処理を他の変換関数作成用単語につい
ても行い、それぞれの変換関数作成用単語に対する標準
話者コードベクトル列が、変換関数作成用単語コードデ
ータ列332として変換関数作成用データ記憶部33に
記憶される。
【0068】そして、変換関数を求めるために、装置側
から、「おはようと話して下さい」というようにユーザ
に対して指示が出され、ユーザが「おはよう」と発話す
ると、ユーザが「おはよう」と発話して得られたLPC
係数による特徴ベクトル列(特徴ベクトルCi1,Ci
2,・・・,Ci7で構成されているものとする)を、
前記量子化された「おはよう」の標準話者コードベクト
ル列に対してDPマッチングにより対応付けを行う。
【0069】これを図5に示す。なお、図5において
は、説明を分かり易くするため、標準話者コードブック
331の内容は、「おはよう」の標準話者コードベクト
ルCk1,Ck3,Ck4,Ck5のみを示し、他のコ
ードベクトルは図示を省略している。
【0070】ここで、ユーザからの「おはよう」が入力
されると、その「おはよう」の特徴ベクトル列の各特徴
ベクトルCi1,Ci2,・・・,Ci7(ここでは、
図中、黒丸で示し、それを入力話者特徴ベクトルとい
う)と、前記標準話者コードベクトルCk1, Ck
1,Ck3,Ck4,Ck5,Ck5,Ck5とをDP
マッチングにより対応づける。
【0071】このとき、前記入力話者特徴ベクトルCi
1,Ci2,Ci3,Ci4,Ci5,Ci6が図5に
示すような位置であるとすれば、前記標準話者コードベ
クトル列の各コードベクトルCk1, Ck1,Ck
3,Ck4,Ck5,Ck5,Ck5とのDPマッチン
グをとると、この場合、入力話者特徴ベクトルCi1,
Ci2はそれぞれ標準話者コードベクトルCk1に対応
づけられ、入力話者特徴ベクトルCi3は標準話者コー
ドベクトルCk3に対応づけられ、入力話者特徴ベクト
ルCi4,Ci5はそれぞれ標準話者コードベクトルC
k4に対応づけられ、入力話者特徴ベクトルCi6は標
準話者コードベクトルCk5に対応づけられる。
【0072】このようにして、入力話者特徴ベクトル列
の各特徴ベクトルと、前記標準話者コードベクトル列の
各コードベクトルとの対応付けがなされると、次に、対
応づけられたベクトル間の差分ベクトル(入力話者特徴
ベクトル−標準話者コードベクトル)を求める。この場
合、入力話者特徴ベクトルCi1,Ci2はそれぞれ標
準話者コードベクトルCk1に対応づけられているの
で、差分ベクトルV1は、入力話者特徴ベクトルCi
1,Ci2の平均を取って、 V1=(Ci1+Ci2)/2−Ck1 で求められ、同様に、入力話者特徴ベクトルCi3は標
準話者コードベクトルCk3に対応づけられられている
ので、差分ベクトルV3は、 V3=Ci3−Ck3 で求められ、同様に、入力話者特徴ベクトルCi4,C
i5はそれぞれ標準話者コードベクトルCk4に対応づ
けられているので、差分ベクトルV4は、入力話者特徴
ベクトルCi4,Ci5の平均を取って、 V4=(Ci4+Ci5)/2−Ck4 で求められ、同様に、入力話者特徴ベクトルCi6は標
準話者コードベクトルCk5に対応づけられているの
で、差分ベクトルV5は、 V5=Ci6−Ck5 で求められる。すなわち、標準話者コードベクトル列の
各標準話者コードベクトルCk1,Ck3,Ck4,C
k5は、入力話者特徴ベクトル列に対し、前記のように
求められたV1,V3,V4,V5の差分ベクトルを有
しているということである。
【0073】このようにして、差分ベクトルV1,V
3,V4,V5が求められると、次に、この差分ベクト
ルを用いて、入力話者の「おはよう」に対するコードベ
クトルを求め、それを入力話者コードブック321にマ
ッピングする。
【0074】ここで、求めるコードベクトルをCtxで
表す(このxはサンプリング時刻を表し、ここでは1,
3,4,5の数値を取る)と、 Ct1=Ck1+V1 Ct3=Ck3+V3 Ct4=Ck4+V4 Ct5=Ck5+V5 となる。
【0075】これらCt1,Ct3,Ct4,Ct5
は、標準話者コードブック331における「おはよう」
の標準話者コードベクトルCk1,Ck3,Ck4,C
k5と入力話者の特徴ベクトル列とを対応付けし、その
差分ベクトルV1,V3,V4,V5を、標準話者コー
ドブック331の標準話者コードベクトルCk1,Ck
3,Ck4,Ck5にプラスして得られたコードベクト
ルであり、図6に示すように、標準話者コードブック3
31のコードベクトルが差分ベクトルにより、入力話者
コードブック321のコードベクトルに変換される。
【0076】ただし、この場合、「おはよう」という1
つの話者適応用の単語のみについて考えているので、4
つのコードベクトルCk1,Ck3,Ck4,Ck5の
みが変換されたコードベクトルとして求められたことに
なるが、その他の話者適応用の単語について同様の処理
を行うことにより、それに対する入力話者コードベクト
ルが作成される。
【0077】このようにして、標準話者コードブック3
31のコードベクトルが入力話者空間に変換されて入力
話者コードブック321が作成されるが、標準話者コー
ドブック331内に、たとえば、256個のコードベク
トルがあるとすると、全てが変換されるものではなく、
変換されないコードベクトル(未学習コードベクトルと
いう)も多く存在する。この未学習コードベクトルを変
換するための処理(これを補間処理という)について以
下に説明する。
【0078】ここでは、説明を簡略化するため、多数存
在する未学習コードベクトルのうち、Ck2を入力話者
コードブック321へ変換するための補間処理について
図7を参照しながら説明する。
【0079】図7において、未学習コードベクトルCk
2の周辺に存在する学習済みのコードベクトルのうち、
3つのコードベクトルを選ぶ。未学習コードベクトルC
k2の周辺には、学習済みのコードベクトルとして幾つ
かのコードベクトルが存在するが、このうち、コードベ
クトルCk1,Ck4,Ck5の3個がCk2に近い距
離に存在する学習済みのコードベクトルであるとする
と、これら近い距離の3つの学習済みコードベクトルを
選択し、これらのコードベクトルCk1,Ck4,Ck
5に対応する前記差分ベクトルV1,V4,V5を用い
て、未学習コードベクトルCk2に対する差分ベクトル
V2を決定する。このV2は、 V2=μ21・V1+μ24・V4+μ25・V5 で求められる。この式において、μ21、μ24、μ2
5は重みを表す係数であり、μ21はCk2とCk1の
距離に応じた重み、μ24はCk2とCk4の距離に応
じた重み、μ25はCk2とCk5の距離に応じた重み
であることを示し、それぞれの距離に応じて重みの大き
さが設定され、μ21+μ24+μ25=1となるよう
に設定される。このようにして、Ck2に対する差分ベ
クトルが決定され、その差分ベクトルV2を用い、 Ct2=Ck2+V2 により、未学習コードベクトルCk2が入力話者コード
ブック321のコードベクトルに変換される。
【0080】同様にして、Ck2以外のすべての未学習
コードベクトルのそれぞれの差分ベクトルが求められ、
それぞれの差分ベクトルを用いて変換される。
【0081】以上のような処理により、標準話者コード
ブック331から入力話者コードブック321を作成す
ることができる。
【0082】本実施の形態ではこのように作成された入
力話者コードブック321を変換関数記憶部32に持た
せておく。
【0083】このようにして変換関数としての入力話者
コードブック321が作成され、変換関数記憶部32に
格納されたのち、認識用の単語(相手先の名前など)を
登録する。
【0084】この認識用単語の登録は前述の例と同様、
登録すべき名前を「田中」、「佐藤」、「加藤」などと
すれば、「田中」と発話したときに音声分析部13から
得られる特徴データ(LPC係数とパルス信号)を、声
質変換処理部31が受けて、変換関数記憶部32に記憶
されている入力話者コードブック321を用いて変換す
る。この処理について以下に説明する。
【0085】音声分析部13から得られる「田中」の特
徴データのうちLPC係数と、入力話者コードブック3
21に存在するコードデータとのマッチングをとり、コ
ード化してコードデータ列を得る。そして、このコード
化されたコードデータ列と前記パルス信号を変換音声デ
ータ記憶部34に記憶する。
【0086】このような処理を他の登録すべき相手先の
名前すべてについて、ユーザがそれぞれの名前を発話す
るごとに、入力話者コードブック321を用いてコード
化し、それぞれの名前に対応するコードデータ列とその
パルス信号がそれそれ変換音声データ記憶部34に記憶
される。このように変換音声データ記憶部34には、認
識すべき登録単語についてのそれぞれのコードデータ列
と、そのパルス信号が記憶されることになる。
【0087】また、出力用音声データ記憶部41には、
「さんですか」、「さんに電話します」など予め装置が
持っている発話内容ごとのコードデータ列とそのパルス
信号が記憶されている。
【0088】そして、前記変換音声データ記憶部34に
記憶された内容を読み出す際は、読み出したコードデー
タ列の各コードを標準話者コードブック331のコード
と対応付けを行い、標準話者コード空間におけるコード
データ列を得たのち、そのコードデータの各コードに対
するLPC係数値を得る。このLPC係数値とパルス信
号を用いて音声合成部42により音声合成を行い、音声
として出力する。なお、このとき出力されるたとえば
「田中」という音声は、ユーザの発話した「田中」とい
う音声データが装置側の持っている音声データに変換さ
れたものとなり、装置側の持っている声質に近い声質を
有する音声データとなる。
【0089】また、前記出力用音声データ記憶部41に
記憶された内容を読み出して出力する際も同様に、読み
出したコードデータ列の各コードを標準話者コードブッ
ク331のコードと対応付けを行い、標準話者コード空
間におけるコードデータ列を得たのち、そのコードデー
タの各コードに対するLPC係数値を得る。
【0090】たとえば、「さんに電話します」という内
容について考えると、「さんに電話します」に対するコ
ードデータ列の各コードを標準話者コードブック331
のコードと対応付けを行い、標準話者コード空間におけ
るコードデータ列を得たのち、そのコードデータの各コ
ードに対するLPC係数値を得る。そして、前述の「田
中」と「さんに電話します」を合成して「田中さんに電
話します」という音声として出力する。
【0091】図8は以上の処理を説明する図であり、図
8(a)は認識単語登録時にユーザの発話した「田中」
という音声波形であるとすると、この音声波形の1フレ
ーム(たとえば20msec程度)について音声分析部3で
周波数分析され(ステップs11)、スペクトル包絡パ
ラメータとしてたとえばLPC係数と残差成分から得ら
れるパルス信号を得る(ステップs12)。そして、L
PC係数を前記した入力話者コードブック321を用い
てコード化し(ステップs13)、そのコードデータ列
を得る(ステップs14)。この処理を(a)の音声波
形の各フレームごとに(1フレームは前記したように2
0msec、シフト量は10msec程度)に処理を行う。この
ようにして、「田中」という音声データに対するコード
データ列とそのパルス信号が変換音声データ記憶部34
に記憶される(ステップs15)。
【0092】そして、認識結果に基づいて、変換音声デ
ータ記憶部34を読み出す場合は、入力音声データの1
フレーム毎に、読み出したコードデータ列の各コードを
標準話者コードブック331のコードと対応付けを行
い、標準話者コード空間におけるコードデータ列を得た
のち、そのコードデータの各コードに対するLPC係数
値を得る(ステップs16、s17)。この処理を入力
音声データの各フレームごとにに処理を行う。このよう
にして得られたLPC係数値とパルス信号を用いて音声
合成を行う(ステップs18)。その音声波形が図8
(j)である。この音声波形は変換関数により変換され
たのちの音声波形であり、装置側で持っている音声に近
い声質を有したものとなる。
【0093】以上のように、ユーザが発話した登録すべ
き名前「田中」、「佐藤」、「加藤」などのそれぞれの
音声の特徴データは、それぞれの名前に対応するLPC
係数が入力話者コードブック321によりコード化され
そのコードデータ列とパルス信号が、変換音声データ記
憶部34に記憶されるが、それぞれの名前に対する特徴
データのLPCケプストラムは、認識を行う際の音声特
徴データとして、登録単語データ記憶部22に記憶され
る。
【0094】今、ユーザが「田中」という人物に電話を
かけようとする場合について説明する。
【0095】前述したように、制御部6がアンテナが引
き伸ばされたことを検知して、かつ、音声入力ボタンが
押されたことを検知する。これにより、制御部6は出力
用音声データ記憶部41から「誰に電話しますか」など
という音声を読み出して、スピーカ43から出力する。
これに対して、ユーザが「田中」と発話すると、その音
声は、A/D変換されたのち、音声分析部13で音声分
析される。
【0096】認識処理部21では、音声分析部13で得
られたLPCケプストラムを用いて、そのLPCケプス
トラムと登録単語データ記憶部22に記憶されている複
数の登録単語データ(LPCケプストラム)とのマッチ
ングをとり、この場合、入力音声が「田中」であるとの
認識を行う。
【0097】このようにして、ユーザの入力音声の認識
が行われると、装置側からは、「田中さんに電話しま
す」という応答がなされる。すなわち、「田中」という
認識結果に基づいて、変換音声データ記憶部34に記憶
された内容のうち、「田中」に対するコードデータ列と
パルス信号が読み出され、読み出されたコードデータ列
の各コードを標準話者コードブック331のコードと対
応付けを行い、標準話者コード空間におけるコードデー
タ列を得たのち、そのコードデータの各コードに対する
LPC係数値を得る。このLPC係数値とパルス信号を
用いて音声合成部42により音声合成を行い、音声とし
て出力する。なお、このとき出力されるたとえば「田
中」という音声は、ユーザの発話した「田中」という音
声データが装置側の持っている音声データに変換された
ものとなり、装置側の持っている性質に近い声質を有す
る音声データとなる。
【0098】そして、さらに、前記出力用音声データ記
憶部41に記憶された内容のうち、「さんに電話しま
す」に対するコードデータ列の各コードを標準話者コー
ドブック331のコードと対応付けを行い、標準話者コ
ード空間におけるコードデータ列を得たのち、そのコー
ドデータの各コードに対するLPC係数値を得る。そし
て、前述の「田中」とこの「さんに電話します」を音声
合成部42で合成して「田中さんに電話します」という
音声として出力する。
【0099】このとき、「田中さんに電話します」とい
う応答内容のうち、「さんに電話します」の部分は、装
置がもともと持っている明瞭な音声であり、「田中」の
部分は、認識単語の登録時にユーザの入力した「田中」
の音声を装置が持っている声に近い声質に変換して得ら
れた音声である。したがって、「田中」の部分も装置が
もともと持っている明瞭な音声に近い音声となり、「田
中さんに電話します」は、全体的に同じ声質の音声とな
り、明瞭で聞き取りやすい音声となる。ユーザは、装置
側からの「田中さんに電話します」の応答を聞いてそれ
が正しければ、スタートボタンを押す。これにより、予
め登録してある田中さんの電話番号が自動的に発信され
る。
【0100】(第2の実施の形態)この第2の実施の形
態は、ユーザと装置側との対話内容として、認識結果が
正しいか否かを装置側からユーザに問い合わせ、ユーザ
の正しいか否かを示す返事を装置側で判断して、それ以
降の処理を行う例である。このときの装置側とユーザと
の対話内容の一例としては、 装置:「誰に電話しますか」 話者:「田中」 装置:「田中さんですか」 話者:「はい」 装置:「田中さんに電話します」 あるいは、 装置:「誰に電話しますか」 話者:「加藤」 装置:「佐藤さんですか」 話者:「いいえ」 装置:「加藤さんですか」 話者:「はい」 装置:「加藤さんに電話します」 といったような内容となる。
【0101】このような対話内容において、装置側から
の応答内容のなかで、相手先の名前(「田中」、「加
藤」、「佐藤」)の部分は、前述の第1の実施の形態で
説明したように、話者の発話した「田中」という音声を
変換関数を用いて変換したあとの音声である。なお、こ
の変換処理については第1の実施例で説明したのでここ
では省略する。
【0102】このように、ユーザの「はい」や「いい
え」などの肯定/否定を示す応答内容を装置側で判断し
て、それに応じた処理を行うようにする。以下、これに
ついて具体的に説明する。
【0103】この第2の実施の形態を実現するための構
成としては、第1の実施の形態の説明で用いた図1にお
いて、登録単語データ記憶部22に、相手先の名前(愛
称なども含む)の音声データを登録するとともに、話者
の発話する「はい」や「いいえ」といった肯定/否定を
表す単語データを登録しておくことで実現できる。な
お、ここでは、肯定を示す言葉として「はい」、否定を
示す言葉として「いいえ」を用いることにする。
【0104】この「はい」や「いいえ」は、話者が認識
用の単語(相手先の名前)を登録するときに登録してお
く。つまり、「田中」、「加藤」、「佐藤」といった相
手先の名前のそれぞれの音声データの登録とともに、ユ
ーザが「はい」、「いいえ」と発話して、その「は
い」、「いいえ」のそれぞれの音声データを登録単語デ
ータ記憶部22に登録しておく。
【0105】このような構成において、話者が、たとえ
ば、「加藤」と発話したとき、装置が誤認識して「佐藤
さんですか」と応答したとする。これにより、話者が
「いいえ」と発話すると、今度は、装置側からは「加藤
さんですか」と応答する。そこで、話者が「はい」と発
話すると、装置側からは「加藤さんに電話します」と応
答する。これによって、話者がスタートボタンを押すと
予め登録されている加藤さんの電話番号が自動発信され
る。
【0106】なお、以上の一連の対話処理において、装
置側からの応答のうち「加藤」や「佐藤」の部分は、前
述の第1の実施の形態で説明したように、ユーザの音声
データを変換関数を用いて変換した後の音声データによ
る声質となっている。
【0107】以上のように、話者の発話する肯定/否定
の内容(「はい」、「いいえ」)を判断して、肯定を表
す「はい」を判断したときに、所望とする動作、つま
り、対応する相手先の電話番号を発信する処理を行う
が、否定を表す「いいえ」が何回か続いたとき、つま
り、ユーザの発話した相手先の名前が正しく認識されな
かったときは、認識処理を一旦打ち切って、ユーザに対
して再度入力を促すようにする。
【0108】たとえば、装置が「誰に電話しますか」と
問いかけたとき、 話者:「加藤」 装置:「佐藤さんですか」 話者:「いいえ」 装置:「斉藤さんですか」 話者:「いいえ」 といったように、この場合は2回連続してユーザから
「いいえ」が出され、それを装置側で判定したときは、
装置側から、「もう一度名前を言ってください」という
ような問いかけを行う。
【0109】このような処理を行うには、装置側で「誰
に電話しますか」と発話した後、ユーザからの「いい
え」を認識した回数をカウントし、そのカウント回数が
予め設定した値となった場合、装置側から「もう一度名
前を言ってください」というような問いかけを行うよう
にする。
【0110】すなわち、ユーザが「加藤」と発話し、装
置側でその音声の特徴データにより認識処理を行った結
果、認識結果の認識スコア順に認識候補を抽出する。そ
して、第1位の認識候補がたとえば「佐藤」であった場
合は、最初に「佐藤さんですか」と応答し、ユーザから
「いいえ」が出された場合は、第2位の認識候補がたと
えば「斉藤」であった場合は、「斉藤さんですか」と応
答する。これに対してユーザの応答が「いいえ」であっ
た場合は、認識処理を打ち切ってユーザに対し、再度入
力を促す。この処理は制御部6により行うことができ
る。
【0111】また、ユーザがこのような音声自動ダイヤ
ルを利用するうち、誤認識される率の高い名前というの
がある。たとえば、前述したように、ユーザが「加藤」
という人物に電話をかける際、「加藤」と発話したにも
かかわらず、毎回、第1位の認識候補として「佐藤」が
抽出される場合がある。このように、誤認識される率の
高い名前については、再度登録し直すようにユーザに促
す。
【0112】すなわち、ユーザと装置側との対話の中
で、たとえば、ユーザが「加藤」と発話したにもかかわ
らず、装置側では第1位の認識候補として「佐藤」が抽
出され、それに対して、ユーザが「いいえ」と発話した
場合、ユーザの発話する「加藤」、装置の認識結果であ
る「佐藤」、それに対するユーザからの「いいえ」など
のデータを基に、このような誤認識処理が一定の回数を
重ねた場合、「加藤」と「佐藤」は誤認識が多いと判断
して、これらの単語については、ユーザに対して、再
度、登録し直すような指示を行う。
【0113】ところで、話者の発話内容から肯定/否定
を判定する手段としては、前述の例では、肯定/否定を
表す単語としてユーザが予め「はい」「いいえ」を認識
単語として装置側に登録し、実際の運用時にユーザの発
話する「はい」または「いいえ」を認識するようにした
が、このような方法に限らず、たとえば、図9に示され
るように、肯定否定識別部を別に用意して肯定/否定を
判断するようにしてもよい。
【0114】図9においては図1に示した音声認識手段
2に肯定否定識別部24を設けたもので、それ以外の他
の構成は図1と同様であるので、図1と同一部分には同
一符号が付されている。
【0115】肯定否定識別部24は、図示されていない
が主に演算器と処理プログラムを記憶しているROMか
ら構成され、話者の話した音声が肯定語か否定語かを判
定するものである。つまり、装置からの応答が話者に対
して肯定か否定かの返事を求めるような内容の場合、そ
の返事が肯定の意味か否定の意味かを判別する。この場
合、話者の発話内容は、肯定の場合、「はい」などの他
に、「うん」、「そうです」などでもよく、否定の場合
は、「いいえ」の他に、「ちがう」などでもよい。
【0116】この肯定否定識別部24は、音声分析部1
3から出力される前記したような肯定否定を意味する返
事に対する音声の特徴ベクトル列における最初に出現す
る母音部を抽出し、抽出された母音部の種類によって、
話者の返事が肯定か、否定かを検出して、肯定であれば
肯定であることを示す信号Yを、否定であれば否定であ
ることを示す信号Nを制御部6に出力する。
【0117】すなわち、話者の返事に対する音声の特徴
ベクトル列における最初に出現する母音部が、「a」、
「u」、「o」であった場合には、話者の返事は肯定を
意味する内容であると判断し、これに対して、最初に出
現する母音部が、「i」、「e」であった場合には、話
者の返事は否定を意味する内容であると判断する。たと
えば、話者の返事が「はい(hai)」、「うん(u
n)」、「そうです(soudesu)」などのように
肯定を意味する内容である場合には、最初に出現する母
音は、この場合、「a」、「u」、「o」であり、ま
た、話者の返事が「いいえ(iie)」、「違う(ti
gau)」などのように否定を意味する内容である場合
には、最初に出現する母音は、いずれも「i」である。
これは、統計的なデータから検討した結果であり、これ
によって100%に近い正解率が得られることがわかっ
ている。
【0118】なお、母音の抽出方法の一例としては、複
数話者の音声を用いて予め得られている各母音の特徴ベ
クトル群のそれぞれの特徴ベクトルに対し、入力音声の
時系列に沿った特徴ベクトル列の各特徴ベクトルを、時
系列に従って1つづつ距離などで比較して行き、その距
離が或るしきい値よりも小さいなどの条件を用いて、母
音部を抽出する方法が考えられる。たとえば、「そうで
す(soudesu)」という入力音声があった場合、
その特徴ベクトル列の1つ1つの特徴ベクトルを、
「a」、「i」、「u」、「e」、「o」の各特徴ベク
トルとの距離を比較すると、この場合、最初に、「o」
の特徴ベクトルとの距離が或るしきい値以下になる可能
性が高く、これにより、「そうです」という単語に最初
に現れる母音は「o」であるということが検出される。
【0119】このような母音による肯定否定識別部24
を用いての肯定/否定の正解率は極めて高い。また、こ
の肯定否定識別部24を用いての肯定/否定識別は、不
特定話者音声認識で実現できるので、ユーザが予め登録
しておく必要がなく、使い勝手がよい。
【0120】このように第2の実施の形態では、認識結
果が正しいか否かを装置側からユーザに対して問い合わ
せ、ユーザからの正しいという応答を判断したときの
み、所望の動作を行うようにすることにより、誤動作を
未然に防止することができる。また、認識結果のスコア
順に認識候補を並べ、第1位から順に出力し、ユーザか
らの肯定/否定の内容を判断し、予め設定した順位の認
識候補でもなお不正解であるような場合には、一旦、認
識処理を中断し、ユーザに対して入力し直すように指示
することにより、誤動作の防止をより一層確実に行うこ
とができ、また、誤認識しやすい単語を抽出することも
できる。これにより、一定期間使用した結果、誤認識し
やすい単語については、再度、登録し直すことをユーザ
に指示することも可能となる。この指示に基づいて認識
率の悪い単語をユーザが再登録を行うことにより認識率
を向上させることが期待でき、同じ単語についてその動
作を繰り返すことにより認識率を段階的に向上させるこ
とができる。
【0121】なお、以上説明した各実施の形態は、本発
明の好適な実施の形態の例であるが、これに限定される
ものではなく、本発明の要旨を逸脱しない範囲で、種々
変形実施可能である。たとえば、前記各実施の形態で
は、本発明を携帯電話の自動ダイヤル処理に適用した例
について説明したが、本発明は携帯電話だけではなく、
携帯電話以外の電話にも適用することができ、また、電
話だけではなく他の機器にも適用できるものである。
【0122】また、ユーザの音声を装置の音声に変換す
る手段として、第1の実施の形態では、装置側の標準話
者コードブック331から入力話者コードブック321
を作成し、これらのコードブックを用いて変換する例に
ついて説明したが、これに限られるものではなく、他の
変換手段を用いてもよいことは勿論である。
【0123】また、前述の実施の形態では、変換関数を
作成する際、ユーザに変換関数作成用の単語を幾つか発
話してもらい、その特徴データを基に変換関数を作成す
るようにしたが、装置との対話中の音声を用いて教師デ
ータなしで変換関数を作成することも可能である。
【0124】なお、本発明の処理を行う処理プログラム
は、フロッピィディスク、光ディスク、ハードディスク
などの記憶媒体に記憶させておくことができ、本発明
は、それらの記憶媒体をも含むものであり、また、ネッ
トワークからデータを得る形式でもよい。
【0125】
【発明の効果】以上説明したように本発明によれば、入
力話者の発する言語の音声データと装置が持つ音声デー
タとから変換関数を求め、登録言語の音声特徴データを
作成するために入力された言語に対する入力話者の音声
データを、その変換関数を用いて声質変換し、その声質
変換された音声データを記憶しておき、認識時には、認
識結果に対応した声質変換後の音声データを読み出して
出力するようにしている。これにより、入力話者の明瞭
性に欠ける音声でも装置側で持っている声質の音声とな
るので、明瞭で聞き易い音声とすることができる。
【0126】また、装置側で入力話者が登録するときに
入力した音声を読み出して、装置側で用意された音声と
を連続させた応答内容とした場合、ユーザの音声を装置
が持っている音声の声質に近い声質とすることができ、
全体的に同じような声質の音声とすることができる。し
かも装置側で用意した声質とすることにより、明瞭性が
高いものとなり、その応答内容を入力話者が聞いて装置
を作動させるような場合、誤動作を未然に防止できる。
【0127】また、入力話者の音声を装置の持つ音声に
変換する手段として、装置側の持つ音声データにより作
成された標準話者コードブックを用い、入力話者の発話
する幾つかの言語に対する音声データから入力話者コー
ドブックを作成して、登録すべき言語の音声特徴データ
を作成するために入力された入力話者の複数の言語に対
するそれぞれの音声データを、前記入力話者コードブッ
クを用いてそれぞれの言語ごとにコード化し、それぞれ
の言語ごとの変換データを得るようにすることにより、
入力話者の音声を装置側の音声に変換するための変換関
数を得る処理をわずかな単語を入力するだけで行うこと
ができ、しかも高精度な変換が可能となる。
【0128】さらに、本発明では、認識結果が正しいか
否かを装置側からユーザに対して問い合わせ、ユーザか
らの正しいという応答を判断したときのみ、所望の動作
を行うようにすることにより、誤動作を未然に防止する
ことができる。また、認識結果のスコア順に認識候補を
並べ、第1位から順に出力し、ユーザからの肯定/否定
の内容を判断し、予め設定した順位の認識候補でもなお
不正解であるような場合には、一旦、認識処理を中断
し、ユーザに対して入力し直すように指示することによ
り、誤動作の防止をより一層確実に行うことができ、ま
た、誤認識しやすい単語を抽出することもできる。これ
により、一定期間使用した結果、誤認識しやすい単語に
ついては、再度、登録し直すことをユーザに指示するこ
とも可能となる。この指示に基づいて認識率の悪い単語
をユーザが再登録を行うことにより認識率を向上させる
ことが期待できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を説明する構成図。
【図2】第1の実施の形態においてユーザの音声を装置
側の音声に近づけるための声質変換処理の流れを説明す
る図。
【図3】第1の実施の形態においてユーザの音声を装置
側の音声に近づけるための声質変換する手段について具
体的に説明するための構成図。
【図4】図3で示した構成における声質変換を行うため
の入力話者コードブックを作成する処理を説明する図
で、標準話者コードブック内のコードベクトルと入力話
者の特徴ベクトルとの対応付けを説明する図。
【図5】ある1つの単語における標準話者コードベクト
ル列と入力話者特徴ベクトル列との対応付けを説明する
図。
【図6】図3で示した構成における声質変換を行うため
の入力話者コードブックを作成する処理を説明する図
で、差分ベクトルを用いて標準話者コードブックの学習
済みコードベクトルを入力話者コードブックに変換する
処理を説明する図。
【図7】図3で示した構成における声質変換を行うため
の入力話者コードブックを作成する処理を説明する図
で、未学習コードベクトルを入力話者コードブックに変
換する処理を説明する図。
【図8】図3で示した構成におけるユーザの音声を装置
側の音声に近づけるための声質変換処理の流れを説明す
る図。
【図9】本発明の第2の実施の形態を説明する構成図で
あり、入力話者の肯定/否定の内容を識別する肯定否定
識別部を設けた例を示す図。
【符号の説明】
1 音声入力手段 2 音声認識手段 3 声質変換手段 4 音声出力手段 5 ユーザ操作部 6 制御部 12 A/D変換部 13 音声分析部 21 認識処理部 22 登録単語データ記憶部 31 声質変換処理部 32 変換関数記憶部 33 変換関数作成用データ記憶部 34 変換音声データ記憶部 41 出力用音声データ記憶部 42 音声合成部 43 スピーカ 321 入力話者コードブック 331 標準話者コードブック
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 3/00 571 G10L 3/00 571H 3/02 3/02 A

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力話者の発する言語の音声データと装
    置が持つ音声データとから変換関数を求め、認識用とし
    て登録される言語の音声特徴データを作成するために入
    力された言語に対する入力話者の音声データを、前記変
    換関数を用いて声質変換し、その声質変換された音声デ
    ータを変換音声データ記憶部に記憶しておき、 認識時には、認識を行うために入力された言語の音声特
    徴データと前記登録された音声特徴データとから入力言
    語を認識し、その認識結果に対応した声質変換後の音声
    データを前記変換音声データ記憶部から読み出して出力
    することを特徴とする認識結果処理方法。
  2. 【請求項2】 前記変換音声データ記憶部から認識結果
    に対応した声質変換後の音声データを読み出して出力す
    る際、声質変換後の入力話者の発話した言語に対する音
    声データと装置側で予め持っている言語に対する音声デ
    ータとを合成し、両者の言語を連続させて或る発話内容
    を構成して出力することを特徴とする請求項1記載の認
    識結果処理方法。
  3. 【請求項3】 前記声質変換後の入力話者の発話した言
    語と装置側で予め持っている言語とを連続させて或る発
    話内容を出力する際、認識が正しく行われたか否かを表
    す入力話者からの言語を認識して、その認識結果に対応
    した発話内容を構成し、認識が正しく行われたことを表
    す入力話者からの言語を認識した場合に、所望とする動
    作を行うことを意味する発話内容を出力することを特徴
    とする請求項2記載の認識結果処理方法。
  4. 【請求項4】 前記声質変換後の入力話者の発話した言
    語と装置側で予め持っている言語とを連続させて或る発
    話内容を出力する際、入力話者の発話した言語に対する
    認識結果をスコア順に抽出し、そのスコア順に抽出され
    た認識結果と装置がわで持っている言語とを連続させて
    出力し、その出力結果に対して認識が正しく行われたか
    否かを表す入力話者からの言語を認識して、予め定めた
    順位までの認識候補の認識が正しく行われなかったこと
    を表す入力話者からの言語を認識した場合に、再度入力
    を促す発話内容を出力することを特徴とする請求項2記
    載の認識結果処理方法。
  5. 【請求項5】 前記認識が正しく行われたか否かを表す
    入力話者からの言語を認識する際、認識が正しく行われ
    なかったことを表す入力話者からの音声をもとに、誤認
    識される率の高い認識用言語を判定し、その言語につい
    ては再度登録するような指示を出力することを特徴とす
    る請求項3または4の認識結果処理方法。
  6. 【請求項6】 前記入力された或る言語に対する音声デ
    ータを、変換関数を用いて声質変換する処理は、 装置側の持つ音声データから標準話者コードブックを作
    成し、この標準話者コードブックを用いて入力話者の発
    話する幾つかの言語に対する音声データから入力話者コ
    ードブックを作成し、登録すべき言語の音声特徴データ
    を作成するために入力された入力話者の複数の言語に対
    するそれぞれの音声データを、前記入力話者コードブッ
    クを用いてそれぞれの言語ごとにコード化し、それぞれ
    の言語ごとの変換データを得て、これら各変換データを
    変換音声データ記憶部に記憶させておき、 認識時には、認識を行うために入力された入力話者の音
    声データをもとに入力言語を認識し、前記変換音声デー
    タ記憶部から認識結果に対応したデータを読み出してそ
    のデータを前記標準話者コードブックにより標準話者音
    声データ空間のデータに変換して出力することを特徴と
    する請求項1から5のいずれかに記載の認識結果処理方
    法。
  7. 【請求項7】 入力話者により発話された言語の音声を
    分析して音声データを出力する音声入力手段と、 この音声入力手段で得られた各言語ごとの音声データを
    登録音声特徴データとして記憶し、認識時には入力言語
    に対する音声データを前記登録音声特徴データと比較し
    て音声認識を行う音声認識手段と、 前記入力話者の発する言語の音声データと装置が持つ音
    声データとから変換関数を求めるとともに、前記登録音
    声特徴データを作成するために入力された言語に対する
    音声データを、前記変換関数を用いて声質変換し、その
    声質変換された音声データを言語ごとに記憶する声質変
    換手段と、 認識を行うために入力された言語の音声データをもとに
    入力言語が認識されたとき、前記声質変換手段から読み
    出された認識結果対応の声質変換後の音声データを音声
    として出力する音声出力手段と、 を少なくとも有することを特徴とする認識結果処理装
    置。
  8. 【請求項8】 前記音声出力手段は、装置側で予め持っ
    ている出力用言語に対する音声データを記憶する出力用
    音声データ記憶部と、この出力用音声データ記憶部に記
    憶された音声データと前記声質変換後の入力話者の音声
    データとを合成し、声質変換後の入力話者の発話した言
    語と装置側で予め持っている言語とを連続させて或る発
    話内容を構成して出力する音声合成部とを有したことを
    特徴とする請求項7記載の認識結果処理装置。
  9. 【請求項9】 前記声質変換後のユーザの発話した言語
    と装置側で予め持っている言語とを連続させて或る発話
    内容を出力する際、認識が正しく行われたか否かを表す
    入力話者からの言語を認識して、その認識結果に対応し
    た発話内容を構成し、認識が正しく行われたことを表す
    入力話者からの言語を認識した場合に、所望とする動作
    を行うことを意味する発話内容を出力することを特徴と
    する請求項8記載の認識結果処理装置。
  10. 【請求項10】 前記声質変換後の入力話者の発話した
    言語と装置側で予め持っている言語とを連続させて或る
    発話内容を出力する際、入力話者の発話した言語に対す
    る認識結果をスコア順に抽出し、そのスコア順に抽出さ
    れた認識結果と装置がわで持っている言語とを連続させ
    て出力し、その出力結果に対して認識が正しく行われた
    か否かを表す入力話者からの言語を認識して、予め定め
    た順位までの認識候補の認識が正しく行われなかったこ
    とを表す入力話者からの言語を認識した場合に、再度入
    力を促す発話内容を出力することを特徴とする請求項8
    記載の認識結果処理装置。
  11. 【請求項11】 前記認識が正しく行われたか否かを表
    す入力話者からの言語を認識する際、認識が正しく行わ
    れなかったことを表す入力話者からの音声をもとに、誤
    認識される率の高い認識用言語を判定し、その言語につ
    いては再度登録するような指示を出力することを特徴と
    する請求項9または10の認識結果処理装置。
  12. 【請求項12】 前記声質変換手段は、変換音声データ
    記憶部と、装置側の持つ音声データにより作成された標
    準話者コードブックと、この標準話者コードブックを用
    い、入力話者の発話する幾つかの言語の音声データから
    作成した入力話者コードブックと、登録言語の音声特徴
    データを作成するために入力された入力話者の或る言語
    に対する音声データを、前記入力話者コードブックを用
    いてそれぞれコード化し、それぞれの言語ごとの変換デ
    ータを得て、それぞれの言語ごとの変換データを前記変
    換音声データ記憶部に記憶させる声質変換処理部とを有
    し、 認識を行うために入力された或る言語に対する音声デー
    タを声質変換する処理は、入力された入力話者の音声デ
    ータをもとに入力言語を認識し、その認識結果に対応し
    た変換データを前記変換音声データ記憶部から読み出し
    てその変換データを前記標準話者コードブックにより標
    準話者音声データ空間のデータに変換して出力すること
    を特徴とする請求項7から11のいずれかに記載の認識
    結果処理装置。
JP9277261A 1997-03-07 1997-10-09 認識結果処理方法および認識結果処理装置 Withdrawn JPH10307594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9277261A JPH10307594A (ja) 1997-03-07 1997-10-09 認識結果処理方法および認識結果処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5342097 1997-03-07
JP9-53420 1997-03-07
JP9277261A JPH10307594A (ja) 1997-03-07 1997-10-09 認識結果処理方法および認識結果処理装置

Publications (1)

Publication Number Publication Date
JPH10307594A true JPH10307594A (ja) 1998-11-17

Family

ID=26394131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9277261A Withdrawn JPH10307594A (ja) 1997-03-07 1997-10-09 認識結果処理方法および認識結果処理装置

Country Status (1)

Country Link
JP (1) JPH10307594A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078064A1 (fr) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Dispositif de conversion de caractere vocal

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001078064A1 (fr) * 2000-04-03 2001-10-18 Sharp Kabushiki Kaisha Dispositif de conversion de caractere vocal

Similar Documents

Publication Publication Date Title
US6161091A (en) Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system
JP4607334B2 (ja) 分散された音声認識システム
KR100383353B1 (ko) 음성인식장치및음성인식장치용어휘발생방법
US20230230572A1 (en) End-to-end speech conversion
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US6671669B1 (en) combined engine system and method for voice recognition
CN1742321B (zh) 韵律模仿合成方法和装置
US6836758B2 (en) System and method for hybrid voice recognition
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP2004518155A (ja) マッピングを用いた自動音声認識のためのシステムおよび方法
TW546632B (en) System and method for efficient storage of voice recognition models
KR20080107376A (ko) 화자 독립 음성 인식을 구비한 통신 장치
KR100698811B1 (ko) 음성 인식 거부 방식
JP2003524795A (ja) スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2003177779A (ja) 音声認識のための話者学習法
JPH10307594A (ja) 認識結果処理方法および認識結果処理装置
JP2004519733A (ja) 雑音環境条件および周波数不一致条件において音声認識を改良するためのシステムおよび方法
JP2002073074A (ja) 音声による数字列認識方法ならびに装置
JPH09198085A (ja) 電話をベースとする音声認識用時変特徴スペース処理手順
JPS61144157A (ja) 音声ダイヤル装置
KR100827074B1 (ko) 이동 통신 단말기의 자동 다이얼링 장치 및 방법
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR200219909Y1 (ko) 대화식 음성 제어가 가능한 이동전화단말기

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050104