JPH10307594A

JPH10307594A - 認識結果処理方法および認識結果処理装置

Info

Publication number: JPH10307594A
Application number: JP9277261A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1997-03-07
Filing date: 1997-10-09
Publication date: 1998-11-17

Abstract

(57)【要約】【課題】ユーザの音声にて登録した認識用単語を認識
時に読み出して、その読み出した音声と装置側で持って
いる音声とを連続させて出力する際、ユーザの音声を装
置側の音声に近づけるように声質変換する。【解決手段】ユーザの音声を分析して音声データを出
力する音声入力手段１と、各言語ごとの音声データを登
録音声データとして記憶し、認識時には入力言語の音声
データを前記登録音声データと比較して認識を行う音声
認識手段２と、前記ユーザの音声データと装置が持つ音
声データとから変換関数を求めておき、前記登録音声デ
ータを作成するために入力された音声データを、変換関
数を用いて声質変換し、その声質変換された音声データ
を記憶する声質変換手段３と、認識を行うために入力さ
れた言語の音声データをもとに入力言語が認識されたと
き、前記声質変換手段３から読み出された認識結果対応
の声質変換後の音声データを音声として出力する音声出
力手段４を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、認識用として登録
された音声データを声質変換して記憶し、入力された音
声の認識時に、その認識結果に対応する声質変換された
音声を読み出して出力する認識結果処理方法および認識
結果処理装置に関する。

【０００２】

【従来の技術】入力された音声を認識しその認識結果に
基づいて何らかの動作を行わせることが様々な分野で実
用化されつつある。たとえば、ユーザが電話をかけよう
とする相手先の名前を声で入力することにより、自動的
にその相手先の電話番号にダイアルするいわゆる自動ダ
イヤラー技術にも適用できるものと考えられる。

【０００３】この自動ダイヤラーシステムは、たとえ
ば、携帯電話を例に取れば、その携帯電話を所有するユ
ーザにとって、電話をかける頻度の高い相手の名前など
相手を特定することのできる単語と、その電話番号を登
録しておき、実際に電話をかけるときは登録した名前を
言うだけで自動的にダイヤルされるものである。

【０００４】このとき、登録される言語としては、たと
えば、「田中」、「佐藤」などというような名前そのも
のや、愛称やニックネームなど、相手を特定できる比較
的短い単語が用いられる。

【０００５】このような相手を特定できる単語を登録す
る際は、携帯電話を単語登録モードとして、ユーザが、
予め、自分の声で、相手の名前や愛称などの音声データ
をそれぞれの単語毎に登録する。そして、その登録され
た相手に電話をかける場合は、たとえば、ユーザが予め
登録された「田中」という人物に電話をかけようとした
場合、携帯電話（装置という）に向かって「田中」とい
うと、装置側では、ユーザの入力音声を認識処理して、
「田中さんに電話します」などと応答する。

【０００６】ここで、装置側からの「田中さんに電話し
ます」という内容のうち、「田中」の部分は、ユーザが
登録するときに入力した音声をそのまま読み出して、装
置側で用意された「・・さんに電話します」の「・・」
の部分に挿入して「田中さんに電話します」という内容
の応答を行うことは既に行われている。

【０００７】このように、音声認識を行う際の学習用と
して入力された音声を記憶し、認識結果に基づいて認識
された音声を読み出して再生する技術の一例としては、
たとえば、特公平５ー５９４４０がある。この技術を用
いれば、前述したように、ユーザが装置に向かって「田
中」というと、装置側では、ユーザの入力音声を認識処
理して、ユーザが登録するときに入力した「田中」とい
う音声をそのまま読み出して、装置側で用意された「・
・さんに電話します」の「・・」の部分に挿入して「田
中さんに電話します」という内容の応答を行うことは可
能である。

【０００８】携帯電話などにあっては、装置側からの応
答内容において前述した「・・」の部分は、ユーザが登
録した音声（人名）をそのまま出す用にした方が処理が
簡単となって好ましい。これは、人名は種々雑多であ
り、また、本人同志しか通じない愛称などを用いて登録
している場合も多いからである。

【０００９】

【発明が解決しようとする課題】しかしながら、このよ
うに、単に、ユーザが登録するときに入力した音声をそ
のまま読み出して、装置側で用意された音声とを合わせ
た応答内容とすると、ユーザの音声の声質と装置側で用
意した音声の声質が余りにもことなると不自然な応答と
なる問題がある。たとえば、ユーザが男性で、装置側で
用意した音声が女性であるような場合は、前述した例で
言えば、「田中さんに電話します」という装置側からの
応答は、「田中」の部分が男性の声で、その後に続く
「に電話します」という音声が女性の声となるため、不
自然な応答となる。

【００１０】さらに、ユーザが登録した音声（人名）を
そのまま読み出して出力する方式では、ユーザの音声が
明瞭性を欠くような声質である場合、たとえば、「加
藤」や「佐藤」といった誤認識し易い名前が登録されて
いると、電話をかけるときに、ユーザが「加藤」と入力
しても、「佐藤」と認識される場合もある。このように
誤認識されると、装置側からは、「佐藤さんに電話しま
す」と応答されるが、「佐藤」の部分はもともとユーザ
の音声そのものであるため、そのユーザの音声が明瞭性
を欠く場合、「佐藤」の部分が「加藤」に聞こえて、ユ
ーザには「加藤さんに電話します」と聞こえる場合もあ
る。

【００１１】このような場合、装置側で誤認識されたに
もかかわらず、正しく認識されたと判断して、スタート
ボタンを押してしまうと、そのまま、「佐藤」さんにダ
イヤルされてしまうという問題もあった。

【００１２】そこで、本発明は、音声認識を行う際の学
習用として入力された音声を所定の変換関数を用いて装
置側で用意された音声に近い明瞭性に富んだ音声に変換
して記憶させておき、認識時には、声質変換されたユー
ザの音声を読み出すようにすることにより、登録した内
容と装置側で用意された内容とを続けて出力する場合、
声質の違いによる不自然さを解消するとともに、ユーザ
の発話する認識結果が正しいか否かを表す内容を判定し
て正しい場合だけ所望とする動作を行わせることによ
り、装置の誤動作を防止し得る認識結果処理方法および
認識結果処理装置を実現することを目的としている。

【００１３】

【課題を解決するための手段】前記した目的を達成する
ために、本発明の認識結果処理方法における請求項１の
発明は、入力話者の発する言語の音声データと装置が持
つ音声データとから変換関数を求め、認識用として登録
される言語の音声特徴データを作成するために入力され
た言語に対する入力話者の音声データを、前記変換関数
を用いて声質変換し、その声質変換された音声データを
変換音声データ記憶部に記憶しておき、認識時には、認
識を行うために入力された言語の音声特徴データと前記
登録された音声特徴データとから入力言語を認識し、そ
の認識結果に対応した声質変換後の音声データを前記変
換音声データ記憶部から読み出して出力するようにした
ことを特徴としている。

【００１４】また、請求項２の発明は、請求項１の発明
において、前記変換音声データ記憶部から認識結果に対
応した声質変換後の音声データを読み出して出力する
際、声質変換後の入力話者の発話した言語に対する音声
データと装置側で予め持っている言語に対する音声デー
タとを合成し、両者の言語を連続させて或る発話内容を
構成して出力するようにしている。

【００１５】また、請求項３の発明は、請求項２の発明
において、前記声質変換後の入力話者の発話した言語と
装置側で予め持っている言語とを連続させて或る発話内
容を出力する際、認識が正しく行われたか否かを表す入
力話者からの言語を認識して、その認識結果に対応した
発話内容を構成し、認識が正しく行われたことを表す入
力話者からの言語を認識した場合に、所望とする動作を
行うことを意味する発話内容を出力するようにしてい
る。

【００１６】また、請求項４の発明は、請求項２の発明
において、前記声質変換後の入力話者の発話した言語と
装置側で予め持っている言語とを連続させて或る発話内
容を出力する際、入力話者の発話した言語に対する認識
結果をスコア順に抽出し、そのスコア順に抽出された認
識結果と装置がわで持っている言語とを連続させて出力
し、その出力結果に対して認識が正しく行われたか否か
を表す入力話者からの言語を認識して、予め定めた順位
までの認識候補の認識が正しく行われなかったことを表
す入力話者からの言語を認識した場合に、再度入力を促
す発話内容を出力するようにしている。

【００１７】また、請求項５の発明は、請求項２または
３の発明において、前記認識が正しく行われたか否かを
表す入力話者からの言語を認識する際、認識が正しく行
われなかったことを表す入力話者からの音声をもとに、
誤認識される率の高い認識用言語を判定し、その言語に
ついては再度登録するような指示を出力するようにして
いる。

【００１８】また、請求項６の発明は請求項１から５の
発明において、前記入力された或る言語に対する音声デ
ータを、変換関数を用いて声質変換する処理は、装置側
の持つ音声データから標準話者コードブックを作成し、
この標準話者コードブックを用いて入力話者の発話する
幾つかの言語に対する音声データから入力話者コードブ
ックを作成し、登録すべき言語の音声特徴データを作成
するために入力された入力話者の複数の言語に対するそ
れぞれの音声データを、前記入力話者コードブックを用
いてそれぞれの言語ごとにコード化し、それぞれの言語
ごとの変換データを得て、これら各変換データを変換音
声データ記憶部に記憶させておき、認識時には、認識を
行うために入力された入力話者の音声データをもとに入
力言語を認識し、前記変換音声データ記憶部から認識結
果に対応したデータを読み出してそのデータを前記標準
話者コードブックにより標準話者音声データ空間のデー
タに変換して出力するようにしている。

【００１９】また、本発明の認識結果処理装置における
請求項７の発明は、入力話者により発話された言語の音
声を分析して音声データを出力する音声入力手段と、こ
の音声入力手段で得られた各言語ごとの音声データを登
録音声特徴データとして記憶し、認識時には入力言語に
対する音声データを前記登録音声特徴データと比較して
音声認識を行う音声認識手段と、前記入力話者の発する
言語の音声データと装置が持つ音声データとから変換関
数を求めるとともに、前記登録音声特徴データを作成す
るために入力された言語に対する音声データを、前記変
換関数を用いて声質変換し、その声質変換された音声デ
ータを言語ごとに記憶する声質変換手段と、認識を行う
ために入力された言語の音声データをもとに入力言語が
認識されたとき、前記声質変換手段から読み出された認
識結果対応の声質変換後の音声データを音声として出力
する音声出力手段とを少なくとも有することを特徴とし
ている。

【００２０】また、請求項８の発明は、請求項７におい
て、前記音声出力手段は、装置側で予め持っている出力
用言語に対する音声データを記憶する出力用音声データ
記憶部と、この出力用音声データ記憶部に記憶された音
声データと前記声質変換後のユーザの音声データとを合
成し、声質変換後のユーザの発話した言語と装置側で予
め持っている言語とを連続させて或る発話内容を構成し
て出力する音声合成部とを有している。

【００２１】また、請求項９の発明は、請求項８の発明
において、前記声質変換後の入力話者の発話した言語と
装置側で予め持っている言語とを連続させて或る発話内
容を出力する際、認識が正しく行われたか否かを表す入
力話者からの言語を認識して、その認識結果に対応した
発話内容を構成し、認識が正しく行われたことを表す入
力話者からの言語を認識した場合に、所望とする動作を
行うことを意味する発話内容を出力するようにしてい
る。

【００２２】また、請求項１０の発明は、請求項８の発
明において、前記声質変換後の入力話者の発話した言語
と装置側で予め持っている言語とを連続させて或る発話
内容を出力する際、入力話者の発話した言語に対する認
識結果をスコア順に抽出し、そのスコア順に抽出された
認識結果と装置がわで持っている言語とを連続させて出
力し、その出力結果に対して認識が正しく行われたか否
かを表す入力話者からの言語を認識して、予め定めた順
位までの認識候補の認識が正しく行われなかったことを
表す入力話者からの言語を認識した場合に、再度入力を
促す発話内容を出力するようにしている。

【００２３】また、請求項１１の発明は、請求項９また
は１０の発明において、前記認識が正しく行われたか否
かを表す入力話者からの言語を認識する際、認識が正し
く行われなかったことを表す入力話者からの音声をもと
に、誤認識される率の高い認識用言語を判定し、その言
語については再度登録するような指示を出力するように
している。

【００２４】また、請求項１２の発明は請求項７から１
１のいずれかの発明において、前記声質変換手段は、変
換音声データ記憶部と、装置側の持つ音声データにより
作成された標準話者コードブックと、この標準話者コー
ドブックを用い、入力話者の発話する幾つかの言語の音
声データから作成した入力話者コードブックと、登録言
語の音声特徴データを作成するために入力された入力話
者の或る言語に対する音声データを、前記入力話者コー
ドブックを用いてそれぞれコード化し、それぞれの言語
ごとの変換データを得て、それぞれの言語ごとの変換デ
ータを前記変換音声データ記憶部に記憶させる声質変換
処理部とを有し、認識を行うために入力された或る言語
に対する音声データを声質変換する処理は、入力された
入力話者の音声データをもとに入力言語を認識し、その
認識結果に対応した変換データを前記変換音声データ記
憶部から読み出してその変換データを前記標準話者コー
ドブックにより標準話者音声データ空間のデータに変換
して出力するようにしている。

【００２５】このように本発明は、入力話者の発する言
語の音声データと装置が持つ音声データとから変換関数
を求め、登録言語の音声特徴データを作成するために入
力された言語に対する入力話者の音声データを、その変
換関数を用いて声質変その声質変換された音声データを
記憶しておき、認識時には、認識結果に対応した声質変
換後の音声データを読み出して出力するようにしてい
る。これにより、入力話者の明瞭性に欠ける音声でも装
置側で持っている声質の音声となるので、明瞭で聞き易
い音声とすることができる。

【００２６】また、装置側で入力話者が登録するときに
入力した音声を読み出して、装置側で用意された音声と
を連続させた応答内容とした場合、本発明は、ユーザの
音声を装置が持っている音声の声質に近い声質とするこ
とができ、全体的に同じような声質の音声とすることが
できる。しかも装置側で用意した声質に近いものとする
ことにより、明瞭性が高いものとなり、その応答内容を
入力話者が聞いて装置を作動させるような場合、誤動作
を未然に防止できる。

【００２７】また、装置側の持つ音声データにより作成
された標準話者コードブックを用い、入力話者の発話す
る幾つかの言語に対する音声データから入力話者コード
ブックを作成して、登録すべき言語の音声特徴データを
作成するために入力された入力話者の複数の言語に対す
るそれぞれの音声データを、前記入力話者コードブック
を用いてそれぞれの言語ごとにコード化し、それぞれの
言語ごとの変換データを得るようにしている。これによ
り、入力話者の音声を装置側の音声に変換するための変
換関数を得る処理をわずかな単語を入力するだけで行う
ことができ、しかも高精度な変換が可能となる。

【００２８】さらに、認識結果が正しいか否かを装置側
からユーザに対して問い合わせ、ユーザからの正しいと
いう応答を判断したときのみ、所望の動作を行うように
することにより、誤動作を未然に防止することができ
る。また、認識結果のスコア順に認識候補を並べ、第１
位から順に出力し、ユーザからの肯定／否定の内容を判
断し、予め設定した順位の認識候補でもなお不正解であ
るような場合には、一旦、認識処理を中断し、ユーザに
対して入力し直すように指示することにより、誤動作の
防止をより一層確実に行うことができ、誤認識しやすい
単語を抽出することもできる。これにより、一定期間使
用した結果、誤認識しやすい単語については、再度、登
録し直すことをユーザに指示することも可能となり、こ
の指示に基づいて認識率の悪い単語をユーザが再登録を
行うことにより認識率を向上させることができる。

【００２９】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら説明する。この実施の形態では、本発明
を携帯電話に適用した例について説明する。

【００３０】（第１の実施の形態）図１は本発明の第１
の実施の形態を説明する構成図である。本発明の認識結
果処理装置は、概略的には、入力話者により発話された
言語（以下、この実施の形態では、入力話者から発せら
れる言語は単語であるとして説明する）の音声を分析し
て音声データを出力する音声入力手段１と、この音声入
力手段１で得られた各単語ごとの音声データを登録音声
特徴データとして記憶し、認識時には入力単語に対する
音声データを前記登録音声特徴データと比較して音声認
識を行う音声認識手段２と、前記入力話者の発する単語
の音声データと装置が持つ音声データとから変換関数を
求めるとともに、前記登録音声特徴データを作成するた
めに入力された単語に対する音声データを、前記変換関
数を用いて声質変換し、その声質変換された音声データ
を単語ごとに記憶する声質変換手段３と、認識を行うた
めに入力された単語の音声データをもとに入力言語が認
識されたとき、前記声質変換手段から読み出された認識
結果対応の声質変換後の音声データを音声として出力す
る音声出力手段４とから構成されている。

【００３１】その他に、入力話者（ユーザという）が操
作する各種のボタンスイッチ類などからなるユーザ操作
部５、全体を制御する制御部６を有したものとなってい
る。なお、この制御部６は、音声入力手段１、音声認識
手段２、声質変換手段３、音声出力手段４それぞれに持
たせることも可能である。以下、これら各構成要素につ
いて順次説明する。

【００３２】音声入力手段１は、マイクロホン１１、Ａ
／Ｄ変換部１２、音声分析部１３などから構成され、入
力された音声をＡ／Ｄ変換したのち、音声分析（たとえ
ばＬＰＣ分析）してその音声データを出力するものであ
る。

【００３３】音声認識手段２は、認識処理部２１、登録
単語データ記憶部２２、認識された単語データを記憶す
る認識単語データ記憶部２３などから構成されている。
なお、ここでは電話（携帯電話）を例にしているので、
登録単語は、前述したように、電話をかける頻度の高い
相手側の名前や略称あるいは愛称などである。

【００３４】このような登録単語を登録する際は、装置
を登録モ−ドとしたのち、入力話者（ユ−ザという）が
自分の声で、たとえば、「田中」、「佐藤」、「加藤」
などの名前を発話することによって行う。すなわち、ユ
ーザが「田中」と発話すると、その音声はＡ／Ｄ変換部
１２でディジタル変換されたのち、音声分析部１３で音
声分析されて、その特徴データ（たとえばＬＰＣケプス
トラム係数）が登録単語データ記憶部２２に記憶され
る。

【００３５】声質変換手段３は、ユーザの発する音声
（「田中」、「佐藤」、「加藤」などの名前の音声）の
声質を装置側が持っている音声の声質に近づける処理を
行うもので、声質変換処理部３１、変換関数記憶部３
２、変換関数を求めるための標準音声（装置側の音声）
データを記憶する変換関数作成用音声データ記憶部３
３、変換音声データ記憶部３４などから構成されてい
る。

【００３６】この声質変換手段３は、ユーザの発話する
音声の声質を装置側が持っている音声の声質に近づける
処理を行うものである。すなわち、前述したように、ユ
ーザが「田中」さんに電話をかけようとした場合、ユー
ザが「田中」と発話したとき、装置（携帯電話）から
「田中（ユーザの音声）さんに電話します（装置側の音
声）」というように、登録されたユーザの音声を利用し
て応答を行う場合、「田中」というユーザの音声を「さ
んに電話します」という装置側の音声に近づけるため
に、ユーザの発する音声の声質変換を行うものである。
この声質変換処理については後に詳細に説明する。

【００３７】音声出力手段４は、出力用音声データ記憶
部４１、音声合成部４２、スピーカ４３などから構成さ
れている。出力用音声データ記憶部４１は、装置側で予
め持っている出力用言語（たとえば、「誰に電話します
か」、「さんですか」、「さんに電話します」などの発
話内容）に対するそれぞれの音声データを記憶するもの
である。なお、音声合成部４２の動作については後に説
明する。

【００３８】また、ユーザ操作部５は、各種の機能を行
うためにユーザが操作する各種ボタンからの信号や、ア
ンテナの上げ下げを示す信号などを制御部６に送るもの
である。各種ボタンとして、この発明に関係あるものと
しては、たとえば、変換関数を作成するときに操作され
る変換関数作成モードボタン、認識すべき単語を登録す
るときに操作される登録モードボタン、認識を行うため
に音声を入力するときに操作される音声入力モードボタ
ン、認識結果が正しい場合に電話番号信号を発信可能と
するスタートボタンなどがある。

【００３９】以上のように構成された認識結果処理装置
において、その処理動作について説明する。まず、声質
変換手段３が行う声質変換処理について説明する。

【００４０】声質変換処理は、ユーザの発する音声の音
声データと装置側で持っている音声の音声データとを基
にして変換関数を作成してその変換関数を用いることに
より行う。この変換関数を作成する処理について簡単に
説明する。

【００４１】まず、装置のモードを変換関数作成モード
とすると、装置側から、ユーザに対して変換係数を求め
るのに適した複数の単語を発話してもらうような指示が
なされる。

【００４２】すなわち、装置側から、たとえば、「おは
ようと話して下さい」と指示がなされ、それに対してユ
ーザが「おはよう」と発話することにより、ユーザの発
する「おはよう」の音声データと装置側が持っている
「おはよう」の音声データとの差分データを求める。す
なわち、声質変換処理部３１によって、ユーザの発話し
た「おはよう」の音声データと、変換関数作成用音声デ
ータ記憶部３３に格納されている「おはよう」の音声デ
ータとから両者の差分データを求める。同様にして、
「おはよう」以外の幾つかの単語について、差分データ
を求める。

【００４３】このようにして求められたそれぞれの差分
データを基に、装置側の持っている音声の特徴データと
ユーザの発する音声の特徴データの変換関数を求め、求
められた変換関数を変換関数記憶部３２に記憶してお
く。

【００４４】このようにして、ユーザの音声と装置側で
持っている音声との変換関数を予め求めておいてそれを
装置側で記憶しておく。

【００４５】このように変換関数が求められると、次
に、装置を認識単語登録モードとし、登録すべき相手先
の名前を発話する。たとえば、登録すべき名前を「田
中」、「佐藤」、「加藤」などとすれば、「田中」と発
話したときに音声分析部１３から得られる音声データ
を、声質変換処理部３１が受けて、変換関数記憶部３２
に記憶されている変換関数を用いて変換する。つまり、
ユーザの発話する「田中」という音声データは、予め求
められている変換関数を用いて変換されることになる。
このようにして変換された「田中」という音声データは
変換音声データ記憶部３４に記憶される。同様にして、
他の登録すべき相手先の名前すべてについて、ユーザが
それぞれの名前を発話するごとに、変換関数を用いて変
換を行いそれそれ変換音声データ記憶部３４に記憶され
る。

【００４６】一方、この認識単語登録モードにおいて
は、ユーザの発話した登録すべき名前「田中」、「佐
藤」、「加藤」などのそれぞれの音声データは、登録単
語データ記憶部２２に記憶される。このように、認識単
語登録モードにおいては、登録すべき幾つかの名前のそ
れぞれの音声データが登録単語データ記憶部２２に記憶
されるとともに、前述した変換関数により変換されたそ
れぞれの名前ごとの音声データが変換音声データ記憶部
３４に記憶される。

【００４７】このような各種設定がなされた状態で、ユ
ーザが「田中」という人物に電話をかけようとする場合
について説明する。

【００４８】一般に携帯電話の場合は、電話をかける
際、アンテナを引き伸ばした状態とするのが一般的であ
る。制御部６は、このアンテナが引き伸ばされたことを
検知して、かつ、音声入力ボタンが押されたことを検知
する。

【００４９】これにより、制御部６は出力用音声データ
記憶部４１から「誰に電話しますか」などという音声を
読み出して、スピーカ４３から出力する。これに対し
て、ユーザが「田中」と発話すると、その音声は、Ａ／
Ｄ変換されたのち、音声分析部１３で音声分析される。

【００５０】認識処理部２１では、音声分析部１３での
分析された音声データと登録単語データ記憶部２２に記
憶されている複数の登録単語データとのマッチングをと
り、この場合、入力音声が「田中」であるとの認識を行
う。

【００５１】このようにして、ユーザの入力音声の認識
が行われると、その認識結果に基づいて、「田中」に対
応する変換後の音声データを変換音声データ記憶部３４
から読み出すとともに、出力用音声データ記憶部４１か
ら「さんに電話します」という音声データを読み出し
て、音声合成部４２で両者を合成して、「田中さんに電
話します」という応答データを作成し、音声信号として
スピーカ４３を介して出力する。

【００５２】このとき、「田中さんに電話します」とい
う応答内容のうち、「さんに電話します」の部分は、装
置がもともと持っている明瞭な音声（たとえば女性の音
声）であり、「田中」の部分は、認識単語の登録時にユ
ーザの入力した「田中」の音声を変換関数により変換し
て得られた音声である。したがって、「田中」の部分も
装置がもともと持っている明瞭な音声に近い音声とな
り、「田中さんに電話します」は、全体的に同じ声質の
音声となり、明瞭で聞き取りやすい音声となる。ユーザ
は、装置側からの「田中さんに電話します」の応答を聞
いてそれが正しければ、スタートボタンを押す。これに
より、すでに登録されている田中さんの電話番号が自動
的に発信される。

【００５３】図２は変換関数を用いて認識すべき登録単
語を声質変換する処理を具体的に説明するものであり、
この図２を用いて具体的に説明する。（ａ）は認識単語
登録時にユーザの発話した「田中」という音声波形であ
るとすると、この音声波形の１フレーム（たとえば２０
msec程度)について音声分析部３で周波数分析され（ス
テップｓ１）、スペクトル包絡パラメータとしてたとえ
ばＬＰＣ係数とパルス信号（残差成分から得られたパル
ス信号）を得る（ステップｓ２）。そして、ＬＰＣ係数
を前記した変換関数を用いて変換し（ステップｓ３）、
変換後のＬＰＣ係数を得る（ステップｓ４）。この処理
を（ａ）の音声波形の各フレームごとに（１フレームは
前記したように２０msec、シフト量は１０msec程度）に
処理を行い、変換後のＬＰＣ係数とパルス信号（パルス
信号はそのまま）を変換音声データ記憶部３４に記憶さ
せておく（ステップｓ５）。

【００５４】そして、認識時には、認識結果（名前）に
対応するＬＰＣ係数とパルス信号が変換音声データ記憶
部３４から読み出され（ステップｓ６）、音声合成部４
２でＬＰＣ係数とパルス信号が合成され（ステップｓ
７）、音声信号が得られる。これにより得られた音声波
形の例が（ｉ）である。

【００５５】なお、出力用音声データ記憶部４１には装
置側に予め用意された出力用音声のＬＰＣ係数とパルス
信号が記憶されており、認識された名前と出力用音声と
を連続させて出力する場合は、両者を音声合成部４２で
合成して前述したように、たとえば、「田中さんに電話
します」というような音声として出力される。

【００５６】この「田中さんに電話します」という応答
内容のうち「田中」の部分は、前述したように、装置側
で持っている音声とほぼ同じ声質の音声となり、全体と
して同じ声質の音声となるため、明瞭で聞き取りやすい
音声となる。そして、この応答内容はスピーカ４３から
出力され、ユーザがそれを聞いて正しければ、スタート
ボタンを押す。

【００５７】以上のような処理を行うことにより、装置
側から「田中さんに電話します」というような応答を行
う場合、「田中」の部分はもともとユーザの音声を使用
しているが、ユーザの音声は声質変換されて装置側の持
っている音声の声質に近い音声となっているので、「田
中さんに電話します」という応答内容全体を同じような
声質の音声とすることができ、その応答内容を聞く側に
違和感を与えることがない。

【００５８】また、「田中」の部分は明瞭な音声となる
ので、聞き間違えが少なくなり、誤ダイヤルを防止でき
る。すなわち、従来のように、ユーザが登録した音声を
そのまま読み出して出力する方式では、ユーザの音声が
明瞭性を欠くような声質である場合、たとえば、「加
藤」と「佐藤」といった誤認識し易い名前が登録されて
いると、電話をかけるときに、ユーザが「加藤」と入力
しても、「佐藤」と認識される場合もある。このとき、
装置側からは、「佐藤さんに電話します」と応答される
が、「佐藤」の部分はもともとユーザの音声そのもので
あるため、そのユーザの音声が明瞭性を欠く場合、「佐
藤」の部分が「加藤」に聞こえて、ユーザには「加藤さ
んに電話します」と聞こえる場合もある。

【００５９】このような場合、装置側で誤認識されたに
もかかわらず、正しく認識されたと判断して、スタート
ボタンを押してしまうと、そのまま、「佐藤」さんにダ
イヤルされることになるが、この実施の形態で説明した
ように、明瞭な音声で応答されるので、「加藤」と「佐
藤」などの間違いやすい名前でも明確に区別することが
できる。

【００６０】図３は以上説明した第１の実施の形態をさ
らに具体的に説明するための構成図であり、以下、この
図３を参照しながら説明する。この図３は変換関数につ
いてを具体化した例を示す構成図であり、図１と同一部
分には同一符号が付されている。

【００６１】この例では、声質変換手段３の変換関数作
成用音声データ記憶部３３が持つデータとして、標準話
者（装置側の音声）がたとえば２００単語を数回発話し
て得られた音声をコード化した標準話者コードブック３
３１と、変換関数を作成するための複数の単語（おはよ
う、こんにちわなど）のコード列データ３３２を持ち、
変換関数記憶部３２には、前記標準話者コードブック３
３１をもとに作成した入力話者コードブック３２１を持
つ。以下、この入力話者コードブック３２１を作成する
処理について説明する。

【００６２】図４は標準話者コードブック３３１を表
し、ここでは、そのサイズを２５６とし、２５６個の標
準話者コードベクトルで構成されている。そして、これ
らの標準話者のコードベクトルをＣｋ１，Ｃｋ２，Ｃｋ
３，・・・，Ｃｋ２５６で表し、実際には、２５６個の
コードベクトルで構成されるが、図４ではこのコードベ
クトルはＣｋ１，Ｃｋ２，・・・，Ｃｋ９のみが図示さ
れている。この標準話者コードベクトルは、たとえば、
２００単語程度の単語数をそれぞれの単語ごとに標準話
者に数回発話してもらったとき得られる特徴ベクトルを
ベクトル量子化して２５６個の代表のコードベクトルに
まとめたものである。このような標準話者コードブック
を用いて入力話者コードブックを作成する。

【００６３】このような標準話者コードブック３３１に
対して、たとえば、標準話者の発話データを分析して求
められた「おはよう」に対する１０次元のＬＰＣ係数か
らなる特徴ベクトル列（ここでは、図中、黒丸で示し、
特徴ベクトルＣｓ１，Ｃｓ２，・・・，Ｃｓ７で構成さ
れているものとする）をベクトル量子化する。

【００６４】つまり、「おはよう」の標準話者データの
特徴ベクトル列の各特徴ベクトルＣｓ１，Ｃｓ２，・・
・，Ｃｓ７とＣｋ１，Ｃｋ２，・・・，Ｃｋ２５６のコ
ードベクトルとの距離計算を行い、各特徴ベクトルを最
短距離のコードベクトルに対応づけると、標準話者特徴
ベクトル列の１番目と２番目の特徴ベクトルＣｓ１，Ｃ
ｓ２はコードベクトルＣｋ１と対応づけられ、３番目の
特徴ベクトルＣｓ３はコードベクトルＣｋ３と対応づけ
られ、４番目の特徴ベクトルＣｓ４はコードベクトルＣ
ｋ４と対応づけられ、５番目、６番目、７番目の特徴ベ
クトルＣｓ５，Ｃｓ６，Ｃｓ７はそれぞれコードベクト
ルＣｋ５と対応づけられる。

【００６５】これにより、「おはよう」の特徴ベクトル
列は、Ｃｋ１，Ｃｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５，Ｃ
ｋ５，Ｃｋ５のコードベクトル列に置き換えられること
になる。

【００６６】この変換関数作成用の単語の１つである
「おはよう」を量子化して得られた特徴ベクトル列（標
準話者コードベクトル列という）は、変換関数作成用単
語コードデータ列３３２として変換関数作成用データ記
憶部３３に記憶される。

【００６７】この処理を他の変換関数作成用単語につい
ても行い、それぞれの変換関数作成用単語に対する標準
話者コードベクトル列が、変換関数作成用単語コードデ
ータ列３３２として変換関数作成用データ記憶部３３に
記憶される。

【００６８】そして、変換関数を求めるために、装置側
から、「おはようと話して下さい」というようにユーザ
に対して指示が出され、ユーザが「おはよう」と発話す
ると、ユーザが「おはよう」と発話して得られたＬＰＣ
係数による特徴ベクトル列（特徴ベクトルＣｉ１，Ｃｉ
２，・・・，Ｃｉ７で構成されているものとする）を、
前記量子化された「おはよう」の標準話者コードベクト
ル列に対してＤＰマッチングにより対応付けを行う。

【００６９】これを図５に示す。なお、図５において
は、説明を分かり易くするため、標準話者コードブック
３３１の内容は、「おはよう」の標準話者コードベクト
ルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５のみを示し、他のコ
ードベクトルは図示を省略している。

【００７０】ここで、ユーザからの「おはよう」が入力
されると、その「おはよう」の特徴ベクトル列の各特徴
ベクトルＣｉ１，Ｃｉ２，・・・，Ｃｉ７（ここでは、
図中、黒丸で示し、それを入力話者特徴ベクトルとい
う）と、前記標準話者コードベクトルＣｋ１，Ｃｋ
１，Ｃｋ３，Ｃｋ４，Ｃｋ５，Ｃｋ５，Ｃｋ５とをＤＰ
マッチングにより対応づける。

【００７１】このとき、前記入力話者特徴ベクトルＣｉ
１，Ｃｉ２，Ｃｉ３，Ｃｉ４，Ｃｉ５，Ｃｉ６が図５に
示すような位置であるとすれば、前記標準話者コードベ
クトル列の各コードベクトルＣｋ１，Ｃｋ１，Ｃｋ
３，Ｃｋ４，Ｃｋ５，Ｃｋ５，Ｃｋ５とのＤＰマッチン
グをとると、この場合、入力話者特徴ベクトルＣｉ１，
Ｃｉ２はそれぞれ標準話者コードベクトルＣｋ１に対応
づけられ、入力話者特徴ベクトルＣｉ３は標準話者コー
ドベクトルＣｋ３に対応づけられ、入力話者特徴ベクト
ルＣｉ４，Ｃｉ５はそれぞれ標準話者コードベクトルＣ
ｋ４に対応づけられ、入力話者特徴ベクトルＣｉ６は標
準話者コードベクトルＣｋ５に対応づけられる。

【００７２】このようにして、入力話者特徴ベクトル列
の各特徴ベクトルと、前記標準話者コードベクトル列の
各コードベクトルとの対応付けがなされると、次に、対
応づけられたベクトル間の差分ベクトル（入力話者特徴
ベクトル−標準話者コードベクトル）を求める。この場
合、入力話者特徴ベクトルＣｉ１，Ｃｉ２はそれぞれ標
準話者コードベクトルＣｋ１に対応づけられているの
で、差分ベクトルＶ１は、入力話者特徴ベクトルＣｉ
１，Ｃｉ２の平均を取って、Ｖ１＝（Ｃｉ１＋Ｃｉ２）／２−Ｃｋ１で求められ、同様に、入力話者特徴ベクトルＣｉ３は標
準話者コードベクトルＣｋ３に対応づけられられている
ので、差分ベクトルＶ３は、Ｖ３＝Ｃｉ３−Ｃｋ３で求められ、同様に、入力話者特徴ベクトルＣｉ４，Ｃ
ｉ５はそれぞれ標準話者コードベクトルＣｋ４に対応づ
けられているので、差分ベクトルＶ４は、入力話者特徴
ベクトルＣｉ４，Ｃｉ５の平均を取って、Ｖ４＝（Ｃｉ４＋Ｃｉ５）／２−Ｃｋ４で求められ、同様に、入力話者特徴ベクトルＣｉ６は標
準話者コードベクトルＣｋ５に対応づけられているの
で、差分ベクトルＶ５は、Ｖ５＝Ｃｉ６−Ｃｋ５で求められる。すなわち、標準話者コードベクトル列の
各標準話者コードベクトルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃ
ｋ５は、入力話者特徴ベクトル列に対し、前記のように
求められたＶ１，Ｖ３，Ｖ４，Ｖ５の差分ベクトルを有
しているということである。

【００７３】このようにして、差分ベクトルＶ１，Ｖ
３，Ｖ４，Ｖ５が求められると、次に、この差分ベクト
ルを用いて、入力話者の「おはよう」に対するコードベ
クトルを求め、それを入力話者コードブック３２１にマ
ッピングする。

【００７４】ここで、求めるコードベクトルをＣｔｘで
表す（このｘはサンプリング時刻を表し、ここでは１，
３，４，５の数値を取る）と、Ｃｔ１＝Ｃｋ１＋Ｖ１Ｃｔ３＝Ｃｋ３＋Ｖ３Ｃｔ４＝Ｃｋ４＋Ｖ４Ｃｔ５＝Ｃｋ５＋Ｖ５となる。

【００７５】これらＣｔ１，Ｃｔ３，Ｃｔ４，Ｃｔ５
は、標準話者コードブック３３１における「おはよう」
の標準話者コードベクトルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃ
ｋ５と入力話者の特徴ベクトル列とを対応付けし、その
差分ベクトルＶ１，Ｖ３，Ｖ４，Ｖ５を、標準話者コー
ドブック３３１の標準話者コードベクトルＣｋ１，Ｃｋ
３，Ｃｋ４，Ｃｋ５にプラスして得られたコードベクト
ルであり、図６に示すように、標準話者コードブック３
３１のコードベクトルが差分ベクトルにより、入力話者
コードブック３２１のコードベクトルに変換される。

【００７６】ただし、この場合、「おはよう」という１
つの話者適応用の単語のみについて考えているので、４
つのコードベクトルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５の
みが変換されたコードベクトルとして求められたことに
なるが、その他の話者適応用の単語について同様の処理
を行うことにより、それに対する入力話者コードベクト
ルが作成される。

【００７７】このようにして、標準話者コードブック３
３１のコードベクトルが入力話者空間に変換されて入力
話者コードブック３２１が作成されるが、標準話者コー
ドブック３３１内に、たとえば、２５６個のコードベク
トルがあるとすると、全てが変換されるものではなく、
変換されないコードベクトル（未学習コードベクトルと
いう）も多く存在する。この未学習コードベクトルを変
換するための処理（これを補間処理という）について以
下に説明する。

【００７８】ここでは、説明を簡略化するため、多数存
在する未学習コードベクトルのうち、Ｃｋ２を入力話者
コードブック３２１へ変換するための補間処理について
図７を参照しながら説明する。

【００７９】図７において、未学習コードベクトルＣｋ
２の周辺に存在する学習済みのコードベクトルのうち、
３つのコードベクトルを選ぶ。未学習コードベクトルＣ
ｋ２の周辺には、学習済みのコードベクトルとして幾つ
かのコードベクトルが存在するが、このうち、コードベ
クトルＣｋ１，Ｃｋ４，Ｃｋ５の３個がＣｋ２に近い距
離に存在する学習済みのコードベクトルであるとする
と、これら近い距離の３つの学習済みコードベクトルを
選択し、これらのコードベクトルＣｋ１，Ｃｋ４，Ｃｋ
５に対応する前記差分ベクトルＶ１，Ｖ４，Ｖ５を用い
て、未学習コードベクトルＣｋ２に対する差分ベクトル
Ｖ２を決定する。このＶ２は、Ｖ２＝μ２１・Ｖ１＋μ２４・Ｖ４＋μ２５・Ｖ５で求められる。この式において、μ２１、μ２４、μ２
５は重みを表す係数であり、μ２１はＣｋ２とＣｋ１の
距離に応じた重み、μ２４はＣｋ２とＣｋ４の距離に応
じた重み、μ２５はＣｋ２とＣｋ５の距離に応じた重み
であることを示し、それぞれの距離に応じて重みの大き
さが設定され、μ２１＋μ２４＋μ２５＝１となるよう
に設定される。このようにして、Ｃｋ２に対する差分ベ
クトルが決定され、その差分ベクトルＶ２を用い、Ｃｔ２＝Ｃｋ２＋Ｖ２により、未学習コードベクトルＣｋ２が入力話者コード
ブック３２１のコードベクトルに変換される。

【００８０】同様にして、Ｃｋ２以外のすべての未学習
コードベクトルのそれぞれの差分ベクトルが求められ、
それぞれの差分ベクトルを用いて変換される。

【００８１】以上のような処理により、標準話者コード
ブック３３１から入力話者コードブック３２１を作成す
ることができる。

【００８２】本実施の形態ではこのように作成された入
力話者コードブック３２１を変換関数記憶部３２に持た
せておく。

【００８３】このようにして変換関数としての入力話者
コードブック３２１が作成され、変換関数記憶部３２に
格納されたのち、認識用の単語（相手先の名前など）を
登録する。

【００８４】この認識用単語の登録は前述の例と同様、
登録すべき名前を「田中」、「佐藤」、「加藤」などと
すれば、「田中」と発話したときに音声分析部１３から
得られる特徴データ（ＬＰＣ係数とパルス信号）を、声
質変換処理部３１が受けて、変換関数記憶部３２に記憶
されている入力話者コードブック３２１を用いて変換す
る。この処理について以下に説明する。

【００８５】音声分析部１３から得られる「田中」の特
徴データのうちＬＰＣ係数と、入力話者コードブック３
２１に存在するコードデータとのマッチングをとり、コ
ード化してコードデータ列を得る。そして、このコード
化されたコードデータ列と前記パルス信号を変換音声デ
ータ記憶部３４に記憶する。

【００８６】このような処理を他の登録すべき相手先の
名前すべてについて、ユーザがそれぞれの名前を発話す
るごとに、入力話者コードブック３２１を用いてコード
化し、それぞれの名前に対応するコードデータ列とその
パルス信号がそれそれ変換音声データ記憶部３４に記憶
される。このように変換音声データ記憶部３４には、認
識すべき登録単語についてのそれぞれのコードデータ列
と、そのパルス信号が記憶されることになる。

【００８７】また、出力用音声データ記憶部４１には、
「さんですか」、「さんに電話します」など予め装置が
持っている発話内容ごとのコードデータ列とそのパルス
信号が記憶されている。

【００８８】そして、前記変換音声データ記憶部３４に
記憶された内容を読み出す際は、読み出したコードデー
タ列の各コードを標準話者コードブック３３１のコード
と対応付けを行い、標準話者コード空間におけるコード
データ列を得たのち、そのコードデータの各コードに対
するＬＰＣ係数値を得る。このＬＰＣ係数値とパルス信
号を用いて音声合成部４２により音声合成を行い、音声
として出力する。なお、このとき出力されるたとえば
「田中」という音声は、ユーザの発話した「田中」とい
う音声データが装置側の持っている音声データに変換さ
れたものとなり、装置側の持っている声質に近い声質を
有する音声データとなる。

【００８９】また、前記出力用音声データ記憶部４１に
記憶された内容を読み出して出力する際も同様に、読み
出したコードデータ列の各コードを標準話者コードブッ
ク３３１のコードと対応付けを行い、標準話者コード空
間におけるコードデータ列を得たのち、そのコードデー
タの各コードに対するＬＰＣ係数値を得る。

【００９０】たとえば、「さんに電話します」という内
容について考えると、「さんに電話します」に対するコ
ードデータ列の各コードを標準話者コードブック３３１
のコードと対応付けを行い、標準話者コード空間におけ
るコードデータ列を得たのち、そのコードデータの各コ
ードに対するＬＰＣ係数値を得る。そして、前述の「田
中」と「さんに電話します」を合成して「田中さんに電
話します」という音声として出力する。

【００９１】図８は以上の処理を説明する図であり、図
８（ａ）は認識単語登録時にユーザの発話した「田中」
という音声波形であるとすると、この音声波形の１フレ
ーム（たとえば２０msec程度)について音声分析部３で
周波数分析され（ステップｓ１１）、スペクトル包絡パ
ラメータとしてたとえばＬＰＣ係数と残差成分から得ら
れるパルス信号を得る（ステップｓ１２）。そして、Ｌ
ＰＣ係数を前記した入力話者コードブック３２１を用い
てコード化し（ステップｓ１３）、そのコードデータ列
を得る（ステップｓ１４）。この処理を（ａ）の音声波
形の各フレームごとに（１フレームは前記したように２
０msec、シフト量は１０msec程度）に処理を行う。この
ようにして、「田中」という音声データに対するコード
データ列とそのパルス信号が変換音声データ記憶部３４
に記憶される（ステップｓ１５）。

【００９２】そして、認識結果に基づいて、変換音声デ
ータ記憶部３４を読み出す場合は、入力音声データの１
フレーム毎に、読み出したコードデータ列の各コードを
標準話者コードブック３３１のコードと対応付けを行
い、標準話者コード空間におけるコードデータ列を得た
のち、そのコードデータの各コードに対するＬＰＣ係数
値を得る（ステップｓ１６、ｓ１７）。この処理を入力
音声データの各フレームごとにに処理を行う。このよう
にして得られたＬＰＣ係数値とパルス信号を用いて音声
合成を行う（ステップｓ１８）。その音声波形が図８
（ｊ）である。この音声波形は変換関数により変換され
たのちの音声波形であり、装置側で持っている音声に近
い声質を有したものとなる。

【００９３】以上のように、ユーザが発話した登録すべ
き名前「田中」、「佐藤」、「加藤」などのそれぞれの
音声の特徴データは、それぞれの名前に対応するＬＰＣ
係数が入力話者コードブック３２１によりコード化され
そのコードデータ列とパルス信号が、変換音声データ記
憶部３４に記憶されるが、それぞれの名前に対する特徴
データのＬＰＣケプストラムは、認識を行う際の音声特
徴データとして、登録単語データ記憶部２２に記憶され
る。

【００９４】今、ユーザが「田中」という人物に電話を
かけようとする場合について説明する。

【００９５】前述したように、制御部６がアンテナが引
き伸ばされたことを検知して、かつ、音声入力ボタンが
押されたことを検知する。これにより、制御部６は出力
用音声データ記憶部４１から「誰に電話しますか」など
という音声を読み出して、スピーカ４３から出力する。
これに対して、ユーザが「田中」と発話すると、その音
声は、Ａ／Ｄ変換されたのち、音声分析部１３で音声分
析される。

【００９６】認識処理部２１では、音声分析部１３で得
られたＬＰＣケプストラムを用いて、そのＬＰＣケプス
トラムと登録単語データ記憶部２２に記憶されている複
数の登録単語データ（ＬＰＣケプストラム）とのマッチ
ングをとり、この場合、入力音声が「田中」であるとの
認識を行う。

【００９７】このようにして、ユーザの入力音声の認識
が行われると、装置側からは、「田中さんに電話しま
す」という応答がなされる。すなわち、「田中」という
認識結果に基づいて、変換音声データ記憶部３４に記憶
された内容のうち、「田中」に対するコードデータ列と
パルス信号が読み出され、読み出されたコードデータ列
の各コードを標準話者コードブック３３１のコードと対
応付けを行い、標準話者コード空間におけるコードデー
タ列を得たのち、そのコードデータの各コードに対する
ＬＰＣ係数値を得る。このＬＰＣ係数値とパルス信号を
用いて音声合成部４２により音声合成を行い、音声とし
て出力する。なお、このとき出力されるたとえば「田
中」という音声は、ユーザの発話した「田中」という音
声データが装置側の持っている音声データに変換された
ものとなり、装置側の持っている性質に近い声質を有す
る音声データとなる。

【００９８】そして、さらに、前記出力用音声データ記
憶部４１に記憶された内容のうち、「さんに電話しま
す」に対するコードデータ列の各コードを標準話者コー
ドブック３３１のコードと対応付けを行い、標準話者コ
ード空間におけるコードデータ列を得たのち、そのコー
ドデータの各コードに対するＬＰＣ係数値を得る。そし
て、前述の「田中」とこの「さんに電話します」を音声
合成部４２で合成して「田中さんに電話します」という
音声として出力する。

【００９９】このとき、「田中さんに電話します」とい
う応答内容のうち、「さんに電話します」の部分は、装
置がもともと持っている明瞭な音声であり、「田中」の
部分は、認識単語の登録時にユーザの入力した「田中」
の音声を装置が持っている声に近い声質に変換して得ら
れた音声である。したがって、「田中」の部分も装置が
もともと持っている明瞭な音声に近い音声となり、「田
中さんに電話します」は、全体的に同じ声質の音声とな
り、明瞭で聞き取りやすい音声となる。ユーザは、装置
側からの「田中さんに電話します」の応答を聞いてそれ
が正しければ、スタートボタンを押す。これにより、予
め登録してある田中さんの電話番号が自動的に発信され
る。

【０１００】（第２の実施の形態）この第２の実施の形
態は、ユーザと装置側との対話内容として、認識結果が
正しいか否かを装置側からユーザに問い合わせ、ユーザ
の正しいか否かを示す返事を装置側で判断して、それ以
降の処理を行う例である。このときの装置側とユーザと
の対話内容の一例としては、装置：「誰に電話しますか」話者：「田中」装置：「田中さんですか」話者：「はい」装置：「田中さんに電話します」あるいは、装置：「誰に電話しますか」話者：「加藤」装置：「佐藤さんですか」話者：「いいえ」装置：「加藤さんですか」話者：「はい」装置：「加藤さんに電話します」といったような内容となる。

【０１０１】このような対話内容において、装置側から
の応答内容のなかで、相手先の名前（「田中」、「加
藤」、「佐藤」）の部分は、前述の第１の実施の形態で
説明したように、話者の発話した「田中」という音声を
変換関数を用いて変換したあとの音声である。なお、こ
の変換処理については第１の実施例で説明したのでここ
では省略する。

【０１０２】このように、ユーザの「はい」や「いい
え」などの肯定／否定を示す応答内容を装置側で判断し
て、それに応じた処理を行うようにする。以下、これに
ついて具体的に説明する。

【０１０３】この第２の実施の形態を実現するための構
成としては、第１の実施の形態の説明で用いた図１にお
いて、登録単語データ記憶部２２に、相手先の名前（愛
称なども含む）の音声データを登録するとともに、話者
の発話する「はい」や「いいえ」といった肯定／否定を
表す単語データを登録しておくことで実現できる。な
お、ここでは、肯定を示す言葉として「はい」、否定を
示す言葉として「いいえ」を用いることにする。

【０１０４】この「はい」や「いいえ」は、話者が認識
用の単語（相手先の名前）を登録するときに登録してお
く。つまり、「田中」、「加藤」、「佐藤」といった相
手先の名前のそれぞれの音声データの登録とともに、ユ
ーザが「はい」、「いいえ」と発話して、その「は
い」、「いいえ」のそれぞれの音声データを登録単語デ
ータ記憶部２２に登録しておく。

【０１０５】このような構成において、話者が、たとえ
ば、「加藤」と発話したとき、装置が誤認識して「佐藤
さんですか」と応答したとする。これにより、話者が
「いいえ」と発話すると、今度は、装置側からは「加藤
さんですか」と応答する。そこで、話者が「はい」と発
話すると、装置側からは「加藤さんに電話します」と応
答する。これによって、話者がスタートボタンを押すと
予め登録されている加藤さんの電話番号が自動発信され
る。

【０１０６】なお、以上の一連の対話処理において、装
置側からの応答のうち「加藤」や「佐藤」の部分は、前
述の第１の実施の形態で説明したように、ユーザの音声
データを変換関数を用いて変換した後の音声データによ
る声質となっている。

【０１０７】以上のように、話者の発話する肯定／否定
の内容（「はい」、「いいえ」）を判断して、肯定を表
す「はい」を判断したときに、所望とする動作、つま
り、対応する相手先の電話番号を発信する処理を行う
が、否定を表す「いいえ」が何回か続いたとき、つま
り、ユーザの発話した相手先の名前が正しく認識されな
かったときは、認識処理を一旦打ち切って、ユーザに対
して再度入力を促すようにする。

【０１０８】たとえば、装置が「誰に電話しますか」と
問いかけたとき、話者：「加藤」装置：「佐藤さんですか」話者：「いいえ」装置：「斉藤さんですか」話者：「いいえ」といったように、この場合は２回連続してユーザから
「いいえ」が出され、それを装置側で判定したときは、
装置側から、「もう一度名前を言ってください」という
ような問いかけを行う。

【０１０９】このような処理を行うには、装置側で「誰
に電話しますか」と発話した後、ユーザからの「いい
え」を認識した回数をカウントし、そのカウント回数が
予め設定した値となった場合、装置側から「もう一度名
前を言ってください」というような問いかけを行うよう
にする。

【０１１０】すなわち、ユーザが「加藤」と発話し、装
置側でその音声の特徴データにより認識処理を行った結
果、認識結果の認識スコア順に認識候補を抽出する。そ
して、第１位の認識候補がたとえば「佐藤」であった場
合は、最初に「佐藤さんですか」と応答し、ユーザから
「いいえ」が出された場合は、第２位の認識候補がたと
えば「斉藤」であった場合は、「斉藤さんですか」と応
答する。これに対してユーザの応答が「いいえ」であっ
た場合は、認識処理を打ち切ってユーザに対し、再度入
力を促す。この処理は制御部６により行うことができ
る。

【０１１１】また、ユーザがこのような音声自動ダイヤ
ルを利用するうち、誤認識される率の高い名前というの
がある。たとえば、前述したように、ユーザが「加藤」
という人物に電話をかける際、「加藤」と発話したにも
かかわらず、毎回、第１位の認識候補として「佐藤」が
抽出される場合がある。このように、誤認識される率の
高い名前については、再度登録し直すようにユーザに促
す。

【０１１２】すなわち、ユーザと装置側との対話の中
で、たとえば、ユーザが「加藤」と発話したにもかかわ
らず、装置側では第１位の認識候補として「佐藤」が抽
出され、それに対して、ユーザが「いいえ」と発話した
場合、ユーザの発話する「加藤」、装置の認識結果であ
る「佐藤」、それに対するユーザからの「いいえ」など
のデータを基に、このような誤認識処理が一定の回数を
重ねた場合、「加藤」と「佐藤」は誤認識が多いと判断
して、これらの単語については、ユーザに対して、再
度、登録し直すような指示を行う。

【０１１３】ところで、話者の発話内容から肯定／否定
を判定する手段としては、前述の例では、肯定／否定を
表す単語としてユーザが予め「はい」「いいえ」を認識
単語として装置側に登録し、実際の運用時にユーザの発
話する「はい」または「いいえ」を認識するようにした
が、このような方法に限らず、たとえば、図９に示され
るように、肯定否定識別部を別に用意して肯定／否定を
判断するようにしてもよい。

【０１１４】図９においては図１に示した音声認識手段
２に肯定否定識別部２４を設けたもので、それ以外の他
の構成は図１と同様であるので、図１と同一部分には同
一符号が付されている。

【０１１５】肯定否定識別部２４は、図示されていない
が主に演算器と処理プログラムを記憶しているＲＯＭか
ら構成され、話者の話した音声が肯定語か否定語かを判
定するものである。つまり、装置からの応答が話者に対
して肯定か否定かの返事を求めるような内容の場合、そ
の返事が肯定の意味か否定の意味かを判別する。この場
合、話者の発話内容は、肯定の場合、「はい」などの他
に、「うん」、「そうです」などでもよく、否定の場合
は、「いいえ」の他に、「ちがう」などでもよい。

【０１１６】この肯定否定識別部２４は、音声分析部１
３から出力される前記したような肯定否定を意味する返
事に対する音声の特徴ベクトル列における最初に出現す
る母音部を抽出し、抽出された母音部の種類によって、
話者の返事が肯定か、否定かを検出して、肯定であれば
肯定であることを示す信号Ｙを、否定であれば否定であ
ることを示す信号Ｎを制御部６に出力する。

【０１１７】すなわち、話者の返事に対する音声の特徴
ベクトル列における最初に出現する母音部が、「ａ」、
「ｕ」、「ｏ」であった場合には、話者の返事は肯定を
意味する内容であると判断し、これに対して、最初に出
現する母音部が、「ｉ」、「ｅ」であった場合には、話
者の返事は否定を意味する内容であると判断する。たと
えば、話者の返事が「はい（ｈａｉ）」、「うん（ｕ
ｎ）」、「そうです（ｓｏｕｄｅｓｕ）」などのように
肯定を意味する内容である場合には、最初に出現する母
音は、この場合、「ａ」、「ｕ」、「ｏ」であり、ま
た、話者の返事が「いいえ（ｉｉｅ）」、「違う（ｔｉ
ｇａｕ）」などのように否定を意味する内容である場合
には、最初に出現する母音は、いずれも「ｉ」である。
これは、統計的なデータから検討した結果であり、これ
によって１００％に近い正解率が得られることがわかっ
ている。

【０１１８】なお、母音の抽出方法の一例としては、複
数話者の音声を用いて予め得られている各母音の特徴ベ
クトル群のそれぞれの特徴ベクトルに対し、入力音声の
時系列に沿った特徴ベクトル列の各特徴ベクトルを、時
系列に従って１つづつ距離などで比較して行き、その距
離が或るしきい値よりも小さいなどの条件を用いて、母
音部を抽出する方法が考えられる。たとえば、「そうで
す（ｓｏｕｄｅｓｕ）」という入力音声があった場合、
その特徴ベクトル列の１つ１つの特徴ベクトルを、
「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の各特徴ベク
トルとの距離を比較すると、この場合、最初に、「ｏ」
の特徴ベクトルとの距離が或るしきい値以下になる可能
性が高く、これにより、「そうです」という単語に最初
に現れる母音は「ｏ」であるということが検出される。

【０１１９】このような母音による肯定否定識別部２４
を用いての肯定／否定の正解率は極めて高い。また、こ
の肯定否定識別部２４を用いての肯定／否定識別は、不
特定話者音声認識で実現できるので、ユーザが予め登録
しておく必要がなく、使い勝手がよい。

【０１２０】このように第２の実施の形態では、認識結
果が正しいか否かを装置側からユーザに対して問い合わ
せ、ユーザからの正しいという応答を判断したときの
み、所望の動作を行うようにすることにより、誤動作を
未然に防止することができる。また、認識結果のスコア
順に認識候補を並べ、第１位から順に出力し、ユーザか
らの肯定／否定の内容を判断し、予め設定した順位の認
識候補でもなお不正解であるような場合には、一旦、認
識処理を中断し、ユーザに対して入力し直すように指示
することにより、誤動作の防止をより一層確実に行うこ
とができ、また、誤認識しやすい単語を抽出することも
できる。これにより、一定期間使用した結果、誤認識し
やすい単語については、再度、登録し直すことをユーザ
に指示することも可能となる。この指示に基づいて認識
率の悪い単語をユーザが再登録を行うことにより認識率
を向上させることが期待でき、同じ単語についてその動
作を繰り返すことにより認識率を段階的に向上させるこ
とができる。

【０１２１】なお、以上説明した各実施の形態は、本発
明の好適な実施の形態の例であるが、これに限定される
ものではなく、本発明の要旨を逸脱しない範囲で、種々
変形実施可能である。たとえば、前記各実施の形態で
は、本発明を携帯電話の自動ダイヤル処理に適用した例
について説明したが、本発明は携帯電話だけではなく、
携帯電話以外の電話にも適用することができ、また、電
話だけではなく他の機器にも適用できるものである。

【０１２２】また、ユーザの音声を装置の音声に変換す
る手段として、第１の実施の形態では、装置側の標準話
者コードブック３３１から入力話者コードブック３２１
を作成し、これらのコードブックを用いて変換する例に
ついて説明したが、これに限られるものではなく、他の
変換手段を用いてもよいことは勿論である。

【０１２３】また、前述の実施の形態では、変換関数を
作成する際、ユーザに変換関数作成用の単語を幾つか発
話してもらい、その特徴データを基に変換関数を作成す
るようにしたが、装置との対話中の音声を用いて教師デ
ータなしで変換関数を作成することも可能である。

【０１２４】なお、本発明の処理を行う処理プログラム
は、フロッピィディスク、光ディスク、ハードディスク
などの記憶媒体に記憶させておくことができ、本発明
は、それらの記憶媒体をも含むものであり、また、ネッ
トワークからデータを得る形式でもよい。

【０１２５】

【発明の効果】以上説明したように本発明によれば、入
力話者の発する言語の音声データと装置が持つ音声デー
タとから変換関数を求め、登録言語の音声特徴データを
作成するために入力された言語に対する入力話者の音声
データを、その変換関数を用いて声質変換し、その声質
変換された音声データを記憶しておき、認識時には、認
識結果に対応した声質変換後の音声データを読み出して
出力するようにしている。これにより、入力話者の明瞭
性に欠ける音声でも装置側で持っている声質の音声とな
るので、明瞭で聞き易い音声とすることができる。

【０１２６】また、装置側で入力話者が登録するときに
入力した音声を読み出して、装置側で用意された音声と
を連続させた応答内容とした場合、ユーザの音声を装置
が持っている音声の声質に近い声質とすることができ、
全体的に同じような声質の音声とすることができる。し
かも装置側で用意した声質とすることにより、明瞭性が
高いものとなり、その応答内容を入力話者が聞いて装置
を作動させるような場合、誤動作を未然に防止できる。

【０１２７】また、入力話者の音声を装置の持つ音声に
変換する手段として、装置側の持つ音声データにより作
成された標準話者コードブックを用い、入力話者の発話
する幾つかの言語に対する音声データから入力話者コー
ドブックを作成して、登録すべき言語の音声特徴データ
を作成するために入力された入力話者の複数の言語に対
するそれぞれの音声データを、前記入力話者コードブッ
クを用いてそれぞれの言語ごとにコード化し、それぞれ
の言語ごとの変換データを得るようにすることにより、
入力話者の音声を装置側の音声に変換するための変換関
数を得る処理をわずかな単語を入力するだけで行うこと
ができ、しかも高精度な変換が可能となる。

【０１２８】さらに、本発明では、認識結果が正しいか
否かを装置側からユーザに対して問い合わせ、ユーザか
らの正しいという応答を判断したときのみ、所望の動作
を行うようにすることにより、誤動作を未然に防止する
ことができる。また、認識結果のスコア順に認識候補を
並べ、第１位から順に出力し、ユーザからの肯定／否定
の内容を判断し、予め設定した順位の認識候補でもなお
不正解であるような場合には、一旦、認識処理を中断
し、ユーザに対して入力し直すように指示することによ
り、誤動作の防止をより一層確実に行うことができ、ま
た、誤認識しやすい単語を抽出することもできる。これ
により、一定期間使用した結果、誤認識しやすい単語に
ついては、再度、登録し直すことをユーザに指示するこ
とも可能となる。この指示に基づいて認識率の悪い単語
をユーザが再登録を行うことにより認識率を向上させる
ことが期待できる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態を説明する構成図。

【図２】第１の実施の形態においてユーザの音声を装置
側の音声に近づけるための声質変換処理の流れを説明す
る図。

【図３】第１の実施の形態においてユーザの音声を装置
側の音声に近づけるための声質変換する手段について具
体的に説明するための構成図。

【図４】図３で示した構成における声質変換を行うため
の入力話者コードブックを作成する処理を説明する図
で、標準話者コードブック内のコードベクトルと入力話
者の特徴ベクトルとの対応付けを説明する図。

【図５】ある１つの単語における標準話者コードベクト
ル列と入力話者特徴ベクトル列との対応付けを説明する
図。

【図６】図３で示した構成における声質変換を行うため
の入力話者コードブックを作成する処理を説明する図
で、差分ベクトルを用いて標準話者コードブックの学習
済みコードベクトルを入力話者コードブックに変換する
処理を説明する図。

【図７】図３で示した構成における声質変換を行うため
の入力話者コードブックを作成する処理を説明する図
で、未学習コードベクトルを入力話者コードブックに変
換する処理を説明する図。

【図８】図３で示した構成におけるユーザの音声を装置
側の音声に近づけるための声質変換処理の流れを説明す
る図。

【図９】本発明の第２の実施の形態を説明する構成図で
あり、入力話者の肯定／否定の内容を識別する肯定否定
識別部を設けた例を示す図。

【符号の説明】

１音声入力手段２音声認識手段３声質変換手段４音声出力手段５ユーザ操作部６制御部１２Ａ／Ｄ変換部１３音声分析部２１認識処理部２２登録単語データ記憶部３１声質変換処理部３２変換関数記憶部３３変換関数作成用データ記憶部３４変換音声データ記憶部４１出力用音声データ記憶部４２音声合成部４３スピーカ３２１入力話者コードブック３３１標準話者コードブック

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 3/00 ５７１Ｇ１０Ｌ 3/00 ５７１Ｈ 3/02 3/02 Ａ

Claims

【特許請求の範囲】

【請求項１】入力話者の発する言語の音声データと装
置が持つ音声データとから変換関数を求め、認識用とし
て登録される言語の音声特徴データを作成するために入
力された言語に対する入力話者の音声データを、前記変
換関数を用いて声質変換し、その声質変換された音声デ
ータを変換音声データ記憶部に記憶しておき、認識時には、認識を行うために入力された言語の音声特
徴データと前記登録された音声特徴データとから入力言
語を認識し、その認識結果に対応した声質変換後の音声
データを前記変換音声データ記憶部から読み出して出力
することを特徴とする認識結果処理方法。
【請求項２】前記変換音声データ記憶部から認識結果
に対応した声質変換後の音声データを読み出して出力す
る際、声質変換後の入力話者の発話した言語に対する音
声データと装置側で予め持っている言語に対する音声デ
ータとを合成し、両者の言語を連続させて或る発話内容
を構成して出力することを特徴とする請求項１記載の認
識結果処理方法。
【請求項３】前記声質変換後の入力話者の発話した言
語と装置側で予め持っている言語とを連続させて或る発
話内容を出力する際、認識が正しく行われたか否かを表
す入力話者からの言語を認識して、その認識結果に対応
した発話内容を構成し、認識が正しく行われたことを表
す入力話者からの言語を認識した場合に、所望とする動
作を行うことを意味する発話内容を出力することを特徴
とする請求項２記載の認識結果処理方法。
【請求項４】前記声質変換後の入力話者の発話した言
語と装置側で予め持っている言語とを連続させて或る発
話内容を出力する際、入力話者の発話した言語に対する
認識結果をスコア順に抽出し、そのスコア順に抽出され
た認識結果と装置がわで持っている言語とを連続させて
出力し、その出力結果に対して認識が正しく行われたか
否かを表す入力話者からの言語を認識して、予め定めた
順位までの認識候補の認識が正しく行われなかったこと
を表す入力話者からの言語を認識した場合に、再度入力
を促す発話内容を出力することを特徴とする請求項２記
載の認識結果処理方法。
【請求項５】前記認識が正しく行われたか否かを表す
入力話者からの言語を認識する際、認識が正しく行われ
なかったことを表す入力話者からの音声をもとに、誤認
識される率の高い認識用言語を判定し、その言語につい
ては再度登録するような指示を出力することを特徴とす
る請求項３または４の認識結果処理方法。
【請求項６】前記入力された或る言語に対する音声デ
ータを、変換関数を用いて声質変換する処理は、装置側の持つ音声データから標準話者コードブックを作
成し、この標準話者コードブックを用いて入力話者の発
話する幾つかの言語に対する音声データから入力話者コ
ードブックを作成し、登録すべき言語の音声特徴データ
を作成するために入力された入力話者の複数の言語に対
するそれぞれの音声データを、前記入力話者コードブッ
クを用いてそれぞれの言語ごとにコード化し、それぞれ
の言語ごとの変換データを得て、これら各変換データを
変換音声データ記憶部に記憶させておき、認識時には、認識を行うために入力された入力話者の音
声データをもとに入力言語を認識し、前記変換音声デー
タ記憶部から認識結果に対応したデータを読み出してそ
のデータを前記標準話者コードブックにより標準話者音
声データ空間のデータに変換して出力することを特徴と
する請求項１から５のいずれかに記載の認識結果処理方
法。
【請求項７】入力話者により発話された言語の音声を
分析して音声データを出力する音声入力手段と、この音声入力手段で得られた各言語ごとの音声データを
登録音声特徴データとして記憶し、認識時には入力言語
に対する音声データを前記登録音声特徴データと比較し
て音声認識を行う音声認識手段と、前記入力話者の発する言語の音声データと装置が持つ音
声データとから変換関数を求めるとともに、前記登録音
声特徴データを作成するために入力された言語に対する
音声データを、前記変換関数を用いて声質変換し、その
声質変換された音声データを言語ごとに記憶する声質変
換手段と、認識を行うために入力された言語の音声データをもとに
入力言語が認識されたとき、前記声質変換手段から読み
出された認識結果対応の声質変換後の音声データを音声
として出力する音声出力手段と、を少なくとも有することを特徴とする認識結果処理装
置。
【請求項８】前記音声出力手段は、装置側で予め持っ
ている出力用言語に対する音声データを記憶する出力用
音声データ記憶部と、この出力用音声データ記憶部に記
憶された音声データと前記声質変換後の入力話者の音声
データとを合成し、声質変換後の入力話者の発話した言
語と装置側で予め持っている言語とを連続させて或る発
話内容を構成して出力する音声合成部とを有したことを
特徴とする請求項７記載の認識結果処理装置。
【請求項９】前記声質変換後のユーザの発話した言語
と装置側で予め持っている言語とを連続させて或る発話
内容を出力する際、認識が正しく行われたか否かを表す
入力話者からの言語を認識して、その認識結果に対応し
た発話内容を構成し、認識が正しく行われたことを表す
入力話者からの言語を認識した場合に、所望とする動作
を行うことを意味する発話内容を出力することを特徴と
する請求項８記載の認識結果処理装置。
【請求項１０】前記声質変換後の入力話者の発話した
言語と装置側で予め持っている言語とを連続させて或る
発話内容を出力する際、入力話者の発話した言語に対す
る認識結果をスコア順に抽出し、そのスコア順に抽出さ
れた認識結果と装置がわで持っている言語とを連続させ
て出力し、その出力結果に対して認識が正しく行われた
か否かを表す入力話者からの言語を認識して、予め定め
た順位までの認識候補の認識が正しく行われなかったこ
とを表す入力話者からの言語を認識した場合に、再度入
力を促す発話内容を出力することを特徴とする請求項８
記載の認識結果処理装置。
【請求項１１】前記認識が正しく行われたか否かを表
す入力話者からの言語を認識する際、認識が正しく行わ
れなかったことを表す入力話者からの音声をもとに、誤
認識される率の高い認識用言語を判定し、その言語につ
いては再度登録するような指示を出力することを特徴と
する請求項９または１０の認識結果処理装置。
【請求項１２】前記声質変換手段は、変換音声データ
記憶部と、装置側の持つ音声データにより作成された標
準話者コードブックと、この標準話者コードブックを用
い、入力話者の発話する幾つかの言語の音声データから
作成した入力話者コードブックと、登録言語の音声特徴
データを作成するために入力された入力話者の或る言語
に対する音声データを、前記入力話者コードブックを用
いてそれぞれコード化し、それぞれの言語ごとの変換デ
ータを得て、それぞれの言語ごとの変換データを前記変
換音声データ記憶部に記憶させる声質変換処理部とを有
し、認識を行うために入力された或る言語に対する音声デー
タを声質変換する処理は、入力された入力話者の音声デ
ータをもとに入力言語を認識し、その認識結果に対応し
た変換データを前記変換音声データ記憶部から読み出し
てその変換データを前記標準話者コードブックにより標
準話者音声データ空間のデータに変換して出力すること
を特徴とする請求項７から１１のいずれかに記載の認識
結果処理装置。