JPH08123461A

JPH08123461A - 個人情報カードを用いた音声インタフェースシステム

Info

Publication number: JPH08123461A
Application number: JP6254996A
Authority: JP
Inventors: Toshiyuki Aritsuka; 俊之在塚; Hiroaki Kokubo; 浩明小窪
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-10-20
Filing date: 1994-10-20
Publication date: 1996-05-17

Abstract

(57)【要約】【目的】個人情報をメモリカードに格納し、これを用
いて音声インタフェースシステムを個人に特化すること
により、システムの音声入出力を個人適合させることを
目的とする。【構成】データ記憶部およびデータ送受信手段を有す
る情報カードであって、該データ記憶部に、個人情報デ
ータとして、音声の特徴およびまたは音声辞書およびま
たは聴覚の特徴およびまたは好み情報およびまたは登録
音声およびまたは付加情報を格納し、音声インタフェー
スシステムが該個人情報データを使用することによっ
て、該音声インタフェースシステムの音声処理を使用者
に特化する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータ蓄積カードおよび
音声インタフェース利用システムに関する。

【０００２】

【従来の技術】情報伝達手段としての音声は、話者や発
話環境、健康状態等によって様々に変化する、また受聴
する場合も、聴覚や好みによって異なった特徴を有する
ことが要求される。したがって、音声をユーザインタフ
ェースとして利用する際には、このような多様な音声の
特徴を考慮することが必要となる。

【０００３】これに対し、入力音声を認識する方法とし
てこれまでは、例えば古井、「ディジタル音声処理」
（第８章音声認識、1985、東海大学出版会）記載のよう
に、使用者を予め特定し、該使用者に特化した処理方法
を用いて使用者の入力した音声を認識する方法が行われ
ていた。また、一般化した処理方法を用いて不特定の使
用者の入力した音声を認識する方法が行われていた。

【０００４】一方、出力音声は、システムにおいて予め
定められた特定の話者の特定の発話状態における音声パ
ラメータを用いて合成した音声や予め登録されている録
音音声を再生して出力する方法が用いられていた。

【０００５】情報を蓄積する媒体として従来は、磁性
体、スタティックＲＡＭ、一括消去型不揮発性メモリが
用いられていた。

【０００６】

【発明が解決しようとする課題】特定の使用者に特化し
た処理方法を用いて入力音声を認識するシステムでは、
該システムを利用することのできる使用者が制限される
という問題があった。

【０００７】予め特定された使用者においても、発話環
境や健康状態、使用形態等の状態が変わった場合には所
要の性能を得ることができないという問題があった。

【０００８】一般化した処理方法を用いて不特定の使用
者の入力した音声を認識するシステムは、任意の話者を
想定することが不可能なため、十分な性能を得ることが
困難であるという問題があった。

【０００９】システムの音声応答が、予め定められた音
質に限られ、使用者の好みや聴覚に適合させることが困
難であるという問題があった。

【００１０】音声パスワードを用いて話者照合を行う際
に、使用者の発声変形や経時変化によって照合が困難に
なるという問題があった。

【００１１】一方、情報カードのデータ記録媒体のなか
で、磁性体は記憶容量が限られており、外部磁気によっ
て記録情報が変形したり失われやすいという問題があっ
た。スタティックＲＡＭはデータを保持するために電源
を必要とするという問題があった。また、一括消去型不
揮発性メモリはデータの部分的更新が不可能であるとい
う問題があった。

【００１２】

【課題を解決するための手段】上記の問題を解決するた
めに、データ記憶部およびデータ送受信手段を有する情
報カードに、個人情報データとして、音声の特徴および
または音声辞書およびまたは聴覚の特徴およびまたは好
み情報およびまたは登録音声およびまたは付加情報を格
納し、音声インタフェースシステムが該個人情報データ
を使用することによって、該音声インタフェースシステ
ムの音声処理を使用者に特化する手段を設けた。

【００１３】音声の特徴として、使用者の発声による音
声標準パターンを用いて入力音声の認識を行う手段を設
けた。

【００１４】音声の特徴として、使用環境や体調によっ
て異なる、使用者の発声の特徴ごとに用意した音声標準
パターンを用いて入力音声の認識を行う手段を設けた。

【００１５】使用者の発声による音声の特徴として、音
声インタフェースシステム内の音声標準パターンと使用
者の音声標準パターンとの差分データを用いて入力音声
の認識を行う手段を設けた。

【００１６】音声辞書として、使用者の発声頻度の高い
音声パターンおよび発声頻度を格納し、これを用いて入
力音声の認識を行う手段を設けた。

【００１７】聴覚の特徴として、使用者の可聴域周波数
特性を用いて出力音声の周波数特性を調整する手段を設
けた。

【００１８】好み情報として、発話速度およびまたは平
均ピッチを用いて出力音声の発話速度およびまたは平均
ピッチを調整する手段を設けた。

【００１９】使用者の発声による登録音声および音声標
準パターンを用いて使用者の認証を行う手段を設けた。

【００２０】個人情報の経時変化に基づいて記録データ
を更新する手段を設けた。

【００２１】データ記憶部にフラッシュメモリを用い
た。

【００２２】

【作用】個人情報をシステム外の記憶媒体に格納し、使
用時にシステムに該媒体をシステムに接続する手段を用
いることにより、システムが使用者個人の情報を保持し
ないため、多数の使用者の個人情報を格納するための記
憶部が不要となる。また、システムの音声インタフェー
スを個人に特化するため音声認識精度が高くなる。さら
に、話者の声質が登録時と異なる場合にも話者照合を正
確に行うことが可能になる。使用する度に調整を行わず
に、出力音声を使用者の好みや聴覚に適合させることが
可能となる。

【００２３】記憶媒体としてフラッシュメモリを用いる
ことにより、電源を用いずにデータを保持することが可
能となり、容積を小さくすることが可能となる。また、
容易に部分的に書き込み処理ができるため、適宜データ
の更新を行うことが可能となる。さらに、データ読み出
し速度が大きいため、個人情報をシステムにロードせず
に、直接カード内のデータにアクセスすることが可能と
なる。

【００２４】

【実施例】以下、本発明の実施例を図を用いて説明す
る。

【００２５】図１は本発明である個人情報カードおよび
これを用いる音声インタフェースシステムの１実施例を
説明する図である。図１において、１０１は個人情報カ
ードを表す。個人情報カード１０１は、例えばフラッシ
ュメモリを内蔵し、コネクタを介して外部とデータの授
受を行う。フラッシュメモリに記憶する個人情報データ
は、音声インタフェースシステムにおける音声出力を制
御するパラメータ１０２、使用者が利用時にシステムか
ら出力するための音声データや読み上げ用テキストデー
タ等の個人付加情報１０３、入力音声をシステムが認識
する際に、認識パラメータを個人に特化するための音声
入力制御パラメータ１０４、認識対象として発声頻度の
高い音声パターンを登録する発声候補辞書１０５、およ
び話者認証のための音声パスワードとしての登録音声パ
ターン１０６を有する。

【００２６】音声インタフェースシステム１０７は、シ
ステム制御部１０８および音声インタフェース部１０９
を有し、コマンド、データ等のシステムの使用者に対す
る入出力を音声を利用して行う。なお、音声インタフェ
ース以外のシステムに関する一般的な処理手段ゃ制御手
段やデータ記憶手段などはシステム制御部に含まれるも
のとする。例えば、後の説明に用いられるテキスト、音
声番号、音声信号のデータもシステム制御部に含まれ
る。また、Ｉ／Ｏ装置等のシステム制御に必要な部分
は、本図においては省略してある。１１０はシステム制
御部の応答や制御信号および音声インタフェース部から
のコマンドやデータの流れを表す。

【００２７】音声インタフェース部１０９は、使用者が
該システムを利用する際に、音声によるコマンドやデー
タの入力、システム応答等の音声による出力を行う。こ
のとき使用者は、個人情報カード１０１をシステムのス
ロット等に挿入し、該個人情報カード１０１に格納され
ている個人情報データを用いることにより音声インタフ
ェース部１０９の音声処理を使用者に特化する。１１１
は、システムと個人情報カード間の制御信号やデータの
流れを表す。

【００２８】以下、各音声処理ごとに音声インタフェー
ス部１０９の動作を説明する。

【００２９】音声インタフェース制御部１１２は、シス
テム制御部の制御信号にしたがってシステムおよび個人
情報カードとの間でデータを授受し、音声再生部１１
４、音声認識部１１５、話者照合部１１６を制御する。

【００３０】音声再生部１１４は、音声インタフェース
制御部１１２からシステム出力テキストデータまたは、
予め録音されている音声の再生番号を受け取る。音声再
生部１１４は、音声規則合成処理を行ってテキストデー
タから音声信号を生成するか、再生番号に対応する録音
音声信号を選択し、該音声信号に対しさらに音質加工処
理を行って音声信号の音質を加工する。この時、音声再
生部は個人情報カードに格納されている発話速度や声の
高さ等の使用者の好み情報や、聴覚特性データを用いて
再生音声を使用者に特化する。再生音声１１７は、Ｄ／
Ａ変換部１１８でアナログ信号に変換され、フィルタ１
１９を通してアンプ１２０で増幅された後スピーカ１２
１から出力される。

【００３１】また、例えば使用者によるシステムに対す
る個人付加情報再生命令の入力により、システム出力の
かわりに、個人情報カードに個人付加情報として予め格
納されていた音声データまたはテキストデータを用い
て、音声を再生して出力する。逆に、例えば使用者によ
るシステムに対する個人付加情報格納命令の入力によ
り、システム出力のテキストデータや、音声再生部で作
成した音声データを新たな個人付加情報として個人情報
カードに格納する。

【００３２】システムに対するコマンドやデータ、パス
ワード等の音声入力は、マイクロフォン１２２を通して
アンプ１２３に入力され、フィルタ１２４を通った後に
Ａ／Ｄ変換部１２５においてディジタル音声信号１２６
に変換された後、音声認識部１１５または話者照合部１
１６に入力される。

【００３３】音声認識部１１５は、システム制御部１０
８からコマンドまたはデータ入力指令が音声インタフェ
ース部１０９の音声インタフェース制御部１１２に出さ
れたとき、使用者の入力音声を取り込み、該入力音声を
認識し、結果を音声インタフェース制御部に送る。この
とき、使用者の発話環境や健康状態、使用形態等の違い
ごとに複数作成し、個人情報カードに予め格納されてい
る音声認識用標準パターンのうち、入力音声との類似度
がもっとも大きいものを選択し、これを用いて認識処理
を行う。また、個人情報カードに格納されている使用者
の発声候補辞書から発声候補を選択し、認識処理を行
う。

【００３４】話者照合部１１６は、システム制御部１０
８から話者照合指令が音声インタフェース部１０９の音
声インタフェース制御部１１２に出されたとき、使用者
の照合用音声パスワードの入力を取り込み、個人情報カ
ードに予め格納されている登録音声パターンと該入力音
声の照合処理を行い、音声インタフェース制御部１１２
に照合結果を送る。

【００３５】図２は、個人情報カードおよび音声インタ
フェースシステムのハードウェア構成の１実施例を表す
図である。本実施例の音声インタフェースシステム２０
１は、音声入出力のための音響デバイスを有する典型的
なコンピュータシステムの構成を持つ。すわなち、演算
を行うＣＰＵ２０２、演算のためのプログラムおよびデ
ータを一時的に保持し、逐次書き換えを行うＲＡＭ２０
３、システム起動プログラム等を格納するＲＯＭ２０
４、システム入出力を制御するためのＩ／Ｏコントロー
ラ２０５、システムプログラム、アプリケーションプロ
グラム、データ等を保持するための磁気ディスク等のデ
ィスク装置２０６を有し、これらはシステムバス２０７
を介して命令およびデータ転送を行う。また、Ｉ／Ｏコ
ントローラ２０５は、モニタディスプレイ等の表示デバ
イス２０８、マウス、タッチパネル等のポインティング
デバイス２０９、キーボード等の入力デバイス２１０、
マイクロフォン、スピーカ等の音響デバイス２１１をバ
ス２１２を介して制御する。一方、個人情報カード２１
３は、メモリコントローラ２１４および、１つまたは複
数個のフラッシュメモリＩＣからなるフラッシュメモリ
アレイ２１５で構成され、メモリコントローラ２１４
は、フラッシュメモリアレイ２１５の制御およびデータ
転送をバス２１６を介して行う。また、該個人情報カー
ド２１３は、音声インタフェースシステム２０１のシス
テムバス２０７に着脱可能であり、該システムバス２０
７を介して命令およびデータの伝送を行う。これにより
音声インタフェースシステム２０１は個人情報カード２
１３のフラッシュメモリアレイ２１５に格納されている
データにアクセスする。

【００３６】図３は、図１における音声再生部１１４の
構成を表す図である。

【００３７】音声インタフェース制御部からの音声再生
のためのテキストや再生音声番号、音声信号は、音声再
生部１１４において再生音声信号として出力される。

【００３８】音声再生部１１４に対する入力がテキスト
の場合は、規則合成部３０１においてテキストから音声
信号が合成され、音質加工部３０３に送られる。

【００３９】音声再生部１１４に対する入力が音声番号
の場合は、録音再生部３０２において予め登録されてい
る録音音声データから、該音声番号に対応するデータの
音声信号が出力され、音質加工部３０３に送られる。

【００４０】音声再生部１１４に対する入力がすでに音
声信号である場合は、音質加工部３０３に直接送られ
る。

【００４１】上記３種類の入力に対し音声信号に変換さ
れた後、該音声信号は音質加工部３０３において音質を
加工され、再生音声信号となる。このとき、発話速度、
ピッチ、パワー等の韻律情報や、性別、使用者の聴覚特
性等の再生音声信号の音質制御パラメータは、個人情報
カードに格納されている個人情報３０４のうち、音声出
力制御パラメータ３０５を用いて使用者に特化される。
なお、音声再生部に対する入力がテキストである場合
は、合成音声信号の発話速度、ピッチ、パワー等の韻律
情報や、性別等の個人適合は、個人情報カードに格納さ
れている個人情報３０４のうち、音声出力制御パラメー
タ３０６を用いて規則合成部において行うことも可能で
ある。

【００４２】図４は、図３において、個人情報を用いて
個人適合を行う場合の音声規則合成部の構成を表す図で
ある。

【００４３】図４において、入力テキストは、言語処理
部４０１において言語処理され、言語情報４０２とな
る。韻律生成部４０３は、言語情報４０２から個人情報
カードに格納されている音声出力制御パラメータの好み
情報４０４を用いてポーズ、アクセント、ピッチ、発話
速度、性別等の韻律情報４０５を生成する。一方、音韻
生成部４０６は、言語情報４０２から音韻系列４０７を
生成する。音響パラメータ生成部４０８は、韻律情報４
０５および音韻系列４０７から、素片辞書４０９を用い
て音響パラメータ４１０を生成する。音声信号生成部４
１１は音響パラメータ４１０から音声信号を生成して出
力する。

【００４４】テキストから再生音声情報を合成し、音声
信号を得る手順は、例えば、J. Allen、 M. S. Hunnicu
tt and D. Klatt、 "From text to speech: The MITalk
system"（Cambridge University Press、 1987）記載
の方法を用いて実現することが可能である。

【００４５】図５は、図３における録音再生部を表す図
である。システムから再生する音声番号が入力したと
き、音声データ選択部５０１は、システムが予め保持し
ている図６に示すような内容を持つ音声データ５０２か
ら、音声番号に対応する音声データを選択し、音声信号
として出力する。

【００４６】図７は、図３における音質加工部を表す図
である。図３において規則合成部または録音再生部の出
力として、または直接音声信号として音質加工部に入力
した音声信号は、音響パラメータ抽出部７０１において
音響パラメータ７０２に変換され、該音響パラメータ
は、パラメータ加工部７０３において、個人情報カード
に格納されている個人情報のうち、音声出力制御パラメ
ータの中の好み情報７０４、および聴覚特性７０５に基
づいて、予めシステムが保持している音質加工データ７
０６から、使用者の好み情報にもっとも近いデータを選
択し、音響パラメータを個人に特化して加工する。音声
信号生成部７０８は、該加工した音響パラメータ７０７
から音声信号を生成して再生音声信号とする。

【００４７】図８は、個人情報カードに格納されている
好み情報テーブルの例である。

【００４８】図９は、個人情報カードに格納されている
聴覚特性テーブルの例である。

【００４９】図１０は、システムが保持している音質加
工データテーブルの例である。

【００５０】音質加工部は、図８に示す使用者の好み情
報と最も近い音質加工データを図１０に示すデータテー
ブルから選択し、図９に示す聴覚特性に基づいて音質を
加工する。本例では、インデクス３のデータが選択され
る。

【００５１】発声速度を変更する方法としては、例えば
「音声蓄積再生装置」（特開平3-48300）記載のよう
に、比較的パワーの大きい有声音部分の周期的波形を挿
入または削除することによって音声のピッチを変えずに
発声速度のみを変更する方法がある。

【００５２】ピッチのみを変更する方法としては、例え
ば、"Pitch-synchronous waveformprocessing techniqu
es for text-to-speech synthesis using diphones" (C
harpentier and Moulines、 Eurospeech 89、 vol 2、
Sep 1989、 pp13-19)記載の方法がある。

【００５３】また、聴覚特性に基づいた周波数特性の変
更は、例えば、本発明者によって先に発明されて出願さ
れてある「聴覚補償装置」（特願平4-254355号）記載の
方法を用いて周囲環境や受聴者の聴覚に合わせて行うこ
とができる。

【００５４】性別等の声質変換加工については、例え
ば、Abe、 et al、"Voice ConversionThrough Vector Q
uantization" (The Journal of the Acoustical Societ
y ofJapan、 (E) 11, 2, 1990, pp.71-76)記載の方法を
用いてコードブックマッピングを行うことによって実現
できる。

【００５５】なお、規則合成部または録音再生部出力と
して、音声信号のかわりに音響パラメータを出力する場
合は、該規則合成部または録音再生部出力を音質加工部
の入力とする場合に限り、音響パラメータ抽出部は不要
となる。

【００５６】図１１は、図１における音声認識部１１５
の構成を表す図である。

【００５７】図１で説明した入力手段によって音声認識
部に入力された音声信号は、分析部１１０１において、
線形予測分析等の手法を用いて分析することによってＬ
ＰＣケプストラム係数等の認識パラメータ系列１１０２
となる。照合部は、個人情報カードに格納されている音
声入力制御パラメータの中の個人用標準パターン１１０
４を用いて認識パラメータ系列の照合を行い、音声認識
結果を出力する。標準パターンを用いた音声認識手法に
ついては、例えば古井、「ディジタル音声処理」（第８
章音声認識、1985、東海大学出版会）に記載されてい
る。

【００５８】個人情報カードに、音声入力制御パラメー
タとして、複数の個人用標準パターンを用意し、各個人
用標準パターンが、使用者の異なる発話状態において作
成されたものとするとき、音声認識部は複数の個人用標
準パターンの中から、入力音声の持つ特徴と類似度が最
も高い個人用標準パターンを選択することによって、音
声認識精度を向上させる。

【００５９】図１２は、複数の個人用標準パターンを有
する音声認識部の構成例である。

【００６０】図１２において、図１で説明した入力手段
によって音声認識部に入力された音声信号は、分析部１
２０１において、線形予測分析等の手法を用いて分析す
ることによってＬＰＣケプストラム係数等の認識パラメ
ータ系列１２０２となる。照合部１２０３は、標準パタ
ーン選択部１２０４において、順次選択した個人情報カ
ードの個人用標準パターンを用いて、入力音声の認識パ
ラメータ系列１２０２の照合を行い、パターン照合距離
１２０５を出力する。類似度判定部１２０６は、同様に
して次々選択された個人用標準パターンのパターン照合
距離を比較し、該パターン照合距離が最も小さいものを
最大類似度個人用標準パターンとし、標準パターン選択
部に該最大類似度個人用標準パターン番号１２０７を送
る。標準パターン選択部１２０４は、該個人用標準パタ
ーンを最終個人用標準パターンとして選択し、照合部１
２０２は、該個人用標準パターンと入力音声の認識パラ
メータ系列１２０２を照合し、音声認識結果を出力す
る。

【００６１】図１３は、個人用標準パターンを補正する
音声認識部の例である。

【００６２】図１１または図１２において、入力音声信
号と選択した個人用標準パターンの照合距離が、予め設
定した値より大きくなった場合は、標準パターンの補正
を行う。図１３において、入力音声信号の照合距離１３
０１を、補正量計算部１３０２において判定し、該照合
距離１３０１が予め定めた補正を行う閾値より大きい場
合は、使用者判定情報、すなわち音声認識結果の正誤の
入力を要求し、認識結果が正しい場合にのみ標準パター
ン補正部１３０３において補正処理を行う。音声認識結
果が誤っている場合には補正処理を行わず、使用者に対
し認識エラーを通知する。いま、使用者判定情報により
認識結果が正しかった場合、例えば「連続出力分布型Ｈ
ＭＭにおける話者適応化の日本語音韻認識による評価」
（平田、中川、信学技法 SP90-16、pp57-64）記載の方
法を用いて、個人用標準パターンと入力音声の認識パラ
メータ系列の平均差ベクトルを算出し、これを標準パタ
ーン適合データとして、予め個人情報カードからシステ
ム側にロードしておいた個人用標準パターン１３０４を
補正する。このとき、一度使用者判定情報が認識結果を
正しいとした場合は、個人用標準パターンの補正による
照合距離が小さくなっている間は使用者判定情報の入力
を要求しないことによって、使用者による認識結果判定
を最小限にすることができる。

【００６３】このようにして補正された個人用標準パタ
ーンは、新しい個人用標準パターンとして個人情報カー
ドに格納する。ただし、個人情報カードに既に格納され
ている個人用標準パターンと、例えばパターン間距離等
を用いて比較し、格納されている個人用標準パターンと
の類似度が予め定めた値より小さい場合には、該格納さ
れている個人用標準パターンを消去することによって、
経時変化や発話状態の変化を個人情報カードに反映す
る。

【００６４】図１４は、個人情報カードに格納されてい
る個人用標準パターンの一部であるコードブックテーブ
ルを表す図である。なお、個人用標準パターンとして
は、この他に、音素モデルや単語モデルが必要となる場
合がある。

【００６５】図１５は、個人用標準パターンのかわり
に、個人情報カードに標準パターン適合データを格納す
る場合の音声認識部の個人用標準パターン作成方法を表
す図である。ここで、標準パターン適合データとは、シ
ステムが保持している不特定話者用標準パターンとの差
分データを表わす。該差分データは、例えば「連続出力
分布型ＨＭＭにおける話者適応化の日本語音韻認識によ
る評価」（平田、中川、信学技法 SP90-16、pp57-64）
記載の方法を用いて、予め不特定話者用標準パターンと
使用者の音声の認識パラメータ系列の平均差ベクトルを
算出したものをいう。

【００６６】図１５において、個人用標準パターン１５
０１は、不特定話者用標準パターン１５０２から、上記
標準パターン適合データを用いて作成することが可能で
ある。

【００６７】なお、図１２と同様に個人情報カードに予
め格納されている標準パターン適合データを複数持つこ
とや、図１３と同様に補正した個人用標準パターンか
ら、標準パターン適合データを作成し、個人情報カード
の個人情報を更新することが可能であることは明らかで
ある。

【００６８】図１６は、個人用発声候補辞書を用いた音
声認識部の構成例である。

【００６９】図１６において、照合部１６０１における
照合によって得られた音声認識結果は、システムの入力
として予め定められた語彙の範囲に限定した方が、一般
に認識精度が高い。そこで、このような限定された語彙
を発声候補辞書１６０２としてシステムが保持し、この
中から認識候補を選択することによって認識を行うこと
がよく行われる。しかし、使用者が不特定であるシステ
ムにおいては、使用者の入力音声のばらつきは、語彙数
が大きくなるほど増加し、認識精度の低下を招く。そこ
で、個人情報カードに使用者が入力した音声の認識結果
を発声頻度と共に個人用発声候補辞書として格納し、該
個人用発声候補辞書１６０３に含まれる認識候補につい
て、発声頻度に応じた重み付けを行うことによって、使
用者の音声入力の認識精度を高めることが可能となる。

【００７０】また、システム使用時に発声された入力音
声の認識結果に基づき、頻度を変更し、新規発声音声を
登録することによって個人情報カードの発声候補辞書の
更新を行う。

【００７１】図１７は、個人情報カードに格納されてい
る個人用発声候補辞書テーブルである。

【００７２】図１８は、図１における話者照合部の構成
を表す図である。パスワードとして入力された音声信号
は、分析部１８０１において話者照合用分析パラメータ
系列１８０２に変換され、話者照合部１８０３におい
て、話者照合用分析パラメータ系列１８０２と、個人用
標準パターン１８０４の照合処理を行い、類似度が、予
め定められた閾値より高く、かつ発声内容が予め個人情
報カードに格納されていた登録音声パターン１８０５と
一致した場合に話者照合結果として認証を与える。この
とき、分析パラメータを音声認識パラメータと同一にす
れば、話者照合用に別途標準パターンを用意せず、個人
情報カードの音声入力制御パラメータの中の個人用標準
パターンを用いることによって、使用者の発声変形や経
時変化の影響を考慮して話者照合を行うことができる。
話者照合の詳細な方法については、例えば古井、「ディ
ジタル音声処理」（第９章話者認識、1985、東海大学出
版会）に記載されている。

【００７３】個人情報カードの記憶部としてフラッシュ
メモリアレイを用いる場合、個人情報データの格納方法
として、以下を考慮することによって効率よくデータを
配置することができる。例えば、本発明である個人情報
カードの個人情報のうち、聴覚特性データ、好み情報デ
ータ、個人用標準パターン、登録音声パターンは、予め
データ数が決まっているため、更新時は、固定データ数
ごとの書き換えとなる。そこで、このような個人情報デ
ータは、フラッシュメモリの同一消去ブロック内に、異
なる個人情報が混在しないように配置することによっ
て、各データごとの消去、更新が可能になる。

【００７４】また、発声候補辞書については、発声候補
データは増加するのみで書き換える必要がない。そこ
で、図１９記載のように、発声頻度データ１９０１と発
声候補データ１９０２を分離してフラッシュメモリ１９
０３に格納することによって、発声頻度データのみを更
新することが可能となる。また、新規候補の登録は、予
め確保されていた未使用部分に書き込めば、消去処理を
行わなう必要がない。

【００７５】図２０は、本発明である個人情報カードを
用いた音声インタフェースシステムであるＣＤ（キャッ
シュディスペンサ）を表す図である。本実施例における
ＣＤ２００１は、少なくともマイクロフォン２００２、
スピーカ２００３、また、個人情報カード２００４を挿
入するスロット２００５を有し、使用者がスロットに個
人情報カードを挿入し、音声インタフェースを使用者に
特化してからパスワードを音声で入力し、音声によるコ
マンドおよびデータ入力によって出金手続きを行う。こ
の際、システムの音声応答は、個人情報カードに格納さ
れている音声出力制御パラメータによって、使用者が聞
きやすい音声に特化される。

【００７６】

【発明の効果】個人情報をシステム外の記憶媒体に格納
し、使用時にシステムに該媒体をシステムに接続する手
段を用いることにより、システムが使用者個人の情報を
保持しないため、多数の使用者の個人情報を格納するた
めの記憶部が不要となった。また、システムを個人に特
化するため音声認識精度が高くすることが可能になっ
た。さらに、話者の声質が登録時と異なる場合にも話者
照合を正確に行うことが可能になった。使用する度に調
整を行わずに、出力音声を使用者の好みや聴覚に適合さ
せることが可能となった。

【００７７】記憶媒体としてフラッシュメモリを用いた
ことにより、電源を用いずにデータを保持することが可
能となり、容積を小さくすることが可能となった。ま
た、容易に部分的に書き込み処理ができるため、適宜デ
ータの更新を行うことが可能となった。さらに、データ
読み出し速度が大きいため、個人情報をシステムにロー
ドせずに、直接カード内のデータにアクセスすることが
可能となった。

【００７８】

【図面の簡単な説明】

【図１】個人情報カードおよびこれを用いる音声インタ
フェースシステムの１実施例を説明する図である。

【図２】個人情報カードおよび音声インタフェースシス
テムのハードウェア構成の１実施例を表す図である。

【図３】音声再生部の構成を表す図である。

【図４】個人情報を用いて個人適合を行う場合の音声規
則合成部の構成を表す図である。

【図５】録音再生部を表す図である。

【図６】録音再生音声データを表す図である。

【図７】音質加工部を表す図である。

【図８】個人情報カードに格納されている好み情報テー
ブルの例である。

【図９】個人情報カードに格納されている聴覚特性テー
ブルの例である。

【図１０】システムが保持している音質加工データテー
ブルの例である。

【図１１】音声認識部の構成を表す図である。

【図１２】複数の個人用標準パターンを有する音声認識
部の構成例である。

【図１３】個人用標準パターンを補正する音声認識部の
例である。

【図１４】個人情報カードに格納されている個人用標準
パターンの一部であるコードブックテーブルを表す図で
ある。

【図１５】個人情報カードに標準パターン適合データを
格納する場合の音声認識部の個人用標準パターン作成方
法を表す図である。

【図１６】個人用発声候補辞書を用いた音声認識部の構
成例である。

【図１７】個人情報カードに格納されている個人用発声
候補辞書テーブルである。

【図１８】話者照合部の構成を表す図である。

【図１９】個人用発声候補辞書のフラッシュメモリ格納
例である。

【図２０】個人情報カードを用いた音声インタフェース
システムであるＣＤを表す図である。

【符号の説明】

１０１…個人情報カード、１０２…音声出力を制御する
パラメータ、１０３…個人付加情報、１０４…音声入力
制御パラメータ、１０５…発声候補辞書、１０６…登録
音声パターン、１０７…音声インタフェースシステム、
１０８…システム制御部、１０９…音声インタフェース
部、１１２…音声インタフェース制御部、１１４…音声
再生部、１１５…音声認識部、１１６…話者照合部、２
０１…音声インタフェースシステム、２０２…ＣＰＵ、
２０３…ＲＡＭ、２０４…ＲＯＭ、２０５…Ｉ／Ｏコン
トローラ、２０６…ディスク装置、２０７…システムバ
ス、２０８…表示デバイス、２０９…ポインティングデ
バイス、２１０…入力デバイス、２１１…音響デバイ
ス、２１３…個人情報カード、２１４…メモリコントロ
ーラ、２１５…フラッシュメモリアレイ、３０１…規則
合成部、３０２…録音再生部、３０３…音質加工部、４
０１…言語処理部、４０３…韻律生成部、４０４…好み
情報、４０６…音韻生成部、４０８…音響パラメータ生
成部、４０９…素片辞書、４１１…音声信号生成部、５
０１…音声データ選択部、７０１…音響パラメータ抽出
部、７０３…パラメータ加工部、７０４…好み情報、７
０５…聴覚特性、７０８…音声信号生成部、１１０１…
分析部、１１０３…照合部、１１０４…個人用標準パタ
ーン、１２０４…標準パターン選択部、１２０６…類似
度判定部、１３０２…補正量計算部、１３０３…標準パ
ターン補正部、１５０１…個人用標準パターン、１５０
２…不特定話者用標準パターン、１５０３…個人適合
部、１６０１…照合部、１６０２…発声候補辞書、１６
０３…個人用発声候補辞書、１８０１…分析部、１８０
３…話者照合部、１８０４…個人用標準パターン、１９
０１…発声頻度データ、１９０２…発声候補データ、１
９０３…フラッシュメモリ、２００１…ＣＤ、２００２
…マイクロフォン、２００３…スピーカ、２００４…個
人情報カード、２００５…スロット。

Claims

【特許請求の範囲】

【請求項１】使用者固有の個人情報として音声の特徴を
格納した情報カードと、入力された音声の認識を行う音
声認識手段と、上記情報カードを着脱可能に装着し、上
記個人情報をアクセスする手段と、上記個人情報を用い
て上記入力された音声の認識を行うよう制御する制御手
段とからなることを特徴とする個人情報カードを用いた
音声インタフェースシステム。
【請求項２】上記個人情報は上記使用者により発声され
る音声の特徴に加えて利用者固有の音声辞書、聴覚特
徴、登録音声、付加情報及び好み情報の少なくとも1つ
を含むことを特徴とする請求項１に記載の個人情報カー
ドを用いた音声インターフェースシステム。
【請求項３】上記音声の特徴として、使用者の発声によ
る音声標準パターンを用い、上記入力音声の認識を行う
ことを特徴とする請求項１に記載の個人情報カードを用
いた音声インタフェースシステム。
【請求項４】上記音声の特徴として、使用環境や体調に
応じた使用者の発声の特徴ごとに異なる内容の音声標準
パターンを複数個準備することを特徴とする請求項１又
は２に記載の個人情報カードを用いた入力音声の認識を
行う音声インタフェースシステム。
【請求項５】上記使用者の発声による音声の特徴は、音
声インタフェースシステム内の音声標準パターンと使用
者の音声標準パターンとの差分データ出あり、上記差分
データを用いて上記入力音声の認識を行うことを特徴と
する請求項１又は２に記載の個人情報カードを用いた音
声インタフェースシステム。
【請求項６】上記音声辞書には、使用者の発声頻度の高
い音声パターンおよび発声頻度が格納されており、上記
音声辞書を用いて上記入力音声の認識を行うことを特徴
とする請求項２又は３に記載の個人情報カードを用いた
音声インタフェースシステム。
【請求項７】上記聴覚の特徴は、使用者の可聴域周波数
特性に関する情報であり、上記聴覚特徴を用いて出力音
声の周波数特性を調整することを特徴とする請求項２又
は３に記載の個人情報カードを用いた音声インタフェー
スシステム。
【請求項８】上記好み情報は、出力音声の発話速度に関
する情報であることを特徴とする請求項２又は３に１記
載の個人情報カードを用いた音声インタフェースシステ
ム。
【請求項９】上記好み情報は、出力音声の平均ピッチに
関する情報であることを特徴とする請求項２又は３に記
載の個人情報カードを用いた音声インタフェースシステ
ム。
【請求項１０】使用者から入力された入力音声と上記登
録音声および上記音声標準パターンとに基づいて使用者
の認証を行う話者照合手段を有することを特徴とする請
求項３から５のいずれかに記載の個人情報カードを用い
た音声インタフェースシステム。
【請求項１１】上記入力音声に基づいて上記個人情報を
更新することを特徴とする請求項１から１０のいずれか
に記載の個人情報カードを用いた音声インタフェースシ
ステム。
【請求項１２】上記入力音声に基づいて、上記個人情報
に新たな記録データを追加することを特徴とする請求項
１から１０のいずれかに記載の個人情報カードを用いた
音声インタフェースシステム。
【請求項１３】上記個人情報カードは不揮発性メモリを
有し上記不揮発性メモリに上記個人情報が格納されてい
ることを特徴とする請求項１から１２のいずれかに記載
の個人情報カードを用いた音声インタフェースシステ
ム。
【請求項１４】上記個人情報カードはフラッシュメモリ
を有し上記フラッシュメモリに上記個人情報が格納され
ていることを特徴とする請求項１から１２のいずれかに
記載の個人情報カードを用いた音声インタフェースシス
テム。