JPH08123461A - 個人情報カードを用いた音声インタフェースシステム - Google Patents

個人情報カードを用いた音声インタフェースシステム

Info

Publication number
JPH08123461A
JPH08123461A JP6254996A JP25499694A JPH08123461A JP H08123461 A JPH08123461 A JP H08123461A JP 6254996 A JP6254996 A JP 6254996A JP 25499694 A JP25499694 A JP 25499694A JP H08123461 A JPH08123461 A JP H08123461A
Authority
JP
Japan
Prior art keywords
voice
personal information
information card
user
interface system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6254996A
Other languages
English (en)
Inventor
Toshiyuki Aritsuka
俊之 在塚
Hiroaki Kokubo
浩明 小窪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6254996A priority Critical patent/JPH08123461A/ja
Publication of JPH08123461A publication Critical patent/JPH08123461A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 個人情報をメモリカードに格納し、これを用
いて音声インタフェースシステムを個人に特化すること
により、システムの音声入出力を個人適合させることを
目的とする。 【構成】 データ記憶部およびデータ送受信手段を有す
る情報カードであって、該データ記憶部に、個人情報デ
ータとして、音声の特徴およびまたは音声辞書およびま
たは聴覚の特徴およびまたは好み情報およびまたは登録
音声およびまたは付加情報を格納し、音声インタフェー
スシステムが該個人情報データを使用することによっ
て、該音声インタフェースシステムの音声処理を使用者
に特化する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデータ蓄積カードおよび
音声インタフェース利用システムに関する。
【0002】
【従来の技術】情報伝達手段としての音声は、話者や発
話環境、健康状態等によって様々に変化する、また受聴
する場合も、聴覚や好みによって異なった特徴を有する
ことが要求される。したがって、音声をユーザインタフ
ェースとして利用する際には、このような多様な音声の
特徴を考慮することが必要となる。
【0003】これに対し、入力音声を認識する方法とし
てこれまでは、例えば古井、「ディジタル音声処理」
(第8章音声認識、1985、東海大学出版会)記載のよう
に、使用者を予め特定し、該使用者に特化した処理方法
を用いて使用者の入力した音声を認識する方法が行われ
ていた。また、一般化した処理方法を用いて不特定の使
用者の入力した音声を認識する方法が行われていた。
【0004】一方、出力音声は、システムにおいて予め
定められた特定の話者の特定の発話状態における音声パ
ラメータを用いて合成した音声や予め登録されている録
音音声を再生して出力する方法が用いられていた。
【0005】情報を蓄積する媒体として従来は、磁性
体、スタティックRAM、一括消去型不揮発性メモリが
用いられていた。
【0006】
【発明が解決しようとする課題】特定の使用者に特化し
た処理方法を用いて入力音声を認識するシステムでは、
該システムを利用することのできる使用者が制限される
という問題があった。
【0007】予め特定された使用者においても、発話環
境や健康状態、使用形態等の状態が変わった場合には所
要の性能を得ることができないという問題があった。
【0008】一般化した処理方法を用いて不特定の使用
者の入力した音声を認識するシステムは、任意の話者を
想定することが不可能なため、十分な性能を得ることが
困難であるという問題があった。
【0009】システムの音声応答が、予め定められた音
質に限られ、使用者の好みや聴覚に適合させることが困
難であるという問題があった。
【0010】音声パスワードを用いて話者照合を行う際
に、使用者の発声変形や経時変化によって照合が困難に
なるという問題があった。
【0011】一方、情報カードのデータ記録媒体のなか
で、磁性体は記憶容量が限られており、外部磁気によっ
て記録情報が変形したり失われやすいという問題があっ
た。スタティックRAMはデータを保持するために電源
を必要とするという問題があった。また、一括消去型不
揮発性メモリはデータの部分的更新が不可能であるとい
う問題があった。
【0012】
【課題を解決するための手段】上記の問題を解決するた
めに、データ記憶部およびデータ送受信手段を有する情
報カードに、個人情報データとして、音声の特徴および
または音声辞書およびまたは聴覚の特徴およびまたは好
み情報およびまたは登録音声およびまたは付加情報を格
納し、音声インタフェースシステムが該個人情報データ
を使用することによって、該音声インタフェースシステ
ムの音声処理を使用者に特化する手段を設けた。
【0013】音声の特徴として、使用者の発声による音
声標準パターンを用いて入力音声の認識を行う手段を設
けた。
【0014】音声の特徴として、使用環境や体調によっ
て異なる、使用者の発声の特徴ごとに用意した音声標準
パターンを用いて入力音声の認識を行う手段を設けた。
【0015】使用者の発声による音声の特徴として、音
声インタフェースシステム内の音声標準パターンと使用
者の音声標準パターンとの差分データを用いて入力音声
の認識を行う手段を設けた。
【0016】音声辞書として、使用者の発声頻度の高い
音声パターンおよび発声頻度を格納し、これを用いて入
力音声の認識を行う手段を設けた。
【0017】聴覚の特徴として、使用者の可聴域周波数
特性を用いて出力音声の周波数特性を調整する手段を設
けた。
【0018】好み情報として、発話速度およびまたは平
均ピッチを用いて出力音声の発話速度およびまたは平均
ピッチを調整する手段を設けた。
【0019】使用者の発声による登録音声および音声標
準パターンを用いて使用者の認証を行う手段を設けた。
【0020】個人情報の経時変化に基づいて記録データ
を更新する手段を設けた。
【0021】データ記憶部にフラッシュメモリを用い
た。
【0022】
【作用】個人情報をシステム外の記憶媒体に格納し、使
用時にシステムに該媒体をシステムに接続する手段を用
いることにより、システムが使用者個人の情報を保持し
ないため、多数の使用者の個人情報を格納するための記
憶部が不要となる。また、システムの音声インタフェー
スを個人に特化するため音声認識精度が高くなる。さら
に、話者の声質が登録時と異なる場合にも話者照合を正
確に行うことが可能になる。使用する度に調整を行わず
に、出力音声を使用者の好みや聴覚に適合させることが
可能となる。
【0023】記憶媒体としてフラッシュメモリを用いる
ことにより、電源を用いずにデータを保持することが可
能となり、容積を小さくすることが可能となる。また、
容易に部分的に書き込み処理ができるため、適宜データ
の更新を行うことが可能となる。さらに、データ読み出
し速度が大きいため、個人情報をシステムにロードせず
に、直接カード内のデータにアクセスすることが可能と
なる。
【0024】
【実施例】以下、本発明の実施例を図を用いて説明す
る。
【0025】図1は本発明である個人情報カードおよび
これを用いる音声インタフェースシステムの1実施例を
説明する図である。図1において、101は個人情報カ
ードを表す。個人情報カード101は、例えばフラッシ
ュメモリを内蔵し、コネクタを介して外部とデータの授
受を行う。フラッシュメモリに記憶する個人情報データ
は、音声インタフェースシステムにおける音声出力を制
御するパラメータ102、使用者が利用時にシステムか
ら出力するための音声データや読み上げ用テキストデー
タ等の個人付加情報103、入力音声をシステムが認識
する際に、認識パラメータを個人に特化するための音声
入力制御パラメータ104、認識対象として発声頻度の
高い音声パターンを登録する発声候補辞書105、およ
び話者認証のための音声パスワードとしての登録音声パ
ターン106を有する。
【0026】音声インタフェースシステム107は、シ
ステム制御部108および音声インタフェース部109
を有し、コマンド、データ等のシステムの使用者に対す
る入出力を音声を利用して行う。なお、音声インタフェ
ース以外のシステムに関する一般的な処理手段ゃ制御手
段やデータ記憶手段などはシステム制御部に含まれるも
のとする。例えば、後の説明に用いられるテキスト、音
声番号、音声信号のデータもシステム制御部に含まれ
る。また、I/O装置等のシステム制御に必要な部分
は、本図においては省略してある。110はシステム制
御部の応答や制御信号および音声インタフェース部から
のコマンドやデータの流れを表す。
【0027】音声インタフェース部109は、使用者が
該システムを利用する際に、音声によるコマンドやデー
タの入力、システム応答等の音声による出力を行う。こ
のとき使用者は、個人情報カード101をシステムのス
ロット等に挿入し、該個人情報カード101に格納され
ている個人情報データを用いることにより音声インタフ
ェース部109の音声処理を使用者に特化する。111
は、システムと個人情報カード間の制御信号やデータの
流れを表す。
【0028】以下、各音声処理ごとに音声インタフェー
ス部109の動作を説明する。
【0029】音声インタフェース制御部112は、シス
テム制御部の制御信号にしたがってシステムおよび個人
情報カードとの間でデータを授受し、音声再生部11
4、音声認識部115、話者照合部116を制御する。
【0030】音声再生部114は、音声インタフェース
制御部112からシステム出力テキストデータまたは、
予め録音されている音声の再生番号を受け取る。音声再
生部114は、音声規則合成処理を行ってテキストデー
タから音声信号を生成するか、再生番号に対応する録音
音声信号を選択し、該音声信号に対しさらに音質加工処
理を行って音声信号の音質を加工する。この時、音声再
生部は個人情報カードに格納されている発話速度や声の
高さ等の使用者の好み情報や、聴覚特性データを用いて
再生音声を使用者に特化する。再生音声117は、D/
A変換部118でアナログ信号に変換され、フィルタ1
19を通してアンプ120で増幅された後スピーカ12
1から出力される。
【0031】また、例えば使用者によるシステムに対す
る個人付加情報再生命令の入力により、システム出力の
かわりに、個人情報カードに個人付加情報として予め格
納されていた音声データまたはテキストデータを用い
て、音声を再生して出力する。逆に、例えば使用者によ
るシステムに対する個人付加情報格納命令の入力によ
り、システム出力のテキストデータや、音声再生部で作
成した音声データを新たな個人付加情報として個人情報
カードに格納する。
【0032】システムに対するコマンドやデータ、パス
ワード等の音声入力は、マイクロフォン122を通して
アンプ123に入力され、フィルタ124を通った後に
A/D変換部125においてディジタル音声信号126
に変換された後、音声認識部115または話者照合部1
16に入力される。
【0033】音声認識部115は、システム制御部10
8からコマンドまたはデータ入力指令が音声インタフェ
ース部109の音声インタフェース制御部112に出さ
れたとき、使用者の入力音声を取り込み、該入力音声を
認識し、結果を音声インタフェース制御部に送る。この
とき、使用者の発話環境や健康状態、使用形態等の違い
ごとに複数作成し、個人情報カードに予め格納されてい
る音声認識用標準パターンのうち、入力音声との類似度
がもっとも大きいものを選択し、これを用いて認識処理
を行う。また、個人情報カードに格納されている使用者
の発声候補辞書から発声候補を選択し、認識処理を行
う。
【0034】話者照合部116は、システム制御部10
8から話者照合指令が音声インタフェース部109の音
声インタフェース制御部112に出されたとき、使用者
の照合用音声パスワードの入力を取り込み、個人情報カ
ードに予め格納されている登録音声パターンと該入力音
声の照合処理を行い、音声インタフェース制御部112
に照合結果を送る。
【0035】図2は、個人情報カードおよび音声インタ
フェースシステムのハードウェア構成の1実施例を表す
図である。本実施例の音声インタフェースシステム20
1は、音声入出力のための音響デバイスを有する典型的
なコンピュータシステムの構成を持つ。すわなち、演算
を行うCPU202、演算のためのプログラムおよびデ
ータを一時的に保持し、逐次書き換えを行うRAM20
3、システム起動プログラム等を格納するROM20
4、システム入出力を制御するためのI/Oコントロー
ラ205、システムプログラム、アプリケーションプロ
グラム、データ等を保持するための磁気ディスク等のデ
ィスク装置206を有し、これらはシステムバス207
を介して命令およびデータ転送を行う。また、I/Oコ
ントローラ205は、モニタディスプレイ等の表示デバ
イス208、マウス、タッチパネル等のポインティング
デバイス209、キーボード等の入力デバイス210、
マイクロフォン、スピーカ等の音響デバイス211をバ
ス212を介して制御する。一方、個人情報カード21
3は、メモリコントローラ214および、1つまたは複
数個のフラッシュメモリICからなるフラッシュメモリ
アレイ215で構成され、メモリコントローラ214
は、フラッシュメモリアレイ215の制御およびデータ
転送をバス216を介して行う。また、該個人情報カー
ド213は、音声インタフェースシステム201のシス
テムバス207に着脱可能であり、該システムバス20
7を介して命令およびデータの伝送を行う。これにより
音声インタフェースシステム201は個人情報カード2
13のフラッシュメモリアレイ215に格納されている
データにアクセスする。
【0036】図3は、図1における音声再生部114の
構成を表す図である。
【0037】音声インタフェース制御部からの音声再生
のためのテキストや再生音声番号、音声信号は、音声再
生部114において再生音声信号として出力される。
【0038】音声再生部114に対する入力がテキスト
の場合は、規則合成部301においてテキストから音声
信号が合成され、音質加工部303に送られる。
【0039】音声再生部114に対する入力が音声番号
の場合は、録音再生部302において予め登録されてい
る録音音声データから、該音声番号に対応するデータの
音声信号が出力され、音質加工部303に送られる。
【0040】音声再生部114に対する入力がすでに音
声信号である場合は、音質加工部303に直接送られ
る。
【0041】上記3種類の入力に対し音声信号に変換さ
れた後、該音声信号は音質加工部303において音質を
加工され、再生音声信号となる。このとき、発話速度、
ピッチ、パワー等の韻律情報や、性別、使用者の聴覚特
性等の再生音声信号の音質制御パラメータは、個人情報
カードに格納されている個人情報304のうち、音声出
力制御パラメータ305を用いて使用者に特化される。
なお、音声再生部に対する入力がテキストである場合
は、合成音声信号の発話速度、ピッチ、パワー等の韻律
情報や、性別等の個人適合は、個人情報カードに格納さ
れている個人情報304のうち、音声出力制御パラメー
タ306を用いて規則合成部において行うことも可能で
ある。
【0042】図4は、図3において、個人情報を用いて
個人適合を行う場合の音声規則合成部の構成を表す図で
ある。
【0043】図4において、入力テキストは、言語処理
部401において言語処理され、言語情報402とな
る。韻律生成部403は、言語情報402から個人情報
カードに格納されている音声出力制御パラメータの好み
情報404を用いてポーズ、アクセント、ピッチ、発話
速度、性別等の韻律情報405を生成する。一方、音韻
生成部406は、言語情報402から音韻系列407を
生成する。音響パラメータ生成部408は、韻律情報4
05および音韻系列407から、素片辞書409を用い
て音響パラメータ410を生成する。音声信号生成部4
11は音響パラメータ410から音声信号を生成して出
力する。
【0044】テキストから再生音声情報を合成し、音声
信号を得る手順は、例えば、J. Allen、 M. S. Hunnicu
tt and D. Klatt、 "From text to speech: The MITalk
system"(Cambridge University Press、 1987)記載
の方法を用いて実現することが可能である。
【0045】図5は、図3における録音再生部を表す図
である。システムから再生する音声番号が入力したと
き、音声データ選択部501は、システムが予め保持し
ている図6に示すような内容を持つ音声データ502か
ら、音声番号に対応する音声データを選択し、音声信号
として出力する。
【0046】図7は、図3における音質加工部を表す図
である。図3において規則合成部または録音再生部の出
力として、または直接音声信号として音質加工部に入力
した音声信号は、音響パラメータ抽出部701において
音響パラメータ702に変換され、該音響パラメータ
は、パラメータ加工部703において、個人情報カード
に格納されている個人情報のうち、音声出力制御パラメ
ータの中の好み情報704、および聴覚特性705に基
づいて、予めシステムが保持している音質加工データ7
06から、使用者の好み情報にもっとも近いデータを選
択し、音響パラメータを個人に特化して加工する。音声
信号生成部708は、該加工した音響パラメータ707
から音声信号を生成して再生音声信号とする。
【0047】図8は、個人情報カードに格納されている
好み情報テーブルの例である。
【0048】図9は、個人情報カードに格納されている
聴覚特性テーブルの例である。
【0049】図10は、システムが保持している音質加
工データテーブルの例である。
【0050】音質加工部は、図8に示す使用者の好み情
報と最も近い音質加工データを図10に示すデータテー
ブルから選択し、図9に示す聴覚特性に基づいて音質を
加工する。本例では、インデクス3のデータが選択され
る。
【0051】発声速度を変更する方法としては、例えば
「音声蓄積再生装置」(特開平3-48300)記載のよう
に、比較的パワーの大きい有声音部分の周期的波形を挿
入または削除することによって音声のピッチを変えずに
発声速度のみを変更する方法がある。
【0052】ピッチのみを変更する方法としては、例え
ば、"Pitch-synchronous waveformprocessing techniqu
es for text-to-speech synthesis using diphones" (C
harpentier and Moulines、 Eurospeech 89、 vol 2、
Sep 1989、 pp13-19)記載の方法がある。
【0053】また、聴覚特性に基づいた周波数特性の変
更は、例えば、本発明者によって先に発明されて出願さ
れてある「聴覚補償装置」(特願平4-254355号)記載の
方法を用いて周囲環境や受聴者の聴覚に合わせて行うこ
とができる。
【0054】性別等の声質変換加工については、例え
ば、Abe、 et al、"Voice ConversionThrough Vector Q
uantization" (The Journal of the Acoustical Societ
y ofJapan、 (E) 11, 2, 1990, pp.71-76)記載の方法を
用いてコードブックマッピングを行うことによって実現
できる。
【0055】なお、規則合成部または録音再生部出力と
して、音声信号のかわりに音響パラメータを出力する場
合は、該規則合成部または録音再生部出力を音質加工部
の入力とする場合に限り、音響パラメータ抽出部は不要
となる。
【0056】図11は、図1における音声認識部115
の構成を表す図である。
【0057】図1で説明した入力手段によって音声認識
部に入力された音声信号は、分析部1101において、
線形予測分析等の手法を用いて分析することによってL
PCケプストラム係数等の認識パラメータ系列1102
となる。照合部は、個人情報カードに格納されている音
声入力制御パラメータの中の個人用標準パターン110
4を用いて認識パラメータ系列の照合を行い、音声認識
結果を出力する。標準パターンを用いた音声認識手法に
ついては、例えば古井、「ディジタル音声処理」(第8
章音声認識、1985、東海大学出版会)に記載されてい
る。
【0058】個人情報カードに、音声入力制御パラメー
タとして、複数の個人用標準パターンを用意し、各個人
用標準パターンが、使用者の異なる発話状態において作
成されたものとするとき、音声認識部は複数の個人用標
準パターンの中から、入力音声の持つ特徴と類似度が最
も高い個人用標準パターンを選択することによって、音
声認識精度を向上させる。
【0059】図12は、複数の個人用標準パターンを有
する音声認識部の構成例である。
【0060】図12において、図1で説明した入力手段
によって音声認識部に入力された音声信号は、分析部1
201において、線形予測分析等の手法を用いて分析す
ることによってLPCケプストラム係数等の認識パラメ
ータ系列1202となる。照合部1203は、標準パタ
ーン選択部1204において、順次選択した個人情報カ
ードの個人用標準パターンを用いて、入力音声の認識パ
ラメータ系列1202の照合を行い、パターン照合距離
1205を出力する。類似度判定部1206は、同様に
して次々選択された個人用標準パターンのパターン照合
距離を比較し、該パターン照合距離が最も小さいものを
最大類似度個人用標準パターンとし、標準パターン選択
部に該最大類似度個人用標準パターン番号1207を送
る。標準パターン選択部1204は、該個人用標準パタ
ーンを最終個人用標準パターンとして選択し、照合部1
202は、該個人用標準パターンと入力音声の認識パラ
メータ系列1202を照合し、音声認識結果を出力す
る。
【0061】図13は、個人用標準パターンを補正する
音声認識部の例である。
【0062】図11または図12において、入力音声信
号と選択した個人用標準パターンの照合距離が、予め設
定した値より大きくなった場合は、標準パターンの補正
を行う。図13において、入力音声信号の照合距離13
01を、補正量計算部1302において判定し、該照合
距離1301が予め定めた補正を行う閾値より大きい場
合は、使用者判定情報、すなわち音声認識結果の正誤の
入力を要求し、認識結果が正しい場合にのみ標準パター
ン補正部1303において補正処理を行う。音声認識結
果が誤っている場合には補正処理を行わず、使用者に対
し認識エラーを通知する。いま、使用者判定情報により
認識結果が正しかった場合、例えば「連続出力分布型H
MMにおける話者適応化の日本語音韻認識による評価」
(平田、中川、信学技法 SP90-16、pp57-64)記載の方
法を用いて、個人用標準パターンと入力音声の認識パラ
メータ系列の平均差ベクトルを算出し、これを標準パタ
ーン適合データとして、予め個人情報カードからシステ
ム側にロードしておいた個人用標準パターン1304を
補正する。このとき、一度使用者判定情報が認識結果を
正しいとした場合は、個人用標準パターンの補正による
照合距離が小さくなっている間は使用者判定情報の入力
を要求しないことによって、使用者による認識結果判定
を最小限にすることができる。
【0063】このようにして補正された個人用標準パタ
ーンは、新しい個人用標準パターンとして個人情報カー
ドに格納する。ただし、個人情報カードに既に格納され
ている個人用標準パターンと、例えばパターン間距離等
を用いて比較し、格納されている個人用標準パターンと
の類似度が予め定めた値より小さい場合には、該格納さ
れている個人用標準パターンを消去することによって、
経時変化や発話状態の変化を個人情報カードに反映す
る。
【0064】図14は、個人情報カードに格納されてい
る個人用標準パターンの一部であるコードブックテーブ
ルを表す図である。なお、個人用標準パターンとして
は、この他に、音素モデルや単語モデルが必要となる場
合がある。
【0065】図15は、個人用標準パターンのかわり
に、個人情報カードに標準パターン適合データを格納す
る場合の音声認識部の個人用標準パターン作成方法を表
す図である。ここで、標準パターン適合データとは、シ
ステムが保持している不特定話者用標準パターンとの差
分データを表わす。該差分データは、例えば「連続出力
分布型HMMにおける話者適応化の日本語音韻認識によ
る評価」(平田、中川、信学技法 SP90-16、pp57-64)
記載の方法を用いて、予め不特定話者用標準パターンと
使用者の音声の認識パラメータ系列の平均差ベクトルを
算出したものをいう。
【0066】図15において、個人用標準パターン15
01は、不特定話者用標準パターン1502から、上記
標準パターン適合データを用いて作成することが可能で
ある。
【0067】なお、図12と同様に個人情報カードに予
め格納されている標準パターン適合データを複数持つこ
とや、図13と同様に補正した個人用標準パターンか
ら、標準パターン適合データを作成し、個人情報カード
の個人情報を更新することが可能であることは明らかで
ある。
【0068】図16は、個人用発声候補辞書を用いた音
声認識部の構成例である。
【0069】図16において、照合部1601における
照合によって得られた音声認識結果は、システムの入力
として予め定められた語彙の範囲に限定した方が、一般
に認識精度が高い。そこで、このような限定された語彙
を発声候補辞書1602としてシステムが保持し、この
中から認識候補を選択することによって認識を行うこと
がよく行われる。しかし、使用者が不特定であるシステ
ムにおいては、使用者の入力音声のばらつきは、語彙数
が大きくなるほど増加し、認識精度の低下を招く。そこ
で、個人情報カードに使用者が入力した音声の認識結果
を発声頻度と共に個人用発声候補辞書として格納し、該
個人用発声候補辞書1603に含まれる認識候補につい
て、発声頻度に応じた重み付けを行うことによって、使
用者の音声入力の認識精度を高めることが可能となる。
【0070】また、システム使用時に発声された入力音
声の認識結果に基づき、頻度を変更し、新規発声音声を
登録することによって個人情報カードの発声候補辞書の
更新を行う。
【0071】図17は、個人情報カードに格納されてい
る個人用発声候補辞書テーブルである。
【0072】図18は、図1における話者照合部の構成
を表す図である。パスワードとして入力された音声信号
は、分析部1801において話者照合用分析パラメータ
系列1802に変換され、話者照合部1803におい
て、話者照合用分析パラメータ系列1802と、個人用
標準パターン1804の照合処理を行い、類似度が、予
め定められた閾値より高く、かつ発声内容が予め個人情
報カードに格納されていた登録音声パターン1805と
一致した場合に話者照合結果として認証を与える。この
とき、分析パラメータを音声認識パラメータと同一にす
れば、話者照合用に別途標準パターンを用意せず、個人
情報カードの音声入力制御パラメータの中の個人用標準
パターンを用いることによって、使用者の発声変形や経
時変化の影響を考慮して話者照合を行うことができる。
話者照合の詳細な方法については、例えば古井、「ディ
ジタル音声処理」(第9章話者認識、1985、東海大学出
版会)に記載されている。
【0073】個人情報カードの記憶部としてフラッシュ
メモリアレイを用いる場合、個人情報データの格納方法
として、以下を考慮することによって効率よくデータを
配置することができる。例えば、本発明である個人情報
カードの個人情報のうち、聴覚特性データ、好み情報デ
ータ、個人用標準パターン、登録音声パターンは、予め
データ数が決まっているため、更新時は、固定データ数
ごとの書き換えとなる。そこで、このような個人情報デ
ータは、フラッシュメモリの同一消去ブロック内に、異
なる個人情報が混在しないように配置することによっ
て、各データごとの消去、更新が可能になる。
【0074】また、発声候補辞書については、発声候補
データは増加するのみで書き換える必要がない。そこ
で、図19記載のように、発声頻度データ1901と発
声候補データ1902を分離してフラッシュメモリ19
03に格納することによって、発声頻度データのみを更
新することが可能となる。また、新規候補の登録は、予
め確保されていた未使用部分に書き込めば、消去処理を
行わなう必要がない。
【0075】図20は、本発明である個人情報カードを
用いた音声インタフェースシステムであるCD(キャッ
シュディスペンサ)を表す図である。本実施例における
CD2001は、少なくともマイクロフォン2002、
スピーカ2003、また、個人情報カード2004を挿
入するスロット2005を有し、使用者がスロットに個
人情報カードを挿入し、音声インタフェースを使用者に
特化してからパスワードを音声で入力し、音声によるコ
マンドおよびデータ入力によって出金手続きを行う。こ
の際、システムの音声応答は、個人情報カードに格納さ
れている音声出力制御パラメータによって、使用者が聞
きやすい音声に特化される。
【0076】
【発明の効果】個人情報をシステム外の記憶媒体に格納
し、使用時にシステムに該媒体をシステムに接続する手
段を用いることにより、システムが使用者個人の情報を
保持しないため、多数の使用者の個人情報を格納するた
めの記憶部が不要となった。また、システムを個人に特
化するため音声認識精度が高くすることが可能になっ
た。さらに、話者の声質が登録時と異なる場合にも話者
照合を正確に行うことが可能になった。使用する度に調
整を行わずに、出力音声を使用者の好みや聴覚に適合さ
せることが可能となった。
【0077】記憶媒体としてフラッシュメモリを用いた
ことにより、電源を用いずにデータを保持することが可
能となり、容積を小さくすることが可能となった。ま
た、容易に部分的に書き込み処理ができるため、適宜デ
ータの更新を行うことが可能となった。さらに、データ
読み出し速度が大きいため、個人情報をシステムにロー
ドせずに、直接カード内のデータにアクセスすることが
可能となった。
【0078】
【図面の簡単な説明】
【図1】個人情報カードおよびこれを用いる音声インタ
フェースシステムの1実施例を説明する図である。
【図2】個人情報カードおよび音声インタフェースシス
テムのハードウェア構成の1実施例を表す図である。
【図3】音声再生部の構成を表す図である。
【図4】個人情報を用いて個人適合を行う場合の音声規
則合成部の構成を表す図である。
【図5】録音再生部を表す図である。
【図6】録音再生音声データを表す図である。
【図7】音質加工部を表す図である。
【図8】個人情報カードに格納されている好み情報テー
ブルの例である。
【図9】個人情報カードに格納されている聴覚特性テー
ブルの例である。
【図10】システムが保持している音質加工データテー
ブルの例である。
【図11】音声認識部の構成を表す図である。
【図12】複数の個人用標準パターンを有する音声認識
部の構成例である。
【図13】個人用標準パターンを補正する音声認識部の
例である。
【図14】個人情報カードに格納されている個人用標準
パターンの一部であるコードブックテーブルを表す図で
ある。
【図15】個人情報カードに標準パターン適合データを
格納する場合の音声認識部の個人用標準パターン作成方
法を表す図である。
【図16】個人用発声候補辞書を用いた音声認識部の構
成例である。
【図17】個人情報カードに格納されている個人用発声
候補辞書テーブルである。
【図18】話者照合部の構成を表す図である。
【図19】個人用発声候補辞書のフラッシュメモリ格納
例である。
【図20】個人情報カードを用いた音声インタフェース
システムであるCDを表す図である。
【符号の説明】
101…個人情報カード、102…音声出力を制御する
パラメータ、103…個人付加情報、104…音声入力
制御パラメータ、105…発声候補辞書、106…登録
音声パターン、107…音声インタフェースシステム、
108…システム制御部、109…音声インタフェース
部、112…音声インタフェース制御部、114…音声
再生部、115…音声認識部、116…話者照合部、2
01…音声インタフェースシステム、202…CPU、
203…RAM、204…ROM、205…I/Oコン
トローラ、206…ディスク装置、207…システムバ
ス、208…表示デバイス、209…ポインティングデ
バイス、210…入力デバイス、211…音響デバイ
ス、213…個人情報カード、214…メモリコントロ
ーラ、215…フラッシュメモリアレイ、301…規則
合成部、302…録音再生部、303…音質加工部、4
01…言語処理部、403…韻律生成部、404…好み
情報、406…音韻生成部、408…音響パラメータ生
成部、409…素片辞書、411…音声信号生成部、5
01…音声データ選択部、701…音響パラメータ抽出
部、703…パラメータ加工部、704…好み情報、7
05…聴覚特性、708…音声信号生成部、1101…
分析部、1103…照合部、1104…個人用標準パタ
ーン、1204…標準パターン選択部、1206…類似
度判定部、1302…補正量計算部、1303…標準パ
ターン補正部、1501…個人用標準パターン、150
2…不特定話者用標準パターン、1503…個人適合
部、1601…照合部、1602…発声候補辞書、16
03…個人用発声候補辞書、1801…分析部、180
3…話者照合部、1804…個人用標準パターン、19
01…発声頻度データ、1902…発声候補データ、1
903…フラッシュメモリ、2001…CD、2002
…マイクロフォン、2003…スピーカ、2004…個
人情報カード、2005…スロット。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】使用者固有の個人情報として音声の特徴を
    格納した情報カードと、入力された音声の認識を行う音
    声認識手段と、上記情報カードを着脱可能に装着し、上
    記個人情報をアクセスする手段と、上記個人情報を用い
    て上記入力された音声の認識を行うよう制御する制御手
    段とからなることを特徴とする個人情報カードを用いた
    音声インタフェースシステム。
  2. 【請求項2】上記個人情報は上記使用者により発声され
    る音声の特徴に加えて利用者固有の音声辞書、聴覚特
    徴、登録音声、付加情報及び好み情報の少なくとも1つ
    を含むことを特徴とする請求項1に記載の個人情報カー
    ドを用いた音声インターフェースシステム。
  3. 【請求項3】上記音声の特徴として、使用者の発声によ
    る音声標準パターンを用い、上記入力音声の認識を行う
    ことを特徴とする請求項1に記載の個人情報カードを用
    いた音声インタフェースシステム。
  4. 【請求項4】上記音声の特徴として、使用環境や体調に
    応じた使用者の発声の特徴ごとに異なる内容の音声標準
    パターンを複数個準備することを特徴とする請求項1又
    は2に記載の個人情報カードを用いた入力音声の認識を
    行う音声インタフェースシステム。
  5. 【請求項5】上記使用者の発声による音声の特徴は、音
    声インタフェースシステム内の音声標準パターンと使用
    者の音声標準パターンとの差分データ出あり、上記差分
    データを用いて上記入力音声の認識を行うことを特徴と
    する請求項1又は2に記載の個人情報カードを用いた音
    声インタフェースシステム。
  6. 【請求項6】上記音声辞書には、使用者の発声頻度の高
    い音声パターンおよび発声頻度が格納されており、上記
    音声辞書を用いて上記入力音声の認識を行うことを特徴
    とする請求項2又は3に記載の個人情報カードを用いた
    音声インタフェースシステム。
  7. 【請求項7】上記聴覚の特徴は、使用者の可聴域周波数
    特性に関する情報であり、上記聴覚特徴を用いて出力音
    声の周波数特性を調整することを特徴とする請求項2又
    は3に記載の個人情報カードを用いた音声インタフェー
    スシステム。
  8. 【請求項8】上記好み情報は、出力音声の発話速度に関
    する情報であることを特徴とする請求項2又は3に1記
    載の個人情報カードを用いた音声インタフェースシステ
    ム。
  9. 【請求項9】上記好み情報は、出力音声の平均ピッチに
    関する情報であることを特徴とする請求項2又は3に記
    載の個人情報カードを用いた音声インタフェースシステ
    ム。
  10. 【請求項10】使用者から入力された入力音声と上記登
    録音声および上記音声標準パターンとに基づいて使用者
    の認証を行う話者照合手段を有することを特徴とする請
    求項3から5のいずれかに記載の個人情報カードを用い
    た音声インタフェースシステム。
  11. 【請求項11】上記入力音声に基づいて上記個人情報を
    更新することを特徴とする請求項1から10のいずれか
    に記載の個人情報カードを用いた音声インタフェースシ
    ステム。
  12. 【請求項12】上記入力音声に基づいて、上記個人情報
    に新たな記録データを追加することを特徴とする請求項
    1から10のいずれかに記載の個人情報カードを用いた
    音声インタフェースシステム。
  13. 【請求項13】上記個人情報カードは不揮発性メモリを
    有し上記不揮発性メモリに上記個人情報が格納されてい
    ることを特徴とする請求項1から12のいずれかに記載
    の個人情報カードを用いた音声インタフェースシステ
    ム。
  14. 【請求項14】上記個人情報カードはフラッシュメモリ
    を有し上記フラッシュメモリに上記個人情報が格納され
    ていることを特徴とする請求項1から12のいずれかに
    記載の個人情報カードを用いた音声インタフェースシス
    テム。
JP6254996A 1994-10-20 1994-10-20 個人情報カードを用いた音声インタフェースシステム Pending JPH08123461A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6254996A JPH08123461A (ja) 1994-10-20 1994-10-20 個人情報カードを用いた音声インタフェースシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6254996A JPH08123461A (ja) 1994-10-20 1994-10-20 個人情報カードを用いた音声インタフェースシステム

Publications (1)

Publication Number Publication Date
JPH08123461A true JPH08123461A (ja) 1996-05-17

Family

ID=17272765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6254996A Pending JPH08123461A (ja) 1994-10-20 1994-10-20 個人情報カードを用いた音声インタフェースシステム

Country Status (1)

Country Link
JP (1) JPH08123461A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002099785A1 (en) * 2001-06-06 2002-12-12 Koninklijke Philips Electronics N.V. Pattern processing system specific to a user group
JP2004069815A (ja) * 2002-08-02 2004-03-04 Yamaha Corp コンテンツ編集システム、方法及びプログラム
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002099785A1 (en) * 2001-06-06 2002-12-12 Koninklijke Philips Electronics N.V. Pattern processing system specific to a user group
US9009043B2 (en) 2001-06-06 2015-04-14 Nuance Communications, Inc. Pattern processing system specific to a user group
US9424838B2 (en) 2001-06-06 2016-08-23 Nuance Communications, Inc. Pattern processing system specific to a user group
JP2004069815A (ja) * 2002-08-02 2004-03-04 Yamaha Corp コンテンツ編集システム、方法及びプログラム
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器

Similar Documents

Publication Publication Date Title
US6094632A (en) Speaker recognition device
US9721558B2 (en) System and method for generating customized text-to-speech voices
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US7533023B2 (en) Intermediary speech processor in network environments transforming customized speech parameters
US6366883B1 (en) Concatenation of speech segments by use of a speech synthesizer
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US6085160A (en) Language independent speech recognition
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
US20130268275A1 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
CN110706714B (zh) 说话者模型制作系统
JPH0416800B2 (ja)
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US20030055642A1 (en) Voice recognition apparatus and method
JPH08123461A (ja) 個人情報カードを用いた音声インタフェースシステム
GB2313530A (en) Speech Synthesizer
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
Blomberg et al. Speech recognition based on a text-to-speech synthesis system.
JP4812010B2 (ja) 音声処理装置、およびプログラム
Dzibela et al. Hidden-Markov-Model Based Speech Enhancement
JP2002082688A (ja) 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
KR100564740B1 (ko) 화행 정보를 이용한 음성 합성 방법 및 장치
JP2003345372A (ja) 音声合成装置及び音声合成方法