JP4588069B2 - 操作者認識装置、操作者認識方法、および、操作者認識プログラム - Google Patents
操作者認識装置、操作者認識方法、および、操作者認識プログラム Download PDFInfo
- Publication number
- JP4588069B2 JP4588069B2 JP2007512487A JP2007512487A JP4588069B2 JP 4588069 B2 JP4588069 B2 JP 4588069B2 JP 2007512487 A JP2007512487 A JP 2007512487A JP 2007512487 A JP2007512487 A JP 2007512487A JP 4588069 B2 JP4588069 B2 JP 4588069B2
- Authority
- JP
- Japan
- Prior art keywords
- biometric information
- information
- input
- operator
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 78
- 238000007476 Maximum Likelihood Methods 0.000 claims description 93
- 238000004364 calculation method Methods 0.000 claims description 45
- 238000012795 verification Methods 0.000 claims description 41
- 239000000284 extract Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 description 79
- 238000000605 extraction Methods 0.000 description 40
- 230000014509 gene expression Effects 0.000 description 12
- 238000009826 distribution Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 239000000203 mixture Substances 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Collating Specific Patterns (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Storage Device Security (AREA)
Description
【技術分野】
【0001】
本発明は、HMM(Hidden Markov Models)法を用いて話者認識を行う技術分野に属する。
【背景技術】
【0002】
現在、インターネットなどのネットワークの発達およびコンピュータの発達に伴い、ネットワークを用いたサービスの提供、他のコンピュータへのアクセス、または、物理的な鍵の代替え品として、様々な場面で本人確認を行う種々の方法やシステムが研究・開発されている。
【0003】
このような本人確認を行う代表的なものとして、操作者の発話音声成分または指紋など操作者の生体情報を用いて本人確認を行う方法(以下、「操作者認識方法」という。)があり、具体的には、認識すべき操作者の発話音声成分または指紋などの生体情報の特徴量を予め登録し、当該操作者の認識を行う際に、入力された生体情報の特徴量を抽出し、当該抽出された特徴量と予め登録された特徴量とを比較して操作者の認識を行うようになっている。
【0004】
例えば、操作者(以下、「話者」ともいう。)の発話音声成分を用いて本人確認を行うものとしては、HMM(隠れマルコフモデル)と呼ばれる確率モデル(以下、「HMM」という。)を用いるものが知られており、特に、最近では、予め登録するHMMのデータ(以下、「HMMデータ」という。)を少なくして認識処理の負荷を低減し、かつ、認識力の高いテキスト依存型と呼ばれるHMMデータを用いる認識方法が知られている。
【0005】
具体的には、このようなテキスト依存型の操作者の認識システム(以下、「テキスト依存型話者認識システム」という。)は、予め操作者毎に、すなわち、話者毎に任意に決めた語句(以下、「パスワード」という。)の複数回の発話から抽出した特徴量から算出された各話者のHMMをHMMデータとしてデータベースに登録するようになっており、当該話者の認識を行う際に、パスワードを話者に発話させ、当該発話された発話音声成分の特徴量とHMMデータによって示される特徴量とを比較することによって話者認識を行うようになっている(例えば、特許文献1)。
[特許文献1]
特開2004−294755号公報
[発明の開示]
[発明が解決しようとする課題]
[0006]
しかしながら、従来の生体情報を用いた操作者認識方法にあっては、テキスト依存型認識システムに代表されるように、予め登録されるHMMデータ自体が他の登録されるHMMデータと類似する場合には、誤認識が生じてしまう場合が多い。例えば、テキスト依存型話者認識システムでは、話者毎に任意に決めたパスワードの文字列が類似し、話者の発話の特徴が類似する場合には、誤認識が生じてしまう。
[0007]
本発明は、上記の課題の一例を解決するものとして、操作者の認識時に誤認識を生じさせやすい特徴量を有するHMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置、操作者認識方法および操作者認識プログラムを提供することにある。
[課題を解決するための手段]
[0008]
上記の課題を解決するために、本発明の1つの観点では、認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、を備える構成を有している。
[0009]
また、本願の他の観点では、認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、備える構成を有している。
[0010]
また、本願のさらに他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。
また、本願のさらに他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。
また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させる構成を有している。
また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させる構成を有している。
【図面の簡単な説明】
[0011]
[図1]
本願に係る操作者認識装置の第1実施形態における話者認識装置の構成を示すブロック図である。
[図2]
第1実施形態のシステム制御部における登録処理の動作を示すフローチャートである。
[図3]
本願に係る操作者認識装置の第2実施形態における指紋認識装置の構成を示すブロック図である。
【図4】第2実施形態のシステム制御部における登録処理の動作を示すフローチャートである。
【図5】本願に係る操作者認識装置の第3実施形態における話者認識装置の構成を示すブロック図である。
【図6】第3実施形態のシステム制御部における登録処理の動作を示すフローチャートである。
【符号の説明】
【0012】
100、500 … 話者認識装置
110 … マイクロホン
120 … 入力処理部
130、320 … 特徴量抽出部
140、330 … データベース
150、340、520 … 尤度算出部
160 … 登録判定部
170 … 表示部
180 … 表示制御部
190 … スピーカ
200 … 拡声制御部
210、360、510 … データ生成部
220、350 … 認識処理部
230 … 操作部
240、370、530 … システム制御部
250 … ROM/RAM
300 … 指紋認識装置
310 … 指紋検出部
【発明を実施するための最良の形態】
【0013】
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【0014】
以下に説明する実施形態は、テキスト依存型話者認識装置(以下、単に「話者認識装置」という。)または指紋認識装置に対して本願の操作者認識装置、操作者認識方法および操作者認識プログラムを適用した場合の実施形態である。また、以下の各実施形態では、尤度および各閾値については、正規化された値であることを前提に説明する。
【0015】
〔第1実施形態〕
始めに、図1〜図2を用いて本願の操作者認識装置の第1実施形態を、話者認識装置を用いて説明する。
【0016】
まず、図1を用いて本願の話者認識装置の構成について説明する。なお、図1は、本願に係る話者認識装置の構成を示すブロック図である。
【0017】
本実施形態の話者認識装置100は、認識の対象となる各操作者毎に、当該操作者を特定するためのパスワードを複数回発話させ、当該操作者によって発話された発話音声に基づいて生成されたHMMデータを予め登録するようになっており、話者を特定して認識する処理(以下、「認識処理」という。)を行うときに当該登録されている各HMMデータと任意の操作者から発せされたパスワードにおける発話音声の音声成分とに基づいてパスワードを発した操作者、すなわち、話者を特定して認識するようになっている。
【0018】
特に、本実施形態の話者認識装置100は、認識処理を行うときに用いるHMMデータを登録する際に、既に登録されたHMMデータによって示される特徴量と類似する発話音声成分の特徴量を有するパスワードのHMMデータの登録を排除し、認識処理時に、誤認識を生じさせることが予想されるHMMデータの登録を許可しないようになっている。
【0019】
具体的には、本実施形態の話者認識装置100は、HMMデータを登録する処理(以下、「登録処理」という。)を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置100は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該登録が許可されたパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいてHMMデータを学習させつつ、生成し、当該生成されたHMMデータの登録を行うようになっている。
[0020]
この話者認識装置100は、図1に示すように、話者のパスワードにおける発話音声が入力されるマイクロホン110と、入力されたパスワードの発話音声の音声信号に対して所定の処理を行う入力処理部120と、パスワードの発話音声の音声信号に基づいて当該発話音声における音声成分(以下、「発話音声成分」という。)の特徴量を抽出する特徴量抽出部130と、話者が予め定めたパスワードのHMMデータが予め複数登録されているデータベース140と、データベース140に登録された各HMMデータと抽出された発話音声成分の特徴量との後述する尤度を算出する尤度算出部150と、を備え、認識処理時および登録処理時に入力された発話音声成分と登録されている各HMMデータとに基づいて後述するように、尤度を算出するようになっている。
[0021]
また、この話者認識装置100は、登録処理を行う際に、算出された各尤度に基づいて話者の認識を行うためのパスワードとして当該話者が定めたパスワードの登録の可否を判定する登録判定部160と、当該登録判定部160の判定結果を表示する表示部170と、表示部170を制御する表示制御部180と、登録判定部160の判定結果を告知するスピーカ190と、当該スピーカ190を制御する拡声制御部200と、パスワードとして当該話者が定めたパスワードをHMMデータとして登録することが許可された場合に、HMMデータを学習させつつ生成するデータ生成部210と、を備えている。
[0022]
さらに、この話者認識装置100は、抽出されたパスワードの特徴量とデータベース140に既に登録されたHMMデータに基づいて認識処理を行う認識処理部220と、各種操作を行うために用いられる操作部230と、装置全体を制御するとともに、HMMデータを登録する際に、または、認識処理を実行する際に各部を制御するシステム制御部240と、各部を制御する際に用いられるROM/RAM250と、を備えている。
[0023]
なお、例えば、本実施形態のマイクロホン110は、本発明の入力手段を構成し、特徴量抽出部130は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース140は、本発明のデータベース140を構成し、尤度算出部150は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部170およびスピーカ190は、本発明の告知手段を構成し、データ生成部210は、本発明の更新手段を構成する。
[0024]
マイクロホン110には、認識処理を行う際に、または、登録処理を行う際に、操作者、すなわち、話者が登録を希望するパスワードの発話音声が入力されるようになっており、このマイクロホン110は、入力されたパスワードの発話音声を電気的な音声信号に変換し、入力処理部120に出力するようになっている。
[0025]
入力処理部120には、マイクロホン110から出力された音声信号が入力されるようになっており、この入力処理部120は、入力された音声信号に対して、所定の信号レベルに増幅させるとともに、デジタル信号に変換するようになっている。
[0026]
また、この入力処理部120は、入力された音声信号の発話音声部分の音声区間を示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、分割された各フレームの音声信号を特徴量抽出部130に出力するようになっている。
[0027]
特徴量抽出部130には、パスワードの発話音声がマイクロホン110に入力される毎に、各フレームに分割された音声信号が入力されるようになっており、この特徴量抽出部130は、システム制御部240の制御の下、入力された各フレーム毎に音声信号を分析するとともに、当該フレーム毎の音声信号に基づいて発話音声成分の特微量を抽出し、当該抽出された各フレームの特徴量を特徴量データとして尤度算出部150または後述するように当該パスワードの登録が許可された場合にデータ生成部210に出力するようになっている。
[0028]
具体的には、特徴量抽出部130は、入力された各フレームの音声信号に基づいて、一定時間毎に、かつ、各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を各フレームの発話音声成分の特徴量として抽出するとともに、当該抽出した各特徴量をベクトル化して特徴量データを生成し、当該生成された尤度算出部150またはデータ生成部210に出力するようになっている。
【0029】
なお、本実施形態の特徴量抽出部130は、データ生成部210においてHMMデータを学習させつつ生成する場合に、各フレーム毎に分割された音声信号が入力される毎に、当該入力された音声信号に基づいて発話音声成分の特徴量を抽出し、データ生成部210に出力するようになっている。
【0030】
データベース140には、操作者を特定するためのパスワードの当該操作者における発話音声成分に基づいて生成されたHMMデータが各操作者毎に、当該各操作者の名称に対応付けて予め登録されている。
【0031】
なお、このHMMは、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになっている。具体的には、このHMMは、ある状態からある状態に状態の遷移の確率を示す状態遷移確率と状態が遷移するときに観測されるベクトル(フレーム毎の特徴量ベクトル)の確率を出力する出力確率の2つのパラメータを有するとともに、発話音声の任意の区間毎に遷移する状態の集まりを表し、非定常信号源を定常信号の連結で表わす統計的信号源モデルである。
【0032】
尤度算出部150には、パスワード一発話分の全フレームのベクトル特徴量の時系列データが特徴量データとして入力されるようになっており、この尤度算出部150は、システム制御部240の制御の下、入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース140に格納されている各HMMデータに基づき尤度を算出するようになっている。
【0033】
具体的には、尤度算出部150は、HMMが初期状態から時間の進行と共に状態を遷移する毎にベクトルを出力し、最終状態に達したときに入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量データが出力される確率を計算するようになっている。そして、この尤度算出部150は、当該算出された確率を尤度として算出するようになっている。
【0034】
一方、この尤度算出部150は、上述のように算出された各話者のHMM毎の尤度において最も高い尤度(以下、「最大尤度」という。)を検索し、この最大尤度を尤度データとして登録判定部160または認識処理部220の何れかに出力するようになっている。
【0035】
なお、この尤度算出部150は、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部160に出力するとともに、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部220に出力するようになっている。
【0036】
登録判定部160には、登録処理を行っている際に、尤度算出部150から出力された操作者が登録を希望するパスワードの尤度データが入力されるようになっており、この登録判定部160は、入力された尤度データに基づいて、当該尤度データの算出の基になったパスワードのデータベース140への登録の可否を判定し、当該判定結果をシステム制御部240に通知するようになっている。
【0037】
具体的には、この登録判定部160は、予め設定された登録判定用の閾値(以下、「登録判定用閾値」という。)と入力された尤度データによって示される尤度とを比較し、当該尤度が閾値以下の場合には、データベース140に類似するパスワードが登録されていないものと判断して、当該尤度データの算出の基になったパスワードのデータベース140への登録を許可する判定(以下、単に、「登録許可の判定」という。)を行うようになっている。
【0038】
一方、この登録判定部160は、予め設定された閾値と入力された尤度データによって示される尤度とを比較し、当該尤度が閾値より大きい場合には、データベース140に類似するパスワードが登録されているものと判断して、当該尤度データの算出の基になったパスワードのデータベース140への登録を許可しない不許可の旨の判定(以下、単に、「登録不許可の判定」という。)を行うようになっている。
【0039】
なお、システム制御部240は、後述するように、登録許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、登録許可の対象となったパスワードにおけるHMMデータを生成する処理を実行するようになっている。また、このシステム制御部240は、登録不許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。
【0040】
データ生成部210には、登録処理を行っている際に操作者が登録を希望するパスワードの登録が許可された場合に、パスワードの登録の可否の判断前に特徴量抽出部130にて抽出された当該パスワードの特徴量データと、当該パスワードの登録が許可された後に、複数回パスワードが入力され、特徴量抽出部130にて当該パスワードが入力される毎に抽出されたパスワードの特徴量データが入力されるようになっている。また、このデータ生成部210は、入力された各特徴量データに基づいて、HMMデータを学習させつつ生成し、当該生成されたHMMデータを操作者の名称に関連づけてデータベース140に登録するようになっている。
【0041】
具体的には、本実施形態のデータ生成部210は、入力された複数の特徴量データに基づいて、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを学習させつつ生成し、当該生成された確率モデルをHMMデータとしてデータベース140に登録するようになっている。
【0042】
表示部170は、例えば、CRT、液晶表示素子またはEL(Electro Luminescence)素子によって構成され、表示制御部180の制御にしたがって種々の表示を行うようになっており、特に、本実施形態の表示部170は、操作者が入力した登録を希望するパスワードの登録の可否などの種々の表示を行うようになっている。
【0043】
表示制御部180は、システム制御部240の制御の下、表示部170の表示制御を行うようになっており、特に、本実施形態の表示制御部180は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための表示データを生成し、当該生成された表示データを表示部170に表示出力するようになっている。
【0044】
スピーカ190は、拡声制御部200の制御にしたがって種々の告知を行う際に所定の音声が拡声させるようになっており、特に、本実施形態のスピーカ190は、操作者が入力した登録を希望するパスワードの登録の可否を行う際に用いられるようになっている。
【0045】
拡声制御部200は、システム制御部240の制御の下、スピーカ190の拡声制御を行うようになっており、特に、本実施形態の拡声制御部200は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための音声データを生成し、当該生成された音声データをスピーカ190から拡声出力するようになっている。
【0046】
認識処理部220には、認識処理を行っている際に、尤度算出部150において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部220は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。
【0047】
例えば、本実施形態の認識処理部220は、入力された尤度データにおける最大尤度が予め設定された認識処理用の閾値(以下、「認識処理用閾値」という。)以上であるか否かを判定し、当該最大尤度が認識処理用閾値以上の場合には、当該尤度を算出する際に用いたHMMデータに対応付けて登録されている操作者を、当該認識処理においてパスワードを発話した操作者、すなわち、話者であると認識し、当該認識結果をシステム制御部240に出力するようになっている。
【0048】
なお、本実施形態の認識処理部220は、当該最大尤度が認識処理用閾値より小さい場合には、当該認識処理においてパスワードを発話した操作者がデータベース140に登録されている何れの操作者にも該当しないとしてその旨をシステム制御部240に出力するようになっている。また、この認識処理用閾値は、登録判定用閾値より大きい値が用いられるようになっている。
【0049】
操作部230は、各種確認ボタン及び数字キー等の多数のキーを含むキーボード、または、タッチパネル等の入力インターフェースにより構成されており、特に、本実施形態では、登録処理を行う際に、または、認識処理を行う際に、所定の操作を行うようになっている。
【0050】
システム制御部240は、主に中央演算処理装置(CPU)によって構成されるとともに、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、登録処理および認識処理のための全般的な機能を総括的に制御するようになっている。
【0051】
このシステム制御部240は、登録処理および認識処理を行う際に、ROM/RAM250に格納される制御プログラムを読み出して各処理を実行し、当該ROM/RAM250に処理中のデータを一時的に保持するようになっている。
【0052】
なお、本実施形態のシステム制御部240における登録処理の動作の詳細については後述する。
【0053】
ROM/RAM250には、所定の動作を行う際の制御プログラムが記憶されているとともに、各部を制御する際に用いられるデータが一時的に記憶されるようになっている。
【0054】
次に、図2を用いて本実施形態のシステム制御部240における登録処理の動作について説明する。
【0055】
なお、図2は、本実施形態のシステム制御部240における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース140には、複数の操作者のHMMデータが予め登録されているものとする。
【0056】
まず、操作部230を介して操作者によってパスワードのHMMデータを登録する登録処理を実行する指示が入力され、システム制御部240が当該登録処理の実行指示を検出すると(ステップS11)、当該システム制御部240は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190によってパスワードの入力を促すための告知(以下、「入力指示の告知」という。)をさせる(ステップS12)。
【0057】
次いで、システム制御部240は、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS13)。
【0058】
このとき、特徴量抽出部130は、当該ステップS13の指示が為されると、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとして尤度算出部150に出力する。
【0059】
次いで、システム制御部240は、尤度算出部150に入力された各フレーム毎の特徴量とデータベース140に格納されている各HMMデータを比較して入力されたパスワードの発話音声成分全体の特徴量と各HMMデータの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部160に出力させる(ステップS14)。
【0060】
次いで、システム制御部240は、登録判定部160に最大尤度と登録判定用閾値とを比較させ、入力されたパスワードの登録の可否を判定し(ステップS15)、登録判定部160によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部180およぎ拡声制御部200を制御して、表示部170およびスピーカ190にて登録するパスワード、すなわち、登録するパスワードの変更を促すための告知(以下、「変更指示の告知」という。)をさせ(ステップS16)、ステップS13の処理に移行する。
【0061】
一方、登録判定部160によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部240は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録可能の告知を行わせる(ステップS17)。
【0062】
次いで、システム制御部240は、データ生成部210に特徴量抽出部130から入力されたパスワードの特徴量を取得させて当該パスワードにおけるHMMデータを生成させるとともに(ステップS18)、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録するパスワードの入力を促すための告知(以下、「再入力指示の告知」という。)を行わせる(ステップS19)。
【0063】
次いで、システム制御部240は、ステップS13の処理と同様に、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS20)。
【0064】
このとき、特徴量抽出部130は、上述の処理と同様に、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部210に出力する。
【0065】
このとき、システム制御部240が未だ予め定められた回数のパスワードの入力がないと判断すると、当該システム制御部240は、ステップS20の処理に移行し、システム制御部240が未だ予め定められた回数のパスワードの入力があったと判断すると、当該システム制御部240は、データ生成部210にHMMデータの学習を指示する。
【0066】
次いで、システム制御部240は、データ生成部210に入力された特徴量データに基づいて生成されたHMMデータを学習させ(ステップS21)、生成されたHMMデータを、パスワードを入力した操作者に対応付けてデータベース140に登録させ(ステップS23)、本動作を終了させる。
【0067】
以上のように本実施形態の話者認識装置100は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量から学習したHMMデータが予め登録されたデータベース140を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該HMMデータとを比較することによって操作者を認識する話者認識装置100であって、パスワードの音声成分における特徴量から学習するHMMデータをデータベース140に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン110と、入力されたパスワードの音声成分から特徴量を抽出する特徴量抽出部130と、抽出された特徴量と照合用の各操作者のパスワードの発話音声成分の特徴量から学習されたHMMデータとを比較し、当該抽出された特徴量と当該照合用の各操作者のパスワードの発話音声成分における特徴量から学習されたHMMデータとの尤度をそれぞれ算出する尤度算出部150と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出されたパスワードの発話音声における音声成分の特徴量に基づいて生成されるHMMデータを用いてデータベース140を更新するデータ生成部210と、を備える構成を有している。
【0068】
この構成により、本実施形態の話者認識装置100は、操作者が希望するパスワードの発話音声に基づくHMMデータを登録する際に、入力されたパスワードの発話音声成分から抽出された特徴量とデータベース140に登録された各HMMデータの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量に基づいて生成されるHMMデータを用いてデータベース140を更新する。
【0069】
したがって、本実施形態の話者認識装置100は、操作者の認識時に誤認識を生じさせやすい特徴量に基づくHMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。
【0070】
また、本実施形態の話者認識装置100は、尤度算出部150が、初回に入力されたパスワードの音声成分における特徴量に基づいて照合用の各パスワードの音声成分における特徴量との各尤度を算出するとともに、算出された初回に入力されたパスワードの音声成分における特徴量に基づく各尤度が登録判定用閾値以下の場合に、データ生成部210が、抽出された全登録用パスワード発話の特徴量に基づいて一つのHMMデータを生成し、当該生成されたHMMデータを用いてデータベース140を更新する構成を有している。
【0071】
この構成により、複数回行わなければならない登録発話のうち初回の発話のみで登録可否の判定がなされるので、パスワードの再入力が生じた場合であっても、操作者における負荷を軽減させることができる。
【0072】
なお、本実施形態では、データ生成部210は、パスワードの登録が許可された後に、複数回入力されたパスワードの発話音声成分における特徴量に基づいて、HMMを学習させるようになっているが、複数回のパスワード発話の任意の複数の発話に対して登録可否の判定を行うようにしても良い。この場合には、登録不可の判定が尤度の算出に用いない入力された複数回の発話音声における特徴量データは、例えば、ROM/RAM250に一時的に記憶されるようになっている。
【0073】
また、本実施形態では、登録判定部160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判定部160において許可が為されない限り、登録を希望するパスワードの再入力が指示されるようになっているが、当該パスワードの再入力に回数の制限を設けるようにしてもよい。
【0074】
この場合には、システム制御部240は、パスワードの変更指示を行う毎に、算出された最大尤度をROM/RAM250に記憶し、予め定められた回数の再入力を行っても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ROM/RAM250に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部210に、当該選択されたパスワードにおけるHMMデータを、入力された発話音声の特徴量に基づいて、学習させつつ生成させ、生成させたHMMデータをデータベース140に登録させるようになっている。また、この場合には、上述と同様に、システム制御部240は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部170およびスピーカ190を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部240は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0075】
また、上述のように、パスワードの発話音声における入力を制限する点に変えて、算出された最大尤度をROM/RAM250に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいてHMMデータを学習させつつ生成するようにしてよい。このように、パスワードの再入力を所定の基準にて制限することによって、上述と同様に、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、上述と同様に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部240は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0076】
なお、ここでは照合用生体情報としてHMMデータを用いて尤度として信号生成確率を用いた例を示したが、照合用生体情報としてGMM(Gaussian Mixture Model)を用いて尤度として信号生成確率を用いる方法、動的計画法を用いる場合照合用生体情報として照合用パターンを用い尤度としてパターン間距離の逆数を用いる方法や、ニューラルネットを用いる場合照合用生体情報としてニューラルネットワークを用い尤度としてネットワーク出力を用いる方法など様々な方法も本構成で実現できる。
【0077】
また近年、携帯電話やインターネット等のデータ通信を応用した分散型音声認識が開発研究されている。これは、端末側でマイクとCPUなどの演算器を持ち、発話音声を特徴量に変換してデータ通信によりサーバに伝送する。サーバでは受信した特徴量に対し音声認識処理を行う結果を求めたり、求めた結果でデータ検索を行うなどする。そして求めた結果やデータ検索結果等を再度データ通信を利用して端末に伝送し、端末側でユーザに音声や画像で通知するなど利用する、というものである。このような構成を本発明にも用いることができる。この場合、入力処理部・特徴量抽出部・表示部・スピーカを端末側で受け持ち、データ生成・データベース・尤度算出部・登録判定部・認識処理部をサーバ側で受け持つような構成とすることも可能である。
【0078】
また、本実施形態では、システム制御部240によって、登録処理を行うようになっているが、操作者毎のHMMデータが複数登録されるデータベース140を有する話者認識装置100にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプログラムを読み込むことによって上述と同様の登録処理を行うようにしてもよい。
【0079】
〔第2実施形態〕
次に、図3および図4を用いて本願の操作者認識装置の第2実施形態を、指紋認識装置を用いて説明する。
【0080】
本実施形態の指紋認識装置は、第1実施形態の話者認識装置においてパスワードの発話音声における特徴量を用いて認識処理を行う点に代えて、操作者の指紋の特徴量を用いる点に特徴がある。
【0081】
すなわち、各操作者において指紋は、指の数だけ存在するため、各操作者において変更可能な生体情報の一つである。また、この指紋は、指紋の画像(以下、「指紋画像」という。)として取り込み、当該指紋画像に基づいて指紋隆線の分岐点および端点の位置などの特徴点を解析することによって当該指紋画像の特徴量を抽出することができる。したがって、本実施形態の指紋認識装置は、指紋画像を取得し、当該取得された指紋画像を解析することによって特徴量を抽出することができるとともに、当該特徴量をデータベース140に予め登録すれば、第1実施形態と同様に、尤度を算出することができ、かつ、認識処理を行うことができるようになっている。
【0082】
なお、本実施形態においては、上述の構成以外の構成は第1実施形態と同様の構成を有しており、同一の部材には同一の符号を付してその説明を省略する。
【0083】
まず、図3を用いて本願の指紋認識装置300の構成について説明する。なお、図3は、本願に係る指紋認識装置300の構成を示すブロック図である。
[0084]
本実施形態の指紋認識装置300は、図3に示すように、操作者の指紋を画像として検出する指紋検出部310と、入力された指紋画像に基づいて当該指紋の特徴量を抽出する特徴量抽出部320と、操作者の指紋の特徴量を示す指紋データが予め複数登録されているデータベース330と、データベース330に登録された各指紋データと抽出された指紋画像における特徴量との尤度を算出する尤度算出部340と、抽出された指紋画像の特徴量とデータベース330に既に登録された指紋データに基づいて認識処理を行う認識処理部350と、パスワードとして当該操作者が定めた指紋を指紋データとして登録することが許可された場合に、指紋データを生成するデータ生成部360と、を備えている。
[0085]
また、この指紋認識部は、第1実施形態と同様に、登録判定部160と、表示部170と、表示制御部180と、スピーカ190と、拡声制御部200と、操作部230と、システム制御部370と、ROM/RAM250と、を備えている。
[0086]
なお、例えば、本実施形態の指紋検出部310は、本発明の入力手段を構成するとともに、特徴量抽出部320は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース330は、本発明のデータベース330を構成し、尤度算出部340は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部170およびスピーカ190は、本発明の告知手段を構成し、データ生成部360は、本発明の更新手段を構成する。
[0087]
指紋検出部310は、操作者の指を接触させる接触部を有し、登録処理時または認識処理時に、指が接触部に接触された際に、光学式または静電容量式などの指紋センサーを用いて当該指の指紋を指紋画像として撮像し、指紋画像を指紋画像データとして特徴量抽出部320に出力するようになっている。
[0088]
特徴量抽出部320には、入力された操作者の指における指紋画像データが入力されるようになっており、この特微量抽出部320は、入力された指紋画像データに基づいて、上述のように、指紋隆線の分岐点および端点の位置など特徴量を抽出するようになっている。そして、この特徴量抽出部320は、抽出された特徴量を特徴量データとして尤度算出部340またはデータ生成部360に出力するようになっている。
【0089】
データベース330には、操作者を特定するためのパスワードとして当該操作者の指紋画像に基づいて生成された指紋データが、各操作者毎に、当該各操作者の名称に対応付けて予め登録されている。
【0090】
尤度算出部340には、特徴量抽出部320にて抽出された特徴量データが入力されるようになっており、この尤度算出部340は、システム制御部370の制御の下、特徴量データの各特徴量とデータベース330に格納されている各指紋データによって示される特徴量とを比較し、入力された特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、この算出された各尤度において最も高い最大尤度を尤度データとして認識処理部350または登録判定部160の何れかに出力するようになっている。
【0091】
なお、この尤度算出部340は、第1実施形態と同様に、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部350に出力するとともに、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部160に出力するようになっている。
【0092】
認識処理部350には、認識処理を行っている際に、尤度算出部340において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部350は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。
【0093】
データ生成部210は、登録処理を行っている際に操作者が登録を希望するパスワードとしての指紋の登録が許可された場合に、特徴量抽出部320にて抽出された当該指紋画像の特徴量データを取得し、取得された特徴量データに基づいて、指紋データを生成するようになっており、生成された指紋データを操作者の名称に関連づけてデータベース330に登録するようになっている。
【0094】
次に、図4を用いて本実施形態のシステム制御部370における登録処理の動作について説明する。
【0095】
なお、図4は、本実施形態のシステム制御部370における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース330には、複数の操作者の指紋データが予め登録されているものとする。
【0096】
まず、操作部230を介して操作者によってパスワードとしての指紋データを登録する登録処理を実行する指示が入力され、システム制御部370が当該登録処理の実行指示を検出すると(ステップS31)、当該システム制御部370は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190によってパスワードを入力する旨、すなわち、指紋の検出を促すための告知(以下、「検出指示の告知」という。)をさせる(ステップS32)。
【0097】
次いで、システム制御部370は、指紋検出部310に接触部に接触された指の指紋の画像を撮像させる(ステップS33)。
【0098】
次いで、システム制御部370は、特徴量抽出部320に、撮像された指紋画像データに基づいて特徴量を抽出させ、当該抽出された特徴量を特徴量データとして尤度算出部340に出力させる(ステップS34)。
【0099】
次いで、システム制御部370は、尤度算出部340に入力された特徴量データとデータベース330に格納されている各指紋データの各特徴量とを比較して入力された指紋画像データにおける特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部160に出力させる(ステップS35)。
【0100】
次いで、システム制御部370は、登録判定部160に最大尤度と登録判定用閾値とを比較させ、入力された指紋の登録の可否を判定し(ステップS36)、登録判定部160によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部180およぎ拡声制御部200を制御して、表示部170およびスピーカ190にて登録する指紋の変更を告知させ(ステップS37)、ステップS33の処理に移行する。
【0101】
一方、登録判定部160によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部370は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録可能である旨の告知を行わせる(ステップS38)。
【0102】
次いで、システム制御部370は、データ生成部360に特徴量抽出部320から撮像された指紋画像データの特徴量を取得させて指紋データを生成させるとともに(ステップS39)、当該生成された指紋データを入力した操作者に対応付けてデータベース330に登録させ(ステップS40)、本動作を終了させる。
【0103】
以上のように本実施形態の指紋認識装置300は、認識の対象となる操作者毎に登録変更可能な指紋の特徴量が指紋データとして予め登録されたデータベース330を有し、特定すべき操作者の指紋の特徴量と当該指紋データとを比較することによって操作者を認識する指紋認識装置300であって、操作者の指の指紋の特徴量を指紋データとしてデータベース330に登録する際に、登録すべき指紋を画像データとして検出する指紋検出部310と、検出された指紋画像データから特徴量を抽出する特徴量抽出部320と、抽出された指紋画像データの特徴量と照合用の各指紋データの特徴量とを比較し、当該抽出された特徴量と当該照合用の各指紋データの特徴量との特性が類似する割合を示す尤度をそれぞれ算出する尤度算出部340と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出された指紋画像データの特徴量に基づいて生成される指紋データを用いてデータベース330を更新するデータ生成部360と、を備える構成を有している。
【0104】
この構成により、本実施形態の指紋認識装置300は、操作者が希望する指紋に基づく指紋データを登録する際に、検出された指紋画像データから抽出された特徴量とデータベース330に登録された各指紋データにおける特徴量との特性が類似する割合を示す尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望する指紋の特徴量に基づいて生成される指紋データを用いてデータベース330を更新する。
【0105】
したがって、本実施形態の指紋認識装置300は、第1実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量を有する指紋データなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。
【0106】
また、本実施形態の指紋認識装置300は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する表示部170およびスピーカ190を更に備える構成を有している。
【0107】
この構成により、本実施形態の指紋認識装置300は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する。
【0108】
したがって、本実施形態の指紋認識装置300は、第1実施形態と同様に、操作者のパスワードとして登録すべき指紋画像データの再入力を操作者に告知することができるので、当該パスワードを必ず登録させることができる。
【0109】
また、本実施形態では、登録判定部160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードとしての指紋画像データが検出されるようになっており、当該登録判定部160において許可が為されない限り、登録を希望する指紋画像データの再検出が指示されるようになっているが、当該指紋画像データの再検出に回数の制限を設けるようにしてもよい。
【0110】
この場合には、システム制御部370は、指紋の変更指示を行う毎に、算出された最大尤度をROM/RAM250に記憶し、予め定められた回数の再入力を行っても、登録を希望する指紋の登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ROM/RAM250に記憶された最大尤度うち、最小となる最大尤度の指紋画像データを選択し、データ生成部360に、当該選択された指紋画像データに基づいて指紋データ生成させ、生成させた指紋データを用いてデータベース330を更新させるようになっている。
【0111】
また、本実施形態では、システム制御部370によって、登録処理を行うようになっているが、操作者毎の指紋データが複数登録されるデータベース330を有する指紋認識装置300にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプログラムを読み込むことによって上述と同様の登録処理を行うようにしてもよい。
【0112】
〔第3実施形態〕
次に、図5及び図6を用いて本願の操作者認識装置の第3実施形態を、話者認識装置を用いて説明する。
【0113】
本実施形態の話者認識装置は、第1実施形態の話者認識装置がHMMデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するのに対し、HMMデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量から生成するHMMデータと既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断する点に特徴がある。
【0114】
まず、図5を用いて本願の話者認識装置500の構成について説明する。図5は、本願に係る話者認識装置500の構成を示すブロック図である。
【0115】
なお、本実施形態の話者認識装置は、上述の構成以外の構成は第1実施形態の話者認識装置と同様の構成を有しており、同一の部材及び動作については同一の符号を付してその説明を省略する。
【0116】
本実施形態の話者認識装置500は、特に、登録処理を行う際に、操作者の登録を希望するパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいて学習しつつ生成したHMMデータと、既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置500は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該生成されたHMMデータの登録を行うようになっている。
【0117】
この話者認識装置500は、図5に示すように、特徴抽出部130によって抽出された話者のパスワードにおける発話音声成分の特徴量からHMMデータを学習しつつ生成するデータ生成部510と、データ生成部510によって学習しつつ生成されたHMMデータとデータベース140に登録された各HMMデータとの尤度を算出する尤度算出部520と、を備えている。
【0118】
また、この話者認識装置500は、第1実施形態と同様に、マイクロホン110と、入力処理部120と、特徴量抽出部130と、データベース140と、登録判定部160と、表示部170と、表示制御部180と、スピーカ190と、拡声制御部200と、認識処理部220と、操作部230と、システム制御部530と、ROM/RAM250と、を備えている。
[0119]
なお、例えば、尤度算出部520は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部170およびスピーカ190は、本発明の告知手段を構成し、データ生成部510は、本発明の比較対象情報生成手段及び更新手段を構成する。
[0120]
データ生成部510には、登録処理を行っている際に、特徴量抽出部130にて抽出された当該パスワードの特徴量データが入力され、データ生成部510は、入力された各特徴量データに基づいて、HMMデータを学習させつつ生成して、当該生成されたHMMデータを尤度算出部520に出力するようになっている。
[0121]
尤度算出部520は、登録処理を行っている際に、データ生成部510より入力されたHMMデータとデータベース140に格納されている各HMMデータに基づいて、尤度を算出して、算出した各話者のHMM毎の尤度における最大尤度を検索し、この最大尤度を尤度データとして登録判定部160に出力するようになっている。
[0122]
HMMデータ間の尤度として、例えばHMMデータ間の距離の逆数を用いることができる。HMMデータ間の距離を比較する尺度(以下、「距離尺度」と称することがある)としては、例えば、Kullbackの情報量によるものを用いることができる(文献(信学技法SP94−16『クラスタリングによるHMM間の距離尺度の研究』(15頁〜20頁)参照)。以下、当該文献を参考に説明を行う。
[0123]
例えば、登録処理の際にデータ生成部510で生成されたHMMデータをλ0とし、λ0算出時に用いた発話音声の特徴量系列をXTとし、データベース140に登録されているHMMデータをλとすると、下記(1)式、(2)式を用いることにより発話音声毎のλ0とλの距離値Dを算出することができる。さらに、当該算出した発話音声毎の距離値Dの平均を算出することにより、操作者が希望するパスワードの発話音声に基づくHMMデータとデータベース140に登録された各HMMデータとの距離値を求めることができる。
[0124]
[数1]
【0125】
【数2】
【0126】
また、比較するHMMデータが共に同じ状態数である場合には、同じく上記文献に挙げられている下記(5)式、(6)式、(7)式より算出される距離尺度を用いることもできる。この場合には、時間の進行と共に遷移する状態毎に分布間の距離値を算出して、全状態の距離値を平均することによりHMMデータ間の距離値を求めることができる。このとき、第i番目の状態のN次元ガウス分布の平均、分散をそれぞれ下記(3)式、(4)式とし、登録処理の際にデータ生成部510で生成されたHMMデータのi番目の状態をm1i、データベース140に登録されているHMMデータのi番目の状態をm2iとする。
【0127】
【数3】
【0128】
【数4】
【0129】
【数5】
【0130】
【数6】
【0131】
【数7】
【0132】
さらに、上記(5)式、(6)式、(7)式を用いて混合分布における距離値を算出する場合には、例えば、各状態において最も混合比の大きい分布をその状態を代表とする分布として選択することにより、単一分布と同様に上記(5)式、(6)式、(7)式から距離値を算出することができる。例えば、混合数をMとして、比較する一方のHMMデータ1の状態をi、混合kの分布の平均を下記(8)式、混合kの分布の分散を下記(9)式、混合比を下記(10)式とする。また、比較する他方のHMMデータ2の状態をi、混合kの分布の平均を下記(11)式、混合kの分布の分散を下記(12)式、混合比を下記(13)式とする。この場合において、下記(14)式、(15)式とすると、下記(16)式、(17)式、(18)式より距離値を算出することができる。
【0133】
【数8】
【0134】
【数9】
【0135】
【数10】
【0136】
【数11】
【0137】
【数12】
【0138】
【数13】
【0139】
【数14】
【0140】
【数15】
【0141】
【数16】
【0142】
【数17】
【0143】
【数18】
【0144】
なお、認識処理の方式としてDPマッチングを用いる場合には、比較する2つの標準パターンの内一方をテンプレートとし、他方を照合パラメータとしてマッチングを行うことにより、HMMを用いた場合のHMMデータ間の距離に相当する標準パターン間の距離を算出することができる。また、他の様々なHMMデータ間の尤度を算出する方法を本発明に適用することができる。
【0145】
一方、この尤度算出部520は、登録処理を行っている際には、上記のように登録処理の際にデータ生成部510で生成されたHMMデータとデータベース140に登録されている各HMMデータとの尤度を計算し当該最も高い尤度を尤度データとして登録判定部160に出力するとともに、認識処理を行っている際には、実施例1で示したように入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース140に格納されている各HMMデータに基づき算出された各尤度のうち最も高い尤度を尤度データとして認識処理部220に出力するようになっている。
【0146】
なお、システム制御部530は、登録判定部160より登録許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、登録許可の対象となったパスワードにおけるHMMデータをデータベース140に登録させる。また、このシステム制御部530は、登録判定部160より登録不許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。
【0147】
次に、図6を用いて本実施形態のシステム制御部530における登録処理の動作について説明する。
【0148】
なお、図6は、本実施形態のシステム制御部530における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース140には、複数の操作者のHMMデータが予め登録されているものとする。
【0149】
まず、操作部230を介して操作者によってパスワードのHMMデータを登録する登録処理を実行する指示が入力され、システム制御部530が当該登録処理の実行指示を検出すると(ステップS11)、当該システム制御部530は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190によってパスワードの入力指示の告知をさせる(ステップS12)。
【0150】
次いで、システム制御部530は、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS13)。
【0151】
このとき、特徴量抽出部130は、当該ステップS13の指示が為されると、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部510に出力する。
【0152】
次いで、システム制御部530は、データ生成部510に、特徴量抽出部130から入力されたパスワードの特徴量データを取得させて当該パスワードにおけるHMMデータを生成させる(ステップS51)。
【0153】
次いで、システム制御部530は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にてパスワードの再入力指示の告知を行わせる(ステップS52)。
【0154】
次いで、システム制御部530は、ステップS13の処理と同様に、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS53)。特徴量抽出部130は、当該ステップS53の指示が為されると、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部510に出力する。
【0155】
次いで、システム制御部530は、データ生成部510に特徴量抽出部130から入力されたパスワードの特徴量データを取得させてHMMデータの学習を指示する(ステップS54)。
【0156】
次いで、システム制御部530は、予め定められた回数のパスワードの入力がされたか否かを判断する(ステップS55)。このとき、システム制御部530は、予め定められた回数のパスワードの入力がされていないと判断すると、ステップS52の処理に移行して、以降、予め定められた回数のパスワードの入力がされるまでステップS52〜ステップS54の処理を繰り返す。
【0157】
一方、システム制御部530は、データ生成部510に学習させたHMMデータを尤度算出部520に出力させ、次いで、尤度算出部520に対して尤度算出部520に入力されたHMMデータとデータベース140に格納されている各HMMデータとのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部160に出力させる(ステップS56)。
【0158】
次いで、システム制御部530は、登録判定部160に対して当該最大尤度と登録判定用閾値とを比較させて、入力されたパスワードの登録の可否を判定させる(ステップS57)。このとき、システム制御部530は、登録判定部160によって最大尤度が登録判定用閾値より大きいと判断された場合には、データ生成部510に学習させつつ生成させたHMMデータを破棄させて(ステップS58)、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録するパスワードの変更指示の告知をさせ(ステップS59)、ステップS13の処理に移行する。
【0159】
一方、システム制御部530は、登録判定部160によって最大尤度が登録判定用閾値以下と判断された場合には、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録可能の告知を行わせる(ステップS60)。
【0160】
次いで、システム制御部530は、データ生成部510に対して学習させつつ生成させた当該パスワードにおけるHMMデータを、パスワードを入力した操作者に対応付けてデータベース140に登録させて(ステップS61)、本動作を終了させる。
【0161】
以上のように本実施形態の話者認識装置500は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量から学習したHMMデータが予め登録されたデータベース140を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該HMMデータとを比較することによって操作者を認識する話者認識装置500であって、パスワードの音声成分における特徴量から学習したHMMデータをデータベース140に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン110と、入力されたパスワードの音声成分から特徴量を抽出する特徴量抽出部130と、抽出された特徴量より学習して生成されたHMMデータにおける特徴量と照合用の各HMMデータにおける特徴量とを比較し、当該抽出された特徴量より学習して生成された登録すべきHMMデータと当該照合用の各HMMデータとの尤度をそれぞれ算出する尤度算出部520と、算出された各尤度が基準となる登録判定用閾値以下の場合に、生成されたHMMデータを用いてデータベース140を更新するデータ生成部510と、を備える構成を有している。
【0162】
この構成により、本実施形態の話者認識装置500は、操作者が希望するパスワードの発話音声に基づくHMMデータを登録する際に、入力されたパスワードの発話音声成分から抽出された特徴量より学習して生成されたHMMデータとデータベース140に登録されている各HMMデータとの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量より生成されたHMMデータを用いてデータベース140を更新する。
【0163】
したがって、本実施形態の話者認識装置500は、第1実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量に基づくHMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。
【0164】
また、本実施形態では、登録判定部160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判定部160において許可が為されない限り、登録を希望するパスワードの再入力が指示されるようになっているが、当該パスワードの再入力に回数の制限を設けるようにしてもよい。
【0165】
この場合には、システム制御部530は、パスワードの変更指示を行う毎に、算出された最大尤度をROM/RAM250に記憶し、予め定められた回数の再入力を行っても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ROM/RAM250に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部510に、入力された発話音声の特徴量に基づいて生成させた当該選択されたパスワードにおけるHMMデータを用いてデータベース140を更新させるようになっている。また、この場合には、システム制御部530は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部170およびスピーカ190を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部530は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0166】
また、上述のように、パスワードの発話音声における入力を制限する点に代えて、算出された最大尤度をROM/RAM250に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいて生成したHMMデータを用いてデータベース140を更新させるようにしてもよい。このように、パスワードの再入力を所定の基準にて制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部530は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0167】
なお、上記実施形態においては、生体情報を音声成分情報及び指紋情報として説明したが、生体情報とは、顔画像、掌形画像、指画像、虹彩情報、静脈情報などの生体から取得可能な個人を特定するために用いられる情報を含むものである。
【0168】
なお、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
【0169】
また、2005年3月31日に出願された明細書、特許請求の範囲、図面、要約を含む日本の特許出願(No.2005-101369)の全ての開示は、その全てを参照することよって、ここに組み込まれる。
【0001】
本発明は、HMM(Hidden Markov Models)法を用いて話者認識を行う技術分野に属する。
【背景技術】
【0002】
現在、インターネットなどのネットワークの発達およびコンピュータの発達に伴い、ネットワークを用いたサービスの提供、他のコンピュータへのアクセス、または、物理的な鍵の代替え品として、様々な場面で本人確認を行う種々の方法やシステムが研究・開発されている。
【0003】
このような本人確認を行う代表的なものとして、操作者の発話音声成分または指紋など操作者の生体情報を用いて本人確認を行う方法(以下、「操作者認識方法」という。)があり、具体的には、認識すべき操作者の発話音声成分または指紋などの生体情報の特徴量を予め登録し、当該操作者の認識を行う際に、入力された生体情報の特徴量を抽出し、当該抽出された特徴量と予め登録された特徴量とを比較して操作者の認識を行うようになっている。
【0004】
例えば、操作者(以下、「話者」ともいう。)の発話音声成分を用いて本人確認を行うものとしては、HMM(隠れマルコフモデル)と呼ばれる確率モデル(以下、「HMM」という。)を用いるものが知られており、特に、最近では、予め登録するHMMのデータ(以下、「HMMデータ」という。)を少なくして認識処理の負荷を低減し、かつ、認識力の高いテキスト依存型と呼ばれるHMMデータを用いる認識方法が知られている。
【0005】
具体的には、このようなテキスト依存型の操作者の認識システム(以下、「テキスト依存型話者認識システム」という。)は、予め操作者毎に、すなわち、話者毎に任意に決めた語句(以下、「パスワード」という。)の複数回の発話から抽出した特徴量から算出された各話者のHMMをHMMデータとしてデータベースに登録するようになっており、当該話者の認識を行う際に、パスワードを話者に発話させ、当該発話された発話音声成分の特徴量とHMMデータによって示される特徴量とを比較することによって話者認識を行うようになっている(例えば、特許文献1)。
[特許文献1]
特開2004−294755号公報
[発明の開示]
[発明が解決しようとする課題]
[0006]
しかしながら、従来の生体情報を用いた操作者認識方法にあっては、テキスト依存型認識システムに代表されるように、予め登録されるHMMデータ自体が他の登録されるHMMデータと類似する場合には、誤認識が生じてしまう場合が多い。例えば、テキスト依存型話者認識システムでは、話者毎に任意に決めたパスワードの文字列が類似し、話者の発話の特徴が類似する場合には、誤認識が生じてしまう。
[0007]
本発明は、上記の課題の一例を解決するものとして、操作者の認識時に誤認識を生じさせやすい特徴量を有するHMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置、操作者認識方法および操作者認識プログラムを提供することにある。
[課題を解決するための手段]
[0008]
上記の課題を解決するために、本発明の1つの観点では、認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、を備える構成を有している。
[0009]
また、本願の他の観点では、認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、備える構成を有している。
[0010]
また、本願のさらに他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。
また、本願のさらに他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。
また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させる構成を有している。
また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させる構成を有している。
【図面の簡単な説明】
[0011]
[図1]
本願に係る操作者認識装置の第1実施形態における話者認識装置の構成を示すブロック図である。
[図2]
第1実施形態のシステム制御部における登録処理の動作を示すフローチャートである。
[図3]
本願に係る操作者認識装置の第2実施形態における指紋認識装置の構成を示すブロック図である。
【図4】第2実施形態のシステム制御部における登録処理の動作を示すフローチャートである。
【図5】本願に係る操作者認識装置の第3実施形態における話者認識装置の構成を示すブロック図である。
【図6】第3実施形態のシステム制御部における登録処理の動作を示すフローチャートである。
【符号の説明】
【0012】
100、500 … 話者認識装置
110 … マイクロホン
120 … 入力処理部
130、320 … 特徴量抽出部
140、330 … データベース
150、340、520 … 尤度算出部
160 … 登録判定部
170 … 表示部
180 … 表示制御部
190 … スピーカ
200 … 拡声制御部
210、360、510 … データ生成部
220、350 … 認識処理部
230 … 操作部
240、370、530 … システム制御部
250 … ROM/RAM
300 … 指紋認識装置
310 … 指紋検出部
【発明を実施するための最良の形態】
【0013】
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【0014】
以下に説明する実施形態は、テキスト依存型話者認識装置(以下、単に「話者認識装置」という。)または指紋認識装置に対して本願の操作者認識装置、操作者認識方法および操作者認識プログラムを適用した場合の実施形態である。また、以下の各実施形態では、尤度および各閾値については、正規化された値であることを前提に説明する。
【0015】
〔第1実施形態〕
始めに、図1〜図2を用いて本願の操作者認識装置の第1実施形態を、話者認識装置を用いて説明する。
【0016】
まず、図1を用いて本願の話者認識装置の構成について説明する。なお、図1は、本願に係る話者認識装置の構成を示すブロック図である。
【0017】
本実施形態の話者認識装置100は、認識の対象となる各操作者毎に、当該操作者を特定するためのパスワードを複数回発話させ、当該操作者によって発話された発話音声に基づいて生成されたHMMデータを予め登録するようになっており、話者を特定して認識する処理(以下、「認識処理」という。)を行うときに当該登録されている各HMMデータと任意の操作者から発せされたパスワードにおける発話音声の音声成分とに基づいてパスワードを発した操作者、すなわち、話者を特定して認識するようになっている。
【0018】
特に、本実施形態の話者認識装置100は、認識処理を行うときに用いるHMMデータを登録する際に、既に登録されたHMMデータによって示される特徴量と類似する発話音声成分の特徴量を有するパスワードのHMMデータの登録を排除し、認識処理時に、誤認識を生じさせることが予想されるHMMデータの登録を許可しないようになっている。
【0019】
具体的には、本実施形態の話者認識装置100は、HMMデータを登録する処理(以下、「登録処理」という。)を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置100は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該登録が許可されたパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいてHMMデータを学習させつつ、生成し、当該生成されたHMMデータの登録を行うようになっている。
[0020]
この話者認識装置100は、図1に示すように、話者のパスワードにおける発話音声が入力されるマイクロホン110と、入力されたパスワードの発話音声の音声信号に対して所定の処理を行う入力処理部120と、パスワードの発話音声の音声信号に基づいて当該発話音声における音声成分(以下、「発話音声成分」という。)の特徴量を抽出する特徴量抽出部130と、話者が予め定めたパスワードのHMMデータが予め複数登録されているデータベース140と、データベース140に登録された各HMMデータと抽出された発話音声成分の特徴量との後述する尤度を算出する尤度算出部150と、を備え、認識処理時および登録処理時に入力された発話音声成分と登録されている各HMMデータとに基づいて後述するように、尤度を算出するようになっている。
[0021]
また、この話者認識装置100は、登録処理を行う際に、算出された各尤度に基づいて話者の認識を行うためのパスワードとして当該話者が定めたパスワードの登録の可否を判定する登録判定部160と、当該登録判定部160の判定結果を表示する表示部170と、表示部170を制御する表示制御部180と、登録判定部160の判定結果を告知するスピーカ190と、当該スピーカ190を制御する拡声制御部200と、パスワードとして当該話者が定めたパスワードをHMMデータとして登録することが許可された場合に、HMMデータを学習させつつ生成するデータ生成部210と、を備えている。
[0022]
さらに、この話者認識装置100は、抽出されたパスワードの特徴量とデータベース140に既に登録されたHMMデータに基づいて認識処理を行う認識処理部220と、各種操作を行うために用いられる操作部230と、装置全体を制御するとともに、HMMデータを登録する際に、または、認識処理を実行する際に各部を制御するシステム制御部240と、各部を制御する際に用いられるROM/RAM250と、を備えている。
[0023]
なお、例えば、本実施形態のマイクロホン110は、本発明の入力手段を構成し、特徴量抽出部130は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース140は、本発明のデータベース140を構成し、尤度算出部150は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部170およびスピーカ190は、本発明の告知手段を構成し、データ生成部210は、本発明の更新手段を構成する。
[0024]
マイクロホン110には、認識処理を行う際に、または、登録処理を行う際に、操作者、すなわち、話者が登録を希望するパスワードの発話音声が入力されるようになっており、このマイクロホン110は、入力されたパスワードの発話音声を電気的な音声信号に変換し、入力処理部120に出力するようになっている。
[0025]
入力処理部120には、マイクロホン110から出力された音声信号が入力されるようになっており、この入力処理部120は、入力された音声信号に対して、所定の信号レベルに増幅させるとともに、デジタル信号に変換するようになっている。
[0026]
また、この入力処理部120は、入力された音声信号の発話音声部分の音声区間を示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、分割された各フレームの音声信号を特徴量抽出部130に出力するようになっている。
[0027]
特徴量抽出部130には、パスワードの発話音声がマイクロホン110に入力される毎に、各フレームに分割された音声信号が入力されるようになっており、この特徴量抽出部130は、システム制御部240の制御の下、入力された各フレーム毎に音声信号を分析するとともに、当該フレーム毎の音声信号に基づいて発話音声成分の特微量を抽出し、当該抽出された各フレームの特徴量を特徴量データとして尤度算出部150または後述するように当該パスワードの登録が許可された場合にデータ生成部210に出力するようになっている。
[0028]
具体的には、特徴量抽出部130は、入力された各フレームの音声信号に基づいて、一定時間毎に、かつ、各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を各フレームの発話音声成分の特徴量として抽出するとともに、当該抽出した各特徴量をベクトル化して特徴量データを生成し、当該生成された尤度算出部150またはデータ生成部210に出力するようになっている。
【0029】
なお、本実施形態の特徴量抽出部130は、データ生成部210においてHMMデータを学習させつつ生成する場合に、各フレーム毎に分割された音声信号が入力される毎に、当該入力された音声信号に基づいて発話音声成分の特徴量を抽出し、データ生成部210に出力するようになっている。
【0030】
データベース140には、操作者を特定するためのパスワードの当該操作者における発話音声成分に基づいて生成されたHMMデータが各操作者毎に、当該各操作者の名称に対応付けて予め登録されている。
【0031】
なお、このHMMは、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになっている。具体的には、このHMMは、ある状態からある状態に状態の遷移の確率を示す状態遷移確率と状態が遷移するときに観測されるベクトル(フレーム毎の特徴量ベクトル)の確率を出力する出力確率の2つのパラメータを有するとともに、発話音声の任意の区間毎に遷移する状態の集まりを表し、非定常信号源を定常信号の連結で表わす統計的信号源モデルである。
【0032】
尤度算出部150には、パスワード一発話分の全フレームのベクトル特徴量の時系列データが特徴量データとして入力されるようになっており、この尤度算出部150は、システム制御部240の制御の下、入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース140に格納されている各HMMデータに基づき尤度を算出するようになっている。
【0033】
具体的には、尤度算出部150は、HMMが初期状態から時間の進行と共に状態を遷移する毎にベクトルを出力し、最終状態に達したときに入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量データが出力される確率を計算するようになっている。そして、この尤度算出部150は、当該算出された確率を尤度として算出するようになっている。
【0034】
一方、この尤度算出部150は、上述のように算出された各話者のHMM毎の尤度において最も高い尤度(以下、「最大尤度」という。)を検索し、この最大尤度を尤度データとして登録判定部160または認識処理部220の何れかに出力するようになっている。
【0035】
なお、この尤度算出部150は、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部160に出力するとともに、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部220に出力するようになっている。
【0036】
登録判定部160には、登録処理を行っている際に、尤度算出部150から出力された操作者が登録を希望するパスワードの尤度データが入力されるようになっており、この登録判定部160は、入力された尤度データに基づいて、当該尤度データの算出の基になったパスワードのデータベース140への登録の可否を判定し、当該判定結果をシステム制御部240に通知するようになっている。
【0037】
具体的には、この登録判定部160は、予め設定された登録判定用の閾値(以下、「登録判定用閾値」という。)と入力された尤度データによって示される尤度とを比較し、当該尤度が閾値以下の場合には、データベース140に類似するパスワードが登録されていないものと判断して、当該尤度データの算出の基になったパスワードのデータベース140への登録を許可する判定(以下、単に、「登録許可の判定」という。)を行うようになっている。
【0038】
一方、この登録判定部160は、予め設定された閾値と入力された尤度データによって示される尤度とを比較し、当該尤度が閾値より大きい場合には、データベース140に類似するパスワードが登録されているものと判断して、当該尤度データの算出の基になったパスワードのデータベース140への登録を許可しない不許可の旨の判定(以下、単に、「登録不許可の判定」という。)を行うようになっている。
【0039】
なお、システム制御部240は、後述するように、登録許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、登録許可の対象となったパスワードにおけるHMMデータを生成する処理を実行するようになっている。また、このシステム制御部240は、登録不許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。
【0040】
データ生成部210には、登録処理を行っている際に操作者が登録を希望するパスワードの登録が許可された場合に、パスワードの登録の可否の判断前に特徴量抽出部130にて抽出された当該パスワードの特徴量データと、当該パスワードの登録が許可された後に、複数回パスワードが入力され、特徴量抽出部130にて当該パスワードが入力される毎に抽出されたパスワードの特徴量データが入力されるようになっている。また、このデータ生成部210は、入力された各特徴量データに基づいて、HMMデータを学習させつつ生成し、当該生成されたHMMデータを操作者の名称に関連づけてデータベース140に登録するようになっている。
【0041】
具体的には、本実施形態のデータ生成部210は、入力された複数の特徴量データに基づいて、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを学習させつつ生成し、当該生成された確率モデルをHMMデータとしてデータベース140に登録するようになっている。
【0042】
表示部170は、例えば、CRT、液晶表示素子またはEL(Electro Luminescence)素子によって構成され、表示制御部180の制御にしたがって種々の表示を行うようになっており、特に、本実施形態の表示部170は、操作者が入力した登録を希望するパスワードの登録の可否などの種々の表示を行うようになっている。
【0043】
表示制御部180は、システム制御部240の制御の下、表示部170の表示制御を行うようになっており、特に、本実施形態の表示制御部180は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための表示データを生成し、当該生成された表示データを表示部170に表示出力するようになっている。
【0044】
スピーカ190は、拡声制御部200の制御にしたがって種々の告知を行う際に所定の音声が拡声させるようになっており、特に、本実施形態のスピーカ190は、操作者が入力した登録を希望するパスワードの登録の可否を行う際に用いられるようになっている。
【0045】
拡声制御部200は、システム制御部240の制御の下、スピーカ190の拡声制御を行うようになっており、特に、本実施形態の拡声制御部200は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための音声データを生成し、当該生成された音声データをスピーカ190から拡声出力するようになっている。
【0046】
認識処理部220には、認識処理を行っている際に、尤度算出部150において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部220は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。
【0047】
例えば、本実施形態の認識処理部220は、入力された尤度データにおける最大尤度が予め設定された認識処理用の閾値(以下、「認識処理用閾値」という。)以上であるか否かを判定し、当該最大尤度が認識処理用閾値以上の場合には、当該尤度を算出する際に用いたHMMデータに対応付けて登録されている操作者を、当該認識処理においてパスワードを発話した操作者、すなわち、話者であると認識し、当該認識結果をシステム制御部240に出力するようになっている。
【0048】
なお、本実施形態の認識処理部220は、当該最大尤度が認識処理用閾値より小さい場合には、当該認識処理においてパスワードを発話した操作者がデータベース140に登録されている何れの操作者にも該当しないとしてその旨をシステム制御部240に出力するようになっている。また、この認識処理用閾値は、登録判定用閾値より大きい値が用いられるようになっている。
【0049】
操作部230は、各種確認ボタン及び数字キー等の多数のキーを含むキーボード、または、タッチパネル等の入力インターフェースにより構成されており、特に、本実施形態では、登録処理を行う際に、または、認識処理を行う際に、所定の操作を行うようになっている。
【0050】
システム制御部240は、主に中央演算処理装置(CPU)によって構成されるとともに、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、登録処理および認識処理のための全般的な機能を総括的に制御するようになっている。
【0051】
このシステム制御部240は、登録処理および認識処理を行う際に、ROM/RAM250に格納される制御プログラムを読み出して各処理を実行し、当該ROM/RAM250に処理中のデータを一時的に保持するようになっている。
【0052】
なお、本実施形態のシステム制御部240における登録処理の動作の詳細については後述する。
【0053】
ROM/RAM250には、所定の動作を行う際の制御プログラムが記憶されているとともに、各部を制御する際に用いられるデータが一時的に記憶されるようになっている。
【0054】
次に、図2を用いて本実施形態のシステム制御部240における登録処理の動作について説明する。
【0055】
なお、図2は、本実施形態のシステム制御部240における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース140には、複数の操作者のHMMデータが予め登録されているものとする。
【0056】
まず、操作部230を介して操作者によってパスワードのHMMデータを登録する登録処理を実行する指示が入力され、システム制御部240が当該登録処理の実行指示を検出すると(ステップS11)、当該システム制御部240は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190によってパスワードの入力を促すための告知(以下、「入力指示の告知」という。)をさせる(ステップS12)。
【0057】
次いで、システム制御部240は、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS13)。
【0058】
このとき、特徴量抽出部130は、当該ステップS13の指示が為されると、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとして尤度算出部150に出力する。
【0059】
次いで、システム制御部240は、尤度算出部150に入力された各フレーム毎の特徴量とデータベース140に格納されている各HMMデータを比較して入力されたパスワードの発話音声成分全体の特徴量と各HMMデータの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部160に出力させる(ステップS14)。
【0060】
次いで、システム制御部240は、登録判定部160に最大尤度と登録判定用閾値とを比較させ、入力されたパスワードの登録の可否を判定し(ステップS15)、登録判定部160によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部180およぎ拡声制御部200を制御して、表示部170およびスピーカ190にて登録するパスワード、すなわち、登録するパスワードの変更を促すための告知(以下、「変更指示の告知」という。)をさせ(ステップS16)、ステップS13の処理に移行する。
【0061】
一方、登録判定部160によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部240は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録可能の告知を行わせる(ステップS17)。
【0062】
次いで、システム制御部240は、データ生成部210に特徴量抽出部130から入力されたパスワードの特徴量を取得させて当該パスワードにおけるHMMデータを生成させるとともに(ステップS18)、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録するパスワードの入力を促すための告知(以下、「再入力指示の告知」という。)を行わせる(ステップS19)。
【0063】
次いで、システム制御部240は、ステップS13の処理と同様に、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS20)。
【0064】
このとき、特徴量抽出部130は、上述の処理と同様に、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部210に出力する。
【0065】
このとき、システム制御部240が未だ予め定められた回数のパスワードの入力がないと判断すると、当該システム制御部240は、ステップS20の処理に移行し、システム制御部240が未だ予め定められた回数のパスワードの入力があったと判断すると、当該システム制御部240は、データ生成部210にHMMデータの学習を指示する。
【0066】
次いで、システム制御部240は、データ生成部210に入力された特徴量データに基づいて生成されたHMMデータを学習させ(ステップS21)、生成されたHMMデータを、パスワードを入力した操作者に対応付けてデータベース140に登録させ(ステップS23)、本動作を終了させる。
【0067】
以上のように本実施形態の話者認識装置100は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量から学習したHMMデータが予め登録されたデータベース140を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該HMMデータとを比較することによって操作者を認識する話者認識装置100であって、パスワードの音声成分における特徴量から学習するHMMデータをデータベース140に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン110と、入力されたパスワードの音声成分から特徴量を抽出する特徴量抽出部130と、抽出された特徴量と照合用の各操作者のパスワードの発話音声成分の特徴量から学習されたHMMデータとを比較し、当該抽出された特徴量と当該照合用の各操作者のパスワードの発話音声成分における特徴量から学習されたHMMデータとの尤度をそれぞれ算出する尤度算出部150と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出されたパスワードの発話音声における音声成分の特徴量に基づいて生成されるHMMデータを用いてデータベース140を更新するデータ生成部210と、を備える構成を有している。
【0068】
この構成により、本実施形態の話者認識装置100は、操作者が希望するパスワードの発話音声に基づくHMMデータを登録する際に、入力されたパスワードの発話音声成分から抽出された特徴量とデータベース140に登録された各HMMデータの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量に基づいて生成されるHMMデータを用いてデータベース140を更新する。
【0069】
したがって、本実施形態の話者認識装置100は、操作者の認識時に誤認識を生じさせやすい特徴量に基づくHMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。
【0070】
また、本実施形態の話者認識装置100は、尤度算出部150が、初回に入力されたパスワードの音声成分における特徴量に基づいて照合用の各パスワードの音声成分における特徴量との各尤度を算出するとともに、算出された初回に入力されたパスワードの音声成分における特徴量に基づく各尤度が登録判定用閾値以下の場合に、データ生成部210が、抽出された全登録用パスワード発話の特徴量に基づいて一つのHMMデータを生成し、当該生成されたHMMデータを用いてデータベース140を更新する構成を有している。
【0071】
この構成により、複数回行わなければならない登録発話のうち初回の発話のみで登録可否の判定がなされるので、パスワードの再入力が生じた場合であっても、操作者における負荷を軽減させることができる。
【0072】
なお、本実施形態では、データ生成部210は、パスワードの登録が許可された後に、複数回入力されたパスワードの発話音声成分における特徴量に基づいて、HMMを学習させるようになっているが、複数回のパスワード発話の任意の複数の発話に対して登録可否の判定を行うようにしても良い。この場合には、登録不可の判定が尤度の算出に用いない入力された複数回の発話音声における特徴量データは、例えば、ROM/RAM250に一時的に記憶されるようになっている。
【0073】
また、本実施形態では、登録判定部160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判定部160において許可が為されない限り、登録を希望するパスワードの再入力が指示されるようになっているが、当該パスワードの再入力に回数の制限を設けるようにしてもよい。
【0074】
この場合には、システム制御部240は、パスワードの変更指示を行う毎に、算出された最大尤度をROM/RAM250に記憶し、予め定められた回数の再入力を行っても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ROM/RAM250に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部210に、当該選択されたパスワードにおけるHMMデータを、入力された発話音声の特徴量に基づいて、学習させつつ生成させ、生成させたHMMデータをデータベース140に登録させるようになっている。また、この場合には、上述と同様に、システム制御部240は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部170およびスピーカ190を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部240は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0075】
また、上述のように、パスワードの発話音声における入力を制限する点に変えて、算出された最大尤度をROM/RAM250に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいてHMMデータを学習させつつ生成するようにしてよい。このように、パスワードの再入力を所定の基準にて制限することによって、上述と同様に、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、上述と同様に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部240は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0076】
なお、ここでは照合用生体情報としてHMMデータを用いて尤度として信号生成確率を用いた例を示したが、照合用生体情報としてGMM(Gaussian Mixture Model)を用いて尤度として信号生成確率を用いる方法、動的計画法を用いる場合照合用生体情報として照合用パターンを用い尤度としてパターン間距離の逆数を用いる方法や、ニューラルネットを用いる場合照合用生体情報としてニューラルネットワークを用い尤度としてネットワーク出力を用いる方法など様々な方法も本構成で実現できる。
【0077】
また近年、携帯電話やインターネット等のデータ通信を応用した分散型音声認識が開発研究されている。これは、端末側でマイクとCPUなどの演算器を持ち、発話音声を特徴量に変換してデータ通信によりサーバに伝送する。サーバでは受信した特徴量に対し音声認識処理を行う結果を求めたり、求めた結果でデータ検索を行うなどする。そして求めた結果やデータ検索結果等を再度データ通信を利用して端末に伝送し、端末側でユーザに音声や画像で通知するなど利用する、というものである。このような構成を本発明にも用いることができる。この場合、入力処理部・特徴量抽出部・表示部・スピーカを端末側で受け持ち、データ生成・データベース・尤度算出部・登録判定部・認識処理部をサーバ側で受け持つような構成とすることも可能である。
【0078】
また、本実施形態では、システム制御部240によって、登録処理を行うようになっているが、操作者毎のHMMデータが複数登録されるデータベース140を有する話者認識装置100にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプログラムを読み込むことによって上述と同様の登録処理を行うようにしてもよい。
【0079】
〔第2実施形態〕
次に、図3および図4を用いて本願の操作者認識装置の第2実施形態を、指紋認識装置を用いて説明する。
【0080】
本実施形態の指紋認識装置は、第1実施形態の話者認識装置においてパスワードの発話音声における特徴量を用いて認識処理を行う点に代えて、操作者の指紋の特徴量を用いる点に特徴がある。
【0081】
すなわち、各操作者において指紋は、指の数だけ存在するため、各操作者において変更可能な生体情報の一つである。また、この指紋は、指紋の画像(以下、「指紋画像」という。)として取り込み、当該指紋画像に基づいて指紋隆線の分岐点および端点の位置などの特徴点を解析することによって当該指紋画像の特徴量を抽出することができる。したがって、本実施形態の指紋認識装置は、指紋画像を取得し、当該取得された指紋画像を解析することによって特徴量を抽出することができるとともに、当該特徴量をデータベース140に予め登録すれば、第1実施形態と同様に、尤度を算出することができ、かつ、認識処理を行うことができるようになっている。
【0082】
なお、本実施形態においては、上述の構成以外の構成は第1実施形態と同様の構成を有しており、同一の部材には同一の符号を付してその説明を省略する。
【0083】
まず、図3を用いて本願の指紋認識装置300の構成について説明する。なお、図3は、本願に係る指紋認識装置300の構成を示すブロック図である。
[0084]
本実施形態の指紋認識装置300は、図3に示すように、操作者の指紋を画像として検出する指紋検出部310と、入力された指紋画像に基づいて当該指紋の特徴量を抽出する特徴量抽出部320と、操作者の指紋の特徴量を示す指紋データが予め複数登録されているデータベース330と、データベース330に登録された各指紋データと抽出された指紋画像における特徴量との尤度を算出する尤度算出部340と、抽出された指紋画像の特徴量とデータベース330に既に登録された指紋データに基づいて認識処理を行う認識処理部350と、パスワードとして当該操作者が定めた指紋を指紋データとして登録することが許可された場合に、指紋データを生成するデータ生成部360と、を備えている。
[0085]
また、この指紋認識部は、第1実施形態と同様に、登録判定部160と、表示部170と、表示制御部180と、スピーカ190と、拡声制御部200と、操作部230と、システム制御部370と、ROM/RAM250と、を備えている。
[0086]
なお、例えば、本実施形態の指紋検出部310は、本発明の入力手段を構成するとともに、特徴量抽出部320は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース330は、本発明のデータベース330を構成し、尤度算出部340は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部170およびスピーカ190は、本発明の告知手段を構成し、データ生成部360は、本発明の更新手段を構成する。
[0087]
指紋検出部310は、操作者の指を接触させる接触部を有し、登録処理時または認識処理時に、指が接触部に接触された際に、光学式または静電容量式などの指紋センサーを用いて当該指の指紋を指紋画像として撮像し、指紋画像を指紋画像データとして特徴量抽出部320に出力するようになっている。
[0088]
特徴量抽出部320には、入力された操作者の指における指紋画像データが入力されるようになっており、この特微量抽出部320は、入力された指紋画像データに基づいて、上述のように、指紋隆線の分岐点および端点の位置など特徴量を抽出するようになっている。そして、この特徴量抽出部320は、抽出された特徴量を特徴量データとして尤度算出部340またはデータ生成部360に出力するようになっている。
【0089】
データベース330には、操作者を特定するためのパスワードとして当該操作者の指紋画像に基づいて生成された指紋データが、各操作者毎に、当該各操作者の名称に対応付けて予め登録されている。
【0090】
尤度算出部340には、特徴量抽出部320にて抽出された特徴量データが入力されるようになっており、この尤度算出部340は、システム制御部370の制御の下、特徴量データの各特徴量とデータベース330に格納されている各指紋データによって示される特徴量とを比較し、入力された特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、この算出された各尤度において最も高い最大尤度を尤度データとして認識処理部350または登録判定部160の何れかに出力するようになっている。
【0091】
なお、この尤度算出部340は、第1実施形態と同様に、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部350に出力するとともに、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部160に出力するようになっている。
【0092】
認識処理部350には、認識処理を行っている際に、尤度算出部340において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部350は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。
【0093】
データ生成部210は、登録処理を行っている際に操作者が登録を希望するパスワードとしての指紋の登録が許可された場合に、特徴量抽出部320にて抽出された当該指紋画像の特徴量データを取得し、取得された特徴量データに基づいて、指紋データを生成するようになっており、生成された指紋データを操作者の名称に関連づけてデータベース330に登録するようになっている。
【0094】
次に、図4を用いて本実施形態のシステム制御部370における登録処理の動作について説明する。
【0095】
なお、図4は、本実施形態のシステム制御部370における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース330には、複数の操作者の指紋データが予め登録されているものとする。
【0096】
まず、操作部230を介して操作者によってパスワードとしての指紋データを登録する登録処理を実行する指示が入力され、システム制御部370が当該登録処理の実行指示を検出すると(ステップS31)、当該システム制御部370は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190によってパスワードを入力する旨、すなわち、指紋の検出を促すための告知(以下、「検出指示の告知」という。)をさせる(ステップS32)。
【0097】
次いで、システム制御部370は、指紋検出部310に接触部に接触された指の指紋の画像を撮像させる(ステップS33)。
【0098】
次いで、システム制御部370は、特徴量抽出部320に、撮像された指紋画像データに基づいて特徴量を抽出させ、当該抽出された特徴量を特徴量データとして尤度算出部340に出力させる(ステップS34)。
【0099】
次いで、システム制御部370は、尤度算出部340に入力された特徴量データとデータベース330に格納されている各指紋データの各特徴量とを比較して入力された指紋画像データにおける特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部160に出力させる(ステップS35)。
【0100】
次いで、システム制御部370は、登録判定部160に最大尤度と登録判定用閾値とを比較させ、入力された指紋の登録の可否を判定し(ステップS36)、登録判定部160によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部180およぎ拡声制御部200を制御して、表示部170およびスピーカ190にて登録する指紋の変更を告知させ(ステップS37)、ステップS33の処理に移行する。
【0101】
一方、登録判定部160によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部370は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録可能である旨の告知を行わせる(ステップS38)。
【0102】
次いで、システム制御部370は、データ生成部360に特徴量抽出部320から撮像された指紋画像データの特徴量を取得させて指紋データを生成させるとともに(ステップS39)、当該生成された指紋データを入力した操作者に対応付けてデータベース330に登録させ(ステップS40)、本動作を終了させる。
【0103】
以上のように本実施形態の指紋認識装置300は、認識の対象となる操作者毎に登録変更可能な指紋の特徴量が指紋データとして予め登録されたデータベース330を有し、特定すべき操作者の指紋の特徴量と当該指紋データとを比較することによって操作者を認識する指紋認識装置300であって、操作者の指の指紋の特徴量を指紋データとしてデータベース330に登録する際に、登録すべき指紋を画像データとして検出する指紋検出部310と、検出された指紋画像データから特徴量を抽出する特徴量抽出部320と、抽出された指紋画像データの特徴量と照合用の各指紋データの特徴量とを比較し、当該抽出された特徴量と当該照合用の各指紋データの特徴量との特性が類似する割合を示す尤度をそれぞれ算出する尤度算出部340と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出された指紋画像データの特徴量に基づいて生成される指紋データを用いてデータベース330を更新するデータ生成部360と、を備える構成を有している。
【0104】
この構成により、本実施形態の指紋認識装置300は、操作者が希望する指紋に基づく指紋データを登録する際に、検出された指紋画像データから抽出された特徴量とデータベース330に登録された各指紋データにおける特徴量との特性が類似する割合を示す尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望する指紋の特徴量に基づいて生成される指紋データを用いてデータベース330を更新する。
【0105】
したがって、本実施形態の指紋認識装置300は、第1実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量を有する指紋データなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。
【0106】
また、本実施形態の指紋認識装置300は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する表示部170およびスピーカ190を更に備える構成を有している。
【0107】
この構成により、本実施形態の指紋認識装置300は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する。
【0108】
したがって、本実施形態の指紋認識装置300は、第1実施形態と同様に、操作者のパスワードとして登録すべき指紋画像データの再入力を操作者に告知することができるので、当該パスワードを必ず登録させることができる。
【0109】
また、本実施形態では、登録判定部160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードとしての指紋画像データが検出されるようになっており、当該登録判定部160において許可が為されない限り、登録を希望する指紋画像データの再検出が指示されるようになっているが、当該指紋画像データの再検出に回数の制限を設けるようにしてもよい。
【0110】
この場合には、システム制御部370は、指紋の変更指示を行う毎に、算出された最大尤度をROM/RAM250に記憶し、予め定められた回数の再入力を行っても、登録を希望する指紋の登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ROM/RAM250に記憶された最大尤度うち、最小となる最大尤度の指紋画像データを選択し、データ生成部360に、当該選択された指紋画像データに基づいて指紋データ生成させ、生成させた指紋データを用いてデータベース330を更新させるようになっている。
【0111】
また、本実施形態では、システム制御部370によって、登録処理を行うようになっているが、操作者毎の指紋データが複数登録されるデータベース330を有する指紋認識装置300にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプログラムを読み込むことによって上述と同様の登録処理を行うようにしてもよい。
【0112】
〔第3実施形態〕
次に、図5及び図6を用いて本願の操作者認識装置の第3実施形態を、話者認識装置を用いて説明する。
【0113】
本実施形態の話者認識装置は、第1実施形態の話者認識装置がHMMデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するのに対し、HMMデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量から生成するHMMデータと既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断する点に特徴がある。
【0114】
まず、図5を用いて本願の話者認識装置500の構成について説明する。図5は、本願に係る話者認識装置500の構成を示すブロック図である。
【0115】
なお、本実施形態の話者認識装置は、上述の構成以外の構成は第1実施形態の話者認識装置と同様の構成を有しており、同一の部材及び動作については同一の符号を付してその説明を省略する。
【0116】
本実施形態の話者認識装置500は、特に、登録処理を行う際に、操作者の登録を希望するパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいて学習しつつ生成したHMMデータと、既に登録されている各HMMデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置500は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該生成されたHMMデータの登録を行うようになっている。
【0117】
この話者認識装置500は、図5に示すように、特徴抽出部130によって抽出された話者のパスワードにおける発話音声成分の特徴量からHMMデータを学習しつつ生成するデータ生成部510と、データ生成部510によって学習しつつ生成されたHMMデータとデータベース140に登録された各HMMデータとの尤度を算出する尤度算出部520と、を備えている。
【0118】
また、この話者認識装置500は、第1実施形態と同様に、マイクロホン110と、入力処理部120と、特徴量抽出部130と、データベース140と、登録判定部160と、表示部170と、表示制御部180と、スピーカ190と、拡声制御部200と、認識処理部220と、操作部230と、システム制御部530と、ROM/RAM250と、を備えている。
[0119]
なお、例えば、尤度算出部520は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部170およびスピーカ190は、本発明の告知手段を構成し、データ生成部510は、本発明の比較対象情報生成手段及び更新手段を構成する。
[0120]
データ生成部510には、登録処理を行っている際に、特徴量抽出部130にて抽出された当該パスワードの特徴量データが入力され、データ生成部510は、入力された各特徴量データに基づいて、HMMデータを学習させつつ生成して、当該生成されたHMMデータを尤度算出部520に出力するようになっている。
[0121]
尤度算出部520は、登録処理を行っている際に、データ生成部510より入力されたHMMデータとデータベース140に格納されている各HMMデータに基づいて、尤度を算出して、算出した各話者のHMM毎の尤度における最大尤度を検索し、この最大尤度を尤度データとして登録判定部160に出力するようになっている。
[0122]
HMMデータ間の尤度として、例えばHMMデータ間の距離の逆数を用いることができる。HMMデータ間の距離を比較する尺度(以下、「距離尺度」と称することがある)としては、例えば、Kullbackの情報量によるものを用いることができる(文献(信学技法SP94−16『クラスタリングによるHMM間の距離尺度の研究』(15頁〜20頁)参照)。以下、当該文献を参考に説明を行う。
[0123]
例えば、登録処理の際にデータ生成部510で生成されたHMMデータをλ0とし、λ0算出時に用いた発話音声の特徴量系列をXTとし、データベース140に登録されているHMMデータをλとすると、下記(1)式、(2)式を用いることにより発話音声毎のλ0とλの距離値Dを算出することができる。さらに、当該算出した発話音声毎の距離値Dの平均を算出することにより、操作者が希望するパスワードの発話音声に基づくHMMデータとデータベース140に登録された各HMMデータとの距離値を求めることができる。
[0124]
[数1]
【0125】
【数2】
【0126】
また、比較するHMMデータが共に同じ状態数である場合には、同じく上記文献に挙げられている下記(5)式、(6)式、(7)式より算出される距離尺度を用いることもできる。この場合には、時間の進行と共に遷移する状態毎に分布間の距離値を算出して、全状態の距離値を平均することによりHMMデータ間の距離値を求めることができる。このとき、第i番目の状態のN次元ガウス分布の平均、分散をそれぞれ下記(3)式、(4)式とし、登録処理の際にデータ生成部510で生成されたHMMデータのi番目の状態をm1i、データベース140に登録されているHMMデータのi番目の状態をm2iとする。
【0127】
【数3】
【0128】
【数4】
【0129】
【数5】
【0130】
【数6】
【0131】
【数7】
【0132】
さらに、上記(5)式、(6)式、(7)式を用いて混合分布における距離値を算出する場合には、例えば、各状態において最も混合比の大きい分布をその状態を代表とする分布として選択することにより、単一分布と同様に上記(5)式、(6)式、(7)式から距離値を算出することができる。例えば、混合数をMとして、比較する一方のHMMデータ1の状態をi、混合kの分布の平均を下記(8)式、混合kの分布の分散を下記(9)式、混合比を下記(10)式とする。また、比較する他方のHMMデータ2の状態をi、混合kの分布の平均を下記(11)式、混合kの分布の分散を下記(12)式、混合比を下記(13)式とする。この場合において、下記(14)式、(15)式とすると、下記(16)式、(17)式、(18)式より距離値を算出することができる。
【0133】
【数8】
【0134】
【数9】
【0135】
【数10】
【0136】
【数11】
【0137】
【数12】
【0138】
【数13】
【0139】
【数14】
【0140】
【数15】
【0141】
【数16】
【0142】
【数17】
【0143】
【数18】
【0144】
なお、認識処理の方式としてDPマッチングを用いる場合には、比較する2つの標準パターンの内一方をテンプレートとし、他方を照合パラメータとしてマッチングを行うことにより、HMMを用いた場合のHMMデータ間の距離に相当する標準パターン間の距離を算出することができる。また、他の様々なHMMデータ間の尤度を算出する方法を本発明に適用することができる。
【0145】
一方、この尤度算出部520は、登録処理を行っている際には、上記のように登録処理の際にデータ生成部510で生成されたHMMデータとデータベース140に登録されている各HMMデータとの尤度を計算し当該最も高い尤度を尤度データとして登録判定部160に出力するとともに、認識処理を行っている際には、実施例1で示したように入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース140に格納されている各HMMデータに基づき算出された各尤度のうち最も高い尤度を尤度データとして認識処理部220に出力するようになっている。
【0146】
なお、システム制御部530は、登録判定部160より登録許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、登録許可の対象となったパスワードにおけるHMMデータをデータベース140に登録させる。また、このシステム制御部530は、登録判定部160より登録不許可の判定が通知された場合には、当該登録許可の旨を表示部170およびスピーカ190を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。
【0147】
次に、図6を用いて本実施形態のシステム制御部530における登録処理の動作について説明する。
【0148】
なお、図6は、本実施形態のシステム制御部530における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース140には、複数の操作者のHMMデータが予め登録されているものとする。
【0149】
まず、操作部230を介して操作者によってパスワードのHMMデータを登録する登録処理を実行する指示が入力され、システム制御部530が当該登録処理の実行指示を検出すると(ステップS11)、当該システム制御部530は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190によってパスワードの入力指示の告知をさせる(ステップS12)。
【0150】
次いで、システム制御部530は、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS13)。
【0151】
このとき、特徴量抽出部130は、当該ステップS13の指示が為されると、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部510に出力する。
【0152】
次いで、システム制御部530は、データ生成部510に、特徴量抽出部130から入力されたパスワードの特徴量データを取得させて当該パスワードにおけるHMMデータを生成させる(ステップS51)。
【0153】
次いで、システム制御部530は、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にてパスワードの再入力指示の告知を行わせる(ステップS52)。
【0154】
次いで、システム制御部530は、ステップS13の処理と同様に、特徴量抽出部130に、マイクロホン110および入力処理部120を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う(ステップS53)。特徴量抽出部130は、当該ステップS53の指示が為されると、マイクロホン110に操作者のパスワードの音声が入力され、入力処理部120にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部510に出力する。
【0155】
次いで、システム制御部530は、データ生成部510に特徴量抽出部130から入力されたパスワードの特徴量データを取得させてHMMデータの学習を指示する(ステップS54)。
【0156】
次いで、システム制御部530は、予め定められた回数のパスワードの入力がされたか否かを判断する(ステップS55)。このとき、システム制御部530は、予め定められた回数のパスワードの入力がされていないと判断すると、ステップS52の処理に移行して、以降、予め定められた回数のパスワードの入力がされるまでステップS52〜ステップS54の処理を繰り返す。
【0157】
一方、システム制御部530は、データ生成部510に学習させたHMMデータを尤度算出部520に出力させ、次いで、尤度算出部520に対して尤度算出部520に入力されたHMMデータとデータベース140に格納されている各HMMデータとのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部160に出力させる(ステップS56)。
【0158】
次いで、システム制御部530は、登録判定部160に対して当該最大尤度と登録判定用閾値とを比較させて、入力されたパスワードの登録の可否を判定させる(ステップS57)。このとき、システム制御部530は、登録判定部160によって最大尤度が登録判定用閾値より大きいと判断された場合には、データ生成部510に学習させつつ生成させたHMMデータを破棄させて(ステップS58)、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録するパスワードの変更指示の告知をさせ(ステップS59)、ステップS13の処理に移行する。
【0159】
一方、システム制御部530は、登録判定部160によって最大尤度が登録判定用閾値以下と判断された場合には、表示制御部180および拡声制御部200を制御して、表示部170およびスピーカ190にて登録可能の告知を行わせる(ステップS60)。
【0160】
次いで、システム制御部530は、データ生成部510に対して学習させつつ生成させた当該パスワードにおけるHMMデータを、パスワードを入力した操作者に対応付けてデータベース140に登録させて(ステップS61)、本動作を終了させる。
【0161】
以上のように本実施形態の話者認識装置500は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量から学習したHMMデータが予め登録されたデータベース140を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該HMMデータとを比較することによって操作者を認識する話者認識装置500であって、パスワードの音声成分における特徴量から学習したHMMデータをデータベース140に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン110と、入力されたパスワードの音声成分から特徴量を抽出する特徴量抽出部130と、抽出された特徴量より学習して生成されたHMMデータにおける特徴量と照合用の各HMMデータにおける特徴量とを比較し、当該抽出された特徴量より学習して生成された登録すべきHMMデータと当該照合用の各HMMデータとの尤度をそれぞれ算出する尤度算出部520と、算出された各尤度が基準となる登録判定用閾値以下の場合に、生成されたHMMデータを用いてデータベース140を更新するデータ生成部510と、を備える構成を有している。
【0162】
この構成により、本実施形態の話者認識装置500は、操作者が希望するパスワードの発話音声に基づくHMMデータを登録する際に、入力されたパスワードの発話音声成分から抽出された特徴量より学習して生成されたHMMデータとデータベース140に登録されている各HMMデータとの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量より生成されたHMMデータを用いてデータベース140を更新する。
【0163】
したがって、本実施形態の話者認識装置500は、第1実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量に基づくHMMデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。
【0164】
また、本実施形態では、登録判定部160において、登録が不許可と判断された場合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判定部160において許可が為されない限り、登録を希望するパスワードの再入力が指示されるようになっているが、当該パスワードの再入力に回数の制限を設けるようにしてもよい。
【0165】
この場合には、システム制御部530は、パスワードの変更指示を行う毎に、算出された最大尤度をROM/RAM250に記憶し、予め定められた回数の再入力を行っても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ROM/RAM250に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部510に、入力された発話音声の特徴量に基づいて生成させた当該選択されたパスワードにおけるHMMデータを用いてデータベース140を更新させるようになっている。また、この場合には、システム制御部530は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部170およびスピーカ190を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部530は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0166】
また、上述のように、パスワードの発話音声における入力を制限する点に代えて、算出された最大尤度をROM/RAM250に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいて生成したHMMデータを用いてデータベース140を更新させるようにしてもよい。このように、パスワードの再入力を所定の基準にて制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部530は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部220に格納するようになっている。
【0167】
なお、上記実施形態においては、生体情報を音声成分情報及び指紋情報として説明したが、生体情報とは、顔画像、掌形画像、指画像、虹彩情報、静脈情報などの生体から取得可能な個人を特定するために用いられる情報を含むものである。
【0168】
なお、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
【0169】
また、2005年3月31日に出願された明細書、特許請求の範囲、図面、要約を含む日本の特許出願(No.2005-101369)の全ての開示は、その全てを参照することよって、ここに組み込まれる。
Claims (12)
- 認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、
前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、
前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、
前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、
を備えることを特徴とする操作者認識装置。 - 認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、
前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、
前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、
前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、
を備えることを特徴とする操作者認識装置。 - 請求項1又は2に記載の操作者認識装置において、
前記比較対象情報生成手段が、前記入力手段に入力された生体情報から前記比較対象情報である特徴量を抽出して、
前記算出手段が、前記抽出された特徴量と各前記照合用生体情報における特徴量とを比較し、当該抽出された特徴量と各前記照合用生体情報における特徴量との尤度をそれぞれ算出して、
前記更新手段が、前記比較対象情報に基づいて前記照合用生体情報を生成し、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。 - 請求項1又は2に記載の操作者認識装置において、
前記入力手段に入力された生体情報から特徴量を抽出する抽出手段を更に備え、
前記比較対象情報生成手段が、前記抽出された特徴量に基づいて、前記比較対象情報として前記照合用生体情報を生成して、
前記算出手段が、前記生成された照合用生体情報における特徴量と各前記照合用生体情報における特徴量とを比較し、当該生成された照合用生体情報における特徴量と各当該照合用生体情報における特徴量との尤度をそれぞれ算出して、
前記更新手段が、前記生成された照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。 - 請求項3又は4に記載の操作者認識装置において、
前記データベースを更新するために用いられる前記照合用生体情報が、前記入力手段に同一の操作者により複数回入力される同一の生体情報から抽出される各特徴量に基づいて生成されることを特徴とする操作者認識装置。 - 請求項1乃至3の何れか一項に記載の操作者認識装置において、
前記入力手段に同一の操作者における同一の生体情報が複数回入力され、当該入力された複数の同一の生体情報に基づいて前記照合用生体情報がデータベースに登録される場合に、
前記比較対象情報生成手段が、前記入力手段に初回に入力された生体情報から前記比較対象情報である特徴量を抽出して、
前記算出手段が、前記初回に入力された生体情報から抽出された特徴量と各前記照合用生体情報における特徴量との各尤度をそれぞれ算出するとともに、
前記算出された初回に入力された生体情報に基づく各尤度が基準尤度以下の場合にのみ、
前記更新手段が、前記初回に入力された生体情報と同一の生体情報から抽出される各特徴量に基づいて一の前記照合用生体情報を生成して、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。 - 請求項1乃至6の何れか一項に記載の操作者認識装置において、
前記データベースには、前記操作者毎に所定のパスワードにおける音声成分の情報を示す音声成分情報が前記照合用生体情報として登録されているとともに、
前記入力手段には、前記操作者が特定のパスワードを発話した際の音声成分情報が前記生体情報として入力されることを特徴とする操作者認識装置。 - 請求項1乃至6の何れか一項に記載の操作者認識装置において、
前記データベースには、前記操作者毎に前記操作者の特定の指紋の情報を示す指紋情報が前記照合用生体情報として複数登録されているとともに、
前記入力手段には、前記操作者の指紋情報が前記生体情報として入力されることを特徴とする操作者認識装置。 - 認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、
前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、
予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、
を備えることを特徴とする操作者認識方法。 - 認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、
前記算出された各尤度の少なくとも―の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、
前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、
を備えることを特徴とする操作者認識方法。 - コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、
前記コンピュータを、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、
前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、
予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、
として機能させることを特徴とする操作者認識プログラム。 - コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、
前記コンピュータを、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、
前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、
前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、
として機能させることを特徴とする操作者認識プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005101369 | 2005-03-31 | ||
JP2005101369 | 2005-03-31 | ||
PCT/JP2006/305939 WO2006109515A1 (ja) | 2005-03-31 | 2006-03-24 | 操作者認識装置、操作者認識方法、および、操作者認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006109515A1 JPWO2006109515A1 (ja) | 2008-10-23 |
JP4588069B2 true JP4588069B2 (ja) | 2010-11-24 |
Family
ID=37086801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007512487A Expired - Fee Related JP4588069B2 (ja) | 2005-03-31 | 2006-03-24 | 操作者認識装置、操作者認識方法、および、操作者認識プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7979718B2 (ja) |
JP (1) | JP4588069B2 (ja) |
WO (1) | WO2006109515A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8259923B2 (en) * | 2007-02-28 | 2012-09-04 | International Business Machines Corporation | Implementing a contact center using open standards and non-proprietary components |
US11093898B2 (en) | 2005-12-08 | 2021-08-17 | International Business Machines Corporation | Solution for adding context to a text exchange modality during interactions with a composite services application |
US10332071B2 (en) | 2005-12-08 | 2019-06-25 | International Business Machines Corporation | Solution for adding context to a text exchange modality during interactions with a composite services application |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US8594305B2 (en) | 2006-12-22 | 2013-11-26 | International Business Machines Corporation | Enhancing contact centers with dialog contracts |
US20080205625A1 (en) * | 2007-02-28 | 2008-08-28 | International Business Machines Corporation | Extending a standardized presence document to include contact center specific elements |
US9055150B2 (en) | 2007-02-28 | 2015-06-09 | International Business Machines Corporation | Skills based routing in a standards based contact center using a presence server and expertise specific watchers |
US9247056B2 (en) * | 2007-02-28 | 2016-01-26 | International Business Machines Corporation | Identifying contact center agents based upon biometric characteristics of an agent's speech |
JP5185205B2 (ja) | 2009-02-24 | 2013-04-17 | 浜松ホトニクス株式会社 | 半導体光検出素子 |
JP5185207B2 (ja) | 2009-02-24 | 2013-04-17 | 浜松ホトニクス株式会社 | フォトダイオードアレイ |
JP5185208B2 (ja) | 2009-02-24 | 2013-04-17 | 浜松ホトニクス株式会社 | フォトダイオード及びフォトダイオードアレイ |
JPWO2010116470A1 (ja) * | 2009-03-30 | 2012-10-11 | 富士通株式会社 | 生体認証装置、生体認証方法、および記憶媒体 |
JP5474407B2 (ja) * | 2009-05-27 | 2014-04-16 | 京セラ株式会社 | 通信装置、通信システムおよび通信プログラム |
JP5229124B2 (ja) * | 2009-06-12 | 2013-07-03 | 日本電気株式会社 | 話者照合装置、話者照合方法およびプログラム |
CN102129860B (zh) * | 2011-04-07 | 2012-07-04 | 南京邮电大学 | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 |
CN103680495B (zh) * | 2012-09-26 | 2017-05-03 | 中国移动通信集团公司 | 语音识别模型训练方法和装置及语音识别终端 |
CN103400376B (zh) * | 2013-07-19 | 2016-04-06 | 南方医科大学 | 一种乳腺动态增强磁共振图像序列的配准方法 |
US9380077B2 (en) * | 2013-08-08 | 2016-06-28 | Iboss, Inc. | Switching between networks |
CN104468522B (zh) * | 2014-11-07 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 一种声纹验证方法和装置 |
US9418296B1 (en) * | 2015-03-17 | 2016-08-16 | Netflix, Inc. | Detecting segments of a video program |
KR102365412B1 (ko) * | 2015-10-13 | 2022-02-21 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서의 지문 인증을 위한 방법 |
CN108632318B (zh) * | 2017-03-21 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 一种数据校验方法、数据发送方法、相关装置及系统 |
CN106960492B (zh) * | 2017-04-28 | 2023-01-13 | 浙江维尔科技有限公司 | 一种电子控制开锁的系统和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63106798A (ja) * | 1986-10-24 | 1988-05-11 | 株式会社東芝 | 個人認証装置 |
JPH0310298A (ja) * | 1989-06-08 | 1991-01-17 | Oki Electric Ind Co Ltd | 音声認識装置 |
JPH03157698A (ja) * | 1989-11-16 | 1991-07-05 | Sekisui Chem Co Ltd | 話者認識システム |
JPH096387A (ja) * | 1995-06-19 | 1997-01-10 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2002297181A (ja) * | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識語彙登録判定方法及び音声認識装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57141700A (en) * | 1981-02-26 | 1982-09-02 | Mitsubishi Electric Corp | Voice recognizer |
JPS63213897A (ja) * | 1987-03-02 | 1988-09-06 | 株式会社リコー | 話者認識装置における辞書更新方式 |
EP1126438B1 (en) * | 1998-09-09 | 2008-07-16 | Asahi Kasei Kabushiki Kaisha | Speech recognizer and speech recognition method |
US6393139B1 (en) * | 1999-02-23 | 2002-05-21 | Xirlink, Inc. | Sequence-encoded multiple biometric template security system |
JP2001195574A (ja) * | 2000-01-14 | 2001-07-19 | Ricoh Co Ltd | 筆記者同定装置 |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP4280505B2 (ja) * | 2003-01-20 | 2009-06-17 | キヤノン株式会社 | 情報処理装置及び情報処理方法 |
JP4318475B2 (ja) | 2003-03-27 | 2009-08-26 | セコム株式会社 | 話者認証装置及び話者認証プログラム |
US20040243412A1 (en) * | 2003-05-29 | 2004-12-02 | Gupta Sunil K. | Adaptation of speech models in speech recognition |
-
2006
- 2006-03-24 US US11/910,415 patent/US7979718B2/en not_active Expired - Fee Related
- 2006-03-24 WO PCT/JP2006/305939 patent/WO2006109515A1/ja active Application Filing
- 2006-03-24 JP JP2007512487A patent/JP4588069B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63106798A (ja) * | 1986-10-24 | 1988-05-11 | 株式会社東芝 | 個人認証装置 |
JPH0310298A (ja) * | 1989-06-08 | 1991-01-17 | Oki Electric Ind Co Ltd | 音声認識装置 |
JPH03157698A (ja) * | 1989-11-16 | 1991-07-05 | Sekisui Chem Co Ltd | 話者認識システム |
JPH096387A (ja) * | 1995-06-19 | 1997-01-10 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2002297181A (ja) * | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識語彙登録判定方法及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
US20090254757A1 (en) | 2009-10-08 |
WO2006109515A1 (ja) | 2006-10-19 |
JPWO2006109515A1 (ja) | 2008-10-23 |
US7979718B2 (en) | 2011-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4588069B2 (ja) | 操作者認識装置、操作者認識方法、および、操作者認識プログラム | |
CN111566729B (zh) | 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识 | |
JP4213716B2 (ja) | 音声認証システム | |
US20160248768A1 (en) | Joint Speaker Authentication and Key Phrase Identification | |
CN111418009A (zh) | 个性化说话者验证系统和方法 | |
US7634401B2 (en) | Speech recognition method for determining missing speech | |
EP1355296B1 (en) | Keyword detection in a speech signal | |
EP1355295A2 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
EP2879130A1 (en) | Methods and systems for splitting a digital signal | |
EP3553775B1 (en) | Voice-based authentication | |
US20140195232A1 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
KR102585231B1 (ko) | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 | |
TW202213326A (zh) | 用於說話者驗證的廣義化負對數似然損失 | |
JP2005283647A (ja) | 感情認識装置 | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
JP4318475B2 (ja) | 話者認証装置及び話者認証プログラム | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
CN117378006A (zh) | 混合多语种的文本相关和文本无关说话者确认 | |
JP6996627B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
US11416593B2 (en) | Electronic device, control method for electronic device, and control program for electronic device | |
JP4143541B2 (ja) | 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム | |
KR20150035312A (ko) | 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
KR102098956B1 (ko) | 음성인식장치 및 음성인식방법 | |
JP3818063B2 (ja) | 個人認証装置 | |
JP2001350494A (ja) | 照合装置及び照合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100831 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100907 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |