JP7127864B2

JP7127864B2 - 情報処理方法、情報処理装置及びプログラム

Info

Publication number: JP7127864B2
Application number: JP2020025435A
Authority: JP
Inventors: トアンドゥクグェン
Original assignee: アイメソフトジェイエスシー
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2022-08-30
Anticipated expiration: 2040-02-18
Also published as: JP2021131619A

Description

本発明は、情報処理方法、情報処理装置及びプログラムに関する。

近年、認証対象者の顔を撮影した顔画像に基づいて認証対象者の正当性を判断する認証技術が使用されている。特許文献１では、会議室のドアの解錠を許可する際のユーザ認証として、認証対象者の顔画像に基づく認証処理を行うシステムが開示されている。

特開２０１９－２１９７２１号公報

顔画像を用いて認証を行うシステムでは、予め正当なユーザの顔画像を登録しておく必要がある。登録処理においては、登録対象のユーザの顔画像を撮影し、ユーザの氏名等の個人情報を取得し、撮影した顔画像とユーザの個人情報とを対応付けて登録する等、種々の処理を行う必要がある。このような登録処理によって顔画像の登録が完了するまで、ユーザの正当性が認められないので、早期に登録処理が完了することが求められている。しかし、一般的に顔画像の登録処理は専門の担当者によって行われている場合が多く、手軽に行うことは難しい。

本発明は、このような事情に鑑みてなされたものであり、その目的とするところは、顔認証処理に用いる顔画像を手軽に登録することが可能な情報処理方法等を提供することにある。

本発明の一態様に係る情報処理方法は、撮影対象者の顔を撮影して得られた撮影画像を取得し、人の顔の撮影画像と、前記人を特定するための特定情報とが対応付けられた認証用データを参照して、取得した前記撮影画像に基づき前記撮影対象者に対応する人を特定し、前記撮影対象者に対応する人を特定できない場合、前記撮影対象者の発話音声の入力を受け付け、前記発話音声から前記撮影対象者を特定する特定情報を抽出し、前記撮影対象者の撮影画像と、抽出した前記特定情報とを対応付けた認証用データを登録する処理をコンピュータが実行する。

本発明の一態様にあっては、顔画像に基づく認証処理に用いる顔画像を手軽に登録することができる。

情報処理システムの概要を示す模式図である。情報処理システムの構成例を示す模式図である。情報処理システムの構成例を示すブロック図である。ユーザ情報ＤＢの構成例を示す模式図である。顔認証モデルの構成例を示す模式図である。顔画像に基づく認証処理手順の一例を示すフローチャートである。実施形態２の認証サーバの構成例を示すブロック図である。実施形態２における認証処理手順の一例を示すフローチャートである。実施形態３の認証サーバの構成例を示すブロック図である。実施形態３における認証処理手順の一例を示すフローチャートである。実施形態４のユーザ情報ＤＢの構成例を示す模式図である。勤怠管理システムの構成例を示すブロック図である。従業員情報ＤＢの構成例を示す模式図である。勤怠管理処理手順の一例を示すフローチャートである。

以下に、本開示の情報処理方法、情報処理装置及びプログラムについて、その実施形態を示す図面に基づいて詳述する。図１は情報処理システムの概要を示す模式図である。以下に説明する実施形態の情報処理システムでは、認証対象者が認証端末に近づいた場合（図１の上側の（１））、認証端末に設けてあるカメラを用いて認証対象者の顔画像を撮影し、顔画像に基づいて認証処理（顔認証）を行う（図１の上側の（２））。なお、顔認証は、認証端末に設けてある認証モジュールが行い、認証モジュールは、認証モデルによって、顔画像データベースを参照することにより顔認証を行う（図１の上側の（３））。認証対象者の顔画像が顔画像データベースに登録されていない場合、顔認証が失敗となり（図１の上側の（４））、認証端末に設けてあるスピーカから、認証対象者に自身に関する情報を発話させるための誘導メッセージを音声出力する（図１の上側の（５））。そして、認証対象者の発話音声を認証端末に設けてあるマイクを用いて集音して発話内容から認証対象者の情報を取得する（図１の（６））と共にカメラを用いて認証対象者の顔画像を撮影し（図１の（７））、顔画像及び認証対象者の情報を対応付けて顔画像データベースに登録する（図１の（８））。よって、未登録の認証対象者の顔画像を登録することにより、認証モデルを再学習させることができる（図１の（１１））。なお、このとき、認証端末は、マイクを用いて収集した認証対象者の発話音声から声紋データを抽出し、声紋データを認証対象者の情報に対応付けて声紋データベースに登録してもよい（図１の（９））。更に、認証端末は、認証対象者の発話内容から取得した認証対象者に関する情報を、登録者の情報が登録されている個人情報データベースに登録してもよい（図１の（１０））。このように、未登録であった認証対象者の情報（顔画像等）が登録された後、登録済みの認証対象者が認証端末に再度近づいた場合（図１の下側の（１））、認証端末はカメラを用いて認証対象者の顔画像を撮影し、顔画像に基づいて顔認証を行う（図１の下側の（２））。ここでも、顔認証は、認証モジュールが認証モデルによって顔画像データベースを参照することにより行われる（図１の下側の（３））。認証対象者の顔画像が顔画像データベースに登録されているので、顔認証が成功となり（図１の下側の（４））、認証端末はスピーカから、認証成功を通知するためのメッセージを音声出力する（図１の下側の（５））。

（実施形態１）
認証対象者の顔を撮影した顔画像に基づいて認証対象者の正当性を判断する認証処理を行う情報処理システムについて説明する。図２は情報処理システムの構成例を示す模式図である。本実施形態の情報処理システム１００は、認証サーバ１０及び認証端末２０等を含み、認証サーバ１０及び認証端末２０は、ＬＡＮ（Local Area Network）又はインターネット等のネットワークＮを介して通信接続されている。

認証サーバ１０は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバコンピュータ又はパーソナルコンピュータ等である。認証サーバ１０は、複数台設けられてもよいし、１台のサーバ装置内に設けられた複数の仮想マシンによって実現されてもよいし、クラウドサーバを用いて実現されてもよい。認証サーバ１０は、認証端末２０から取得する認証対象のデータに基づいてユーザを認証する処理、認証処理に用いる認証用データを登録する処理等、種々の情報処理を行う。

認証端末２０は、認証対象者に対する認証を行う必要がある箇所に設けられた端末装置であり、例えば会社、事務所、宿泊施設、住宅等の建物の玄関、受付カウンター、各部屋の出入口等に設けられて使用される。認証端末２０は、パーソナルコンピュータ、タブレット端末等の情報処理装置（コンピュータ）を用いて構成することができ、また、専用の端末によって構成されていてもよい。認証端末２０は、認証処理に必要な認証対象のデータを取得する処理、認証対象のデータを認証サーバ１０へ送信する処理、認証サーバ１０から認証結果を取得する処理等、種々の情報処理を行う。情報処理システム１００は、複数の認証端末２０を含む構成でもよく、この場合、複数の認証端末２０と認証サーバ１０とがネットワークＮに接続されている。また、情報処理システム１００では、認証端末２０と認証サーバ１０とが同一の一つのサーバ又は処理デバイスに搭載されていてもよい。

本実施形態の情報処理システム１００では、認証端末２０は、カメラ２４及びマイク２５を有しており、認証可能な範囲内（具体的にはカメラ２４による撮影可能範囲内）に入った人（認証対象者）の顔をカメラ２４で撮影して撮影画像（顔画像）を取得する。認証端末２０は、取得した顔画像を認証サーバ１０へ送信し、認証サーバ１０は、認証端末２０から取得した顔画像に基づく認証処理を行い、認証結果を認証端末２０へ送信する。これにより、所定箇所に設けられた認証端末２０で撮影された顔画像に基づく認証処理を行うことができるので、認証端末２０の近傍に来た人（認証対象者）に対する認証処理が可能となる。

図３は、情報処理システム１００の構成例を示すブロック図である。認証サーバ１０は、制御部１１、記憶部１２、通信部１３、入力部１４、表示部１５、読み取り部１６等を含み、これらの各部はバスを介して相互に接続されている。制御部１１は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）又はＧＰＵ（Graphics Processing Unit）等の１又は複数のプロセッサを含む。制御部１１は、記憶部１２に記憶してある制御プログラム１２Ｐを適宜実行することにより、本開示の情報処理装置が行うべき種々の情報処理、制御処理等を認証サーバ１０に実行させる。

記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ハードディスク、ＳＳＤ（Solid State Drive）等を含む。記憶部１２は、制御部１１が実行する制御プログラム１２Ｐ及び制御プログラム１２Ｐの実行に必要な各種のデータ等を予め記憶している。また記憶部１２は、制御部１１が制御プログラム１２Ｐを実行する際に発生するデータ等を一時的に記憶する。また記憶部１２は、後述するユーザ情報ＤＢ（データベース）１２ａ、顔認証モデルＭ１等を記憶する。顔認証モデルＭ１は、機械学習によって学習させた学習済みモデルである。顔認証モデルＭ１は、人工知能ソフトウェアの一部として機能するプログラムモジュールとしての利用が想定される。ユーザ情報ＤＢ１２ａは、認証サーバ１０に接続された他の記憶装置に記憶されてもよく、認証サーバ１０が通信可能な他の記憶装置に記憶されてもよい。

通信部１３は、有線通信又は無線通信によってネットワークＮに接続するためのインタフェースであり、ネットワークＮを介して他の装置との間で情報の送受信を行う。入力部１４は、マウス及びキーボード等を含み、認証サーバ１０を使用するユーザによる操作入力を受け付け、操作内容に対応した制御信号を制御部１１へ送出する。表示部１５は、液晶ディスプレイ又は有機ＥＬディスプレイ等であり、制御部１１からの指示に従って各種の情報を表示する。入力部１４及び表示部１５は一体として構成されたタッチパネルであってもよい。

読み取り部１６は、ＣＤ（Compact Disc）－ＲＯＭ、ＤＶＤ（Digital Versatile Disc）－ＲＯＭ、ＵＳＢ（Universal Serial Bus）メモリ、ＳＤ（Secure Digital）カード等を含む可搬型記憶媒体１ａに記憶された情報を読み取る。記憶部１２に記憶される制御プログラム１２Ｐ及び各種のデータは、制御部１１が読み取り部１６を介して可搬型記憶媒体１ａから読み取って記憶部１２に記憶してもよい。また、記憶部１２に記憶される制御プログラム１２Ｐ及び各種のデータは、制御部１１が通信部１３を介して他の装置からダウンロードして記憶部１２に記憶してもよい。

認証端末２０は、制御部２１、記憶部２２、通信部２３、カメラ２４、マイク２５、スピーカ２６、読み取り部２７等を含み、これらの各部はバスを介して相互に接続されている。認証端末２０の制御部２１、記憶部２２、通信部２３、読み取り部２７のそれぞれは、認証サーバ１０の制御部１１、記憶部１２、通信部１３、読み取り部１６と同様の構成であるので詳細な説明は省略する。なお、認証端末２０の記憶部２２は、制御部２１が実行する制御プログラム２２Ｐに加え、スピーカ２６から音声出力されるメッセージ２２ａ（音声メッセージ）等を記憶する。また、本実施形態の制御プログラム２２Ｐは、カメラ２４で撮影した画像に対して人の顔領域の有無を検知する処理を行うためのプログラム、マイク２５を介して取得した音声データに対して音声認識処理を行ってテキストデータを生成する処理を行うためのプログラムを含む。

カメラ２４は、制御部２１からの指示に従って撮影可能範囲を撮影する撮像部であり、取得した撮影画像（画像データ）を記憶部２２へ送出して記憶させる。マイク２５は、制御部２１からの指示に従って周囲の音声を収集する集音部であり、取得した音声データを記憶部２２へ送出して記憶させる。スピーカ２６は、制御部２１からの指示に従って音声出力する音声出力部であり、制御部２１が指示するメッセージを音声出力する。カメラ２４、マイク２５及びスピーカ２６は、図２に示すように認証端末２０に内蔵されていてもよく、認証端末２０に外付けされていてもよい。例えば、認証端末２０は、外部カメラの接続が可能なカメラ接続部、又は外部カメラとの間で無線通信を行うカメラ通信部を備える構成でもよい。この場合、カメラ接続部又はカメラ通信部は、外部カメラにて取得された画像データの入力を受け付け、入力された画像データを記憶部２２へ送出して記憶させる。また認証端末２０は、外部マイクの接続が可能なマイク接続部、又は外部マイクとの間で無線通信を行うマイク通信部を備える構成でもよい。この場合、マイク接続部又はマイク通信部は、外部マイクにて取得された音声データの入力を受け付け、入力された音声データを記憶部２２へ送出して記憶させる。更に認証端末２０は、外部スピーカの接続が可能なスピーカ接続部、又は外部スピーカとの間で無線通信を行うスピーカ通信部を備える構成でもよい。この場合、スピーカ接続部又はスピーカ通信部は、制御部２１からの指示に従ったメッセージ（音声信号）を外部スピーカへ送出し、外部スピーカにメッセージを音声出力させる。

認証端末２０は、上述した構成のほかに、制御部２１からの指示に従って各種の情報を表示する表示部、及び、操作入力を受け付け、操作内容に対応した制御信号を制御部２１へ送出する入力部を備える構成であってもよい。

図４は、ユーザ情報ＤＢ１２ａの構成例を示す模式図である。ユーザ情報ＤＢ１２ａは、正当なユーザとして認証サーバ１０に登録されたユーザに関する情報を記憶する。なお、本実施形態において認証サーバ１０に登録されるとは、顔認証モデルＭ１を用いて正当なユーザであるとユーザ認証されるように顔認証モデルＭ１に学習されることを意味する。図４に示すユーザ情報ＤＢ１２ａは、ユーザＩＤ列、氏名列、所属情報列等を含み、ユーザＩＤに対応付けて、正当なユーザとして登録されたユーザの各情報を記憶する。ユーザＩＤ列は、登録された各ユーザに割り当てられた識別情報（ユーザＩＤ）を記憶する。氏名列及び所属情報列はそれぞれ、登録される際に指定された氏名及び所属情報を記憶する。所属情報は、例えばユーザが勤務する会社、所属する組織等の名称を含み、会社又は組織内でのユーザの所属部署又は役職等を含んでもよい。ユーザ情報ＤＢ１２ａに記憶されるユーザＩＤは、新たなユーザが認証サーバ１０に登録（顔認証モデルＭ１に学習）された場合に、制御部１１によって発行されて記憶される。ユーザ情報ＤＢ１２ａに記憶される他の情報は、制御部１１が通信部１３を介して認証端末２０から新たなユーザの情報を取得した場合に、制御部１１によって記憶される。ユーザ情報ＤＢ１２ａの記憶内容は図４に示す例に限定されず、ユーザに関する各種の情報を記憶することができる。

図５は、顔認証モデルＭ１の構成例を示す模式図である。本実施形態の顔認証モデルＭ１は、例えば図５に示すようにＣＮＮ（Convolution Neural Network）モデルで構成されている。顔認証モデルＭ１は、ＣＮＮモデルのほかに、ＲＮＮ（Recurrent Neural Network）モデル又はＬＳＴＭ（Long Short-Term Memory）モデル等で構成されていてもよい。顔認証モデルＭ１は、人の顔を撮影した顔画像を入力とし、入力された顔画像に基づいて、撮影されている人が、予め学習（登録）してある複数のユーザのいずれであるかを演算し、演算した結果を出力するように学習した学習済みモデルである。具体的には、顔認証モデルＭ１は、撮影された人が、ユーザ情報ＤＢ１２ａにユーザの情報が登録されているユーザのいずれであるかを特定するように学習している。

図５に示す顔認証モデルＭ１は、入力層、中間層及び出力層から構成されている。中間層は畳み込み層、プーリング層及び全結合層を含む。本実施形態の顔認証モデルＭ１では、入力層を介して、人の顔を撮影した顔画像（画像データ）が入力される。入力層の各ノードには顔画像中の各画素が入力され、入力層の各ノードを介して入力された顔画像は中間層に入力される。中間層に入力された顔画像は、畳み込み層でフィルタ処理等によって画像の特徴量が抽出されて特徴マップが生成され、プーリング層で圧縮されて情報量が削減される。畳み込み層及びプーリング層は複数層繰り返し設けられており、複数の畳み込み層及びプーリング層によって生成された特徴マップは、全結合層に入力される。全結合層は複数層（図５では２層）設けられており、入力された特徴マップに基づいて、各種の関数や閾値等を用いて各層のノードの出力値を算出し、算出した出力値を順次後の層のノードに入力する。全結合層は、各層のノードの出力値を順次後の層のノードに入力することにより、最終的に出力層の各出力ノードにそれぞれの出力値を与える。入力層の入力ノードの数、中間層における畳み込み層、プーリング層及び全結合層のそれぞれの層数、出力層の出力ノードの数は図５に示す例に限定されない。

図５に示す顔認証モデルＭ１では、出力層は複数の出力ノードを有しており、それぞれの出力ノードは、ユーザ情報ＤＢ１２ａに記憶してある各ユーザに対する判別確率を出力する。例えば第１の出力ノードは、ユーザ情報ＤＢ１２ａに記憶してあるユーザＩＤがＵ００１のユーザに対する判別確率を出力し、第２の出力ノードはユーザＩＤがＵ００２のユーザに対する判別確率を出力する。それぞれの出力ノードが出力する判別確率は、それぞれの出力ノードに対応付けられたユーザＩＤのユーザが、入力層に入力された顔画像に写っている人である可能性を示す。出力層の各出力ノードの出力値は例えば０～１．０の値であり、全ての出力ノードから出力される判別確率の合計が１．０となる。

顔認証モデルＭ１は、顔画像と、顔画像中に写っているユーザのユーザＩＤ（正解ラベル）とを含む教師データを用いて学習する。顔認証モデルＭ１は、教師データに含まれる顔画像が入力された場合に、教師データに含まれる正解ラベルが示すユーザＩＤに対応する出力ノードから１．０の出力値が出力され、他の出力ノードから０．０の出力値が出力されるように学習する。学習処理において顔認証モデルＭ１は、中間層における各層のノードを結合する重み付け係数及び関数を最適化するように学習する。これにより、顔画像が入力された場合に、顔画像中に写っているユーザを、ユーザ情報ＤＢ１２ａに登録されているユーザの中から特定するように学習された学習済みの顔認証モデルＭ１が得られる。なお、顔認証モデルＭ１の学習は、認証サーバ１０で行われてもよく、他の学習装置で行われてもよい。顔認証モデルＭ１は、図５に示すように中間層が多層に構成されたニューラルネットワーク（深層学習）に限定されず、種々の機械学習のアルゴリズムによって構築された学習モデルを用いてもよい。

以下に、本実施形態の情報処理システム１００において、認証端末２０のカメラ２４で撮影した撮影画像（顔画像）に基づいて、認証サーバ１０が認証処理を行う際に各装置が行う処理について説明する。図６は、顔画像に基づく認証処理手順の一例を示すフローチャートである。図６では左側に認証端末２０が行う処理を、右側に認証サーバ１０が行う処理をそれぞれ示す。以下の処理は、認証端末２０の記憶部２２に記憶してある制御プログラム２２Ｐに従って制御部２１によって実行され、認証サーバ１０の記憶部１２に記憶してある制御プログラム１２Ｐに従って制御部１１によって実行される。以下の処理の一部を専用のハードウェア回路で実現してもよい。

本実施形態の情報処理システム１００において、認証端末２０の制御部２１は、カメラ２４を用いて撮影可能範囲内を撮影する。なお、制御部２１は、カメラ２４による撮影を常時行ってもよく、認証端末２０が、撮影可能範囲内における人の有無を検知する人感センサを備える場合、人感センサによって人の存在が検知された後にカメラ２４による撮影を開始してもよい。制御部２１は、カメラ２４による撮影によって逐次取得する撮影画像に対して人の顔領域の有無を検知する処理を行い、撮影画像中に人の顔の領域が含まれるか否かを判断する。即ち、制御部２１は、人の顔領域を含む撮影画像（顔画像）を取得したか否かを判断している（Ｓ１１）。なお、制御部２１は、逐次取得する撮影画像をネットワークＮ経由で所定のサーバ（図示しない顔検知用のサーバ）へ送信し、所定のサーバで実行された検知処理による検知結果（撮影画像中の顔領域の有無）を取得し、取得した検知結果に従って、顔画像を取得したか否かを判断する構成でもよい。顔画像を取得していないと判断した場合（Ｓ１１：ＮＯ）、制御部２１は、顔画像を取得するまで待機する。制御部２１は、顔画像を取得したと判断した場合（Ｓ１１：ＹＥＳ）、取得した顔画像を認証サーバ１０へ送信する（Ｓ１２）。ここで、制御部２１は、撮影画像から被写体の人の顔領域を抽出し、抽出した顔領域（顔画像）のみを認証サーバ１０へ送信してもよい。

認証サーバ１０の制御部１１（画像取得部）は、カメラ２４で撮影された顔画像を認証端末２０から取得した場合、取得した顔画像に基づく認証処理を実行する（Ｓ１３）。具体的には、制御部１１（特定部）は、取得した顔画像を顔認証モデルＭ１に入力し、顔認証モデルＭ１からの出力情報に基づいて、顔画像中に写っているユーザを特定する。例えば制御部１１は、顔認証モデルＭ１において、最大の出力値（判別確率）を出力した出力ノードに対応するユーザＩＤのユーザを、顔画像中に写っているユーザに特定する。また、例えば全ての出力ノードからの出力値が所定閾値（例えば０．７）未満であった場合、制御部１１は、顔画像中に写っているユーザを特定できず（認証失敗）、未登録者であると判断してもよい。制御部１１は、認証処理の結果を認証端末２０へ送信する（Ｓ１４）。具体的には、制御部１１は、顔画像中のユーザを特定できた場合、特定したユーザのユーザＩＤを認証端末２０へ送信し、顔画像中のユーザを特定できなかった場合、認証失敗を示す情報（未登録者であることを示す情報）を認証端末２０へ送信する。

認証端末２０の制御部２１は、認証サーバ１０から認証結果を受信した場合、受信した認証結果に基づいて、顔画像に基づく認証処理が成功したか否かを判断する（Ｓ１５）。認証処理が成功したと判断した場合（Ｓ１５：ＹＥＳ）、即ち、認証サーバ１０で特定されたユーザのユーザＩＤを受信した場合、制御部２１は、受信したユーザＩＤに基づいて、顔画像中のユーザを特定する（Ｓ２２）。なお、認証処理が成功したと判断した場合、制御部２１は、例えばスピーカ２６から、認証に成功したことを示すメッセージを音声出力することにより、認証成功を撮影対象者に通知してもよい。認証端末２０がランプ又はブザーを有する場合、制御部２１は、ランプを点灯又は点滅させることにより、或いはブザーを鳴動させることによって、認証成功を撮影対象者に通知してもよい。認証処理が失敗したと判断した場合（Ｓ１５：ＮＯ）、制御部２１は、カメラ２４で撮影したユーザが未登録のユーザであると判断し、このユーザを認証するための認証用データを取得して認証サーバ１０に登録する処理を行う。

具体的には、制御部２１は、記憶部２２に記憶してあるメッセージ２２ａから、例えば「お名前をお伺いしてもよいですか」のようなメッセージを読み出し、スピーカ２６から音声出力する（Ｓ１６）。なお、ここで音声出力されるメッセージは、顔画像中に写っている被写体の人（以下では撮影対象者という）が、自身の氏名及び所属情報等、自身を特定するための特定情報を発話するように誘導するためのメッセージである。撮影対象者は、この音声メッセージを聞いた後、自身の氏名及び所属情報等を発話する。例えば撮影対象者は「ＡＡＡ会社のＢＢＢです」と発話する。ここで「ＡＡＡ会社」は撮影対象者が所属する会社名（所属情報）を示し、「ＢＢＢ」は撮影対象者の氏名を示す可能性が高い。

制御部２１（受付部）は、マイク２５を介して、撮影対象者が発した音声（発話音声）の入力を受け付けて音声データを取得する（Ｓ１７）。そして制御部２１は、取得した音声データに対して音声認識処理を実行し、音声データからテキストデータを生成する（Ｓ１８）。なお、制御部２１は、取得した音声データをネットワークＮ経由で所定のサーバ（図示しない音声認識用のサーバ）へ送信し、所定のサーバで実行された音声認識処理によって得られたテキストデータを取得する構成でもよい。次に制御部２１（抽出部）は、生成したテキストデータから、撮影対象者を特定する特定情報を抽出する（Ｓ１９）。例えば制御部２１は、テキストデータに、「株式会社ＡＡＡ」「ＡＡＡ株式会社」「有限会社ＡＡＡ」「ＡＡＡ事務所」等の文言が含まれる場合、このような文言を、撮影対象者が所属する会社名又は組織名を示す所属情報として抽出する。また制御部２１は、テキストデータに、「ＢＢＢです」「ＢＢＢと申します」等の文言が含まれる場合、このような文言中の「ＢＢＢ」を撮影対象者の氏名として抽出する。なお、名字及び名前の候補を予め登録しておき、テキストデータに名字の候補又は名前の候補が含まれる場合、候補の名字及び名前を撮影対象者の氏名として抽出してもよい。また、制御部２１は「お名前を教えて下さい」「会社名を教えて下さい」等のように、取得したい撮影対象者の情報毎に音声メッセージを出力してもよく、この場合、音声メッセージの出力後に集音した音声から、撮影対象者の各情報を正確に収集することが可能となる。

制御部２１は、撮影対象者の特定情報を抽出した後、認証用データとして登録すべき撮影対象者の顔画像をカメラ２４を用いて取得する（Ｓ２０）。このとき制御部２１は、記憶部２２に記憶してあるメッセージ２２ａから、例えば「認証端末の方を向いてください」「左側を向いてください」「右側を向いてください」等のメッセージを読み出し、スピーカ２６から音声出力してもよい。ここで音声出力されるメッセージは、撮影対象者に顔の向きを所定方向に変更させるように誘導するためのメッセージである。これにより、制御部２１は、撮影対象者の顔の向きを所望の方向に誘導しつつ、登録用の顔画像として撮影すべき方向から撮影対象者の顔を撮影することができる。なお、制御部２１は、登録用の顔画像として複数の方向から撮影した複数枚の顔画像を取得してもよい。また認証端末２０は、撮影対象者を複数の方向から撮影できるように複数のカメラ２４が設けられていてもよく、この場合、複数のカメラ２４を用いて複数の顔画像を撮影してもよい。また認証端末２０が表示部を有する場合、表示部にメッセージを表示させることにより、撮影対象者に顔の向きの変更を指示してもよい。なお、制御部２１は、ステップＳ１１で取得した顔画像を登録用の顔画像に用いてもよい。

制御部２１は、登録用の顔画像を取得した後、取得した顔画像と、ステップＳ１９で抽出した撮影対象者の特定情報とを認証用データとして認証サーバ１０へ送信し、認証用データの登録を要求する（Ｓ２１）。ここでも、制御部２１は、カメラ２４で撮影した撮影画像から撮影対象者の顔領域を抽出し、抽出した顔領域（顔画像）のみを登録用の顔画像に用いてもよい。認証サーバ１０の制御部１１（登録部）は、認証用データの登録を要求された場合、新たなユーザＩＤを発行し、発行したユーザＩＤと、認証端末２０から受信した特定情報（撮影対象者の氏名及び所属情報）とを対応付けてユーザ情報としてユーザ情報ＤＢ１２ａに記憶する（Ｓ２３）。そして制御部１１は、認証端末２０から受信した撮影対象者の顔画像と発行したユーザＩＤとを教師データに用いて顔認証モデルＭ１の学習を行う（Ｓ２４）。具体的には、制御部１１は、顔認証モデルＭ１の出力ノードを１つ追加して、発行したユーザＩＤを割り当て、認証端末２０から受信した撮影対象者の顔画像を顔認証モデルＭ１に入力した場合に、追加した出力ノードから１．０の出力値が出力され、他の出力ノードから０．０の出力値が出力されるように顔認証モデルＭ１を学習させる。制御部１１は、認証端末２０から受信した全ての顔画像に基づいて顔認証モデルＭ１の学習処理を行わせる。これにより、認証端末２０で撮影された撮影対象者の顔画像を顔認証モデルＭ１に学習させることができる。

認証端末２０の制御部２１は、ステップＳ２１の処理後、現時点でカメラ２４の撮影可能範囲内にいる撮影対象者は、ステップＳ１９で抽出した特定情報によって特定されるユーザであることを特定する（Ｓ２２）。なお、認証サーバ１０の制御部１１は、ステップＳ２４の処理後、顔認証モデルＭ１に学習させた撮影対象者のユーザＩＤを認証端末２０へ送信してもよく、この場合、認証端末２０の制御部２１は、受信したユーザＩＤに基づいて、現時点でカメラ２４の撮影可能範囲内にいる撮影対象者を特定してもよい。また、制御部２１は、ステップＳ２１の処理後、カメラ２４の撮影可能範囲内にいる撮影対象者の顔画像を再度撮影して認証サーバ１０へ送信し、改めて認証サーバ１０による認証を行うことによって、カメラ２４の撮影可能範囲内にいる撮影対象者を特定（認証）してもよい。この場合にも、認証処理が成功した後に、音声メッセージの出力等によって認証成功を撮影対象者に通知してもよい。認証端末２０の制御部２１は、カメラ２４で撮影した顔画像に基づいて、現時点で撮影可能範囲内にいる撮影対象者（ユーザ）を特定した場合、ユーザ認証に成功した場合に実行すべき処理、特定したユーザに応じて実行すべき処理等を行う。

例えば、本実施形態の情報処理システム１００を、ドア又はゲート等の出入口を解錠する際のユーザ認証に用いた場合、制御部２１は、ユーザ認証に成功した後、出入口の解錠を制御する制御装置に、出入口の解錠を要求する要求信号を送信する。これにより、本実施形態の情報処理システム１００によって顔画像を撮影されたユーザの正当性が認証された場合に、出入口を解錠させることができる。また、本実施形態の情報処理システム１００を、従業員の出勤及び退勤を管理する勤怠管理システムにおけるユーザ認証に用いた場合、制御部２１は、ユーザ認証に成功した後、勤怠管理システムにおけるサーバに、認証されたユーザを通知する。これにより、本実施形態の情報処理システム１００によって顔画像を撮影されたユーザの正当性が認証された場合に、勤怠管理システムにおいて、認証されたユーザの出勤日時又は退勤日時を登録することができる。

上述した処理により、カメラ２４の撮影可能範囲内にユーザ（撮影対象者）が入った場合に、カメラ２４で撮影された撮影対象者の顔画像に基づく認証処理が行われ、撮影対象者の正当性が判断（認証）される。また、認証サーバ１０に未登録のユーザが撮影された場合、撮影された顔画像が認証用データとして認証サーバ１０に登録される。よって、未登録のユーザがカメラ２４の撮影可能範囲内に入った場合に、このユーザの認証用データを自動的に認証サーバ１０に登録することができる。このように、未登録のユーザが認証端末２０のカメラ２４で撮影されれば認証用データの登録処理が実行される。よって、専用の担当者が認証用データの登録処理を行う必要はなく、認証用データの登録処理に要する負担が軽減され、手軽に登録することが可能となる。

本実施形態では、未登録のユーザの認証用データを手軽に登録できるので、認証対象のユーザが適宜追加されるようなシステムにおいて、新たなユーザの認証用データを随時登録することによって早期の登録処理が可能となる。例えば従業員の認証を行うシステムにおいて、新たな従業員の認証用データを登録する際に、新たな従業員を認証端末２０のカメラ２４で撮影すればよく、新たな従業員の認証用データを早期に登録することが可能となる。また、本実施形態では、認証用データに用いる顔画像を撮影する際に、音声メッセージによって、撮影対象者に対して氏名及び所属情報等の特定情報の発話を誘導する。これにより、撮影対象者が発した音声から撮影対象者の特定情報を収集することができる。このように収集した撮影対象者の特定情報を認証用データに用いることにより、新たな認証対象者の認証用データを容易に登録することが可能となる。

本実施形態において、認証サーバ１０が行う処理を認証端末２０が行うように構成してもよい。この場合、認証端末２０は、顔認証モデルＭ１及びユーザ情報ＤＢ１２ａを記憶部２２に記憶し、カメラ２４で撮影した撮影対象者の顔画像に基づく認証処理を顔認証モデルＭ１を用いて実行する。このような構成とした場合でも、本実施形態と同様の処理が可能であり、同様の効果が得られる。

（実施形態２）
認証対象者の顔画像及び声紋データに基づいて認証対象者の正当性を判断する認証処理を行う情報処理システムについて説明する。本実施形態の情報処理システム１００は、実施形態１の情報処理システム１００と同様の装置にて実現可能であるので、構成についての説明は省略する。なお、本実施形態の認証サーバ１０は、図３に示す実施形態１の認証サーバ１０の構成と若干異なるので、異なる箇所についてのみ説明する。図７は実施形態２の認証サーバ１０の構成例を示すブロック図である。本実施形態の認証サーバ１０において、記憶部１２は、制御プログラム１２Ｐ、ユーザ情報ＤＢ１２ａ及び顔認証モデルＭ１に加えて声認証モデルＭ２を記憶する。声認証モデルＭ２は、機械学習又は深層学習によって学習させた学習済みモデルである。本実施形態では、顔認証モデルＭ１及び声認証モデルＭ２をまとめて１つの認証モデルＭとして構成してあるが、顔認証モデルＭ１及び声認証モデルＭ２を各別のモデルとして用いる構成でもよい。

声認証モデルＭ２は、例えば顔認証モデルＭ１と同様に図５に示すようなＣＮＮモデルで構成されている。声認証モデルＭ２は、人が発話した音声から抽出した声紋データを入力とし、入力された声紋データに基づいて、発話した人が、予め学習（登録）してある複数のユーザのいずれであるかを演算し、演算した結果を出力するように学習した学習済みモデルである。具体的には、声認証モデルＭ２は、発話した人が、ユーザ情報ＤＢ１２ａにユーザの情報が登録されているユーザのいずれであるかを特定するように学習している。なお、声認証モデルＭ２においても、出力層は複数の出力ノードを有しており、それぞれの出力ノードは、ユーザ情報ＤＢ１２ａに記憶してある各ユーザに対する判別確率を出力する。また声認証モデルＭ２においても、それぞれの出力ノードが出力する判別確率は、それぞれの出力ノードに対応付けられたユーザＩＤのユーザが、入力層に入力された声紋データの人である可能性を示す。

声認証モデルＭ２は、音声から抽出された声紋データと、音声を発したユーザのユーザＩＤ（正解ラベル）とを含む教師データを用いて学習する。声認証モデルＭ２は、教師データに含まれる声紋データが入力された場合に、教師データに含まれる正解ラベルが示すユーザＩＤに対応する出力ノードから１．０の出力値が出力され、他の出力ノードから０．０の出力値が出力されるように学習する。これにより、声紋データが入力された場合に、声紋データを発したユーザのユーザＩＤを特定するように学習された学習済みの声認証モデルＭ２が得られる。なお、声認証モデルＭ２の学習は認証サーバ１０で行われてもよく、他の学習装置で行われてもよい。声認証モデルＭ２は、ＣＮＮモデル以外の学習モデルで構成されてもよく、また、深層学習モデルに限定されず、種々の機械学習のアルゴリズムによって構築された学習モデルで構成されてもよい。更に声認証モデルＭ２は、声紋データを周波数変換して得られる周波数成分を入力とするように構成されていてもよい。

図７Ｂに示すように本実施形態では、顔認証モデルＭ１（第１モデル）及び声認証モデルＭ２（第２モデル）をまとめて１つの認証モデルＭとして用いる。即ち、認証モデルＭには顔画像及び声紋データが入力され、認証モデルＭに入力された顔画像は顔認証モデルＭ１に入力され、声紋データは声認証モデルＭ２に入力される。また認証モデルＭは、顔認証モデルＭ１からの出力情報と声認証モデルＭ２からの出力情報とが入力される判定部Ｍａを有しており、判定部Ｍａは、入力された認証結果（顔認証モデルＭ１及び声認証モデルＭ２からの出力情報）に基づいて、ユーザ情報ＤＢ１２ａに登録されているいずれかのユーザＩＤを出力する。例えば判定部Ｍａは、顔認証モデルＭ１において最大値を出力した出力ノードに対応するユーザＩＤと、声認証モデルＭ２において最大値を出力した出力ノードに対応するユーザＩＤとが一致した場合、このユーザＩＤを出力してもよい。また判定部Ｍａは、それぞれのユーザＩＤについて、顔認証モデルＭ１からの出力値及び声認証モデルＭ２からの出力値の平均値を算出し、算出した平均値が最大であるユーザＩＤを出力してもよい。また、例えば顔認証モデルＭ１の全ての出力ノードからの出力値が所定閾値（例えば０．７）未満であり、声認証モデルＭ２の全ての出力ノードからの出力値が所定閾値未満であった場合、判定部Ｍａは、撮影対象者は未登録者であると判断してもよい。このように判定部Ｍａは、顔認証モデルＭ１から出力された各ユーザＩＤに対する判別確率と、声認証モデルＭ２から出力された各ユーザＩＤに対する判別確率とに基づいて、いずれかのユーザＩＤを出力し、撮影対象者が未登録者であると判断した場合、未登録者であることを示す情報（認証失敗を示す情報）を出力する。

図８は、実施形態２における認証処理手順の一例を示すフローチャートである。なお、本実施形態の情報処理システム１００では、認証サーバ１０は、認証端末２０のカメラ２４で撮影した撮影対象者の顔画像と、認証端末２０のマイク２５で集音した音声データから抽出した声紋データとに基づく認証処理を実行する。図８に示す処理は、図６に示す処理において、ステップＳ１２の代わりにステップＳ３１～Ｓ３３を追加し、ステップＳ１９，Ｓ２０の間にステップＳ３４を追加し、ステップＳ２４の後にステップＳ３５を追加したものである。図６と同じステップについては説明を省略する。

本実施形態の情報処理システム１００において、認証端末２０の制御部２１は、顔画像を取得したと判断した場合（Ｓ１１：ＹＥＳ）、マイク２５を介して、撮影された人（撮影対象者）が発した音声を収集して音声データを取得する（Ｓ３１）。このとき制御部２１は、記憶部２２に記憶してあるメッセージ２２ａから、例えば「こんにちは」等のメッセージを読み出してスピーカ２６から音声出力し、撮影対象者の発話を促してもよい。撮影対象者は、出力された音声メッセージに対して、例えば「こんにちは」と返答（発話）し、制御部２１は、ここで発話された音声の音声データを取得する。次に制御部２１は、取得した音声データから声紋データを抽出する（Ｓ３２）。なお、制御部２１は、取得した音声データをネットワークＮ経由で所定のサーバ（図示しない声紋分析用のサーバ）へ送信し、所定のサーバで抽出された声紋データを取得してもよい。制御部２１は、取得した顔画像及び声紋データを認証サーバ１０へ送信する（Ｓ３３）。

認証サーバ１０の制御部１１は、認証端末２０から撮影対象者の顔画像及び声紋データを取得した場合、取得した顔画像及び声紋データに基づく認証処理を実行する（Ｓ１３）。本実施形態では、制御部１１（特定部）は、取得した顔画像及び声紋データを認証モデルＭに入力し、認証モデルＭからの出力情報に基づいて撮影対象者を特定する。例えば認証モデルＭからユーザＩＤが出力された場合、制御部１１は、出力されたユーザＩＤのユーザを撮影対象者に特定する。また、認証モデルＭから認証失敗を示す情報（未登録者であることを示す情報）が出力された場合、制御部１１は、認証失敗（未登録者）であると判断する。制御部１１は、認証処理の結果を認証端末２０へ送信する（Ｓ１４）。

認証端末２０の制御部２１は、認証サーバ１０から受信した認証結果に基づいて、認証処理が成功したと判断した場合（Ｓ１５：ＹＥＳ）、ステップＳ２２の処理に移行し、認証処理が失敗したと判断した場合（Ｓ１５：ＮＯ）、ステップＳ１６～Ｓ１９の処理を行う。これにより、認証処理が失敗した場合、制御部２１は、撮影対象者が発した音声から撮影対象者の特定情報を抽出する。そして本実施形態では、制御部２１は、ステップＳ１７で取得した音声データから、認証用データとして登録すべき撮影対象者の声紋データを抽出する（Ｓ３４）。ここでも音声データから声紋データを抽出する処理は所定のサーバで行ってもよい。なお、本実施形態のステップＳ１６では、制御部２１は、撮影対象者が自身の特定情報を発話するように促すメッセージを音声出力するだけでなく、高精度の声紋データの抽出に適した言葉を撮影対象者に発話させるためのメッセージを音声出力してもよい。例えば「○○○（声紋データの抽出に適した言葉）と言って下さい」のようなメッセージを音声出力してもよい。この場合、撮影対象者が発した音声から精度よく抽出された声紋データを得ることができ、高精度の認証用データを生成できる。なお、制御部２１は、ステップＳ３２で取得した声紋データを登録用の声紋データに用いてもよい。

本実施形態のステップＳ２１では、制御部２１は、ステップＳ２０で取得した登録用の顔画像と、ステップＳ３４で取得した登録用の声紋データと、ステップＳ１９で抽出した特定情報とを撮影対象者の認証用データとして認証サーバ１０へ送信し、認証用データの登録を要求する（Ｓ２１）。認証サーバ１０の制御部１１は、認証用データの登録を要求された場合、ステップＳ２３，Ｓ２４の処理を行い、更に、認証端末２０から受信した撮影対象者の声紋データと発行したユーザＩＤとを教師データに用いて声認証モデルＭ２の学習を行う（Ｓ３５）。具体的には、制御部１１は、声認証モデルＭ２の出力ノードを１つ追加して、発行したユーザＩＤを割り当て、認証端末２０から受信した撮影対象者の声紋データを声認証モデルＭ２に入力した場合に、追加した出力ノードから１．０の出力値が出力され、他の出力ノードから０．０の出力値が出力されるように声認証モデルＭ２を学習させる。これにより、認証端末２０で取得された撮影対象者の声紋データを声認証モデルＭ２に学習させることができる。本実施形態においても、認証端末２０の制御部２１は、ステップＳ２１の処理後、カメラ２４の撮影可能範囲内にいる撮影対象者の顔画像を再度撮影し、撮影対象者が発した音声から声紋データを再度抽出して認証サーバ１０へ送信し、改めて認証サーバ１０による認証を行うことによって、撮影対象者を特定（認証）してもよい。

上述した処理により、カメラ２４の撮影可能範囲内にユーザ（撮影対象者）が入った場合に、カメラ２４で撮影された撮影対象者の顔画像と、マイク２５を介して収集された撮影対象者の声紋データとに基づく認証処理が行われ、撮影対象者の正当性が判断（認証）される。また、認証サーバ１０に未登録のユーザが撮影された場合、撮影された顔画像と、マイク２５を介して収集された撮影対象者の声紋データとが認証用データとして認証サーバ１０に登録される。よって、未登録のユーザがカメラ２４の撮影可能範囲内に入った場合に、このユーザの認証用データが自動的に認証サーバ１０に登録されるので、認証用データの登録処理に要する負担を軽減できる。

本実施形態では、上述した実施形態１と同様の効果が得られる。また本実施形態では、認証対象者の顔画像だけでなく声紋データも用いてユーザ認証を行うので、高精度のユーザ認証が可能となる。また、本実施形態においても、上述した実施形態１で適宜説明した変形例の適用が可能である。

（実施形態３）
認証対象者の顔画像に基づく顔認証処理と、認証対象者の声紋データに基づく声認証処理とを各別に行う情報処理システムについて説明する。本実施形態の情報処理システム１００は、実施形態２の情報処理システム１００と同様の装置にて実現可能であるので、構成についての説明は省略する。なお、本実施形態の認証サーバ１０は、図７Ａに示す実施形態２の認証サーバ１０の構成と若干異なるので、異なる箇所についてのみ説明する。図９は実施形態３の認証サーバ１０の構成例を示すブロック図である。本実施形態の認証サーバ１０では、顔認証モデルＭ１及び声認証モデルＭ２が各別に記憶部１２に記憶されている。即ち、本実施形態の認証サーバ１０では、顔認証モデルＭ１及び声認証モデルＭ２が各別のモデルとして使用される。

図１０は、実施形態３における認証処理手順の一例を示すフローチャートである。図１０に示す処理は、図８に示す処理において、ステップＳ３１～Ｓ３３，Ｓ１３～Ｓ１５の代わりにステップＳ４１～Ｓ５２を追加したものである。図８と同じステップについては説明を省略する。なお、図１０では、図８中のステップＳ１７～Ｓ２４，Ｓ３４～Ｓ３５の図示を省略している。

本実施形態の情報処理システム１００において、認証端末２０の制御部２１が顔画像を取得したと判断した場合（Ｓ１１：ＹＥＳ）、制御部２１及び認証サーバ１０の制御部１１は、実施形態１で説明した図６中のステップＳ１２～Ｓ１４と同様の処理を行う（Ｓ４１～Ｓ４３）。これにより、認証端末２０のカメラ２４で撮影された顔画像に基づく顔認証処理が認証サーバ１０で実行され、認証結果が認証端末２０へ送信される。なお、本実施形態の制御部１１は、認証結果として、特定したユーザのユーザＩＤと、このときの出力ノードからの出力情報（具体的には、特定したユーザＩＤに対応する出力ノードから出力された判別確率）とを認証端末２０へ送信する。

認証端末２０の制御部２１は、認証サーバ１０から顔認証結果を受信した場合、受信した認証結果の判別確率が第１閾値以上（例えば０．８以上）であるか否かを判断する（Ｓ４４）。第１閾値は例えば予め設定されて記憶部２２に記憶してあり、顔画像に基づく顔認証によって特定されたユーザが撮影対象者であると決定してもよい程度の判別確率を用いることができる。判別確率が第１閾値以上であると判断した場合（Ｓ４４：ＹＥＳ）、制御部２１は、顔画像に基づく顔認証処理が成功したと判断し、ステップＳ２２の処理へ移行する。判別確率が第１閾値以上でないと判断した場合（Ｓ４４：ＮＯ）、制御部２１は、判別確率が第２閾値未満（例えば０．３未満）であるか否かを判断する（Ｓ４５）。第２閾値は例えば予め設定されて記憶部２２に記憶してあり、第１閾値よりも小さい値であり、顔画像に基づく顔認証によって特定されたユーザが撮影対象者ではない、即ち、顔画像のユーザを特定できない（認証失敗）と判断してもよい程度の判別確率を用いることができる。

判別確率が第２閾値未満であると判断した場合（Ｓ４５：ＹＥＳ）、制御部２１は、顔画像に基づく顔認証によってユーザを特定できなかったとして、ステップＳ１６の処理に移行し、このユーザの認証用データ（顔画像及び声紋データ）を認証サーバ１０に登録する処理を行う。具体的には、制御部２１は、ステップＳ１６～Ｓ１９，Ｓ３４，Ｓ２０～Ｓ２４，Ｓ３５の処理を行う。判別確率が第２閾値未満でないと判断した場合（Ｓ４５：ＮＯ）、制御部２１は、顔画像の撮影対象者（認証対象者）の声紋データに基づく声認証処理を行う。ここでは制御部２１は、認証対象者の発話を促すためのメッセージを音声出力し、音声出力したメッセージに応じて認証対象者が発話した音声を収集して声紋データを取得する。具体的には、制御部２１は、例えば記憶部２２に記憶してあるメッセージ２２ａから、「お名前を教えて下さい」「ご用件は何ですか？」等のメッセージを読み出してスピーカ２６から音声出力する（Ｓ４６）。そして、制御部２１は、出力した音声メッセージに対して認証対象者が発した音声を、マイク２５を介して収集して音声データを取得する（Ｓ４７）。

制御部２１は、取得した音声データから声紋データを抽出し（Ｓ４８）、抽出した声紋データを認証サーバ１０へ送信し（Ｓ４９）、声紋データに基づく声認証処理を認証サーバ１０に実行させる。認証サーバ１０の制御部１１は、認証端末２０で取得された声紋データを認証端末２０から取得した場合、取得した声紋データに基づく声認証処理を実行する（Ｓ５０）。ここでは、制御部１１は、取得した声紋データを声認証モデルＭ２に入力し、声認証モデルＭ２からの出力情報に基づいて、取得した声紋データのユーザを特定する。具体的には、制御部１１は、声認証モデルＭ２において、最大の出力値（判別確率）を出力した出力ノードに対応するユーザＩＤのユーザを、声紋データのユーザに特定する。そして制御部１１は、認証処理の結果を認証端末２０へ送信する（Ｓ５１）。なお、制御部１１は認証結果として、特定したユーザのユーザＩＤと、このとき声認証モデルＭ２の出力ノードから出力された情報（具体的には、特定したユーザＩＤに対応する出力ノードから出力された判別確率）とを認証端末２０へ送信する。

認証端末２０の制御部２１は、認証サーバ１０から声認証結果を受信した場合、受信した認証結果の判別確率が所定値以上（例えば０．８以上）であるか否かを判断する（Ｓ５２）。判別確率が所定値以上であると判断した場合（Ｓ５２：ＹＥＳ）、制御部２１は、声紋データに基づく声認証処理が成功したと判断し、ステップＳ２２の処理へ移行する。判別確率が所定値以上でないと判断した場合（Ｓ５２：ＮＯ）、制御部２１は、声紋データに基づく声認証によってユーザを特定できなかったとして、このユーザを認証するための認証用データ（顔画像及び声紋データ）を認証サーバ１０に登録する処理を行う。具体的には、制御部２１は、ステップＳ１６～Ｓ１９，Ｓ３４，Ｓ２０～Ｓ２４，Ｓ３５の処理を行う。

上述した処理により、本実施形態では、カメラ２４の撮影可能範囲内にユーザ（撮影対象者）が入った場合に、カメラ２４で撮影された撮影対象者の顔画像に基づく顔認証処理が行われ、認証結果の判別確率が第１閾値以上（例えば８０％以上）であった場合に、顔認証処理によって特定されたユーザを撮影対象者に決定する。また、顔認証の結果の判別確率が第２閾値以上であり第１閾値未満であった場合、マイク２５を介して収集された撮影対象者の声紋データに基づく声認証処理が行われ、声認証結果の判別確率が所定値以上（例えば８０％以上）であった場合に、声認証処理によって特定されたユーザを撮影対象者に決定する。一方、顔認証結果の判別確率が第２閾値未満であった場合、又は、顔認証結果の判別確率が第２閾値以上であり第１閾値未満であり、声認証結果の判別確率が所定値未満であった場合、撮影対象者は未登録者であると判断される。なお、未登録者であると判断された撮影対象者については、顔画像及び声紋データが認証用データとして認証サーバ１０に登録される。よって、未登録のユーザの認証用データが自動的に認証サーバ１０に登録されるので、認証用データの登録処理に要する負担を軽減できる。

上述した処理において、ステップＳ４６で音声出力するメッセージと、ステップＳ１６で音声出力するメッセージとは同じメッセージであってもよく、異なるメッセージであってもよい。例えばステップＳ４６では、高精度の声紋データを抽出できるような言葉を撮影対象者に発話させるためのメッセージを音声出力してもよく、ステップＳ１６では、撮影対象者に自身の特定情報を発話させるためのメッセージを出力してもよい。

本実施形態では、上述した各実施形態と同様の効果が得られる。また本実施形態では、認証対象者の顔画像だけでなく声紋データも用いてユーザ認証を行うので、高精度のユーザ認証が可能となる。例えば顔画像を精度よく撮影できなかったことによって顔認証に失敗した場合であっても、声紋データに基づく声認証が行われるので、ユーザ認証の精度を向上させることができる。本実施形態においても、上述した各実施形態で適宜説明した変形例の適用が可能である。

（実施形態４）
認証対象者の顔画像に基づく認証処理をパターンマッチングによって行う情報処理システムについて説明する。本実施形態の情報処理システム１００は、実施形態１の情報処理システム１００と同様の装置にて実現可能であるので、構成についての説明は省略する。なお、本実施形態の認証サーバ１０は、図３に示す実施形態１の構成と若干異なるので、異なる箇所についてのみ説明する。具体的には、本実施形態の認証サーバ１０は、記憶部１２に顔認証モデルＭ１を記憶していなくてもよく、記憶部１２に記憶してあるユーザ情報ＤＢ１２ａは図４に示す構成と若干異なる。

図１１は実施形態４のユーザ情報ＤＢ１２ａの構成例を示す模式図である。図１１Ａに示す本実施形態のユーザ情報ＤＢ１２ａは、図４に示すユーザ情報ＤＢ１２ａの構成に加えて顔画像列を有する。顔画像列は、ユーザの顔を撮影して得られた画像データであり、ユーザを認証するための認証用データとして使用される顔画像を記憶する。なお、ユーザ情報ＤＢ１２ａに記憶される顔画像は、ユーザの顔を撮影した画像データから画像の特徴量を抽出した特徴量画像であってもよい。また顔画像は、ユーザ情報ＤＢ１２ａに記憶されるほかに、記憶部１２の所定領域又は他の記憶装置に記憶されてもよく、この場合、顔画像列は、顔画像を読み出すための情報（例えばデータの記憶場所を示すファイル名）を記憶する。

本実施形態の情報処理システム１００では、認証端末２０及び認証サーバ１０は、図６に示す処理と同様の処理を行う。なお、本実施形態では図６中のステップＳ１３において、認証サーバ１０の制御部１１は、ユーザ情報ＤＢ１２ａに記憶してある各ユーザの顔画像を用いたパターンマッチングによって、認証端末２０から取得した顔画像に基づく認証処理を実行する。具体的には、制御部１１は、ユーザ情報ＤＢ１２ａに記憶してある各ユーザの顔画像を参照して、認証端末２０から取得した顔画像と比較し、顔画像が一致するユーザを、ユーザ情報ＤＢ１２ａに記憶してあるユーザから特定する。顔画像が一致するユーザを特定できない場合、制御部１１は、顔画像のユーザを特定できない（認証失敗）と判断する。そして、ステップＳ１４において、制御部１１は、ユーザを特定できた場合、特定したユーザのユーザＩＤをユーザ情報ＤＢ１２ａから読み出して認証端末２０へ送信し、ユーザを特定できなかった場合、認証失敗を示す情報を認証端末２０へ送信する。

また本実施形態ではステップＳ２３において、制御部１１は、認証端末２０から認証用データの登録を要求された場合、新たに発行したユーザＩＤと、認証端末２０から受信した特定情報（撮影対象者の氏名及び所属情報）及び撮影対象者の顔画像とを対応付けてユーザ情報としてユーザ情報ＤＢ１２ａに記憶する。なお、本実施形態では、制御部１１は、ステップＳ２４の処理を行う必要がない。

上述した処理により、本実施形態においても、カメラ２４の撮影可能範囲内にユーザ（撮影対象者）が入った場合に、カメラ２４で撮影された撮影対象者の顔画像に基づく認証処理を行うことができる。また、認証サーバ１０に未登録のユーザが撮影された場合、撮影された顔画像を認証用データとして認証サーバ１０に登録することができる。よって、未登録のユーザがカメラ２４で撮影されれば、このユーザの認証用データが自動的に認証サーバ１０に登録されるので、認証用データの登録処理に要する負担を軽減できる。よって、上述した構成の情報処理システム１００では、上述した実施形態１と同様の効果が得られる。また、本実施形態においても、上述した各実施形態で適宜説明した変形例の適用が可能である。

本実施形態の構成は実施形態２－３の情報処理システム１００にも適用でき、実施形態２－３の情報処理システム１００に適用した場合であっても同様の効果が得られる。なお、本実施形態の構成を実施形態２－３の情報処理システム１００に適用した場合、認証サーバ１０の記憶部１２は、顔認証モデルＭ１及び声認証モデルＭ２を含む認証モデルＭを記憶していなくてもよく、記憶部１２に記憶されるユーザ情報ＤＢ１２ａは図１１Ｂに示す構成を有する。

図１１Ｂに示すユーザ情報ＤＢ１２ａは、図１１Ａに示すユーザ情報ＤＢ１２ａの構成に加えて声紋データ列を有する。声紋データ列は、ユーザが発した音声から抽出された声紋データであり、ユーザを認証するための認証用データとして使用される声紋データを記憶する。声紋データは、ユーザ情報ＤＢ１２ａに記憶されるほかに、記憶部１２の所定領域又は他の記憶装置に記憶されてもよく、この場合、声紋データ列は、声紋データを読み出すための情報を記憶する。

上述した構成を有する情報処理システム１００では、認証端末２０及び認証サーバ１０は、図８に示す処理と同様の処理を行う。なお、本実施形態では図８中のステップＳ１３において、認証サーバ１０の制御部１１は、ユーザ情報ＤＢ１２ａに記憶してある各ユーザの顔画像及び声紋データを用いたパターンマッチングによって、認証端末２０から取得した顔画像及び声紋データに基づく認証処理を実行する。具体的には、制御部１１は、認証端末２０から取得した顔画像に一致する顔画像を、ユーザ情報ＤＢ１２ａに記憶してある顔画像から特定し、顔画像が一致するユーザを特定する。顔画像が一致するユーザを特定できない場合、制御部１１は認証失敗と判断する。また制御部１１は、認証端末２０から取得した声紋データと、ユーザ情報ＤＢ１２ａに記憶してある各ユーザの声紋データとを比較し、声紋データが一致するユーザを、ユーザ情報ＤＢ１２ａに記憶してあるユーザから特定し、声紋データが一致するユーザを特定できない場合、認証失敗と判断する。そして制御部１１は、顔画像に基づく認証結果（特定されたユーザ）と声紋データに基づく認証結果（特定されたユーザ）とに基づいて、認証端末２０から取得した顔画像及び声紋データのユーザを特定する。そして、ステップＳ１４において、制御部１１は、顔画像及び声紋データに基づいてユーザを特定できた場合、特定したユーザのユーザＩＤをユーザ情報ＤＢ１２ａから読み出して認証端末２０へ送信し、ユーザを特定できなかった場合、認証失敗を示す情報を認証端末２０へ送信する。

また本実施形態ではステップＳ２３において、制御部１１は、認証端末２０から認証用データの登録を要求された場合、新たに発行したユーザＩＤと、認証端末２０から受信した特定情報（撮影対象者の氏名及び所属情報）、撮影対象者の顔画像及び声紋データとを対応付けてユーザ情報としてユーザ情報ＤＢ１２ａに記憶する。なお、本実施形態では、制御部１１は、ステップＳ２４，Ｓ３５の処理を行う必要がない。

上述した処理により、本実施形態においても、カメラ２４の撮影可能範囲内にユーザ（撮影対象者）が入った場合に、カメラ２４で撮影された撮影対象者の顔画像と、マイク２５を介して収集された撮影対象者の声紋データとに基づく認証処理を行うことができる。また、認証サーバ１０に未登録のユーザが撮影された場合、撮影された顔画像と、マイク２５を介して収集された声紋データとが認証用データとして認証サーバ１０に登録される。よって、未登録のユーザがカメラ２４で撮影されれば、このユーザの認証用データが自動的に認証サーバ１０に登録されるので、認証用データの登録処理に要する負担を軽減できる。よって、上述した構成の情報処理システム１００では、上述した実施形態２－３と同様の効果が得られる。また、本実施形態においても、上述した各実施形態で適宜説明した変形例の適用が可能である。

（実施形態５）
上述した実施形態１の情報処理システム１００と、会社内の従業員の出勤及び退勤を管理する勤怠管理サーバとを連携された勤怠管理システムについて説明する。図１２は勤怠管理システムの構成例を示すブロック図である。本実施形態の勤怠管理システムは、実施形態１の情報処理システム１００（認証サーバ１０及び認証端末２０）及び勤怠管理サーバ３０等を含み、認証サーバ１０、認証端末２０及び勤怠管理サーバ３０はネットワークＮを介して通信接続されている。本実施形態において、勤怠管理サーバ３０以外の構成は、実施形態１の情報処理システム１００と同様であるので、同様の構成についての説明は省略する。

勤怠管理サーバ３０は、例えばサーバコンピュータ又はパーソナルコンピュータ等であり、複数台設けられてもよいし、１台のサーバ装置内に設けられた複数の仮想マシンによって実現されてもよいし、クラウドサーバを用いて実現されてもよい。勤怠管理サーバ３０は、予め登録された従業員の出勤時刻及び退勤時刻等を管理する処理を行う。本実施形態では、勤怠管理サーバ３０が従業員の出勤時刻及び退勤時刻を記憶する際に、実施形態１の情報処理システム１００によるユーザ認証を行うように構成されている。

勤怠管理サーバ３０は、制御部３１、記憶部３２、通信部３３、入力部３４、表示部３５等を含み、これらの各部はバスを介して相互に接続されている。勤怠管理サーバ３０の各部３１～３５は、認証サーバ１０の各部１１～１５と同様の構成であるので詳細な説明は省略する。なお、勤怠管理サーバ３０の記憶部３２は、制御部３１が実行する制御プログラム３２Ｐに加え、後述する従業員情報ＤＢ３２ａ等を記憶する。

図１３は従業員情報ＤＢ３２ａの構成例を示す模式図である。従業員情報ＤＢ３２ａは、勤怠管理サーバ３０で勤怠状況を管理される従業員に関する情報を記憶する。図１３に示す従業員情報ＤＢ３２ａは、従業員ＩＤ列、氏名列、所属部署列、勤怠履歴列等を含み、従業員ＩＤに対応付けて、従業員の各情報を記憶する。従業員ＩＤ列は、各従業員に割り当てられた識別情報（従業員ＩＤ）を記憶する。なお、本実施形態の従業員ＩＤは、認証サーバ１０のユーザ情報ＤＢ１２ａに記憶されているユーザＩＤを用いることとする。氏名列及び所属部署列はそれぞれ、各従業員の氏名及び所属する部署名を記憶する。勤怠履歴列は、各従業員の出勤日時及び退勤日時等を記憶する。従業員情報ＤＢ３２ａに記憶される従業員ＩＤは、新たな従業員の情報が登録される際に、制御部３１によって発行されて記憶される。従業員情報ＤＢ３２ａに記憶される氏名及び所属部署の各情報は、制御部３１が通信部３３又は入力部３４を介して取得した場合に制御部３１によって記憶され、通信部３３又は入力部３４を介して変更指示を取得した場合に制御部３１によって変更される。従業員情報ＤＢ３２ａに記憶される勤怠履歴は、制御部３１が通信部３３又は入力部３４を介して出勤日時及び退勤日時の情報を取得した場合に、制御部３１によって逐次記憶（蓄積）される。従業員情報ＤＢ３２ａの記憶内容は図１３に示す例に限定されず、従業員に関する各種の情報を記憶することができる。例えば各従業員の年齢、性別、住所、電話番号、役職、勤続年数等が記憶される構成でもよい。

以下に、本実施形態の勤怠管理システムにおいて、各従業員が出勤又は退勤したときに出勤時間及び退勤時間が勤怠管理サーバ３０に登録される際に各装置が行う処理について説明する。図１４は、勤怠管理処理手順の一例を示すフローチャートである。図１４では左側に勤怠管理サーバ３０が行う処理を、中央に認証端末２０が行う処理を、右側に認証サーバ１０が行う処理をそれぞれ示す。図１４に示す処理は、図６に示す処理において、ステップＳ２２の後にステップＳ６１～Ｓ６２を追加したものである。図６と同じステップについては説明を省略する。

本実施形態の勤怠管理システムでは、認証端末２０は、出勤又は退勤する従業員が立ち寄れる箇所、例えば建物の玄関又は部屋の出入口等に設けられており、出勤又は退勤する従業員は、認証端末２０の前に立ち寄る。また、本実施形態の勤怠管理システムにおいて、認証端末２０及び認証サーバ１０は、図６中のステップＳ１１～Ｓ２４と同様の処理を行う。これにより、本実施形態の勤怠管理システムにおいても、カメラ２４の撮影可能範囲内に従業員（ユーザ）が入った場合に、カメラ２４で撮影された従業員の顔画像に基づく認証処理が行われる。また、認証サーバ１０に未登録の従業員が撮影された場合には、撮影された顔画像が認証用データとして認証サーバ１０に登録される。よって、認証用データの登録処理に要する負担が軽減される。

ステップＳ２２の処理後、本実施形態の認証端末２０の制御部２１は、ステップＳ２２で特定したユーザのユーザＩＤ（ここでは従業員の従業員ＩＤ）と現在日時を示す日時情報とを含む勤怠情報を勤怠管理サーバ３０へ送信する（Ｓ６１）。勤怠管理サーバ３０の制御部３１は、認証端末２０から勤怠情報を受信した場合、受信した勤怠情報を従業員情報ＤＢ３２ａに記憶する（Ｓ６２）。具体的には、制御部３１は、受信した勤怠情報に含まれる従業員ＩＤに対応付けて従業員情報ＤＢ３２ａに記憶してある勤怠履歴に、受信した勤怠情報に含まれる日時情報を追加して記憶する。なお、制御部３１は、受信した勤怠情報に含まれる日時情報が示す日時が、出勤日時であるか退勤日時であるかを判断し、判断結果に基づいて、勤怠情報に含まれる日時情報を出勤日時又は退勤日時の情報として従業員情報ＤＢ３２ａに記憶してもよい。例えば、各従業員の出勤予定時刻及び退勤予定時刻が予め決まっている場合、制御部３１は、受信した勤怠情報に含まれる日時情報が示す時刻が、出勤予定時刻又は退勤予定時刻のいずれに近いかを判断し、出勤予定時刻に近い場合には出勤日時とし、退勤予定時刻に近い場合には退勤日時としてもよい。また、１日において、制御部３１は最初に受信した勤怠情報に含まれる日時情報を出勤日時とし、最後に受信した勤怠情報に含まれる日時情報を退勤日時としてもよい。

上述した処理により、本実施形態では、カメラ２４の撮影可能範囲内に従業員が入った場合に、カメラ２４で撮影された従業員の顔画像に基づく認証処理が行われ、認証が成功した従業員については勤怠情報の登録が可能となる。また、認証サーバ１０に未登録の従業員が撮影された場合、撮影された従業員の顔画像が認証用データとして認証サーバ１０に登録される。勤怠管理システムは、新入社員等の新たな従業員の追加が想定されるシステムであるが、このようなシステムにおいて、新たな従業員の認証用データを随時登録することができるので、認証用データの登録を手軽に且つ早期に行うことが可能となる。本実施形態においても、上述した各実施形態で適宜説明した変形例の適用が可能である。

本実施形態の勤怠管理システムは、上述した実施形態２－４の情報処理システム１００と勤怠管理サーバ３０とを連携させて構成されてもよい。即ち、実施形態２－３のように、従業員の顔画像だけでなく声紋データを用いた認証処理を行う情報処理システム１００を用いて勤怠管理システムを構成してもよい。また、実施形態４のように、パターンマッチングによって顔画像又は声紋データに基づくユーザ認証を行う情報処理システム１００を用いて勤怠管理システムを構成してもよい。このような場合にも実施形態２－４と同様の効果が得られ、また、カメラ２４で撮影された従業員の顔画像、又はマイク２５を介して取得した従業員の声紋データに基づく認証処理によって認証された従業員については勤怠情報の登録が可能となる。

また、上述した実施形態１－４の情報処理システム１００は、勤怠管理システムに適用されるほかに、宿泊施設におけるチェックインシステム、マンションのエントランス等におけるオートロックシステム等に適用することができる。チェックインシステムに適用した場合、例えば宿泊施設のチェックインカウンターに認証端末２０が設置され、チェックイン手続を行いたいユーザ（顧客）は認証端末２０の前に行く。そして、カメラ２４の撮影可能範囲内に顧客が入った場合に、カメラ２４で撮影された顧客の顔画像に基づく認証処理が行われ、認証が成功した顧客についてはチェックインに関する各種の処理が実行される。また、未登録の顧客が撮影された場合、撮影された顧客の顔画像が認証用データとして認証サーバ１０に登録されるので、この顧客が次に認証端末２０の前に来たときには、登録された認証用データによって認証処理が成功する。よって、未登録の顧客の認証用データがチェックイン時に登録されるので、この顧客がチェックアウト手続を行う際には認証処理が成功する。よって、例えば各顧客のクレジットカード番号等の決済情報が予め登録されている場合には、チェックアウト時に認証が成功した顧客について、登録してある決済情報に基づいて自動的に決済処理が実行されるように構成することもできる。このようなシステムにおいても、随時追加される顧客の認証用データの登録処理を容易に行うことができる。

また、オートロッシステムに適用した場合、例えばマンションのエントランスに認証端末２０が設置され、マンションの住人、管理人、清掃担当者等のユーザがマンション内に入りたい場合に認証端末２０の前に行く。そして、カメラ２４の撮影可能範囲内にユーザが入った場合に、カメラ２４で撮影されたユーザの顔画像に基づく認証処理が行われ、認証が成功した場合にエントランスのロックを解除する等の処理が実行される。また、新たな入居者、管理人、清掃担当者等の未登録のユーザが撮影された場合、撮影されユーザの顔画像が認証用データとして認証サーバ１０に登録されるので、このユーザが次に認証端末２０の前に来たときには、登録された認証用データによって認証処理が成功する。このようなシステムにおいても、随時追加されるユーザの認証用データの登録処理を容易に行うことができる。

上述した各実施形態の情報処理システム１００において、認証サーバ１０に未登録のユーザが認証端末２０のカメラ２４で撮影された場合に、撮影された顔画像を認証用データとして認証サーバ１０に登録するか否かを切り替える構成を設けてもよい。例えば、未登録のユーザが撮影された場合に、このユーザの認証用データを認証サーバ１０に登録する処理を実行するモードと、登録する処理を実行しないモードとを、例えば認証端末２０の入力部（図示せず）を介して選択できるように構成してもよい。このような構成により、未登録のユーザの認証用データが不用意に登録されることを抑制できる。また、未登録のユーザの認証用データを順次登録すべきシステムでは、未登録のユーザの認証用データが自動的に登録されるので、認証用データの登録処理に要する負担を軽減できる。

今回開示された実施の形態はすべての点で例示であって、制限的なものでは無いと考えられるべきである。本発明の範囲は、上記した意味では無く、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

１００情報処理システム
１０認証サーバ
１１制御部
１２記憶部
１３通信部
２０認証端末
２１制御部
２２記憶部
２３通信部

Claims

撮影対象者の顔を撮影して得られた撮影画像を取得し、
人の顔の撮影画像と、前記人を特定するための特定情報とが対応付けられた認証用データを参照して、取得した前記撮影画像に基づき前記撮影対象者に対応する人を特定し、
前記撮影対象者に対応する人を特定できない場合、前記撮影対象者の発話音声の入力を受け付け、
前記発話音声又は前記発話音声から音声認識によって認識されたテキストデータから前記撮影対象者を特定する特定情報を抽出し、
前記撮影対象者の撮影画像と、抽出した前記特定情報とを対応付けた認証用データを登録する
処理をコンピュータが実行する情報処理方法。
前記撮影対象者の発話音声から、前記撮影対象者の氏名及び前記撮影対象者が所属する組織に関する情報を含む前記特定情報を抽出する
処理を前記コンピュータが実行する請求項１に記載の情報処理方法。
前記撮影対象者を特定する特定情報を前記撮影対象者が発話するように誘導するためのメッセージ、又は、前記撮影対象者の顔の向きを所定の方向に変更するように誘導するためのメッセージを音声出力する
処理を前記コンピュータが実行する請求項１又は２に記載の情報処理方法。
前記撮影対象者の発話音声から声紋データを抽出し、
前記撮影対象者の撮影画像と、前記撮影対象者の発話音声から抽出した前記特定情報と、前記撮影対象者の発話音声から抽出した前記声紋データとを対応付けて認証用データとして登録する
処理を前記コンピュータが実行する請求項１から３までのいずれかひとつに記載の情報処理方法。
前記認証用データを参照して前記撮影対象者に対応する前記人を特定できた場合、特定した前記人の特定情報を出力する
処理を前記コンピュータが実行する請求項１から４までのいずれかひとつに記載の情報処理方法。
前記撮影対象者の顔を複数の撮像部で撮影して得られた複数の撮影画像を取得する
処理を前記コンピュータが実行する請求項１から５までのいずれかひとつに記載の情報処理方法。
前記撮影対象者の発話音声から声紋データを抽出し、
取得した前記撮影対象者の顔の撮影画像と、前記撮影対象者の発話音声から抽出された声紋データとに基づいて前記撮影対象者を特定する
処理を前記コンピュータが実行する請求項１から６までのいずれかひとつに記載の情報処理方法。
撮影対象者の顔を撮影して得られた撮影画像を取得する画像取得部と、
人の顔の撮影画像と、前記人を特定するための特定情報とが対応付けられた認証用データを参照して、取得した前記撮影画像に基づき前記撮影対象者に対応する人を特定する特定部と、
前記撮影対象者に対応する人を特定できない場合、前記撮影対象者の発話音声の入力を受け付ける受付部と、
前記発話音声から前記撮影対象者を特定する特定情報を抽出する抽出部と、
前記撮影対象者の撮影画像と、抽出した前記特定情報とを対応付けた認証用データを登録する登録部と
を備える情報処理装置。
撮影対象者の顔を撮影して得られた撮影画像を取得し、
人の顔の撮影画像と、前記人を特定するための特定情報とが対応付けられた認証用データを参照して、取得した前記撮影画像に基づき前記撮影対象者に対応する人を特定し、
前記撮影対象者に対応する人を特定できない場合、前記撮影対象者の発話音声の入力を受け付け、
前記発話音声から前記撮影対象者を特定する特定情報を抽出し、
前記撮影対象者の撮影画像と、抽出した前記特定情報とを対応付けた認証用データを登録する
処理をコンピュータに実行させるプログラム。