JP7254316B1

JP7254316B1 - プログラム、情報処理装置、及び方法

Info

Publication number: JP7254316B1
Application number: JP2022065159A
Authority: JP
Inventors: 健一郎阿部; 勝敏石川; 正稔三枝; 秀成神酒; 光治松生
Original assignee: 株式会社アープ
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2023-04-10
Anticipated expiration: 2042-04-11
Also published as: JP2023155890A; JP2023155684A

Abstract

【課題】安全性の高い音声認証を高速に実現することができるようにする。【解決手段】プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出するステップと、一時的なパスワードを生成するステップと、前記ユーザに、前記パスワードを提示するステップと、前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップと、受け付けた前記第２音声データから、第２の音声特徴量を抽出するステップと、前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、を実行させ、前記第１の音声特徴量と、前記第２の音声特徴量とは、ベクトルで表される音声特徴である、プログラム。【選択図】図７

Description

本開示は、プログラム、情報処理装置、及び方法に関する。

安全で確実な二重身分認証を実現することを目的として、事前にユーザ声紋モデルを学習・登録し、動的パスワードを生成し、動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて当該要求者の身分を判定する、という技術がある（特許文献１）。

特表２０１８―５０９６４９号公報

しかし、従来技術では、グローバルな声紋モデルを学習しておく必要があったり、信頼度にビタビアルゴリズムなどの従来の音声認識に用いる計算方法を用いたり、平均信頼値を算出しているため、処理速度が遅い、という問題があった。

本開示の目的は、安全性の高い音声認証を高速に実現することにある。

本開示の一態様のプログラムは、プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出するステップと、一時的なパスワードを生成するステップと、前記ユーザに、前記パスワードを提示するステップと、前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップと、受け付けた前記第２音声データから、第２の音声特徴量を抽出するステップと、前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、を実行させ、前記第１の音声特徴量と、前記第２の音声特徴量とは、ベクトルで表される音声特徴である。

本開示によれば、安全性の高い音声認証を高速に実現することができる。

本開示の情報処理システム１の構成を示すブロック図である。本開示の情報処理装置１０の構成を示すブロック図である。本開示の情報処理装置１０の機能構成を示すブロック図である。本開示の第１音声データ収集処理を示すフローチャートである。本開示の学習処理を示すフローチャートである。本開示の第１の音声特徴量抽出処理を示すフローチャートである。本開示の認証処理を示すフローチャートである。本開示の認証処理Ｓ４０５のユーザ認証処理を示すフローチャートである。本開示の情報処理システム２の構成を示すブロック図である。本開示の認証処理を示すフローチャートである。本開示の情報処理システム３の構成を示すブロック図である。本開示の認証処理を示すフローチャートである。本開示の情報処理システム４の構成を示すブロック図である。本開示の認証処理を示すフローチャートである。本開示の情報処理システム５の構成を示すブロック図である。本開示の認証処理を示すフローチャートである。本開示の情報処理システム６の構成を示すブロック図である。本開示の認証処理を示すフローチャートである。

以下、本開示の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態
を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その
繰り返しの説明は省略する。

従来技術では、グローバルな声紋モデルを学習しておく必要があったり、信頼度にビタビアルゴリズムなどの従来の音声認識に用いる計算方法を用いたり、平均信頼値を算出しているため、処理速度が遅い、という問題があった。

本開示の技術は、予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出し、一時的なパスワードを生成し、ユーザに、当該パスワードを提示する。そして、ユーザが当該パスワードを読み上げた第２音声データから、第２の音声特徴量を抽出し、第１の音声特徴量と、第２の音声特徴量と、当該パスワードとを用いて、ユーザ認証を行う。また、第１の音声特徴量と、第２の音声特徴量とは、ベクトルで表される音声特徴である。これにより、本開示は、安全性の高い音声認証を高速に実現することができる技術を開示する。

また、従来技術は、処理速度が遅く、またサービスの提供者、サービスの利用者等にとって利用しづらい、という問題があった。例えば、ホテル等の宿泊サービスにおいて、フロントに人手を介してチェックインする必要があったり、ユーザが認証することを意識させたくない場合にも、ユーザが認証したことを気付いてしまう場合があったりする問題があった。本開示は、利用シーンに応じて利便性の高い音声認証技術を開示する。
以下、第１実施形態では、本開示の音声認証技術について説明する。また、第２実施形態～第６実施形態では、利用シーンに応じた利便性の高い音声認証技術の具体例について説明する。

＜第１実施形態＞
（１）情報処理システム１の構成
図１は、第１実施形態の情報処理システム１の構成を示すブロック図である。図１に示すように、情報処理システム１は、情報処理装置１０、ユーザ端末２０、及びネットワーク３０を含む。情報処理装置１０と、ユーザ端末２０とは、有線又は無線の通信規格を用いて、ネットワーク３０を介して相互に通信可能に接続されている。

情報処理装置１０は、据え置き型のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップＰＣなどにより実現される。

図２は、第１実施形態の情報処理装置１０の構成を示すブロック図である。図２に示すように、情報処理装置１０は、記憶装置１１、プロセッサ１２、入出力インターフェース１３、及び通信インターフェース１４を備える。

記憶装置１１は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶する装置である。記憶装置１１は、例えば、フラッシュメモリ、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリ、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の１つ、又は組み合わせにより実現される。

プロセッサ１２は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。

入出力インターフェース１３は、図示しない入力装置（例えば、マイク、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等）から、入力信号を受け付けるインターフェースである。また、入出力インターフェース１３は、図示しない出力装置（ディスプレイ、スピーカ等）に対し、出力信号を送信するインターフェースである。

通信インターフェース１４は、情報処理装置１０が外部の装置と通信するため、信号を入出力するためのインターフェースである。

ユーザ端末２０は、ユーザにより操作され、またはユーザのために操作される端末装置である。ユーザは、例えば、サービスの利用者などである。ユーザにより操作される場合、ユーザ端末２０は、ユーザが保有する端末装置であるか、又はサービスの提供者によりユーザに供与され端末であって、当該提供者が保有する端末装置である。ユーザのために操作される端末装置である場合、ユーザ端末２０は、サービスの提供者が保有する端末装置である。

ユーザ端末２０は、例えば、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末、ウェアラブルデバイス等により実現される。この他に、ユーザ端末２０は、据え置き型のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、ラップトップＰＣなどであるとしてもよい。本開示では、ユーザ端末２０がスマートフォンである場合を例に説明する。

図２は、ユーザ端末２０の構成を示すブロック図である。図２に示すように、ユーザ端末２０は、記憶装置２１、プロセッサ２２、入出力インターフェース２３、及び通信インターフェース２４を備える。また、ユーザ端末２０は、図示しないディスプレイ、スピーカーなどの出力装置を備える。

記憶装置２１は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶する装置である。記憶装置１１は、例えば、フラッシュメモリ、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリ、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の１つ、又は組み合わせにより実現される。

プロセッサ２２は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。

入出力インターフェース２３は、図示しない入力装置（例えば、マイク、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等）から、入力信号を受け付けるインターフェースである。また、入出力インターフェース１３は、図示しない出力装置（ディスプレイ、スピーカ等）に対し、出力信号を送信するインターフェースである。

通信インターフェース２４は、情報処理装置１０が外部の装置と通信するため、信号を入出力するためのインターフェースである。

（２）情報処理装置１０の機能
図３は、第１実施形態の情報処理装置１０の機能構成を示すブロック図である。図３に示すように、情報処理装置１０は、通信部１１０、記憶部１２０、及び制御部１３０を含む。

通信部１１０は、情報処理装置１０が外部の装置と通信するための処理を行う。

記憶部１２０は、情報処理装置１０が使用するデータ及びプログラムを記憶する。記憶部１２０は、第１データＤＢ１２１、第２データＤＢ１２２、第３データＤＢ１２３等を記憶する。

第１データＤＢ１２１は、第１音声データを保持するためのデータベースである。例えば、第１データＤＢ１２１は、項目「ＩＤ」、項目「ユーザＩＤ」、項目「第１音声データ」などのレコードを含む。なお、ここに示す項目は全てではなく、他の項目があっても構わない。

項目「ＩＤ」は、各レコードを識別するための情報を記憶する。

項目「ユーザＩＤ」は、ユーザを識別するための情報を記憶する。なお、ユーザＩＤは、本開示の他のＤＢにおいても同様である。

項目「第１音声データ」は、ユーザが発生した音声データを記憶する。音声データは、例えばＷａｖなどの音声ファイルで表されるデータである。

第２データＤＢ１２２は、学習済みモデル及び学習済みモデルのパラメータを保持するデータベースである。学習済みモデルについては、後述する。

第３データＤＢ１２３は、後述するユーザの第１の音声特徴量を保持するためのデータベースである。例えば、第３データＤＢ１２３は、項目「ユーザＩＤ」、項目「ユーザ名」、項目「音声特徴量」、項目「更新日時」などのレコードを含む。なお、ここに示す項目は全てではなく、他の項目があっても構わない。

項目「ユーザ名」は、ユーザの名、氏、氏名、名称、通称などの情報を記憶する。

項目「音声特徴量」は、抽出したユーザの第１の音声特徴量を記憶する。第１の音声特徴量については後述する。

項目「更新日時」は、第１の音声特徴量を第３データＤＢ１２３に格納した日時を保持する。

制御部１３０は、情報処理装置１０のプロセッサ１２がプログラムに従って処理を行うことにより、受信制御部１３１、送信制御部１３２、抽出部１３３、生成部１３４、提示部１３５、及び認証部１３６などに示す機能を発揮する。

受信制御部１３１は、情報処理装置１０が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。例えば、受信制御部１３１は、ユーザ端末２０から後述のパスワードを読み上げた第２音声データを受信すると、当該第２音声データを、抽出部１３３に当該音声データを渡す。

送信制御部１３２は、情報処理装置１０が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。

抽出部１３３は、音声データから、音声特徴量を抽出する。
具体的には、抽出部１３３は、学習済みモデルと、第１データＤＢ１２１に登録されたユーザの第１音声データを１以上とを用いて、音声特徴量を抽出する。

ここで、本開示の学習済みモデルについて説明する。当該学習済みモデルは、音声データを入力することに応じて、ユーザの音声特徴をベクトルで表す音声特徴量を出力するように学習されたモデルである。学習済みモデルは、任意の機械学習モデル、任意のニューラルネットワークなどを用いることができる。

本開示では、学習済みモデルは、深層距離学習モデル（ＤｅｅｐＭｅｔｒｉｃＬｅｒｎｉｎｇモデル）である場合を例に説明する。この場合、学習済みモデルは、音声データを２次元の特徴量に変換した音声特徴量を入力すると、Ｎ次元のベクトルで表される音声特徴量を出力するように学習される。当該音声特徴量は、例えば、音声のメル周波数ケプストラム係数（ＭＦＣＣ）などである。学習済みモデルの学習は、情報処理装置１０が行っても、他の装置が行ってもよい。本開示では、学習済みモデルが他の装置によって学習が行われ、予め第２データＤＢ１２２に格納されている場合を例に説明する。

学習済みモデルの学習に用いられる学習データは、学習用に録音した複数人の音声データを、音声信号処理及び音響処理の少なくとも１以上を施したものを予め用意しておいたものである。音声信号処理及び音響処理は、例えば、音量調節、音声の伸縮、ピッチシフト、ノイズ印加、イコライザー、リバーブなどの処理である。ある人の音声データを、複数の音声信号処理及び音響処理を施すことで、ある人の音声データから、複数の音声データを生成することができる。このような音声信号処理及び音響処理は、音声データの録音環境の違いを考慮するために行う。このような学習データにより、当該学習済みモデルは、マイクの性能の差異などの録音環境の影響を少なくした音声特徴量の抽出を実現することができる。

また、処理された学習データは、メル周波数ケプストラム係数（ＭＦＣＣ）を用いて、２次元ベクトルで表される特徴量に変換される。当該特徴量は、例えば１２８×１２８の２次元で表される。

そして、学習済みモデルは、当該２次元ベクトルで表される特徴量を入力とし、Ｎ次元のベクトルで表される音声特徴量を出力するように、学習される。Ｎは、任意の整数である。Ｎ次元のベクトルで表される音声特徴量は、人がどのような音声の特徴を有するかを要素とするベクトルである。学習方法は、例えば、距離学習を用いる。これにより、当該学習済みモデルは、人毎の音声特徴を示すように、Ｎ次元のベクトルで表される音声特徴量を出力するように学習される。このように出力された音声特徴量は、ベクトル表現であるため、他の同様に出力された音声特徴量と距離により、同一人物であるか否かを精度よく判定することができる。このように学習された学習済みモデルが、第２データＤＢ１２２に格納されている。

なお、学習データは、敵対的ノイズを加えたものでもよい。当該学習済みモデルは、学習済みモデルの学習時に敵対的学習を行うことで、敵対的攻撃（なりすまし等）への耐性をもたせることができる。

具体的には、抽出部１３３は、ユーザの第１音声データを、第１データＤＢ１２１から取得する。次に、抽出部１３３は、第１音声データを、メル周波数ケプストラム係数（ＭＦＣＣ）を用いて、音声データを２次元ベクトルで表される第３の音声特徴量に変換する。次に、抽出部１３３は、第２データＤＢ１２２から、学習済みモデルを取得する。次に、抽出部１３３は、第３の音声特徴量と、学習済みモデルとを用いて、Ｎ次元のベクトルで表される第１の音声特徴量を抽出する。そして、抽出部１３３は、抽出した第１の音声特徴量を、第３データＤＢ１２３に格納する。

また、抽出部１３３は、ユーザが後述のパスワードを読み上げた音声である第２音声データを受信すると、第２音声データを、メル周波数ケプストラム係数を用いて、音声データを２次元ベクトルで表される第４の音声特徴量に変換する。次に、抽出部１３３は、第４の音声特徴量と、学習済みモデルとを用いて、Ｎ次元のベクトルで表される第２の音声特徴量を抽出する。

生成部１３４は、一時的なパスワードを生成する。

具体的には、生成部１３４は、所定の有効期限を定めたパスワードを生成する。パスワードは、読み上げることが可能な文字列である。生成部１３４は、ランダムな文字列としてパスワードを生成しても、予め決められた単語又は文の中からランダム又は所定の方式により選択したものをパスワードとして生成してもよい。パスワードがランダムな文字列である場合、人が読み上げることが困難である可能性がある。このため、生成部１３４が、予め読み上げやすい単語又は文からパスワードを選択する方が、音声を用いるユーザ認証の精度が高くなる。

提示部１３５は、ユーザに、パスワードを提示する。

具体的には、提示部１３５は、パスワードを、人が知覚可能であり、知覚した結果として声に出すことが可能な態様で、ユーザにパスワードを提示する。提示部１３５は、例えば、パスワードを文字列として出力装置に表示させる、パスワードを認知可能な画像若しくは映像として出力装置に表示させる、又は、パスワードに関する音として出力装置に発音させる。画像又は映像として表示させる場合では、提示部１３５は、例えばパスワードが「ほくとしちせい」である場合、北斗七星の映った画像又は映像を出力装置（例えばディスプレイ）に表示させる。また、音として発音させる場合では、提示部１３５は、例えばパスワードが「ほくとしちせい」である場合、それを読み上げた音を任意の手法で生成して、出力装置（例えばスピーカー）に発音させる。

また、ユーザが情報処理装置１０に接続される出力装置の近くにいない場合、提示部１３５は、通信を介して、ユーザ端末２０などにパスワードを送信することにより、ユーザにパスワードを提示すればよい。

認証部１３６は、第１の音声特徴量と、第２の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。

具体的には、認証部１３６は、パスワードが有効期限内である場合に、パスワード認証と、話者認証とを行い、何れの認証も成功した場合、ユーザ認証に成功したものとする。パスワード認証は、第２音声データが、当該パスワードについて読み上げられた音声データであることの認証を行うものである。話者認証は、第２音声データが、登録されたユーザにより発声されたものであることの認証を行うものである。

まず、認証部１３６は、受信した第２音声データを、テキストデータに変換する。次に、認証部１３６は、パスワードと、テキストデータとを用いて、パスワード認証を行う。より具体的には、認証部１３６は、第２音声データを変換したテキストデータと、パスワードとが一致するか否かを検証する。認証部１３６は、テキストデータとパスワードとが一致する場合、パスワード認証が成功したものと判定する。一方、認証部１３６は、テキストデータとパスワードとが一致しない場合、パスワード認証が成功しなかったものと判定する。

また、認証部１３６は、第１の音声特徴量と第２の音声特徴量との距離に応じて、話者認証を行う。より具体的には、認証部１３６は、まず、第１の音声特徴量と、第２の音声特徴量との距離を算出する。次に、認証部１３６は、算出した距離が、所定の閾値以下であるか否かを判定する。認証部１３６は、距離が所定の閾値以下である場合、話者認証に成功したものと判定する。一方、認証部１３６は、距離が所定の閾値以下でない場合、話者認証に成功しなかったものと判定する。

認証部１３６は、パスワードが有効期限内であり、パスワード認証と、話者認証とが共に成功した場合に、ユーザ認証に成功したものとする。一方、認証部１３６は、パスワードが有効期限内でない、パスワード認証に成功していない、又は話者認証に成功していない場合、ユーザ認証に成功しなかったものとする。

なお、認証部１３６は、第１の音声特徴量と第２の音声特徴量との距離そのものを用いなくてもよい。例えば、認証部１３６は、第１の音声特徴量を用いて学習されたユーザの異常検知モデルと、第２の音声特徴量とを用いて、ユーザ認証を用いてもよい。ユーザの異常検知モデルは、音声特徴量を入力することにより、当該音声特徴量が当該ユーザの音声特徴量であるか否かを出力するモデルである。異常検知モデルは、例えば、ＯｎｅＣｌａｓｓＳＶＭ、ＩｓｏｌａｔｉｏｎＦｏｒｅｓｔなどの既存のモデルを用いることができる。なお、異常検知モデルは、ユーザ登録時の音声情報を用いて、ユーザ毎に学習されている。

そして、認証部１３６は、認証結果を出力する。認証結果の出力先は、例えば、情報処理装置１０に接続された出力装置、ユーザ端末２０に送信、サービスを実施するためのサーバ等である。

（３）動作
以下では、情報処理装置１０における処理について図面を参照しながら説明する。

図４は、情報処理装置１０による第１音声データ収集処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、任意のタイミング（例えば、第１音声データを受信したタイミングなど）において実行する。

ステップＳ１０１において、受信制御部１３１は、ユーザ端末２０から第１音声データを受信する。

ステップＳ１０２において、受信制御部１３１は、受信した第１音声データを、第１データＤＢ１２１に格納し、処理を終了する。

図５は、情報処理装置１０による学習処理を行う流れの一例を示すフローチャートである。当該処理を、任意のタイミング（例えば、学習処理を開始するための信号を受信したタイミングなど）において実行する。なお、情報処理装置１０が学習処理を行う場合、図示しない学習部が当該処理を行う。

ステップＳ２０１において、学習部は、学習データを取得する。この場合、学習部は、学習データを、記憶部１２０又は外部のデータベースから取得する。

ステップＳ２０２において、学習部は、音声データを入力することに応じて、ユーザの音声特徴をベクトルで表す音声特徴量を出力するように、モデルを学習する。

ステップＳ２０３において、学習部は、学習済みモデルとそのパラメータとを、第２データＤＢ１２２に格納し、処理を終了する。

図６は、情報処理装置１０による第１の音声特徴量抽出処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、任意のタイミング（例えば、ユーザの第１音声データを格納したタイミング、認証要求信号を受信したタイミングなど）において実行する。

ステップＳ３０１において、抽出部１３３は、ユーザの第１音声データを、第１データＤＢ１２１から取得する。

ステップＳ３０２において、抽出部１３３は、第１音声データを、メル周波数ケプストラム係数（ＭＦＣＣ）を用いて、音声データを２次元ベクトルで表される第３の音声特徴量に変換する。

ステップＳ３０３において、抽出部１３３は、第２データＤＢ１２２から、学習済みモデルを取得する。

ステップＳ３０４において、抽出部１３３は、第３の音声特徴量と、学習済みモデルとを用いて、Ｎ次元のベクトルで表される第１の音声特徴量を抽出する。

ステップＳ３０５において、抽出部１３３は、抽出した第１の音声特徴量を、第３データＤＢ１２３に格納し、処理を終了する。

図７は、情報処理装置１０によるユーザ認証処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、任意のタイミング（例えば、認証要求信号を受信したタイミングなど）において実行する。

ステップＳ４０１において、受信制御部１３１は、認証要求信号を受信する。認証要求信号は、例えば、情報処理装置１０に接続される入力端末、ユーザ端末２０などから入力を受け付ける。

ステップＳ４０２において、生成部１３４は、一時的なパスワードを生成する。

ステップＳ４０３において、提示部１３５は、ユーザに、パスワードを提示する。

ステップＳ４０４において、受信制御部１３１は、第２音声データを受信する。

ステップＳ４０５において、認証部１３６は、第１の音声特徴量と、第２の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。

ステップＳ４０６において、認証部１３６は、認証結果を出力し、処理を終了する。

図８は、ステップＳ４０５の認証部１３６による認証処理を行う流れの一例を示すフローチャートである。

ステップＳ４５１において、抽出部１３３は、第２音声データを、メル周波数ケプストラム係数を用いて、音声データを２次元ベクトルで表される第４の音声特徴量に変換する。

ステップＳ４５２において、抽出部１３３は、第４の音声特徴量と、学習済みモデルとを用いて、Ｎ次元のベクトルで表される第２の音声特徴量を抽出する。

ステップＳ４６３において、認証部１３６は、認証要求信号に係るユーザの第１の音声特徴量を、第３データＤＢ１２３から取得する。

ステップＳ４６４において、認証部１３６は、受信した第２音声データを、テキストデータに変換する。

ステップＳ４６５において、認証部１３６は、パスワードと、テキストデータとを用いて、パスワード認証を行う。

ステップＳ４６６において、認証部１３６は、第１の音声特徴量と第２の音声特徴量との距離に応じて、話者認証を行う。

ステップＳ４６７において、認証部１３６は、パスワードが有効期限内であり、かつ、パスワード認証と、話者認証とが共に成功した場合に、ユーザ認証に成功したものとし、それ以外の場合ユーザ認証に成功していないものとし、認証結果をリターンする。

なお、上記処理は、個別の処理として説明したが、これに限定されるものではない。例えば、情報処理システム１において、上記の処理を組み合わせて実行してもよい。

（４）小括
以上説明したように、本開示によれば、予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出し、一時的なパスワードを生成し、ユーザに、当該パスワードを提示する。そして、ユーザが当該パスワードを読み上げた第２音声データから、第２の音声特徴量を抽出し、第１の音声特徴量と、第２の音声特徴量と、当該パスワードとを用いて、ユーザ認証を行う。また、第１の音声特徴量と、第２の音声特徴量とは、ベクトルで表される音声特徴である。これにより、本開示は、安全性の高い音声認証を高速に実現することができる技術を開示する。

学習済みモデルが、深層距離学習モデルのような畳み込みニューラルネットワークであり、第１の音声特徴量と第２の音声特徴量とが、所定のＮ次元のベクトルで表される。これにより、第１の音声特徴量と第２の音声特徴量との距離を算出するという簡易な計算を採用することができるため、安全性の高い音声認証を高速に実現することができる。

なお、パスワードは、生成部により生成される場合を例に説明したが、これに限定されるものではない。パスワードを生成した端末から取得する構成としてもよい。他の実施形態においても同様である。

＜第２実施形態＞
第２実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第２実施形態では、サービスが、サービス提供者の施設をユーザに提供する場合について説明する。なお、第１実施形態と同様の構成については、同一の符号を付して説明を省略する。

（１）情報処理システム２の構成
図９は、第２実施形態の情報処理システム２の構成を示すブロック図である。

図９に示すように、情報処理システム２は、情報処理装置１０、ユーザ端末２０、ネットワーク３０、及び施設４０を含む。情報処理装置１０と、ユーザ端末２０と、施設４０とは、有線又は無線の通信規格を用いて、ネットワーク３０を介して相互に通信可能に接続されている。

施設４０は、サービス提供者によりユーザに提供される施設である。施設４０は、例えば、スポーツジム、プール、入浴施設、オフィス、宿泊施設等である。施設４０は、所定の設備に設置された情報処理装置４１と、音声入力装置４２とを含む。情報処理装置４１と、音声入力装置４２とは、有線又は無線の通信規格を用いて相互に通信可能に接続されている。所定の設備は、例えば、施設４０がスポーツジムであれば、トレーニングルーム、トレーニングマシンなどである。また、情報処理装置４１は、有線又は無線の通信規格を用いてネットワーク３０を介して、情報処理装置１０などと通信可能に接続されている。

情報処理装置４１は、例えば、ディスプレイ付きの情報処理装置である。情報処理装置４１は、以下の機能を有する。
・情報処理装置４１の前に人がいるか否かを、赤外線等を使って感知する機能。
・情報処理装置４１の前に人がいることを検知した場合、情報処理装置１０と通信することにより、パスワードを取得する機能。
・パスワードを、情報処理装置４１に接続された出力装置（例えばディスプレイ）に出力する機能。
・音声入力装置４２から取得した第２音声データを、情報処理装置１０に送信する機能。
・情報処理装置１０から、後述の許可情報を受信したことに応じて、所定の設備の解錠又はサービスを提供することに関する装置の起動を実行する機能。

音声入力装置４２は、ユーザが第２音声データを入力するための装置である。例えば、音声入力装置４２は、マイクを保有し、マイクに入力された音声を、第２音声データに変換する。音声入力装置４２は、第２音声データを情報処理装置４１に渡す。

（２）情報処理装置１０の機能

本実施形態において、第１データＤＢ１２１に格納される第１音声データは、ユーザがサービスの利用を開始する前において取得したものである。例えば、サービスがスポーツジムである場合、ユーザとサービス提供者が会員契約を締結したタイミングなどで、第１音声データを取得する。

提示部１３５は、ユーザがサービスの利用する際に、当該ユーザに、パスワードを提示する。具体的には、提示部１３５は、受信制御部１３１が、情報処理装置４１からパスワード要求を受信すると、情報処理装置４１にパスワードを送信する。これにより、提示部１３５は、施設４０内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示する。

認証部１３６は、受信制御部１３１が、情報処理装置４１から第２音声データを受信すると、第１の音声特徴量と、第２の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。認証部１３６は、ユーザ認証に成功したことに応じて、当該サービスの利用を許可する。具体的には、認証部１３６は、ユーザ認証に成功した場合、所定の設備の解錠又はサービスを提供することに関する装置の起動を実行する許可情報を、情報処理装置に送信する。

図１０は、情報処理装置１０による認証処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、情報処理装置４１からパスワード要求を受信したタイミング等において実行する。

ステップＳ５０１において、受信制御部１３１は、情報処理装置４１からパスワード要求を受信する。

ステップＳ５０３において、提示部１３５は、ユーザがサービスの利用する際に、当該ユーザに、パスワードを提示する。

ステップＳ５０６において、認証部１３６は、ユーザ認証に成功した場合、所定の設備の解錠又はサービスを提供することに関する装置の起動を実行する許可情報を、情報処理装置４１に送信し、処理を終了する。

（４）小括
本開示によれば、ユーザ認証に成功したことに応じて、前記サービスの利用を許可し、第１音声データは、ユーザがサービスの利用を開始する前において取得したものであり、ユーザがサービスの利用する際に、ユーザに、パスワードを提示する。これにより、利用シーンに応じて利便性の高い音声認証を実現することができる。例えば、本開示は、ユーザ認証を音声のみで行うことができる。このため、ユーザが手荷物などで手がふさがっている場合、物理的なキーを持ちたくない、預けたくない、若しくは渡したくない場合、物理的なキーを送りたくない若しくは複数作りたくない場合などの問題を解消することができる。また、本開示は、ユーザがパスワードを覚えなくてもよいため、ユーザにとって利便性が高い。

また、施設内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示し、設備に設置された音声入力装置を通じて、第２音声データの入力を受け付ける。そして、ユーザ認証に成功したことに応じて、設備の解錠又は前記サービスを提供することに関する装置の起動を実行する。これにより、サービス提供者が受け付けスタッフなどを配備しなくても、ユーザが設備内に入れたり、装置が起動して利用可能になったりする。このため、サービス提供者にとっても負担を減らすことができる。

＜第３実施形態＞
第３実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第３実施形態では、サービスが、宿泊施設の利用の提供である場合について説明する。なお、第１実施形態及び第２実施形態と同様の構成については、同一の符号を付して説明を省略する。

（１）情報処理システム３の構成
図１１は、第３実施形態の情報処理システム３の構成を示すブロック図である。

図１１に示すように、情報処理システム２は、情報処理装置１０、ユーザ端末２０、ネットワーク３０、宿泊施設５０、第１のサーバ６０、及び第２のサーバ７０を含む。情報処理装置１０と、ユーザ端末２０と、宿泊施設５０と、第１のサーバ６０と、第２のサーバ７０とは、有線又は無線の通信規格を用いて、ネットワーク３０を介して相互に通信可能に接続されている。

宿泊施設５０は、サービス提供者によりユーザに提供される宿泊施設である。宿泊施設５０は、例えば、ホテル、旅館などである。宿泊施設５０は、所定の設備に設置された情報処理装置４１と、音声入力装置４２とを含む。所定の設備は、例えば、宿泊施設のフロントに設置されるチェックイン端末などである。

第１のサーバ６０は、旅行代理店のサーバ、又は、旅行代理店の提供するＷｅｂシステムを実行するサーバである。なお、第１のサーバ６０は、宿泊施設のサーバ、又は宿泊施設の提供するＷｅｂシステムを実行するサーバであってもよい。以下、第１のサーバ６０が、旅行代理店のサーバである場合を例に説明する。

ユーザが旅行代理店において、少なくとも宿泊施設５０の利用を含む旅行の契約した際に、旅行代理店において、ユーザの第１音声データを取得する。例えば、旅行代理店は、旅行代理店に設置された音声入力装置により、第１音声データを取得する。そして、旅行代理店の担当者が、取得した第１音声データを、第１のサーバ６０に送信する。

第１のサーバ６０は、情報処理装置１０の要求に応じて、又は自動的に、情報処理装置１０に第１音声データと、宿泊期間に関する情報とを送信する。また、第１のサーバ６０は、第２のサーバ７０に、ユーザの情報及び宿泊施設５０の利用に関する情報を送信する。

なお、第１のサーバ６０がＷｅｂシステムである場合、第１のサーバ６０は、ユーザ端末２０から、ユーザの第１音声データを取得すればよい。

第２のサーバ７０は、宿泊施設５０の利用を管理するサーバである。具体的には、第２のサーバ７０は、ユーザのチェックイン状況などを管理する。第２のサーバ７０は、情報処理装置１０から、チェックインしたことを示す情報を受信すると、ユーザがチェックインしたことを登録する。

（２）情報処理装置１０の機能

本実施形態において、第１データＤＢ１２１に格納される第１音声データは、ユーザがサービスの利用を開始する前において取得したものである。例えば、ユーザが旅行代理店を介してサービス提供者と宿泊契約を締結したタイミングなどで、第１のサーバ６０から、第１音声データを取得する。

受信制御部１３１は、第１のサーバから、第１音声データ、宿泊期間に関する情報などを取得する。

生成部１３４は、受信した宿泊期間に有効なパスワードを生成する。

提示部１３５は、ユーザがサービスの利用する際に、宿泊施設５０内の所定の設備に設置された情報処理装置４１により、当該ユーザにパスワードを提示する。具体的には、提示部１３５は、受信制御部１３１が、情報処理装置４１からパスワード要求を受信すると、情報処理装置４１にパスワードを送信する。これにより、提示部１３５は、宿泊施設５０内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示する。

認証部１３６は、受信制御部１３１が、情報処理装置４１から第２音声データを受信すると、第１の音声特徴量と、第２の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。認証部１３６は、ユーザ認証に成功したことに応じて、ユーザ認証の認証結果を、第２のサーバに送信することにより、チェックインしたことを登録する。具体的には、認証部１３６は、ユーザ認証に成功した場合に、ユーザ認証の認証結果と、日時とを、第２のサーバ７０に送信する。これにより、認証部１３６は、第２のサーバ７０に、ユーザ認証の認証結果と、日時とを用いて、当該ユーザがチェックインしたことを登録させる。

図１２は、情報処理装置１０による認証処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、情報処理装置４１からパスワード要求を受信したタイミング等において実行する。

ステップＳ６０２において、生成部１３４は、受信した宿泊期間に有効なパスワードを生成する。

ステップＳ６０６において、認証部１３６は、ユーザ認証に成功した場合、ユーザ認証の認証結果を、第２のサーバに送信することにより、チェックインしたことを登録し、処理を終了する。

（４）小括
本開示によれば、第１のサーバから、宿泊期間に関する情報を取得し、宿泊期間に有効な前記パスワードを生成する。また、宿泊施設内の所定の設備に設置された情報処理装置により、ユーザにパスワードを提示し、当該設備に設置された音声入力装置を通じて、第２音声データの入力を受け付ける。そして、ユーザ認証に成功したことに応じて、前記ユーザ認証の認証結果を第２のサーバに送信することにより、チェックインしたことを登録する。サービスは、宿泊施設の利用の提供であり、第１音声データは、ユーザがサービスの利用を開始する前において、第１のサーバから取得したものである。第１のサーバは、宿泊施設若しくは旅行代理店のサーバ、又は、宿泊施設若しくは旅行代理店の提供するＷｅｂシステムであり、第２のサーバは、宿泊施設の利用を管理するサーバである。これにより、宿泊施設側でユーザの音声を学習する処理を行うことなく、ユーザの認証を行うことができる。また、宿泊施設が受け付けスタッフなどを配備しなくても、ユーザがチェックインすることができる。このため、サービス提供者にとっても人手不足や感染症予防対策など負担を減らすことができる。

なお、チェックインしたことを登録したことに応じて、物理的なキー、電子キー、又はパスワードを発行するようにしてもよい。具体的には、認証部１３６は、情報処理装置４１にユーザ認証の成功を送信する。情報処理装置４１は、ユーザ認証の成功を受信すると、物理的なキーを保管するロッカーを解錠、電子的なキーをユーザ端末２０に送信する、施設内の設備に必要なパスワードをユーザに提示する、などにより、ユーザにキーを提供する。また、ロッカーの解錠などにおいて、チェックインと同じ音声認証を行う構成とすれば、物理的なキーを発行せずに認証を行うことができる。

このような構成により、自動チェックインにより、宿泊施設の利用に関するキーが自動的に発行されることになる。このため、サービス提供者は、人手によるチェックイン等をする必要がなくなり、人手不足を解消することができる。また、このような構成によれば、人手を介さないため、感染病の予防を実行することができる。

また、家族・同一グループ内での施設を利用する際に物理的なキーを提供する場合、物理的なキーの保持者が限られるため、施設内での行動が、保持者の行動に左右されてしまう。しかし、本開示の技術は、各利用者にチェックイン認証成功に紐づいた開錠権限を与えることができる。このため、本開示の技術は、物理的な負担を宿泊施設及びユーザに与えず、かつ、宿泊施設内の利用者毎の行動自由度が向上することができる。また、本開示の技術は、物理的なキーの紛失や破損など物理損失のリスクを減少することができる。

また、本実施形態では、第２のサーバ７０が、チェックインしたことを示す情報を、情報処理装置１０から取得する場合を例に説明したが、これに限定されない。例えば、第２のサーバ７０は、チェックインしたことを示す情報を、宿泊施設５０のチェックインに用いる端末（例えば、情報処理装置４１）から受信してもよい。

また、本実施形態ではチェックインの場合を例に説明したが、当然チェックアウトに用いることもできる。

＜第４実施形態＞
第４実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第４実施形態では、サービス提供者によるコールセンターにおける業務である場合について説明する。サービスは、例えば、修理の受け付け、クレジットカード利用明細の照会などである。なお、第１実施形態及び第２実施形態と同様の構成については、同一の符号を付して説明を省略する。

（１）情報処理システム４の構成
図１３は、第４実施形態の情報処理システム４の構成を示すブロック図である。

図１３に示すように、情報処理システム２は、情報処理装置１０、ユーザ端末２０、ネットワーク３０、及びコールセンター８０を含む。情報処理装置１０と、ユーザ端末２０と、コールセンター８０とは、有線又は無線の通信規格を用いて、ネットワーク３０を介して相互に通信可能に接続されている。

コールセンター８０は、担当者が操作する情報処理装置８１を含んで構成される。情報処理装置８１は、以下の機能を有する。
・ユーザと通話する機能
・パスワードを、情報処理装置８１に接続された出力装置（例えばディスプレイ）に出力する機能。
・通話機能により取得した第２音声データを、情報処理装置１０に送信する機能。
・情報処理装置１０から、ユーザ認証の認証結果を受信したことを情報処理装置８１に接続された出力装置に出力する機能。

（２）情報処理装置１０の機能
生成部１３４は、会話で用いるキーワードをパスワードとして生成すると共に、当該キーワードを答えさせる質問を生成する。具体的には、生成部１３４は、電話受付担当者がユーザと会話をする際に発生するようなキーワードを生成する。生成部１３４は、例えば、当該キーワードとして、コールセンター８０において管理しているユーザの個人情報に関する情報、会話のタイミングにおける気候情報などを生成する。また、生成部１３４は、生成したキーワードを答えさせる質問を生成する。生成部１３４は、例えば、キーワードの生成方法と質問とを予め紐づけて記憶しておくことで、生成したキーワードを答えさせる質問を選択する。

例えば、生成部１３４がキーワードを生成する方法が、ユーザの生年月日に含まれるキーワードであったとする。ユーザの生年月日が、例えば、２０００年４月１日であったとする。この場合、生成部１３４が、キーワードを、ユーザの生年月日の一部である「ねんしがつ」などとして生成することとなる。そして、生成部１３４は、質問として、「生年月日をお答えください」などとして生成することとなる。

提示部１３５は、サービスを提供する者の電話受付担当者にパスワードと、キーワードを答えさせる質問とを提示する。具体的には、提示部１３５は、受信制御部１３１が、情報処理装置８１からパスワード要求を受信すると、情報処理装置８１にパスワードと質問とを送信する。これにより、提示部１３５は、情報処理装置８１により、電話受付担当者にパスワードと質問とを提示する。電話受付担当者が、質問をユーザに投げかけることにより、情報処理装置８１は、第２音声データの入力を受け付けることができる。

認証部１３６は、受信制御部１３１が、情報処理装置８１から第２音声データを受信すると、第１の音声特徴量と、第２の音声特徴量と、パスワードとを用いて、ユーザ認証を行う。そして、認証部１３６は、ユーザ認証の認証結果を、情報処理装置８１に送信する。これにより、情報処理装置８１が電話受付担当者に認証結果を表示することにより、電話受付担当者がユーザ認証を行うことができる。

図１４は、情報処理装置１０による認証処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、情報処理装置８１からパスワード要求を受信したタイミング等において実行する。

ステップＳ７０１において、受信制御部１３１は、情報処理装置８１からパスワード要求を受信する。

ステップＳ７０２において、生成部１３４は、会話で用いるキーワードをパスワードとして生成すると共に、当該キーワードを答えさせる質問を生成する。

ステップＳ７０３において、提示部１３５は、サービスを提供する者の電話受付担当者にパスワードと、キーワードを答えさせる質問とを提示する。

ステップＳ７０４において、認証部１３６は、ユーザ認証の認証結果を、情報処理装置８１に送信し、処理を終了する。

（４）小括
本開示によれば、会話で用いるキーワードをパスワードとして生成すると共に、キーワードを答えさせる質問を生成し、サービスを提供する者の電話受付担当者にパスワードと、キーワードを答えさせる質問とを提示する。そして、キーワードを答えさせる質問をすることにより、第２音声データの入力を受け付ける。これにより、コールセンターにおいて、本人情報を伝える手間を省くことができる。また、仮に本人情報が流出していたとしても、なりすましを防ぐことができる。また、ユーザに対してした質問からパスワードを導くため、ユーザに認証したことを意識させずに、ユーザ認証を行うことができる。
＜第５実施形態＞
第５実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第５実施形態では、サービスが、宅配ロッカーの利用である場合について説明する。なお、第１実施形態及び第２実施形態と同様の構成については、同一の符号を付して説明を省略する。

（１）情報処理システム５の構成
図１５は、第５実施形態の情報処理システム５の構成を示すブロック図である。

図１５に示すように、情報処理システム５は、情報処理装置１０、ユーザ端末２０、ネットワーク３０、配送担当者の端末９０、及び宅配ロッカー９１を含む。情報処理装置１０と、ユーザ端末２０と、配送担当者の端末９０とは、有線又は無線の通信規格を用いて、ネットワーク３０を介して相互に通信可能に接続されている。

配送担当者の端末９０は、配送担当者により操作される携帯端末である。配送担当者は、宅配ロッカーに荷物を入れると、端末９０に、文字列を入力する。文字列は、例えば、パスワードとして用いる文字列、荷物に関する情報の文字列などである。荷物に関する情報の文字列は、例えば、送付先の住所、送付先の電話番号、受け取り希望時間、配達日時、管理番号などである。本開示では、配送担当者が、文字列としてそのままパスワードとして用いる文字列を入力する場合を例に説明する。端末９０は、情報処理装置１０に、文字列を送信する。

宅配ロッカー９１は、情報処理装置４１と、音声入力装置４２とを含んで構成される。情報処理装置４１は、ユーザ認証の認証結果が成功である場合に、宅配ロッカー９１を解錠する機能を有する。

（２）情報処理装置１０の機能
受信制御部１３１は、配送担当者の端末９０から一時的な文字列を受信する。

生成部１３４は、受信した文字列をパスワードとして生成する。なお、文字列をそのままパスワードとして用いない場合、生成部１３４は、文字列から所定の方法でパスワードを生成する。生成部１３４は、例えば、文字列を任意の変換方式で音読可能な文字列に変換する、文字列のハッシュ値を求め、それに対応する音読可能な文字列を組み合わせるなどの方法により、パスワードを生成する。

認証部１３６は、ユーザ認証に成功したことに応じて、配送担当者により配送物を格納したロッカーを解錠する。具体的には、認証部１３６は、宅配ロッカー９１に、ユーザ認証の認証結果を送信する。

図１６は、情報処理装置１０による認証処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、任意のタイミング（例えば、ユーザが宅配ロッカー９１を操作したタイミングなど）において実行する。

ステップＳ８０２において、生成部１３４は、受信した文字列をパスワードとして生成する。

ステップＳ８０６において、認証部１３６は、宅配ロッカー９１に、ユーザ認証の認証結果を送信し、処理を終了する。

（４）小括
本開示によれば、配送担当者の端末から一時的な文字列を受信し、受信した文字列をパスワードとして生成し、ユーザ認証に成功したことに応じて、配送担当者が配送物を格納したロッカーを解錠する。これにより、配送担当者が宅配ロッカーのパスワードを設定する場合、不在票が不要となる。

また、配送物が複数ある場合、複数の宅配ロッカーを使うことがある。複数の宅配ロッカーにおいて代表となる１つのパスワードを設定することにより、１回の認証でユーザは複数の宅配ロッカーを一斉に解錠することができる。
＜第６実施形態＞
第６実施形態では、上記ユーザ認証を、サービスの利用時の認証に用いる例を説明する。第６実施形態では、一般的なロッカーにおいて音声認証を行う場合について説明する。なお、第１実施形態と同様の構成については、同一の符号を付して説明を省略する。

（１）情報処理システム６の構成
図１７は、第６実施形態の情報処理システム６の構成を示すブロック図である。

図１７に示すように、情報処理システム６は、情報処理装置１０、ユーザ端末２０、ネットワーク３０、ロッカー９４を含む。情報処理装置１０と、ユーザ端末２０と、ロッカー９４とは、有線又は無線の通信規格を用いて、ネットワーク３０を介して相互に通信可能に接続されている。

ロッカー９４は、情報処理装置４１及び音声入力装置４２と接続される。
情報処理装置４１は、更に、以下の機能を有する。
・情報処理装置１０から、解錠指示を受信したことに応じて、ロッカー９４の解錠を実行する機能。

（２）情報処理装置１０の機能
受信制御部１３１は、情報処理装置４１から、認証要求を受信する。

生成部１３４は、認証要求を受信したことに応じて、パスワードを生成する。

認証部１３６は、ユーザ認証に成功したことに応じて、ユーザが利用するロッカーの解錠を実行する。具体的には、認証部１３６は、ユーザ認証に成功した場合、情報処理装置４１に、ロッカーの解錠指示を送信する。これにより、認証部１３６は、情報処理装置４１に、解錠指示に応じてロッカーの解錠を実行させる。

図１８は、情報処理装置１０による認証処理を行う流れの一例を示すフローチャートである。情報処理装置１０は、当該処理を、情報処理装置４１からパスワード要求を受信したタイミング等において実行する。

ステップＳ９０１において、受信制御部１３１は、情報処理装置４１から、認証要求を受信する。

ステップＳ９０２において、生成部１３４は、認証要求を受信したことに応じて、パスワードを生成する。

ステップＳ９０６において、認証部１３６は、ユーザ認証に成功した場合、情報処理装置４１に、ロッカーの解錠指示を送信し、処理を終了する。

（４）小括
本開示によれば、他の端末から、認証要求を受け付け、認証要求を受け付けたことに応じて、パスワードを生成し、ユーザ認証に成功したことに応じて、ユーザが利用するロッカーの解錠を実行する。これにより、実際のキーを使わず、画像認識も行わずにロッカーを利用することができる。
例えば、温泉・プール・ジムなどで使うロッカーでは、肌露出が大きいことやプライバシーの観点から、画像認識が好ましくない場合がある。また、このようなロッカーでは、ユーザは一時的な実際のキーを常に所持せねばならず、煩わしかった。例えば、浴場内で、腕や足首にロッカーのキーを結びつけておく、などの行為をする必要があった。本開示によれば、このようなプライバシーの問題、及びユーザの煩わしさを解消することができる。

＜変形例＞
以上、開示に係る実施形態について説明したが、これらはその他の様々な形態で実施することが可能であり、種々の省略、置換及び変更を行なって実施することができる。これらの実施形態及び変形例ならびに省略、置換及び変更を行なったものは、特許請求の範囲の技術的範囲とその均等の範囲に含まれる。

例えば、生成部１３４は、他の認証が成功したことを条件として、パスワードを生成する構成としてもよい。他の認証は、例えば、従来のパスワード認証、電話番号認証などの音声認証以外の認証である。この場合、受信制御部１３１は、他の認証が成功したことを受信する。生成部１３４は、他の認証の成功したことに応じて、パスワードを生成する。このように、他の認証と組み合わせることにより、本開示の技術は更にセキュリティ強度を高めることができる。また、本開示の認証技術は、他の認証と共に２段階認証に組み込むことにより、セキュリティ強度を高めることができる。特に、スマートフォンなどの携帯端末において、指紋認証や虹彩認証と組み合わせることで、ユーザが文字列を入力すること動作を経ることなく、安全性の高い認証を行うことができる。

また、情報処理装置１０の各機能を、他の装置に構成してもよい。例えば、記憶部１２０の各ＤＢは、外部のデータベースとして構築してもよい。また、情報処理装置１０の各機能を、他の装置に構成してもよい。例えば、記憶部１２０の各ＤＢは、外部のデータベースとして構築してもよい。

＜付記＞
以上の各実施形態で説明した事項を、以下に付記する。

（付記１）プロセッサ（１２）と、メモリ（１１）とを備えるコンピュータ（例えば、情報処理装置１０）に実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出するステップ（Ｓ３０４）と、一時的なパスワードを生成するステップ（Ｓ４０２）と、前記ユーザに、前記パスワードを提示するステップ（Ｓ４０３）と、前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップ（Ｓ４０４）と、受け付けた前記第２音声データから、第２の音声特徴量を抽出するステップ（Ｓ４０５）と、前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップ（Ｓ４０５）と、を実行させ、前記第１の音声特徴量と、前記第２の音声特徴量とは、ベクトルで表される音声特徴である、プログラム。

（付記２）音声データを入力することに応じて、ユーザの音声特徴をベクトルで表す音声特徴量を出力するように予め学習された学習済みモデルを取得するステップ（Ｓ３０３）を更に実行し、前記第１の音声特徴量を抽出するステップにおいて、前記第１音声データと、前記学習済みモデルとを用いて、第１の音声特徴量を抽出し、前記第２の音声特徴量を抽出するステップにおいて、前記第２音声データと、前記学習済みモデルとを用いて、第２の音声特徴量を抽出する、（付記１）に記載のプログラム

（付記３）メル周波数ケプストラム係数を用いて、前記第１音声データを２次元ベクトルで表される第３の音声特徴量に変換するステップ（Ｓ３０２）と、メル周波数ケプストラム係数を用いて、前記第２音声データを２次元ベクトルで表される第４の音声特徴量に変換するステップ（Ｓ４６１）と、を実行させ、前記第１の音声特徴量を抽出するステップにおいて、前記第３の音声特徴量と、前記学習済みモデルとを用いて、第１の音声特徴量を抽出し、前記第２の音声特徴量を抽出するステップにおいて、前記第４の音声特徴量と、前記学習済みモデルとを用いて、第２の音声特徴量を抽出し、前記学習済みモデルは、前記２次元ベクトルを入力することにより、前記ベクトルで表す音声特徴量を出力するように予め学習される、（付記２）に記載のプログラム。

（付記４）前記第２音声データを、テキストデータに変換するステップ（Ｓ４６４）と、前記パスワードと、前記テキストデータとを用いて、パスワード認証を行うステップ（Ｓ４６５）と、前記第１の音声特徴量と前記第２の音声特徴量との距離に応じて、話者認証を行うステップ（Ｓ４６６）と、を実行させ、前記ユーザ認証を行うステップにおいて、前記パスワード認証の認証結果と、前記話者認証の認証結果とを用いて、ユーザ認証を行う、（付記１）～（付記３）の何れか１項に記載のプログラム。

前記ユーザ認証を行うステップにおいて、ユーザ認証に成功したことに応じて、前記サービスの利用を許可するステップ、を実行させ、前記第１音声データは、前記ユーザがサービスの利用を開始する前において取得したものであり、前記提示するステップにおいて、前記ユーザがサービスの利用する際に、前記ユーザに、前記パスワードを提示する、（付記１）に記載のプログラム。

前記提示するステップにおいて、施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、前記第２音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第２音声データの入力を受け付け、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記設備の解錠又は前記サービスを提供することに関する装置の起動を実行する、（付記５）に記載のプログラム。

（付記７）第１のサーバから、宿泊期間に関する情報を取得するステップと、を実行させ、前記生成するステップにおいて、前記宿泊期間に有効な前記パスワードを生成し、前記提示するステップにおいて、前記宿泊施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、前記第２音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第２音声データの入力を受け付け、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザ認証の認証結果を第２のサーバに送信することにより、チェックインしたことを登録し、前記サービスは、宿泊施設の利用の提供であり、前記第１音声データは、前記ユーザが前記サービスの利用を開始する前において、前記第１のサーバから取得したものであり、前記第１のサーバは、前記宿泊施設若しくは旅行代理店のサーバ、又は、前記宿泊施設若しくは旅行代理店の提供するＷｅｂシステムであり、前記第２のサーバは、前記宿泊施設の利用を管理するサーバである、（付記５）に記載のプログラム。

（付記８）前記チェックインしたことを登録したことに応じて、前記設備又は前記装置の解錠を行うための物理的なキー、電子キー、又はパスワードを発行するステップを実行させる（付記７）に記載のプログラム。

（付記９）前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードを提示する、（付記５）に記載のプログラム。

（付記１０）前記生成するステップにおいて、会話で用いるキーワードを前記パスワードとして生成すると共に、前記キーワードを答えさせる質問を生成し、前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードと、前記キーワードを答えさせる質問とを提示し、前記第２音声データの入力を受け付けるステップにおいて、前記キーワードを答えさせる質問をすることにより、前記第２音声データの入力を受け付ける、（付記９）に記載のプログラム。

（付記１１）配送担当者の端末から一時的な文字列を受信するステップと、前記生成するステップにおいて、受信した前記文字列を前記パスワードとして生成し、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記配送担当者により配送物を格納したロッカーを解錠する、（付記５）に記載のプログラム。

（付記１２）他の端末から、認証要求を受け付けるステップ、を実行させ、前記生成するステップにおいて、前記認証要求を受け付けたことに応じて、前記パスワードを生成し、前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザが利用するロッカーの解錠を実行する、（付記５）に記載のプログラム。

（付記１３）他の認証が成功したことを受け付けるステップ、を実行させ、前記生成するステップにおいて、前記他の認証が成功したことに応じて、前記パスワードを生成する、（付記１）に記載のプログラム。

（付記１４）プロセッサ（１２）を備える情報処理装置（１０）であって、前記プロセッサが、予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出するステップ（Ｓ３０４）と、一時的なパスワードを生成するステップ（Ｓ４０２）と、前記ユーザに、前記パスワードを提示するステップ（Ｓ４０３）と、前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップ（Ｓ４０４）と、受け付けた前記第２音声データから、第２の音声特徴量を抽出するステップ（Ｓ４０５）と、前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップ（Ｓ４０５）と、を実行し、前記第１の音声特徴量と、前記第２の音声特徴量とは、ベクトルで表される音声特徴である、情報処理装置。

（付記１５）プロセッサ（１２）を備えるコンピュータ（例えば、情報処理装置１０）が、予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出するステップ（Ｓ３０４）と、一時的なパスワードを生成するステップ（Ｓ４０２）と、前記ユーザに、前記パスワードを提示するステップ（Ｓ４０３）と、前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップ（Ｓ４０４）と、受け付けた前記第２音声データから、第２の音声特徴量を抽出するステップ（Ｓ４０５）と、前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップ（Ｓ４０５）と、を実行し、前記第１の音声特徴量と、前記第２の音声特徴量とは、ベクトルで表される音声特徴である、方法。

１情報処理システム、２情報処理システム、３情報処理システム、４情報処理システム、５情報処理システム、６情報処理システム、１０情報処理装置、１１記憶装置、１２プロセッサ、１３入出力インターフェース、１４通信インターフェース、２０ユーザ端末、２１記憶装置、２２プロセッサ、２３入出力インターフェース、２４通信インターフェース、３０ネットワーク、４０施設、４１情報処理装置、４２音声入力装置、５０宿泊施設、６０第１のサーバ、７０第２のサーバ、８０コールセンター、８１情報処理装置、９０端末、９１宅配ロッカー、９４ロッカー、１１０通信部、１２０記憶部、１３０制御部、１３１受信制御部、１３２送信制御部、１３３抽出部、１３４生成部、１３５提示部、１３６認証部。

Claims

プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、
学習用に録音した複数人の音声に基づく音声データをそれぞれケプストラム係数を用いて変換した音声特徴量を入力することに応じて、当該音声データに対応する話者がどのような音声の特徴を有するかを要素とするベクトルである音声特徴量を出力するように予め距離学習された学習済みモデルを取得するステップと、
予め登録されたユーザの第１音声データから、前記学習済みモデルを用いて第１の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップと、
受け付けた前記第２音声データから、前記学習済みモデルを用いて第２の音声特徴量を抽出するステップと、
前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
前記第２音声データを、テキストデータに変換するステップと、
前記パスワードと、前記テキストデータとを用いて、パスワード認証を行うステップと、
前記第１の音声特徴量と前記第２の音声特徴量との距離に応じて、話者認証を行うステップと
を実行させ、
前記ユーザ認証を行うステップにおいて、前記パスワード認証の認証結果と、前記話者認証の認証結果とを用いて、ユーザ認証を行う、
プログラム。
前記学習済みモデルは、敵対的ノイズを加えた学習データを用いた敵対的学習がなされている、
請求項１に記載のプログラム。
メル周波数ケプストラム係数を用いて、前記第１音声データを２次元ベクトルで表される第３の音声特徴量に変換するステップと、
メル周波数ケプストラム係数を用いて、前記第２音声データを２次元ベクトルで表される第４の音声特徴量に変換するステップと、
を実行させ、
前記第１の音声特徴量を抽出するステップにおいて、前記第３の音声特徴量と、前記学習済みモデルとを用いて、第１の音声特徴量を抽出し、
前記第２の音声特徴量を抽出するステップにおいて、前記第４の音声特徴量と、前記学習済みモデルとを用いて、第２の音声特徴量を抽出し、
前記学習済みモデルは、前記２次元ベクトルを入力することにより、前記ベクトルで表す音声特徴量を出力するように予め学習される、
請求項１に記載のプログラム。
前記ユーザ認証を行うステップにおいて、ユーザ認証に成功したことに応じて、サービスの利用を許可するステップ、
を実行させ、
前記第１音声データは、前記ユーザがサービスの利用を開始する前において取得したものであり、
前記提示するステップにおいて、前記ユーザがサービスの利用する際に、前記ユーザに、前記パスワードを提示する、
請求項１に記載のプログラム。
前記提示するステップにおいて、施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、
前記第２音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第２音声データの入力を受け付け、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記設備の解錠又は前記サービスを提供することに関する装置の起動を実行する、
請求項４に記載のプログラム。
プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、
予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップと、
受け付けた前記第２音声データから、第２の音声特徴量を抽出するステップと、
前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
前記ユーザ認証を行うステップにおいて、ユーザ認証に成功したことに応じて、サービスの利用を許可するステップと、
第１のサーバから、宿泊期間に関する情報を取得するステップと、
を実行させ、
前記第１の音声特徴量と、前記第２の音声特徴量とは、ベクトルで表される音声特徴であり、
前記第１音声データは、前記ユーザがサービスの利用を開始する前において取得したものであり、
前記提示するステップにおいて、前記ユーザがサービスの利用する際に、前記ユーザに、前記パスワードを提示し、
前記生成するステップにおいて、前記宿泊期間に有効な前記パスワードを生成し、
前記提示するステップにおいて、宿泊施設内の所定の設備に設置された情報処理装置により、前記ユーザに前記パスワードを提示し、
前記第２音声データの入力を受け付けるステップにおいて、前記設備に設置された音声入力装置を通じて、前記第２音声データの入力を受け付け、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザ認証の認証結果を第２のサーバに送信することにより、チェックインしたことを登録し、
前記サービスは、宿泊施設の利用の提供であり、
前記第１音声データは、前記ユーザが前記サービスの利用を開始する前において、前記第１のサーバから取得したものであり、
前記第１のサーバは、前記宿泊施設若しくは旅行代理店のサーバ、又は、前記宿泊施設若しくは旅行代理店の提供するＷｅｂシステムであり、
前記第２のサーバは、前記宿泊施設の利用を管理するサーバである、
プログラム。
前記チェックインしたことを登録したことに応じて、前記設備又は前記サービスを提供することに関する装置の解錠を行うための物理的なキー、電子キー、又はパスワードを発行するステップ
を実行させる請求項６に記載のプログラム。
前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードを提示する、
請求項４に記載のプログラム。
プロセッサと、メモリとを備えるコンピュータに実行させるためのプログラムであって、前記プログラムは、前記プロセッサに、
予め登録されたユーザの第１音声データから、第１の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップと、
受け付けた前記第２音声データから、第２の音声特徴量を抽出するステップと、
前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
前記ユーザ認証を行うステップにおいて、ユーザ認証に成功したことに応じて、サービスの利用を許可するステップと、
を実行させ、
前記第１の音声特徴量と、前記第２の音声特徴量とは、ベクトルで表される音声特徴であり、
前記第１音声データは、前記ユーザがサービスの利用を開始する前において取得したものであり、
前記提示するステップにおいて、前記ユーザがサービスの利用する際に、前記ユーザに、前記パスワードを提示し、
前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードを提示し、
前記生成するステップにおいて、会話で用いるキーワードを前記パスワードとして生成すると共に、前記キーワードを答えさせる質問を生成し、
前記提示するステップにおいて、前記サービスを提供する者の電話受付担当者に前記パスワードと、前記キーワードを答えさせる質問とを提示し、
前記第２音声データの入力を受け付けるステップにおいて、前記キーワードを答えさせる質問をすることにより、前記第２音声データの入力を受け付ける、
プログラム。
配送担当者の端末から一時的な文字列を受信するステップと、
前記生成するステップにおいて、受信した前記文字列を前記パスワードとして生成し、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記配送担当者により配送物を格納したロッカーを解錠する、
請求項４に記載のプログラム。
他の端末から、認証要求を受け付けるステップ、
を実行させ、
前記生成するステップにおいて、前記認証要求を受け付けたことに応じて、前記パスワードを生成し、
前記許可するステップにおいて、前記ユーザ認証に成功したことに応じて、前記ユーザが利用するロッカーの解錠を実行する、
請求項４に記載のプログラム。
他の認証が成功したことを受け付けるステップ、
を実行させ、
前記生成するステップにおいて、前記他の認証が成功したことに応じて、前記パスワードを生成する、
請求項１に記載のプログラム。
プロセッサを備える情報処理装置であって、前記プロセッサが、
学習用に録音した複数人の音声に基づく音声データをそれぞれケプストラム係数を用いて変換した音声特徴量を入力することに応じて、当該音声データに対応する話者がどのような音声の特徴を有するかを要素とするベクトルである音声特徴量を出力するように予め距離学習された学習済みモデルを取得するステップと、
予め登録されたユーザの第１音声データから、前記学習済みモデルを用いて第１の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップと、
受け付けた前記第２音声データから、前記学習済みモデルを用いて第２の音声特徴量を抽出するステップと、
前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
前記第２音声データを、テキストデータに変換するステップと、
前記パスワードと、前記テキストデータとを用いて、パスワード認証を行うステップと、
前記第１の音声特徴量と前記第２の音声特徴量との距離に応じて、話者認証を行うステップと
を実行し、
前記ユーザ認証を行うステップにおいて、前記パスワード認証の認証結果と、前記話者認証の認証結果とを用いて、ユーザ認証を行う、
情報処理装置。
プロセッサを備えるコンピュータが、
学習用に録音した複数人の音声に基づく音声データをそれぞれケプストラム係数を用いて変換した音声特徴量を入力することに応じて、当該音声データに対応する話者がどのような音声の特徴を有するかを要素とするベクトルである音声特徴量を出力するように予め距離学習された学習済みモデルを取得するステップと、
予め登録されたユーザの第１音声データから、前記学習済みモデルを用いて第１の音声特徴量を抽出するステップと、
一時的なパスワードを生成するステップと、
前記ユーザに、前記パスワードを提示するステップと、
前記ユーザが前記パスワードを読み上げた第２音声データの入力を受け付けるステップと、
受け付けた前記第２音声データから、前記学習済みモデルを用いて第２の音声特徴量を抽出するステップと、
前記第１の音声特徴量と、前記第２の音声特徴量と、前記パスワードとを用いて、ユーザ認証を行うステップと、
前記第２音声データを、テキストデータに変換するステップと、
前記パスワードと、前記テキストデータとを用いて、パスワード認証を行うステップと、
前記第１の音声特徴量と前記第２の音声特徴量との距離に応じて、話者認証を行うステップと
を実行し、
前記ユーザ認証を行うステップにおいて、前記パスワード認証の認証結果と、前記話者認証の認証結果とを用いて、ユーザ認証を行う、
方法。