JP2020154176A - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
JP2020154176A
JP2020154176A JP2019053854A JP2019053854A JP2020154176A JP 2020154176 A JP2020154176 A JP 2020154176A JP 2019053854 A JP2019053854 A JP 2019053854A JP 2019053854 A JP2019053854 A JP 2019053854A JP 2020154176 A JP2020154176 A JP 2020154176A
Authority
JP
Japan
Prior art keywords
voice
user
information
genomic
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019053854A
Other languages
English (en)
Inventor
秀仁 五味
Hidehito Gomi
秀仁 五味
昌洋 井上
Masahiro Inoue
昌洋 井上
康恵 國友
Yasue Kunitomo
康恵 國友
章人 田平
Akito Tahira
章人 田平
正太 有地
Shota Yuchi
正太 有地
智彦 大手
Tomohiko Ote
智彦 大手
悠哉 藤田
Yuya Fujita
悠哉 藤田
文紀 安藤
Fuminori Ando
文紀 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019053854A priority Critical patent/JP2020154176A/ja
Publication of JP2020154176A publication Critical patent/JP2020154176A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)

Abstract

【課題】ユーザの認証精度を向上させること。【解決手段】本願に係る情報処理装置は、第1照合部と、第2照合部と、認証部とを備える。第1照合部は、ユーザの入力音声と、予め登録されたユーザの音声である正解音声とを照合する。第2照合部は、入力音声から推定したユーザのゲノム情報に基づいて推定したユーザの音声であるゲノム音声と、予め登録されたゲノム音声である正解ゲノム音声とを照合する。認証部は、第1照合部および第2照合部それぞれの照合結果に基づいてユーザを認証する。【選択図】図3

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
従来、入力される音声に基づいて話者と特定する認証装置がある。この種の認証装置では、入力される音声を分析して特徴パラメータを抽出し、特徴パラメータに基づいて話者を特定する機械学習のモデルを生成する技術が提案されている(例えば、特許文献1参照)。
特開2003−076390号公報
しかしながら、従来技術は、音声によるユーザの認証精度を向上させる点で改善の余地があった。
本願は、上記に鑑みてなされたものであって、ユーザの認証精度を向上させることができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
本願に係る情報処理装置は、第1照合部と、第2照合部と、認証部とを備える。前記第1照合部は、ユーザの入力音声と、予め登録された前記ユーザの音声である正解音声とを照合する。前記第2照合部は、前記入力音声から推定した前記ユーザのゲノム情報に基づいて推定した前記ユーザの音声であるゲノム音声と、予め登録された前記ゲノム音声である正解ゲノム音声とを照合する。前記認証部は、前記第1照合部および前記第2照合部それぞれの照合結果に基づいて前記ユーザを認証する。
実施形態の一態様によれば、ユーザの認証精度を向上させることができるという効果を奏する。
図1Aは、実施形態に係る情報処理の一例を示す図である。 図1Bは、実施形態に係る情報処理の一例を示す図である。 図2は、実施形態に係る情報処理システムの構成を示す図である。 図3は、実施形態に係る情報処理装置の構成例を示すブロック図である。 図4は、ユーザ情報の一例を示す図である。 図5は、モデル情報の一例を示す図である。 図6は、認証情報の一例を示す図である。 図7は、実施形態に係る情報処理装置が実行するモデル生成処理の手順を示すフローチャートである。 図8は、実施形態に係る情報処理装置が実行する音声生成処理の手順を示すフローチャートである。 図9は、実施形態に係る情報処理装置が実行する認証処理の手順を示すフローチャートである。 図10は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と記載する)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
まず、図1Aおよび図1Bを用いて、実施形態に係る情報処理プログラムにより実現される情報処理の一例について説明する。図1Aおよび図1Bは、実施形態に係る情報処理の一例を示す図である。図1Aでは、ユーザから入力される音声情報に基づいて認証用音声を登録する音声登録処理を示し、図1Bでは、認証用音声を用いた認証処理を示す。
まず、図1Aを用いて、音声登録処理について説明する。具体的には、図1Aに示すように、まず、実施形態に係る情報処理装置は、ユーザから音声情報を取得する(S1)。音声情報は、マイク等により入力された音声を解析した解析結果、例えば、音声の周波数特性等の音響特徴や音素の配列に関する言語特徴等を含む情報である。なお、音声情報は、マイク等により集音された音声そのものであってもよい。
つづいて、実施形態に係る情報処理装置は、取得した音声情報を、認証用音声のうち正解音声として記憶(登録)する(S2)。
また、実施形態に係る情報処理装置は、取得した音声情報を用いて音声生成処理を実行する(S3)。具体的には、実施形態に係る情報処理装置は、ゲノムモデルおよび話者モデルを予め生成し、記憶している。
ゲノムモデルは、事前に取得した教師ユーザのゲノム情報および音声情報を用いた機械学習によって生成されるモデルであって、音声情報を入力することでユーザのゲノム特徴を示すゲノム情報を出力するモデルである。
話者モデルは、事前に取得した教師ユーザのゲノム情報および音声情報を用いた機械学習によって生成されるモデルであって、ゲノム情報を入力することでユーザの音声特徴を示す音声情報を出力するモデルである。なお、ゲノムモデルおよび話者モデルの詳細な生成方法については後述する。
音声生成処理において、実施形態に係る情報処理装置は、まず、取得したユーザの音声情報をゲノムモデルに入力して、ゲノム情報を出力するとともに、かかるゲノム情報を話者モデルに入力して音声情報を出力する。そして、実施形態に係る情報処理装置は、出力した音声情報を、認証用音声のうち正解ゲノム音声として記憶(登録)する(S4)。
つまり、実施形態に係る情報処理装置は、音声登録処理によって、特性の異なる2種類の音声を認証用音声として登録し、図1Bに示す認証処理に用いる。
次に、図1Bを用いて、認証処理について説明する。なお、図1Bに示す認証処理は、音声登録処理から所定期間が経過しているものとする。図1Bに示すように、実施形態に係る情報処理装置は、まず、認証対象となるユーザ、すなわち、認証用音声の登録が済んだユーザから音声情報を取得する(S11)。
つづいて、実施形態に係る情報処理装置は、取得した音声情報である入力音声と、予め登録された正解音声とを照合する第1照合処理を実行する(S12)。
また、実施形態に係る情報処理装置は、取得した音声情報を用いて音声生成処理を実行する(S13)。具体的には、実施形態に係る情報処理装置は、取得した音声情報をゲノムモデルに入力して、ゲノム情報を出力するとともに、かかるゲノム情報を話者モデルに入力して音声情報を出力する。そして、実施形態に係る情報処理装置は、話者モデルから出力した音声情報であるゲノム音声と、予め登録された正解ゲノム音声とを照合する第2照合処理を実行する(S14)。
つづいて、実施形態に係る情報処理装置は、第1照合処理および第2照合処理それぞれの照合結果に基づいてユーザを認証する認証処理を実行する(S15)。例えば、実施形態に係る情報処理装置は、第1照合処理の入力音声および正解音声の類似度、および、第2照合処理のゲノム音声および正解ゲノム音声の類似度それぞれが所定の閾値条件を満たした場合に、ユーザを認証する。
つまり、実施形態に係る情報処理装置は、入力音声に基づく照合と、モデルから出力された音声情報に基づく照合との2段階で認証処理を実行することで、認証精度を向上させることができる。さらに、実施形態に係る情報処理装置は、例えば、時間経過に伴いユーザの声が変化して正解音声との差異が生じた場合であっても、モデルから出力される音声情報を用いて照合処理を行うことで、認証精度が不安定となることを防止できる。
次に、図2を用いて、実施形態に係る情報処理システムのシステム構成について説明する。図2は、実施形態に係る情報処理システムの構成を示す図である。
図2に示すように、実施形態に係る情報処理システムSは、情報処理装置1と、複数の端末装置10−1〜10−nと、機関端末100とを備える。これら情報処理装置1、複数の端末装置10−1〜10−nおよび機関端末100は、ネットワークNを介して有線または無線により互いに通信可能に接続される。ネットワークNは、例えば、LAN(Local Area Network)や、インターネットなどのWAN(Wide Area Network)である。端末装置10−1〜10−nは、ユーザU−1〜U−nによって操作される。
以下においては、端末装置10−1〜10−nの各々を区別せずに示す場合、端末装置10と記載し、ユーザU−1〜U−nの各々を区別せずに示す場合、ユーザUと記載する。また、ユーザUには、上記した教師ユーザおよび対象ユーザが含まれる。
端末装置10は、ユーザUの端末装置であり、スマートフォン、タブレット型端末、PDA(Personal Digital Assistant)、パーソナルコンピュータなどのスマートデバイス(通信端末)である。端末装置10は、ブラウザや、各種のアプリケーション等が実行可能である。
端末装置10は、ブラウザやアプリケーションから、機関端末100にネットワークNを介してアクセスして、遺伝解析の解析依頼を行う。また、端末装置10は、例えば、マイク等を備え、ユーザUが発する音声を集音し、音声情報として情報処理装置1へ送信することができる。
機関端末100は、遺伝解析を行う解析機関が所有する端末装置である。機関端末100は、ネットワークNを介して、端末装置10からユーザUの解析依頼を受け付けたり、遺伝解析の結果であるゲノム情報を情報処理装置1へ送信したりする。
なお、図2では、端末装置10および情報処理装置1を別体で構成する場合を示したが、例えば、端末装置10および情報処理装置1を一体で構成し、情報処理装置1の各処理を端末装置10が実行してもよい。
次に、図3を用いて、実施形態に係る情報処理装置1の構成について説明する。図3は、実施形態に係る情報処理装置1の構成例を示すブロック図である。
図3に示すように、情報処理装置1は、通信部2と、制御部3と、記憶部4とを備える。
通信部2は、たとえば、NIC(Network Interface Card)等によって実現される。通信部2は、ネットワークNと有線または無線で接続され、ネットワークNを介して、端末装置10や機関端末100との間で情報の送受信を行う。
記憶部4は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3に示すように、記憶部4は、ユーザ情報40と、モデル情報41と、認証情報42とを記憶する。
ユーザ情報40は、ユーザUの情報であるユーザ情報を含む。図4は、ユーザ情報の一例を示す図である。ユーザ情報は、例えば、ゲノム情報や音声情報の取得時に生成される。
図4に示すように、ユーザ情報には、「ユーザID」、「属性」、「ゲノム情報」および「音声情報」といった項目を含む。
「ユーザID」は、ユーザUを識別する識別情報である。「属性」は、ユーザUの属性に関する情報であり、例えば、デモグラフィック属性や、サイコグラフィック属性を含む。「ゲノム情報」は、例えば、ユーザUの唾液等を採取して抽出されるユーザUの遺伝子に関する情報であり、例えば、ユーザUの健康リスクに関する情報や、ユーザUの体質に関する情報、ユーザUの塩基配列やアミノ酸配列等の遺伝暗号に関する情報が含まれる。なお、ゲノム情報は、他の検査機関で生成されたゲノム情報を含んでもよい。「音声情報」は、ユーザUの音声特徴を示す音声情報であり、例えば、ユーザUの入力音声を解析した解析結果や、入力音声そのものが含まれる。
次に、モデル情報41は、後述の生成部31によって生成されるモデルに関する情報である。図5は、モデル情報の一例を示す図である。図5に示すように、モデル情報には、「モデルID」、「モデル出力」および「モデル情報」といった項目が含まれる。
「モデルID」は、話者モデルを識別する識別情報である。「モデル出力」は、モデルから出力される情報を示す。「モデル情報」は、音声特徴を示す指標を出力するためのモデルの情報を示す。
図5に示す例において、モデルIDが「M1」のモデルは、ゲノム情報を出力するゲノムモデルであり、モデルIDが「M2」のモデルは、音声情報を出力する話者モデルである。
なお、モデル情報41において、モデルIDで識別される各モデルは、例えば、性別や、国籍、年齢等によって区分けされてもよく、ゲノムモデルおよび話者モデルそれぞれは
、1つのモデルであってもよい。
次に、認証情報42は、後述の第1照合部33および第2照合部34の照合処理に用いられる認証用音声を含んだ情報である。図6は、認証情報42の一例を示す図である。図6に示すように、認証情報42には、「ユーザID」、「正解音声」および「正解ゲノム音声」といった項目が含まれる。
「正解音声」は、後述の取得部30が取得する音声情報である。「正解ゲノム音声」は、後述の推定部32によって推定される音声情報である。
制御部3は、コントローラ(controller)であり、たとえば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置1内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部3は、たとえば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
制御部3は、取得部30と、生成部31と、推定部32と、第1照合部33と、第2照合部34と、認証部35とを備える。
取得部30は、ユーザUの各種情報を取得する。取得部30は、例えば、後述の生成部31にモデル作成の際には、ゲノム情報および音声情報を取得する。また、取得部30は、ゲノム情報や音声情報を取得したユーザUに関するユーザ情報である属性情報等を取得する。取得部30は、取得したゲノム情報、音声情報および属性情報等をユーザ情報40として記憶部4に記憶する。
また、取得部30は、上述した音声生成処理を行う際には、音声情報を取得し、取得した音声情報を認証情報42における「正解音声」として記憶する。また、取得部30は、上述した認証処理を行う際には、音声情報を取得し、取得した音声情報を推定部32および第1照合部33へ出力する。
生成部31は、取得部30によって取得されたユーザU(教師ユーザ)のゲノム情報および音声情報に基づいて機械学習のモデルであるゲノムおよび話者モデルを生成する。具体的には、生成部31は、教師ユーザの音声情報を教師とし、教師ユーザのゲノム情報を素性とする機械学習によって、音声特徴に関する指標を出力する話者モデルを生成する。
また、生成部31は、教師ユーザのゲノム情報を教師とし、教師ユーザの音声情報を素性とする機械学習によって、ゲノム特徴に関する指標を出力するゲノムモデルを生成する。
例えば、生成部31は、機械学習として、ニューラルネットワークを用いる場合、ゲノム情報および音声情報に基づいて、ニューラルネットワークにおける各重みを学習する。
より具体的には、生成部31は、教師ユーザの音声情報を目的変数(教師)とし、ゲノム情報およびユーザ情報から抽出される各特徴情報を説明変数(素性)とする回帰モデルを学習モデルとして求めることができる。
ゲノム情報から抽出される特徴情報には、例えば、ユーザUの音声器官の形状等に関する情報や、ユーザUの音声の周波数特性に関する情報、ユーザUの体格や体質に関する情報等がある。また、ユーザ情報から抽出される特徴情報には、ユーザUの出身地や、過去の居住地、居住期間、年齢、性別等の属性に関する情報等が含まれる。
また、話者モデルから出力される指標には、例えば、音声の周波数特性を示すスコアや、音声の抑揚を示すスコア、音声の強弱を示すスコア、音素の配列を示すスコア等が含まれる。なお、生成部31は、上記のスコア毎に話者モデルを生成してもよく、全てのスコアを総合したスコアを出力する1つの話者モデルを生成してもよい。
また、生成部31は、教師ユーザのゲノム情報を目的変数(教師)とし、音声情報およびユーザ情報から抽出される各特徴情報を説明変数(素性)とする回帰モデルを学習モデルとして求めることができる。
音声情報から抽出される特徴情報には、例えば、ユーザUの音声器官の形状等に関する情報や、ユーザUの音声の周波数特性に関する情報、ユーザUの音素の配列に関する情報等がある。また、ユーザ情報から抽出される特徴情報には、ユーザUの出身地や、過去の居住地、居住期間、年齢、性別等の属性に関する情報等が含まれる。
また、ゲノムモデルから出力される指標には、例えば、ユーザUのゲノムの型を示すスコアや、遺伝子の塩基配列や、アミノ酸配列に関するスコア等が含まれる。ゲノムの型とは、ゲノムの特徴で分類した場合の区分を示す。なお、生成部31は、上記のスコア毎にゲノムモデルを生成してもよく、全てのスコアを総合したスコアを出力する1つのゲノムモデルを生成してもよい。
なお、生成部31が用いる機械学習の学習モデルは、ニューラルネットワークに限定されるものではなく、例えば、SVM(Support Vector Machine)等の他の機械学習の学習モデルを用いてもよい。
また、生成部31は、深層学習(ディープラーニング)の技術を用いてモデルを生成することもできる。例えば、生成部31は、DNN(Deep Neural Network)やRNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いてモデルを生成することができる。
また、生成部31は、ゲノムモデルを生成後については、ゲノムモデルの更新処理を行う。具体的には、生成部31は、ゲノムモデルを用いて後述の推定部32によって推定された所定のユーザUのゲノム情報と、取得部30によって取得された当該ユーザUのゲノム情報との照合結果に基づいてゲノムモデルを更新する。
例えば、生成部31は、ニューラルネットワークにおける各重みを更新する。具体的には、生成部31は、推定部32によって推定されるゲノム情報と、取得部30によって取得されるゲノム情報との類似度が所定の閾値以上となるように、ニューラルネットワークにおける各重みを更新する。
例えば、生成部31は、ニューラルネットワークにおける各重みを更新する。具体的には、生成部31は、推定部32によって推定される音声情報と、取得部30によって取得される音声情報との類似度が所定の閾値以上となるように、ニューラルネットワークにおける各重みを更新する。
推定部32は、生成部31によって生成されたモデルを用いて、ユーザUのゲノム情報および音声情報を推定する。具体的には、推定部32は、上述した音声生成処理においては、取得部30によって取得された音声情報をゲノムモデルに入力して得られた指標をもとに、ゲノム情報を推定する。さらに、推定部32は、推定したゲノム情報を話者モデルに入力して得られた指標をもとに、ゲノム音声である音声情報を推定する。そして、推定部32は、音声生成処理において推定したゲノム音声を認証情報42の「正解ゲノム音声」として記憶する。
また、推定部32は、上述した認証処理においては、取得部30によって取得された音声情報をゲノムモデルに入力して得られた指標を元にゲノム情報を推定する。さらに、推定部32は、推定したゲノム情報を話者モデルに入力して得られた指標をもとにゲノム音声である音声情報を推定する。そして、推定部32は、認証処理において推定したゲノム音声を第2照合部34へ出力する。
第1照合部33は、ユーザUの入力音声と、予め登録されたユーザUの音声である正解音声とを照合する。具体的には、第1照合部33は、取得部30が取得した音声情報である入力音声と、記憶部4に記憶された認証情報42の正解音声とを照合する。
第1照合部33は、照合結果として、入力音声および正解音声の類似度(第1類似度)を算出する。具体的には、第1照合部33は、音声の周波数特性等の音響特徴や音素の配列に関する言語特徴等の第1類似度を算出する。
第2照合部34は、入力音声から推定したユーザUのゲノム情報に基づいて推定したユーザUの音声であるゲノム音声と、予め登録されたゲノム音声である正解ゲノム音声とを照合する。
具体的には、第2照合部34は、取得部30が取得した音声情報を基に推定部32が推定した音声情報であるゲノム音声と、記憶部4に記憶されて認証情報42の正解ゲノム音声とを照合する。
第2照合部34は、照合結果として、ゲノム音声および正解ゲノム音声の類似度(第2類似度)を算出する。具体的には、第2照合部34は、音声の周波数特性等の音響特徴や音素の配列に関する言語特徴等の第2類似度を算出する。
認証部35は、第1照合部33および第2照合部34それぞれの照合結果に基づいてユーザUを認証する。例えば、認証部35は、第1照合部33が算出した第1類似度、および、第2照合部34が算出した第2類似度それぞれが所定の閾値条件を満たす場合にユーザUを認証する。
具体的には、認証部35は、第1類似度が第1閾値以上、かつ、第2類似度が第2閾値以上の場合に、ユーザUを認証する。より具体的には、認証部35は、第1類似度が第1閾値以上、かつ、第2類似度が第1閾値よりも高い第2閾値以上の場合に、ユーザUを認証する。
すなわち、認証部35は、認証処理において、第1閾値よりも第2閾値が高くなるように閾値設定する。これは、第2類似度が、モデルから出力されたゲノム音声を元に算出されるためであり、換言すれば、ゲノム音声および正解ゲノム音声が経年によるユーザUの声の変化の影響が小さく、類似度の値が比較的高く(一致度が高く)なるためである。
なお、認証部35は、例えば、第1類似度のみが閾値条件を満たす、もしくは、第2類似度のみが閾値条件を満たす場合に、ユーザUを認証してもよい。
次に、図7〜図9を用いて、実施形態に係る情報処理装置1が実行する処理の手順について説明する。まず、図7を用いて、モデル生成処理の処理手順について説明する。
図7は、実施形態に係る情報処理装置1が実行するモデル生成処理の手順を示すフローチャートである。図7に示すように、取得部30は、教師ユーザのゲノム情報を取得する(S101)。
つづいて、取得部30は、教師ユーザの音声情報を取得する(S102)。なお、図7において、S101およびS102の処理手順は入れ替わってもよい。
つづいて、生成部31は、教師ユーザのゲノム情報および音声情報に基づいて、ゲノム特徴に関する指標を出力するゲノムモデルおよび音声特徴に関する指標を出力する話者モデルを生成する(S103)。
つづいて、生成部31は、生成したゲノムモデルおよび話者モデルをモデル情報41として記憶部4に記憶し(S104)、処理を終了する。
次に、図8を用いて、音声生成処理の処理手順について説明する。図8は、実施形態に係る情報処理装置1が実行する音声生成処理の手順を示すフローチャートである。なお、図8に示す音声生成処理は、認証用音声の登録時、および、認証処理時それぞれのタイミングで実行される。
図8に示すように、まず、取得部30は、認証対象となるユーザUの音声情報を取得する(S201)。
つづいて、推定部32は、取得した音声情報をゲノムモデルに入力して得られた指標をもとに、ゲノム情報を推定する(S202)。
つづいて、推定部32は、推定したゲノム情報を話者モデルに入力して得られた指標をもとに、ゲノム音声である音声情報を推定し(S203)、処理を終了する。
次に、図9を用いて、認証処理の処理手順について説明する。図9は、実施形態に係る情報処理装置1が実行する認証処理の手順を示すフローチャートである。
図9に示すように、取得部30は、認証処理の対象となるユーザUの音声情報を取得する(S301)。
つづいて、推定部32は、上述した音声生成処理によりゲノム音声を推定する(S302)。
つづいて、第1照合部33は、取得部30が取得した音声情報である入力音声および予め登録された正解音声の第1類似度を算出する(S303)。
つづいて、第2照合部34は、推定した音声情報であるゲノム音声および予め登録されたゲノム音声である正解ゲノム音声の第2類似度を算出する(S304)。
つづいて、認証部35は、第1類似度が第1閾値以上であるか否かを判定する(S305)。
認証部35は、第1類似度が第1閾値以上である場合(S305:Yes)、第2類似度が第2閾値以上であるか否かを判定する(S306)。
認証部35は、第2類似度が第2閾値以上である場合(S306:Yes)、ユーザU本人であると判定し(S307)、処理を終了する。
一方、認証部35は、第1類似度が第1閾値未満である場合(S305:No)、ユーザU本人ではないと判定し(S308)、処理を終了する。
また、認証部35は、第2類似度が第2閾値未満である場合(S306:No)、ユーザU本人ではないと判定し(S308)、処理を終了する。
また、上述してきた実施形態にかかる情報処理装置1は、例えば図10に示すような構成のコンピュータ200によって実現される。図10は、実施形態に係る情報処理装置1の機能を実現するコンピュータ200の一例を示すハードウェア構成図である。コンピュータ200は、CPU201、RAM202、ROM203、HDD204、通信インターフェイス(I/F)205、入出力インターフェイス(I/F)206、及びメディアインターフェイス(I/F)207を有する。
CPU201は、ROM203又はHDD204に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM203は、コンピュータ200の起動時にCPU201によって実行されるブートプログラムや、コンピュータ200のハードウェアに依存するプログラム等を格納する。
HDD204は、CPU201によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス205は、ネットワークNを介して他の機器からデータを受信してCPU201へ送り、CPU201が生成したデータを、ネットワークNを介して他の機器へ送信する。
CPU201は、入出力インターフェイス206を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU201は、入出力インターフェイス206を介して、入力装置からデータを取得する。また、CPU201は、生成したデータを、入出力インターフェイス206を介して入出力装置へ出力する。
メディアインターフェイス207は、記録媒体208に格納されたプログラム又はデータを読み取り、RAM202を介してCPU201に提供する。CPU201は、かかるプログラムを、メディアインターフェイス207を介して記録媒体208からRAM202上にロードし、ロードしたプログラムを実行する。記録媒体208は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ200が実施形態にかかる情報処理装置1として機能する場合、コンピュータ200のCPU201は、RAM202上にロードされたプログラムを実行することにより、制御部3の機能を実現する。また、HDD204には、記憶部4内のデータが格納される。コンピュータ200のCPU201は、これらのプログラムを、記録媒体208から読み取って実行するが、他の例として、他の装置から、ネットワークNを介してこれらのプログラムを取得してもよい。
上述してきたように、実施形態に係る情報処理装置1は、第1照合部33と、第2照合部34と、認証部35とを備える。第1照合部33は、ユーザUの入力音声と、予め登録されたユーザUの音声である正解音声とを照合する。第2照合部34は、入力音声から推定したユーザUのゲノム情報に基づいて推定したユーザUの音声であるゲノム音声と、予め登録されたゲノム音声である正解ゲノム音声とを照合する。認証部35は、第1照合部33および第2照合部34それぞれの照合結果に基づいてユーザUを認証する。
これにより、ユーザUの認証精度を向上させることができる。
また、上述した実施形態に係る情報処理装置1において、第1照合部33は、入力音声および正解音声の第1類似度を算出する。第2照合部34は、ゲノム音声および正解ゲノム音声の第2類似度を算出する。認証部35は、第1類似度が第1閾値以上、かつ、第2類似度が第2閾値以上の場合に、ユーザUを認証する。
これにより、第1類似度および第2類似度双方が閾値条件を満たす場合のみユーザUを認証するため、ユーザUの認証精度を向上させることができる。
また、上述した実施形態に係る情報処理装置1において、認証部35は、第1類似度が第1閾値以上、かつ、第2類似度が第1閾値よりも高い第2閾値以上の場合に、ユーザUを認証する。
これにより、第2類似度の閾値条件を厳しくできるため、ユーザUの認証精度をさらに向上させることができる。
また、上述した実施形態に係る情報処理装置1は、生成部31と、推定部32とをさらに備える。生成部31は、教師ユーザのゲノム情報を教師とし、教師ユーザの音声情報を素性とする機械学習によって、ゲノム特徴に関する指標を出力するゲノムモデル(第1モデル)と、教師ユーザの音声情報を教師とし、教師ユーザのゲノム情報を素性とする機械学習によって、音声特徴に関する指標を出力する話者モデル(第2モデル)とを生成する。推定部32は、入力音声をゲノムモデルに入力してゲノム情報を推定し、推定したゲノム情報を話者モデルに入力してゲノム音声を推定する。
これにより、ゲノム音声の推定精度を向上させることができるため、ユーザUの認証精度を向上させることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態に記載した各処理は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、推定部32は、推定手段や推定回路に読み替えることができる。
1 情報処理装置
2 通信部
3 制御部
4 記憶部
10 端末装置
30 取得部
31 生成部
32 推定部
33 第1照合部
34 第2照合部
35 認証部
100 機関端末
U ユーザ

Claims (6)

  1. ユーザの入力音声と、予め登録された前記ユーザの音声である正解音声とを照合する第1照合部と、
    前記入力音声から推定した前記ユーザのゲノム情報に基づいて推定した前記ユーザの音声であるゲノム音声と、予め登録された前記ゲノム音声である正解ゲノム音声とを照合する第2照合部と、
    前記第1照合部および前記第2照合部それぞれの照合結果に基づいて前記ユーザを認証する認証部と
    を備えることを特徴とする情報処理装置。
  2. 前記第1照合部は、
    前記入力音声および前記正解音声の第1類似度を算出し、
    前記第2照合部は、
    前記ゲノム音声および前記正解ゲノム音声の第2類似度を算出し、
    前記認証部は、
    前記第1類似度が第1閾値以上、かつ、前記第2類似度が第2閾値以上の場合に、前記ユーザを認証すること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記認証部は、
    前記第1類似度が第1閾値以上、かつ、前記第2類似度が前記第1閾値よりも高い第2閾値以上の場合に、前記ユーザを認証すること
    を特徴とする請求項2に記載の情報処理装置。
  4. 教師ユーザのゲノム情報を教師とし、前記教師ユーザの音声情報を素性とする機械学習によって、ゲノム特徴に関する指標を出力する第1モデルと、
    前記教師ユーザの音声情報を教師とし、前記教師ユーザのゲノム情報を素性とする機械学習によって、音声特徴に関する指標を出力する第2モデルと、
    を生成する生成部と、
    前記入力音声を前記第1モデルに入力して前記ゲノム情報を推定し、推定した当該ゲノム情報を前記第2モデルに入力して前記ゲノム音声を推定する推定部とをさらに備えること
    を特徴とする請求項1〜3のいずれか1つに記載の情報処理装置。
  5. コンピュータが実行する情報処理方法であって、
    ユーザの入力音声と、予め登録された前記ユーザの音声である正解音声とを照合する第1照合工程と、
    前記入力音声から推定した前記ユーザのゲノム情報に基づいて推定した前記ユーザの音声であるゲノム音声と、予め登録された前記ゲノム音声である正解ゲノム音声とを照合する第2照合工程と、
    前記第1照合工程および前記第2照合工程それぞれの照合結果に基づいて前記ユーザを認証する認証工程と
    を含むことを特徴とする情報処理方法。
  6. ユーザの入力音声と、予め登録された前記ユーザの音声である正解音声とを照合する第1照合手順と、
    前記入力音声から推定した前記ユーザのゲノム情報に基づいて推定した前記ユーザの音声であるゲノム音声と、予め登録された前記ゲノム音声である正解ゲノム音声とを照合する第2照合手順と、
    前記第1照合手順および前記第2照合手順それぞれの照合結果に基づいて前記ユーザを認証する認証手順と
    をコンピュータに実行させることを特徴とする情報処理プログラム。
JP2019053854A 2019-03-20 2019-03-20 情報処理装置、情報処理方法および情報処理プログラム Pending JP2020154176A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019053854A JP2020154176A (ja) 2019-03-20 2019-03-20 情報処理装置、情報処理方法および情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019053854A JP2020154176A (ja) 2019-03-20 2019-03-20 情報処理装置、情報処理方法および情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2020154176A true JP2020154176A (ja) 2020-09-24

Family

ID=72558843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019053854A Pending JP2020154176A (ja) 2019-03-20 2019-03-20 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
JP (1) JP2020154176A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331801A (ja) * 2000-03-15 2001-11-30 Cai Kk 個人認証装置および個人認証方法および記録媒体
JP2006293644A (ja) * 2005-04-08 2006-10-26 Canon Inc 情報処理装置、情報処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331801A (ja) * 2000-03-15 2001-11-30 Cai Kk 個人認証装置および個人認証方法および記録媒体
JP2006293644A (ja) * 2005-04-08 2006-10-26 Canon Inc 情報処理装置、情報処理方法

Similar Documents

Publication Publication Date Title
KR102239129B1 (ko) 심층신경망을 이용하는 종단 간 화자 인식
JP7014100B2 (ja) 拡張装置、拡張方法及び拡張プログラム
WO2017215558A1 (zh) 一种声纹识别方法和装置
JP6429945B2 (ja) 音声データを処理するための方法及び装置
JP6682523B2 (ja) 声紋認証処理方法及び装置
EP3673398B1 (en) Secure authorization for access to private data in virtual reality
US10699716B2 (en) Artificial intelligence-based method and device for voiceprint authentication
Das et al. Development of multi-level speech based person authentication system
KR102226939B1 (ko) 유효 데이터 추출 성능이 향상된 인공지능 모델을 이용한 사용자 매칭 방법, 장치 및 컴퓨터프로그램
KR102226938B1 (ko) 인공지능 모델을 이용하여 사용자 간의 최적화된 매칭을 위한 유효 데이터 추출 방법, 장치 및 컴퓨터프로그램
CN108021934B (zh) 多要素识别的方法及装置
JPWO2014112375A1 (ja) 話者識別装置、話者識別方法、および話者識別用プログラム
KR20210050884A (ko) 화자 인식을 위한 등록 방법 및 장치
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN110648671A (zh) 声纹模型重建方法、终端、装置及可读存储介质
US11195534B1 (en) Permissioning for natural language processing systems
JP6280068B2 (ja) パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
US20190074004A1 (en) Information processing device, information processing method, and non-transitory computer readable storage medium
JP2020154176A (ja) 情報処理装置、情報処理方法および情報処理プログラム
US20230062127A1 (en) Method for collaborative knowledge base development
JP7278340B2 (ja) 決定装置、決定方法、及び決定プログラム
JP2020154180A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2020154178A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2020154179A (ja) 情報処理装置、情報処理方法および情報処理プログラム
Folorunso et al. Laughter signature, a new approach to gender recognition

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211007

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220603

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220603

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220614

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220621

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220902

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220906

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221004

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221122

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230104

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20230131

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20230131