JP7487668B2 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP7487668B2
JP7487668B2 JP2020572092A JP2020572092A JP7487668B2 JP 7487668 B2 JP7487668 B2 JP 7487668B2 JP 2020572092 A JP2020572092 A JP 2020572092A JP 2020572092 A JP2020572092 A JP 2020572092A JP 7487668 B2 JP7487668 B2 JP 7487668B2
Authority
JP
Japan
Prior art keywords
utterance
authentication
control unit
word
challenge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020572092A
Other languages
English (en)
Other versions
JPWO2020166173A1 (ja
Inventor
広 岩瀬
祐平 滝
邦仁 澤井
真里 斎藤
真一 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020166173A1 publication Critical patent/JPWO2020166173A1/ja
Application granted granted Critical
Publication of JP7487668B2 publication Critical patent/JP7487668B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2103Challenge-response

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、情報処理装置及び情報処理方法に関する。
一般的に、ユーザの認証は、識別情報およびパスワードを入力する方法により実行される場合が多い。しかし、近年、上記方法の代替として、ユーザの音声に基づく音声認証を行う技術が開発されている。例えば、特許文献1には、ユーザが発話した音声の音響情報およびユーザが予め登録した発話フレーズの特徴量に基づいて、音声認証処理を実行する技術が開示されている。
特開2014-182270号公報
ところで、ユーザが所定のフレーズを発話したか否かに基づく音声認証の場合、音声認証の際にユーザの近くに他者が存在すると、当該他者に音声認証に係る発話が聞こえる可能性がある。
しかし、一方で、セキュリティ性を考慮して、装置の発話音量を下げたり、また音声認証に係る情報を一部読み上げなかったりする場合、ユーザによる音声認証に係る情報の聞き逃しや見落としが発生する可能性がある。しかし、特許文献1では、上記のようなセキュリティ強度の変化に基づくアクセシビリティの変化については考慮されていない。
本開示によれば、ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、を備え、前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有し、前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、情報処理装置が提供される。
また、本開示によれば、ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、を含み、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有し、前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、情報処理方法が提供される。
本実施形態に係るシステム構成例について説明するための図である。 同実施形態に係る情報処理端末10の機能構成の一例について説明するための図である。 同実施形態に係る認証対話制御部106による音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106による認識された他者の数に基づく音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。 同実施形態に係る認証対話制御部106による他者の数に基づいて数が決定されるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106による他者が認識されなかった場合の音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるユーザ個人データを用いた音声認証処理の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定および否定判定の一例について説明するための図である。 同実施形態に係る認証対話制御部106によるチャレンジ発話CSの出力およびレスポンス発話RSに基づく音声認証に係る処理の動作の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるチャレンジ発話文CSSの生成処理の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるハッシュ種ワードの決定処理の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明するための図である。 同実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明するための図である。 本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.背景
2.実施形態
2.1.システム構成例
2.2.情報処理端末10の機能構成例
2.3.具体例
2.3.1.対話制御例1
2.3.2.対話制御例2
2.3.3.対話制御例3
2.3.4.対話制御例4
2.3.5.対話制御例5
2.3.6.肯定否定判定例
2.4.動作例
2.4.1.音声認証対話動作例
2.4.2.チャレンジ発話文CSSの生成例
2.4.3.ハッシュ種ワードの決定例
2.4.4.フェイク発話FCSを含む音声認証処理例
3.ハードウェア構成例
4.まとめ
<1.背景>
まず、本開示に係る背景について説明する。近年、ユーザUの音声発話に基づいて音声認証処理を実行する装置が開発されている。ここでの音声認証処理とは、ユーザが所定のフレーズを発話したか否かに基づく認証処理をいう。
音声認証は種々の用途で使用される。例えば、音声認証は、インターネット上のサービスを利用する際の識別情報とパスワードの入力によるユーザ認証の代替手段として使用され得る。また、音声認証は、ユーザUが識別情報やパスワードを失念した場合の代わりの認証手段として使用され得る。他にも、2段階認証における追加の認証の手段として使用される。また、視覚に障害を有するユーザがインターネット上のサービスを利用する際の本人確認にも使用され得る。
ところで、音声認証の際に、ユーザUの発話が聞こえる場所に他者が存在すると、当該他者がユーザUの発話音声を聞くことにより、ユーザUの所定のフレーズ等が他者に知られてしまう可能性がある。また、視覚に障害を有するユーザUの認証において、装置が認証処理に係る情報を読み上げる際に他者がユーザUの近くに存在する場合でも、他者がユーザUの発話を聞くことにより、認証処理に係る情報が他者に知られてしまう可能性がある。
一方で、セキュリティ強度を上げるために、装置の発話音声の音量を小さくしたり、また装置が一部の音声認証に係る情報を読み上げなかったりする場合、ユーザUは必要な情報を聞き落としたり見落としたりする可能性が想定される。
本開示に係る技術思想は上記の点に鑑みて発想されたものであり、ユーザUの状況に基づいて決定されたセキュリティ強度で音声認証処理を実行する機能を有する。係る機能によれば、ユーザUに余計な負荷をかけない、かつ、十分なセキュリティ性を確保した音声認証処理を実行することが可能となる。
<2.実施形態>
<<2.1.システム構成例>>
まず、図1を参照して、本実施形態に係るシステム構成例について説明する。図1は、本実施形態に係るシステム構成例について説明するための図である。情報処理システムは、情報処理端末10、情報処理サーバ20、およびネットワーク30を備える。
(情報処理端末10)
情報処理端末10は、ユーザとの対話を制御し、当該対話におけるユーザの発話に基づく音声認証処理を実行する情報処理装置である。具体的には、情報処理端末10は、チャレンジ発話CSをユーザに出力し、当該チャレンジ発話CSに対するユーザからのレスポンス発話RSに基づいて音声認証処理を実行する。ここで、チャレンジ発話CSは、情報処理端末10による音声認証処理の際に出力される発話である。情報処理端末10は、チャレンジ発話CSに係るチャレンジ発話文CSSの生成を、情報処理端末10自身で実行してもよいし、または後述する情報処理サーバ20に依頼してもよい。情報処理端末10による音声認証処理の詳細については後述する。
なお、情報処理端末10は、例えば、スマートフォン、タブレット、PC(Personal Computer)、スマートスピーカ、ウェアラブル装置、ヒアラブル装置などであってもよい。また、情報処理端末10は、据え置き型または自律移動型の専用端末であってもよい。例えば、情報処理端末10は、ATM(Automatic Teller Machine)やデジタルサイネージ装置などであってもよい。
(情報処理サーバ20)
情報処理サーバ20は、情報処理端末10からの依頼に基づいて音声認証処理に係る発話文を生成する。音声認証処理に係る発話文は、例えばチャレンジ発話CSに対応するチャレンジ発話文CSSである。例えば、情報処理サーバ20は、汎用の雑談対話サービスの提供が可能なサーバであってよい。
(ネットワーク30)
ネットワーク30は、情報処理端末10と情報処理サーバ20との間での情報の有線、または無線の伝送路である。例えば、ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図1を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの機能構成は係る例に限定されない。本実施形態に係る情報処理システムの機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<2.2.情報処理端末10の機能構成例>>
続いて、本実施形態に係る情報処理端末10の機能構成の一例について説明する。図2は、本実施形態に係る情報処理端末10の機能構成の一例について説明するための図である。情報処理端末10は、音声入力部101、音声認識部102、自然言語処理部103、画像入力部104、画像認識部105、認証対話制御部106、音声合成部107、音声出力部108、記憶部109、および通信部110を備える。
(音声入力部101)
音声入力部101は、ユーザによる発話などの音情報を収集する機能を有する。音声入力部101が収集する音情報は、後述する音声認識部102による認識処理に使用される。音声入力部101は、音情報を収集するためのマイクロフォンを備える。
(音声認識部102)
音声認識部102は、音声入力部101が収集したユーザの発話に基づく自動音声認識処理を行い、認識結果として発話文を生成する機能を有する。
(自然言語処理部103)
自然言語処理部103は、音声認識部102による自動音声認識処理の結果に対する自然言語理解処理を行い、解析結果として、発話の意図やワードの属性、概念などを音声認識部102が生成した発話文に付与する処理を実行する機能を有する。具体的には、自然言語処理部103は、音声認識部102が認識した発話文に対し、発話意図理解(NLU;Natural Language Understanding)処理による発話の意図や、形態素解析処理による発話文が含むそれぞれのワードの属性および単語意味概念辞書の参照によるそれぞれのワードの意味概念の抽出などを行う。自然言語処理部103による自然言語処理の結果は、後述する認証対話制御部106による音声認証処理に使用される。
(画像入力部104)
画像入力部104は、ユーザや周囲状況の画像を撮像する機能を有する。画像入力部104が撮像した画像は、後述する画像認識部105によるユーザ認識や周囲状況の認識に用いられる。本実施形態に係る画像入力部104は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
(画像認識部105)
画像認識部105は、画像入力部104が撮像した画像に基づく種々の認識処理を行う機能を有する。本実施形態に係る画像認識部105は、例えば、上記の画像からユーザや周辺状況などを認識することができる。ここで、周囲状況は、例えばユーザUと同じ場にいる他者APなどである。画像認識部105による認識処理の結果は、認証対話制御部106による音声認証処理に使用される。
(認証対話制御部106)
認証対話制御部106は、ユーザとの対話を制御し、当該対話におけるユーザの発話に基づく音声認証処理を実行する機能を有する。具体的には、認証対話制御部106は、チャレンジ発話文CSSを生成して、チャレンジ発話CSとして音声出力部108に出力させ、出力したチャレンジ発話CSに対するユーザからのレスポンス発話RSに基づいて音声認証処理を実行する。なお、以下、チャレンジ発話CSおよびレスポンス発話RSに基づく音声認証を音声認証対話とも称する。
さらに具体的には、認証対話制御部106は、音声認証処理として、音声出力部108に出力させたチャレンジ発話CSに対するユーザからのレスポンス発話RSに基づいて自然言語処理部103が解析したレスポンス発話文RSSが、ハッシュ値ワードを含むか否かの判定を行う。認証対話制御部106は、レスポンス発話文RSSがハッシュ値ワードを含む場合、音声認証の成功と判断する。
チャレンジ発話文CSSは、ユーザUと対話が可能な文の発話であり得る。一方で、チャレンジ発話文CSSは、単語の羅列でもよい。
チャレンジ発話CSは、予め規定されたハッシュ種ワードを含む。ハッシュ種ワードは、予め規定された複数のワードのうちから決定されてよい。ここで、ハッシュ値ワードは、ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有するワードである。
ここで、ワード関係ルールとは、ハッシュ種ワードとハッシュ値ワードとの間の予め規定された所定の関係をいう。ワード関係ルールは、例えば、ハッシュ種ワードの所定番目の文字もしくは音節が、ハッシュ値ワードの所定番目の文字もしくは音節と同じであることなどである。ワード関係ルールは、例えばハッシュ種ワードおよびハッシュ値ワードの文字数が同じであること(もしくはハッシュ値ワードがハッシュ種ワードと比較して文字数が所定数異なること)などである。また、ワード変換ルールは、例えばハッシュ種ワードおよびハッシュ値ワードの最初もしくは最後の母音もしくは子音が同じであることである。
また、ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有してよく、ハッシュ値ワードは、予め規定された所定の属性であり、かつ、ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有してよい。ハッシュ種属性およびハッシュ値属性は、それぞれ所定のハッシュ種ワード、所定のハッシュ値ワードが備える性質や特徴を表す属性である。
以下、具体例について、ハッシュ種属性を例に挙げて説明する。なお、ハッシュ値属性についても同様である。例えば、ハッシュ種属性は、ハッシュ種ワードの上位概念である。ハッシュ種属性がハッシュ種ワードの上位概念である場合、例えば、ハッシュ種ワード「apple」のハッシュ種属性は「食べ物」であり、また、ハッシュ種ワード「dog」のハッシュ種属性は「動物」である。
他にも、ハッシュ種属性は、例えばハッシュ種ワードの品詞である。ハッシュ種属性がハッシュ種ワードの品詞である場合、例えば、ハッシュ種ワード「cute」のハッシュ種属性は「形容詞」であり、また、ハッシュ種ワード「after」のハッシュ種属性は「接続詞」である。
ハッシュ種属性の他の例は、地名や人名、(映画や音楽、キャラクタなどの)コンテンツ名であることや、カタカナ語や外来語であること、所定文字から始まることなどである。また、ハッシュ種属性は、例えば、ユーザの個人データでもよい。ユーザの個人データは、例えば後述する記憶部109が記憶するユーザの連絡先リストや予定表などである。なお、認証対話制御部106は、ハッシュ種属性およびハッシュ値属性を考慮せずに、レスポンス発話文RSSがワード関係ルールに則しているか否かに基づいて音声認証処理を実行してもよい。
認証対話制御部106は、ユーザUにより予め規定されたハッシュ種属性を有するハッシュ種ワードを含むチャレンジ発話文CSSを生成し、チャレンジ発話CSとして音声出力部108に出力させてよい。また、認証対話制御部106は、ユーザからのレスポンス発話RSに基づいて自然言語処理部103により解析されたレスポンス発話文RSSが、ハッシュ値属性を有し、かつ、ハッシュ種ワードとの間でワード関係ルールに則するハッシュ値ワードを含むか否かの判定を行い、当該ハッシュ値ワードを含む場合、音声認証の成功と判断してよい。
認証対話制御部106は、上記の判定において、まず、レスポンス発話文RSSがハッシュ値属性を有するワードが含むか否かの判定を行い、次に、認証対話制御部106は、レスポンス発話文RSSがハッシュ値属性を有するワードを含む場合に、当該ワードにワード関係ルールを満たすワードが存在するか否かに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むか否かを判定してもよい。
認証対話制御部106による音声認証対話は、例えば、情報処理端末10がユーザUからの音声認証開始発話USSを検出することにより開始される。ここで、音声認証開始発話USSは、所定のフレーズの発話である。なお、音声認証対話は、情報処理端末10によるユーザUの検出に基づいて開始されてもよい。例えば、認証対話制御部106は、画像認識部105がユーザUを認識した場合、「おはよう」などの音声認証開始発話USSを音声出力部108に出力させて音声認証対話を開始してもよい。
認証対話制御部106は、上述した音声認証以外に、声質認証やジェスチャ等の他の認証と組み合わせてもよい。例えば、認証対話制御部106は、音声認証と他の認証とが共に成功した場合に、ユーザ認証が成功したと判断してもよい。あるいは、認証対話制御部106は、他の認証に対する代替の認証方法として上述した音声認証を実行してもよい。
上述したハッシュ種属性、ハッシュ値属性、およびワード関係ルールの組み合わせは、ユーザUにより予め複数規定されてもよい。例えば、認証対話制御部106は、音声認証に失敗した場合、他のハッシュ種属性、ハッシュ値属性、およびワード関係ルールの組み合わせにより再び音声認証を行ってもよい。
なお、認証対話制御部106は、勿論、チャレンジ発話CS以外の発話を行うこともできる。例えば、認証対話制御部106は、ユーザUと雑談を行うための発話を行ってもよい。認証対話制御部106による音声認証処理の具体例については後述する。
(音声合成部107)
音声合成部107は、認証対話制御部106による制御に基づいて、音声合成を行う機能を有する。
(音声出力部108)
音声出力部108は、認証対話制御部106による制御に基づいて、音声を含む種々の音を出力する機能を有する。音声出力部108は、例えば、チャレンジ発話CSなどの音声認証に係る発話を出力する。音声出力部108は、例えばスピーカやアンプなどの音声出力装置を備える。
(記憶部109)
記憶部109は、認証対話制御部106による音声認証処理に係る情報を記憶する機能を有する。音声認証処理に係る情報としては、例えば、音声認証に使用されるユーザ個人データやチャレンジ発話文CSSの生成の際に使用されるハッシュ種ワードデータベースなどが挙げられる。ユーザ個人データは、例えばユーザUの予定表に記入されている場所および対応する日付やユーザUの連絡先リストの苗字および名前などの、他者APが把握する可能性が低い情報である。
(通信部110)
通信部110は、認証対話制御部106による制御に基づいて、情報処理サーバ20との通信を実行する機能を有する。具体的には、通信部110は、発話文の生成の依頼する情報を情報処理サーバ20に送信し、生成された発話文を情報処理サーバ20から受信する。
以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<2.3.具体例>>
[2.3.1.対話制御例1]
続いて、図3~図11を参照して、本実施形態に係る認証対話制御部106による対話制御の具体例について説明する。上述したように、認証対話制御部106は、画像認識部105が認識した他者の存在に基づいて、音声認証処理のセキュリティ強度を決定する。ここでいうセキュリティ強度とは、認証対話制御部106による音声認証の方法が他者に把握されることの困難さをいう。以下、認証対話制御部106による他者の存在に基づく音声認証処理の例について説明する。
図3は、本実施形態に係る認証対話制御部106による音声認証処理の一例について説明するための図である。図3には、音声認証対象のユーザU1、他者AP1、および情報処理端末10が示されている。
図3の一例において、情報処理端末10は、ハッシュ種属性が「食べ物」であり、ハッシュ値属性が「動物」であり、ワード関係ルールが「ハッシュ種ワードおよびハッシュ値ワードの1番目の文字が同じ」であることがユーザU1により規定されている。従って、図3の一例におけるハッシュ値ワードは、属性が「食べ物」であるハッシュ種ワードの1番目の文字と、1番目の文字が同じであり属性が「動物」であるワードである。なお、図4以降で示される具体例についても、特別に言及されない限り、同様のハッシュ種属性、ハッシュ値属性、およびワード関係ルールが規定されているものとして説明する。
まず、ユーザUは、音声認証を開始する音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザの音声認証開始発話USSに基づいて、音声認証処理を開始する。次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105が他者を認識する。次に、認証対話制御部106は、画像認識部105が認識した他者AP1の存在に基づいて属性が「食べ物」である「sandwiches」を含むチャレンジ発話文CSS1を生成し、チャレンジ発話CS1を音声出力部108に出力させる。
次に、ユーザU1は、チャレンジ発話CS1に基づいて「seals」を含むレスポンス発話RS1を行う。ここで、「seals」は、ユーザU1がチャレンジ発話CS1で聞いた「sandwiches」の単語に基づいて発話した単語である。認証対話制御部106は、ユーザU1によるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」であり、かつ1番目の文字が「s」である「seals」を検出する。
次に、認証対話制御部106は、「seals」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、チャレンジ発話CSおよびレスポンス発話RSを用いて音声認証処理を行うことで、同じ場に存在する他者による音声認証情報の把握を困難とすることが可能となる。
以上、他者が存在する場合の認証対話制御部106による音声認証対話制御の一例である。ところで、例えば、ユーザUと同じ場にいる他者の数が多くなるに従って、音声認証情報が他者に把握される可能性が高くなる状況が想定される。つまり、ユーザUと同じ場にいる他者の数が多くなるに従って、音声認証処理のセキュリティ強度をより高くする必要がある。従って、認証対話制御部106は、画像認識部105が他者の存在を認識した場合、認識された他者の数に基づいて、生成するチャレンジ発話文CSSの長さを決定してよい。具体的には、認証対話制御部106は、認識された他者の数が多くなるに従って生成するチャレンジ発話文CSSを長くしてよい。
ここで、図4を参照して、認証対話制御部106による認識された他者の数に基づく音声認証処理の一例について説明する。図4は、本実施形態に係る認証対話制御部106による認識された他者の数に基づく音声認証処理の一例について説明するための図である。図4には、音声認証対象のユーザU1、他者AP2、AP3、および情報処理端末10が示されている。
まず、ユーザU1は、音声認証を開始する音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザU1の音声認証開始発話USSに基づいて、音声認証処理を開始する。次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105が他者AP2、AP3の存在を認識する。ここで、認証対話制御部106は、他者APの数が2人であること(図3に示された1人よりも多いこと)を認識する。
次に、認証対話制御部106は、画像認識部105が認識した他者AP2、AP3の存在に基づいて、ハッシュ種ワード「sandwiches」を含むチャレンジ発話文CSS2を生成し、チャレンジ発話CS2として音声出力部108に出力させる。ここで、チャレンジ発話文CSS2は、図3で説明したチャレンジ発話文CSS1よりも長い発話文である。
次に、ユーザU1は、チャレンジ発話CS2に基づいて「seals」を含むレスポンス発話文RSS2のレスポンス発話RS2を行う。認証対話制御部106は、ユーザU1によるレスポンス発話RS2から認識されたレスポンス発話文RSS2から自然言語処理部103が解析したレスポンス発話文RSS2から属性が「動物」である「seals」を検出する。
次に、認証対話制御部106は、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、生成されるチャレンジ発話文CSSを長くすることで、他者の数が多くなり音声認証情報が把握される可能性が高くなる状況でもセキュリティ性を保ったまま音声認証を行うことが可能となる。また、ユーザUがチャレンジ発話CSを聞くことで、同じ場にいる他者の数を把握することも可能となる。
[2.3.2.対話制御例2]
上記ではユーザUと同じ場に他者が存在する場合、他者の数に応じて生成されるチャレンジ発話文CSSの長さが変更される例について説明した。ところで、以前の音声認証時にもユーザUと同じ場にいた他者が存在する場合、当該他者が以前のユーザUと情報処理端末10との対話も含めて音声認証情報を推定する可能性がある。他にも、認証対話制御部106は、上記と同様の場合、音声認証対話の際にチャレンジ発話CS以外にフェイク発話FCSを音声出力部108に出力させてもよい。チャレンジ発話CSとフェイク発話FCSとを混ぜることで、他者が音声認証情報を推測することがより困難となる。ここで、フェイク発話FCSとは、対応するフェイク発話文FCSSがハッシュ種ワードを含まない発話をいう。
ここで、図5を参照して、認証対話制御部106によるフェイク発話FCSを含む音声認証対話制御の一例について説明する。図5は、本実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。図5には、音声認証対象のユーザU1、他者AP1、AP4、および情報処理端末10が示されている。ここで、他者AP1は、以前のユーザU1の音声認証処理時に同じ場にいた他者である。
認証対話制御部106は、例えば以前の音声認証処理時にユーザUと同じ場で認識されていた他者AP1が存在する場合、チャレンジ発話文CSSの他に、少なくとも1のフェイク発話文FCSSを生成し、フェイク発話FCSとして音声出力部108に出力させてよい。認証対話制御部106は、出力されたフェイク発話FCSに対するユーザUからのフェイクレスポンス発話FRSを認識したことに基づいて、次のフェイク発話FCSまたはチャレンジ発話CSを音声出力部108に出力させる。なお、フェイク発話文FCSSは、レスポンス発話文RSSや他のフェイク発話文FCSSに対するユーザUからのフェイクレスポンス発話FRSと自然に繋がるような発話文であってよい。
以下、図5の一例について説明する。まず、ユーザU1は、音声認証を開始する音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザU1の音声認証開始発話USSに基づいて、音声認証処理を開始する。
次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105が以前のユーザU1の音声認証処理時に同じ場にいた他者AP1を含む他者の存在を認識する。次に、認証対話制御部106は、フェイク発話文FCSS1を生成し、フェイク発話FCS1として音声出力部108に出力させる。次に、ユーザU1は、フェイク発話FCS1に基づいてフェイクレスポンス発話文FRSS1を発話するフェイクレスポンス発話FRS1を行う。
次に、認証対話制御部106は、ユーザU1からのフェイクレスポンス発話FRS1に基づいて、ハッシュ種ワード「tunas」を含むチャレンジ発話文CSS3を生成し、チャレンジ発話CS3として音声出力部108に出力させる。ユーザU1は、チャレンジ発話CS3に基づいて「tigers」を含むレスポンス発話RS3を行う。認証対話制御部106は、レスポンス発話RS3に基づいて認識されたレスポンス発話文RSS3からハッシュ値属性「動物」を有し、かつ、ワード変換ルールに則する「tigers」を検出する。認証対話制御部106は、「tigers」を検出したことに基づいて、レスポンス発話文RSS3がハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。
次に、認証対話制御部106は、フェイク発話文FCSS2を生成し、フェイク発話FCS2として音声出力部108に出力させる。次に、ユーザUは、フェイク発話FCS2に基づいてフェイクレスポンス発話文FRSS2を発話するフェイクレスポンス発話FRS2を行う。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、チャレンジ発話CS以外にフェイク発話FCSを用いて音声認証処理を行うことで、ユーザUと情報処理端末10との対話においていずれの発話で音声認証を行っているかの判別を困難にすることが可能となる。
なお、認証対話制御部106は、以前の音声認証時にユーザUと同じ場にいた他者が存在する場合、当該音声認証処理において使用されたワードとは異なるワードをハッシュ種ワードとしてチャレンジ発話文CSSを生成してもよい。このように、以前の音声認証処理時とは異なるワードをハッシュ種ワードとすることで、チャレンジ発話CSにおける同じワードの出現からの音声認証情報の推測を防止することが可能となる。
上記では認証対話制御部106は、認識された他者APの数に基づいて生成するチャレンジ発話文CSSの長さを決定する例について説明した。同様に、認証対話制御部106は、画像認識部105が認識した他者APの数に基づいて生成するフェイク発話文FCSSの数、すなわち音声出力部108に出力させるフェイク発話FCSの数を決定してもよい。
ここで、図6を参照して、認証対話制御部106による他者APの数に基づいて数が決定されるフェイク発話FCSを含む音声認証対話制御の一例について説明する。図6は、本実施形態に係る認証対話制御部106による他者の数に基づいて数が決定されるフェイク発話FCSを含む音声認証対話制御の一例について説明するための図である。図6には、音声認証対象のユーザU、他者AP1、AP4、AP5および情報処理端末10が示されている。ここで、他者AP1は、図5と同様に、以前のユーザU1の音声認証処理時に同じ場にいた他者である。
図6の一例において、ユーザU1の音声認証開始発話USSからフェイクレスポンス発話FRS2までは図5に示された発話と同様であるが、一方で、フェイクレスポンス発話FRS2の後に、認証対話制御部106は、フェイク発話FCS3を行う。ユーザUは、フェイク発話FCS3に基づいてフェイクレスポンス発話FRS3を行う。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、認識された他者APの数に基づいてフェイク発話FCSの数を決定することで、いずれの発話で音声認証を行っているかの判別をより困難にすることが可能となる。
以上、フェイク発話FCSを含む認証対話の例を説明した。図5および図6において、以前の音声認証時にユーザUと同じ場にいた他者が認識された場合について説明したが、勿論、認証対話制御部106は、以前の音声認証時にいなかった他者のみが認識された場合でも、フェイク発話FCSによる対話制御を行ってもよい。
[2.3.3.対話制御例3]
ところで、上述したチャレンジ発話CSに対するユーザU1からのレスポンス発話RSに基づく音声認証は、必ずしも成功するとは限らない。例えば、ユーザU1がハッシュ種ワードおよびワード関係ルールから、ハッシュ種ワードを連想できなかった状況や、チャレンジ発話CSにおけるハッシュ種ワードに対応する箇所を聞き逃した状況が発生し得る。
そのような状況の発生は、例えば、出力されたチャレンジ発話CSに対応するチャレンジ発話文CSSが長すぎることや、ワード関係ルールに則したハッシュ値ワードの連想が困難なハッシュ種ワードが選択されたこと等に起因し得る。すなわち、ユーザU1にとって音声認証を成功させることが困難なチャレンジ発話文CSSが生成されたことに起因し得る。
そのため、認証対話制御部106は、ユーザUがハッシュ値属性を有し、かつ、ワード関係ルールに則するワードをレスポンス発話RSにおいて発話できなかった場合、音声認証をリトライしてもよい。ここで、音声認証のリトライは、例えば認証対話制御部106がチャレンジ発話文CSSを生成する段階まで復帰することである。認証対話制御部106は、チャレンジ発話CSの実行に際し、ひとつ前に生成したチャレンジ発話文CSSと比較して、短いチャレンジ発話文CSSを生成してもよい。
ここで、図7を参照して、認証対話制御部106によるリトライの際の音声認証処理の一例について説明する。図7は、本実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。図7には、音声認証対象のユーザU1、他者AP6、AP7および情報処理端末10が示されている。
まず、ユーザU1は、音声認証開始発話USSを行う。情報処理端末10の認証対話制御部106は、音声認証開始発話USSを認識し音声認証処理を開始する。次に、画像入力部104がユーザUの状況を撮影し、画像認識部105が他者AP6、AP7の存在を認識する。次に、認証対話制御部106は、画像認識部105が認識した他者の存在に基づいて「sandwiches」を含むチャレンジ発話文CSS4を生成し、チャレンジ発話CS4として音声出力部108に出力させる。
次に、ユーザUは、チャレンジ発話CS4に基づいて「turtles」を含むレスポンス発話文RSS4のレスポンス発話RS4を行う。認証対話制御部106は、ユーザUによるレスポンス発話RS4から認識されたレスポンス発話文RSS4から属性が「動物」である「turtles」を検出する。次に、認証対話制御部106は、検出した「turtles」がワード関係ルールに則するワードでないことを検出する。認証対話制御部106は、レスポンス発話文RSSがハッシュ値ワードを含まないと判定し、音声認証処理が成功しなかったと判断する。
次に、認証対話制御部106は、音声認証をリトライし、「carbonara」を含むチャレンジ発話文CSS5を生成し、チャレンジ発話CS5として音声出力部108に出力させる。ここでのチャレンジ発話文CSS5は、チャレンジ発話文CSS4と比較して短い発話文である。
次に、ユーザU1は、チャレンジ発話CS5に基づいて「crab」を含むレスポンス発話RS1を行う。認証対話制御部106は、ユーザU1によるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」である「crab」を検出する。
次に、認証対話制御部106は、検出した「crab」がワード関係ルールに則するワードであることを検出する。認証対話制御部106は、「crab」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、音声認証をリトライする場合に、チャレンジ発話文CSSを短くして音声認証の難易度を下げることにより、ユーザUにとって適するセキュリティ強度での音声認証を行うことが可能となる。
上記では、音声認証をリトライする場合に、生成されるチャレンジ発話文CSSを短くする例について説明したが、チャレンジ発話文CSSが含むハッシュ種ワードの数を増やしてもよい。チャレンジ発話文CSSが含むハッシュ種ワードの数を増やすことにより、ユーザUがチャレンジ発話CSを聞く際に、ハッシュ種ワードにあたる箇所を全て聞き逃す可能性が低減する。
ここで、図8を参照して、認証対話制御部106によるリトライの際の音声認証処理の一例について説明する。図8は、本実施形態に係る認証対話制御部106によるリトライの際の音声認証処理の一例について説明するための図である。図8には、音声認証対象のユーザU1、他者AP8、AP9および情報処理端末10が示されている。
ここで、音声認証開始発話USSからレスポンス発話RS6までは、図7に示された音声認証開始発話USSからレスポンス発話RS4までと同様である。
次に、認証対話制御部106は、音声認証をリトライし、「spaghetti」および「pizza」を含むチャレンジ発話文CSS7を生成し、チャレンジ発話CS7として音声出力部108に出力させる。ここでのチャレンジ発話文CSS7は、チャレンジ発話文CSS5と比較して多くのハッシュ種ワードを含む発話である。
次に、ユーザU1は、チャレンジ発話CS5に基づいて「penguins」を含むレスポンス発話RS1を行う。認証対話制御部106は、ユーザUによるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」である「penguins」を検出する。
次に、認証対話制御部106は、検出した「penguins」がワード関係ルールに則するワードであることを検出する。認証対話制御部106は、「penguins」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、音声認証をリトライする場合に、チャレンジ発話文CSSが含むハッシュ種ワードの数を増やして音声認証の難易度を下げることにより、ユーザUにとって適するセキュリティ強度での音声認証を行うことが可能となる。
なお、認証対話制御部106は、音声認証のリトライを所定回数まで行ってもよく、音声認証のリトライが所定回数より多くなった場合、当該音声認証は失敗と判断してもよい。
[2.3.4.対話制御例4]
上記まではユーザUと同じ場に他者が存在する場合について説明したが、一方で、ユーザUと同じ場に他者が存在しない場合、他者に音声認証情報を聞かれる可能性が無いため、音声認証のセキュリティ強度を下げてもよい。例えば、認証対話制御部106は、画像認識部105が他者を認識しなかった場合、ハッシュ種ワードのみを、チャレンジ発話CSとして音声出力部108に出力させてもよい。
ここで、図9を参照して、認証対話制御部106による他者が認識されなかった場合の音声認証処理の一例について説明する。図9は、本実施形態に係る認証対話制御部106による他者が認識されなかった場合の音声認証処理の一例について説明するための図である。図9には、音声認証対象のユーザU1および情報処理端末10が示されている。
まず、ユーザU1は、音声認証開始発話USSを行う。情報処理端末10の認証対話制御部106は、音声認証開始発話USSを認識し音声認証処理を開始する。次に、画像入力部104がユーザU1の状況を撮影し、画像認識部105は他者が存在しないことを認識する。次に、認証対話制御部106は、画像認識部105により他者が存在しないことに基づいてハッシュ種ワード「Sandwich」のみのチャレンジ発話文CSS8を生成し、チャレンジ発話CS8として音声出力部108に出力させる。
次に、ユーザU1は、チャレンジ発話CS8に基づいて「Seal」のみのレスポンス発話RS8を行う。なお、ユーザUによるレスポンス発話RS8は、図9に示されるハッシュ値ワード以外のワードを含む発話文による発話でもよい。認証対話制御部106は、ユーザUによるレスポンス発話RS1から認識されたレスポンス発話文RSS1から属性が「動物」である「Seal」を検出する。
次に、認証対話制御部106は、検出した「Seal」がワード関係ルールに則するワードであることを検出する。認証対話制御部106は、「Seal」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、音声認証時に同じ場に他者が存在しない場合には、生成されるチャレンジ発話文CSSを大幅に短くすることで、ユーザUが余計な負担を負うこと無く音声認証を行うことが可能となる。
なお、図9に示された一例においては、認証対話制御部106が生成するチャレンジ発話文CSSはハッシュ種ワードのみであったが、勿論チャレンジ発話文CSSがハッシュ種ワード以外のワードを含んでもよい。
[2.3.5.対話制御例5]
ところで、上記まではハッシュ種属性およびハッシュ値属性が「食べ物」や「動物」などの所謂「上位概念」である例について説明してきた。しかし、ハッシュ種属性およびハッシュ値属性は、例えば情報処理端末10の記憶部109に記憶するユーザUの個人データに基づいて決定されてもよい。
例えば、ユーザUの個人データに基づいてハッシュ種属性が「ユーザUの予定表に記入されている場所」、またハッシュ値属性が「予定表に場所が記入されている日付」と決定されてもよい。この場合、ワード関係ルールは、「予定表に記入されている場所と日付が対応していること」である。
なお、他の例として、ハッシュ種属性が「ユーザUの連絡先リストに記録されている人の苗字」、またハッシュ値属性が「ユーザUの連絡先リストに記録されている人の名前」、ワード関係ルールは、「ハッシュ種ワードの苗字とハッシュ値ワードの名前が対応していること(当該苗字と当該名前の組み合わせがユーザUの連絡先リストに記録されていること)」でもよい。
認証対話制御部106がユーザUの個人データに基づく音声認証処理を行うことで、他者が音声認証情報を推測することがより困難となり、セキュリティ強度を上げることができる。
ここで、図10を参照して、認証対話制御部106によるユーザ個人データを用いた音声認証処理の一例について説明する。図10は、本実施形態に係る認証対話制御部106によるユーザ個人データを用いた音声認証処理の一例について説明するための図である。図10には、音声認証対象のユーザU1、他者AP10、AP11および情報処理端末10が示されている。
まず、ユーザU1は、音声認証開始発話USSを行う。認証対話制御部106は、自然言語処理部103が解析したユーザの音声認証開始発話USSに基づいて、音声認証処理を開始する。次に、画像入力部104がユーザUの状況を撮影し、画像認識部105が他者AP10、AP11の存在を認識する。次に、認証対話制御部106は、画像認識部105が認識した他者AP10、AP11の存在に基づいてチャレンジ発話文CSSを生成し、属性が「ユーザU1の予定表に記入されている場所」である「ABC beach」を含むチャレンジ発話CS9を音声出力部108に出力させる。
次に、ユーザU1は、チャレンジ発話CS9に基づいて予定表のうちの「ABC beach」が記入されている日付である「August 23」を含むレスポンス発話RS9を行う。認証対話制御部106は、ユーザUによるレスポンス発話RS9から認識されたレスポンス発話文RSS9から「予定表に場所が記入されている日付」である「August 23」を検出する。
次に、認証対話制御部106は、「August 23」がワード関係ルールに則すること、すなわち「ABC beach」が記入されている日付であることを検出する。認証対話制御部106は、「August 23」を検出したことに基づいて、レスポンス発話文RSSがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部106は、音声認証の完了を伝える音声認証完了発話ASEを音声出力部108に出力させ、音声認証処理は終了する。
このように、他者にとってより把握が難しいユーザU個人のデータを用いることで、よりセキュリティ強度が高い音声認証を行うことが可能となる。
以上、認証対話制御部106によるユーザの状況に応じたセキュリティ強度による音声認証処理について説明した。上述した例では、他者の数や以前の音声認証時にユーザUと同じ場にいた他者の存在に基づいてセキュリティ強度が決定されていたが、セキュリティ強度の決定方法は係る例に限定されない。例えば、認証対話制御部106は、他者のアテンションに基づいて音声認証のセキュリティ強度を決定してもよい。ここで、他者のアテンションとは、例えば他者の視線や顔の向きに基づくユーザUや情報処理端末10に対する関心の度合いをいう。認証対話制御部106は、ユーザUや情報処理端末10に対して関心がある他者が存在する場合、音声認証のセキュリティ強度を上げてもよい。
また、認証対話制御部106は、ユーザUが利用を開始したいサービスに応じて、音声認証対話の難易度、すなわちセキュリティ強度を変更してもよい。他にも、認証対話制御部106は、ハッシュ種属性、ハッシュ値属性、ワード関係ルールの組み合わせに応じて、音声出力部108に出力させる音声の質を変更してもよい。なお、認証対話制御部106は、上記までに説明した認証処理を文章の入出力をユーザUとの間で行うことにより実現してもよい。
[2.3.6.肯定否定判定例]
以上、ユーザUと同じ場にいる他者の有無に応じた音声認証処理の具体例について説明した。ところで、音声認証において、情報処理端末10とユーザUとの間で行われる対話は他者にとって自然なやり取りである方が、当該対話内のいずれのタイミングで音声認証情報のやり取りが行われているかが分かりにくくなる。
そのため、例えば、情報処理端末10は、出力されたフェイク発話FCSに対するユーザからのフェイクレスポンス発話FRSに基づいて認識されたフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定もしくは否定判定を実行してもよい。
ここで、肯定判定もしくは否定判定は、チャレンジ発話文CSSおよびフェイク発話文FCSSの生成に利用される。フェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定もしくは否定判定を行うことで、生成されるチャレンジ発話CSやフェイク発話FCSのユーザUからの反応を予測することが容易となり、より自然な対話を行うことができる。
具体的には、自然言語処理部103は、ユーザUからのフェイクレスポンス発話FRSから認識されたフェイクレスポンス発話文FRSSが含む肯定的な単語や否定的な単語もしくは単語群を検出し、認証対話制御部106は、当該単語もしくは単語群に基づいて肯定判定もしくは否定判定を実行してもよい。
例えば、自然言語処理部103は、ユーザUからのフェイクレスポンス発話FRSから認識されたフェイクレスポンス発話文FRSSが含む肯定的な単語や否定的な単語もしくは単語群のスコアを算出してよい。また、例えば認証対話制御部106は、自然言語処理部103が算出したスコアが所定値以上かもしくは所定値以下かに基づいて肯定判定もしくは否定判定を行ってもよい。例えば、認証対話制御部106は、フェイクレスポンス発話文FRSSを-1.0~+1.0までの範囲でスコア付けして、スコアが例えば-0.5以下であれば否定判定、+0.5以上であれば肯定判定をしてもよい。
ここで、図11を参照して、本実施形態に係る認証対話制御部106によるフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定および否定判定の一例について説明する。図11は、本実施形態に係る認証対話制御部106によるフェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定および否定判定の一例について説明するための図である。図11には、音声認証対象のユーザU1、他者AP1、AP12および情報処理端末10が示されている。
音声認証開始発話USS、フェイク発話FCS5~フェイクレスポンス発話FRS6、音声認証完了発話ASEは、図5で示された音声認証開始発話USS、フェイク発話FCS1~フェイクレスポンス発話FRS2、音声認証完了発話ASEと同様である。ここで、認証対話制御部106は、フェイクレスポンス発話FRS5が認識されたフェイクレスポンス発話文FRSS5に対して自然言語処理部103が算出したスコアに基づいて、肯定判定もしくは否定判定を行う。
具体的には、自然言語処理部103は、フェイクレスポンス発話文FRSS5に対して「+0.8」のスコアを算出し、認証対話制御部106は、当該スコアに基づいてフェイクレスポンス発話文FRSS5に対して肯定判定を行う。また、自然言語処理部103は、フェイクレスポンス発話文FRSS5に対して「-0.6」のスコアを算出し、認証対話制御部106は、当該スコアに基づいてフェイクレスポンス発話文FRSS5に対して否定判定を行う。判定結果は、記憶部109に記憶されてもよいし、情報処理サーバ20に送信されてもよい。
このように、フェイクレスポンス発話文FRSSのフェイク発話FCSに対する肯定判定もしくは否定判定のデータが蓄積され発話文の生成に利用されることで、ユーザUとの対話をより自然に行うことが可能となる。
なお、図11の一例において他者が2人いる場合の認証対話制御部106によるフェイクレスポンス発話FRSに対する肯定判定もしくは否定判定について説明したが、勿論、チャレンジ発話CSに対するレスポンス発話RSへ同様の判定を行ってよい。また、他者が2人以外の場合や他者が存在しない場合においても、同様の判定を行ってよい。
<<2.4.動作例>>
続いて、図12~図15を参照して、本実施形態に係る認証対話制御部106による音声認証対話制御の動作の流れの一例について説明する。
[2.4.1.音声認証対話動作例]
まず、図12を参照して、本実施形態に係る認証対話制御部106によるチャレンジ発話CSの出力およびレスポンス発話RSに基づく音声認証に係る処理の動作の流れの一例について説明する。図12は、本実施形態に係る認証対話制御部106によるチャレンジ発話CSの出力およびレスポンス発話RSに基づく音声認証に係る処理の動作の流れの一例について説明するための図である。
図12を参照すると、まず、認証対話制御部106は、ユーザUからの音声認証開始発話USSが認識された場合、ハッシュ種属性を有するワードを記憶部109から取得する(S101)。ステップS101において、認証対話制御部106は、ハッシュ種属性を有するワードを情報処理サーバ20から取得してもよい。次に、認証対話制御部106は、ステップS101で取得されたハッシュ種ワードを含むチャレンジ発話文CSSを生成し、チャレンジ発話CSとして音声出力部108に出力させる(S102)。
次に、自然言語処理部103から自然言語処理が実行されたレスポンス発話文RSSを受信しなかった場合(S103:No)、認証対話制御部106は、リトライ回数をインクリメントする(S104)。次に、リトライ回数が所定回数以上である場合(S105:Yes)、認証対話制御部106は音声認証失敗と判断し(S106)、認証対話制御部106は動作を終了する。一方、リトライ回数が所定回数以上でない場合(S105:No)、ステップS101へ復帰する。
一方、自然言語処理部103から自然言語処理が実行されたレスポンス発話文RSSを受信した場合で(S103:Yes)、かつ、当該レスポンス発話文RSSがハッシュ値属性を有するワードを含まない場合(S107:No)、ステップS104へ進む。一方、自然言語処理部103から自然言語処理が実行されたレスポンス発話文RSSを受信した場合で(S103:Yes)、かつ、当該レスポンス発話文RSSがハッシュ値属性を有するワードを含む場合(S107:Yes)、認証対話制御部106は、レスポンス発話文RSSが含むハッシュ値属性を有するワードをハッシュ値ワード候補と決定する(S108)。
次に、ステップS108で決定されたハッシュ値ワード候補のうちハッシュ種ワードとの間でワード関係ルールに則するワードが存在しない場合(S109:No)、ステップS104へ進む。一方、ステップS108で決定されたハッシュ値ワード候補のうちハッシュ種ワードとの間でワード関係ルールに則するワードが存在する場合(S109:Yes)、認証対話制御部106は音声認証成功と判断し(S110)、認証対話制御部106は動作を終了する。
[2.4.2.チャレンジ発話文CSSの生成例]
次に、図13を参照して、本実施形態に係る認証対話制御部106によるチャレンジ発話文CSSの生成処理の流れの一例について説明する。図13は、本実施形態に係る認証対話制御部106によるチャレンジ発話文CSSの生成処理の流れの一例について説明するための図である。
図13を参照すると、まず、ユーザUと同じ場に他者が存在する場合(S201:Yes)、認証対話制御部106は、認識された他者の数が多くなるに従って長いチャレンジ発話文CSSを生成し(S202)、認証対話制御部106は動作を終了する。一方、ユーザUと同じ場に他者が存在しない場合(S201:No)、認証対話制御部106は、ハッシュ種ワードのみを含むチャレンジ発話文CSSを生成し(S203)、認証対話制御部106は動作を終了する。なお、ステップS203において、認証対話制御部106は、ステップS202で生成されるチャレンジ発話文CSSよりもワード数が少ない、ハッシュ種ワード以外のワードを含むチャレンジ発話文CSSを生成してもよい。
[2.4.3.ハッシュ種ワードの決定例]
次に、図14を参照して、本実施形態に係る認証対話制御部106によるハッシュ種ワードの決定処理の流れの一例について説明する。図14は、本実施形態に係る認証対話制御部106によるハッシュ種ワードの決定処理の流れの一例について説明するための図である。
図14を参照すると、まず、ユーザ個人データに過去に使用されたハッシュ種ワードの情報が存在しない場合(S301:No)、認証対話制御部106は、ハッシュ種属性を有するワードを記憶部109が記憶するハッシュ種ワードデータベースからランダムに習得してハッシュ種ワードと決定する(S302)。次に、認証対話制御部106は、ステップS302で決定されたハッシュ種ワードおよびユーザUと同じ場に他者に係る情報をユーザ個人データとして記憶部109に記憶し(S303)、認証対話制御部106は動作を終了する。
一方、ユーザ個人データに過去に使用されたハッシュ種ワードの情報が存在し場合で(S301:Yes)、かつ、認証対象のユーザU以外に同じ場に他者が存在しない場合(S304:No)、認証対話制御部106はユーザ個人データに記憶される直近の認証時に使用されたハッシュ種ワードを今回使用するハッシュ種ワードと決定する(S305)。次に、認証対話制御部106は、ステップS305で決定されたハッシュ種ワードおよびユーザUと同じ場に他者に係る情報をユーザ個人データとして記憶部109に記憶し(S303)、認証対話制御部106は動作を終了する。
また、一方、認証対象のユーザU以外に同じ場に他者が存在する場合で(S304:Yes)、かつ、ユーザ個人データ内に今回認識された他者に係る情報が記憶されていない場合(S306:No)、ステップS305へ進む。
また、一方、ユーザ個人データ内に今回認識された他者に係る情報が記憶されている場合(S306:Yes)、認証対話制御部106は、記憶部109が記憶するハッシュ種ワードデータベースに存在するハッシュ種属性を有するワードから、今回ユーザUと同じ場に存在する他者がユーザUの音声認証時に聞いたことが無いワードを習得してハッシュ種ワードと決定する(S307)。次に、認証対話制御部106は、ステップS307で決定されたハッシュ種ワードおよびユーザUと同じ場に他者に係る情報をユーザ個人データとして記憶部109に記憶し(S303)、認証対話制御部106は動作を終了する。
[2.4.4.フェイク発話FCSを含む音声認証処理例]
次に、図15Aおよび図15Bを参照して、本実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明する。図15Aおよび図15Bは、本実施形態に係る認証対話制御部106によるフェイク発話FCSを含む音声認証に係る処理の動作の流れの一例について説明するための図である。
図15Aを参照すると、まず、ユーザU以外に以前の音声認証時にユーザUと同じ場にいた他者が存在する場合(S401:Yes)、認証対話制御部106は、以前の音声認証時にユーザUと同じ場にいた他者の数に基づいてフェイク発話FCSの回数を決定する(S402)。次に、認証対話制御部106は、チャレンジ発話CSおよびフェイク発話FCSの順番をランダムに決定する(S403)。
次に、ステップS403で決定された発話の順番においてチャレンジ発話CSを行う音声認証対話の順番である場合(S404:Yes)、認証対話制御部106は音声認証処理を実行する(S405)。ここで、ステップS405における音声認証処理は、図12で一例が示された音声認証対話制御に係る処理である。
次に、ステップS405で音声認証が失敗した場合(S406:No)、認証対話制御部106は、音声認証に失敗したことを音声出力部108に出力させ(S407)、認証対話制御部106は動作を終了する。また、一方、ステップS405で音声認証が成功した場合で(S406:Yes)、かつ、ステップS402で決定した回数のフェイク対話および音声認証対話が完了した場合(S408:Yes)、認証対話制御部106は、音声認証に成功したことを音声出力部108に出力させ(S415)、認証対話制御部106は動作を終了する。一方、ステップS402で決定した回数のフェイク対話および音声認証対話が完了していない場合(S408:No)、ステップS404へ復帰する。
また、一方、ステップS403で決定された発話の順番においてチャレンジ発話CSを行う音声認証対話の順番でない場合(S404:No)、図15Bを参照すると、認証対話制御部106は、情報処理サーバ20からハッシュ種属性を有するワードを含まないフェイク発話文FCSSを取得しフェイク発話FCSをして音声出力部108に出力させる(S409)。次に、自然言語処理部103はユーザUからのフェイクレスポンス発話文FRSSのスコアを算出する(S410)。
次に、ステップS410で算出されたスコアが所定値以上である場合(S411:Yes)、認証対話制御部106は、フェイクレスポンス発話FRSを正例(肯定判定)して情報処理サーバ20へ送信し(S412)、図15Aで示されたステップS408へ進む。
一方、ステップS410で算出されたスコアが所定値以上でない場合で(S411:No)、かつ、ステップS410で算出されたスコアが所定値以下である場合(S413:Yes)、認証対話制御部106は、フェイクレスポンス発話FRSを負例(否定判定)として情報処理サーバ20へ送信し(S414)、図15Aで示されたステップS408へ進む。一方、ステップS410で算出されたスコアが所定値以下でない場合(S413:No)、図15Aで示されたステップS408へ進む。
なお、ユーザU以外に以前の音声認証時にユーザUと同じ場にいた他者が存在しない場合は(S401:No)、認証対話制御部106は、フェイク対話を実行しないと決定し、すなわちフェイク対話の回数をゼロ回と決定し(S416)、ステップS405へ進む。
<3.ハードウェア構成例>
次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図16は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図16を参照すると、情報処理端末10および情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(プロセッサ871)
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。プロセッサ871、ROM872、RAM873により認証対話制御部106、音声認識部102、自然言語処理部103、画像認識部105、音声合成部107の機能は実現される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。入力装置878により音声入力部101および画像入力部104の機能は実現される。
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。出力装置879により音声出力部108の機能は実現される。
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。ストレージ880、ドライブ881、リムーバブル記録媒体901等により記憶部109の機能は実現される。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。通信装置883により通信部110の機能は実現される。
<4.まとめ>
以上、説明したように、本実施形態に係る情報処理システムは、ユーザの状況に基づいて決定されたセキュリティ強度で音声認証処理を実行する機能を有する。係る機能によれば、ユーザに余計な負荷をかけずに、かつ、十分なセキュリティ性を確保した音声認証処理を実行することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、
を備え、
前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、
前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
情報処理装置。
(2)
前記ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有し、
前記ハッシュ値ワードは、予め規定された所定の属性であり、かつ、前記ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有する、
前記(1)に記載の情報処理装置。
(3)
前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、
前記(1)または(2)に記載の情報処理装置。
(4)
前記認証対話制御部は、他者の存在が認識された場合、認識された前記他者の存在に基づいて前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
前記認証対話制御部は、認識された前記他者の数に基づいて前記チャレンジ発話文の長さを決定し、決定した前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(4)に記載の情報処理装置。
(6)
前記認証対話制御部は、前記認識された他者の数が多くなるに従って長くする前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(5)に記載の情報処理装置。
(7)
前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていた場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードとは異なる前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(4)~(6)のいずれか1項に記載の情報処理装置。
(8)
前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていない場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(4)~(6)のいずれか1項に記載の情報処理装置。
(9)
前記認証対話制御部は、前記ハッシュ種ワードを含まないフェイク発話文をさらに生成して、フェイク発話として出力させる、
前記(4)~(8)のいずれか1項に記載の情報処理装置。
(10)
前記認証対話制御部は、前記認識された他者の数に基づいて、前記フェイク発話文の数を決定し、前記決定した数の前記フェイク発話文を生成して、それぞれ前記フェイク発話として出力させる、
前記(9)に記載の情報処理装置。
(11)
前記認証対話制御部は、前記チャレンジ発話および前記フェイク発話をランダムな順番で出力させる、
前記(9)または(10)に記載の情報処理装置。
(12)
前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文の長さを決定し、前記決定した長さの前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文が含む前記ハッシュ種ワードの数を決定し、前記決定した数の前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(1)~(12)のいずれか1項に記載の情報処理装置。
(14)
前記認証対話制御部は、前記ユーザに係るユーザ情報に基づいて、前記ハッシュ種ワードおよび前記ワード関係ルールを決定し、前記決定したハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
前記(1)~(13)のいずれか1項に記載の情報処理装置。
(15)
前記認証対話制御部は、出力された前記フェイク発話に対する前記ユーザからのフェイクレスポンス発話に基づいて認識されたフェイクレスポンス発話文の前記フェイク発話に対する肯定判定もしくは否定判定を実行し、
前記肯定判定もしくは否定判定は、前記チャレンジ発話文および前記フェイク発話文の生成に利用される、
前記(9)~(11)のいずれか1項に記載の情報処理装置。
(16)
ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行する認証対話制御部、
を備え、
前記認証対話制御部は、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定する、
情報処理装置。
(17)
前記ユーザの周囲状況は、認識された他者の数を含み、
前記認証対話制御部は、認識された前記他者の数に基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
前記(16)に記載の情報処理装置。
(18)
前記ユーザの周囲状況は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かを含み、
前記認証対話制御部は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かに基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
前記(17)に記載の情報処理装置。
(19)
ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、
を含み、
ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、
前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
情報処理方法。
(20)
ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行すること、
を含み、
認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定することをさらに含む、
情報処理方法。
10 情報処理端末
101 音声入力部
102 音声認識部
103 自然言語処理部
104 画像入力部
105 画像認識部
106 認証対話制御部
107 音声合成部
108 音声出力部
109 記憶部
110 通信部
20 情報処理サーバ
30 ネットワーク

Claims (15)

  1. ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、
    を備え、
    前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、
    前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有し、
    前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、
    情報処理装置。
  2. 前記ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有し、
    前記ハッシュ値ワードは、予め規定された所定の属性であり、かつ、前記ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有する、
    請求項1に記載の情報処理装置。
  3. 前記認証対話制御部は、他者の存在が認識された場合、認識された前記他者の存在に基づいて前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項1に記載の情報処理装置。
  4. 前記認証対話制御部は、認識された前記他者の数に基づいて前記チャレンジ発話文の長さを決定し、決定した前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項に記載の情報処理装置。
  5. 前記認証対話制御部は、前記認識された他者の数が多くなるに従って長くする前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項に記載の情報処理装置。
  6. 前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていた場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードとは異なる前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項に記載の情報処理装置。
  7. 前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていない場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項に記載の情報処理装置。
  8. 前記認証対話制御部は、前記ハッシュ種ワードを含まないフェイク発話文をさらに生成して、フェイク発話として出力させる、
    請求項に記載の情報処理装置。
  9. 前記認証対話制御部は、前記認識された他者の数に基づいて、前記フェイク発話文の数を決定し、前記決定した数の前記フェイク発話文を生成して、それぞれ前記フェイク発話として出力させる、
    請求項に記載の情報処理装置。
  10. 前記認証対話制御部は、前記チャレンジ発話および前記フェイク発話をランダムな順番で出力させる、
    請求項に記載の情報処理装置。
  11. 前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文の長さを決定し、前記決定した長さの前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項1に記載の情報処理装置。
  12. 前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文が含む前記ハッシュ種ワードの数を決定し、前記決定した数の前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項1に記載の情報処理装置。
  13. 前記認証対話制御部は、前記ユーザに係るユーザ情報に基づいて、前記ハッシュ種ワードおよび前記ワード関係ルールを決定し、前記決定したハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
    請求項1に記載の情報処理装置。
  14. 前記認証対話制御部は、出力された前記フェイク発話に対する前記ユーザからのフェイクレスポンス発話に基づいて認識されたフェイクレスポンス発話文に対し、前記フェイク発話に対する肯定判定もしくは否定判定を実行し、
    前記肯定判定もしくは否定判定は、前記チャレンジ発話文および前記フェイク発話文の生成に利用される、
    請求項に記載の情報処理装置。
  15. ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、
    を含み、
    ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、
    前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有し、
    前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、
    情報処理方法。
JP2020572092A 2019-02-15 2019-11-29 情報処理装置及び情報処理方法 Active JP7487668B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019025766 2019-02-15
JP2019025766 2019-02-15
PCT/JP2019/046783 WO2020166173A1 (ja) 2019-02-15 2019-11-29 情報処理装置及び情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2020166173A1 JPWO2020166173A1 (ja) 2021-12-23
JP7487668B2 true JP7487668B2 (ja) 2024-05-21

Family

ID=72044984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020572092A Active JP7487668B2 (ja) 2019-02-15 2019-11-29 情報処理装置及び情報処理方法

Country Status (4)

Country Link
US (1) US20220199096A1 (ja)
JP (1) JP7487668B2 (ja)
DE (1) DE112019006868T5 (ja)
WO (1) WO2020166173A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014695A (ja) 2000-06-28 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 対話型本人認証方法および装置
JP2007522551A (ja) 2004-01-30 2007-08-09 松下電器産業株式会社 複数選択チャレンジ−レスポンスユーザ認証システムおよび方法
JP2013037512A (ja) 2011-08-08 2013-02-21 Ricoh Co Ltd ソーシャルネットワーキングサービスシステム、ソーシャルネットワーキングサービスサーバ及びソーシャルネットワーキングサービスプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130006626A1 (en) * 2011-06-29 2013-01-03 International Business Machines Corporation Voice-based telecommunication login
US9286899B1 (en) * 2012-09-21 2016-03-15 Amazon Technologies, Inc. User authentication for devices using voice input or audio signatures
JP5646675B2 (ja) 2013-03-19 2014-12-24 ヤフー株式会社 情報処理装置及び方法
GB2555661A (en) * 2016-11-07 2018-05-09 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for biometric authentication in an electronic device
US10720165B2 (en) * 2017-01-23 2020-07-21 Qualcomm Incorporated Keyword voice authentication
US10885091B1 (en) * 2017-12-12 2021-01-05 Amazon Technologies, Inc. System and method for content playback
KR102443632B1 (ko) * 2017-12-18 2022-09-15 삼성전자주식회사 전자 장치, 전자 시스템 및 그 제어 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014695A (ja) 2000-06-28 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 対話型本人認証方法および装置
JP2007522551A (ja) 2004-01-30 2007-08-09 松下電器産業株式会社 複数選択チャレンジ−レスポンスユーザ認証システムおよび方法
JP2013037512A (ja) 2011-08-08 2013-02-21 Ricoh Co Ltd ソーシャルネットワーキングサービスシステム、ソーシャルネットワーキングサービスサーバ及びソーシャルネットワーキングサービスプログラム

Also Published As

Publication number Publication date
WO2020166173A1 (ja) 2020-08-20
DE112019006868T5 (de) 2021-11-04
JPWO2020166173A1 (ja) 2021-12-23
US20220199096A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
US20210201911A1 (en) System and method for dynamic facial features for speaker recognition
CA3158979C (en) Headless task completion within digital personal assistants
US10650827B2 (en) Communication method, and electronic device therefor
KR102210775B1 (ko) 인적 상호 증명으로서 말하는 능력을 이용하는 기법
KR102081495B1 (ko) 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US20180286389A1 (en) Conference system, conference system control method, and program
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
KR20200095719A (ko) 전자 장치 및 그 제어 방법
US20180286388A1 (en) Conference support system, conference support method, program for conference support device, and program for terminal
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
US20240012893A1 (en) Headphone biometric authentication
JP7487668B2 (ja) 情報処理装置及び情報処理方法
US11940896B2 (en) Information processing device, information processing method, and program
WO2017029850A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2022043901A (ja) 対話システム、対話ロボット、プログラム、および情報処理方法
WO2019142420A1 (ja) 情報処理装置および情報処理方法
US20240119930A1 (en) Artificial intelligence device and operating method thereof
TWI835304B (zh) 人工智能聲控銀行交易系統
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6931175B2 (ja) 情報処理装置、情報処理システム、および、プログラム
US10916250B2 (en) Duplicate speech to text display for the deaf
US20230370543A1 (en) Scam communication engagement
JP5067435B2 (ja) 会話管理システムおよび管理サーバ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240422

R150 Certificate of patent or registration of utility model

Ref document number: 7487668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150