JP7123871B2 - 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents

身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP7123871B2
JP7123871B2 JP2019129753A JP2019129753A JP7123871B2 JP 7123871 B2 JP7123871 B2 JP 7123871B2 JP 2019129753 A JP2019129753 A JP 2019129753A JP 2019129753 A JP2019129753 A JP 2019129753A JP 7123871 B2 JP7123871 B2 JP 7123871B2
Authority
JP
Japan
Prior art keywords
user
identity
feature data
audio signal
identity authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019129753A
Other languages
English (en)
Other versions
JP2020013126A (ja
Inventor
ランキ ザン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020013126A publication Critical patent/JP2020013126A/ja
Application granted granted Critical
Publication of JP7123871B2 publication Critical patent/JP7123871B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Collating Specific Patterns (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、一般的に、身元認証に関し、さらに具体的に、身元認証(特に、音声又は言語に基づく身元認証)方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。
スマートスピーカーなどの製品の発展に伴い、音声に基づく身元認証がますます重要になっている。しかしながら、現在音声に基づく身元認証手段は依然としてより浅い技術レベルに止まっている。例えば、一般的な身元認証方式は、周波数(又は音声帯域)に基づく認証方式である。この方式では、一般的に、各ユーザに対して1セットの音声帯域範囲を設定し、受信された音声比較範囲誤差が特定の閾値を越えると、認証失敗とする。受信された音声とユーザの音声帯域とが同一の範囲にあると、認証成功とする。しかしながら、人の耳が識別できる音声周波数範囲は20Hz~20kHzの間にあるため、汲尽法(method of exhaustion)によって、「正当な」周波数を速やかに見つけることができ、安全係数が非常に低くなる。したがって、上記技術問題を少なくとも部分的に解決するための身元認証のための技術案を提供する必要がある。
本発明によると、身元認証のための手段を提供する。
本発明の第1の態様において、身元認証方法を提供する。身元認証方法は、ユーザの音声信号を取得するステップと、前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成するステップと、前記特徴データに基づいて前記ユーザの身元を決定するステップとを含み、前記ユーザの身元を決定するステップが、前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定するステップと、前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得するステップと、前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定するステップとを含む。
本発明の第2の態様において、身元認証装置を提供する。身元認証装置は、ユーザの音声信号を取得するための第1の取得モジュールと、前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成する生成モジュールと、前記特徴データに基づいて前記ユーザの身元を決定する第1の決定モジュールとを備え、該第1の決定モジュールが、前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定する第4の決定モジュールと、前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得する第2の取得モジュールと、前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定する第5の決定モジュールとを備える。

本発明の第3の態様において、電子機器を提供する。電子機器は、少なくとも一つのプロセッサと、少なくとも一つのプログラムを記憶するメモリとを備え、少なくとも一つの前記プログラムが少なくとも一つの前記プロセッサによって実行される場合、上記の身元認証方法を実現する。
本発明の第4の態様において、コンピュータプログラムが記憶されているコンピュータ可読媒体を提供する。コンピュータプログラムがプロセッサによって実行される場合、上記の身元認証方法が実現される。
本発明の明細書に記述された内容は、本発明の内容の実現形態のキーポイント又は重要な特徴を限定することを意図しなく、本発明の内容の範囲を限制するものでもないことを、理解すべきである。本発明の内容の他の特徴は、以下の記述によって容易に理解される。
図面に組みあわせて、さらに以下の詳細な説明を参考して、本発明の内容の各実現形態の上述の特徴と他の特徴、利点、及び態様がもっと明らかになる。図面において、同一又は類似の符号は、同一又は類似の要素を示す。
本発明の一実施形態を実現可能な環境の一例を示す概略図である。 本発明の一実施形態に係る身元認証方法を示すフローチャートである。 本発明の一実施形態に係るユーザの身元を決定するための方法を示すフローチャートである。 本発明の一実施形態に係る身元認証装置を示すブロック図である。 本発明の一実施形態に係る電子機器を示すブロック図である。
以下、図面を参照して本発明の内容の実現形態をもっと詳細に記述する。図面では本発明の内容の特定の実現形態を示したが、本発明の内容はさまざまな形態で実現できることを理解すべきであり、ここに記述する実現形態に限られるものではない。より透徹、かつ完全に本発明の内容を理解するために、これら実現形態を提供する。本発明の内容の図面及び実現形態は、単なる例示的な作用に用いられ、本発明の内容の保護範囲を限定するものではないことを、理解すべきである。
以上で言及された現在音声に基づく身元認証態様は、一般的に、音声の周波数に基づいてユーザの身元を決定することによって、認証成功であるかどうかを判断する。しかしながら、このような認証態様は、低い安全係数を有する。
上記問題及び他の可能の潜在的な問題に対し、本発明の一実施形態においては、身元認証のための技術案を提供する。本実施形態では、ユーザの音声信号を取得し、取得した音声信号に基づいて、複数の次元を有する特徴データを生成する。複数の次元の特徴データは、音声信号の異なる特性を示す。特徴データに基づいてユーザの身元を決定する。音声信号の複数の異なる次元に基づいて身元認証を行うため、身元認証の正確性及び安全性を向上させることができる。
以下、図1から図4を参照して、本発明の一実施形態について具体的に記述する。
図1は、本発明の一実施形態を実現することができる模式的な環境100を示す概略図である。
環境100において、ユーザ102は、スマートスピーカー104などの電子機器と言語で対話することができる。例えば、ユーザ102は、スマートスピーカー104に「僕はテイクアウトを注文したい」と言うことができる。スマートスピーカー106は、音声信号を取得することができ、音声信号に基づいてユーザ102が該当するタスクを実行する権限があるか否かを決定する。ここではスマートスピーカー104を一例として記述するが、本実施形態は、携帯電話、タブレットなどの電子機器に応用することができ、また、少なくとも部分的にクラウド側で実現されてもよいことを、理解すべきである。
図2は、本発明の一実施形態に係る身元認証方法200を示すフローチャートである。 身元認証方法200は、少なくとも部分的に図1に示したスマートスピーカー104によって実現されることができる。
ブロック202において、スマートスピーカー104は、ユーザ102の音声信号を取得する。例えば、スマートスピーカー104は、マイクなどのユーザ102の音声信号を録音又は収集するための装置を備えていてもよい。本実施形態において、ユーザ102の音声信号は、1段の対話を含んでいてもよく、当該対話は、開始語句と終了語句によって定義され、また、該当するタスクに関連されてもよい。例えば、言語識別の方式に基づいて、スマートスピーカー102は、ユーザ102の当該タスクに対する意図を識別することによって、開始語句を判断し、また、スマートスピーカー102は、ユーザ102の当該タスクに対する最終の命令を識別することによって終了語句を判断することができる。開始語句と終了語句は、キーワードを識別することによって決定することができる。例えば、この1段の対話は、スマートスピーカー102のユーザのテイクアウトの意図に対する識別とユーザのテイクアウトの命令の受信との間の複数の語句であってもよい。
ブロック204において、スマートスピーカー104は、ユーザ102の音声信号に基づいて、複数の次元を有する特徴データを生成する。それぞれの次元の特徴データは、音声信号の該当する特性を示すことができる。例えば、複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む。現在知られている又は将来開発される任意の適切な方法を使用して、話速、ラウドネス、周波数などの信息を検出することができ、本発明はこれに対して限定しないことを、理解すべきである。また、当業者は、上記次元は、一例として提供されたものに過ぎず、代替案として又は追加的に他の次元の特徴データを使用してもよいことを、理解すべきである。
本実施形態において、特徴データに対して正規化処理を行うことができる。例えば、一言を一つのn次元ベクトルに解析することができ、例えば、「D0、D1、…、Dn」に解析することができ、その中、Di、i=1…nで一つの次元(例えば、周波数)を示し、Diの値は、(0、1)の区間内にある。このような方式で特徴データのベクトル表現を決定して、後続の処理で利用することができる。
ブロック206において、スマートスピーカー104は、生成した特徴データに基づいてユーザ102の身元を決定する。例えば、ユーザ102の身元は、該当する権限と関連されることができるため、ユーザ102の身元に基づいてユーザ102の権限を決定し、ユーザ102の権限にマッチングされたタスクをトリガーして当該タスクをトリガーして実行させる。言い換えれば、ユーザ102の権限とタスクとがマッチングされると、当該タスクを実行する。
本実施形態において、ユーザ102の音声信号中から、上記タスクを識別することができる。例えば、スマートスピーカー104は、ユーザ102の音声信号を言語識別し、識別された文字又は語句に基づいてユーザの意図を決定することができ、例えば、ユーザが実行しようとするタスクを決定することができる。例えば、ユーザ102の権限は、さらに、該当するタスクに関連され、すなわち、異なるタスクは、異なる権限を有することができる。
本実施形態において、スマートスピーカー104は、特徴データに基づいて音声信号と関連するカテゴリーを決定する。例えば、カテゴリーは、教師なし学習モデルによって決定することができる。例えば、教師なし学習モデルは、特徴データのベクトル表現を受信し、特徴データのベクトル表現に基づいて、クラスタリングすることによって、音声信号と関連するカテゴリーを決定することができる。教師なし学習モデルは、k-means、ランダムフォレストなどのモデルを含んでいてもよい。上記教師なし学習モデルは、一例として提供されたものに過ぎず、当業者は、他の適当な教師なし学習モデルを使用してもよいことを、理解すべきである。
教師なし学習モデルは、ユーザとスマートスピーカー104(又は他の言語機器)との間の日常の対話と交流中で自然的に構築し、絶えず最適化することによって、コストオーバーヘッドが低く、また、リアルタイムの学習能力を有する。毎回の対話は、モデルに対する応用でもあり、モデルに対する訓練でもある。したがって、教師なし学習モデルは、ユーザデータを収集し、収集したユーザデータにラベルを付ける必要がない。このような方式に基づいて、製品の軽量化を実現し、また、ユーザデータを収集する際に引き起こす可能性があるプライバシー問題を防止することができる。
本実施形態において、スマートスピーカー104は、音声信号のカテゴリーとユーザの身元との間の対応関係を取得し、上記対応関係に基づいて、ユーザの身元を決定されたカテゴリーに対応する身元と決定することができる。カテゴリーと身元との対応関係は、ユーザ102によって予め設定されることができる。例えば、ユーザ102は、一つの語句中で身元と起動の権限を言い、例えば、「僕は明ちゃんだ。支払い権限がある」と言うことができる。スマートスピーカー104は、決定された語句又は関連する対話のカテゴリーと、語句によって提供される身元及び権限と、に対して、対応関係を構築することができる。最初に権限を与える場合、ユーザにパスワードの入力などを要求して検証することができる。
本実施形態において、ユーザ102とスマートスピーカー102との対話過程において身元認証を行うことができる。例えば、スマートスピーカー102は、キーワードなどのトリガー条件に基づいて、権限を与える検出過程を起動することができる。例えば、スマートスピーカー102は、ユーザ102の音声信号を言語識別し、また、識別された文字中で「テイクアウト」などのキーワードが検出されると、権限を与える判定過程を起動することができる。
図3は、本発明の一実施形態に係るユーザの身元を決定するための方法300を示すフローチャートである。例えば、音声信号は、権限を与える判定過程を起動した後の1段の対話を含むことができ、複数の語句を含むことができる。
ブロック302において、音声信号に含まれた語句のうち、予め定義された身元に関連する語句の数を決定することができる。例えば、1段の対話は、購入意図の確認から、テイクアウト命令の受信まで、合計10個の語句である。それぞれの語句に対応するカテゴリー及び身元を決定する。例えば、10個の語句から、8個の語句に身元Aがあると決定することができる(例えば、夫)。
ブロック304において、数と音声信号に含まれた語句の総数との比率が閾値比率よりも大きいか否かを決定することができる。閾値比率よりも大きいと、方法300はブロック306に進入する。ブロック306において、ユーザの身元を、予め定義された身元と決定することができる。例えば、閾値比率が70%であると、数と総数との比率が8/10=80%であり、70%よりも大きい。逆に、閾値比率未満であると、ブロック308において、音声信号が予め定義された身元を有さないと決定することができる。
図3に示される方法300は、スマートスピーカーなどの機器に偏在する単一の語句の識別率と精度が100%に達することが難しいという問題を解決することができる。確率的結果は、単一サンプル内の個人差を補正することができるため、より正確である。
また、方法300は、ユーザ102とスマートスピーカー104とが自然的な言語対話の過程で実現でき、別個のリンクを確立する必要がない。したがって、判定タイミングは、自然的な言語対話シーン全体を通し、鈍い対話が必要しない。例えば、ユーザ102は、スマートスピーカー104との間で以下のような対話をする。
ユーザ:僕はテイクアウトを注文したい。
スピーカー:注文を検索して推薦します、あなたのためにXXパッケージを推薦します、購入しますか?
ユーザ:注文しよう!
スピーカー:あなたの注文を確認し、購入は完了しました。
図4は、本発明の一実施形態に係る身元認証装置400を示すブロック図である。
身元認証装置400は、図1のスマートスピーカー104が備えていてもよく、或いは、少なくとも部分的にスマートスピーカー104によって実現されてもよい。図4に示されるように、身元認証装置400は、第1の取得モジュール402と、生成モジュール404と、第1の決定モジュール406とを備えている。
第1の取得モジュール402は、ユーザの音声信号を取得する。
生成モジュール404は、音声信号に基づいて、音声信号の異なる特性を示す、複数の次元を有する特徴データを生成する。
第1の決定モジュール406は、特徴データに基づいてユーザの身元を決定する。
本実施形態において、複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む。
本実施形態において、第1の決定モジュール406は、音声信号に含まれた語句のうち、予め定義された身元に関連する語句の数を決定する第2の決定モジュールと、決定された数と音声信号に含まれた語句の総数との比率が閾値比率よりも大きいことに応答して、ユーザの身元を予め定義された身元と決定する第3の決定モジュールとを備えている。
本実施形態において、第1の決定モジュール406は、特徴データに基づいて音声信号のカテゴリーを決定する第4の決定モジュールと、音声信号のカテゴリーとユーザの身元との間の対応関係を取得する第2の取得モジュールと、対応関係に基づいて、ユーザの身元をカテゴリーに対応する身元と決定する第5の決定モジュールとを備えている。
本実施形態において、音声信号のカテゴリーは、教師なし学習モデルによって決定される。
本実施形態において、身元認証装置400は、ユーザの身元に基づいてユーザの権限を決定する第6の決定モジュールと、ユーザの権限にマッチングされるタスクをトリガーして実行させるトリガーモジュールとをさらに備えている。
図5は、本発明の一実施形態を実施可能な電子機器500を示す模式的なブロック図である。図面に示されるように、電子機器500は、中央処理ユニット(CPU)501を備え、CPU501は、読み出し専用メモリ(ROM)502に記憶されているコンピュータプログラム命令又は記憶ユニット508からランダムアクセスメモリ(RAM)503にロードしたコンピュータプログラム命令に従って、さまざまな適当な動作と処理を実行する。RAM503には、電子機器500の動作に必要なさまざまなプログラムデータが記憶されてもよい。CPU501、ROM502及びRAM503は、バス504によって互いに接続される。入力/出力(I/O)インターフェース505も、バス504に接続される。
電子機器500の、キーボード、マウスなどようなの入力ユニット506と、さまざまなタイプのディスプレイ、スピーカーなどのような出力ユニット507と、磁気ディスク、光ディスクなどのような記憶ユニット508と、ネットワークカード、モデム、無線通信トランシーバなどのような通信ユニット509とを備える複数の部品は、I/Oインターフェース505に接続されている。通信ユニット509は、機器500が、インターネットのコンピュータネットワーク及び/又はさまざまな電気通信ネットワークなどのような他の機器と、情報/データを交換することを可能にする。
処理ユニット501は、上記に記述された身元認証方法200などに記載のそれぞれの過程及び処理を実行する。例えば、本実施形態において、身元認証方法200は、コンピュータソフトウェアプログラムによって実現され、記憶ユニット508などのような機器可読媒体に有形に含まれている。本実施形態において、コンピュータプログラムの少なくとも一部は、ROM502及び/又は通信ユニット509を介して機器500上にロード及び/又はインストールされることができる。コンピュータプログラムがRAM503にロードされCPU501によって実行される場合、上記の身元認証方法200の少なくとも一つのステップを実行することがきる。候補として、変形例として、CPU501は、他の任意の適当な方式に基づいて(例えば、ファームウェアによって)、身元認証方法200を実行するように構成されてもよい。
本発明は、身元認証方法、身元認証装置、電子機器、身元認証システム及び/又はコンピュータプログラム製品である。コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体を備えていてもよく、コンピュータ読み取り可能な記憶媒体には本発明の各態様を実行するためのコンピュータ読み取り可能なプログラム命令がロードされている。
コンピュータ読み取り可能な記憶媒体は、命令実行機器によって使用される命令を保持かつ記憶可能な有形な機器であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光記憶機器、電磁記憶機器、半導体記憶機器、又は、上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のさらに具体的な一例(非網羅的リスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的符号化装置、例えば命令が記憶されているパンチカード又は溝内の突起構造、及び、上記の任意の適当な組み合わせを含む。ここで使用するコンピュータ読み取り可能な記憶媒体は、過渡信号自体として解釈されなく、例えば、無線電波又は他の自由に伝送される電磁波、導波又は他の伝送媒体を介して伝送される電磁波(例えば、通信光ファイバケーブルの光パルス)、又は、電線を介して伝送される電信号として解釈されない。
ここで記述するコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能な記憶媒体から各計算/処理機器にダウンロードしてもよく、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、及び/又は、ワイヤレスネットワークなどのネットワークを介して、外部コンピュータ又は外部記憶機器にダウンロードしてもよい。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルータ、ファイアウォール、交換台、ゲートウェイコンピュータ、及び/又は、エッジサーバを含むことができる。それぞれの計算/処理機器中のネットワークネットワークアダプタカード、又は、ネットワークインタフェースは、ネットワークからコンピュータ読み取り可能プログラム命令を受信し、コンピュータ読み取り可能プログラム命令を転送することにより、各計算/処理機器中のコンピュータ読み取り可能な記憶媒体中に記憶されるようにする。
本発明の動作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、又は、少なくとも一つのプログラミング言語の任意組み合わせを利用して書かれたソースコード又はオブジェクトコードであってもよく、プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む。コンピュータ読み取り可能プログラム命令は、完全にユーザコンピュータ上で実行されてもよく、部分的にユーザコンピュータ上で実行されてもよく、一つの単独のソフトウェアパッケージとして実行されてもよく、一部がユーザコンピュータ上で実行されもう一部が遠隔コンピュータ上で実行されてもよく、又は、完全に遠隔コンピュータ又はサーバ上で実行されてもよい。遠隔コンピュータの場合、遠隔コンピュータは、ローカルエリアネットワーク(LAN)、又は、ワイドエリアネットワーク(WAN)などの任意の種類のネットワークを介して、ユーザコンピュータに接続されてもよく、又は、外部コンピュータ(例えばインターネットサービスプロバイダを利用してインターネットに接続される)されてもよい。本実施形態において、コンピュータ読み取り可能プログラム命令の状態信息を利用して電子回路をカスタマイズし、カスタマイズされる電子回路は、プログラミングロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又は、プログラミングロジックアレイ(PLA)などを含み、電子回路は、コンピュータ読み取り可能プログラム命令を実行することによって、本実施形態を実現することができる。
ここで本実施形態に係る身元認証方法、身元認証装置(システム)、及び、コンピュータプログラム製品のフローチャート、及び/又は、ブロック図を参照して、本発明の各態様を記述した。フローチャート、及び/又は、ブロック図のそれぞれのブロック及びフローチャート、及び/又は、ブロック図中の各ブロックの組み合わせは、いずれも、コンピュータ読み取り可能プログラム命令によって実現されることができることを、理解することができる。
これらコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、特殊用途コンピュータ、又は、他のプログラミングデータ処理装置の処理ユニットに供給されて、機械を製造することができる。このようにして、これら命令がコンピュータ又は他のプログラミングデータ処理装置の処理ユニットによって実行される際に、フローチャート及び/又はブロック図中の少なくとも一つのブロック中で定義された機能/動作を実現する装置をもたらす。さらに、これらコンピュータ読み取り可能プログラム命令をコンピュータ読み取り可能な記憶媒体中に記憶してもよく、これら命令は、コンピュータ、プログラミングデータ処理装置、及び/又は、他の機器が特定の方式で動作するようにする。したがって、命令が記憶されているコンピュータ読み取り可能な記憶媒体は、フローチャート及び/又はブロック図中の少なくとも一つのブロック中で定義された機能/動作を実現する各態様の命令を含む一つの製造物を含む。
さらに、コンピュータ読み取り可能プログラム命令を、コンピュータ、他のプログラミングデータ処理装置、又は、他の機器上にロードして、コンピュータ、他のプログラミングデータ処理装置、又は、他の機器上で一連の動作ステップを実行することによって、コンピュータによって実現される過程を体現する。したがって、コンピュータ、他のプログラミングデータ処理装置、又は、他の機器上で実行される命令が、フローチャート及び/又はブロック図中の少なくとも一つのブロック中で定義された機能/動作が実現するようにしてもよい。
図面中のフローチャート及びブロック図は、本発明の一実施形態に係る身元認証システム、身元認証方法、及び、コンピュータプログラム製品実現可能のアーキテクチャ、機能和動作を示した。この点において、フローチャート又はブロック図中のそれぞれのブロックは、一つのモジュール、プログラムセグメント又は命令の一部を代表することができ、モジュール、プログラムセグメント又は命令の一部は、少なくとも一つの指定されたロジック機能を実現する実行可能命令を含む。変形例において、ブロック中に示された機能は、図面中に示された順序とは異なる順序で実現されてもよい。例えば、二つの連続したブロックは、基本的に並列に実行されてもよく、それらは関与する機能に応じて逆の順序で実行されてもよい。ブロック図及び/又はフローチャート中のそれぞれのブロック、及びブロック図及び/又はフローチャート中のブロックの組み合わせは、指定された機能又は動作を実行する特殊用途のハードウェアに基づくシステムによって実現されてもよく、又は、特殊用途ハードウェアとコンピュータ命令との組み合わせによって実現されてもよいことを、注意する必要もある。
以上、本発明について記述したが、上記の説明は、例示的なものであって網羅的なものではなく、また、開示した実施形態に限定されるものではない。説明した実施形態の範囲と精神を逸脱しない場合、当業者にとっては多数の修正及び変更が明らかである。本明細書で使用される用語の選択は、実施形態の原理、実際の応用、又は、市場における技術に対する改良を、最もよく解釈することを意図しており、又は、当業者が本明細書で開示した実施形態を、最もよく理解するようにすることを意図している。

Claims (8)

  1. 身元認証方法であって、
    ユーザの音声信号を取得するステップと、
    前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成するステップと、
    前記特徴データに基づいて前記ユーザの身元を決定するステップとを含み、
    前記ユーザの身元を決定するステップが、
    前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定するステップと、
    前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得するステップと、
    前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定するステップとを含む身元認証方法。
  2. 前記複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む請求項1に記載の身元認証方法。
  3. 前記ユーザの身元に基づいて前記ユーザの権限を決定するステップと、
    前記ユーザの前記権限にマッチングされるタスクをトリガーして実行させるステップとをさらに含む請求項1に記載の身元認証方法。
  4. 身元認証装置であって、
    ユーザの音声信号を取得する第1の取得モジュールと、
    前記音声信号に基づいて、前記音声信号の異なる特性を示す複数の次元を有する特徴データを生成する生成モジュールと、
    前記特徴データに基づいて前記ユーザの身元を決定する第1の決定モジュールとを備え、
    該第1の決定モジュールが、
    前記特徴データに対して正規化処理を行って、前記特徴データのベクトル表現を決定し、教師なし学習モデルによって、前記特徴データのベクトル表現を受信し、前記特徴データのベクトル表現に基づいて、クラスタリングすることによって、前記音声信号のカテゴリーを決定する第4の決定モジュールと、
    前記音声信号のカテゴリーと前記ユーザの身元との間の対応関係を取得する第2の取得モジュールと、
    前記対応関係に基づいて、前記ユーザの身元を前記カテゴリーに対応する身元と決定する第5の決定モジュールとを備える身元認証装置。
  5. 前記複数の次元は、話速、ラウドネス、音調、周波数及び音色のうち少なくとも二つを含む請求項に記載の身元認証装置。
  6. 前記ユーザの身元に基づいて前記ユーザの権限を決定する第6の決定モジュールと、
    前記ユーザの前記権限にマッチングされるタスクをトリガーして実行させるトリガーモジュールとさらに備える請求項に記載の身元認証装置。
  7. 電子機器であって、
    少なくとも一つのプロセッサと、
    少なくとも一つのプログラムを記憶するメモリとを備え、
    少なくとも一つの前記プログラムが少なくとも一つの前記プロセッサによって実行される場合、前記電子機器が請求項1から請求項のいずれかに記載の身元認証方法を実現する電子機器。
  8. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1から請求項のいずれかに記載の身元認証方法が実現されるコンピュータ読み取り可能な記憶媒体。
JP2019129753A 2018-07-12 2019-07-12 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体 Active JP7123871B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810766166.2 2018-07-12
CN201810766166.2A CN109101801B (zh) 2018-07-12 2018-07-12 用于身份认证的方法、装置、设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2020013126A JP2020013126A (ja) 2020-01-23
JP7123871B2 true JP7123871B2 (ja) 2022-08-23

Family

ID=64846279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019129753A Active JP7123871B2 (ja) 2018-07-12 2019-07-12 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体

Country Status (4)

Country Link
US (1) US11294995B2 (ja)
JP (1) JP7123871B2 (ja)
KR (1) KR20200007673A (ja)
CN (1) CN109101801B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101801B (zh) * 2018-07-12 2021-04-27 北京百度网讯科技有限公司 用于身份认证的方法、装置、设备和计算机可读存储介质
CN110223710A (zh) * 2019-04-18 2019-09-10 深圳壹账通智能科技有限公司 多重联合认证方法、装置、计算机装置及存储介质
JP6700531B1 (ja) * 2020-01-20 2020-05-27 株式会社白紙とロック 認証方法、認証システム、スマートスピーカ及びプログラム
CN111833883A (zh) * 2020-08-26 2020-10-27 深圳创维-Rgb电子有限公司 一种语音控制方法、装置、电子设备及存储介质
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN113092984A (zh) * 2021-02-22 2021-07-09 福建星云电子股份有限公司 一种基于lcr电桥的物料检测方法、系统、设备及介质
CN114140856A (zh) * 2021-12-07 2022-03-04 广联达科技股份有限公司 人脸识别方法、装置、系统、计算机设备和可读存储介质
CN116186672B (zh) * 2023-04-20 2023-07-28 北京万讯博通科技发展有限公司 一种多特征变量的用户协同识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181490A (ja) 1998-12-18 2000-06-30 Fujitsu Ltd 利用者照合方法および利用者照合装置
JP3274597B2 (ja) 1995-12-28 2002-04-15 ミネベア株式会社 パルスジェネレータ
JP2007323318A (ja) 2006-05-31 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話者顔画像決定方法及び装置及びプログラム
JP2009251019A (ja) 2008-04-01 2009-10-29 Toyota Motor Corp 音声認識装置
JP2011175587A (ja) 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2816163B2 (ja) 1988-01-20 1998-10-27 株式会社リコー 話者照合方式
JPH03274597A (ja) 1990-03-26 1991-12-05 Nippon Telegr & Teleph Corp <Ntt> 話者認識方法
EP1429314A1 (en) 2002-12-13 2004-06-16 Sony International (Europe) GmbH Correction of energy as input feature for speech processing
JP2007052720A (ja) 2005-08-19 2007-03-01 Fujitsu Ltd 生体認証による情報アクセス方法及び生体認証による情報処理システム
CN102737634A (zh) * 2012-05-29 2012-10-17 百度在线网络技术(北京)有限公司 一种基于语音的认证方法及装置
JP6087542B2 (ja) 2012-08-31 2017-03-01 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
KR20140139982A (ko) 2013-05-28 2014-12-08 삼성전자주식회사 전자 장치의 음성인식을 수행하는 방법 및 이를 사용하는 전자 장치
CN108535839B (zh) 2013-07-04 2022-02-08 核心光电有限公司 小型长焦透镜套件
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
CN104834847B (zh) * 2014-02-11 2019-03-08 腾讯科技(深圳)有限公司 身份验证方法及装置
US9686275B2 (en) * 2014-07-07 2017-06-20 International Business Machines Corporation Correlating cognitive biometrics for continuous identify verification
CN105357006A (zh) * 2014-08-20 2016-02-24 中兴通讯股份有限公司 一种基于声纹特征进行安全认证的方法及设备
US20170178135A1 (en) * 2015-12-16 2017-06-22 Alegeus Technologies, Llc Systems and methods for notifications using a multi-purse card
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
WO2018045553A1 (zh) * 2016-09-09 2018-03-15 上海海知智能科技有限公司 人机交互的系统及方法
CN107886951B (zh) * 2016-09-29 2021-07-23 百度在线网络技术(北京)有限公司 一种语音检测方法、装置及设备
WO2018084576A1 (en) * 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
US10614813B2 (en) * 2016-11-04 2020-04-07 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
US20180146370A1 (en) * 2016-11-22 2018-05-24 Ashok Krishnaswamy Method and apparatus for secured authentication using voice biometrics and watermarking
CN106506524B (zh) 2016-11-30 2019-01-11 百度在线网络技术(北京)有限公司 用于验证用户的方法和装置
CN106961418A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 身份认证方法和身份认证系统
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统
US11257482B2 (en) * 2017-03-20 2022-02-22 Samsung Electronics Co., Ltd. Electronic device and control method
CN110770717B (zh) * 2017-05-17 2024-04-16 谷歌有限责任公司 通过通信网络与指定用户的自动图像共享
CN107221331A (zh) * 2017-06-05 2017-09-29 深圳市讯联智付网络有限公司 一种基于声纹的身份识别方法和设备
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition
WO2018237247A1 (en) * 2017-06-23 2018-12-27 Ascension Health Alliance SYSTEMS AND METHODS OF USING ARTIFICIAL INTELLIGENCE CONTROL UNIT BASED ON VOICE
CN109327421A (zh) * 2017-08-01 2019-02-12 阿里巴巴集团控股有限公司 数据加密、机器学习模型训练方法、装置及电子设备
US12125011B2 (en) * 2017-10-03 2024-10-22 Jon Castor Facilitating disparate convenience services via a common user interface
CN108040032A (zh) * 2017-11-02 2018-05-15 阿里巴巴集团控股有限公司 一种声纹认证方法、账号注册方法及装置
KR102420567B1 (ko) * 2017-12-19 2022-07-13 삼성전자주식회사 음성 인식 장치 및 방법
CN108174012A (zh) * 2017-12-25 2018-06-15 维沃移动通信有限公司 一种权限控制方法及移动终端
US10542407B2 (en) * 2018-06-02 2020-01-21 T-Mobile Usa, Inc. Detecting safety concerns via subscriber safety control (SSC) system
WO2020014425A1 (en) * 2018-07-11 2020-01-16 Visa International Service Association Privacy-preserving graph compression with automated fuzzy variable detection
CN109101801B (zh) * 2018-07-12 2021-04-27 北京百度网讯科技有限公司 用于身份认证的方法、装置、设备和计算机可读存储介质
US11361330B2 (en) * 2018-08-22 2022-06-14 Bank Of America Corporation Pattern analytics system for document presentment and fulfillment
US11159597B2 (en) * 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing
KR20210016829A (ko) * 2019-08-05 2021-02-17 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
US11341485B2 (en) * 2019-08-06 2022-05-24 Bank Of America Corporation Machine learning based system for authorization of autonomous resource transfers between distributed IOT components
US11374976B2 (en) * 2019-10-15 2022-06-28 Bank Of America Corporation System for authentication of resource actions based on multi-channel input

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3274597B2 (ja) 1995-12-28 2002-04-15 ミネベア株式会社 パルスジェネレータ
JP2000181490A (ja) 1998-12-18 2000-06-30 Fujitsu Ltd 利用者照合方法および利用者照合装置
JP2007323318A (ja) 2006-05-31 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> 話者顔画像決定方法及び装置及びプログラム
JP2009251019A (ja) 2008-04-01 2009-10-29 Toyota Motor Corp 音声認識装置
JP2011175587A (ja) 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> ユーザ判定装置、方法、プログラム及びコンテンツ配信システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
堅田洋資(外3名)、「フリーライブラリで学ぶ機械学習入門」、株式会社秀和システム、2017年、p.116~117
王龍標(外3名)、「話者認識におけるロバストネス」、日本音響学会誌、2013年7月、69巻、7号、p.357~364

Also Published As

Publication number Publication date
US11294995B2 (en) 2022-04-05
CN109101801B (zh) 2021-04-27
JP2020013126A (ja) 2020-01-23
CN109101801A (zh) 2018-12-28
US20200019687A1 (en) 2020-01-16
KR20200007673A (ko) 2020-01-22

Similar Documents

Publication Publication Date Title
JP7123871B2 (ja) 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体
JP6613347B2 (ja) 情報をプッシュする方法及び装置
CN111226274B (zh) 自动阻止音频流中包含的敏感数据
EP3327720B1 (en) User voiceprint model construction method and apparatus
CN109428719B (zh) 一种身份验证方法、装置及设备
US8898063B1 (en) Method for converting speech to text, performing natural language processing on the text output, extracting data values and matching to an electronic ticket form
US11252152B2 (en) Voiceprint security with messaging services
CN109462482B (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
KR20160011709A (ko) 지불 확인을 위한 방법, 장치 및 시스템
CN111883140A (zh) 基于知识图谱和声纹识别的认证方法、装置、设备及介质
JP2022546185A (ja) 音声コマンドの識別
EP3989217A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
US10614815B2 (en) Conversational challenge-response system for enhanced security in voice only devices
CN104462912B (zh) 改进的生物密码安全
CN108510290A (zh) 通话中客户信息修改方法、装置、计算机设备及存储介质
CN111768789B (zh) 电子设备及其语音发出者身份确定方法、装置和介质
CN113435196A (zh) 意图识别方法、装置、设备及存储介质
KR101181060B1 (ko) 음성 인식 시스템 및 이를 이용한 화자 인증 방법
US10628567B2 (en) User authentication using prompted text
US20230386453A1 (en) Method for detecting an audio adversarial attack with respect to a voice command processed byan automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN112786041B (zh) 语音处理方法及相关设备
TW201944320A (zh) 支付認證方法、裝置、設備及存儲介質
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
KR100373989B1 (ko) 음절 인식을 이용한 사용자 인증 방법 및 사용자 인증시스템
CN115050390B (zh) 一种语音隐私保护方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211129

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211129

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211207

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211214

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220210

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220215

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220524

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220628

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220802

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220810

R150 Certificate of patent or registration of utility model

Ref document number: 7123871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150