JP2020173381A - 話者認識方法、話者認識装置、話者認識プログラム、データベース作成方法、データベース作成装置、及びデータベース作成プログラム - Google Patents

話者認識方法、話者認識装置、話者認識プログラム、データベース作成方法、データベース作成装置、及びデータベース作成プログラム Download PDF

Info

Publication number
JP2020173381A
JP2020173381A JP2019076058A JP2019076058A JP2020173381A JP 2020173381 A JP2020173381 A JP 2020173381A JP 2019076058 A JP2019076058 A JP 2019076058A JP 2019076058 A JP2019076058 A JP 2019076058A JP 2020173381 A JP2020173381 A JP 2020173381A
Authority
JP
Japan
Prior art keywords
speaker
database
voice
target
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019076058A
Other languages
English (en)
Other versions
JP7266448B2 (ja
Inventor
美沙貴 辻川
Misaki Tsujikawa
美沙貴 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2019076058A priority Critical patent/JP7266448B2/ja
Priority to US16/843,595 priority patent/US11315573B2/en
Priority to CN202010272602.8A priority patent/CN111816184B/zh
Priority to CN202410118466.5A priority patent/CN117953900A/zh
Publication of JP2020173381A publication Critical patent/JP2020173381A/ja
Application granted granted Critical
Publication of JP7266448B2 publication Critical patent/JP7266448B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】計算量を増大させることなく本人であるか否かの識別精度を向上させる。【解決手段】対象話者が発話した音声を示す対象音声信号を取得し、対象話者が本人と主張する人物の識別情報である対象識別情報を取得し、対象音声信号の特徴量である第1特徴量を計算し、第1データベースから対象識別情報が対応付けられた音声情報を含むグループを選択し、選択したグループに含まれる音声情報及び第1特徴量の類似度と、第2データベースに記憶された対象識別情報が対応付けられた音声情報及び第1特徴量の類似度である対象類似度とを計算し、計算した類似度における、対象類似度の順位を計算し、順位が所定の第1順位以内の場合、対象話者は本人と判定する。【選択図】図3

Description

本開示は、音声信号を用いて話者が本人であるか否かを認識する技術に関するものである。
近年、未知の対象話者の音声信号を取得し、取得した音声信号に基づいて対象話者が本人であるか否かを識別する技術が知られている。例えば、特許文献1には、対象話者の音声信号を取得してi−vectorと呼ばれる特徴量を計算し、計算した特徴量と、大規模データベースに記憶された不特定話者及び登録話者のそれぞれの音声情報との類似度を計算し、計算した類似度において、対象話者が本人と主張する登録話者の音声情報の類似度の順位を計算し、その順位が所定順位以内であれば、本人であると判定する技術が開示されている。
特開2017−223848号公報
しかし、特許文献1において、本人であるか否かの識別精度を上げるためには、大規模音声データベースに登録された不特定話者の音声情報の数を増大させる必要があり、その結果、計算量が増大するという課題があり、更なる改善の必要がある。
本開示の目的は、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる話者認識方法等を提供することである。
本開示の一態様は、コンピュータが、複数の不特定話者の音声を示す音声情報を記憶する第1データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第2データベースとを用いて話者を認識する話者認識方法であって、前記第1データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされており、対象話者が発話した音声を示す対象音声信号を取得し、前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得し、前記対象音声信号の特徴量である第1特徴量を計算し、前記第1データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択し、選択した前記グループに含まれる前記音声情報及び前記第1特徴量の類似度と、前記第2データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第1特徴量の類似度である対象類似度とを計算し、計算した前記類似度における、前記対象類似度の順位を計算し、前記順位が所定の第1順位以内の場合、前記対象話者は本人と判定する。
本開示によれば、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる。
本開示の知見を裏付けるために女性を対象として行った実験の結果を示すグラフである。 本開示の知見を裏付けるために男性を対象として行った実験の結果を示すグラフである。 本開示の実施の形態に係る話者認識装置の構成の一例を示すブロック図である。 第1データベースのデータ構成の一例を示す図である。 第2データベースのデータ構成の一例を示す図である。 本開示の実施の形態における話者認識装置の処理の一例を示すフローチャートである。 出力装置が出力するメッセージの一例を示す図である。 出力装置が出力するメッセージの一例を示す図である。 本開示の実施の形態におけるデータベース作成装置の処理の一例を示すフローチャートである。 本開示の変形例に係る話者認識装置の構成の一例を示すブロック図である。 本開示の変形例に係るデータベース作成装置の構成の一例を示すブロック図である。
(本開示の一態様に至る経緯)
近年、本人のなりすましを防止するために、対象者が発話した音声を用いる技術が注目されている。例えば、ネットバンキングにおいては、対象者に対して識別情報を入力させると共に音声を発話させ、識別情報と発話された音声の特徴とが所定の条件を満たした場合に対象者を本人と識別するサービスが開始されている。さらに、部屋の入退室システムにおいて、例えば、カードに記録された識別情報をカードリーダに読み取らせた上で、対象者に発話をさせ、識別情報と発話された音声を示す音声信号の特徴量とが所定の条件を満たした場合に入退室を許可する運用も検討され始めている。
このようなサービス及び運用に適用可能な技術として上述の特許文献1がある。特許文献1では、対象話者が発話した音声信号の特徴量と大規模データベースに記憶された不特定話者及び登録話者のそれぞれの音声情報との類似度を計算し、計算した類似度において、対象話者が本人と主張する登録話者の音声情報の類似度の順位を計算し、順位が所定順位以内の場合に本人であると判定する技術が開示されている。
しかし、特許文献1において、本人であるか否かの識別精度を上げるためには大規模データベースに記憶される不特定話者の音声情報の個数を増やす必要があり、これによって、計算量が増大して、本人であるか否かの判定に時間がかかるという課題がある。さらに、特許文献1では、対象話者の発話期間が短い場合、本人であるか否かの識別精度が低下するというという課題もある。
そこで、本発明者は、計算量を増大させることなく本人であるか否かの識別精度を向上させる手法を検討した。すると、特許文献1において、上述の類似度を計算するに際し、大規模データベースに記憶された全ての不特定話者の音声情報を用いるのではなく、対象話者が本人と主張する識別情報と特徴が類似する不特定話者の音声情報をピックアップし、ピックアップした音声情報のみを用いた方が、本人であるか否かの識別精度が向上するとの知見が得られた。さらに、この手法を用いると、対象話者の発話期間が短い場合においても本人であるか否かの識別精度が向上するとの知見も得られた。
図1は、本開示の知見を裏付けるために女性を対象として行った実験の結果を示すグラフであり、上段は本開示の手法(本手法)を用いた場合のグラフであり、下段は特許文献1(比較例)の手法を用いた場合のグラフである。両グラフとも縦軸は誤り率を示し、横軸は発話時間を示している。
本実験では、0.4秒、0.8秒、1.2秒、2.0秒というように複数の発話時間のそれぞれについて、不特定話者の人数を3268名、1634名、817名、409名、204名、102名、51名、26名とした場合の誤り率が算出された。
誤り率とは、特許文献1に示されるように、本人であるはずの音声を他者と判定してしまう確率(本人拒否率)を縦軸とし、所定順位を横軸としたときの両者の関係を示す右肩上がりのグラフと、詐称者であるはずの音声を本人と判定してしまう確率(他者受入率)を縦軸とし、所定順位を横軸としたときの両者の関係を示す右肩下がりのグラフとの交点の縦軸の値である。
本手法では、不特定話者の音声情報として、対象話者の音声情報の特徴量に対する類似度が高い順に3268名、1634名、817名、409名、204名、102名、51名、26名の音声情報が用いられた。これに対して、比較例では不特定話者の音声情報としてランダムに抽出された3268名、1634名、817名、409名、204名、102名、51名、26名の音声情報が用いられた。
図1の上段及び下段のグラフにおいて、各発話時間における6本のバーは、左から順に不特定話者の人数を3268名、1634名、817名、409名、204名、102名、51名、26名としたときの誤り率が示されている。
上段及び下段のグラフに示されるように、本手法及び比較例とも発話時間が増大するにつれて誤り率が減少したが、全体的に本手法の方が誤り率が低下するという結果が得られた。特に、比較例では、各発話時間において不特定話者の人数が減少するにつれて誤り率が増大したのに対し、本手法ではこのような傾向は現れなかった。具体的には、本手法では、「1.2秒」及び「2.0秒」の長い発話時間においては、不特定話者の人数にかかわらず、誤り率は2.00%以下の低い値が維持された。また、本手法では、「0.4秒」、「0.8秒」秒の短い発話時間においては、不特定話者の人数が減少するにつれて誤り率が減少した。以上のことから、本手法では、不特定話者の人数を「3268名」から「26名」に減らしても誤り率は増大せず、むしろ減少することが分かった。よって、本手法では、不特定話者の人数を減らすことで本人であるか否かの識別精度を向上でき、それによって、計算量を削減できることが分かった。さらに、本手法では、発話時間が短い場合であっても、不特定話者の人数を減らすことで、本人であるか否かの識別精度を向上できることが分かった。
このような実験結果が得られたのは、例えば、能力が類似する者同士で競争した場合、順位が上げるのが困難であり、そのため、能力が類似する者同士で競争した場合の順位は、そうでない場合の順位に比べて信頼度が高くなるという経験則が反映されているものと推測される。
図2は、本開示の知見を裏付けるために男性を対象として行った実験の結果を示すグラフであり、上段は本開示の手法(本手法)を用いた場合のグラフであり、下段は特許文献1(比較例)の手法を用いた場合のグラフである。図2における実験内容は、図1のものと同じである。図2においても、図1と同様の実験結果が得られた。したがって、本手法は性別を問わず有効であることが示された。
以上の知見を踏まえて、本発明者は以下に示す各態様を想到するに至った。
本開示の一態様は、コンピュータが、複数の不特定話者の音声を示す音声情報を記憶する第1データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第2データベースとを用いて話者を認識する話者認識方法であって、前記第1データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされており、対象話者が発話した音声を示す対象音声信号を取得し、前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得し、前記対象音声信号の特徴量である第1特徴量を計算し、前記第1データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択し、選択した前記グループに含まれる前記音声情報及び前記第1特徴量の類似度と、前記第2データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第1特徴量の類似度である対象類似度とを計算し、計算した前記類似度における、前記対象類似度の順位を計算し、前記順位が所定の第1順位以内の場合、前記対象話者は本人と判定する。
本態様によれば、複数の不特定話者の音声情報を記憶する第1データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられて、グルーピングされている。
そして、第1データベースから、対象話者が本人と主張する人物の対象識別情報に対応付けられた音声情報を含むグループが選択され、対象音声信号の特徴量である第1特徴量と、選択されたグループに含まれる音声情報との類似度が計算される。そして、計算した類似度における、第2データベースに記憶された対象識別情報に対応する音声情報と第1特徴量との類似度である対象類似度の順位が計算され、順位が第1順位以内の場合、対象話者は本人と判定される。
このように、本構成では、類似度を計算するに際し、第1データベースに記憶された不特定話者の全ての音声情報を用いるのではなく、選択したグループに含まれる音声情報、すなわち、対象話者が本人と主張する人物の音声情報に類似する不特定話者の音声情報が用いられている。そのため、本構成は、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる。さらに、本態様は、発話時間が短い場合においても本人であるか否かの識別精度を向上させることができる。
上記構成において、さらに、計算した前記類似度の分散又は標準偏差を計算し、さらに、前記分散又は前記標準偏差が減少するにつれて前記第1順位を上昇させてもよい。
本構成によれば、計算した類似度の分散又は標準偏差が減少するにつれて第1順位が上昇される。そのため、選択されたグループが第1特徴量との類似度が高い音声情報で構成されている場合、第1順位が上昇されて、本人と判定され難くなる結果、本人であるか否かの識別精度を向上させることができる。
上記構成において、前記対象識別情報は、前記対象話者により入力された前記識別情報であってもよい。
本構成によれば、対象話者によって対象識別情報が入力されるため、対象識別情報を容易に取得できる。
上記構成において、前記対象音声信号は、前記対象話者が本人と主張する発話内容を含み、前記対象識別情報は、前記対象音声信号を音声認識することで得られる前記発話内容であってもよい。
本構成によれば、例えば、本人と主張する人物の名前を対象話者に発話させることにより、対象識別情報と対象音声信号とが取得できるため、対象話者が別途対象識別情報を入力する必要がなくなり、対象話者の手間を省くことができる。
上記構成において、さらに、前記対象話者が本人であるか否かの判定結果を提示してもよい。
本構成によれば、対象話者が本人であるか否かの判定結果が提示されるため、対象話者は、自身の主張が受け入れられたか否かを確認できる。
上記構成において、前記第1データベースが記憶する前記音声情報は、前記不特定話者の音声信号を含み、前記第2データベースが記憶する前記音声情報は、前記登録話者の前記音声信号を含み、さらに、前記不特定話者の前記音声信号と前記第2データベースに記憶された前記対象識別情報に対応する前記音声信号とのそれぞれの特徴量を第2特徴量として計算し、前記類似度の計算では、前記第1特徴量と前記第2特徴量との前記類似度を計算してもよい。
本構成によれば、第1データベース及び第2データベースには音声情報として音声信号が記憶されており、記憶された音声信号から第2特徴量が計算されるため、第1データベース及び第2データベースに対して特徴量を予め記憶させる必要がない。そのため、第1データベース及び第2データベースを容易に作成できる。
上記構成において、前記第1データベースが記憶する前記音声情報は、前記不特定話者の音声信号の特徴量を含み、前記第2データベースが記憶する前記音声情報は、前記登録話者の前記音声信号の前記特徴量であってもよい。
本構成によれば、第1データベース及び第2データベースには音声情報として音声信号の特徴量が記憶されているため、第1データベース及び第2データベースに記憶された音声信号から特徴量を算出する処理を行うことなく類似度を計算できる。
上記構成において、前記第1データベースは、前記複数の登録話者のそれぞれについて、前記複数の不特定話者に対する前記類似度の前記順位が所定の第2順位以内の前記音声情報を抽出することでグルーピングされたものであり、前記第2順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数であってもよい。
本構成によれば、第1データベースを構成する複数のグループのそれぞれに含まれる音声情報の個数を同じ個数にすることができ、第1データベースを整然とグルーピングできる。さらに、第2順位が、誤り率を最小化するために予め決定された不特定話者の最小人数に設定されているため、類似度を算出する際の計算量の削減と、識別精度の向上とを図ることができる。
本開示の別の一態様は、コンピュータが、話者認識を行うためのデータベースを作成するデータベース作成方法であって、複数の不特定話者の音声を示す音声情報を取得し、複数の登録話者のそれぞれの識別情報及び前記音声情報を取得し、前記複数の登録話者の音声情報と、前記複数の不特定話者の前記音声情報との特徴量の類似度を計算し、前記複数の登録話者のそれぞれについて、前記類似度が所定の第1条件を満たす不特定話者の前記音声情報を抽出し、前記複数の登録話者のそれぞれについて、登録話者の前記識別情報と、前記登録話者ごとに抽出した前記音声情報とを対応付けることで前記不特定話者の前記音声情報をグルーピングしてデータベースを作成する。
本構成によれば、複数の登録話者のそれぞれについて、類似度が所定の第1条件を満たす不特定話者の音声情報が抽出され、複数の登録話者のそれぞれについて、登録話者の識別情報と、抽出した不特定話者の音声情報とを対応付けることで不特定話者の音声情報がグルーピングされてデータベースが作成される。これにより、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる話者認識方法を実現するデータベースを作成できる。
上記構成において、前記第1条件は、前記類似度が所定順位以内であり、前記所定順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数であってもよい。
本構成によれば、第1データベースを構成する複数のグループのそれぞれに含まれる音声情報の個数を同じ個数にすることができ、第1データベースを整然とグルーピングできる。さらに、所定順位が、誤り率を最小化するために予め決定された不特定話者の最小人数に設定されているため、類似度を算出する際の計算量の削減と、識別精度の向上とを図ることができる。
上記構成において、前記第1条件は、前記類似度が所定値以上であるという条件であってもよい。
本構成によれば、第1データベースの各グループを対応する登録話者に対して類似度が所定値以上である音声情報で構成できる。
本開示は、このような話者認識方法に含まれる特徴的な各構成をコンピュータに実行させる話者認識プログラム、或いは話者認識装置として実現することもできる。また、このような話者認識プログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。このことはデータベース作成方法、データベース作成装置、及びデータベース作成プログラムについても同じである。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
図3は、本開示の実施の形態に係る話者認識装置1の構成の一例を示すブロック図である。話者認識装置1は、プロセッサ10、メモリ20、及び出力装置50を含む。プロセッサ10には、入力装置30及び収音装置40が接続されている。話者認識装置1は、入力装置30及び収音装置40を含んでもよいし、含んでいなくてもよい。
入力装置30は、例えばキーボード、マウス、及びタッチパネルなどの入力装置であり、認識対象となる話者である対象話者の識別情報である対象識別情報が対象話者によって入力される。なお、入力装置30は、カードリーダ、RFIDリーダなどで構成されていてもよい。この場合、対象話者は、対象識別情報が記録されたカードをカードリーダに読み取らせる、又は対象識別情報が記録されたRFIDタグをRFIDリーダに読み取らせることによって対象識別情報を入力する。対象話者は本人であるか否かが未知の人物である。したがって、基本的には、対象話者が本人の場合、対象識別情報は対象話者の識別情報となり、対象話者が詐称者の場合、対象識別情報は対象話者とは異なる人物の識別情報となる。
収音装置40は、例えばマイクロフォンであり、対象話者が発話した音声を収音し、音声信号に変換し、プロセッサ10に入力する。
プロセッサ10は、CPUで構成されてもよいし、専用の電気回路で構成されてもよい。プロセッサ10は、音声取得部11、識別情報取得部12、特徴量計算部13、選択部14、類似度計算部15、順位計算部16、判定部17、及び補正部18を含む。
音声取得部11は、対象話者が発話した音声を示す対象音声信号を収音装置40から取得し、特徴量計算部13に入力する。識別情報取得部12は、対象話者が本人と主張する人物の識別情報である対象識別情報を入力装置30から取得し、選択部14及び類似度計算部15に入力する。
なお、対象話者に対して本人と主張する発話を行わせることにより、対象識別情報を取得する態様が採用されてもよい。この場合、識別情報取得部12は、収音装置40が収音した対象音声信号に対して音声認識処理を適用して、対象音声信号に含まれる対象話者が本人と主張する発話内容を取得し、取得した発話内容を示すテキストを対象識別情報として取得してもよい。対象話者が本人と主張する発話内容としては、例えば、「太郎」、「花子」といった、本人の名前が採用できる。これにより、対象話者に対象識別情報の入力を課すことなく対象識別情報を取得できる。
特徴量計算部13は、対象音声信号の特徴量である第1特徴量を計算し、類似度計算部15に入力する。特徴量は、例えば、i−vector、x−vectorなどである。特徴量計算部13は、多数の音声信号を用いて事前に学習された、音声信号を入力とし、特徴量を出力とする学習モデルを備えている。特徴量計算部13は、この学習モデルに対象音声信号を入力し、出力された特徴量を第1特徴量として計算する。例えば、特徴量がx−vectorの場合、この学習モデルはディープニューラルネットワークで構成される。
選択部14は、第1データベース21から対象識別情報が対応付けられた音声情報を含むグループを選択する。図4は、第1データベース21のデータ構成の一例を示す図である。第1データベース21は、複数の不特定話者の音声を示す音声情報を記憶するデータベースであり、複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の音声情報が、対応する登録話者の識別情報と予め対応付けられてグルーピングされたデータベースである。
具体的には、第1データベース21は、登録話者ID、音声情報ID、及び音声情報の列を含む。登録話者IDは、登録話者の識別情報である。登録話者は、後述する第2データベース22において登録話者IDと音声情報とが事前に対応付けて記憶された人物である。入力装置30からカードリーダに対象話者のカードを読み取らせることによって対象識別情報を取得する態様が採用される場合、登録話者IDは例えばカードに記録された識別情報を示す記号列で構成される。一方、対象音声信号を音声認識して対象識別情報を取得する態様が採用される場合、登録話者IDは例えば名前で構成される。これらのことは、第2データベース22の登録話者IDも同じである。
本実施の形態では、第1データベース21は、複数の登録話者の音声情報のそれぞれについて、不特定話者の音声情報との類似度を計算して類似度が大きい順に順位付けし、所定の第2順位以内の不特定話者の音声情報を抽出することで複数のグループに区分されている。したがって、登録話者IDを指定することで、第1データベース21から1つのグループに含まれる不特定話者の音声情報が取得される。
図1の実験結果によると、不特定話者の人数を「3268名」、「1634名」などの大人数に設定するよりも、「51名」、「26名」などの少人数に設定した方が、各発話時間において誤り率を小さくできることが分かる。そこで、第2順位としては、例えば、「51名」又は「26名」などの複数の発話時間を通じて全体的に誤り率を最小化できる不特定話者の最少人数が採用できる。
音声情報IDは、不特定話者の音声情報を識別するための識別情報である。不特定話者とは、音声情報が第1データベース21に記憶された人物である。音声情報IDは、単に音声情報を特定するための識別情報であるに過ぎず、人物の識別情報は対応付けられていない。そのため、音声情報IDから特定の人物は特定できない。したがって、不特定話者とは、第1データベース21に単に音声情報が登録されているだけの不特定の人物である。
音声情報の列には、不特定話者の音声情報が記憶されている。音声情報は例えば上述の特徴量が採用できる。この場合、音声情報の列には、上述の学習モデルに不特定話者の音声信号を入力することで事前に得られた特徴量が記憶される。但し、これは一例であり、音声情報の列には、不特定話者の音声信号が記憶されていてもよい。この場合、特徴量計算部13は、対象音声信号に加えて選択部14によって選択されたグループに含まれる不特定話者の音声信号の特徴量を計算し、類似度計算部15に入力すればよい。音声情報が特徴量である場合、音声情報の列に示されるY1,Y2,・・・の数列は特徴量を示す多次元ベクトルを示す。音声情報が音声信号である場合、音声情報の列に示されるY1,Y2,・・・の数列は音声信号の波形データを示す。
例えば、登録話者ID「A」の対象識別情報が入力された場合、選択部14は、登録話者ID「A」のグループに含まれる音声情報を第1データベース21の中から選択し、類似度計算部15に入力する。
図3に参照を戻す。類似度計算部15は、選択部14により選択された不特定話者の音声情報と第1特徴量との類似度を計算する。さらに、類似度計算部15は、識別情報取得部12から入力された対象識別情報に対応する音声情報を第2データベース22から取得し、取得した音声情報と第1特徴量との類似度を対象類似度として計算する。そして、類似度計算部15は、算出した類似度と対象類似度とを順位計算部16及び補正部18に入力する。具体的には、類似度計算部15は、類似度を音声情報IDと対応付けて順位計算部16に入力すると共に、対象類似度を対象識別情報(登録話者ID)と対応付けて順位計算部16に入力すればよい。
第2データベース22は、複数の登録話者の識別情報と音声情報とを対応付けて記憶するデータベースである。図5は、第2データベース22のデータ構成の一例を示す図である。第2データベース22は、登録話者ID及び音声情報の列を含む。登録話者IDは、登録話者の識別情報である。音声情報の列には登録話者の音声情報が記憶されている。音声情報は、第1データベース21の場合と同様、特徴量である。但し、これは一例であり、音声情報は、第1データベース21において説明したように、音声信号であってもよい。
例えば、登録話者ID「A」の対象識別情報が入力された場合、類似度計算部15は、1行目の音声情報を第2データベース22から取得し、その音声情報と第1特徴量との類似度を対象類似度として算出する。
なお、類似度としては、ユークリッド距離、コサイン類似度、マハラノビス距離などの類似指標が採用できる。類似しているほど値が減少する類似指標が類似度として採用される場合、例えば、類似度は類似指標の逆数が採用される。これにより、類似度は、類似性が高いほど値が増大する。
図3に参照を戻す。順位計算部16は、類似度計算部15から入力された類似度における、対象類似度の順位を計算し、判定部17に入力する。ここで、順位計算部16は、類似度計算部15から入力された類似度及び対象類似度を高い順に並べたときの対象類似度が何番目に位置するかを特定することで対象類似度の順位を計算すればよい。
判定部17は、補正部18から補正された第1順位を取得し、順位計算部16から入力された対象類似度の順位が第1順位以内の場合、対象話者は本人であると判定する。一方、判定部17は、順位計算部16から入力された対象類似度の順位が第1順位より大きい場合、対象話者は本人ではないと判定する。なお、本開示では、補正部18は省かれてもよく、この場合、判定部17は、第1順位記憶部23から第1順位を取得すればよい。
補正部18は、類似度計算部15から入力された対象類似度及び類似度を含む母集団の分散を計算し、分散が減少するにつれて第1順位を上昇させて、判定部17に入力する。一方、補正部18は、類似度計算部15から入力された対象類似度及び類似度を含む母集団の分散が増大するにつれて第1順位を低下させる。第1順位は、例えば分散の値に対して段階的に増減されてもよいし、連続的に増減されてもよい。段階的に増減させる場合、例えば、補正部18は、分散を区分する複数の階級と、各階級に対する第1順位の増減値とが予め対応付けられた補正テーブルを用いて、計算した分散に対応する第1順位の増減値を特定すればよい。ここでは、補正部18は、対象類似度及び類似度を含む母集団の分散を計算したが、分散に代えて標準偏差を計算してもよい。また、補正部18は、分散又は標準偏差を算出するに際し、母集団から対象類似度を省いてもよい。
出力装置50は、ディスプレイ及びスピーカを含み、判定部17による判定結果を出力する。出力装置50は、本人と判定した場合、認証が許可されたことを示すメッセージをディスプレイ及び/又はスピーカに出力する。一方、出力装置50は、本人と判定されなかった場合、認証が許可されなかったことを示すメッセージをディスプレイ及び/又はスピーカに出力する。
メモリ20は、例えばEEPROMなどの不揮発性メモリであり、図4で説明した第1データベース21、図5で説明した第2データベース22の他、第1順位記憶部23を含む。第1順位記憶部23は、判定部17が対象話者が本人であるか否かを判定するために使用する第1順位を記憶する。
第1順位は、特許文献1と同様、以下の手法により決定される。すなわち、多数の開発用話者の音声信号(以下、登録音声信号と呼ぶ。)を用意し、そのうちある1名の話者Aを選出し、残りを詐称者と考える。そして、ある閾値(例えば、100位)を設定し、話者Aが実際に発話した音声信号と全開発用話者の登録音声信号との特徴量の類似度が算出され、話者Aが発話した音声信号と話者Aの登録音声信号との特徴量の類似度の順位が算出され、その順位が100位よりも大きければ、本人拒否と判定される。
また、話者A以外の詐称者が実際に発話した音声信号と全開発用話者の登録音声信号との特徴量の類似度が算出され、詐称者が発話した音声信号と話者Aの登録音声信号との特徴量の類似度の順位が算出され、その順位が100位以内であれば他人受入とされる。
この本人拒否と他人受入との判定が、話者Aを変更させながら順次実行され、閾値が100位における本人拒否率と他人受入率とがそれぞれ算出される。そして、100位以内までは10位刻み、100位以上は100位刻みというようにして閾値が変化され、閾値に応じた本人拒否率と他人受入率とが算出される。これにより、本人拒否率を縦軸とし、閾値を横軸としたときの両者の関係を示す右肩上がりのグラフと、他者受入率を縦軸とし、閾値を横軸としたときの両者の関係を示す右肩下がりのグラフとが得られ、両グラフの交点が算出され、その交点の閾値が第1順位として決定される。
次に、本実施の形態における話者認識装置1の処理について説明する。図6は、本開示の実施の形態における話者認識装置1の処理の一例を示すフローチャートである。まず、音声取得部11は、収音装置40が収音した対象音声信号を取得する(ステップS1)。次に、識別情報取得部12は、入力装置30又は収音装置40に収音された対象音声信号から対象識別情報を取得する(ステップS2)。
次に、特徴量計算部13は、対象音声信号を学習モデルに入力し第1特徴量を計算する(ステップS3)。次に、選択部14は、対象識別情報(登録話者ID)に対応するグループを第1データベース21から選択し、選択したグループに含まれる不特定話者の音声情報を類似度計算部15に入力する(ステップS4)。
次に、類似度計算部15は、選択されたグループに含まれる不特定話者の音声情報と第1特徴量との類似度を計算すると共に、第2データベース22に記憶された対象識別情報(登録話者ID)に対応する音声情報と第1特徴量との対象類似度を計算する(ステップS5)。
次に、順位計算部16は、類似度計算部15で計算された類似度における対象類似度の順位を計算する(ステップS6)。次に、補正部18は、類似度計算部15により計算された対象類似度及び類似度の分散を計算する(ステップS7)。
次に、補正部18は、計算された分散が減少するにつれて第1順位を上昇させ、計算された分散が増大するにつれて第1順位を低下させるように第1順位を補正する(ステップS8)。
次に、判定部17は、対象類似度の順位と補正された第1順位とを比較することで対象話者が本人であるか否かを判定する(ステップS9)。対象類似度の順位が第1順位以内の場合、判定部17は対象話者を本人と判定し(ステップS10でYES)、処理をステップS11に進める。一方、対象類似度の順位が第1順位より大きい場合(ステップS10でNO)、判定部17は対象話者を本人ではないと判定し(ステップS10でNO)、処理をステップS12に進める。
ステップS11において、出力装置50は、対象話者が本人と判定されたため、認証が許可されたことを示すメッセージを出力する。ステップS12において、出力装置50は、対象話者が本人でないと判定されたため、認証が許可されなかったことを示すメッセージを出力する。
図7は、出力装置50が出力するメッセージの一例を示す図である。図7において、画面G71は、対象話者が本人と判定された場合にディスプレイに表示される画面であり、画面G72は対象話者が本人と判定されなかった場合にディスプレイに表示される画面である。画面G71に示すように、対象話者が本人と判定された場合、「許可されました」といった認証が許可された旨のメッセージがディスプレイに表示される。一方、画面G72に示すように、対象話者が本人と判定されなかった場合、「許可されませんでした」といった認証が許可されたかった旨のメッセージがディスプレイに表示される。これにより、対象話者は、認証が許可されたか否かを速やかに認識できる。
次に、本実施の形態における話者認識装置1のユースケースについて説明する。1つ目のユースケースは、話者認識装置1がネットバンキングに適用される例である。まず、対象話者は自身の携帯端末から銀行のサイトに識別情報を入力してログインする。そして、対象話者は、例えば入金額を入力してある口座への入金を要求すると、音声の発話が要求される。この要求に応じて、対象話者は、何かしらの音声(例えば、自身の名前又は今日の天気など)を発話する。すると、ログイン時に入力した識別情報が対象識別情報として話者認識装置1に取得されると共に発話した音声を示す音声信号が対象音声信号として話者認識装置1に取得され、本人であるか否かの判定が行われる。本人と判定されると、画面G71が携帯端末のディスプレイに表示され、本人でないと判定されると、画面G72が携帯端末のディスプレイに表示される。
2つ目のユースケースは、話者認識装置1が入退室システムに適用される例である。まず、対象話者は入室を希望する部屋の入口に設けられたカードリーダにカードをか近接させ、カードに記録された識別情報を読み取らせる。次に、音声の発話が要求されるため、対象話者は何かしらの音声(例えば、自身の名前又は今日の天気など)を発話する。すると、読み取らせた識別情報が対象識別情報として話者認識装置1に取得されると共に、発話した音声を示す音声信号が対象音声信号として話者認識装置1に取得され、本人であるか否かの判定が行われる。本人と判定されると、例えば、入室が許可されましたといった音声メッセージがスピーカから出力されると共に、話者認識装置1からドアを開く制御コマンドがドアに出力されドアが開く。一方、本人と判定されなかった場合、例えば、入室が許可されませんでしたといった音声メッセージがスピーカから出力され、ドアは開かない。
このように、本実施の形態によれば、類似度を計算するに際し、第1データベース21に記憶された不特定話者の全ての音声情報を用いるのではなく、選択したグループに含まれる音声情報、すなわち、対象話者が本人と主張する人物の音声情報に類似する不特定話者の音声情報が用いられている。そのため、本実施の形態は、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる。さらに、本実施の形態は、発話時間が短い場合においても本人であるか否かの識別精度を向上させることができる。
次に、本開示の実施の形態におけるデータベース作成装置について説明する。図8は、本開示の実施の形態におけるデータベース作成装置2の構成の一例を示すブロック図である。データベース作成装置2は、プロセッサ100、メモリ200、入力装置300、インターフェース回路310、及び収音装置400を含む。
インターフェース回路310は、例えばメモリインターフェース及びネットワークインターフェースなどであり、外部メモリ及び外部ネットワークなどから複数の不特定話者の音声信号が入力される。
入力装置300は、例えばキーボード、マウス、及びタッチパネルなどの入力装置であり、複数の登録話者の識別情報が入力される。
収音装置400は、例えばマイクロフォンなどであり、複数の登録話者の音声を収音し、音声信号に変換し、プロセッサ100に入力する。なお、複数の登録話者のそれぞれにおいて、音声信号と識別情報とは同期してプロセッサ100に入力される。
プロセッサ100は、CPUで構成されてもよいし、専用の電気回路で構成されてもよい。プロセッサ100は、第1取得部101、第2取得部102、類似度計算部103、抽出部104、及び作成部105を含む。
第1取得部101は、入力装置300のインターフェース回路から入力された複数の不特定話者の音声信号を取得して、類似度計算部103に入力する。第2取得部102は、入力装置300から入力された複数の登録話者の識別情報と、収音装置400から入力された複数の登録話者の音声信号とを取得する。そして、第2取得部102は、各登録話者の識別情報と同期して入力された各登録話者の音声信号とを対応付けて、類似度計算部103に入力する。
類似度計算部103は、第1取得部101から入力された複数の不特定話者の音声信号を学習モデルに入力して各不特定話者の音声信号の特徴量を計算する。また、類似度計算部103は、識別情報と対応付けて入力された各登録話者の音声信号の特徴量を学習モデルに入力して各登録話者の音声信号の特徴量を計算する。ここで、学習モデルは話者認識装置1で用いられたものと同じである。
そして、類似度計算部103は、複数の登録話者の音声信号の特徴量と、複数の不特定話者の音声信号の特徴量との類似度を計算する。類似度は、話者認識装置1で用いられたものと同じである。
抽出部104は、類似度が所定の第1条件を満たす不特定話者の音声信号を抽出する。第1条件は、例えば、類似度が話者認識装置1で説明した第2順位以内であるという条件である。この場合、抽出部104は、複数の登録話者のそれぞれについて、複数の不特定話者の音声信号を類似度が高い順に並べることで、複数の不特定話者の音声信号を順位付けする。そして、抽出部104は、複数の登録話者のそれぞれについて、順位が第2順位以内の不特定話者の音声信号を第1条件を満たす音声信号として抽出すればよい。
第1条件は、例えば、類似度が所定値以上であるという条件であってもよい。或いは、第1条件は、類似度が第2順位以内且つ所定値以上であるという条件であってもよい。これにより、類似度が第2順位以内の音声信号であっても、登録話者の音声信号に対する類似度が低い音声信号が当該登録話者に対応するグループに含まれることを防止できる。
作成部105は、複数の登録話者のそれぞれについて、登録話者の識別情報と、登録話者ごとに抽出した音声信号(音声情報)とを対応付けることで不特定話者の音声信号をグルーピングして第1データベース21を作成し、メモリ200に記憶する。この際、作成部105は、不特定話者の音声信号ごとに音声情報IDを付与してもよい。これにより、図4に示すような第1データベース21が作成される。
メモリ200は、例えばEEPROMなどの不揮発性メモリであり、第2順位記憶部201及び第1データベース21を記憶する。第2順位記憶部201は、抽出部104が不特定話者の音声信号を抽出する際に使用する第2順位を記憶する。
次に、本開示の実施の形態におけるデータベース作成装置2の処理について説明する。図9は、本開示の実施の形態におけるデータベース作成装置2の処理の一例を示すフローチャートである。
まず、第1取得部101は、インターフェース回路310を介して複数の不特定話者の音声信号を取得する(ステップS101)。次に、第2取得部102は、入力装置300から入力された複数の登録話者の識別情報と、収音装置400から入力された各登録話者に対応する音声信号とを取得する(ステップS102)。
次に、類似度計算部103は、複数の不特定話者の音声信号と、複数の登録話者の音声信号とをそれぞれ学習モデルに入力することで、複数の不特定話者の音声信号の特徴量と、複数の登録話者の音声信号の特徴量とを計算する(ステップS103)。
次に、抽出部104は、複数の登録話者のそれぞれについて、複数の不特定話者の音声信号を類似度が高い順に順位付けする(ステップS104)。
次に、抽出部104は、複数の登録話者のそれぞれについて、第1条件を満たす不特定話者の音声信号、すなわち、類似度が第2順位以内且つ所定値以上の不特定話者の音声信号を抽出する(ステップS105)。
次に、作成部105は、複数の登録話者のそれぞれについて、登録話者の識別情報(登録話者ID)と抽出した不特定話者の音声信号(音声情報)とを対応付けてグルーピングすることで第1データベース21を作成する(ステップS106)。次に、作成部105は第1データベース21をメモリ200に記憶する(ステップS107)。
本実施の形態におけるデータベース作成装置2によれば、複数の登録話者のそれぞれについて、類似度が所定の第1条件を満たす不特定話者の音声信号が抽出され、複数の登録話者のそれぞれについて、登録話者の識別情報と、抽出した不特定話者の音声信号とを対応付けることで不特定話者の音声信号がグルーピングされて第1データベース21が作成される。これにより、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる話者認識方法を実現するデータベースを作成できる。
なお、第1取得部101は、不特定話者の音声信号を取得するとして説明したが、本開示はこれに限定されず、不特定話者の音声信号の特徴量を取得してもよい。
また、作成部105は、音声信号を音声情報として第1データベース21を作成したが、本開示はこれに限定されず、音声信号の特徴量を音声情報として第1データベース21を作成してもよい。
次に、話者認識装置1を変形例である話者認識装置1Aについて説明する。図10は、本開示の変形例に係る話者認識装置1Aの構成の一例を示すブロック図である。話者認識装置1Aは話者認識装置1をクラウド上で実現したものであり、サーバ600を備える。サーバ600には所定のネットワークを介して端末装置700が通信可能に接続されている。所定のネットワークは、例えば、インターネット及び携帯電話通信網を含むワイドエリアネットワーク、或いは有線LAN又は無線LANなどのローカルエリアネットワークである。
サーバ600は、プロセッサ610、通信装置620、及びメモリ630を含む。プロセッサ610は、話者認識装置1と同様、特徴量計算部13、選択部14、類似度計算部15、順位計算部16、判定部17、及び補正部18を含む。但し、本変形例では、話者認識装置1のプロセッサ10に含まれていた音声取得部11及び識別情報取得部12は通信装置620に設けられている。
通信装置620は、例えば、サーバ600を所定のネットワークに接続するための通信回路で構成されている。
この変形例において、音声取得部11は、端末装置700からネットワークを介して対象音声信号を取得する。また、この変形例において、識別情報取得部12は、端末装置700からネットワークを介して対象識別情報を取得する。メモリ630の構成は、話者認識装置1と同じである。
端末装置700は、例えばタブレット端末、スマートフォンなどの携帯端末、又はデスクトップコンピュータである。端末装置700は、通信装置701、ディスプレイ702、スピーカ703、収音部704、及び入力部705を含む。
通信装置701は、例えば、端末装置700を所定のネットワークに接続する通信回路である。ディスプレイ702は、例えば液晶パネルであり、図7に示す画面G71,G72を表示する。
スピーカ703は、通信装置620から送信された、判定部17による対象話者が本人であるか否かを示す判定結果を示す音声メッセージを出力する。ここでは、対象話者が本人であると判定された場合は、認証が許可されましたとの音声メッセージが出力され、対象話者が本人でないと判定された場合は、認証が許可されませんでしたとの音声メッセージが出力される。
収音部704は、例えばマイクロフォンであり、対象話者が発話した音声を収音し、音声信号に変換する。変換された音声信号は対象音声信号として通信装置701からサーバ600に送信される。
入力部705は、例えばタッチパネル、キーボード、マウスなどであり、対象話者によって入力された対象識別情報を受け付ける。入力された対象識別情報は、通信装置701からサーバ600に送信される。この変形例によれば、本開示の話者認識方法をクラウドシステムで実現できる。
次に、データベース作成装置2の変形例であるデータベース作成装置2Aについて説明する。図11は、本開示の変形例に係るデータベース作成装置2Aの構成の一例を示すブロック図である。データベース作成装置2Aは、データベース作成装置2をクラウド上で実現したものであり、サーバ800を含む。
サーバ800には所定のネットワークを介して端末装置900が通信可能に接続されている。所定のネットワークは、例えば、インターネット及び携帯電話通信網を含むワイドエリアネットワーク、或いは有線LAN又は無線LANなどのローカルエリアネットワークである。
サーバ800は、プロセッサ810、通信装置820、及びメモリ830を含む。プロセッサ810は、データベース作成装置2と同様、類似度計算部103、抽出部104、作成部105を含む。但し、本変形例では、データベース作成装置2のプロセッサ100に含まれていた第1取得部101及び第2取得部102は通信装置820に設けられている。
通信装置820は、例えば、サーバ600を所定のネットワークに接続するための通信回路で構成されている。
この変形例において、第1取得部101は、ネットワークを介して複数の不特定話者の音声信号を取得する。また、この変形例において、第2取得部102は、端末装置700からネットワークを介して登録話者の音声信号及び識別情報を取得する。メモリ830の構成は、データベース作成装置2と同じである。
端末装置900は、例えばタブレット端末、スマートフォンなどの携帯端末、又はデスクトップコンピュータである。端末装置900は、通信装置901、収音部902、及び入力部903を含む。
通信装置901は、例えば、端末装置900を所定のネットワークに接続する通信回路である。収音部902は、例えばマイクロフォンであり、登録話者が発話した音声を収音し、音声信号に変換する。変換された音声信号は通信装置901からサーバ800に送信される。
入力部903は、例えばタッチパネル、キーボード、マウスなどであり、登録話者によって入力された識別情報を受け付ける。入力された識別情報は、通信装置901からサーバ800に音声信号と対応付けられた送信される。この変形例によれば、本開示のデータベース作成方法をクラウドシステムで実現できる。
本開示は以下の変形例をとることができる。
(1)図3に示す話者認識装置1及び図8に示すデータベース作成装置2は同一のコンピュータに実装されてもよい。
(2)図10において第1データベース21及び第2データベース22は、サーバ600とは別のネットワークを介してサーバ600に接続された装置に実装されてもよい。
(3)図3に示す話者認識装置1と図8に示すデータベース作成装置2とが異なるコンピュータで構成されている場合、データベース作成装置2は、作成した第1データベース21をネットワークを介して話者認識装置1に送信すればよい。
(4)上記実施の形態において、第1順位は、各登録話者について個別に計算された値が採用されてもよいし、全登録話者について同一の値が採用されてもよい。
本開示によれば、計算量を増大させることなく本人であるか否かの識別精度を向上させることができるため、本人のなりすましを防止する技術分野に有用である。
1 :話者認識装置
2 :データベース作成装置
10 :プロセッサ
11 :音声取得部
12 :識別情報取得部
13 :特徴量計算部
14 :選択部
15 :類似度計算部
16 :順位計算部
17 :判定部
18 :補正部
20 :メモリ
21 :第1データベース
22 :第2データベース
23 :第1順位記憶部
50 :出力装置
100 :プロセッサ
101 :第1取得部
102 :第2取得部
103 :類似度計算部
104 :抽出部
105 :作成部
200 :メモリ
201 :第2順位記憶部

Claims (15)

  1. コンピュータが、複数の不特定話者の音声を示す音声情報を記憶する第1データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第2データベースとを用いて話者を認識する話者認識方法であって、
    前記第1データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされており、
    対象話者が発話した音声を示す対象音声信号を取得し、
    前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得し、
    前記対象音声信号の特徴量である第1特徴量を計算し、
    前記第1データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択し、
    選択した前記グループに含まれる前記音声情報及び前記第1特徴量の類似度と、前記第2データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第1特徴量の類似度である対象類似度とを計算し、
    計算した前記類似度における、前記対象類似度の順位を計算し、
    前記順位が所定の第1順位以内の場合、前記対象話者は本人と判定する、
    話者認識方法。
  2. さらに、計算した前記類似度の分散又は標準偏差を計算し、
    さらに、前記分散又は前記標準偏差が減少するにつれて前記第1順位を上昇させる、
    請求項1記載の話者認識方法。
  3. 前記対象識別情報は、前記対象話者により入力された前記識別情報である、
    請求項1又は2記載の話者認識方法。
  4. 前記対象音声信号は、前記対象話者が本人と主張する発話内容を含み、
    前記対象識別情報は、前記対象音声信号を音声認識することで得られる前記発話内容である、
    請求項1又は2記載の話者認識方法。
  5. さらに、前記対象話者が本人であるか否かの判定結果を提示する、
    請求項1〜4のいずれかに記載の話者認識方法。
  6. 前記第1データベースが記憶する前記音声情報は、前記不特定話者の音声信号を含み、
    前記第2データベースが記憶する前記音声情報は、前記登録話者の前記音声信号を含み、
    さらに、前記不特定話者の前記音声信号と前記第2データベースに記憶された前記対象識別情報に対応する前記音声信号とのそれぞれの特徴量を第2特徴量として計算し、
    前記類似度の計算では、前記第1特徴量と前記第2特徴量との前記類似度を計算する、
    請求項1〜5のいずれかに記載の話者認識方法。
  7. 前記第1データベースが記憶する前記音声情報は、前記不特定話者の音声信号の特徴量を含み、
    前記第2データベースが記憶する前記音声情報は、前記登録話者の前記音声信号の前記特徴量である、
    請求項1〜5のいずれかに記載の話者認識方法。
  8. 前記第1データベースは、前記複数の登録話者のそれぞれについて、前記複数の不特定話者に対する前記類似度の前記順位が所定の第2順位以内の前記音声情報を抽出することでグルーピングされたものであり、
    前記第2順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数である、
    請求項1〜7のいずれかに記載の話者認識方法。
  9. 複数の不特定話者の音声を示す音声情報を記憶する第1データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第2データベースとを用いて話者を認識する話者認識装置であって、
    前記第1データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされおり、
    対象話者が発話した音声を示す対象音声信号を取得する音声取得部と、
    前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得する識別情報取得部と、
    前記対象音声信号の特徴量である第1特徴量を計算する特徴量計算部と、
    前記第1データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択する選択部と、
    選択した前記グループに含まれる前記音声情報及び前記第1特徴量の類似度と、前記第2データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第1特徴量の前記類似度である対象類似度とを計算する類似度計算部と、
    計算した前記類似度における、前記対象類似度の順位を計算する順位計算部と、
    前記順位が所定の第1順位以内の場合、前記対象話者は本人と判定する判定部とを備える、
    話者認識装置。
  10. 請求項1〜8のいずれかに記載の話者認識方法をコンピュータに実行させるための話者認識プログラム。
  11. コンピュータが、話者認識を行うためのデータベースを作成するデータベース作成方法であって、
    複数の不特定話者の音声を示す音声情報を取得し、
    複数の登録話者のそれぞれの識別情報及び前記音声情報を取得し、
    前記複数の登録話者の音声情報と、前記複数の不特定話者の前記音声情報との特徴量の類似度を計算し、
    前記複数の登録話者のそれぞれについて、前記類似度が所定の第1条件を満たす不特定話者の前記音声情報を抽出し、
    前記複数の登録話者のそれぞれについて、登録話者の前記識別情報と、前記登録話者ごとに抽出した前記音声情報とを対応付けることで前記不特定話者の前記音声情報をグルーピングしてデータベースを作成する、
    データベース作成方法。
  12. 前記第1条件は、前記類似度が所定順位以内であるという条件であり、
    前記所定順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数である、
    請求項11記載のデータベース作成方法。
  13. 前記第1条件は、前記類似度が所定値以上であるという条件である、
    請求項11又は12記載のデータベース作成方法。
  14. 話者認識を行うためのデータベースを作成するデータベース作成装置であって、
    複数の不特定話者の音声を示す音声情報を取得する第1取得部と、
    複数の登録話者のそれぞれの識別情報及び前記音声情報を取得する第2取得部と、
    前記複数の登録話者の音声情報と、前記複数の不特定話者の前記音声情報との特徴量の類似度を計算する類似度計算部と、
    前記複数の登録話者のそれぞれについて、前記類似度が所定の第1条件を満たす不特定話者の前記音声情報を抽出する抽出部と、
    前記複数の登録話者のそれぞれについて、登録話者の識別情報と、前記登録話者ごとに抽出した前記音声情報とを対応付けることで前記不特定話者の前記音声情報をグルーピングしてデータベースを作成する作成部とを備える、
    データベース作成装置。
  15. 請求項11〜13のいずれかに記載のデータベース作成方法をコンピュータに実行させるためのデータベース作成プログラム。
JP2019076058A 2019-04-12 2019-04-12 話者認識方法、話者認識装置、及び話者認識プログラム Active JP7266448B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019076058A JP7266448B2 (ja) 2019-04-12 2019-04-12 話者認識方法、話者認識装置、及び話者認識プログラム
US16/843,595 US11315573B2 (en) 2019-04-12 2020-04-08 Speaker recognizing method, speaker recognizing apparatus, recording medium recording speaker recognizing program, database making method, database making apparatus, and recording medium recording database making program
CN202010272602.8A CN111816184B (zh) 2019-04-12 2020-04-09 讲话人识别方法、识别装置以及记录介质
CN202410118466.5A CN117953900A (zh) 2019-04-12 2020-04-09 数据库生成方法、数据库生成装置以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019076058A JP7266448B2 (ja) 2019-04-12 2019-04-12 話者認識方法、話者認識装置、及び話者認識プログラム

Publications (2)

Publication Number Publication Date
JP2020173381A true JP2020173381A (ja) 2020-10-22
JP7266448B2 JP7266448B2 (ja) 2023-04-28

Family

ID=72748127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019076058A Active JP7266448B2 (ja) 2019-04-12 2019-04-12 話者認識方法、話者認識装置、及び話者認識プログラム

Country Status (3)

Country Link
US (1) US11315573B2 (ja)
JP (1) JP7266448B2 (ja)
CN (2) CN117953900A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7376985B2 (ja) * 2018-10-24 2023-11-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置、及び、プログラム
CN113178196B (zh) * 2021-04-20 2023-02-07 平安国际融资租赁有限公司 音频数据提取方法、装置、计算机设备和存储介质
CN114969257A (zh) * 2022-05-26 2022-08-30 平安普惠企业管理有限公司 标准语音识别数据库的构建方法、装置、计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214096A (ja) * 1997-01-30 1998-08-11 Nec Corp 話者認識装置
JP2010113167A (ja) * 2008-11-06 2010-05-20 Neikusu:Kk 有害顧客検知システム、その方法及び有害顧客検知プログラム
JP2017223848A (ja) * 2016-06-16 2017-12-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者認識装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124623B (zh) * 2005-02-18 2011-06-01 富士通株式会社 语音认证系统及语音认证方法
JP5008269B2 (ja) * 2005-04-08 2012-08-22 キヤノン株式会社 情報処理装置、情報処理方法
JP4897040B2 (ja) * 2007-03-14 2012-03-14 パイオニア株式会社 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
DE102008058883B4 (de) * 2008-11-26 2023-07-27 Lumenvox Corporation Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
US9685159B2 (en) * 2009-11-12 2017-06-20 Agnitio Sl Speaker recognition from telephone calls
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
US20170287472A1 (en) * 2014-12-18 2017-10-05 Mitsubishi Electric Corporation Speech recognition apparatus and speech recognition method
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
JP6596376B2 (ja) * 2015-04-22 2019-10-23 パナソニック株式会社 話者識別方法及び話者識別装置
US9940934B2 (en) * 2015-11-18 2018-04-10 Uniphone Software Systems Adaptive voice authentication system and method
JP2017097188A (ja) * 2015-11-25 2017-06-01 日本電信電話株式会社 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム
US9691392B1 (en) * 2015-12-09 2017-06-27 Uniphore Software Systems System and method for improved audio consistency
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10755718B2 (en) * 2016-12-07 2020-08-25 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
GB2563952A (en) * 2017-06-29 2019-01-02 Cirrus Logic Int Semiconductor Ltd Speaker identification
US10325602B2 (en) * 2017-08-02 2019-06-18 Google Llc Neural networks for speaker verification
JP7197259B2 (ja) * 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
US11132427B2 (en) * 2017-11-20 2021-09-28 Ppip, Llc Systems and methods for biometric identity and authentication
US11264037B2 (en) * 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
KR20190102509A (ko) * 2018-02-26 2019-09-04 삼성전자주식회사 음성 명령을 수행하는 방법 및 시스템
US11210375B2 (en) * 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness
US20190311261A1 (en) * 2018-04-10 2019-10-10 Assured Information Security, Inc. Behavioral biometric feature extraction and verification
CN112654983A (zh) * 2018-09-12 2021-04-13 麦克赛尔株式会社 信息处理装置、用户认证网络系统以及用户认证方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214096A (ja) * 1997-01-30 1998-08-11 Nec Corp 話者認識装置
JP2010113167A (ja) * 2008-11-06 2010-05-20 Neikusu:Kk 有害顧客検知システム、その方法及び有害顧客検知プログラム
JP2017223848A (ja) * 2016-06-16 2017-12-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 話者認識装置

Also Published As

Publication number Publication date
US20200327894A1 (en) 2020-10-15
CN117953900A (zh) 2024-04-30
CN111816184B (zh) 2024-02-23
US11315573B2 (en) 2022-04-26
CN111816184A (zh) 2020-10-23
JP7266448B2 (ja) 2023-04-28

Similar Documents

Publication Publication Date Title
US10853676B1 (en) Validating identity and/or location from video and/or audio
US10777206B2 (en) Voiceprint update method, client, and electronic device
CN110956966B (zh) 声纹认证方法、装置、介质及电子设备
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
EP2784710B1 (en) Method and system for validating personalized account identifiers using biometric authentication and self-learning algorithms
WO2019179029A1 (zh) 电子装置、身份验证方法和计算机可读存储介质
WO2019179036A1 (zh) 深度神经网络模型、电子装置、身份验证方法和存储介质
EP3327720A1 (en) User voiceprint model construction method, apparatus, and system
US20160163318A1 (en) Metadata extraction of non-transcribed video and audio streams
CN108538293B (zh) 语音唤醒方法、装置及智能设备
US20060020460A1 (en) Voice authentication system
JP7266448B2 (ja) 話者認識方法、話者認識装置、及び話者認識プログラム
CN109473105A (zh) 与文本无关的声纹验证方法、装置和计算机设备
US20070219792A1 (en) Method and system for user authentication based on speech recognition and knowledge questions
JP2014067171A (ja) 人物認証用辞書更新方法、人物認証用辞書更新装置、人物認証用辞書更新プログラム及び人物認証システム
CN108989349A (zh) 用户帐号解锁方法、装置、计算机设备及存储介质
CN111613231A (zh) 语音数据处理方法、装置、计算机设备和存储介质
JP2022523921A (ja) 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法
CN109688271A (zh) 联系人信息输入的方法、装置及终端设备
GB2576960A (en) Speaker recognition
JP5646675B2 (ja) 情報処理装置及び方法
CN111145748A (zh) 音频识别置信度确定方法、装置、设备及存储介质
Kao et al. Voice Response Questionnaire System for Speaker Recognition Using Biometric Authentication Interface.
JP2008089825A (ja) 音声認識装置、および音声認識プログラム
JP2020154061A (ja) 話者識別装置、話者識別方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230418

R150 Certificate of patent or registration of utility model

Ref document number: 7266448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150