JP6912605B2

JP6912605B2 - 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ

Info

Publication number: JP6912605B2
Application number: JP2019569451A
Authority: JP
Inventors: カンリウ; チンケンチャオ; コアンシンリウ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-06-16
Filing date: 2018-06-14
Publication date: 2021-08-04
Anticipated expiration: 2038-06-14
Also published as: US11011177B2; EP3610396A1; CN109147770A; EP3610396B1; EP3610396A4; JP2020523643A; CN109147770B; WO2018232148A1; TW201905895A; US20180366125A1

Description

関連文献への相互参照
本出願は、2017年6月16日に出願された中国特許出願第２０１７１０４６１５７８．０号に基づくものであり、その出願による優先権を主張し、参照によりその出願全体が本明細書に組み込まれる。

本出願は、コンピュータ技術の分野、詳細には、声識別特徴最適化および動的登録方法（声識別方法）、クライアント、ならびにサーバに関する。

人工知能技術の継続的な発展により、顔識別および指紋識別技術などはすべて、大きく改善されている。インテリジェント識別もより広範に応用される。革新的な識別技術としての声紋識別も、ますます速い速度で発展しており、声紋識別技術は、話者識別とも称されることがある。いわゆる声紋識別は、話者の発話から発話特徴を抽出し、次いで抽出された発話特徴に基づいてアイデンティティ検証を実施する識別技術である。

声紋識別は、生長過程にある人間の発音器官によって徐々に形成される特徴に依存し、すべての人間の声紋は、音色、抑揚、発話速度などが異なることがあり、また声によって形成される音響スペクトルも異なることがある。意図的に真似をしたとしても、異なる人間の声紋もまた異なる。指紋と同様、異なる人間は異なる声紋を有する。

しかしながら、識別が、声紋を使用することによって実施されることが意図される場合、声紋マッチングを実施するための特徴セットは、声紋識別を達成するために確立される必要がある。

声紋識別のために使用される正確な特徴ライブラリをどのようにして容易かつ効率的に確立するかについては、現在、効果的な解決策は提唱されていない。

比較的高い正確性を有する声識別特徴ライブラリを容易かつ効率的に確立するための、声識別方法、クライアント、およびサーブが開示される。

１つの態様によると、声識別特徴のための最適化方法が提供され、本方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得される声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することとを含む。

別の態様によると、声識別特徴のための動的登録方法が提供され、本方法は、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けることとを含む。

別の態様によると、声識別特徴のための動的登録方法が提供され、本方法は、プリセットしきい値に達する更新回数の数を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、決定することと、プリセットしきい値を上回る更新回数の数を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けて、上記声識別特徴を関連付けられた特徴ライブラリに追加することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、追加することと、を含む。

別の態様によると、声識別特徴のための動的登録方法が提供され、本方法は、声識別特徴がプリセット要件を満足するかどうかを決定することと、声識別特徴がプリセット要件を満足すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けることと、を含む。

別の態様によると、プロセッサおよびメモリを含むクライアントが提供され、プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用して、マッチングにより取得される声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。

別の態様によると、プロセッサおよびメモリを含むサーバが提供され、プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用して、マッチングにより取得される声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。

別の態様によると、プロセッサを含むクライアントが提供され、プロセッサは、以下のステップ：声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けること、を実施するように構成される。

別の態様によると、プロセッサを含むサーバが提供され、プロセッサは、以下のステップ：声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けること、を実施するように構成される。

別の態様によると、声識別特徴のための処理方法が提供され、本方法は、音声データを取得して、この音声データの音声特徴を抽出することと、この音声特徴にマッチする格納された声識別特徴が存在するかどうかを決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、格納された声識別特徴を更新すること、またはそのような声識別特徴が存在しないと決定される場合には、上記音声特徴の新規ユーザ・プロファイルを作成して、上記新規ユーザ・プロファイルを上記音声特徴と関連付けることと、を含む。

別の態様によると、マイクロフォン・ユニットおよびネットワーク通信ユニットを含む電子デバイスが提供され、マイクロフォン・ユニットは、音声データを取得するように構成され、ネットワーク通信ユニットは、音声情報をサーバに送信するように構成され、その結果、サーバは、音声データの音声特徴を抽出し、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定し、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、またサーバは、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得される声識別特徴を更新し、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加し、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される。

別の態様によると、マイクロフォン・ユニット、ネットワーク通信ユニット、およびプロセッサを含む電子デバイスが提供され、マイクロフォン・ユニットは、音声データを取得するように構成され、プロセッサは、音声データの音声特徴を抽出するように構成され、ネットワーク通信ユニットは、音声情報をサーバに送信するように構成され、その結果、サーバは、音声データの音声特徴を抽出し、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定し、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、またサーバは、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得される声識別特徴を更新し、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加し、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される。

プロセッサによって実行されるとき前述の方法のステップを実施するコンピュータ・プログラムを格納する、コンピュータ可読記憶媒体が提供される。

別の態様によると、声識別方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。

いくつかの実施形態において、上記音声特徴を使用することにより、声識別特徴を更新することは、音声特徴および声識別特徴に従って第１の識別特徴を生成することと、上記声識別特徴を第１の識別特徴と置き換えて、関連付けられた特徴ライブラリに第１の識別特徴を格納することと、を含む。

いくつかの実施形態において、声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することは、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する関連付けられたユーザ情報の複数の声識別特徴が、関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、上記音声特徴と最も高い類似性を有する関連付けられたユーザ情報の声識別特徴を更新することを含む。

いくつかの実施形態において、音声データは、ユーザによって話された起動キーワードの音声記録を含む。

いくつかの実施形態において、本方法は、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することをさらに含み、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する。

いくつかの実施形態において、関連付けられた特徴ライブラリは、関連付けられたユーザ情報の声識別特徴と関連付けられたユーザ情報をさらに格納し、関連付けられていない特徴ライブラリは、関連付けられていないユーザ情報の声識別特徴を更新するため音声の数をさらに格納する。

いくつかの実施形態において、本方法は、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新し、声識別特徴を更新するための音声の数を更新することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を声識別特徴として、関連付けられていない特徴ライブラリに追加することと、をさらに含む。

いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えると決定することに応答して、１つまたは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていないユーザ情報の声識別特徴のうちの１つまたは複数を削除することと、をさらに含む。

いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えると決定することに応答して、最も古い更新時間を有する、関連付けられていないユーザ情報の声識別特徴のうちの１つまたは複数を削除することと、をさらに含む。

いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタリングすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えないと決定することに応答して、関連付けられていないユーザ情報の声識別特徴のいずれかを更新するための音声の数がプリセットしきい値に達するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することと、関連付けられていないユーザ情報の第１の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、第１の声識別特徴を関連付けられた特徴ライブラリ内の声識別特徴と比較することと、第１の声識別特徴が関連付けられた特徴ライブラリ内の声識別特徴に似ていないと決定することに応答して、第１の声識別特徴を関連付けられた特徴ライブラリおよびこの音声データに対応するユーザの記録情報に追加することと、第１の声識別特徴が関連付けられた特徴ライブラリ内の第２の声識別特徴に類似すると決定することに応答して、第１の声識別特徴を使用することにより、第２の声識別特徴を更新することと、をさらに含む。

いくつかの実施形態において、本方法は、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、ユーザ情報を声識別特徴と関連付けることと、をさらに含む。

別の態様によると、命令を含む非一時的なコンピュータ可読記憶媒体であって、命令がプロセッサによって実行されるとき、プロセッサに声識別方法を実行させ、本方法は、音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。

別の態様によると、音声データを取得するように構成されるマイクロフォン、ならびにプロセッサ、および命令を格納する非一時的なコンピュータ可読記憶媒体を備える声識別システムであって、命令が、プロセッサによって実行されるとき、プロセッサに声識別方法を実行させ、本方法は、音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、識別特徴を更新することとを含む。

上の例において、声識別特徴を更新するための音声の数がプリセットしきい値を超えると決定される場合、上記声識別特徴と関連付けられたユーザ情報が、上記声識別特徴に追加される。すなわち、声識別特徴がユーザの声特性を表すために使用されてもよいと決定される場合、ユーザ情報が、その声識別特徴と関連付けられ、それにより、声紋ライブラリを自動的に確立および更新するために、ユーザ情報を声識別特徴と関連付ける。開示される方法およびシステムは、声紋識別のために使用される正確な特徴ライブラリを容易かつ効果的に確立する技術的効果を達成することができる。

本開示の実装形態における技術的解決策をより明確に図示するため、添付の図面が、以下に簡潔に説明される。当然ながら、以下の説明における添付の図面は、単に本開示の実装形態の一部を示すにすぎず、当業者は、依然として、創造的努力なしに添付の図面から他の図面を引き出すことができる。

本開示の様々な実施形態による、データ更新方法のフローチャートである。本開示の様々な実施形態による、関連付けられていない特徴ライブラリおよび関連付けられた特徴ライブラリの概略図である。本開示の様々な実施形態による、データ更新方法の別のフローチャートである。本開示の様々な実施形態による、関連付けられていない特徴ライブラリ内の各特徴の更新回数の数の識別の概略図である。本開示の様々な実施形態による、実装形態シナリオの概略的なシナリオ図である。本開示の様々な実施形態による、データ更新方法の別のフローチャートである。本開示の様々な実施形態による、支払い方法の応用シナリオの概略図である。本開示の様々な実施形態による、支払い方法の応用シナリオ概略図である。本開示の様々な実施形態による、支払い方法の応用シナリオ概略図である。本開示の様々な実施形態による、データ更新システムの概略構造図である。本開示の様々な実施形態による、声識別システムのブロック図である。本開示の様々な実施形態による、声識別システムのブロック図である。

本出願の技術的解決策を当業者にとってより理解しやすくするため、本出願の実装形態における技術的解決策は、添付の図面を参照して以下に明確かつ完全に説明される。当然ながら、説明される実装形態は、実装形態のすべてではなく単に部分にすぎない。創造的な努力をすることなく、開示された実装形態に基づいて当業者によって取得可能なすべての他の実装形態は、本開示の保護範囲内に入るものとする。

声紋ライブラリを確立するための従来の方法においては、一般に、ユーザのアイデンティティが知られた後、ユーザは、ユーザの音声データ（発話データと称されてもよい）を入力するように通知され、次いで、音声データ内の音声特徴が、ユーザの声識別特徴として抽出され、それによりユーザのアイデンティティとユーザの声識別特徴との関連性を組み入れる。

しかしながら、この様式は、主に、以下のいくつかの問題を有する。

１）実施プロセスは、比較的複雑であり、ユーザに入力を実施するように通知するだけでなく、ユーザが通知メッセージに基づいて入力を実施するのを待つことも必要であり、また比較的煩雑に実施される。

２）実装シナリオは、比較的厳密であり、ユーザが特定のトリガ環境においてトリガを実施することを必要とし、また、トリガ後にのみ特定の時間においてのみ登録を実施することができる。

３）声識別特徴は正確ではなく、またユーザ・パッシブ・エントリが使用されることが理由で、エントリ回数の数が概して制限される。例えば、ユーザの発話データが３つしか取得されず、サンプル数が過度に少ないため、生成される識別特徴は正確ではない。サンプル数が増大される必要がある場合、ユーザは、より多くの回数エントリを実施しなければならず、これはユーザ体験を低下させる。

４）知能レベルが比較的低く、すなわち、ユーザは、登録プロセス全体に完全に参加する必要があり、また声識別ライブラリの確立は、不十分にインテリジェントである。

前述の既存の問題を軽減または解決するため、声識別特徴のための動的登録方法が開示される。音声データが取得され、この音声データの音声特徴は、自動的に抽出および記録される。発話識別特徴がプリセット要件を満足すると決定される場合、発話識別特徴は、声識別特徴ライブラリを確立および更新するために、ユーザ情報と関連付けられる。図１に示されるように、動的声識別特徴登録方法が提供される。声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合、ユーザ情報は、上記声識別特徴と関連付けられる。

すなわち、いくつかの実施形態において、音声データを取得することができる。音声データが未登録のユーザ（すなわち、ユーザの声紋とのユーザ情報関連付けが実施されていない）からのものであると決定される場合、その音声データに類似する声識別特徴の更新回数の数がプリセット要件に達するかどうかが決定される。この数が回数のプリセット数に達する場合、声識別特徴が、ユーザの声を比較的正確に識別することができると決定されてもよい。この場合、声識別特徴とユーザとの関連付けが、トリガされ、それにより自動登録の目的を達成し、ユーザが声紋ライブラリの情報エントリに完全に参加する必要があるという既存の問題を解決することができる。

追加的に、この例では、声識別方法がさらに提供される。本方法は、以下を含む：音声データが取得され、音声特徴が抽出された後、その音声特徴に類似する声紋が発見され、この声紋は、ユーザ情報とすでに関連付けられている、すなわち、その音声データの所有者が、声紋登録をすでに実行している。この場合、マッチングを通じて取得された声識別特徴（すなわち、声紋）は、上記音声特徴を使用することにより更新されてもよい。例えば、抽出された音声特徴およびマッチングを通じて取得された声識別特徴が取得され、次いで、第１の識別特徴が、上記音声特徴およびマッチングを通じて取得された声識別特徴に従って生成され、マッチングを通じて取得された声識別特徴は、声紋更新を実施するために、ユーザの声紋としての役割を果たす第１の識別特徴と置き換えられる。ある実装形態では、音声特徴およびマッチングを通じて取得された声識別特徴に従って第１の識別特徴を生成するプロセスにおいて、第１の識別特徴は、抽出された音声特徴およびマッチングを通じて取得された声識別特徴に対して重み付け平均化を実施する方法、または他の方法において生成されてもよい。上の方法を使用することにより、声紋ライブラリ内の声識別特徴の正確性および識別精度を改善することができる。

いくつかの実施形態において、声識別特徴最適化および声識別特徴動的登録の前述のプロセスは、取得された音声データの音声特徴を抽出すること、および次いで、毎回取得される音声特徴と関連付けられたユーザ情報の声識別特徴とのマッチングを実施することを含む。音声特徴との類似性がプリセット・マッチングしきい値を超える、関連付けられたユーザ情報の声識別特徴が存在する場合、音声データの音声特徴および関連付けられたユーザ情報の声識別特徴が同じ人物からのものであることを示す。したがって、マッチングを通じて取得された声識別特徴は、音声データの音声特徴を使用することにより更新されてもよい。音声特徴との類似性がプリセット・マッチングしきい値を超える、関連付けられたユーザ情報の声識別特徴が存在しない場合、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴がさらに決定されてもよい。音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在すると決定される場合、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴は、上記音声特徴を使用することにより、更新されてもよい。

いくつかの実施形態において、声識別方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。この方法は、声識別システム（例えば、サーバ、クライアント）によって、例えば、声識別システム上の記憶媒体に格納されたソフトウェア・コードによって、実施されてもよい。

いくつかの実施形態において、本方法は、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新し、また声識別特徴を更新するための音声の数を更新することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、上記音声特徴を声識別特徴として、関連付けられていない特徴ライブラリに追加することと、をさらに含む。

いくつかの実施形態において、本方法は、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、ユーザ情報を上記声識別特徴と関連付けることと、をさらに含む。

前述の様式を使用することにより、現在収集されている音声データから抽出される音声特徴は、関連付けられたユーザ情報の声識別特徴へ更新されてもよいか、または関連付けられていないユーザ情報の声識別特徴へ更新されてもよい。この音声特徴に類似する声識別特徴が、関連付けられたユーザ情報の声識別特徴に存在せず、また関連付けられていないユーザ情報の声識別特徴に存在しない場合、この音声特徴は、関連付けられていないユーザ情報の新規声識別特徴として使用されてもよい。

いくつかの実施形態において、関連付けられていないユーザ情報の声識別特徴では、この特徴を更新するための音声の数が、回数の既定の数にすでに達しているまたは超えている場合、関連付けられていないユーザ情報の現在の声識別特徴は、ユーザ・アイデンティティを比較的正確に識別するために使用することができると見なすことができる。この場合、ユーザ情報と関連付けられていないユーザ情報の声識別特徴との関連付けがトリガされてもよく、その結果、関連付けられていないユーザ情報の声識別特徴は、アイデンティティを決定するために使用することができる。ユーザ情報と関連付けられていないユーザ情報の声識別特徴との関連付けをトリガするため、関連付けられていないユーザ情報の各声識別特徴が、更新回数の数がプリセットしきい値に達する、関連付けられていないユーザ情報の声識別特徴を決定するために、定期的に決定されてもよい。ユーザ情報は、更新回数の数がプリセットしきい値に達する、関連付けられていないユーザ情報の声識別特徴と関連付けられる。リアルタイム動的更新も実施されてもよい。例えば、現在の音声特徴が関連付けられていないユーザ情報の声識別特徴を更新するためのものであり、関連付けられていないユーザ情報の声識別特徴の更新回数の数がプリセットしきい値（例えば、６回）に達することが一旦検出されると、ユーザ情報と関連付けられていないユーザ情報の声識別特徴との関連付けがトリガされてもよい。

いくつかの実施形態において、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の複数の声識別特徴が存在する。次いで、音声特徴と最も高い類似性を有する関連付けられたユーザ情報の声識別特徴が選択され得、音声特徴と最も高い類似性を有する関連付けられたユーザ情報の声識別特徴は、上記音声特徴を使用することにより、更新される。同様に、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の複数の声識別特徴はまた、マッチングを通じて取得されてもよく、上記音声特徴と最も高い類似性を有する、関連付けられていないユーザ情報の声識別特徴は、上記音声特徴を使用することにより更新される。

いくつかの実施形態において、音声データは、特定の時間期間にわたって録音デバイスによって記録することができるか、または特定のサイズのために録音デバイスによって記録してもよい。

いくつかの実施形態において、音声特徴は、プリセット・アルゴリズムに従って音声データから抽出されてもよく、ユーザの声は、音色、抑揚、および発話速度などのユーザの特徴を有する。音声ファイルが記録されるとき、各ユーザの声特徴は、音声データ内の周波数、振幅、または同様のものに関連して具現化されてもよい。したがって、音声特徴は、プリセット・アルゴリズムに従って音声データから取得され、プリセット・アルゴリズムは、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、ＭＦＳＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＳｐｅｃｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）、ＦＭＦＣＣ（ＦｒａｃｔｉｏｎａｌＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、ＤＭＦＣＣ（ＤｉｓｃｒｉｍｉｎａｔｉｖｅＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、ＬＰＣＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、または同様のものであってもよい。当業者は、他のアルゴリズムを使用することにより音声データから音声特徴をさらに抽出することができるが、アルゴリズムによって実装される機能および効果が開示される方法のものと同じまたは類似する限りは、このアルゴリズムは、本開示の保護範囲内に入るものとする。

いくつかの実施形態において、音声ファイル内のユーザ発話の音声データと非ユーザ発話の音声データとをさらに区別するため、音声特徴を抽出するプロセスにおいて、終点検出処理がさらに含まれてもよい。次いで、非ユーザ発話の音声データに対応するデータは、音声特徴内で低減されてもよい。このやり方では、生成された音声特徴とユーザとの関連性の度合いを、ある程度向上することができる。終点検出処理方法は、限定されるものではないが、エネルギーに基づいた終点検出、ケプストラム特徴に基づいた終点検出、情報エントロピに基づいた終点検出、および自動相関された類似性の距離に基づいた終点検出を含むことができ、本明細書では再度列挙されない。

いくつかの実施形態において、識別されるべき音声データが増大するにつれて、関連付けられていないユーザ情報の声識別特徴も増大する。関連付けられていないユーザ情報の過度な声識別特徴が過度に大きい計算量または過度に大きい記憶量を引き起こすことを防ぐため、関連付けられていないユーザ情報の声識別特徴の数のしきい値が設定されてもよい。関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えることが検出される場合、関連付けられていないユーザ情報のいくつかの声識別特徴は削除されてもよい。実装中、１つもしくは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていないユーザ情報の声識別特徴のうちの１つもしくは複数を削除することができるか、または最も古い更新時間を有する、関連付けられていないユーザ情報の声識別特徴のうちの１つもしくは複数を削除することができる。

例えば、一度のみ更新された声識別特徴は削除され得、このユーザが比較的少ない回数だけアクティブであったこと、あまり重要ではないこと、またはあまり必要ではないこと、したがって削除されてもよいことを示す。代替的に、最も過去に更新された声識別特徴が削除されてもよい。すなわち、長い間非アクティブであるユーザについては、これらの人々の声識別特徴が削除されてもよい。

しかしながら、関連付けられていないユーザ情報の削除されるべき声識別特徴の前述の列挙された選択は、概略的な説明にすぎない。実装中、別の選択様式が、必要に応じて選択されてもよく、これは本開示において制限されない。

いくつかの実施形態において、前述の音声データは、クライアントを使用することにより収集されるクライアント音声データであってもよい。この実装では、クライアントは、録音機能を有する電子デバイスであってもよい。例えば、クライアントは、デスクトップ・コンピュータ、タブレット・コンピュータ、ノートブック・コンピュータ、スマートフォン、デジタル・アシスタント、スマート・ウェアラブル・デバイス、ショッピング・ガイド端末、テレビ・セット、スマート・サウンド・ボックス、マイクロフォン、または同様のものであってもよい。スマート・ウェアラブル・デバイスは、限定されるものではないが、スマート・バンド、スマート・ウォッチ、スマート・グラス、スマート・ヘルメット、スマート・ネックレス、または同様のものであってもよい。代替的に、クライアントは、電子デバイス内で実行することができるソフトウェアを含むことができる。例えば、電子デバイスは、録音機能を提供し、ソフトウェアは、録音機能を起動することによって音声データを記録することができる。

いくつかの実施形態において、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合、ユーザ情報が、声識別特徴と関連付けられる。声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合、個人情報を入力するための要求がユーザに送信される。例えば、発話またはテキストによる通知「あなたの個人情報を入力してください」を使用することができる。この要求に応答して、ユーザは、発話様式で個人情報を入力してもよく、もしくはテキスト入力様式で個人情報を入力してもよく、または、インターフェースが提供されてもよく、複数の入力ボックスがこのインターフェース上に表示され、これらのボックス内にユーザによって入力された情報が、ユーザのユーザ情報として受信および使用される。

しかしながら、ユーザ情報を取得する前述の様式は、概略的説明にすぎない。実際の実装中、ユーザ情報は、別の様式でさらに取得されてもよい。ユーザ情報が取得された後に、声識別特徴が、ユーザ情報と関連付けられてもよい。

いくつかの実施形態において、ユーザ情報は、限定されるものではないが、以下のうちの少なくとも１つ：ユーザ名、ニックネーム、実名、性別、連絡先電話番号、メールアドレスなどを含むことができる。声識別特徴は、ユーザ情報と関連付けられる。このやり方では、適用中、ユーザ発話の音声データが収集された後、ユーザ・アイデンティティを識別するために、音声データから抽出された音声特徴と声識別特徴とのマッチングが実施されてもよい。

いくつかの実施形態において、クライアントは、記録された音声データまたは音声データから識別された音声特徴をサーバに送信することができ、サーバが、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定する場合、ユーザ情報は、声識別特徴と関連付けられる。代替的に、クライアントは、音声データから音声特徴を抽出し、抽出された音声特徴を使用することにより声識別特徴を更新し、声識別特徴を更新するための音声の数がプリセットしきい値に達する場合、ユーザ情報は、上記声識別特徴と関連付けられる。

いくつかの実施形態において、サーバは、計算処理能力を有する電子デバイスであってもよい。サーバは、ネットワーク通信端末、プロセッサ、メモリなどを備えることができる。サーバはまた、電子デバイス内で実行することができるソフトウェアを備えることができる。サーバはさらに、分散サーバであってもよく、および共同動作状態にある、複数のプロセッサ、メモリ、ネットワーク通信モジュールなどを有するシステムであってもよい。代替的に、サーバはさらに、いくつかのサーバによって形成されるサーバ・クラスタであってもよい。

関連付けられたユーザ情報の声識別特徴と関連付けられていないユーザ情報の声識別特徴とを区別するため、２つのデータベース：関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを設定することができる。関連付けられた特徴ライブラリは、関連付けられたユーザ情報の声識別特徴を格納するために使用され、関連付けられていない特徴ライブラリは、関連付けられていないユーザ情報の声識別特徴を格納するために使用される。関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリは、各々が１つまたは複数のメモリに実装されてもよく、またはメモリを共有してもよい。これは、記憶装置分割様式が関連付けられたユーザ情報の声識別特徴と関連付けられていないユーザ情報の声識別特徴との区別をすることができる限りは、本開示においては制限されない。

関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリが確立された後、図２に示される様式に従って、関連付けられたユーザ情報の声識別特徴は、関連付けられた特徴ライブラリに格納され得、関連付けられていないユーザ情報の声識別特徴は、関連付けられていない特徴ライブラリに格納することができる。

相応して、データ更新プロセスが実施されるとき、マッチングは、まず、関連付けられた特徴ライブラリにおいて実施され得、マッチングが成功しない場合、別のマッチングが、関連付けられていない特徴ライブラリにおいて実施される。例えば、プロセスは、図３に示される。

音声データを取得すること、および音声データの音声特徴を抽出すること、

１）上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在する場合、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新すること、または

２）上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在しない場合、上記音声特徴を関連付けられていない特徴ライブラリに追加すること。ステップ２）は、ステップ２−１）または２−２）へと進むことができる。

２−１）上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在する場合、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新し、また声識別特徴を更新するための音声の数を更新すること、または

２−２）上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しない場合、声識別特徴としての役割を果たす音声特徴を関連付けられていない特徴ライブラリに追加すること。

いくつかの実施形態において、データベースは、関連付けられたユーザ情報の声識別特徴を格納することができる。比較的小さい格納空間のみが、関連付けられていないデータベースのために設定される必要がある。関連付けられたユーザ情報の過剰な声識別特徴が格納される場合、削除が実施されてもよい。削除中、関連付けられていない特徴ライブラリ内の声識別特徴の数がプリセット数を超える場合、１つもしくは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていない特徴ライブラリ内にある１つもしくは複数の声識別特徴が削除されるか、または最も古い更新時間を有する、関連付けられていない特徴ライブラリ内にある１つもしくは複数の声識別特徴が削除される。使用される方法は、実際の必要性に応じて決定されてもよく、削除される声識別特徴の数も、実際の必要性に応じて決定されてもよいが、これは、本開示において制限されない。

いくつかの実施形態において、マッチングが実施される音声データが取得され、音声データの音声特徴が抽出された後、マッチングは、まず、関連付けられた特徴ライブラリにおいて実施され、マッチングが成功でない場合、別のマッチングが、関連付けられていない特徴ライブラリにおいて実施される。しかしながら、人物の声は、風邪、発熱、または同様のものに起因して、時として変化することがある。したがって、ユーザの声識別特徴が関連付けられた特徴ライブラリにすでに格納されているとしても、類似性マッチングが実施されるとき、風邪または発熱に起因する変化した声の音声特徴は、関連付けられた特徴ライブラリ内の関連付けられたユーザ情報の関連付けられた類似する声識別特徴がないことが理由で、この音声特徴は、関連付けられていない特徴ライブラリ内に置かれる。それにもかかわらず、サンプル数が比較的大きいとき、これらのサンプルに基づいて更新を通じて取得された、関連付けられていないユーザ情報の声識別特徴は、ユーザによって正常に生成された音声特徴に相対的に類似する。同じユーザ情報が関連付けられた特徴ライブラリ内に繰り返し入力されることを防ぐため、関連付けられていない特徴ライブラリ内の関連付けられていないユーザ情報の声識別特徴が、関連付けられた特徴ライブラリ内に課される条件を満足する場合、上記声識別特徴は、まず、関連付けられたユーザ情報の類似の声識別特徴が存在するかどうかを決定するために、関連付けられた特徴ライブラリ内の既存の声識別特徴と比較される。肯定の場合、マッチングを通じて取得された関連付けられたユーザ情報の類似の声識別特徴は、条件を満足する声識別特徴を使用することにより更新される。否定の場合、条件を満足する声識別特徴は、１つのユーザ情報と関連付けられる。本方法は、声特徴が身体的理由により変化し、相応して、同じユーザが複数の声識別特徴に対応するという問題を克服する。

この例では、図４に示されるように、関連付けられていない特徴ライブラリ内の関連付けられていないユーザ情報の各声識別特徴について、更新回数の数が設定および記録される。更新される度に、関連付けられていないユーザ情報の対応する声識別特徴の更新回数の数は、１ずつ増大される。このやり方では、これは、更新回数の数がプリセットしきい値を満足するかどうかを決定するのに便利である場合がある。実装中、図４に示されるように、記録は、関連付けられていない特徴ライブラリ内で直接実施されるか、または記憶装置テーブルが、関連付けられていないユーザ情報の各声識別特徴の更新回数の数を格納するために、独立して設定されてもよく、これは本開示においては制限されない。

前述は、データ更新について説明するが、本方法は、複数のシナリオに適用することができる。例えば：

１）クライアントは、音声データから音声特徴を抽出し、次いで、この音声データをサーバ側（また、クラウド側であってもよい）へ転送し、サーバ側（またはクラウド側）は、音声特徴に従ってデータを更新する。

２）クライアントは、データベースをローカルで管理し、音声データから音声特徴を抽出して、抽出された音声特徴を使用することによりデータを更新するプロセスは、共に、クライアントによって実施される。更新されたデータは、サーバ側もしくはクラウド側に同期されてもよく、または同期されなくてもよく、これは本開示では制限されない。

３）クライアントは、音声データをサーバ側またはクラウド側に直接送信することができ、サーバ側が、音声特徴を抽出しデータを更新する動作を実施し、クライアントが、データおよび情報を取得するプロセスを実施する。

前述は、単にいくつかのシナリオを説明するにすぎない。実際の実装中、各ステップの実行本体は、実際の必要性に応じて選択されてもよい。例えば、特徴を抽出してデータを更新するプロセスは、共に、クライアントにおいて実施されてもよく、サーバなどを使用することによりデータを取得することが考え出されてもよい。

いくつかの実施形態において、ライブラリは確立されなくてもよい。代わりに、声識別特徴のための新規ユーザ・プロファイルを作成することによって、ユーザ・プロファイルは、対応する音声特徴または声識別特徴と関連付けられる。例えば、音声データが取得され、この音声データの音声特徴が抽出される。上記音声特徴にマッチする格納された声識別特徴が存在するかどうかが決定される。そのような声識別特徴が存在することが決定される場合、格納された声識別特徴は、上記音声特徴を使用することにより更新され、そのような声識別特徴が存在しないことが決定される場合、新規ユーザ・プロファイルが上記音声特徴のために作成され、新規ユーザ・プロファイルは、上記音声特徴と関連付けられる。すなわち、音声特徴が取得される場合、上記音声特徴にマッチする格納された声識別特徴、またはユーザ・プロファイルがすでに確立されている声識別特徴が存在するかどうかがまず決定される。肯定の場合、マッチングを通じて取得された声識別特徴が、上記音声特徴を使用することにより更新される。否定の場合、上記音声特徴が声識別特徴として使用され、新規ユーザ・プロファイルが、上記声識別特徴のために作成され、すなわち、上記声識別特徴は、対応するユーザのユーザ・プロファイルと関連付けられる。

ユーザ・プロファイルは、特定のユーザに関連したユーザ情報のセットを含むことができ、ユーザと関連付けられた音声特徴のセット、またはユーザの発話識別特徴、およびユーザの他の基本情報であってもよい。インテリジェントデバイスは、ユーザの声とアイデンティティと他の個人情報との管理関係を管理するために、発話、手動入力、または別の様式によりユーザの個人情報（例えば、名前、年齢、および支払口座）を入力することをユーザに通知することができる。このやり方では、ユーザは、発話制御により様々なサービスを使用することができる。

前述の方法は、応用シナリオを参照して以下に詳細に説明される。実施形態は、単に例示にすぎず、本開示へのいかなる制限も構成しない。

図５に示されるように、スマート・サウンド・ボックスは、自宅でインストールされてもよく、スマート・サウンド・ボックスは、自宅で人物の情報を自動的かつ動的に登録することができる。例えば、「起動キーワード」が、スマート・サウンド・ボックスのために設定することができる。ある人物が起動キーワードを話す度に、起動キーワードが１つの音声データとして記録され、さらには、スマート・サウンド・ボックスとの対話が開始される。例えば、サウンド・ボックスは「ベイベイ」と名付けられ、このとき、「ハロー、ベイベイ」が、起動キーワードとして使用されてもよい。このやり方では、スマート・サウンド・ボックスが、ある人物が「ハロー、ベイベイ」と話すことを識別する場合、ユーザとの対話が自動的に開始され得、さらには、「ハロー、ベイベイ」という音声データが記録される。

この場合、スマート・サウンド・ボックスのバックエンドで、またはサーバ側で、音声データ内の音声特徴が抽出され得、次いで抽出された音声特徴と関連付けられたユーザ情報の声識別特徴とのマッチングが実施される。音声特徴との類似性がプリセット・マッチングしきい値を超える関連付けられたユーザ情報の声識別特徴が存在する場合、音声データの音声特徴および関連付けられたユーザ情報の声識別特徴が同じ人物からのものであることを示す。したがって、マッチングを通じて取得された声識別特徴は、音声データの音声特徴を使用することにより更新されてもよい。音声特徴との類似性がプリセット・マッチングしきい値を超える関連付けられたユーザ情報の声識別特徴が存在しない場合、上記音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴がさらに決定されてもよい。上記音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在すると決定される場合、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴は、上記音声特徴を使用することにより、更新されてもよい。抽出された音声特徴に類似する、関連付けられていないユーザ情報の声識別特徴が存在する場合、上記音声特徴は、関連付けられていないユーザ情報の新規の声識別特徴として記録されてもよい。関連付けられていないユーザ情報の声識別特徴の更新回数の数がプリセットしきい値を超える場合、上記声識別特徴は、ユーザ情報と関連付けられ、関連付けられたユーザ情報の声識別特徴として使用されてもよい。

起動キーワードの選択については、通常の会話ではまれにしか出くわさない区別可能な言葉を選択することができる。前述の様式において、起動キーワードの発話は、声識別特徴ライブラリを更新および最適化し、スマート・サウンド・ボックスがユーザを認識することができるようにユーザを動的に登録するために、音声データとして使用される。したがって、ユーザは、意図的にアイデンティティ登録を実施する必要がなく、それによりユーザ体験を向上し、またサウンド・ボックスをよりインテリジェントにもする。すなわち、使用される度に、スマート・サウンド・ボックスは、ユーザが起動キーワードを話すときに音声データを記録し、プリセット・アルゴリズムを使用することにより音声特徴を抽出および処理し、その結果、ユーザがある時間期間にわたってスマート・サウンド・ボックスを使用した後、スマート・サウンド・ボックスはユーザを認識および識別することができる。

前述のシナリオにおいて、ユーザが起動キーワードを話すときの音声データは、抽出された音声特徴の音声データとして使用される。実際の実装中、ユーザが起動キーワードを話すときの音声データは、音声データとして使用されない場合がある。

例えば、ユーザがスマート・サウンド・ボックスを起動した後、スマート・サウンド・ボックスとの会話において、スマート・サウンド・ボックスは、ユーザの対話音声を音声データとして収集し、次いで声識別特徴を最適化し、この声識別特徴をバックエンドまたはサーバ側で動的に登録する。

スマート・サウンド・ボックスの実行プロセスは、図６に示され得、スマート・サウンド・ボックスは、知っている人ライブラリ（関連付けられた特徴ライブラリに相当する）および知らない人ライブラリ（関連付けられていない特徴ライブラリ）を設定することができる。

発話データを取得した後、スマート・サウンド・ボックスは、声紋（すなわち、声識別特徴とも称することができる抽出された音声特徴）を生成し、抽出された声紋は、知っている人ライブラリ内の声紋と比較される。類似する声紋がある場合、最も類似する人物が直接発見され、知っている人ライブラリ内の最も類似する人物の声紋は、生成された声紋を使用することにより更新される。知っている人ライブラリが類似する声紋を有さない場合、抽出された声紋は、知らない人ライブラリ内の声紋と比較される。類似する声紋がある場合、最も類似する声紋が発見され、声紋は更新される。さらには、声紋を更新するための音声（声紋更新音声）の数が記録される。知らない人ライブラリもまた類似する声紋を有さない場合、生成された声紋は、知らない人ライブラリに追加される。知らない人ライブラリに格納される声紋の数がプリセットしきい値を超えるかどうかは、リアルタイムで、または定期的に、検出することができる。肯定の場合、声紋更新音声の数が最小である声紋は、知らない人ライブラリから削除することができる。さらに、知らない人ライブラリが、更新回数の数がプリセット頻度しきい値（例えば、１０回）に達する声紋を有するかどうかが、リアルタイムで、または定期的に、さらに検出することができる。肯定の場合、この声紋は、類似する声紋が存在するかどうかを決定するために、知っている人ライブラリ内の声紋と比較される。肯定の場合、知っている人ライブラリ内の類似する声紋は、この声紋を使用することにより更新される。否定の場合、この声紋は、知っている人ライブラリに追加され、この声紋に対応するユーザ情報が記録される。

いくつかの実施形態において、図６に示されるように、声識別方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することと、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することとを含み、上記関連付けられた特徴ライブラリは、関連付けられたユーザ情報の声識別特徴を格納し、上記関連付けられていない特徴ライブラリは、関連付けられていないユーザ情報の声識別特徴を格納する。プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、声識別特徴は、上記音声特徴を使用することにより更新され、また声識別特徴を更新するための音声の数を更新することができる。プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、上記音声特徴は、声識別特徴として、関連付けられていない特徴ライブラリに追加することができる。

スマート・サウンド・ボックスの声紋ライブラリは、ローカルに格納されてもよく、またはクラウド側に格納されてもよく、これは本開示においては制限されない。

応用シナリオにおいて、家庭用スマート・サウンド・ボックスは、説明のために例として使用される。実装中、声紋ライブラリの更新およびユーザの自動登録は、スマート・サウンド・ボックスの前述の様式に類似する、携帯電話、スマート・テレビ、インテリジェント・ロボット、または同様のものにおいてソフトウェアを使用することによりさらに実施されてもよい。

声紋ライブラリが確立された後、アイデンティティ識別方法を実施することができる。アイデンティティ識別方法によると、ユーザのアイデンティティは、ユーザの音声の音声特徴に従って決定することができる。

いくつかの実施形態において、ユーザは、まず、前述の登録様式で登録を実施することができ、次いでユーザの声識別特徴を取得することができる。声識別特徴は、クライアントにおいて格納されてもよく、またサーバにおいて格納されてもよい。相応して、声識別特徴は、ユーザの個人情報と関連付けられる。

いくつかの実施形態において、ユーザのアイデンティティが識別される必要があるとき、ユーザの発話の音声情報を記録することができる。例えば、ユーザは、マイクロフォンに向かって文章を話す。この場合、クライアントは、ユーザの発話入力の音声情報を取得する。発話特徴ベクトルを生成するための前述の方法によると、発話特徴ベクトルは、音声情報に従って生成される。

いくつかの実施形態において、発話特徴ベクトルと声識別特徴とのマッチングが実施される。マッチングが成功すると、声識別特徴と関連付けられた個人情報が、ユーザのアイデンティティ情報として使用される。発話特徴ベクトルと声識別特徴とのマッチングを実施するとき、この２つに従って計算が実行され得、この２つが関係性に適合するとき、マッチングは成功であると見なすことができる。例えば、発話特徴ベクトルと声識別特徴との差異は合計され得、取得した値は、セットしきい値と比較するためのマッチング値として使用される。マッチング値がセットしきい値以下である場合、発話特徴ベクトルと声識別特徴とのマッチングは成功であると見なされる。代替的に、発話特徴ベクトルおよび声識別特徴が、直接的に合計されてもよく、取得した値が、マッチング値として使用される。マッチング値がセットしきい値以上である場合、発話特徴ベクトルと声識別特徴とのマッチングは成功であると見なされる。

本開示は、ネットワーク相互作用システムをさらに提供する。ネットワーク相互作用システムは、クライアントおよびサーバを含む。

いくつかの実施形態において、クライアントは、録音機能を有する電子デバイスを備えることができる。クライアントの異なるデータ処理能力に従って、クライアントは、以下のタイプに分類することができる。

いくつかの実施形態において、基本ネットワーク・デバイスのハードウェア・デバイスは、比較的単純であり、マイクロフォンを使用することにより録音を実施して、音声情報を生成し、生成された音声情報を、ネットワーク通信モジュールを使用してサーバに送信することができる。基本ネットワーク・デバイスは、マイクロフォン、ネットワーク通信ユニット、センサ、およびスピーカを含むことができる。基本ネットワーク・デバイスは、データを処理する必要がない場合がある。基本ネットワーク・デバイスには、基本ネットワーク・デバイスの動作パラメータを取集するように構成される別のセンサがさらに設けられてもよい。例えば、基本ネットワーク・デバイスは、モノのインターネット・デバイス、エッジノード・デバイス、または同様のものであってもよい。

いくつかの実施形態において、簡易ネットワーク・デバイスは、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、スピーカなどを含むことができる。簡易ネットワーク・デバイスは、基本ネットワーク・デバイスと比較して高められたデータ処理能力を有する。簡易ネットワーク・デバイスは、データを収集した後、簡易ネットワーク・デバイスが、例えば音声情報に従って特徴行列を生成することにより、データに対して予備的な前処理を実施することができるように、単純な論理計算を処理することができるプロセッサを有することができる。簡易ネットワーク・デバイスは、単純なディスプレイ機能を有し、かつ情報をユーザにフィードバックするように構成することができるディスプレイ・モジュールを有することができる。例えば、簡易ネットワーク・デバイスは、スマート・ウェアラブル・デバイス、ＰＯＳ（ポイント・オブ・セール）機器、または同様のものを備えることができる。例えば、簡易ネットワーク・デバイスは、スマート・バンド、比較的ベーシックなスマート・ウォッチ、スマート・グラス、オフラインの買い物の場における決済デバイス（例えば、ＰＯＳ機器）、モバイル決済デバイス（例えば、携帯型ＰＯＳ機器、または携帯型デバイスに付属の決済モジュール）、または同様のものを備えることができる。

いくつかの実施形態において、中間ネットワーク・デバイスは主に、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、ディスプレイ、スピーカなどを含むことができる。中間ネットワーク・デバイスのプロセッサの優位周波数は、２．０ＧＨｚ未満であってもよく、メモリ容量は、２ＧＢ未満であってもよく、メモリの容量は１２８ＧＢ未満であってもよい。中間ネットワーク・デバイスは、例えば特徴行列を生成することにより、記録された音声情報をある程度処理し、特徴行列に対して終点検出処理、雑音低減処理、発話識別などを実施することができる。例えば、中間ネットワーク・デバイスは、スマート・ホーム内のインテリジェント家電、インテリジェント家庭用端末、スマート・サウンド・ボックス、比較的上質のスマート・ウォッチ、比較的ベーシックなスマートフォン（約１０００元の価格のものなど）、および車両搭載型インテリジェント端末を含むことができる。

いくつかの実施形態において、インテリジェント・ネットワーク・デバイスは、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、ディスプレイ、およびスピーカなどのハードウェアを含むことができる。インテリジェント・ネットワーク・デバイスは、比較的強力なデータ処理能力を有することができる。インテリジェント・ネットワーク・デバイスのプロセッサの優位周波数は、２．０ＧＨｚより大きくてもよく、メモリ容量は、１２ＧＢ未満であってもよく、メモリの容量は１ＴＢ未満であってもよい。音声情報についての特徴行列を生成した後、インテリジェント・ネットワーク・デバイスは、終点検出処理、雑音低減処理、発話識別などを実施することができる。さらには、インテリジェント・ネットワーク・デバイスは、音声情報に従って発話特徴ベクトルをさらに生成することができる。場合によっては、発話特徴ベクトルと声識別特徴とのマッチングが、ユーザのアイデンティティを識別するために実施されてもよい。しかしながら、このマッチングは、家族内の家族構成員の声識別特徴などのある特定の数の声識別特徴に制限される。例えば、インテリジェント・ネットワーク・デバイスは、性能の優れたスマートフォン、タブレット・コンピュータ、デスクトップ・コンピュータ、ノートブック・コンピュータなどを含むことができる。

いくつかの実施形態において、高性能デバイスは、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、ディスプレイ、およびスピーカなどのハードウェアを含むことができる。高性能デバイスは、大規模データ計算処理能力を有することができ、またパワフルなデータ格納能力をさらに提供することができる。高性能デバイスのプロセッサの優位周波数は、少なくとも３．０ＧＨｚであってもよく、メモリ容量は、１２ＧＢより大きくてもよく、メモリの容量は少なくとも１ＴＢであってもよい。高性能デバイスは、音声情報についての特徴行列を生成し、終点検出処理、雑音低減処理、および発話識別を実施し、発話特徴ベクトルを生成し、発話特徴ベクトルと大量の格納された声識別特徴とのマッチングを実施することができる。例えば、高性能デバイスは、ワークステーション、非常に高構成のデスクトップ・コンピュータ、キオスク・インテリジェント電話ボックス、セルフサービス機器、または同様のものであってもよい。

前述は、例を使用することによりいくつかのクライアントのみを列挙する。科学および技術の進歩により、ハードウェア・デバイスの性能は改善され得、その結果、現在は比較的貧弱なデータ処理能力を有する前述の電子デバイスもまた、比較的強力な処理能力を有することができる。したがって、表１の内容は、単に例示にすぎず、制限を構成するものではない。

表１に示される５つのタイプのハードウェアはすべて、声識別特徴を動的に登録および最適化するために、前述の動的登録方法、ならびに声識別特徴のための更新および最適化方法を実施することができる。前述の５つのタイプのハードウェア構造がどのようにして具体的かつ動的に声識別特徴を登録し、声識別特徴を更新および最適化するのかのプロセスについては、声識別特徴の動的登録方法および声識別特徴の更新方法の前述の説明を参照することができ、その詳細は、本明細書内で再度説明されない。

いくつかの実施形態において、サーバは、計算処理能力を有し、かつネットワーク通信端末、プロセッサ、メモリなどを有することができる電子デバイスを備えることができる。サーバはまた、電子デバイス内で実行されるソフトウェアを備えることができる。サーバは、分散サーバを備えることができ、共同動作状態にある、複数のプロセッサ、メモリ、ネットワーク通信モジュールなどを有するシステムを備えることができる。代替的に、サーバは、いくつかのサーバによって形成されるサーバ・クラスタを備えることができる。いくつかの実施形態において、サーバは、声識別特徴を管理するように構成されてもよい。ユーザが登録を完了した後、ユーザの声識別特徴は、サーバに格納されてもよい。

１つの例において、クライアントは、計算能力をある程度有する家庭用インテリジェントデバイスであってもよく、また例えば、表１内のタイプ３のデバイスであってもよい。家庭用シナリオにおいて、クライアントは、スマート・サウンド・ボックスとして製造されてもよい。スマート・サウンド・ボックスは、マイクロフォン、スピーカ、ＷｉＦｉモジュール、メモリ、プロセッサなどを備えることができる。スマート・サウンド・ボックスは、普通の音声再生機能を実施することができ、ユーザとの会話およびサーバとのデータ交換により買い物機能を実施するために処理デバイスおよびネットワーク・デバイスが搭載される。

この例では、スマート・サウンド・ボックスは、起動キーワードを識別することによって機能を開始することができる。ユーザにより話される起動キーワードを識別する前、スマート・サウンド・ボックスは、スタンバイ状態にあってもよい。スマート・サウンド・ボックスを使用するとき、ユーザは、「ハロー、スマートボックス」と話すことができる。スマート・サウンド・ボックスは、ユーザによって話された発話を記録し、識別を通じて、ユーザによって話された内容が起動キーワードであることを学習する。この場合、スマート・サウンド・ボックスは、スピーカを使用することにより、「ハロー、ご用はありますか？」とユーザに返答することができる。

この例では、ユーザは、空気清浄機を買うことを意図することができる。ユーザは、「空気清浄機を買いたい。何かお薦めはありますか？」と発言してもよい。マイクロフォンの録音により音声情報を生成した後、スマート・サウンド・ボックスは、前述の製品の説明情報を識別し、２つのお薦め結果を得るために空気清浄機の製品情報に関してメモリに内に設定された製品情報をクエリして、発話「お薦めが２つあります。１つ目は、Ｘｉａｏｍｉ空気清浄機第２世代、２つ目は、ＭｉｄｅａＫＪ２１０Ｇ−Ｃ４６空気清浄機です」を再生する。ユーザは、「Ｘｉａｏｍｉ空気清浄機第２世代を買いたい」と発言してもよい。この音声情報を記録および識別した後、スマート・サウンド・ボックスは、購入される製品に関する情報がＸｉａｏｍｉ空気清浄機第２世代であることを決定する。スマート・サウンド・ボックスはまた、製品説明情報をサーバに送信し、サーバによって提供されるお薦め結果を受信することができる。

この例では、スマート・サウンド・ボックスは、「今買い物の支払いを行いますか？」とユーザに問い合わせることができ、ユーザは、「はい」と返答することができる。スマート・サウンド・ボックスは、プリセット・ランダム・アルゴリズムに従ってテキストを生成し、「この数字の断片５７４６３を一度復唱してください」とユーザに通知することができる。スマート・サウンド・ボックスは、ユーザが実際に支払いの意思があるかどうかを決定するために、ユーザによって話された内容が指定した数字であるかどうかを識別することができる。ユーザが、「やっぱり買いません」と発言した場合、スマート・サウンド・ボックスは、この購入プロセスを終了することができる。ユーザが、「５７４６３」と発言した場合、スマート・サウンド・ボックスは、ユーザによって話された発話が指定した数字と一致することを決定し、ユーザが購入を行うことを意図していたことを決定する。

この例では、スマート・サウンド・ボックスは、ユーザによって復唱された数字の音声情報に従って音声特徴を生成し、この音声特徴とスマート・サウンド・ボックスのメモリに格納されたユーザの声識別特徴とのマッチングを実施することができる。声識別特徴は、上の例では動的登録中に登録され、その結果、スマート・サウンド・ボックスは、ユーザの声識別特徴を有する。

この例では、スマート・サウンド・ボックスは、格納された声識別特徴と音声特徴とのマッチングを首尾よく実施することができる。この場合、スマート・サウンド・ボックスは、ユーザのアイデンティティ検証を完了し、またユーザの個人情報および購入される製品に関する情報をサーバに送信することができ、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。

１つの例において、スマート・サウンド・ボックスは、ユーザがフォローする製品またはサービスを積極的に予測することができる。

この例では、スマート・サウンド・ボックスは、ユーザの自宅のリビング・ルームに位置していてもよい。ユーザがテレビを見ているとき、スマート・サウンド・ボックスは、テレビの声について録音を実施することによって音声情報を取得し、次いでチャンネルコードを取得するためにその音声情報を識別することができる。代替的に、スマート・サウンド・ボックスは、テレビ番組の内容を識別することによってサーバと対話することができ、サーバは、対応するテレビ・チャンネル・コードをフィードバックする。

この例では、スマート・サウンド・ボックスは、テレビ・チャンネルの番組リストを格納することができるか、またはサーバからテレビ・チャンネルの番組リストを取得することができる。ユーザがテレビを見ているとき、ユーザは、テレビ広告に示される製品に興味を持ち、その製品を買いたいと思う場合がある。この場合、ユーザは、「ハロー、サウンド・ボックス」、「この広告の製品を買いたい」と発言してもよい。スマート・サウンド・ボックスは、ユーザが話す時点、および番組リストが提供された時点に従って、ユーザが買いたい製品に関する情報を決定することができる。さらに、スマート・サウンド・ボックスは、ユーザの音声データに従って音声特徴を抽出し、ユーザのアイデンティティを検証するために上記音声特徴と確立された声識別特徴ライブラリ内の声識別特徴とのマッチングを実施することができる。検証が成功すると、ユーザの個人情報および製品情報がサーバに送信され、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。

１つの例において、図７に示されるように、スマート・サウンド・ボックスは、ユーザがフォローする製品またはサービスを積極的に予測することができる。

この例では、スマート・サウンド・ボックスは、テレビ・チャンネルの番組リストを格納することができるか、またはサーバからテレビ・チャンネルの番組リストを取得することができる。ユーザがテレビを見ているとき、ユーザは、テレビ広告に示される製品に興味を持ち、その製品を買いたいと思う場合がある。この場合、ユーザは、「ハロー、サウンド・ボックス」、「この広告の製品を買いたい」と発言してもよい。スマート・サウンド・ボックスは、ユーザが話す時点、および番組リストが提供された時点に従って、ユーザが買いたい製品に関する情報を決定することができる。さらに、スマート・サウンド・ボックスは、ユーザのアイデンティティを検証するために、マッチングを通じて、ユーザ音声の音声特徴に従って声識別特徴を取得することができる。検証が成功すると、ユーザの個人情報および製品情報がサーバに送信され、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。

１つの例において、図８に示されるように、クライアントは、ディスプレイを有する電子デバイスを備えることができ、また例えば、表１のタイプ４のデバイスであってもよい。例えば、クライアントは、スマートフォンであってもよい。

この例では、ユーザは、ヘッドセットを買うことを意図することができる。ユーザは、モバイルＪＤ、Ｄａｎｇｄａｎｇ、またはＡｍａｚｏｎショッピングソフトウェアなどのショッピングソフトウェアを使用して、製品情報を動作および閲覧することができる。

この例では、ユーザは、製品情報を閲覧した後、１５０元の金額でヘッドセットに対して支払いをしようとしており、ユーザは、携帯電話ディスプレイを製品情報にとどまらせて、携帯電話に対して「支払いをしたい」と話すことができる。この場合、携帯電話は、音声を記録し、ユーザの指示を取得するために音声を識別することができ、次いで携帯電話は、支払いインターフェースをユーザに提供することができる。代替的に、ユーザが、支払いボタンをクリックし、携帯電話が、支払いインターフェースを提供する。ユーザは、プリセット支払いキーワードを支払いインターフェースに対して直接話すことができる。例えば、ユーザが、「声紋支払いは生活を便利にする」と話すと、携帯電話は、録音を実施して、音声情報を生成し、またこの音声情報に従って音声特徴を生成することができる。上記音声特徴と携帯電話に格納された声識別特徴とのマッチングは、ユーザのアイデンティティを検証するために実施される。マッチングが成功すると、携帯電話は、ユーザの個人情報および製品情報をサーバに送信することができ、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。

１つの例において、図９に示されるように、クライアントは、車両搭載端末を備えることができる。車両搭載端末は、ユーザとの会話およびさらなる処理により、ユーザが、自動車整備クーポンなどのサービスクーポンを５０元の販売価格で買いたいということを決定することができる。車両搭載端末は、ユーザの記録された発話ファイルおよび自動車整備クーポンに関する情報を一緒にサーバに送信することができる。サーバは、アイデンティティ検証プロセスを実施することができる。

この例では、車両搭載端末によってサーバに提供される音声情報は、ユーザによって送信された購入指示の記録された音声であってもよい。例えば、ユーザが、「北京整備店の自動車整備クーポンを買いたい」と話すと、車両搭載端末は、その文章の音声データをサーバに送信する。

この例では、音声データおよびサービス情報を受信した後、サーバは、音声データに従って音声特徴を抽出し、次いで、ユーザのアイデンティティを検証するために、上記音声特徴とサーバ内の声識別特徴とのマッチングを実施することができる。例えば、検証が成功すると、ユーザの個人情報は、マッチングが首尾よく実施される声識別特徴に従って取得され、次いで、個人情報の金融口座は、自動車整備クーポンを買うために北京整備店に対して支払うことができる。

この例では、音声データを記録した後、車両搭載端末は、音声特徴を生成し、この音声特徴およびサービス情報をサーバに送信する。次いで、ユーザ・アイデンティティを検証するために、サーバが音声特徴と声識別特徴とのマッチングを実施するのが簡便である。

別の応用シナリオを参照して以下において説明が実施される。この例では、図１０に示されるように、応用シナリオは、複数のクライアントおよびクラウド・サーバを含む。クライアントは、音声データを取得し、音声特徴を声紋として抽出し、クラウド側で複数のクライアントによって共有される声紋ライブラリを更新するために、その声紋とクラウド・サーバに格納される声紋とのマッチングが実施される。代替的に、音声データを取得した後、クライアントは、音声データをクラウド・サーバに直接送信し、クラウド・サーバは、この音声データを処理して声紋を抽出し、抽出された声紋を使用することにより声紋ライブラリを更新する。代替的に、複数のクライアントでは、一部のクライアントのデータは、クラウド側で共有され、一部のクライアントは、独自の声紋ライブラリを維持する。ユーザ情報に対してマッチングが実施される必要があるときにのみ、ユーザ情報がクラウド側から取得される。類似する声紋のユーザ情報をクラウド側から取得することができない場合、ユーザ情報は、ユーザから要求される。

いくつかの実施形態において、クライアントは、録音機能を有する電子デバイスであってもよい。例えば、クライアントは、デスクトップ・コンピュータ、タブレット・コンピュータ、ノートブック・コンピュータ、スマートフォン、デジタル・アシスタント、スマート・ウェアラブル・デバイス、ショッピング・ガイド端末、テレビ・セット、スマート・サウンド・ボックス、マイクロフォン、または同様のものであってもよい。スマート・ウェアラブル・デバイスは、限定されるものではないが、スマート・バンド、スマート・ウォッチ、スマート・グラス、スマート・ヘルメット、スマート・ネックレス、または同様のものであってもよい。代替的に、クライアントは、電子デバイス内で実行することができるソフトウェアを備えることができる。例えば、電子デバイスは、録音機能を提供し、ソフトウェアは、録音機能を起動することによって音声データを記録することができる。

上の方法に対応して、声識別システム（例えば、サーバ、クライアント）が開示される。図１１に示されるように、例示的な声識別システム１１００（例えば、サウンド・ボックス、携帯電話などのクライアント）は、プロセッサ１１０１、メモリ１１０２、任意選択のスピーカ１１０３、およびマイクロフォン１１０４を備えることができる。メモリ１１０２は、非一時的かつコンピュータ可読であってもよく、プロセッサ１１０１によって実行されるとき本明細書に説明される様々な方法およびステップをシステム１１００に実施させる命令を格納することができる。図１２に示されるように、例示的な声識別システム１２００（例えば、サーバ）は、プロセッサ１２０１およびメモリ１２０２を備えることができる。メモリ１２０２は、非一時的かつコンピュータ可読であってもよく、プロセッサ１２０１によって実行されるとき本明細書に説明される様々な方法およびステップをシステム１２００に実施させる命令を格納することができる。さらなる詳細は、クライアントおよびサーバに関して以下に提供される。

いくつかの実施形態において、声識別システムは、音声データを取得するように構成されるマイクロフォン、ならびにプロセッサ、および命令を格納する非一時的なコンピュータ可読記憶媒体を備え、命令は、プロセッサによって実行されるとき、プロセッサに声識別方法を実行させ、本方法は、音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。

いくつかの実施形態において、クライアントは、マイクロフォン・ユニット、メモリ、およびプロセッサを含む。マイクロフォン・ユニットは、音声データを取得するように構成され、プロセッサは、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定し、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けるように構成され、メモリは、声識別特徴および関連付けられたユーザ情報を格納するように構成される。

いくつかの実施形態において、クライアントは、プロセッサおよびメモリを含む。プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。

いくつかの実施形態において、プロセッサは、音声特徴およびマッチングを通じて取得された声識別特徴を取得し、音声特徴およびマッチングを通じて取得された声識別特徴に従って第１の識別特徴を生成し、マッチングを通じて取得された声識別特徴を第１の識別特徴と置き換えて、関連付けられた特徴ライブラリに第１の識別特徴を格納するように構成されてもよい。

いくつかの実施形態において、プロセッサは、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在する場合、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新し、声識別特徴を更新するための音声の数を更新することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しない場合、声識別特徴としての役割を果たす音声特徴を関連付けられていない特徴ライブラリに追加することとを行うように構成されてもよい。

いくつかの実施形態において、音声データは、限定されるものではないが、起動キーワードを話すユーザの声を記録することによって取得される音声ファイルを含むことができる。

いくつかの実施形態において、サーバは、プロセッサおよびメモリを含む。プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得された声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。

いくつかの実施形態において、クライアントは、プロセッサを含み、プロセッサは、以下のステップ：声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を声識別特徴と関連付けること、を実施するように構成される。

いくつかの実施形態において、プロセッサは、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定する前に、音声データを取得することと、その音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられたユーザ情報の声識別特徴が存在するかどうかを決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された、関連付けられたユーザ情報の声識別特徴を更新することと、行うようにさらに構成されてもよい。

いくつかの実施形態において、プロセッサは、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の声識別特徴が存在するかどうかを決定することの後に、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の声識別特徴が存在しないと決定される場合には、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在するかどうかを決定することと、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴を更新することと、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴を更新するための音声の数が、プリセットしきい値に達するかどうかを決定することと、を行うようにさらに構成されてもよい。

いくつかの実施形態において、プロセッサは、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の複数の声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、その音声特徴と最も高い類似性を有する、関連付けられたユーザ情報の声識別特徴を更新するように構成されてもよい。

いくつかの実施形態において、プロセッサは、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタし、上記数がプリセット数を超えると決定される場合には、１つまたは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていないユーザ情報の声識別特徴のものである、１つまたは複数の声識別特徴を削除するようにさらに構成されてもよい。

いくつかの実施形態において、プロセッサは、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタし、上記数がプリセット数を超えると決定される場合には、最も古い更新時間を有する、関連付けられていないユーザ情報の１つまたは複数の声識別特徴を削除するようにさらに構成されてもよい。

いくつかの実施形態において、プロセッサは、ユーザ情報を要求するために使用されるリクエストを生成し、そのリクエストに応答して返されるユーザ情報を受信し、受信したユーザ情報を声識別特徴と関連付けるようにさらに構成されてもよい。

本開示は、プロセッサを含むことができるサーバをさらに提供し、プロセッサは、以下のステップ：声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を声識別特徴と関連付けること、を実施するように構成される。

いくつかの実施形態において、前述のメモリは、限定されるものではないが、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、キャッシュ、ハード・ディスク・ドライブ（ＨＤＤ）、またはメモリ・カードを含むことができる。メモリは、コンピュータ・プログラム命令を格納するように構成されてもよい。ネットワーク通信ユニットは、通信プロトコルによって指定された規格に従って設定され、かつネットワーク接続および通信を実施するように構成される、インターフェースであってもよい。

いくつかの実施形態において、前述のプロセッサは、任意の適切な様式で実装されてもよい。例えば、プロセッサは、プロセッサ（マイクロプロセッサ）、論理ゲート、スイッチ、特定用途向け集積回路（ＡＳＩＣ）、プログラマブル論理コントローラ、または埋め込み型マイクロコントローラによって実行することができるコンピュータ可読プログラムコード（ソフトウェアまたはファームウェアなど）を格納する、マイクロプロセッサ、プロセッサ、コンピュータ可読媒体等の形態であってもよい。

いくつかの実施形態において、前述のマイクロフォン・ユニットは、音声ファイルを形成するために声を電気信号に変換することができる。マイクロフォン・ユニットは、抵抗性マイクロフォン、誘導性マイクロフォン、容量性マイクロフォン、リボンマイクロフォン、可動コイル型マイクロフォン、またはエレクトレットマイクロフォンの形態にあってもよい。

本実装形態に提供されるクライアントおよびサーバによって実施される機能および効果については、他の実装形態における対応する説明を参照することができる。

本開示は、プログラム命令を格納するコンピュータ記憶媒体をさらに提供する。実行されると、プログラム命令は、音声データを取得して、この音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納する、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を実施する。

いくつかの実施形態において、コンピュータ記憶媒体は、限定されるものではないが、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、キャッシュ、ハード・ディスク・ドライブ（ＨＤＤ）、またはメモリ・カードを含む。

本実装形態に提供されるコンピュータ記憶媒体のプログラム命令が実行されるときに実施される機能および効果については、他の実装形態における対応する説明が参照することができる。

本開示は、漸進的な様式で説明され、実装形態の同じ部分および類似する部分同士について参照がなされ得、各実装形態の説明において強調されることは、他の実装形態の別の部分とは異なる部分に焦点を合わせている。

サーバの場合、２０世紀の９０年代において、技術改善が、ハードウェアにおける改善（例えば、ダイオード、トランジスタ、またはスイッチなどの回路構造における改善）であるか、またはソフトウェアにおける改善（方法プロセスにおける改善）であるかは、かなり明白に区別することができる。しかしながら、技術の発展により、方法プロセスにおける多くの現在の改善は、ハードウェア回路構造における改善と見なすことができる。ほぼすべての設計者は、改善された方法プロセスをハードウェ回路内にプログラミングすることによって、対応するハードウェア回路構造を得る。したがって、方法プロセスにおける改善は、ハードウェア・エンティティ・モジュールを使用することにより実施することができる。例えば、プログラマブル論理デバイス（ＰＬＤ）（フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）など）が、そのような集積回路であり、その論理機能は、ユーザによってデバイスをプログラミングすることにより決定される。設計者は、ＰＬＤ上にデジタル・システムを「集積する」ようにプログラミングを実施し、専用集積回路チップを設計および製造するために製造業者が招かれる必要がない。さらに、現在では、集積回路チップを手動で製造する代わりに、このプログラミングはまた、大半は、「論理コンパイラ」ソフトウェアを使用することによって実施される。ソフトウェアは、プログラム開発および書き込みの時点で使用されるソフトウェア・コンパイラに類似しており、コンパイル前の元のコードはまた、ハードウェア記述言語（ＨＤＬ）と称される特定のプログラミング言語を使用することによって書き込まれる必要がある。ＡＢＥＬ（高度ブール表現言語）、ＡＨＤＬ（アルテラ・ハードウェア記述言語）、Ｃｏｎｆｌｕｅｎｃｅ、ＣＵＰＬ（コーネル大学プログラミング言語）、ＨＤＣａｌ、ＪＨＤＬ（ジャバ・ハードウェア記述言語）、Ｌａｖａ、Ｌｏｌａ、ＭｙＨＤＬ、ＰＡＬＡＳＭ、およびＲＨＤＬ（ルビー・ハードウェア記述言語）など、１つのみのＨＤＬではなく、複数のＨＤＬが存在する。現在では、ＶＨＤＬ（超高速集積回路ハードウェア記述言語）およびＶｅｒｉｌｏｇ２が最も一般的に使用される。当業者はまた、方法プロセスが、前述のいくつかのハードウェア記述言語を使用することによりやや論理的にプログラミングされ、集積回路内へプログラミングされる限り、論理方法プロセスを実施するためのハードウェア回路をかなり容易に得ることができるということを明白に知っているものとする。

当業者はまた、純粋なコンピュータ可読プログラムコード様式でコントローラを実装することに加えて、論理ゲート、スイッチ、特定用途向け集積回路、プログラマブル論理コントローラ、埋め込み型マイクロコントローラ、または同様のものの形態で同じ機能をコントローラが実施することを可能にするように、方法ステップを論理的にプログラミングすることが十分に実現可能であるということを知っている。したがって、このコントローラは、ハードウェア構成要素と見なされてもよく、コントローラに含まれ、かつ様々な機能を実施するように構成される装置もまた、ハードウェア構成要素内の構造物と見なされてもよい。代替的に、様々な機能を実施するように構成される装置は、さらには、方法を実施することができるソフトウェアモジュールおよびハードウェア構成要素内の構造物の両方として見なされてもよい。

当業者は、本開示が、ハードウェアのみによって、またはソフトウェアおよび必要な汎用ハードウェア・プラットフォームによって実施することができることを理解することができる。そのような理解に基づいて、本開示の下の技術的解決策、または先行技術に寄与する部分は、本質的に、ソフトウェア製品の形態で具現化することができる。ソフトウェア製品は、ＲＯＭ／ＲＡＭ、磁気ディスク、または光学ディスクなどの記憶媒体に格納されてもよい。ソフトウェア製品は、コンピュータ・デバイス（パーソナル・コンピュータ、サーバ、またはネットワーク・デバイス）が本開示の実装形態において提供される方法を実行することを可能にするいくつかの命令を含む。

本開示は、実装形態を使用することにより説明されるが、当業者は、本開示が、本開示の趣旨から逸脱することなく多くの変形および変更を有すること、ならびに添付の特許請求項が本開示の趣旨から逸脱することなくこれらの変形および変更を含むことが意図されることを知っている。

Claims

音声データを取得し、前記音声データの音声特徴を抽出することと、
プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、
前記声識別特徴を更新するための前記音声の前記数が前記プリセットしきい値に達すると決定することに応答して、ユーザ情報を前記声識別特徴と関連付けることと
を含む、声識別方法。
前記音声特徴を使用することにより、前記声識別特徴を前記更新することが、
前記音声特徴および前記声識別特徴に従って第１の識別特徴を生成することと、
前記声識別特徴を前記第１の識別特徴と置き換えて、前記関連付けられた特徴ライブラリに前記第１の識別特徴を格納することと、を含む、請求項１に記載の方法。
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することが、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する関連付けられたユーザ情報の複数の前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記音声特徴と最も高い類似性を有する前記関連付けられたユーザ情報の前記声識別特徴を更新することを含む、請求項１に記載の方法。
前記音声データが、ユーザによって話された起動キーワードの音声記録を含む、請求項１に記載の方法。
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索することをさらに含み、前記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、前記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する、請求項１に記載の方法。
前記関連付けられた特徴ライブラリが、前記関連付けられたユーザ情報の前記声識別特徴と関連付けられたユーザ情報をさらに格納し、
前記関連付けられていない特徴ライブラリが、前記関連付けられていないユーザ情報の前記声識別特徴を更新するための音声の数をさらに格納する、請求項５に記載の方法。
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を前記声識別特徴として、前記関連付けられていない特徴ライブラリに追加することと、をさらに含む、請求項５に記載の方法。
前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えると決定することに応答して、前記１つまたは複数の声識別特徴を更新するための最小量の音声データを有する前記関連付けられていないユーザ情報の前記声識別特徴のうちの１つまたは複数を削除することと、をさらに含む、請求項７に記載の方法。
前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えると決定することに応答して、最も古い更新時間を有する前記関連付けられていないユーザ情報の前記声識別特徴のうちの１つまたは複数を削除することと、をさらに含む、請求項７に記載の方法。
前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えないと決定することに応答して、前記関連付けられていないユーザ情報の前記声識別特徴のいずれかを更新するための音声の数が、プリセットしきい値に達するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索することと、
前記関連付けられていないユーザ情報の第１の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、前記第１の声識別特徴を前記関連付けられた特徴ライブラリ内の前記声識別特徴と比較することと、
前記第１の声識別特徴が前記関連付けられた特徴ライブラリ内の前記声識別特徴に似ていないと決定することに応答して、前記第１の声識別特徴を前記関連付けられた特徴ライブラリおよび前記音声データに対応するユーザの記録情報に追加することと、
前記第１の声識別特徴が前記関連付けられた特徴ライブラリ内の第２の声識別特徴に類似すると決定することに応答して、前記第１の声識別特徴を使用することにより、前記第２の声識別特徴を更新することと、をさらに含む、請求項７に記載の方法。
命令を格納する非一時的なコンピュータ可読記憶媒体であって、前記命令が、プロセッサによって実行されるとき、前記プロセッサに声識別方法を実施させ、前記方法が、
音声データの音声特徴を抽出することと、
プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索すること
を含み、前記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、前記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する、非一時的なコンピュータ可読記憶媒体。
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することが、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する関連付けられたユーザ情報の複数の前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記音声特徴と最も高い類似性を有する前記関連付けられたユーザ情報の前記声識別特徴を更新することを含む、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
前記方法が、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を前記声識別特徴として、前記関連付けられていない特徴ライブラリに追加することと、をさらに含む、請求項１１に記載の非一時的なコンピュータ可読記憶媒体。
前記方法が、
前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えないと決定することに応答して、前記関連付けられていないユーザ情報の前記声識別特徴のいずれかを更新するための音声の数が、プリセットしきい値に達するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索することと、
前記関連付けられていないユーザ情報の第１の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、前記第１の声識別特徴を前記関連付けられた特徴ライブラリ内の前記声識別特徴と比較することと、
前記第１の声識別特徴が前記関連付けられた特徴ライブラリ内の前記声識別特徴に似ていないと決定することに応答して、前記第１の声識別特徴を前記関連付けられた特徴ライブラリおよび前記音声データに対応するユーザの記録情報に追加することと、
前記第１の声識別特徴が前記関連付けられた特徴ライブラリ内の第２の声識別特徴に類似すると決定することに応答して、前記第１の声識別特徴を使用することにより、前記第２の声識別特徴を更新することと、をさらに含む、請求項１３に記載の非一時的なコンピュータ可読記憶媒体。
音声データを取得するように構成されたマイクロフォンと、
プロセッサ、および命令を格納する非一時的なコンピュータ可読記憶媒体と、を備える、声識別システムであって、前記命令が、前記プロセッサによって実行されるとき、前記システムに声識別方法を実施させ、前記方法が、
前記音声データの音声特徴を抽出することと、
プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索すること
を含み、前記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、前記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する、声識別システム。
前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することが、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する関連付けられたユーザ情報の複数の前記声識別特徴が、前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記音声特徴と最も高い類似性を有する前記関連付けられたユーザ情報の前記声識別特徴を更新することを含む、請求項１５に記載の声識別システム。
前記方法が、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が前記関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を前記声識別特徴として、前記関連付けられていない特徴ライブラリに追加することと、をさらに含む、請求項１５に記載の声識別システム。