JP6912605B2 - 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ - Google Patents

声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ Download PDF

Info

Publication number
JP6912605B2
JP6912605B2 JP2019569451A JP2019569451A JP6912605B2 JP 6912605 B2 JP6912605 B2 JP 6912605B2 JP 2019569451 A JP2019569451 A JP 2019569451A JP 2019569451 A JP2019569451 A JP 2019569451A JP 6912605 B2 JP6912605 B2 JP 6912605B2
Authority
JP
Japan
Prior art keywords
voice
feature
features
unrelated
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019569451A
Other languages
English (en)
Other versions
JP2020523643A (ja
Inventor
カン リウ
カン リウ
チンケン チャオ
チンケン チャオ
コアンシン リウ
コアンシン リウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2020523643A publication Critical patent/JP2020523643A/ja
Application granted granted Critical
Publication of JP6912605B2 publication Critical patent/JP6912605B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

関連文献への相互参照
本出願は、2017年6月16日に出願された中国特許出願第201710461578.0号に基づくものであり、その出願による優先権を主張し、参照によりその出願全体が本明細書に組み込まれる。
本出願は、コンピュータ技術の分野、詳細には、声識別特徴最適化および動的登録方法(声識別方法)、クライアント、ならびにサーバに関する。
人工知能技術の継続的な発展により、顔識別および指紋識別技術などはすべて、大きく改善されている。インテリジェント識別もより広範に応用される。革新的な識別技術としての声紋識別も、ますます速い速度で発展しており、声紋識別技術は、話者識別とも称されることがある。いわゆる声紋識別は、話者の発話から発話特徴を抽出し、次いで抽出された発話特徴に基づいてアイデンティティ検証を実施する識別技術である。
声紋識別は、生長過程にある人間の発音器官によって徐々に形成される特徴に依存し、すべての人間の声紋は、音色、抑揚、発話速度などが異なることがあり、また声によって形成される音響スペクトルも異なることがある。意図的に真似をしたとしても、異なる人間の声紋もまた異なる。指紋と同様、異なる人間は異なる声紋を有する。
しかしながら、識別が、声紋を使用することによって実施されることが意図される場合、声紋マッチングを実施するための特徴セットは、声紋識別を達成するために確立される必要がある。
声紋識別のために使用される正確な特徴ライブラリをどのようにして容易かつ効率的に確立するかについては、現在、効果的な解決策は提唱されていない。
比較的高い正確性を有する声識別特徴ライブラリを容易かつ効率的に確立するための、声識別方法、クライアント、およびサーブが開示される。
1つの態様によると、声識別特徴のための最適化方法が提供され、本方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得される声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することとを含む。
別の態様によると、声識別特徴のための動的登録方法が提供され、本方法は、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けることとを含む。
別の態様によると、声識別特徴のための動的登録方法が提供され、本方法は、プリセットしきい値に達する更新回数の数を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、決定することと、プリセットしきい値を上回る更新回数の数を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けて、上記声識別特徴を関連付けられた特徴ライブラリに追加することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、追加することと、を含む。
別の態様によると、声識別特徴のための動的登録方法が提供され、本方法は、声識別特徴がプリセット要件を満足するかどうかを決定することと、声識別特徴がプリセット要件を満足すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けることと、を含む。
別の態様によると、プロセッサおよびメモリを含むクライアントが提供され、プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用して、マッチングにより取得される声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。
別の態様によると、プロセッサおよびメモリを含むサーバが提供され、プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用して、マッチングにより取得される声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。
別の態様によると、プロセッサを含むクライアントが提供され、プロセッサは、以下のステップ:声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けること、を実施するように構成される。
別の態様によると、プロセッサを含むサーバが提供され、プロセッサは、以下のステップ:声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けること、を実施するように構成される。
別の態様によると、声識別特徴のための処理方法が提供され、本方法は、音声データを取得して、この音声データの音声特徴を抽出することと、この音声特徴にマッチする格納された声識別特徴が存在するかどうかを決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、格納された声識別特徴を更新すること、またはそのような声識別特徴が存在しないと決定される場合には、上記音声特徴の新規ユーザ・プロファイルを作成して、上記新規ユーザ・プロファイルを上記音声特徴と関連付けることと、を含む。
別の態様によると、マイクロフォン・ユニットおよびネットワーク通信ユニットを含む電子デバイスが提供され、マイクロフォン・ユニットは、音声データを取得するように構成され、ネットワーク通信ユニットは、音声情報をサーバに送信するように構成され、その結果、サーバは、音声データの音声特徴を抽出し、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定し、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、またサーバは、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得される声識別特徴を更新し、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加し、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される。
別の態様によると、マイクロフォン・ユニット、ネットワーク通信ユニット、およびプロセッサを含む電子デバイスが提供され、マイクロフォン・ユニットは、音声データを取得するように構成され、プロセッサは、音声データの音声特徴を抽出するように構成され、ネットワーク通信ユニットは、音声情報をサーバに送信するように構成され、その結果、サーバは、音声データの音声特徴を抽出し、プリセット・マッチングしきい値に達する音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定し、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、またサーバは、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得される声識別特徴を更新し、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加し、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される。
プロセッサによって実行されるとき前述の方法のステップを実施するコンピュータ・プログラムを格納する、コンピュータ可読記憶媒体が提供される。
別の態様によると、声識別方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。
いくつかの実施形態において、上記音声特徴を使用することにより、声識別特徴を更新することは、音声特徴および声識別特徴に従って第1の識別特徴を生成することと、上記声識別特徴を第1の識別特徴と置き換えて、関連付けられた特徴ライブラリに第1の識別特徴を格納することと、を含む。
いくつかの実施形態において、声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することは、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する関連付けられたユーザ情報の複数の声識別特徴が、関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、上記音声特徴と最も高い類似性を有する関連付けられたユーザ情報の声識別特徴を更新することを含む。
いくつかの実施形態において、音声データは、ユーザによって話された起動キーワードの音声記録を含む。
いくつかの実施形態において、本方法は、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することをさらに含み、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する。
いくつかの実施形態において、関連付けられた特徴ライブラリは、関連付けられたユーザ情報の声識別特徴と関連付けられたユーザ情報をさらに格納し、関連付けられていない特徴ライブラリは、関連付けられていないユーザ情報の声識別特徴を更新するため音声の数をさらに格納する。
いくつかの実施形態において、本方法は、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新し、声識別特徴を更新するための音声の数を更新することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を声識別特徴として、関連付けられていない特徴ライブラリに追加することと、をさらに含む。
いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えると決定することに応答して、1つまたは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていないユーザ情報の声識別特徴のうちの1つまたは複数を削除することと、をさらに含む。
いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えると決定することに応答して、最も古い更新時間を有する、関連付けられていないユーザ情報の声識別特徴のうちの1つまたは複数を削除することと、をさらに含む。
いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタリングすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えないと決定することに応答して、関連付けられていないユーザ情報の声識別特徴のいずれかを更新するための音声の数がプリセットしきい値に達するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することと、関連付けられていないユーザ情報の第1の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、第1の声識別特徴を関連付けられた特徴ライブラリ内の声識別特徴と比較することと、第1の声識別特徴が関連付けられた特徴ライブラリ内の声識別特徴に似ていないと決定することに応答して、第1の声識別特徴を関連付けられた特徴ライブラリおよびこの音声データに対応するユーザの記録情報に追加することと、第1の声識別特徴が関連付けられた特徴ライブラリ内の第2の声識別特徴に類似すると決定することに応答して、第1の声識別特徴を使用することにより、第2の声識別特徴を更新することと、をさらに含む。
いくつかの実施形態において、本方法は、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、ユーザ情報を声識別特徴と関連付けることと、をさらに含む。
別の態様によると、命令を含む非一時的なコンピュータ可読記憶媒体であって、命令がプロセッサによって実行されるとき、プロセッサに声識別方法を実行させ、本方法は、音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。
別の態様によると、音声データを取得するように構成されるマイクロフォン、ならびにプロセッサ、および命令を格納する非一時的なコンピュータ可読記憶媒体を備える声識別システムであって、命令が、プロセッサによって実行されるとき、プロセッサに声識別方法を実行させ、本方法は、音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、識別特徴を更新することとを含む。
上の例において、声識別特徴を更新するための音声の数がプリセットしきい値を超えると決定される場合、上記声識別特徴と関連付けられたユーザ情報が、上記声識別特徴に追加される。すなわち、声識別特徴がユーザの声特性を表すために使用されてもよいと決定される場合、ユーザ情報が、その声識別特徴と関連付けられ、それにより、声紋ライブラリを自動的に確立および更新するために、ユーザ情報を声識別特徴と関連付ける。開示される方法およびシステムは、声紋識別のために使用される正確な特徴ライブラリを容易かつ効果的に確立する技術的効果を達成することができる。
本開示の実装形態における技術的解決策をより明確に図示するため、添付の図面が、以下に簡潔に説明される。当然ながら、以下の説明における添付の図面は、単に本開示の実装形態の一部を示すにすぎず、当業者は、依然として、創造的努力なしに添付の図面から他の図面を引き出すことができる。
本開示の様々な実施形態による、データ更新方法のフローチャートである。 本開示の様々な実施形態による、関連付けられていない特徴ライブラリおよび関連付けられた特徴ライブラリの概略図である。 本開示の様々な実施形態による、データ更新方法の別のフローチャートである。 本開示の様々な実施形態による、関連付けられていない特徴ライブラリ内の各特徴の更新回数の数の識別の概略図である。 本開示の様々な実施形態による、実装形態シナリオの概略的なシナリオ図である。 本開示の様々な実施形態による、データ更新方法の別のフローチャートである。 本開示の様々な実施形態による、支払い方法の応用シナリオの概略図である。 本開示の様々な実施形態による、支払い方法の応用シナリオ概略図である。 本開示の様々な実施形態による、支払い方法の応用シナリオ概略図である。 本開示の様々な実施形態による、データ更新システムの概略構造図である。 本開示の様々な実施形態による、声識別システムのブロック図である。 本開示の様々な実施形態による、声識別システムのブロック図である。
本出願の技術的解決策を当業者にとってより理解しやすくするため、本出願の実装形態における技術的解決策は、添付の図面を参照して以下に明確かつ完全に説明される。当然ながら、説明される実装形態は、実装形態のすべてではなく単に部分にすぎない。創造的な努力をすることなく、開示された実装形態に基づいて当業者によって取得可能なすべての他の実装形態は、本開示の保護範囲内に入るものとする。
声紋ライブラリを確立するための従来の方法においては、一般に、ユーザのアイデンティティが知られた後、ユーザは、ユーザの音声データ(発話データと称されてもよい)を入力するように通知され、次いで、音声データ内の音声特徴が、ユーザの声識別特徴として抽出され、それによりユーザのアイデンティティとユーザの声識別特徴との関連性を組み入れる。
しかしながら、この様式は、主に、以下のいくつかの問題を有する。
1)実施プロセスは、比較的複雑であり、ユーザに入力を実施するように通知するだけでなく、ユーザが通知メッセージに基づいて入力を実施するのを待つことも必要であり、また比較的煩雑に実施される。
2)実装シナリオは、比較的厳密であり、ユーザが特定のトリガ環境においてトリガを実施することを必要とし、また、トリガ後にのみ特定の時間においてのみ登録を実施することができる。
3)声識別特徴は正確ではなく、またユーザ・パッシブ・エントリが使用されることが理由で、エントリ回数の数が概して制限される。例えば、ユーザの発話データが3つしか取得されず、サンプル数が過度に少ないため、生成される識別特徴は正確ではない。サンプル数が増大される必要がある場合、ユーザは、より多くの回数エントリを実施しなければならず、これはユーザ体験を低下させる。
4)知能レベルが比較的低く、すなわち、ユーザは、登録プロセス全体に完全に参加する必要があり、また声識別ライブラリの確立は、不十分にインテリジェントである。
前述の既存の問題を軽減または解決するため、声識別特徴のための動的登録方法が開示される。音声データが取得され、この音声データの音声特徴は、自動的に抽出および記録される。発話識別特徴がプリセット要件を満足すると決定される場合、発話識別特徴は、声識別特徴ライブラリを確立および更新するために、ユーザ情報と関連付けられる。図1に示されるように、動的声識別特徴登録方法が提供される。声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合、ユーザ情報は、上記声識別特徴と関連付けられる。
すなわち、いくつかの実施形態において、音声データを取得することができる。音声データが未登録のユーザ(すなわち、ユーザの声紋とのユーザ情報関連付けが実施されていない)からのものであると決定される場合、その音声データに類似する声識別特徴の更新回数の数がプリセット要件に達するかどうかが決定される。この数が回数のプリセット数に達する場合、声識別特徴が、ユーザの声を比較的正確に識別することができると決定されてもよい。この場合、声識別特徴とユーザとの関連付けが、トリガされ、それにより自動登録の目的を達成し、ユーザが声紋ライブラリの情報エントリに完全に参加する必要があるという既存の問題を解決することができる。
追加的に、この例では、声識別方法がさらに提供される。本方法は、以下を含む:音声データが取得され、音声特徴が抽出された後、その音声特徴に類似する声紋が発見され、この声紋は、ユーザ情報とすでに関連付けられている、すなわち、その音声データの所有者が、声紋登録をすでに実行している。この場合、マッチングを通じて取得された声識別特徴(すなわち、声紋)は、上記音声特徴を使用することにより更新されてもよい。例えば、抽出された音声特徴およびマッチングを通じて取得された声識別特徴が取得され、次いで、第1の識別特徴が、上記音声特徴およびマッチングを通じて取得された声識別特徴に従って生成され、マッチングを通じて取得された声識別特徴は、声紋更新を実施するために、ユーザの声紋としての役割を果たす第1の識別特徴と置き換えられる。ある実装形態では、音声特徴およびマッチングを通じて取得された声識別特徴に従って第1の識別特徴を生成するプロセスにおいて、第1の識別特徴は、抽出された音声特徴およびマッチングを通じて取得された声識別特徴に対して重み付け平均化を実施する方法、または他の方法において生成されてもよい。上の方法を使用することにより、声紋ライブラリ内の声識別特徴の正確性および識別精度を改善することができる。
いくつかの実施形態において、声識別特徴最適化および声識別特徴動的登録の前述のプロセスは、取得された音声データの音声特徴を抽出すること、および次いで、毎回取得される音声特徴と関連付けられたユーザ情報の声識別特徴とのマッチングを実施することを含む。音声特徴との類似性がプリセット・マッチングしきい値を超える、関連付けられたユーザ情報の声識別特徴が存在する場合、音声データの音声特徴および関連付けられたユーザ情報の声識別特徴が同じ人物からのものであることを示す。したがって、マッチングを通じて取得された声識別特徴は、音声データの音声特徴を使用することにより更新されてもよい。音声特徴との類似性がプリセット・マッチングしきい値を超える、関連付けられたユーザ情報の声識別特徴が存在しない場合、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴がさらに決定されてもよい。音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在すると決定される場合、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴は、上記音声特徴を使用することにより、更新されてもよい。
いくつかの実施形態において、声識別方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。この方法は、声識別システム(例えば、サーバ、クライアント)によって、例えば、声識別システム上の記憶媒体に格納されたソフトウェア・コードによって、実施されてもよい。
いくつかの実施形態において、本方法は、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することをさらに含み、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する。
いくつかの実施形態において、本方法は、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新し、また声識別特徴を更新するための音声の数を更新することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、上記音声特徴を声識別特徴として、関連付けられていない特徴ライブラリに追加することと、をさらに含む。
いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタリングすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えないと決定することに応答して、関連付けられていないユーザ情報の声識別特徴のいずれかを更新するための音声の数がプリセットしきい値に達するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することと、関連付けられていないユーザ情報の第1の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、第1の声識別特徴を関連付けられた特徴ライブラリ内の声識別特徴と比較することと、第1の声識別特徴が関連付けられた特徴ライブラリ内の声識別特徴に似ていないと決定することに応答して、第1の声識別特徴を関連付けられた特徴ライブラリおよびこの音声データに対応するユーザの記録情報に追加することと、第1の声識別特徴が関連付けられた特徴ライブラリ内の第2の声識別特徴に類似すると決定することに応答して、第1の声識別特徴を使用することにより、第2の声識別特徴を更新することと、をさらに含む。
いくつかの実施形態において、本方法は、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、ユーザ情報を上記声識別特徴と関連付けることと、をさらに含む。
前述の様式を使用することにより、現在収集されている音声データから抽出される音声特徴は、関連付けられたユーザ情報の声識別特徴へ更新されてもよいか、または関連付けられていないユーザ情報の声識別特徴へ更新されてもよい。この音声特徴に類似する声識別特徴が、関連付けられたユーザ情報の声識別特徴に存在せず、また関連付けられていないユーザ情報の声識別特徴に存在しない場合、この音声特徴は、関連付けられていないユーザ情報の新規声識別特徴として使用されてもよい。
いくつかの実施形態において、関連付けられていないユーザ情報の声識別特徴では、この特徴を更新するための音声の数が、回数の既定の数にすでに達しているまたは超えている場合、関連付けられていないユーザ情報の現在の声識別特徴は、ユーザ・アイデンティティを比較的正確に識別するために使用することができると見なすことができる。この場合、ユーザ情報と関連付けられていないユーザ情報の声識別特徴との関連付けがトリガされてもよく、その結果、関連付けられていないユーザ情報の声識別特徴は、アイデンティティを決定するために使用することができる。ユーザ情報と関連付けられていないユーザ情報の声識別特徴との関連付けをトリガするため、関連付けられていないユーザ情報の各声識別特徴が、更新回数の数がプリセットしきい値に達する、関連付けられていないユーザ情報の声識別特徴を決定するために、定期的に決定されてもよい。ユーザ情報は、更新回数の数がプリセットしきい値に達する、関連付けられていないユーザ情報の声識別特徴と関連付けられる。リアルタイム動的更新も実施されてもよい。例えば、現在の音声特徴が関連付けられていないユーザ情報の声識別特徴を更新するためのものであり、関連付けられていないユーザ情報の声識別特徴の更新回数の数がプリセットしきい値(例えば、6回)に達することが一旦検出されると、ユーザ情報と関連付けられていないユーザ情報の声識別特徴との関連付けがトリガされてもよい。
いくつかの実施形態において、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の複数の声識別特徴が存在する。次いで、音声特徴と最も高い類似性を有する関連付けられたユーザ情報の声識別特徴が選択され得、音声特徴と最も高い類似性を有する関連付けられたユーザ情報の声識別特徴は、上記音声特徴を使用することにより、更新される。同様に、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の複数の声識別特徴はまた、マッチングを通じて取得されてもよく、上記音声特徴と最も高い類似性を有する、関連付けられていないユーザ情報の声識別特徴は、上記音声特徴を使用することにより更新される。
いくつかの実施形態において、音声データは、特定の時間期間にわたって録音デバイスによって記録することができるか、または特定のサイズのために録音デバイスによって記録してもよい。
いくつかの実施形態において、音声特徴は、プリセット・アルゴリズムに従って音声データから抽出されてもよく、ユーザの声は、音色、抑揚、および発話速度などのユーザの特徴を有する。音声ファイルが記録されるとき、各ユーザの声特徴は、音声データ内の周波数、振幅、または同様のものに関連して具現化されてもよい。したがって、音声特徴は、プリセット・アルゴリズムに従って音声データから取得され、プリセット・アルゴリズムは、MFCC(Mel Frequency Cepstrum Coefficient)、MFSC(Mel Frequency Spectral Coefficient)、FMFCC(Fractional Mel Frequency Cepstrum Coefficient)、DMFCC(Discriminative Mel Frequency Cepstrum Coefficient)、LPCC(Linear Prediction Cepstrum Coefficient)、または同様のものであってもよい。当業者は、他のアルゴリズムを使用することにより音声データから音声特徴をさらに抽出することができるが、アルゴリズムによって実装される機能および効果が開示される方法のものと同じまたは類似する限りは、このアルゴリズムは、本開示の保護範囲内に入るものとする。
いくつかの実施形態において、音声ファイル内のユーザ発話の音声データと非ユーザ発話の音声データとをさらに区別するため、音声特徴を抽出するプロセスにおいて、終点検出処理がさらに含まれてもよい。次いで、非ユーザ発話の音声データに対応するデータは、音声特徴内で低減されてもよい。このやり方では、生成された音声特徴とユーザとの関連性の度合いを、ある程度向上することができる。終点検出処理方法は、限定されるものではないが、エネルギーに基づいた終点検出、ケプストラム特徴に基づいた終点検出、情報エントロピに基づいた終点検出、および自動相関された類似性の距離に基づいた終点検出を含むことができ、本明細書では再度列挙されない。
いくつかの実施形態において、識別されるべき音声データが増大するにつれて、関連付けられていないユーザ情報の声識別特徴も増大する。関連付けられていないユーザ情報の過度な声識別特徴が過度に大きい計算量または過度に大きい記憶量を引き起こすことを防ぐため、関連付けられていないユーザ情報の声識別特徴の数のしきい値が設定されてもよい。関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えることが検出される場合、関連付けられていないユーザ情報のいくつかの声識別特徴は削除されてもよい。実装中、1つもしくは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていないユーザ情報の声識別特徴のうちの1つもしくは複数を削除することができるか、または最も古い更新時間を有する、関連付けられていないユーザ情報の声識別特徴のうちの1つもしくは複数を削除することができる。
例えば、一度のみ更新された声識別特徴は削除され得、このユーザが比較的少ない回数だけアクティブであったこと、あまり重要ではないこと、またはあまり必要ではないこと、したがって削除されてもよいことを示す。代替的に、最も過去に更新された声識別特徴が削除されてもよい。すなわち、長い間非アクティブであるユーザについては、これらの人々の声識別特徴が削除されてもよい。
しかしながら、関連付けられていないユーザ情報の削除されるべき声識別特徴の前述の列挙された選択は、概略的な説明にすぎない。実装中、別の選択様式が、必要に応じて選択されてもよく、これは本開示において制限されない。
いくつかの実施形態において、前述の音声データは、クライアントを使用することにより収集されるクライアント音声データであってもよい。この実装では、クライアントは、録音機能を有する電子デバイスであってもよい。例えば、クライアントは、デスクトップ・コンピュータ、タブレット・コンピュータ、ノートブック・コンピュータ、スマートフォン、デジタル・アシスタント、スマート・ウェアラブル・デバイス、ショッピング・ガイド端末、テレビ・セット、スマート・サウンド・ボックス、マイクロフォン、または同様のものであってもよい。スマート・ウェアラブル・デバイスは、限定されるものではないが、スマート・バンド、スマート・ウォッチ、スマート・グラス、スマート・ヘルメット、スマート・ネックレス、または同様のものであってもよい。代替的に、クライアントは、電子デバイス内で実行することができるソフトウェアを含むことができる。例えば、電子デバイスは、録音機能を提供し、ソフトウェアは、録音機能を起動することによって音声データを記録することができる。
いくつかの実施形態において、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合、ユーザ情報が、声識別特徴と関連付けられる。声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合、個人情報を入力するための要求がユーザに送信される。例えば、発話またはテキストによる通知「あなたの個人情報を入力してください」を使用することができる。この要求に応答して、ユーザは、発話様式で個人情報を入力してもよく、もしくはテキスト入力様式で個人情報を入力してもよく、または、インターフェースが提供されてもよく、複数の入力ボックスがこのインターフェース上に表示され、これらのボックス内にユーザによって入力された情報が、ユーザのユーザ情報として受信および使用される。
しかしながら、ユーザ情報を取得する前述の様式は、概略的説明にすぎない。実際の実装中、ユーザ情報は、別の様式でさらに取得されてもよい。ユーザ情報が取得された後に、声識別特徴が、ユーザ情報と関連付けられてもよい。
いくつかの実施形態において、ユーザ情報は、限定されるものではないが、以下のうちの少なくとも1つ:ユーザ名、ニックネーム、実名、性別、連絡先電話番号、メールアドレスなどを含むことができる。声識別特徴は、ユーザ情報と関連付けられる。このやり方では、適用中、ユーザ発話の音声データが収集された後、ユーザ・アイデンティティを識別するために、音声データから抽出された音声特徴と声識別特徴とのマッチングが実施されてもよい。
いくつかの実施形態において、クライアントは、記録された音声データまたは音声データから識別された音声特徴をサーバに送信することができ、サーバが、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定する場合、ユーザ情報は、声識別特徴と関連付けられる。代替的に、クライアントは、音声データから音声特徴を抽出し、抽出された音声特徴を使用することにより声識別特徴を更新し、声識別特徴を更新するための音声の数がプリセットしきい値に達する場合、ユーザ情報は、上記声識別特徴と関連付けられる。
いくつかの実施形態において、サーバは、計算処理能力を有する電子デバイスであってもよい。サーバは、ネットワーク通信端末、プロセッサ、メモリなどを備えることができる。サーバはまた、電子デバイス内で実行することができるソフトウェアを備えることができる。サーバはさらに、分散サーバであってもよく、および共同動作状態にある、複数のプロセッサ、メモリ、ネットワーク通信モジュールなどを有するシステムであってもよい。代替的に、サーバはさらに、いくつかのサーバによって形成されるサーバ・クラスタであってもよい。
関連付けられたユーザ情報の声識別特徴と関連付けられていないユーザ情報の声識別特徴とを区別するため、2つのデータベース:関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを設定することができる。関連付けられた特徴ライブラリは、関連付けられたユーザ情報の声識別特徴を格納するために使用され、関連付けられていない特徴ライブラリは、関連付けられていないユーザ情報の声識別特徴を格納するために使用される。関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリは、各々が1つまたは複数のメモリに実装されてもよく、またはメモリを共有してもよい。これは、記憶装置分割様式が関連付けられたユーザ情報の声識別特徴と関連付けられていないユーザ情報の声識別特徴との区別をすることができる限りは、本開示においては制限されない。
関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリが確立された後、図2に示される様式に従って、関連付けられたユーザ情報の声識別特徴は、関連付けられた特徴ライブラリに格納され得、関連付けられていないユーザ情報の声識別特徴は、関連付けられていない特徴ライブラリに格納することができる。
相応して、データ更新プロセスが実施されるとき、マッチングは、まず、関連付けられた特徴ライブラリにおいて実施され得、マッチングが成功しない場合、別のマッチングが、関連付けられていない特徴ライブラリにおいて実施される。例えば、プロセスは、図3に示される。
音声データを取得すること、および音声データの音声特徴を抽出すること、
1)上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在する場合、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新すること、または
2)上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在しない場合、上記音声特徴を関連付けられていない特徴ライブラリに追加すること。ステップ2)は、ステップ2−1)または2−2)へと進むことができる。
2−1)上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在する場合、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新し、また声識別特徴を更新するための音声の数を更新すること、または
2−2)上記音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しない場合、声識別特徴としての役割を果たす音声特徴を関連付けられていない特徴ライブラリに追加すること。
いくつかの実施形態において、データベースは、関連付けられたユーザ情報の声識別特徴を格納することができる。比較的小さい格納空間のみが、関連付けられていないデータベースのために設定される必要がある。関連付けられたユーザ情報の過剰な声識別特徴が格納される場合、削除が実施されてもよい。削除中、関連付けられていない特徴ライブラリ内の声識別特徴の数がプリセット数を超える場合、1つもしくは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていない特徴ライブラリ内にある1つもしくは複数の声識別特徴が削除されるか、または最も古い更新時間を有する、関連付けられていない特徴ライブラリ内にある1つもしくは複数の声識別特徴が削除される。使用される方法は、実際の必要性に応じて決定されてもよく、削除される声識別特徴の数も、実際の必要性に応じて決定されてもよいが、これは、本開示において制限されない。
いくつかの実施形態において、マッチングが実施される音声データが取得され、音声データの音声特徴が抽出された後、マッチングは、まず、関連付けられた特徴ライブラリにおいて実施され、マッチングが成功でない場合、別のマッチングが、関連付けられていない特徴ライブラリにおいて実施される。しかしながら、人物の声は、風邪、発熱、または同様のものに起因して、時として変化することがある。したがって、ユーザの声識別特徴が関連付けられた特徴ライブラリにすでに格納されているとしても、類似性マッチングが実施されるとき、風邪または発熱に起因する変化した声の音声特徴は、関連付けられた特徴ライブラリ内の関連付けられたユーザ情報の関連付けられた類似する声識別特徴がないことが理由で、この音声特徴は、関連付けられていない特徴ライブラリ内に置かれる。それにもかかわらず、サンプル数が比較的大きいとき、これらのサンプルに基づいて更新を通じて取得された、関連付けられていないユーザ情報の声識別特徴は、ユーザによって正常に生成された音声特徴に相対的に類似する。同じユーザ情報が関連付けられた特徴ライブラリ内に繰り返し入力されることを防ぐため、関連付けられていない特徴ライブラリ内の関連付けられていないユーザ情報の声識別特徴が、関連付けられた特徴ライブラリ内に課される条件を満足する場合、上記声識別特徴は、まず、関連付けられたユーザ情報の類似の声識別特徴が存在するかどうかを決定するために、関連付けられた特徴ライブラリ内の既存の声識別特徴と比較される。肯定の場合、マッチングを通じて取得された関連付けられたユーザ情報の類似の声識別特徴は、条件を満足する声識別特徴を使用することにより更新される。否定の場合、条件を満足する声識別特徴は、1つのユーザ情報と関連付けられる。本方法は、声特徴が身体的理由により変化し、相応して、同じユーザが複数の声識別特徴に対応するという問題を克服する。
この例では、図4に示されるように、関連付けられていない特徴ライブラリ内の関連付けられていないユーザ情報の各声識別特徴について、更新回数の数が設定および記録される。更新される度に、関連付けられていないユーザ情報の対応する声識別特徴の更新回数の数は、1ずつ増大される。このやり方では、これは、更新回数の数がプリセットしきい値を満足するかどうかを決定するのに便利である場合がある。実装中、図4に示されるように、記録は、関連付けられていない特徴ライブラリ内で直接実施されるか、または記憶装置テーブルが、関連付けられていないユーザ情報の各声識別特徴の更新回数の数を格納するために、独立して設定されてもよく、これは本開示においては制限されない。
前述は、データ更新について説明するが、本方法は、複数のシナリオに適用することができる。例えば:
1)クライアントは、音声データから音声特徴を抽出し、次いで、この音声データをサーバ側(また、クラウド側であってもよい)へ転送し、サーバ側(またはクラウド側)は、音声特徴に従ってデータを更新する。
2)クライアントは、データベースをローカルで管理し、音声データから音声特徴を抽出して、抽出された音声特徴を使用することによりデータを更新するプロセスは、共に、クライアントによって実施される。更新されたデータは、サーバ側もしくはクラウド側に同期されてもよく、または同期されなくてもよく、これは本開示では制限されない。
3)クライアントは、音声データをサーバ側またはクラウド側に直接送信することができ、サーバ側が、音声特徴を抽出しデータを更新する動作を実施し、クライアントが、データおよび情報を取得するプロセスを実施する。
前述は、単にいくつかのシナリオを説明するにすぎない。実際の実装中、各ステップの実行本体は、実際の必要性に応じて選択されてもよい。例えば、特徴を抽出してデータを更新するプロセスは、共に、クライアントにおいて実施されてもよく、サーバなどを使用することによりデータを取得することが考え出されてもよい。
いくつかの実施形態において、ライブラリは確立されなくてもよい。代わりに、声識別特徴のための新規ユーザ・プロファイルを作成することによって、ユーザ・プロファイルは、対応する音声特徴または声識別特徴と関連付けられる。例えば、音声データが取得され、この音声データの音声特徴が抽出される。上記音声特徴にマッチする格納された声識別特徴が存在するかどうかが決定される。そのような声識別特徴が存在することが決定される場合、格納された声識別特徴は、上記音声特徴を使用することにより更新され、そのような声識別特徴が存在しないことが決定される場合、新規ユーザ・プロファイルが上記音声特徴のために作成され、新規ユーザ・プロファイルは、上記音声特徴と関連付けられる。すなわち、音声特徴が取得される場合、上記音声特徴にマッチする格納された声識別特徴、またはユーザ・プロファイルがすでに確立されている声識別特徴が存在するかどうかがまず決定される。肯定の場合、マッチングを通じて取得された声識別特徴が、上記音声特徴を使用することにより更新される。否定の場合、上記音声特徴が声識別特徴として使用され、新規ユーザ・プロファイルが、上記声識別特徴のために作成され、すなわち、上記声識別特徴は、対応するユーザのユーザ・プロファイルと関連付けられる。
ユーザ・プロファイルは、特定のユーザに関連したユーザ情報のセットを含むことができ、ユーザと関連付けられた音声特徴のセット、またはユーザの発話識別特徴、およびユーザの他の基本情報であってもよい。インテリジェントデバイスは、ユーザの声とアイデンティティと他の個人情報との管理関係を管理するために、発話、手動入力、または別の様式によりユーザの個人情報(例えば、名前、年齢、および支払口座)を入力することをユーザに通知することができる。このやり方では、ユーザは、発話制御により様々なサービスを使用することができる。
前述の方法は、応用シナリオを参照して以下に詳細に説明される。実施形態は、単に例示にすぎず、本開示へのいかなる制限も構成しない。
図5に示されるように、スマート・サウンド・ボックスは、自宅でインストールされてもよく、スマート・サウンド・ボックスは、自宅で人物の情報を自動的かつ動的に登録することができる。例えば、「起動キーワード」が、スマート・サウンド・ボックスのために設定することができる。ある人物が起動キーワードを話す度に、起動キーワードが1つの音声データとして記録され、さらには、スマート・サウンド・ボックスとの対話が開始される。例えば、サウンド・ボックスは「ベイベイ」と名付けられ、このとき、「ハロー、ベイベイ」が、起動キーワードとして使用されてもよい。このやり方では、スマート・サウンド・ボックスが、ある人物が「ハロー、ベイベイ」と話すことを識別する場合、ユーザとの対話が自動的に開始され得、さらには、「ハロー、ベイベイ」という音声データが記録される。
この場合、スマート・サウンド・ボックスのバックエンドで、またはサーバ側で、音声データ内の音声特徴が抽出され得、次いで抽出された音声特徴と関連付けられたユーザ情報の声識別特徴とのマッチングが実施される。音声特徴との類似性がプリセット・マッチングしきい値を超える関連付けられたユーザ情報の声識別特徴が存在する場合、音声データの音声特徴および関連付けられたユーザ情報の声識別特徴が同じ人物からのものであることを示す。したがって、マッチングを通じて取得された声識別特徴は、音声データの音声特徴を使用することにより更新されてもよい。音声特徴との類似性がプリセット・マッチングしきい値を超える関連付けられたユーザ情報の声識別特徴が存在しない場合、上記音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴がさらに決定されてもよい。上記音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在すると決定される場合、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴は、上記音声特徴を使用することにより、更新されてもよい。抽出された音声特徴に類似する、関連付けられていないユーザ情報の声識別特徴が存在する場合、上記音声特徴は、関連付けられていないユーザ情報の新規の声識別特徴として記録されてもよい。関連付けられていないユーザ情報の声識別特徴の更新回数の数がプリセットしきい値を超える場合、上記声識別特徴は、ユーザ情報と関連付けられ、関連付けられたユーザ情報の声識別特徴として使用されてもよい。
起動キーワードの選択については、通常の会話ではまれにしか出くわさない区別可能な言葉を選択することができる。前述の様式において、起動キーワードの発話は、声識別特徴ライブラリを更新および最適化し、スマート・サウンド・ボックスがユーザを認識することができるようにユーザを動的に登録するために、音声データとして使用される。したがって、ユーザは、意図的にアイデンティティ登録を実施する必要がなく、それによりユーザ体験を向上し、またサウンド・ボックスをよりインテリジェントにもする。すなわち、使用される度に、スマート・サウンド・ボックスは、ユーザが起動キーワードを話すときに音声データを記録し、プリセット・アルゴリズムを使用することにより音声特徴を抽出および処理し、その結果、ユーザがある時間期間にわたってスマート・サウンド・ボックスを使用した後、スマート・サウンド・ボックスはユーザを認識および識別することができる。
前述のシナリオにおいて、ユーザが起動キーワードを話すときの音声データは、抽出された音声特徴の音声データとして使用される。実際の実装中、ユーザが起動キーワードを話すときの音声データは、音声データとして使用されない場合がある。
例えば、ユーザがスマート・サウンド・ボックスを起動した後、スマート・サウンド・ボックスとの会話において、スマート・サウンド・ボックスは、ユーザの対話音声を音声データとして収集し、次いで声識別特徴を最適化し、この声識別特徴をバックエンドまたはサーバ側で動的に登録する。
スマート・サウンド・ボックスの実行プロセスは、図6に示され得、スマート・サウンド・ボックスは、知っている人ライブラリ(関連付けられた特徴ライブラリに相当する)および知らない人ライブラリ(関連付けられていない特徴ライブラリ)を設定することができる。
発話データを取得した後、スマート・サウンド・ボックスは、声紋(すなわち、声識別特徴とも称することができる抽出された音声特徴)を生成し、抽出された声紋は、知っている人ライブラリ内の声紋と比較される。類似する声紋がある場合、最も類似する人物が直接発見され、知っている人ライブラリ内の最も類似する人物の声紋は、生成された声紋を使用することにより更新される。知っている人ライブラリが類似する声紋を有さない場合、抽出された声紋は、知らない人ライブラリ内の声紋と比較される。類似する声紋がある場合、最も類似する声紋が発見され、声紋は更新される。さらには、声紋を更新するための音声(声紋更新音声)の数が記録される。知らない人ライブラリもまた類似する声紋を有さない場合、生成された声紋は、知らない人ライブラリに追加される。知らない人ライブラリに格納される声紋の数がプリセットしきい値を超えるかどうかは、リアルタイムで、または定期的に、検出することができる。肯定の場合、声紋更新音声の数が最小である声紋は、知らない人ライブラリから削除することができる。さらに、知らない人ライブラリが、更新回数の数がプリセット頻度しきい値(例えば、10回)に達する声紋を有するかどうかが、リアルタイムで、または定期的に、さらに検出することができる。肯定の場合、この声紋は、類似する声紋が存在するかどうかを決定するために、知っている人ライブラリ内の声紋と比較される。肯定の場合、知っている人ライブラリ内の類似する声紋は、この声紋を使用することにより更新される。否定の場合、この声紋は、知っている人ライブラリに追加され、この声紋に対応するユーザ情報が記録される。
いくつかの実施形態において、図6に示されるように、声識別方法は、音声データを取得して、この音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することと、声識別特徴が関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することとを含み、上記関連付けられた特徴ライブラリは、関連付けられたユーザ情報の声識別特徴を格納し、上記関連付けられていない特徴ライブラリは、関連付けられていないユーザ情報の声識別特徴を格納する。プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、声識別特徴は、上記音声特徴を使用することにより更新され、また声識別特徴を更新するための音声の数を更新することができる。プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、上記音声特徴は、声識別特徴として、関連付けられていない特徴ライブラリに追加することができる。
いくつかの実施形態において、本方法は、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタリングすることと、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えないと決定することに応答して、関連付けられていないユーザ情報の声識別特徴のいずれかを更新するための音声の数がプリセットしきい値に達するかどうかを決定するために、関連付けられていない特徴ライブラリを検索することと、関連付けられていないユーザ情報の第1の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、第1の声識別特徴を関連付けられた特徴ライブラリ内の声識別特徴と比較することと、第1の声識別特徴が関連付けられた特徴ライブラリ内の声識別特徴に似ていないと決定することに応答して、第1の声識別特徴を関連付けられた特徴ライブラリおよびこの音声データに対応するユーザの記録情報に追加することと、第1の声識別特徴が関連付けられた特徴ライブラリ内の第2の声識別特徴に類似すると決定することに応答して、第1の声識別特徴を使用することにより、第2の声識別特徴を更新することと、をさらに含む。
スマート・サウンド・ボックスの声紋ライブラリは、ローカルに格納されてもよく、またはクラウド側に格納されてもよく、これは本開示においては制限されない。
応用シナリオにおいて、家庭用スマート・サウンド・ボックスは、説明のために例として使用される。実装中、声紋ライブラリの更新およびユーザの自動登録は、スマート・サウンド・ボックスの前述の様式に類似する、携帯電話、スマート・テレビ、インテリジェント・ロボット、または同様のものにおいてソフトウェアを使用することによりさらに実施されてもよい。
声紋ライブラリが確立された後、アイデンティティ識別方法を実施することができる。アイデンティティ識別方法によると、ユーザのアイデンティティは、ユーザの音声の音声特徴に従って決定することができる。
いくつかの実施形態において、ユーザは、まず、前述の登録様式で登録を実施することができ、次いでユーザの声識別特徴を取得することができる。声識別特徴は、クライアントにおいて格納されてもよく、またサーバにおいて格納されてもよい。相応して、声識別特徴は、ユーザの個人情報と関連付けられる。
いくつかの実施形態において、ユーザのアイデンティティが識別される必要があるとき、ユーザの発話の音声情報を記録することができる。例えば、ユーザは、マイクロフォンに向かって文章を話す。この場合、クライアントは、ユーザの発話入力の音声情報を取得する。発話特徴ベクトルを生成するための前述の方法によると、発話特徴ベクトルは、音声情報に従って生成される。
いくつかの実施形態において、発話特徴ベクトルと声識別特徴とのマッチングが実施される。マッチングが成功すると、声識別特徴と関連付けられた個人情報が、ユーザのアイデンティティ情報として使用される。発話特徴ベクトルと声識別特徴とのマッチングを実施するとき、この2つに従って計算が実行され得、この2つが関係性に適合するとき、マッチングは成功であると見なすことができる。例えば、発話特徴ベクトルと声識別特徴との差異は合計され得、取得した値は、セットしきい値と比較するためのマッチング値として使用される。マッチング値がセットしきい値以下である場合、発話特徴ベクトルと声識別特徴とのマッチングは成功であると見なされる。代替的に、発話特徴ベクトルおよび声識別特徴が、直接的に合計されてもよく、取得した値が、マッチング値として使用される。マッチング値がセットしきい値以上である場合、発話特徴ベクトルと声識別特徴とのマッチングは成功であると見なされる。
本開示は、ネットワーク相互作用システムをさらに提供する。ネットワーク相互作用システムは、クライアントおよびサーバを含む。
いくつかの実施形態において、クライアントは、録音機能を有する電子デバイスを備えることができる。クライアントの異なるデータ処理能力に従って、クライアントは、以下のタイプに分類することができる。
Figure 0006912605
いくつかの実施形態において、基本ネットワーク・デバイスのハードウェア・デバイスは、比較的単純であり、マイクロフォンを使用することにより録音を実施して、音声情報を生成し、生成された音声情報を、ネットワーク通信モジュールを使用してサーバに送信することができる。基本ネットワーク・デバイスは、マイクロフォン、ネットワーク通信ユニット、センサ、およびスピーカを含むことができる。基本ネットワーク・デバイスは、データを処理する必要がない場合がある。基本ネットワーク・デバイスには、基本ネットワーク・デバイスの動作パラメータを取集するように構成される別のセンサがさらに設けられてもよい。例えば、基本ネットワーク・デバイスは、モノのインターネット・デバイス、エッジノード・デバイス、または同様のものであってもよい。
いくつかの実施形態において、簡易ネットワーク・デバイスは、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、スピーカなどを含むことができる。簡易ネットワーク・デバイスは、基本ネットワーク・デバイスと比較して高められたデータ処理能力を有する。簡易ネットワーク・デバイスは、データを収集した後、簡易ネットワーク・デバイスが、例えば音声情報に従って特徴行列を生成することにより、データに対して予備的な前処理を実施することができるように、単純な論理計算を処理することができるプロセッサを有することができる。簡易ネットワーク・デバイスは、単純なディスプレイ機能を有し、かつ情報をユーザにフィードバックするように構成することができるディスプレイ・モジュールを有することができる。例えば、簡易ネットワーク・デバイスは、スマート・ウェアラブル・デバイス、POS(ポイント・オブ・セール)機器、または同様のものを備えることができる。例えば、簡易ネットワーク・デバイスは、スマート・バンド、比較的ベーシックなスマート・ウォッチ、スマート・グラス、オフラインの買い物の場における決済デバイス(例えば、POS機器)、モバイル決済デバイス(例えば、携帯型POS機器、または携帯型デバイスに付属の決済モジュール)、または同様のものを備えることができる。
いくつかの実施形態において、中間ネットワーク・デバイスは主に、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、ディスプレイ、スピーカなどを含むことができる。中間ネットワーク・デバイスのプロセッサの優位周波数は、2.0GHz未満であってもよく、メモリ容量は、2GB未満であってもよく、メモリの容量は128GB未満であってもよい。中間ネットワーク・デバイスは、例えば特徴行列を生成することにより、記録された音声情報をある程度処理し、特徴行列に対して終点検出処理、雑音低減処理、発話識別などを実施することができる。例えば、中間ネットワーク・デバイスは、スマート・ホーム内のインテリジェント家電、インテリジェント家庭用端末、スマート・サウンド・ボックス、比較的上質のスマート・ウォッチ、比較的ベーシックなスマートフォン(約1000元の価格のものなど)、および車両搭載型インテリジェント端末を含むことができる。
いくつかの実施形態において、インテリジェント・ネットワーク・デバイスは、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、ディスプレイ、およびスピーカなどのハードウェアを含むことができる。インテリジェント・ネットワーク・デバイスは、比較的強力なデータ処理能力を有することができる。インテリジェント・ネットワーク・デバイスのプロセッサの優位周波数は、2.0GHzより大きくてもよく、メモリ容量は、12GB未満であってもよく、メモリの容量は1TB未満であってもよい。音声情報についての特徴行列を生成した後、インテリジェント・ネットワーク・デバイスは、終点検出処理、雑音低減処理、発話識別などを実施することができる。さらには、インテリジェント・ネットワーク・デバイスは、音声情報に従って発話特徴ベクトルをさらに生成することができる。場合によっては、発話特徴ベクトルと声識別特徴とのマッチングが、ユーザのアイデンティティを識別するために実施されてもよい。しかしながら、このマッチングは、家族内の家族構成員の声識別特徴などのある特定の数の声識別特徴に制限される。例えば、インテリジェント・ネットワーク・デバイスは、性能の優れたスマートフォン、タブレット・コンピュータ、デスクトップ・コンピュータ、ノートブック・コンピュータなどを含むことができる。
いくつかの実施形態において、高性能デバイスは、マイクロフォン、ネットワーク通信ユニット、プロセッサ、メモリ、ディスプレイ、およびスピーカなどのハードウェアを含むことができる。高性能デバイスは、大規模データ計算処理能力を有することができ、またパワフルなデータ格納能力をさらに提供することができる。高性能デバイスのプロセッサの優位周波数は、少なくとも3.0GHzであってもよく、メモリ容量は、12GBより大きくてもよく、メモリの容量は少なくとも1TBであってもよい。高性能デバイスは、音声情報についての特徴行列を生成し、終点検出処理、雑音低減処理、および発話識別を実施し、発話特徴ベクトルを生成し、発話特徴ベクトルと大量の格納された声識別特徴とのマッチングを実施することができる。例えば、高性能デバイスは、ワークステーション、非常に高構成のデスクトップ・コンピュータ、キオスク・インテリジェント電話ボックス、セルフサービス機器、または同様のものであってもよい。
前述は、例を使用することによりいくつかのクライアントのみを列挙する。科学および技術の進歩により、ハードウェア・デバイスの性能は改善され得、その結果、現在は比較的貧弱なデータ処理能力を有する前述の電子デバイスもまた、比較的強力な処理能力を有することができる。したがって、表1の内容は、単に例示にすぎず、制限を構成するものではない。
表1に示される5つのタイプのハードウェアはすべて、声識別特徴を動的に登録および最適化するために、前述の動的登録方法、ならびに声識別特徴のための更新および最適化方法を実施することができる。前述の5つのタイプのハードウェア構造がどのようにして具体的かつ動的に声識別特徴を登録し、声識別特徴を更新および最適化するのかのプロセスについては、声識別特徴の動的登録方法および声識別特徴の更新方法の前述の説明を参照することができ、その詳細は、本明細書内で再度説明されない。
いくつかの実施形態において、サーバは、計算処理能力を有し、かつネットワーク通信端末、プロセッサ、メモリなどを有することができる電子デバイスを備えることができる。サーバはまた、電子デバイス内で実行されるソフトウェアを備えることができる。サーバは、分散サーバを備えることができ、共同動作状態にある、複数のプロセッサ、メモリ、ネットワーク通信モジュールなどを有するシステムを備えることができる。代替的に、サーバは、いくつかのサーバによって形成されるサーバ・クラスタを備えることができる。いくつかの実施形態において、サーバは、声識別特徴を管理するように構成されてもよい。ユーザが登録を完了した後、ユーザの声識別特徴は、サーバに格納されてもよい。
1つの例において、クライアントは、計算能力をある程度有する家庭用インテリジェントデバイスであってもよく、また例えば、表1内のタイプ3のデバイスであってもよい。家庭用シナリオにおいて、クライアントは、スマート・サウンド・ボックスとして製造されてもよい。スマート・サウンド・ボックスは、マイクロフォン、スピーカ、WiFiモジュール、メモリ、プロセッサなどを備えることができる。スマート・サウンド・ボックスは、普通の音声再生機能を実施することができ、ユーザとの会話およびサーバとのデータ交換により買い物機能を実施するために処理デバイスおよびネットワーク・デバイスが搭載される。
この例では、スマート・サウンド・ボックスは、起動キーワードを識別することによって機能を開始することができる。ユーザにより話される起動キーワードを識別する前、スマート・サウンド・ボックスは、スタンバイ状態にあってもよい。スマート・サウンド・ボックスを使用するとき、ユーザは、「ハロー、スマートボックス」と話すことができる。スマート・サウンド・ボックスは、ユーザによって話された発話を記録し、識別を通じて、ユーザによって話された内容が起動キーワードであることを学習する。この場合、スマート・サウンド・ボックスは、スピーカを使用することにより、「ハロー、ご用はありますか?」とユーザに返答することができる。
この例では、ユーザは、空気清浄機を買うことを意図することができる。ユーザは、「空気清浄機を買いたい。何かお薦めはありますか?」と発言してもよい。マイクロフォンの録音により音声情報を生成した後、スマート・サウンド・ボックスは、前述の製品の説明情報を識別し、2つのお薦め結果を得るために空気清浄機の製品情報に関してメモリに内に設定された製品情報をクエリして、発話「お薦めが2つあります。1つ目は、Xiaomi空気清浄機第2世代、2つ目は、Midea KJ210G−C46空気清浄機です」を再生する。ユーザは、「Xiaomi空気清浄機第2世代を買いたい」と発言してもよい。この音声情報を記録および識別した後、スマート・サウンド・ボックスは、購入される製品に関する情報がXiaomi空気清浄機第2世代であることを決定する。スマート・サウンド・ボックスはまた、製品説明情報をサーバに送信し、サーバによって提供されるお薦め結果を受信することができる。
この例では、スマート・サウンド・ボックスは、「今買い物の支払いを行いますか?」とユーザに問い合わせることができ、ユーザは、「はい」と返答することができる。スマート・サウンド・ボックスは、プリセット・ランダム・アルゴリズムに従ってテキストを生成し、「この数字の断片57463を一度復唱してください」とユーザに通知することができる。スマート・サウンド・ボックスは、ユーザが実際に支払いの意思があるかどうかを決定するために、ユーザによって話された内容が指定した数字であるかどうかを識別することができる。ユーザが、「やっぱり買いません」と発言した場合、スマート・サウンド・ボックスは、この購入プロセスを終了することができる。ユーザが、「57463」と発言した場合、スマート・サウンド・ボックスは、ユーザによって話された発話が指定した数字と一致することを決定し、ユーザが購入を行うことを意図していたことを決定する。
この例では、スマート・サウンド・ボックスは、ユーザによって復唱された数字の音声情報に従って音声特徴を生成し、この音声特徴とスマート・サウンド・ボックスのメモリに格納されたユーザの声識別特徴とのマッチングを実施することができる。声識別特徴は、上の例では動的登録中に登録され、その結果、スマート・サウンド・ボックスは、ユーザの声識別特徴を有する。
この例では、スマート・サウンド・ボックスは、格納された声識別特徴と音声特徴とのマッチングを首尾よく実施することができる。この場合、スマート・サウンド・ボックスは、ユーザのアイデンティティ検証を完了し、またユーザの個人情報および購入される製品に関する情報をサーバに送信することができ、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。
1つの例において、スマート・サウンド・ボックスは、ユーザがフォローする製品またはサービスを積極的に予測することができる。
この例では、スマート・サウンド・ボックスは、ユーザの自宅のリビング・ルームに位置していてもよい。ユーザがテレビを見ているとき、スマート・サウンド・ボックスは、テレビの声について録音を実施することによって音声情報を取得し、次いでチャンネルコードを取得するためにその音声情報を識別することができる。代替的に、スマート・サウンド・ボックスは、テレビ番組の内容を識別することによってサーバと対話することができ、サーバは、対応するテレビ・チャンネル・コードをフィードバックする。
この例では、スマート・サウンド・ボックスは、テレビ・チャンネルの番組リストを格納することができるか、またはサーバからテレビ・チャンネルの番組リストを取得することができる。ユーザがテレビを見ているとき、ユーザは、テレビ広告に示される製品に興味を持ち、その製品を買いたいと思う場合がある。この場合、ユーザは、「ハロー、サウンド・ボックス」、「この広告の製品を買いたい」と発言してもよい。スマート・サウンド・ボックスは、ユーザが話す時点、および番組リストが提供された時点に従って、ユーザが買いたい製品に関する情報を決定することができる。さらに、スマート・サウンド・ボックスは、ユーザの音声データに従って音声特徴を抽出し、ユーザのアイデンティティを検証するために上記音声特徴と確立された声識別特徴ライブラリ内の声識別特徴とのマッチングを実施することができる。検証が成功すると、ユーザの個人情報および製品情報がサーバに送信され、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。
1つの例において、図7に示されるように、スマート・サウンド・ボックスは、ユーザがフォローする製品またはサービスを積極的に予測することができる。
この例では、スマート・サウンド・ボックスは、ユーザの自宅のリビング・ルームに位置していてもよい。ユーザがテレビを見ているとき、スマート・サウンド・ボックスは、テレビの声について録音を実施することによって音声情報を取得し、次いでチャンネルコードを取得するためにその音声情報を識別することができる。代替的に、スマート・サウンド・ボックスは、テレビ番組の内容を識別することによってサーバと対話することができ、サーバは、対応するテレビ・チャンネル・コードをフィードバックする。
この例では、スマート・サウンド・ボックスは、テレビ・チャンネルの番組リストを格納することができるか、またはサーバからテレビ・チャンネルの番組リストを取得することができる。ユーザがテレビを見ているとき、ユーザは、テレビ広告に示される製品に興味を持ち、その製品を買いたいと思う場合がある。この場合、ユーザは、「ハロー、サウンド・ボックス」、「この広告の製品を買いたい」と発言してもよい。スマート・サウンド・ボックスは、ユーザが話す時点、および番組リストが提供された時点に従って、ユーザが買いたい製品に関する情報を決定することができる。さらに、スマート・サウンド・ボックスは、ユーザのアイデンティティを検証するために、マッチングを通じて、ユーザ音声の音声特徴に従って声識別特徴を取得することができる。検証が成功すると、ユーザの個人情報および製品情報がサーバに送信され、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。
1つの例において、図8に示されるように、クライアントは、ディスプレイを有する電子デバイスを備えることができ、また例えば、表1のタイプ4のデバイスであってもよい。例えば、クライアントは、スマートフォンであってもよい。
この例では、ユーザは、ヘッドセットを買うことを意図することができる。ユーザは、モバイルJD、Dangdang、またはAmazonショッピングソフトウェアなどのショッピングソフトウェアを使用して、製品情報を動作および閲覧することができる。
この例では、ユーザは、製品情報を閲覧した後、150元の金額でヘッドセットに対して支払いをしようとしており、ユーザは、携帯電話ディスプレイを製品情報にとどまらせて、携帯電話に対して「支払いをしたい」と話すことができる。この場合、携帯電話は、音声を記録し、ユーザの指示を取得するために音声を識別することができ、次いで携帯電話は、支払いインターフェースをユーザに提供することができる。代替的に、ユーザが、支払いボタンをクリックし、携帯電話が、支払いインターフェースを提供する。ユーザは、プリセット支払いキーワードを支払いインターフェースに対して直接話すことができる。例えば、ユーザが、「声紋支払いは生活を便利にする」と話すと、携帯電話は、録音を実施して、音声情報を生成し、またこの音声情報に従って音声特徴を生成することができる。上記音声特徴と携帯電話に格納された声識別特徴とのマッチングは、ユーザのアイデンティティを検証するために実施される。マッチングが成功すると、携帯電話は、ユーザの個人情報および製品情報をサーバに送信することができ、その結果、サーバは、製品情報内の金額をユーザの金融口座から製品の販売者に支払う。
1つの例において、図9に示されるように、クライアントは、車両搭載端末を備えることができる。車両搭載端末は、ユーザとの会話およびさらなる処理により、ユーザが、自動車整備クーポンなどのサービスクーポンを50元の販売価格で買いたいということを決定することができる。車両搭載端末は、ユーザの記録された発話ファイルおよび自動車整備クーポンに関する情報を一緒にサーバに送信することができる。サーバは、アイデンティティ検証プロセスを実施することができる。
この例では、車両搭載端末によってサーバに提供される音声情報は、ユーザによって送信された購入指示の記録された音声であってもよい。例えば、ユーザが、「北京整備店の自動車整備クーポンを買いたい」と話すと、車両搭載端末は、その文章の音声データをサーバに送信する。
この例では、音声データおよびサービス情報を受信した後、サーバは、音声データに従って音声特徴を抽出し、次いで、ユーザのアイデンティティを検証するために、上記音声特徴とサーバ内の声識別特徴とのマッチングを実施することができる。例えば、検証が成功すると、ユーザの個人情報は、マッチングが首尾よく実施される声識別特徴に従って取得され、次いで、個人情報の金融口座は、自動車整備クーポンを買うために北京整備店に対して支払うことができる。
この例では、音声データを記録した後、車両搭載端末は、音声特徴を生成し、この音声特徴およびサービス情報をサーバに送信する。次いで、ユーザ・アイデンティティを検証するために、サーバが音声特徴と声識別特徴とのマッチングを実施するのが簡便である。
別の応用シナリオを参照して以下において説明が実施される。この例では、図10に示されるように、応用シナリオは、複数のクライアントおよびクラウド・サーバを含む。クライアントは、音声データを取得し、音声特徴を声紋として抽出し、クラウド側で複数のクライアントによって共有される声紋ライブラリを更新するために、その声紋とクラウド・サーバに格納される声紋とのマッチングが実施される。代替的に、音声データを取得した後、クライアントは、音声データをクラウド・サーバに直接送信し、クラウド・サーバは、この音声データを処理して声紋を抽出し、抽出された声紋を使用することにより声紋ライブラリを更新する。代替的に、複数のクライアントでは、一部のクライアントのデータは、クラウド側で共有され、一部のクライアントは、独自の声紋ライブラリを維持する。ユーザ情報に対してマッチングが実施される必要があるときにのみ、ユーザ情報がクラウド側から取得される。類似する声紋のユーザ情報をクラウド側から取得することができない場合、ユーザ情報は、ユーザから要求される。
いくつかの実施形態において、クライアントは、録音機能を有する電子デバイスであってもよい。例えば、クライアントは、デスクトップ・コンピュータ、タブレット・コンピュータ、ノートブック・コンピュータ、スマートフォン、デジタル・アシスタント、スマート・ウェアラブル・デバイス、ショッピング・ガイド端末、テレビ・セット、スマート・サウンド・ボックス、マイクロフォン、または同様のものであってもよい。スマート・ウェアラブル・デバイスは、限定されるものではないが、スマート・バンド、スマート・ウォッチ、スマート・グラス、スマート・ヘルメット、スマート・ネックレス、または同様のものであってもよい。代替的に、クライアントは、電子デバイス内で実行することができるソフトウェアを備えることができる。例えば、電子デバイスは、録音機能を提供し、ソフトウェアは、録音機能を起動することによって音声データを記録することができる。
上の方法に対応して、声識別システム(例えば、サーバ、クライアント)が開示される。図11に示されるように、例示的な声識別システム1100(例えば、サウンド・ボックス、携帯電話などのクライアント)は、プロセッサ1101、メモリ1102、任意選択のスピーカ1103、およびマイクロフォン1104を備えることができる。メモリ1102は、非一時的かつコンピュータ可読であってもよく、プロセッサ1101によって実行されるとき本明細書に説明される様々な方法およびステップをシステム1100に実施させる命令を格納することができる。図12に示されるように、例示的な声識別システム1200(例えば、サーバ)は、プロセッサ1201およびメモリ1202を備えることができる。メモリ1202は、非一時的かつコンピュータ可読であってもよく、プロセッサ1201によって実行されるとき本明細書に説明される様々な方法およびステップをシステム1200に実施させる命令を格納することができる。さらなる詳細は、クライアントおよびサーバに関して以下に提供される。
いくつかの実施形態において、声識別システムは、音声データを取得するように構成されるマイクロフォン、ならびにプロセッサ、および命令を格納する非一時的なコンピュータ可読記憶媒体を備え、命令は、プロセッサによって実行されるとき、プロセッサに声識別方法を実行させ、本方法は、音声データの音声特徴を抽出することと、プリセット・マッチングしきい値を上回る音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、上記声識別特徴が関連付けられた特徴ライブラリ内に存在すると決定することに応答して、上記音声特徴を使用することにより、声識別特徴を更新することとを含む。
いくつかの実施形態において、クライアントは、マイクロフォン・ユニット、メモリ、およびプロセッサを含む。マイクロフォン・ユニットは、音声データを取得するように構成され、プロセッサは、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定し、声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を上記声識別特徴と関連付けるように構成され、メモリは、声識別特徴および関連付けられたユーザ情報を格納するように構成される。
いくつかの実施形態において、クライアントは、プロセッサおよびメモリを含む。プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。
いくつかの実施形態において、プロセッサは、音声特徴およびマッチングを通じて取得された声識別特徴を取得し、音声特徴およびマッチングを通じて取得された声識別特徴に従って第1の識別特徴を生成し、マッチングを通じて取得された声識別特徴を第1の識別特徴と置き換えて、関連付けられた特徴ライブラリに第1の識別特徴を格納するように構成されてもよい。
いくつかの実施形態において、プロセッサは、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在する場合、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新し、声識別特徴を更新するための音声の数を更新することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられていない特徴ライブラリ内に存在しない場合、声識別特徴としての役割を果たす音声特徴を関連付けられていない特徴ライブラリに追加することとを行うように構成されてもよい。
いくつかの実施形態において、音声データは、限定されるものではないが、起動キーワードを話すユーザの声を記録することによって取得される音声ファイルを含むことができる。
いくつかの実施形態において、サーバは、プロセッサおよびメモリを含む。プロセッサは、音声データを取得して、この音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納するために使用される、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングにより取得された声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を行うように構成され、ならびにメモリは、関連付けられた特徴ライブラリおよび関連付けられていない特徴ライブラリを格納するように構成される。
いくつかの実施形態において、クライアントは、プロセッサを含み、プロセッサは、以下のステップ:声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を声識別特徴と関連付けること、を実施するように構成される。
いくつかの実施形態において、プロセッサは、声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定する前に、音声データを取得することと、その音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられたユーザ情報の声識別特徴が存在するかどうかを決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された、関連付けられたユーザ情報の声識別特徴を更新することと、行うようにさらに構成されてもよい。
いくつかの実施形態において、プロセッサは、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の声識別特徴が存在するかどうかを決定することの後に、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の声識別特徴が存在しないと決定される場合には、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在するかどうかを決定することと、音声特徴との類似性がプリセット・マッチングしきい値に達する、関連付けられていないユーザ情報の声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴を更新することと、マッチングを通じて取得された、関連付けられていないユーザ情報の声識別特徴を更新するための音声の数が、プリセットしきい値に達するかどうかを決定することと、を行うようにさらに構成されてもよい。
いくつかの実施形態において、プロセッサは、音声特徴との類似性がプリセット・マッチングしきい値に達する関連付けられたユーザ情報の複数の声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、その音声特徴と最も高い類似性を有する、関連付けられたユーザ情報の声識別特徴を更新するように構成されてもよい。
いくつかの実施形態において、プロセッサは、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタし、上記数がプリセット数を超えると決定される場合には、1つまたは複数の声識別特徴を更新するための最小量の音声データを有する、関連付けられていないユーザ情報の声識別特徴のものである、1つまたは複数の声識別特徴を削除するようにさらに構成されてもよい。
いくつかの実施形態において、プロセッサは、関連付けられていないユーザ情報の声識別特徴の数がプリセット数を超えるかどうかをモニタし、上記数がプリセット数を超えると決定される場合には、最も古い更新時間を有する、関連付けられていないユーザ情報の1つまたは複数の声識別特徴を削除するようにさらに構成されてもよい。
いくつかの実施形態において、プロセッサは、ユーザ情報を要求するために使用されるリクエストを生成し、そのリクエストに応答して返されるユーザ情報を受信し、受信したユーザ情報を声識別特徴と関連付けるようにさらに構成されてもよい。
本開示は、プロセッサを含むことができるサーバをさらに提供し、プロセッサは、以下のステップ:声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定すること、および声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定される場合には、ユーザ情報を声識別特徴と関連付けること、を実施するように構成される。
いくつかの実施形態において、前述のメモリは、限定されるものではないが、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、キャッシュ、ハード・ディスク・ドライブ(HDD)、またはメモリ・カードを含むことができる。メモリは、コンピュータ・プログラム命令を格納するように構成されてもよい。ネットワーク通信ユニットは、通信プロトコルによって指定された規格に従って設定され、かつネットワーク接続および通信を実施するように構成される、インターフェースであってもよい。
いくつかの実施形態において、前述のプロセッサは、任意の適切な様式で実装されてもよい。例えば、プロセッサは、プロセッサ(マイクロプロセッサ)、論理ゲート、スイッチ、特定用途向け集積回路(ASIC)、プログラマブル論理コントローラ、または埋め込み型マイクロコントローラによって実行することができるコンピュータ可読プログラムコード(ソフトウェアまたはファームウェアなど)を格納する、マイクロプロセッサ、プロセッサ、コンピュータ可読媒体等の形態であってもよい。
いくつかの実施形態において、前述のマイクロフォン・ユニットは、音声ファイルを形成するために声を電気信号に変換することができる。マイクロフォン・ユニットは、抵抗性マイクロフォン、誘導性マイクロフォン、容量性マイクロフォン、リボンマイクロフォン、可動コイル型マイクロフォン、またはエレクトレットマイクロフォンの形態にあってもよい。
本実装形態に提供されるクライアントおよびサーバによって実施される機能および効果については、他の実装形態における対応する説明を参照することができる。
本開示は、プログラム命令を格納するコンピュータ記憶媒体をさらに提供する。実行されると、プログラム命令は、音声データを取得して、この音声データの音声特徴を抽出することと、音声特徴との類似性がプリセット・マッチングしきい値に達する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することであって、上記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納する、決定することと、そのような声識別特徴が存在すると決定される場合には、上記音声特徴を使用することにより、マッチングを通じて取得された声識別特徴を更新することと、そのような声識別特徴が存在しないと決定される場合には、上記音声特徴を関連付けられていない特徴ライブラリに追加することであって、上記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納するために使用される、追加することと、を実施する。
いくつかの実施形態において、コンピュータ記憶媒体は、限定されるものではないが、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、キャッシュ、ハード・ディスク・ドライブ(HDD)、またはメモリ・カードを含む。
本実装形態に提供されるコンピュータ記憶媒体のプログラム命令が実行されるときに実施される機能および効果については、他の実装形態における対応する説明が参照することができる。
本開示は、漸進的な様式で説明され、実装形態の同じ部分および類似する部分同士について参照がなされ得、各実装形態の説明において強調されることは、他の実装形態の別の部分とは異なる部分に焦点を合わせている。
サーバの場合、20世紀の90年代において、技術改善が、ハードウェアにおける改善(例えば、ダイオード、トランジスタ、またはスイッチなどの回路構造における改善)であるか、またはソフトウェアにおける改善(方法プロセスにおける改善)であるかは、かなり明白に区別することができる。しかしながら、技術の発展により、方法プロセスにおける多くの現在の改善は、ハードウェア回路構造における改善と見なすことができる。ほぼすべての設計者は、改善された方法プロセスをハードウェ回路内にプログラミングすることによって、対応するハードウェア回路構造を得る。したがって、方法プロセスにおける改善は、ハードウェア・エンティティ・モジュールを使用することにより実施することができる。例えば、プログラマブル論理デバイス(PLD)(フィールド・プログラマブル・ゲート・アレイ(FPGA)など)が、そのような集積回路であり、その論理機能は、ユーザによってデバイスをプログラミングすることにより決定される。設計者は、PLD上にデジタル・システムを「集積する」ようにプログラミングを実施し、専用集積回路チップを設計および製造するために製造業者が招かれる必要がない。さらに、現在では、集積回路チップを手動で製造する代わりに、このプログラミングはまた、大半は、「論理コンパイラ」ソフトウェアを使用することによって実施される。ソフトウェアは、プログラム開発および書き込みの時点で使用されるソフトウェア・コンパイラに類似しており、コンパイル前の元のコードはまた、ハードウェア記述言語(HDL)と称される特定のプログラミング言語を使用することによって書き込まれる必要がある。ABEL(高度ブール表現言語)、AHDL(アルテラ・ハードウェア記述言語)、Confluence、CUPL(コーネル大学プログラミング言語)、HDCal、JHDL(ジャバ・ハードウェア記述言語)、Lava、Lola、MyHDL、PALASM、およびRHDL(ルビー・ハードウェア記述言語)など、1つのみのHDLではなく、複数のHDLが存在する。現在では、VHDL(超高速集積回路ハードウェア記述言語)およびVerilog2が最も一般的に使用される。当業者はまた、方法プロセスが、前述のいくつかのハードウェア記述言語を使用することによりやや論理的にプログラミングされ、集積回路内へプログラミングされる限り、論理方法プロセスを実施するためのハードウェア回路をかなり容易に得ることができるということを明白に知っているものとする。
当業者はまた、純粋なコンピュータ可読プログラムコード様式でコントローラを実装することに加えて、論理ゲート、スイッチ、特定用途向け集積回路、プログラマブル論理コントローラ、埋め込み型マイクロコントローラ、または同様のものの形態で同じ機能をコントローラが実施することを可能にするように、方法ステップを論理的にプログラミングすることが十分に実現可能であるということを知っている。したがって、このコントローラは、ハードウェア構成要素と見なされてもよく、コントローラに含まれ、かつ様々な機能を実施するように構成される装置もまた、ハードウェア構成要素内の構造物と見なされてもよい。代替的に、様々な機能を実施するように構成される装置は、さらには、方法を実施することができるソフトウェアモジュールおよびハードウェア構成要素内の構造物の両方として見なされてもよい。
当業者は、本開示が、ハードウェアのみによって、またはソフトウェアおよび必要な汎用ハードウェア・プラットフォームによって実施することができることを理解することができる。そのような理解に基づいて、本開示の下の技術的解決策、または先行技術に寄与する部分は、本質的に、ソフトウェア製品の形態で具現化することができる。ソフトウェア製品は、ROM/RAM、磁気ディスク、または光学ディスクなどの記憶媒体に格納されてもよい。ソフトウェア製品は、コンピュータ・デバイス(パーソナル・コンピュータ、サーバ、またはネットワーク・デバイス)が本開示の実装形態において提供される方法を実行することを可能にするいくつかの命令を含む。
本開示は、実装形態を使用することにより説明されるが、当業者は、本開示が、本開示の趣旨から逸脱することなく多くの変形および変更を有すること、ならびに添付の特許請求項が本開示の趣旨から逸脱することなくこれらの変形および変更を含むことが意図されることを知っている。

Claims (17)

  1. 音声データを取得し、前記音声データの音声特徴を抽出することと、
    プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと
    前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと
    前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記声識別特徴を更新するための音声の数がプリセットしきい値に達するかどうかを決定することと、
    前記声識別特徴を更新するための前記音声の前記数が前記プリセットしきい値に達すると決定することに応答して、ユーザ情報を前記声識別特徴と関連付けることと
    を含む、声識別方法。
  2. 前記音声特徴を使用することにより、前記声識別特徴を前記更新することが、
    前記音声特徴および前記声識別特徴に従って第1の識別特徴を生成することと、
    前記声識別特徴を前記第1の識別特徴と置き換えて、前記関連付けられた特徴ライブラリに前記第1の識別特徴を格納することと、を含む、請求項1に記載の方法。
  3. 前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することが、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する関連付けられたユーザ情報の複数の前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記音声特徴と最も高い類似性を有する前記関連付けられたユーザ情報の前記声識別特徴を更新することを含む、請求項1に記載の方法。
  4. 前記音声データが、ユーザによって話された起動キーワードの音声記録を含む、請求項1に記載の方法。
  5. 前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索することをさらに含み、前記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、前記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する、請求項1に記載の方法。
  6. 前記関連付けられた特徴ライブラリが、前記関連付けられたユーザ情報の前記声識別特徴と関連付けられたユーザ情報をさらに格納し、
    前記関連付けられていない特徴ライブラリが、前記関連付けられていないユーザ情報の前記声識別特徴を更新するための音声の数をさらに格納する、請求項5に記載の方法。
  7. 前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を前記声識別特徴として、前記関連付けられていない特徴ライブラリに追加することと、をさらに含む、請求項5に記載の方法。
  8. 前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
    前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えると決定することに応答して、前記1つまたは複数の声識別特徴を更新するための最小量の音声データを有する前記関連付けられていないユーザ情報の前記声識別特徴のうちの1つまたは複数を削除することと、をさらに含む、請求項7に記載の方法。
  9. 前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
    前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えると決定することに応答して、最も古い更新時間を有する前記関連付けられていないユーザ情報の前記声識別特徴のうちの1つまたは複数を削除することと、をさらに含む、請求項7に記載の方法。
  10. 前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
    前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えないと決定することに応答して、前記関連付けられていないユーザ情報の前記声識別特徴のいずれかを更新するための音声の数が、プリセットしきい値に達するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索することと、
    前記関連付けられていないユーザ情報の第1の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、前記第1の声識別特徴を前記関連付けられた特徴ライブラリ内の前記声識別特徴と比較することと、
    前記第1の声識別特徴が前記関連付けられた特徴ライブラリ内の前記声識別特徴に似ていないと決定することに応答して、前記第1の声識別特徴を前記関連付けられた特徴ライブラリおよび前記音声データに対応するユーザの記録情報に追加することと、
    前記第1の声識別特徴が前記関連付けられた特徴ライブラリ内の第2の声識別特徴に類似すると決定することに応答して、前記第1の声識別特徴を使用することにより、前記第2の声識別特徴を更新することと、をさらに含む、請求項7に記載の方法。
  11. 命令を格納する非一時的なコンピュータ可読記憶媒体であって、前記命令が、プロセッサによって実行されるとき、前記プロセッサに声識別方法を実施させ、前記方法が、
    音声データの音声特徴を抽出することと、
    プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、
    前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと
    前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索すること
    を含み、前記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、前記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する、非一時的なコンピュータ可読記憶媒体。
  12. 前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することが、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する関連付けられたユーザ情報の複数の前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記音声特徴と最も高い類似性を有する前記関連付けられたユーザ情報の前記声識別特徴を更新することを含む、請求項11に記載の非一時的なコンピュータ可読記憶媒体。
  13. 前記方法が、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を前記声識別特徴として、前記関連付けられていない特徴ライブラリに追加することと、をさらに含む、請求項11に記載の非一時的なコンピュータ可読記憶媒体。
  14. 前記方法が、
    前記関連付けられていないユーザ情報の前記声識別特徴の数がプリセット数を超えるかどうかをモニタすることと、
    前記関連付けられていないユーザ情報の前記声識別特徴の前記数が前記プリセット数を超えないと決定することに応答して、前記関連付けられていないユーザ情報の前記声識別特徴のいずれかを更新するための音声の数が、プリセットしきい値に達するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索することと、
    前記関連付けられていないユーザ情報の第1の声識別特徴を更新するための音声の数がプリセットしきい値に達すると決定することに応答して、前記第1の声識別特徴を前記関連付けられた特徴ライブラリ内の前記声識別特徴と比較することと、
    前記第1の声識別特徴が前記関連付けられた特徴ライブラリ内の前記声識別特徴に似ていないと決定することに応答して、前記第1の声識別特徴を前記関連付けられた特徴ライブラリおよび前記音声データに対応するユーザの記録情報に追加することと、
    前記第1の声識別特徴が前記関連付けられた特徴ライブラリ内の第2の声識別特徴に類似すると決定することに応答して、前記第1の声識別特徴を使用することにより、前記第2の声識別特徴を更新することと、をさらに含む、請求項13に記載の非一時的なコンピュータ可読記憶媒体。
  15. 音声データを取得するように構成されたマイクロフォンと、
    プロセッサ、および命令を格納する非一時的なコンピュータ可読記憶媒体と、を備える、声識別システムであって、前記命令が、前記プロセッサによって実行されるとき、前記システムに声識別方法を実施させ、前記方法が、
    前記音声データの音声特徴を抽出することと、
    プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する声識別特徴が、関連付けられた特徴ライブラリ内に存在するかどうかを決定することと、
    前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと
    前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在しないと決定することに応答して、前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、関連付けられていない特徴ライブラリ内に存在するかどうかを決定するために、前記関連付けられていない特徴ライブラリを検索すること
    を含み、前記関連付けられた特徴ライブラリが、関連付けられたユーザ情報の声識別特徴を格納し、前記関連付けられていない特徴ライブラリが、関連付けられていないユーザ情報の声識別特徴を格納する、声識別システム。
  16. 前記声識別特徴が前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することが、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する関連付けられたユーザ情報の複数の前記声識別特徴が、前記関連付けられた特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記音声特徴と最も高い類似性を有する前記関連付けられたユーザ情報の前記声識別特徴を更新することを含む、請求項15に記載の声識別システム。
  17. 前記方法が、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が、前記関連付けられていない特徴ライブラリ内に存在すると決定することに応答して、前記音声特徴を使用することにより、前記声識別特徴を更新することと、
    前記プリセット・マッチングしきい値を上回る前記音声特徴との類似性を有する前記声識別特徴が前記関連付けられていない特徴ライブラリ内に存在しないと決定することに応答して、前記音声特徴を前記声識別特徴として、前記関連付けられていない特徴ライブラリに追加することと、をさらに含む、請求項15に記載の声識別システム。
JP2019569451A 2017-06-16 2018-06-14 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ Active JP6912605B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710461578.0A CN109147770B (zh) 2017-06-16 2017-06-16 声音识别特征的优化、动态注册方法、客户端和服务器
CN201710461578.0 2017-06-16
PCT/US2018/037591 WO2018232148A1 (en) 2017-06-16 2018-06-14 Voice identification feature optimization and dynamic registration methods, client, and server

Publications (2)

Publication Number Publication Date
JP2020523643A JP2020523643A (ja) 2020-08-06
JP6912605B2 true JP6912605B2 (ja) 2021-08-04

Family

ID=64658228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019569451A Active JP6912605B2 (ja) 2017-06-16 2018-06-14 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ

Country Status (6)

Country Link
US (1) US11011177B2 (ja)
EP (1) EP3610396B1 (ja)
JP (1) JP6912605B2 (ja)
CN (1) CN109147770B (ja)
TW (1) TW201905895A (ja)
WO (1) WO2018232148A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
US10592649B2 (en) 2017-08-09 2020-03-17 Nice Ltd. Authentication via a dynamic passphrase
EP3698358A1 (en) * 2017-10-18 2020-08-26 Soapbox Labs Ltd. Methods and systems for processing audio signals containing speech data
US11010461B2 (en) * 2017-12-22 2021-05-18 Vmware, Inc. Generating sensor-based identifier
EP3905007A1 (en) * 2018-10-15 2021-11-03 Orcam Technologies Ltd. Hearing aid systems and methods
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
CN109857726B (zh) * 2019-02-27 2023-05-12 深信服科技股份有限公司 一种应用特征库维护方法、装置、电子设备及存储介质
CN109994117A (zh) * 2019-04-09 2019-07-09 昆山古鳌电子机械有限公司 一种电子签名系统
CN110163617B (zh) * 2019-05-29 2022-12-13 四川长虹电器股份有限公司 一种支持基于声纹的电视购物支付方法
US11295754B2 (en) 2019-07-30 2022-04-05 Apple Inc. Audio bandwidth reduction
CN110797017A (zh) * 2019-07-30 2020-02-14 深圳市南和移动通信科技股份有限公司 语音呼救方法、智能音箱以及存储介质
CN110704822A (zh) * 2019-08-30 2020-01-17 深圳市声扬科技有限公司 提高用户身份验证安全性的方法、装置、服务器及系统
CN110688640A (zh) * 2019-09-03 2020-01-14 深圳市声扬科技有限公司 一种基于声纹识别的数据处理方法、装置、系统及服务器
US11374976B2 (en) 2019-10-15 2022-06-28 Bank Of America Corporation System for authentication of resource actions based on multi-channel input
CN112735455A (zh) * 2019-10-28 2021-04-30 阿里巴巴集团控股有限公司 声音信息的处理方法和装置
CN110992962B (zh) * 2019-12-04 2021-01-22 珠海格力电器股份有限公司 语音设备的唤醒调整方法、装置、语音设备及存储介质
CN110930986B (zh) * 2019-12-06 2022-05-17 北京明略软件系统有限公司 语音处理方法、装置、电子设备及存储介质
US11461417B2 (en) * 2020-03-05 2022-10-04 Kore.Ai, Inc. Methods for managing automated discovery and knowledge sharing in one or more networks and devices thereof
CN111402899B (zh) * 2020-03-25 2023-10-13 中国工商银行股份有限公司 跨信道声纹识别方法及装置
WO2021211836A1 (en) * 2020-04-15 2021-10-21 Pindrop Security, Inc. Passive and continuous multi-speaker voice biometrics
CN111667840A (zh) * 2020-06-11 2020-09-15 刘娴 基于声纹识别的机器人知识图谱节点更新方法
CN111816174A (zh) * 2020-06-24 2020-10-23 北京小米松果电子有限公司 语音识别方法、装置及计算机可读存储介质
CN112243061A (zh) * 2020-11-03 2021-01-19 珠海格力电器股份有限公司 一种移动终端的通信方法以及移动终端
TWI815064B (zh) * 2020-11-27 2023-09-11 臺灣銀行股份有限公司 動態身分驗證方法
CN113241080A (zh) * 2021-06-10 2021-08-10 思必驰科技股份有限公司 自动注册声纹识别方法和装置

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6016476A (en) 1997-08-11 2000-01-18 International Business Machines Corporation Portable information and transaction processing system and method utilizing biometric authorization and digital certificate security
US6213391B1 (en) 1997-09-10 2001-04-10 William H. Lewis Portable system for personal identification based upon distinctive characteristics of the user
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
IL129451A (en) 1999-04-15 2004-05-12 Eli Talmor System and method for authentication of a speaker
KR100297833B1 (ko) * 1999-07-07 2001-11-01 윤종용 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법
US7130800B1 (en) 2001-09-20 2006-10-31 West Corporation Third party verification system
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US6601762B2 (en) 2001-06-15 2003-08-05 Koninklijke Philips Electronics N.V. Point-of-sale (POS) voice authentication transaction system
US7953219B2 (en) * 2001-07-19 2011-05-31 Nice Systems, Ltd. Method apparatus and system for capturing and analyzing interaction based content
US7158776B1 (en) 2001-09-18 2007-01-02 Cisco Technology, Inc. Techniques for voice-based user authentication for mobile access to network services
US7240007B2 (en) 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
JP2003255991A (ja) 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
US7292543B2 (en) * 2002-04-17 2007-11-06 Texas Instruments Incorporated Speaker tracking on a multi-core in a packet based conferencing system
US7333798B2 (en) 2002-08-08 2008-02-19 Value Added Communications, Inc. Telecommunication call management and monitoring system
US7212613B2 (en) 2003-09-18 2007-05-01 International Business Machines Corporation System and method for telephonic voice authentication
GB2407681B (en) 2003-10-29 2007-02-28 Vecommerce Ltd Voice recognition system and method
WO2006087799A1 (ja) 2005-02-18 2006-08-24 Fujitsu Limited 音声認証システム
US20070280436A1 (en) 2006-04-14 2007-12-06 Anthony Rajakumar Method and System to Seed a Voice Database
US20060248019A1 (en) 2005-04-21 2006-11-02 Anthony Rajakumar Method and system to detect fraud using voice data
US8924285B2 (en) 2005-04-21 2014-12-30 Verint Americas Inc. Building whitelists comprising voiceprints not associated with fraud and screening calls using a combination of a whitelist and blacklist
US7536304B2 (en) 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101636784B (zh) 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
JP4847581B2 (ja) * 2007-03-30 2011-12-28 パイオニア株式会社 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム
US8380503B2 (en) 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
CN102498514B (zh) 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
US8620666B1 (en) * 2009-08-07 2013-12-31 West Corporation System, method, and computer-readable medium that facilitate voice biometrics user authentication
ES2371619B1 (es) 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
CN102543084A (zh) * 2010-12-29 2012-07-04 盛乐信息技术(上海)有限公司 在线声纹认证系统及其实现方法
US9225701B2 (en) * 2011-04-18 2015-12-29 Intelmate Llc Secure communication systems and methods
US20130232073A1 (en) * 2012-03-05 2013-09-05 John F. Sheets Authentication Using Biometric Technology Through a Consumer Device
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN104036780B (zh) * 2013-03-05 2017-05-24 阿里巴巴集团控股有限公司 一种人机识别方法及系统
US9871606B1 (en) * 2013-05-13 2018-01-16 Twitter, Inc. Identification of concurrently broadcast time-based media
US20140343943A1 (en) * 2013-05-14 2014-11-20 Saudi Arabian Oil Company Systems, Computer Medium and Computer-Implemented Methods for Authenticating Users Using Voice Streams
US10235509B2 (en) * 2013-08-22 2019-03-19 Staton Techiya, Llc Methods and systems for a voice ID verification database and service in social networking and commercial business transactions
WO2015060867A1 (en) * 2013-10-25 2015-04-30 Intel Corporation Techniques for preventing voice replay attacks
US9564128B2 (en) 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
JP6377921B2 (ja) 2014-03-13 2018-08-22 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
US10127911B2 (en) * 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
TWI579828B (zh) * 2015-06-01 2017-04-21 鴻海精密工業股份有限公司 語音辨識裝置及方法
US10529328B2 (en) * 2015-06-22 2020-01-07 Carnegie Mellon University Processing speech signals in voice-based profiling
US10129314B2 (en) * 2015-08-18 2018-11-13 Pandora Media, Inc. Media feature determination for internet-based media streaming
US20170075652A1 (en) * 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
US10236017B1 (en) * 2015-09-29 2019-03-19 Amazon Technologies, Inc. Goal segmentation in speech dialogs
US20170318013A1 (en) * 2016-04-29 2017-11-02 Yen4Ken, Inc. Method and system for voice-based user authentication and content evaluation
US10152969B2 (en) * 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN106790054A (zh) * 2016-12-20 2017-05-31 四川长虹电器股份有限公司 基于人脸识别和声纹识别的交互式认证系统及方法
CN106683680B (zh) * 2017-03-10 2022-03-25 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
JP6928865B2 (ja) * 2017-03-16 2021-09-01 パナソニックIpマネジメント株式会社 能動型騒音低減装置及び能動型騒音低減方法

Also Published As

Publication number Publication date
US11011177B2 (en) 2021-05-18
EP3610396A1 (en) 2020-02-19
CN109147770A (zh) 2019-01-04
EP3610396B1 (en) 2023-12-06
EP3610396A4 (en) 2020-04-22
JP2020523643A (ja) 2020-08-06
CN109147770B (zh) 2023-07-28
WO2018232148A1 (en) 2018-12-20
TW201905895A (zh) 2019-02-01
US20180366125A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
JP6912605B2 (ja) 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ
US10777206B2 (en) Voiceprint update method, client, and electronic device
US20230127314A1 (en) Payment method, client, electronic device, storage medium, and server
US10832686B2 (en) Method and apparatus for pushing information
CN110288985B (zh) 语音数据处理方法、装置、电子设备及存储介质
CN109215643B (zh) 一种交互方法、电子设备及服务器
JP6335139B2 (ja) 手動始点/終点指定及びトリガフレーズの必要性の低減
CN107481720B (zh) 一种显式声纹识别方法及装置
US20200342866A1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US11687526B1 (en) Identifying user content
WO2020238209A1 (zh) 音频处理的方法、系统及相关设备
US20190378024A1 (en) Systems to augment conversations with relevant information or automation using proactive bots
US10108707B1 (en) Data ingestion pipeline
US11004449B2 (en) Vocal utterance based item inventory actions
CN109994106B (zh) 一种语音处理方法及设备
JP2022087815A (ja) 相互接続された音声検証システムの使用を通して相互運用性を達成するためのシステム、方法、およびプログラム
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
KR20200005476A (ko) 소급 소리 식별 시스템
KR102226427B1 (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
TWI714090B (zh) 機器人電話行銷系統及其計算機裝置與回應訊息產生方法
JP2017161644A (ja) 音声処理システムおよび音声処理方法
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN117807195A (zh) 显示设备及实体召回方法
JP2015018491A (ja) 情報処理装置及び方法
WO2019039352A1 (ja) 情報処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210708

R150 Certificate of patent or registration of utility model

Ref document number: 6912605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150