JP2019057273A - 情報をプッシュする方法及び装置 - Google Patents

情報をプッシュする方法及び装置 Download PDF

Info

Publication number
JP2019057273A
JP2019057273A JP2018154666A JP2018154666A JP2019057273A JP 2019057273 A JP2019057273 A JP 2019057273A JP 2018154666 A JP2018154666 A JP 2018154666A JP 2018154666 A JP2018154666 A JP 2018154666A JP 2019057273 A JP2019057273 A JP 2019057273A
Authority
JP
Japan
Prior art keywords
information
voiceprint
registered
user
registered voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018154666A
Other languages
English (en)
Other versions
JP6613347B2 (ja
Inventor
ワン,ウェンユイ
Wenyu Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019057273A publication Critical patent/JP2019057273A/ja
Application granted granted Critical
Publication of JP6613347B2 publication Critical patent/JP6613347B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】適合的な情報のプッシュを実現し、ユーザの個性的な求めを満足する、情報をプッシュする方法及び装置を提供する。【解決手段】ユーザから端末を介して送信されたウェークアップ用の音声情報と問合せ用の音声情報とを含む音声情報を受信することと、ウェークアップ用の音声情報に対して声紋特徴の抽出を行って登録声紋特徴情報及び登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる声紋特徴情報を取得することと、声紋特徴情報と予め設定された登録声紋情報セットとをマッチングすることと、声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて端末にオーディオ情報をプッシュすることと、を含む。【選択図】図2

Description

本願は、コンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特に情報をプッシュする方法及び装置に関する。
近年、人工知能の技術は益々発展しており、段々製品化になっている。特にスマート音声対話製品、例えば、スマートスピーカ、知能ロボットなどがある。スマートスピーカ、知能ロボットなどを含むスマート音声対話製品の一般的な使用シーンは家庭である。家庭のユーザは、音声によりスマート音声対話製品とやりとり、サービス要求を提出することができる。スマート音声対話製品は、一連の共通応答手順を利用して家庭のユーザにサービスを提供する。
しかし、家庭毎に一般的に複数のユーザがあり、ユーザ毎に必ず異なる求めがある。従って、どのように家庭のユーザにおける各ユーザを識別し、各ユーザに個性的な求めを満足するサービスを提供するかは、速めに解決する必要のある課題である。
本願の目的は、改善された情報をプッシュする方法及び装置を提供して上記の背景技術の部分に言及された技術課題を解決することにある。第一の局面として、本願の実施形態は、情報をプッシュする方法を提供する。当該方法は、ユーザから端末を介して送信された、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と、問合せ用の音声情報と、を含む音声情報を受信し、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得し、前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングすることであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれ、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュすることを含む。
一部の実施形態において、前記方法は、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定し、超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除し、前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する、ことを更に含む。
一部の実施形態において、前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成することは、前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする、ことを含む。
一部の実施形態において、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得することは、前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、声紋特徴スーパーベクトルを取得し、前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得する、ことを含む。
一部の実施形態において、前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報に対応する声紋標識を更に含み、前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識に関連付けて記憶される。
第二の局面として、本願の実施形態は情報をプッシュする装置を提供する。当該装置は、ユーザから端末を介して送信される、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と問合せ用の音声情報とを含む音声情報を受信する受信ユニットと、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する抽出ユニットと、前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングするマッチングユニットであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる、マッチングユニットと、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュするプッシュユニットと、を備える。
一部の実施形態において、前記装置は、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定する確定ユニットと、超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除する削除ユニットと、前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する登録ユニットと、を更に備える。
一部の実施形態において、前記登録ユニットは、更に、前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする。
一部の実施形態において、前記登録ユニットは、更に、前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする。
一部の実施形態において、前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報に対応する声紋標識を更に含み、前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識に関連付けて記憶される。
第三の局面として、本願の実施形態は、サーバを提供する。当該サーバは、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶する記憶装置とを備え、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第一の局面における任意の実現方式で記載される方法を実現させる。
第四の局面として、本願の実施形態は、コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体を提供する。その特徴は、当該コンピュータプログラムがプロセッサにより実行されると、第一の局面における任意の実現方式で記載された方法を実現させることにある。
本願の実施形態により提供された情報をプッシュする方法及び装置は、ユーザから送信されたウェークアップ用の音声情報に対して声紋特徴の抽出を行ってユーザの声紋特徴情報を取得し、その後にユーザの声紋特徴情報と登録声紋情報セットとをマッチングし、最後にユーザの声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、ユーザから送信された問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいて、ユーザに使用される端末にオーディオ情報をプッシュする。これにより、異なるユーザを識別し、適合的な情報のプッシュを実現し、ユーザの個性的な求めを満足する。
以下の図面を参照してなされた制限的でない実施形態に対する詳細的な説明により、本発明の他の特徴、目的及び利点はより明らかになる。
本願を適用できる例示的なシステムアーキテクチャ図である。 本願の情報をプッシュする方法による一実施例のフローチャートである。 本願の情報をプッシュする方法による一つの応用シーンの模式図である。 本願の情報をプッシュする装置による一実施例の構成模式図である。 本願の実施例を実現するためのサーバに適用されるコンピュータシステムの構成模式図である。
以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。理解すべきことは、ここで説明する具体的な実施形態は、当該発明を説明するものに過ぎず、当該発明を限定するものではない。ただし、説明の便宜上、図面には発明に関連する部分のみが示されている。
なお、衝突しない場合、本願の実施形態及び実施形態における特徴を相互に組み合せてもよい。以下、図面及び実施形態を参照しながら本願を詳細に説明する。
図1は、本願を適用できる情報をプッシュする方法又は情報をプッシュする装置の実施例の例示的なシステムアーキテクチャ100を示した。
図1に示されたように、システムアーキテクチャ100は、端末デバイス101、102、103と、ネットワーク104と、サーバ105とを備えても良い。ネットワーク104は、端末デバイス101、102、103とサーバ105の間に通信リンクの媒体を提供する。ネットワーク104は、各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバ、ケーブルなどを含んでも良い。
ユーザは、端末デバイス101、102、103を使用してネットワーク104を介してサーバ105とやりとりすることにより、メッセージなどを送受信することができる。端末デバイス101、102、103には、各種のクライアントアプリ、例えばオーディオ再生型のアプリ、検索型のアプリ、即時通信ツール、交際型のプラットフォームソフトウェア、知能デバイス制御ソフトウェア及びロボット制御ソフトウェアなどがインストールされても良い。
端末デバイス101、102、103は、オーディオ再生デバイスを有し且つオーディオ再生をサポートする各種の電子デバイスであっても良い。スマートスピーカ、知能ロボット、スマートフォーン、タブレット、ノードパソコン及びディスクトップコンピュータなどを含むが、それらに限定されない。
サーバ105は、各種のサービスを提供するサーバ、例えば端末デバイス101、102、103に再生されるオーディオ情報に対してサポートを提供するバックグラウンドサーバであっても良い。バックグラウンドサーバは、端末デバイスから送信される音声情報に対して識別などの処理を行い、処理の結果に基づいて端末デバイスにオーディオ情報をフィードバックすることにより、端末デバイスに再生させることができる。
説明すべきなのは、本願の実施例により提供される情報をプッシュする方法は、一般的にサーバ105により実行される。それに応じて、情報をプッシュする装置は一般的にサーバ105に設置される。
理解すべきなのは、図1における端末デバイス、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを備えることができる。
続いて図2を参照する。図2は、本願の情報をプッシュする方法による一実施例の手順200を示した。当該情報をプッシュする方法は、以下のステップを含む。
ステップ201において、ユーザから端末を介して送信された音声情報を受信する。
本実施例において、情報をプッシュする方法が運行される電子デバイス(例えば図1に示されたサーバ105)は、有線接続手段又は無線接続手段でユーザによるオーディオ再生の端末(例えば図1に示された端末デバイス101、102、103)から音声情報を受信する。なお、前記音声情報は、ウェークアップ用の音声情報と問合せ用の音声情報を含むことができる。なお、前記ウェークアップ用の音声情報は、前記端末を待機状態からウェークアップ状態へ切替えるために使用可能である。前記ウェークアップ用の音声情報は予め設置されても良く、例えば、予め設置されたウェークアップワード又はウェークアップセンテンスであっても良い。ユーザはウェークアップワード又はウェークアップセンテンスを話すことにより前記端末を待機状態からウェークアップ状態へ切替えることができる。例えば、ユーザはスマートスピーカを使用する時に、予め設置されたウェークアップワード「度ちゃん度ちゃん」を話すことによりスマートスピーカを待機状態からウェークアップ状態へ切替え、更にスマートスピーカにユーザと音声のやりとりを開始させることができる。前記問合せ用の音声情報は、ユーザからの情報を問合せるための音声情報であっても良い。例えば、前記電子デバイスは、ユーザから話した問合せ用の音声情報である「歌を薦めてください」に基づいて情報の問合せを行ってユーザに歌の情報をプッシュすることができる。注意すべきなのは、前記無線接続手段は、3G/4G接続、WiFi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee接続、UWB(ultra wideband)接続、及び他の既知又は将来に開発される無線接続手段を含んでも良いが、それらに限定されない。
ステップ202において、ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する。
本実施例において、前記電子デバイスは、ステップ201に受信されたウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得することができる。声紋は、電気音響学装置により表示される言語情報を持つ音波スペクトルである。現代科学の研究により、声紋は確定性だけではなく、相対安定性を有する特徴がある。指紋と同じように、人間毎に話す途中で含まれる音声特徴と発音慣習もほぼ唯一である。従って、一連の音声から話をする人の身元を識別することができる。ここでは、前記声紋特徴情報は、ユーザの声紋スペクトル特徴を標識するベクトルであっても良い。例えば、ウェークアップ用の音声情報に対する声紋特徴の抽出は、ウェークアップ用の音声情報における典型特徴を抽出することにより実現することができる。具体的に、音声の波長、周波数、強度、リズムなどの特徴によりユーザの音声の特徴を現すことができるため、ウェークアップ用の音声情報に対して声紋特徴の抽出を行う場合に、ウェークアップ用の音声情報における波長、周波数、強度、リズムなどの特徴を抽出し、ウェークアップ用の音声情報における波長、周波数、強度、リズムなどの特徴の特徴値を確定し、ウェークアップ用の音声情報における波長、周波数、強度、リズムなどの特徴の特徴値などを声紋特徴情報として組み合わせることができる。また、例えば、ウェークアップ用の音声情報に対する声紋特徴の抽出は、ウェークアップ用の音声情報における音響学特徴、例えば、メル周波数ケプストラム係数を抽出しても良い。なお、ウェークアップ用の音声情報に対してメル周波数ケプストラム係数を抽出する過程は、プリエンファシス、クレーム分割、アンドウィンドウ、快速フーリエ変換、メルフィルタ、対数変換及び離散コサイン変換などを含んでも良い。説明すべきなのは、ウェークアップ用の音声情報に対する声紋特徴の抽出は、今まで良く研究し応用される公知技術であり、ここでは詳しく説明しない。
本実施例の一部の選択可能な実現手段において、前記ステップ202は、具体的に以下の処理を含むことができる。
まず、前記電子デバイスは、前記ウェークアップ用の音声情報を予め訓練された共通背景モデルに導入しマッピングして声紋特徴スーパーベクトルを取得することができる。なお、前記共通背景モデルは、音声情報と声紋特徴スーパーベクトルとの対応関係を示すことができる。
例示として、共通背景モデルは、技術者が大量の音声情報と声紋特徴スーパーベクトル対する統計に基づいて予め作成された、複数の音声情報と声紋特徴スーパーベクトルの対応関係を記憶する対応関係テーブルであっても良い。
例示として、前記共通背景モデル(universal background model、UBM)は、機器学習方法により異なる話し手の大量の音声サンプルを利用して訓練されたガウス混合モデル(Gaussian Mixture Model、GMM)であっても良い。実際に、ウェークアップ用の音声情報を短時間スペクトル特徴の序列に変換し、各フレームスペクトル特徴の共通背景モデルの各ガウス成分における事後確率を算出し、最大事後確率ルールを利用して前記ユーザのガウス混合モデルにおける各ガウス成分の平均値を適応に取得し、その後に取得された各ガウス成分の平均値をスプライスして声紋特徴スーパーベクトルを生成するように、ウェークアップ用の音声情報を共通背景モデルに導入して声紋特徴スーパーベクトルを取得する。
説明すべきなのは、前記の共通背景モデルを訓練して取得すること、及びウェークアップ用の音声情報を共通背景モデルに導入して声紋特徴スーパーベクトルを取得する過程は、今まで良く研究し応用される従来技術であって、ここでは詳しく説明しない。
そして、前記電子デバイスは前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得することができる。
ここでは、前記電子デバイスは各種の方法を採用して前記声紋特徴スーパーベクトルに対して次元削減処理を行うことができる。例えば、連合因子解析方法(Joint Factor Analysis、JFA)、確率線形判別解析アルゴリズム(Probabilistic Linear Discriminant Analysis、PLDA)、線形判別解析アルゴリズム(Linear Discriminant Analysis、LDA)又は認識ベクトル(Identifying Vector、I−Vector)により前記声紋スーパーベクトルに対して次元削減処理を行って声紋特徴ベクトルを取得することができる。説明すべきなのは、前記の各種の次元削減処理の方法は今まで良く研究し応用される従来技術であって、ここでは詳しく説明しない。
ステップ203において、声紋特徴情報と予め設定された登録声紋情報セットとをマッチングする。
本実施例において、前記電子デバイスは、ステップ202に得られた声紋特徴情報と予め設定された登録声紋情報セットにおける登録声紋特徴情報とをマッチングすることができる。例えば、まず前記声紋特徴情報と前記登録声紋情報セットにおける各登録声紋特徴情報との間のマッチ度合いを算出することができ、例えば、マンハッタン距離(Manhattan Distance)、ミンコフスキー距離(Minkowski Distance)、コサイン類似度(Cosine Similarity)などの方法を採用して算出しても良い。そして、算出されたマッチ度合いに基づいて前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したか否かを判断する。例えば、マッチ度合いは、パーセントで表すことができる。マッチ度合いが予め設定された閾値を超えた場合に、マッチに成功したと考えられても良い。この場合に、前記声紋特徴情報に対応するユーザとマッチに成功した登録声紋特徴情報に対応する登録ユーザが同一のユーザと考えられても良い。ここでは、前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報、及び当該登録声紋特徴情報に対応する登録ユーザのユーザ行為データを含んでも良い。ここでは、登録ユーザのユーザ行為データは、当該登録ユーザに関連する各種の行為データであっても良く、例えば、当該登録ユーザにより前記端末を介して再生されるオーディオのタイプ(例えば、歌、新聞、漫才など)、再生されるオーディオの名称、再生されるオーディオの演技者などであっても良い。前記電子デバイスは、登録ユーザのユーザ行為データにより登録ユーザの好みを解析して、登録ユーザに個性的な求めを満足するオーディオ情報をプッシュすることができる。
本実施例の一部の選択可能な実現手段において、前記登録声紋情報セットにおける各登録声紋情報は、更に登録声紋特徴情報に対応する声紋標識を含み、前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識と関連付けて記憶されても良い。選択的に、前記登録声紋情報セットは、同一のアカウント(例えば、baiduアカウント)において関連されても良い。各端末デバイスはアカウントと唯一にバインディングされ、アカウントにより端末デバイスと登録声紋情報とを関連付ける。登録声紋情報は、アカウントにおける任意の端末デバイスにより登録しても良く、登録されると、アカウントにおける任意の端末デバイスにおいて使用可能である。
ステップ204において、声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて、端末にオーディオ情報をプッシュする。
本実施例において、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したこと、即ち前記声紋特徴情報に対応するユーザと、マッチに成功した登録声紋特徴情報に対応する登録ユーザとが同一のユーザと確定されることに応じて、前記電子デバイスは前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて、端末にオーディオ情報をプッシュすることができる。具体的に、前記電子デバイスは、前記ユーザから送信された問合せ用の音声情報に対して音声識別を行ってユーザの求めを取得し、その後に当該ユーザの求めとマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいてユーザの個性的な求めを満足するオーディオ情報を取得し、当該オーディオ情報をユーザに使用される端末までプッシュすることができる。
本実施例の一部の選択可能な実現手段において、前記の情報をプッシュする方法は、更に以下のステップを含んでも良い。即ち、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記電子デバイスは更に前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定することができる。なお、前記数量閾値は、実際の必要に応じて人為的に設定されるものであっても良い。例えば、声紋認識の正確率に基づいて数量閾値の大きさを確定し、例えば正確率が高いほど数量閾値が小さくなるように設定されても良い。ここでは、声紋認識の正確率は、あるユーザの声紋特徴情報に基づいて当該ユーザをその本人として識別できる確率であっても良い。前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えた場合に、前記電子デバイスは前記登録声紋情報セットにおけるユーザ行為データの最も少ない登録声紋情報を削除し、前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納することができる。一般的に、ユーザ行為データの数量はあるユーザの活躍の程度を示しても良く、ユーザ行為データが少なすぎると、当該ユーザ行為データに対応するユーザが端末デバイスを一時に使用する「訪問者」であり、或いは当該ユーザ行為データがユーザを間違って識別して得られたものであり、即ち当該ユーザ行為データに記憶の意義がないと考えられても良いので、当該ユーザ行為データに対応する登録声紋情報を削除して記憶スペースの無駄を回避することができる。超えていない場合に、前記電子デバイスは、前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納することができる。ここでは、前記電子デバイスは、前記ユーザによる登録用音声情報の再送が必要なく、前記ユーザのウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成でき、ユーザの意図なしの状態におけるユーザに対する登録が実現されるため、登録の過程を簡略化し、ユーザの体験を向上させることができる。
一部の選択可能な実現手段において、前記の前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成することは、以下のように具体的に行うことができる。最初に、前記電子デバイスは、前記ウェークアップ用の音声情報を予め訓練された共通背景モデル(Universal Background Model、UBM)に導入しマッピングして第一声紋特徴スーパーベクトルを取得することができる。なお、前記共通背景モデルは、音声情報と声紋特徴スーパーベクトルの対応関係を示すことができる。次に、前記電子デバイスは、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得することができる。具体的な過程は、ステップ202の選択可能な実現手段を参照しても良く、ここでは詳しく説明しない。その後に、前記電子デバイスは、前記第一登録声紋特徴情報の第一声紋標識を生成することができる。例えば、前記電子デバイスは、前記第一登録声紋特徴情報に唯一に対応する一つの第一声紋標識をランダムに生成し、前記ユーザのユーザ行為データと前記第一声紋標識を関連付けて記憶することができる。最後に、前記電子デバイスは、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とすることができる。
続いて図3を参照する。図3は、本実施例の情報をプッシュする方法による応用シーンの模式図を示した。図3の応用シーンにおいて、ユーザはまず端末301に対して音声情報である「度ちゃん度ちゃん、歌を薦めてください。」を送信する。その後に、サーバ302は、当該音声情報を受信し、当該音声情報におけるウェークアップ用の音声情報である「度ちゃん度ちゃん」に対して声紋特徴の抽出を行って声紋特徴情報を取得する。そして、サーバ302は当該声紋特徴情報と登録声紋情報セットをマッチングする。最後に、当該声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、サーバ302は、問合せ用の音声情報である「歌を進めてください」に対して音声認識を行ってユーザが歌を聴きたいという求めを取得し、マッチに成功した登録声紋特徴情報に対応するユーザ行為データを解析してユーザの好み、例えばどのようなタイプの歌が好きか、どの歌手の歌が好きか、どの歌が好きかなどを取得し、ユーザの求めとユーザの好みに基づいて端末301に歌の情報をプッシュして端末301にユーザに対して当該歌の情報を再生させることができる。
本願の前記実施例により提供された方法は、ユーザから送信されたウェークアップ用の音声情報により異なるユーザを認識し、ユーザから送信された問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいてユーザに使用される端末へオーディオ情報をプッシュすることにより、異なるユーザが認識され、適合的な情報のプッシュが実現され、ユーザの個性的な求めが満足された。
続いて図4を参照する。前記の各図に示された方法の実現として、本願は情報をプッシュする装置の一実施例を提供した。当該装置の実施例は図2に示された方法の実施例に対応する。当該装置は、具体的に各種の電子デバイスに適用可能である。
図4に示されたように、本実施例の情報をプッシュする装置400は、受信ユニット401と、抽出ユニット402と、マッチングユニット403と、プッシュユニット404とを備える。受信ユニット401は、ユーザから端末を介して送信された音声情報を受信する。ここで、前記音声情報は、ウェークアップ用の音声情報と問合せ用の音声情報を含む。また、前記ウェークアップ用の音声情報は、前記端末を待機状態からウェークアップ状態へ切替えるために用いられる。抽出ユニット402は、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する。マッチングユニット403は、前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングする。また、前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報、及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データを含む。プッシュユニット404は、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいて、前記端末へオーディオ情報をプッシュする。
本実施例において、情報をプッシュする装置400の受信ユニット401、抽出ユニット402、マッチングユニット403及びプッシュユニット404による具体的な処理及び実現される技術的効果は、図2の対応の実施例におけるステップ201、ステップ202、ステップ203とステップ204の関連説明をそれぞれ参照しても良く、ここでは詳しく説明しない。
本実施例の一部の選択可能な実現手段において、前記装置400は、更に、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定する確定ユニット(未図示)と、超えた場合に、前記登録声紋情報セットにおけるユーザ行為データの最も少ない登録声紋情報を削除する削除ユニット(未図示)と、前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する登録ユニット(未図示)と、を備えても良い。
本実施例の一部の選択可能な実現手段において、前記登録ユニットは、更に、前記ウェークアップ用の音声情報を予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして第一声紋特徴スーパーベクトルを取得し、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識を関連付けて記憶し、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とすることができる。
本実施例の一部の選択可能な実現手段において、前記抽出ユニット402は、更に、前記ウェークアップ用の音声情報を予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして声紋特徴スーパーベクトルを取得し、前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得することができる。
本実施例の一部の選択可能な実現手段において、前記登録声紋情報セットにおける各登録声紋情報は、更に登録声紋特徴情報に対応する声紋標識を含んでも良く、前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報、ユーザ行為データが当該登録声紋情報の声紋標識に関連付けられて記憶される。
続いて図5を参照する。図5は、本願の実施例を実現するためのサーバに適用されるコンピュータシステム500の構成模式図を示した。図5に示されたサーバは一例に過ぎず、本願の実施例の機能及び使用範囲に制限しない。
図5に示されたように、コンピュータシステム500は、読み出し専用メモリ(ROM、Read Only Memory)502に記憶されているプログラム又は記憶部506からランダムアクセスメモリ(RAM、Random Access Memory)503にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU、Central Processing Unit)501を備える。RAM503には、システム500の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU501、ROM502およびRAM 503は、バス504を介して互いに接続されている。入力/出力(I/O、Input / Output)インターフェース505もバス504に接続されている。
ハードディスクなどを含む記憶部506、およびLAN(ローカルエリアネットワーク、Local Area Network)カード、モデムなどを含むネットワークインターフェースカードの通信部507は、I/Oインターフェース505に接続されている。通信部507は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ508は、必要に応じてI/Oインターフェース505に接続される。リムーバブルメディア509は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ508に取り付けられ、したがって、ドライバ508から読み出されたコンピュータプログラムが必要に応じて記憶部506にインストールされる。
特に,本発明の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本発明の実施例はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部507を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア509からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット(CPU)501により実行される場合に、本願の方法に限定される前記機能を実行する。説明すべきなのは、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは前記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は前記の任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。
図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。
本発明の実施例に説明されたユニットはソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば,受信ユニットと、抽出ユニットと、マッチングユニットと、プッシュユニットとを備えるプロセッサとして記載されても良い。なお,これらユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない,例えば,受信ユニットは、「ユーザから端末を介して送信される音声情報を受信するユニット」と記載されても良い。
他の局面として、本発明は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、前記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。前記コンピュータ読取可能な媒体に一つ又は複数のプログラムがロードされる。前記一つ又は複数のプログラムが当該装置により実行されると、当該装置は、ユーザから端末を介して送信される、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と問合せ用の音声情報を含む音声情報を受信し、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得し、前記声紋特徴情報と予め設定された、各登録声紋情報に登録声紋特徴情報と前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる登録声紋情報セットとをマッチングし、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいて前記端末へオーディオ情報をプッシュする。
以上の記載は、ただ本発明の好適な実施例及び運用される技術原理に対する説明である。当業者であればわかるように、本発明にかかる発明範囲は、前記技術特徴の特定の組み合わせからなる技術案に限定されず、前記の発明構想から逸脱されない場合に前記技術特徴又は均等の特徴による任意の組み合わせで形成される他の技術案も同時に含まれるべきである。例えば前記特徴と本発明に開示された(それらに限定されない)類似の機能を具備する技術特徴が互いに置換されて得られる技術案は該当する。

Claims (13)

  1. 情報をプッシュする方法であって、
    ユーザから端末を介して送信された、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と、問合せ用の音声情報と、を含む音声情報を受信し、
    前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得し、
    前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングすることであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれ、
    前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュする、
    ことを含むことを特徴とする方法。
  2. 前記方法は、
    前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定し、
    超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除し、
    前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する、
    ことを更に含むことを特徴とする請求項1に記載の方法。
  3. 前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成することは、
    前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、
    前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、
    前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、
    前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする、
    ことを含むことを特徴とする請求項2に記載の方法。
  4. 前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得することは、
    前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、声紋特徴スーパーベクトルを取得し、
    前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得する、
    ことを含むことを特徴とする請求項1に記載の方法。
  5. 前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報に対応する声紋標識を更に含み、
    前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識に関連付けて記憶される、ことを特徴とする請求項1に記載の方法。
  6. 情報をプッシュする装置であって、
    ユーザから端末を介して送信される、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と問合せ用の音声情報とを含む音声情報を受信する受信ユニットと、
    前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する抽出ユニットと、
    前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングするマッチングユニットであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる、マッチングユニットと、
    前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュするプッシュユニットと、
    を備えることを特徴とする装置。
  7. 前記装置は、
    前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定する確定ユニットと、
    超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除する削除ユニットと、
    前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する登録ユニットと、
    を更に備えることを特徴とする請求項6に記載の装置。
  8. 前記登録ユニットは、更に、
    前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、
    前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、
    前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、
    前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする、ことを特徴とする請求項7に記載の装置。
  9. 前記抽出ユニットは、更に、
    前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、声紋特徴スーパーベクトルを取得し、
    前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得する、ことを特徴とする請求項6に記載の装置。
  10. 前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報に対応する声紋標識を更に含み、
    前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識に関連付けて記憶される、ことを特徴とする請求項6に記載の装置。
  11. 一つ又は複数のプロセッサと、
    一つ又は複数のプログラムを記憶する記憶装置と、を備えるサーバであって、
    前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1〜5の何れか一つに記載の方法を実現させるサーバ。
  12. コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体であって、
    当該コンピュータプログラムがプロセッサにより実行されると、請求項1〜5の何れか一つに記載の方法を実現させる、ことを特徴とするコンピュータ読取可能な記憶媒体。
  13. プロセッサにより実行されると、請求項1〜5の何れか一つに記載の方法を実現させる、ことを特徴とするコンピュータプログラム。
JP2018154666A 2017-09-19 2018-08-21 情報をプッシュする方法及び装置 Active JP6613347B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710846650.1 2017-09-19
CN201710846650.1A CN107623614B (zh) 2017-09-19 2017-09-19 用于推送信息的方法和装置

Publications (2)

Publication Number Publication Date
JP2019057273A true JP2019057273A (ja) 2019-04-11
JP6613347B2 JP6613347B2 (ja) 2019-11-27

Family

ID=61090071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018154666A Active JP6613347B2 (ja) 2017-09-19 2018-08-21 情報をプッシュする方法及び装置

Country Status (3)

Country Link
US (1) US10832686B2 (ja)
JP (1) JP6613347B2 (ja)
CN (1) CN107623614B (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108091326B (zh) * 2018-02-11 2021-08-06 张晓雷 一种基于线性回归的声纹识别方法及系统
CN108428452B (zh) * 2018-03-14 2019-12-13 百度在线网络技术(北京)有限公司 终端支架和远场语音交互系统
WO2019203795A1 (en) 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
EP3622507B1 (en) * 2018-04-16 2020-10-21 Google LLC Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN108899033B (zh) * 2018-05-23 2021-09-10 出门问问信息科技有限公司 一种确定说话人特征的方法及装置
CN108737872A (zh) 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108882032A (zh) * 2018-06-08 2018-11-23 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109036421A (zh) * 2018-08-10 2018-12-18 珠海格力电器股份有限公司 信息推送方法及家电设备
CN109215646B (zh) * 2018-08-15 2021-08-17 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
CN108831471B (zh) * 2018-09-03 2020-10-23 重庆与展微电子有限公司 一种语音安全保护方法、装置和路由终端
TWI684874B (zh) * 2018-10-18 2020-02-11 瑞軒科技股份有限公司 智慧型音箱及其操作方法
CN109493866A (zh) * 2018-10-29 2019-03-19 苏州乐轩科技有限公司 智能音箱及其操作方法
CN109672724B (zh) * 2018-11-01 2022-07-29 百度在线网络技术(北京)有限公司 信息推送方法、装置及设备
CN111179940A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 一种语音识别方法、装置及计算设备
CN109726332A (zh) * 2019-01-11 2019-05-07 何梓菁 一种基于自学习的个性化音乐推送方法和系统
CN110032642B (zh) * 2019-03-26 2022-02-11 广东工业大学 基于词嵌入的流形主题模型的建模方法
CN111817943B (zh) * 2019-04-12 2022-06-14 腾讯科技(深圳)有限公司 一种基于即时通讯应用的数据处理方法和装置
CN110134830A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 视频信息数据处理方法、装置、计算机设备和存储介质
CN111859008B (zh) * 2019-04-29 2023-11-10 深圳市冠旭电子股份有限公司 一种推荐音乐的方法及终端
CN110149618B (zh) * 2019-05-09 2020-07-28 腾讯科技(深圳)有限公司 基于声纹授权的智能设备接入方法、装置、设备及介质
CN110491378B (zh) * 2019-06-27 2021-11-16 武汉船用机械有限责任公司 船舶航行语音管理方法及系统
CN110689894B (zh) * 2019-08-15 2022-03-29 深圳市声扬科技有限公司 自动注册方法及装置、智能设备
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN110459227A (zh) * 2019-08-29 2019-11-15 四川长虹电器股份有限公司 基于智能电视的声纹注册方法
CN110534117B (zh) * 2019-09-10 2022-11-25 阿波罗智联(北京)科技有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110992962B (zh) * 2019-12-04 2021-01-22 珠海格力电器股份有限公司 语音设备的唤醒调整方法、装置、语音设备及存储介质
CN111161713A (zh) * 2019-12-20 2020-05-15 北京皮尔布莱尼软件有限公司 一种语音性别识别方法、装置及计算设备
CN111210829A (zh) * 2020-02-19 2020-05-29 腾讯科技(深圳)有限公司 语音识别方法、装置、系统、设备和计算机可读存储介质
CN111246023A (zh) * 2020-02-24 2020-06-05 中移(杭州)信息技术有限公司 身份识别方法、网络通信平台、主叫终端、电子设备
CN111326146A (zh) * 2020-02-25 2020-06-23 北京声智科技有限公司 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质
CN112201257A (zh) * 2020-09-29 2021-01-08 北京百度网讯科技有限公司 基于声纹识别的信息推荐方法、装置、电子设备及存储介质
CN112312150B (zh) * 2020-10-21 2022-07-29 深圳市声扬科技有限公司 直播信息处理方法、直播信息处理装置及电子设备
CN112929501A (zh) * 2021-01-25 2021-06-08 深圳前海微众银行股份有限公司 语音通话服务方法、装置、设备、介质及计算机程序产品
CN113268630B (zh) * 2021-06-08 2023-03-10 腾讯音乐娱乐科技(深圳)有限公司 一种音频检索方法、设备及介质
CN115171699A (zh) * 2022-05-31 2022-10-11 青岛海尔科技有限公司 唤醒参数的调整方法和装置、存储介质及电子装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US102804A (en) * 1870-05-10 Improvement in stanchion s for cattle
US9443522B2 (en) * 2013-11-18 2016-09-13 Beijing Lenovo Software Ltd. Voice recognition method, voice controlling method, information processing method, and electronic apparatus
CN103700371B (zh) * 2013-12-13 2017-10-20 江苏大学 一种基于声纹识别的来电身份识别系统及其识别方法
CN103730114A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于联合因子分析模型的移动设备声纹识别方法
CN104575504A (zh) * 2014-12-24 2015-04-29 上海师范大学 采用声纹和语音识别进行个性化电视语音唤醒的方法
JP6401126B2 (ja) 2015-08-11 2018-10-03 日本電信電話株式会社 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。
CN106570443A (zh) 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种快速识别方法及家庭智能机器人
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10102844B1 (en) * 2016-03-29 2018-10-16 Amazon Technologies, Inc. Systems and methods for providing natural responses to commands
CN105933413B (zh) 2016-04-21 2019-01-11 深圳大数点科技有限公司 一种基于用户声音交互的个性化实时内容推送系统
US10388273B2 (en) * 2016-08-10 2019-08-20 Roku, Inc. Distributed voice processing system
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands

Also Published As

Publication number Publication date
CN107623614B (zh) 2020-12-08
JP6613347B2 (ja) 2019-11-27
US10832686B2 (en) 2020-11-10
US20190088262A1 (en) 2019-03-21
CN107623614A (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
JP6613347B2 (ja) 情報をプッシュする方法及び装置
CN107895578B (zh) 语音交互方法和装置
US11100934B2 (en) Method and apparatus for voiceprint creation and registration
CN107657017B (zh) 用于提供语音服务的方法和装置
US11564090B1 (en) Audio verification
US10708423B2 (en) Method and apparatus for processing voice information to determine emotion based on volume and pacing of the voice
CN105489221B (zh) 一种语音识别方法及装置
JP6876752B2 (ja) 応答方法及び装置
US20200126566A1 (en) Method and apparatus for voice interaction
JP2020016875A (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
JP6785904B2 (ja) 情報プッシュ方法及び装置
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
JP6783339B2 (ja) 音声を処理する方法及び装置
JP7123871B2 (ja) 身元認証方法、身元認証装置、電子機器及びコンピュータ読み取り可能な記憶媒体
KR20180046780A (ko) 이중 웨이크업을 이용한 음성 인식 서비스 제공 방법 및 이를 위한 장치
KR20160106075A (ko) 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스
CN107680584B (zh) 用于切分音频的方法和装置
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
KR102584324B1 (ko) 음성 인식 서비스 제공 방법 및 이를 위한 장치
KR20220140301A (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법
CN112309396A (zh) 一种ai虚拟机器人状态动态设置系统
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
CN108630201B (zh) 一种用于建立设备关联的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191101

R150 Certificate of patent or registration of utility model

Ref document number: 6613347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250