JP2019057273A

JP2019057273A - 情報をプッシュする方法及び装置

Info

Publication number: JP2019057273A
Application number: JP2018154666A
Authority: JP
Inventors: ワン，ウェンユイ; Wenyu Wang
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-09-19
Filing date: 2018-08-21
Publication date: 2019-04-11
Anticipated expiration: 2038-08-21
Also published as: JP6613347B2; CN107623614A; US10832686B2; CN107623614B; US20190088262A1

Abstract

【課題】適合的な情報のプッシュを実現し、ユーザの個性的な求めを満足する、情報をプッシュする方法及び装置を提供する。【解決手段】ユーザから端末を介して送信されたウェークアップ用の音声情報と問合せ用の音声情報とを含む音声情報を受信することと、ウェークアップ用の音声情報に対して声紋特徴の抽出を行って登録声紋特徴情報及び登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる声紋特徴情報を取得することと、声紋特徴情報と予め設定された登録声紋情報セットとをマッチングすることと、声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて端末にオーディオ情報をプッシュすることと、を含む。【選択図】図２

Description

本願は、コンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特に情報をプッシュする方法及び装置に関する。

近年、人工知能の技術は益々発展しており、段々製品化になっている。特にスマート音声対話製品、例えば、スマートスピーカ、知能ロボットなどがある。スマートスピーカ、知能ロボットなどを含むスマート音声対話製品の一般的な使用シーンは家庭である。家庭のユーザは、音声によりスマート音声対話製品とやりとり、サービス要求を提出することができる。スマート音声対話製品は、一連の共通応答手順を利用して家庭のユーザにサービスを提供する。

しかし、家庭毎に一般的に複数のユーザがあり、ユーザ毎に必ず異なる求めがある。従って、どのように家庭のユーザにおける各ユーザを識別し、各ユーザに個性的な求めを満足するサービスを提供するかは、速めに解決する必要のある課題である。

本願の目的は、改善された情報をプッシュする方法及び装置を提供して上記の背景技術の部分に言及された技術課題を解決することにある。第一の局面として、本願の実施形態は、情報をプッシュする方法を提供する。当該方法は、ユーザから端末を介して送信された、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と、問合せ用の音声情報と、を含む音声情報を受信し、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得し、前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングすることであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれ、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュすることを含む。

一部の実施形態において、前記方法は、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定し、超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除し、前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する、ことを更に含む。

一部の実施形態において、前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成することは、前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする、ことを含む。

一部の実施形態において、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得することは、前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、声紋特徴スーパーベクトルを取得し、前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得する、ことを含む。

一部の実施形態において、前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報に対応する声紋標識を更に含み、前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識に関連付けて記憶される。

第二の局面として、本願の実施形態は情報をプッシュする装置を提供する。当該装置は、ユーザから端末を介して送信される、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と問合せ用の音声情報とを含む音声情報を受信する受信ユニットと、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する抽出ユニットと、前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングするマッチングユニットであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる、マッチングユニットと、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュするプッシュユニットと、を備える。

一部の実施形態において、前記装置は、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定する確定ユニットと、超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除する削除ユニットと、前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する登録ユニットと、を更に備える。

一部の実施形態において、前記登録ユニットは、更に、前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする。

第三の局面として、本願の実施形態は、サーバを提供する。当該サーバは、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶する記憶装置とを備え、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに第一の局面における任意の実現方式で記載される方法を実現させる。

第四の局面として、本願の実施形態は、コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体を提供する。その特徴は、当該コンピュータプログラムがプロセッサにより実行されると、第一の局面における任意の実現方式で記載された方法を実現させることにある。

本願の実施形態により提供された情報をプッシュする方法及び装置は、ユーザから送信されたウェークアップ用の音声情報に対して声紋特徴の抽出を行ってユーザの声紋特徴情報を取得し、その後にユーザの声紋特徴情報と登録声紋情報セットとをマッチングし、最後にユーザの声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、ユーザから送信された問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいて、ユーザに使用される端末にオーディオ情報をプッシュする。これにより、異なるユーザを識別し、適合的な情報のプッシュを実現し、ユーザの個性的な求めを満足する。

以下の図面を参照してなされた制限的でない実施形態に対する詳細的な説明により、本発明の他の特徴、目的及び利点はより明らかになる。

本願を適用できる例示的なシステムアーキテクチャ図である。本願の情報をプッシュする方法による一実施例のフローチャートである。本願の情報をプッシュする方法による一つの応用シーンの模式図である。本願の情報をプッシュする装置による一実施例の構成模式図である。本願の実施例を実現するためのサーバに適用されるコンピュータシステムの構成模式図である。

以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。理解すべきことは、ここで説明する具体的な実施形態は、当該発明を説明するものに過ぎず、当該発明を限定するものではない。ただし、説明の便宜上、図面には発明に関連する部分のみが示されている。

なお、衝突しない場合、本願の実施形態及び実施形態における特徴を相互に組み合せてもよい。以下、図面及び実施形態を参照しながら本願を詳細に説明する。

図１は、本願を適用できる情報をプッシュする方法又は情報をプッシュする装置の実施例の例示的なシステムアーキテクチャ１００を示した。

図１に示されたように、システムアーキテクチャ１００は、端末デバイス１０１、１０２、１０３と、ネットワーク１０４と、サーバ１０５とを備えても良い。ネットワーク１０４は、端末デバイス１０１、１０２、１０３とサーバ１０５の間に通信リンクの媒体を提供する。ネットワーク１０４は、各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバ、ケーブルなどを含んでも良い。

ユーザは、端末デバイス１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５とやりとりすることにより、メッセージなどを送受信することができる。端末デバイス１０１、１０２、１０３には、各種のクライアントアプリ、例えばオーディオ再生型のアプリ、検索型のアプリ、即時通信ツール、交際型のプラットフォームソフトウェア、知能デバイス制御ソフトウェア及びロボット制御ソフトウェアなどがインストールされても良い。

端末デバイス１０１、１０２、１０３は、オーディオ再生デバイスを有し且つオーディオ再生をサポートする各種の電子デバイスであっても良い。スマートスピーカ、知能ロボット、スマートフォーン、タブレット、ノードパソコン及びディスクトップコンピュータなどを含むが、それらに限定されない。

サーバ１０５は、各種のサービスを提供するサーバ、例えば端末デバイス１０１、１０２、１０３に再生されるオーディオ情報に対してサポートを提供するバックグラウンドサーバであっても良い。バックグラウンドサーバは、端末デバイスから送信される音声情報に対して識別などの処理を行い、処理の結果に基づいて端末デバイスにオーディオ情報をフィードバックすることにより、端末デバイスに再生させることができる。

説明すべきなのは、本願の実施例により提供される情報をプッシュする方法は、一般的にサーバ１０５により実行される。それに応じて、情報をプッシュする装置は一般的にサーバ１０５に設置される。

理解すべきなのは、図１における端末デバイス、ネットワーク及びサーバの数は例示的なものに過ぎない。実現の必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを備えることができる。

続いて図２を参照する。図２は、本願の情報をプッシュする方法による一実施例の手順２００を示した。当該情報をプッシュする方法は、以下のステップを含む。

ステップ２０１において、ユーザから端末を介して送信された音声情報を受信する。

本実施例において、情報をプッシュする方法が運行される電子デバイス（例えば図１に示されたサーバ１０５）は、有線接続手段又は無線接続手段でユーザによるオーディオ再生の端末（例えば図１に示された端末デバイス１０１、１０２、１０３）から音声情報を受信する。なお、前記音声情報は、ウェークアップ用の音声情報と問合せ用の音声情報を含むことができる。なお、前記ウェークアップ用の音声情報は、前記端末を待機状態からウェークアップ状態へ切替えるために使用可能である。前記ウェークアップ用の音声情報は予め設置されても良く、例えば、予め設置されたウェークアップワード又はウェークアップセンテンスであっても良い。ユーザはウェークアップワード又はウェークアップセンテンスを話すことにより前記端末を待機状態からウェークアップ状態へ切替えることができる。例えば、ユーザはスマートスピーカを使用する時に、予め設置されたウェークアップワード「度ちゃん度ちゃん」を話すことによりスマートスピーカを待機状態からウェークアップ状態へ切替え、更にスマートスピーカにユーザと音声のやりとりを開始させることができる。前記問合せ用の音声情報は、ユーザからの情報を問合せるための音声情報であっても良い。例えば、前記電子デバイスは、ユーザから話した問合せ用の音声情報である「歌を薦めてください」に基づいて情報の問合せを行ってユーザに歌の情報をプッシュすることができる。注意すべきなのは、前記無線接続手段は、３Ｇ／４Ｇ接続、ＷｉＦｉ接続、ブルートゥース（登録商標）接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅ接続、ＵＷＢ（ｕｌｔｒａｗｉｄｅｂａｎｄ）接続、及び他の既知又は将来に開発される無線接続手段を含んでも良いが、それらに限定されない。

ステップ２０２において、ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する。

本実施例において、前記電子デバイスは、ステップ２０１に受信されたウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得することができる。声紋は、電気音響学装置により表示される言語情報を持つ音波スペクトルである。現代科学の研究により、声紋は確定性だけではなく、相対安定性を有する特徴がある。指紋と同じように、人間毎に話す途中で含まれる音声特徴と発音慣習もほぼ唯一である。従って、一連の音声から話をする人の身元を識別することができる。ここでは、前記声紋特徴情報は、ユーザの声紋スペクトル特徴を標識するベクトルであっても良い。例えば、ウェークアップ用の音声情報に対する声紋特徴の抽出は、ウェークアップ用の音声情報における典型特徴を抽出することにより実現することができる。具体的に、音声の波長、周波数、強度、リズムなどの特徴によりユーザの音声の特徴を現すことができるため、ウェークアップ用の音声情報に対して声紋特徴の抽出を行う場合に、ウェークアップ用の音声情報における波長、周波数、強度、リズムなどの特徴を抽出し、ウェークアップ用の音声情報における波長、周波数、強度、リズムなどの特徴の特徴値を確定し、ウェークアップ用の音声情報における波長、周波数、強度、リズムなどの特徴の特徴値などを声紋特徴情報として組み合わせることができる。また、例えば、ウェークアップ用の音声情報に対する声紋特徴の抽出は、ウェークアップ用の音声情報における音響学特徴、例えば、メル周波数ケプストラム係数を抽出しても良い。なお、ウェークアップ用の音声情報に対してメル周波数ケプストラム係数を抽出する過程は、プリエンファシス、クレーム分割、アンドウィンドウ、快速フーリエ変換、メルフィルタ、対数変換及び離散コサイン変換などを含んでも良い。説明すべきなのは、ウェークアップ用の音声情報に対する声紋特徴の抽出は、今まで良く研究し応用される公知技術であり、ここでは詳しく説明しない。

本実施例の一部の選択可能な実現手段において、前記ステップ２０２は、具体的に以下の処理を含むことができる。

まず、前記電子デバイスは、前記ウェークアップ用の音声情報を予め訓練された共通背景モデルに導入しマッピングして声紋特徴スーパーベクトルを取得することができる。なお、前記共通背景モデルは、音声情報と声紋特徴スーパーベクトルとの対応関係を示すことができる。

例示として、共通背景モデルは、技術者が大量の音声情報と声紋特徴スーパーベクトル対する統計に基づいて予め作成された、複数の音声情報と声紋特徴スーパーベクトルの対応関係を記憶する対応関係テーブルであっても良い。

例示として、前記共通背景モデル（ｕｎｉｖｅｒｓａｌｂａｃｋｇｒｏｕｎｄｍｏｄｅｌ、ＵＢＭ）は、機器学習方法により異なる話し手の大量の音声サンプルを利用して訓練されたガウス混合モデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ、ＧＭＭ）であっても良い。実際に、ウェークアップ用の音声情報を短時間スペクトル特徴の序列に変換し、各フレームスペクトル特徴の共通背景モデルの各ガウス成分における事後確率を算出し、最大事後確率ルールを利用して前記ユーザのガウス混合モデルにおける各ガウス成分の平均値を適応に取得し、その後に取得された各ガウス成分の平均値をスプライスして声紋特徴スーパーベクトルを生成するように、ウェークアップ用の音声情報を共通背景モデルに導入して声紋特徴スーパーベクトルを取得する。

説明すべきなのは、前記の共通背景モデルを訓練して取得すること、及びウェークアップ用の音声情報を共通背景モデルに導入して声紋特徴スーパーベクトルを取得する過程は、今まで良く研究し応用される従来技術であって、ここでは詳しく説明しない。

そして、前記電子デバイスは前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得することができる。

ここでは、前記電子デバイスは各種の方法を採用して前記声紋特徴スーパーベクトルに対して次元削減処理を行うことができる。例えば、連合因子解析方法（ＪｏｉｎｔＦａｃｔｏｒＡｎａｌｙｓｉｓ、ＪＦＡ）、確率線形判別解析アルゴリズム（ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＰＬＤＡ）、線形判別解析アルゴリズム（ＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ、ＬＤＡ）又は認識ベクトル（ＩｄｅｎｔｉｆｙｉｎｇＶｅｃｔｏｒ、Ｉ−Ｖｅｃｔｏｒ）により前記声紋スーパーベクトルに対して次元削減処理を行って声紋特徴ベクトルを取得することができる。説明すべきなのは、前記の各種の次元削減処理の方法は今まで良く研究し応用される従来技術であって、ここでは詳しく説明しない。

ステップ２０３において、声紋特徴情報と予め設定された登録声紋情報セットとをマッチングする。

本実施例において、前記電子デバイスは、ステップ２０２に得られた声紋特徴情報と予め設定された登録声紋情報セットにおける登録声紋特徴情報とをマッチングすることができる。例えば、まず前記声紋特徴情報と前記登録声紋情報セットにおける各登録声紋特徴情報との間のマッチ度合いを算出することができ、例えば、マンハッタン距離（ＭａｎｈａｔｔａｎＤｉｓｔａｎｃｅ）、ミンコフスキー距離（ＭｉｎｋｏｗｓｋｉＤｉｓｔａｎｃｅ）、コサイン類似度（ＣｏｓｉｎｅＳｉｍｉｌａｒｉｔｙ）などの方法を採用して算出しても良い。そして、算出されたマッチ度合いに基づいて前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したか否かを判断する。例えば、マッチ度合いは、パーセントで表すことができる。マッチ度合いが予め設定された閾値を超えた場合に、マッチに成功したと考えられても良い。この場合に、前記声紋特徴情報に対応するユーザとマッチに成功した登録声紋特徴情報に対応する登録ユーザが同一のユーザと考えられても良い。ここでは、前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報、及び当該登録声紋特徴情報に対応する登録ユーザのユーザ行為データを含んでも良い。ここでは、登録ユーザのユーザ行為データは、当該登録ユーザに関連する各種の行為データであっても良く、例えば、当該登録ユーザにより前記端末を介して再生されるオーディオのタイプ（例えば、歌、新聞、漫才など）、再生されるオーディオの名称、再生されるオーディオの演技者などであっても良い。前記電子デバイスは、登録ユーザのユーザ行為データにより登録ユーザの好みを解析して、登録ユーザに個性的な求めを満足するオーディオ情報をプッシュすることができる。

本実施例の一部の選択可能な実現手段において、前記登録声紋情報セットにおける各登録声紋情報は、更に登録声紋特徴情報に対応する声紋標識を含み、前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識と関連付けて記憶されても良い。選択的に、前記登録声紋情報セットは、同一のアカウント（例えば、ｂａｉｄｕアカウント）において関連されても良い。各端末デバイスはアカウントと唯一にバインディングされ、アカウントにより端末デバイスと登録声紋情報とを関連付ける。登録声紋情報は、アカウントにおける任意の端末デバイスにより登録しても良く、登録されると、アカウントにおける任意の端末デバイスにおいて使用可能である。

ステップ２０４において、声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて、端末にオーディオ情報をプッシュする。

本実施例において、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したこと、即ち前記声紋特徴情報に対応するユーザと、マッチに成功した登録声紋特徴情報に対応する登録ユーザとが同一のユーザと確定されることに応じて、前記電子デバイスは前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて、端末にオーディオ情報をプッシュすることができる。具体的に、前記電子デバイスは、前記ユーザから送信された問合せ用の音声情報に対して音声識別を行ってユーザの求めを取得し、その後に当該ユーザの求めとマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいてユーザの個性的な求めを満足するオーディオ情報を取得し、当該オーディオ情報をユーザに使用される端末までプッシュすることができる。

本実施例の一部の選択可能な実現手段において、前記の情報をプッシュする方法は、更に以下のステップを含んでも良い。即ち、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記電子デバイスは更に前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定することができる。なお、前記数量閾値は、実際の必要に応じて人為的に設定されるものであっても良い。例えば、声紋認識の正確率に基づいて数量閾値の大きさを確定し、例えば正確率が高いほど数量閾値が小さくなるように設定されても良い。ここでは、声紋認識の正確率は、あるユーザの声紋特徴情報に基づいて当該ユーザをその本人として識別できる確率であっても良い。前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えた場合に、前記電子デバイスは前記登録声紋情報セットにおけるユーザ行為データの最も少ない登録声紋情報を削除し、前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納することができる。一般的に、ユーザ行為データの数量はあるユーザの活躍の程度を示しても良く、ユーザ行為データが少なすぎると、当該ユーザ行為データに対応するユーザが端末デバイスを一時に使用する「訪問者」であり、或いは当該ユーザ行為データがユーザを間違って識別して得られたものであり、即ち当該ユーザ行為データに記憶の意義がないと考えられても良いので、当該ユーザ行為データに対応する登録声紋情報を削除して記憶スペースの無駄を回避することができる。超えていない場合に、前記電子デバイスは、前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納することができる。ここでは、前記電子デバイスは、前記ユーザによる登録用音声情報の再送が必要なく、前記ユーザのウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成でき、ユーザの意図なしの状態におけるユーザに対する登録が実現されるため、登録の過程を簡略化し、ユーザの体験を向上させることができる。

一部の選択可能な実現手段において、前記の前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成することは、以下のように具体的に行うことができる。最初に、前記電子デバイスは、前記ウェークアップ用の音声情報を予め訓練された共通背景モデル（ＵｎｉｖｅｒｓａｌＢａｃｋｇｒｏｕｎｄＭｏｄｅｌ、ＵＢＭ）に導入しマッピングして第一声紋特徴スーパーベクトルを取得することができる。なお、前記共通背景モデルは、音声情報と声紋特徴スーパーベクトルの対応関係を示すことができる。次に、前記電子デバイスは、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得することができる。具体的な過程は、ステップ２０２の選択可能な実現手段を参照しても良く、ここでは詳しく説明しない。その後に、前記電子デバイスは、前記第一登録声紋特徴情報の第一声紋標識を生成することができる。例えば、前記電子デバイスは、前記第一登録声紋特徴情報に唯一に対応する一つの第一声紋標識をランダムに生成し、前記ユーザのユーザ行為データと前記第一声紋標識を関連付けて記憶することができる。最後に、前記電子デバイスは、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とすることができる。

続いて図３を参照する。図３は、本実施例の情報をプッシュする方法による応用シーンの模式図を示した。図３の応用シーンにおいて、ユーザはまず端末３０１に対して音声情報である「度ちゃん度ちゃん、歌を薦めてください。」を送信する。その後に、サーバ３０２は、当該音声情報を受信し、当該音声情報におけるウェークアップ用の音声情報である「度ちゃん度ちゃん」に対して声紋特徴の抽出を行って声紋特徴情報を取得する。そして、サーバ３０２は当該声紋特徴情報と登録声紋情報セットをマッチングする。最後に、当該声紋特徴情報と登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、サーバ３０２は、問合せ用の音声情報である「歌を進めてください」に対して音声認識を行ってユーザが歌を聴きたいという求めを取得し、マッチに成功した登録声紋特徴情報に対応するユーザ行為データを解析してユーザの好み、例えばどのようなタイプの歌が好きか、どの歌手の歌が好きか、どの歌が好きかなどを取得し、ユーザの求めとユーザの好みに基づいて端末３０１に歌の情報をプッシュして端末３０１にユーザに対して当該歌の情報を再生させることができる。

本願の前記実施例により提供された方法は、ユーザから送信されたウェークアップ用の音声情報により異なるユーザを認識し、ユーザから送信された問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいてユーザに使用される端末へオーディオ情報をプッシュすることにより、異なるユーザが認識され、適合的な情報のプッシュが実現され、ユーザの個性的な求めが満足された。

続いて図４を参照する。前記の各図に示された方法の実現として、本願は情報をプッシュする装置の一実施例を提供した。当該装置の実施例は図２に示された方法の実施例に対応する。当該装置は、具体的に各種の電子デバイスに適用可能である。

図４に示されたように、本実施例の情報をプッシュする装置４００は、受信ユニット４０１と、抽出ユニット４０２と、マッチングユニット４０３と、プッシュユニット４０４とを備える。受信ユニット４０１は、ユーザから端末を介して送信された音声情報を受信する。ここで、前記音声情報は、ウェークアップ用の音声情報と問合せ用の音声情報を含む。また、前記ウェークアップ用の音声情報は、前記端末を待機状態からウェークアップ状態へ切替えるために用いられる。抽出ユニット４０２は、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する。マッチングユニット４０３は、前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングする。また、前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報、及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データを含む。プッシュユニット４０４は、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいて、前記端末へオーディオ情報をプッシュする。

本実施例において、情報をプッシュする装置４００の受信ユニット４０１、抽出ユニット４０２、マッチングユニット４０３及びプッシュユニット４０４による具体的な処理及び実現される技術的効果は、図２の対応の実施例におけるステップ２０１、ステップ２０２、ステップ２０３とステップ２０４の関連説明をそれぞれ参照しても良く、ここでは詳しく説明しない。

本実施例の一部の選択可能な実現手段において、前記装置４００は、更に、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定する確定ユニット（未図示）と、超えた場合に、前記登録声紋情報セットにおけるユーザ行為データの最も少ない登録声紋情報を削除する削除ユニット（未図示）と、前記ウェークアップ用の音声情報に基づいて前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する登録ユニット（未図示）と、を備えても良い。

本実施例の一部の選択可能な実現手段において、前記登録ユニットは、更に、前記ウェークアップ用の音声情報を予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして第一声紋特徴スーパーベクトルを取得し、前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識を関連付けて記憶し、前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とすることができる。

本実施例の一部の選択可能な実現手段において、前記抽出ユニット４０２は、更に、前記ウェークアップ用の音声情報を予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして声紋特徴スーパーベクトルを取得し、前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得することができる。

本実施例の一部の選択可能な実現手段において、前記登録声紋情報セットにおける各登録声紋情報は、更に登録声紋特徴情報に対応する声紋標識を含んでも良く、前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報、ユーザ行為データが当該登録声紋情報の声紋標識に関連付けられて記憶される。

続いて図５を参照する。図５は、本願の実施例を実現するためのサーバに適用されるコンピュータシステム５００の構成模式図を示した。図５に示されたサーバは一例に過ぎず、本願の実施例の機能及び使用範囲に制限しない。

図５に示されたように、コンピュータシステム５００は、読み出し専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２に記憶されているプログラム又は記憶部５０６からランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置（ＣＰＵ、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１を備える。ＲＡＭ５０３には、システム５００の操作に必要な様々なプログラムおよびデータがさらに記憶されている。ＣＰＵ５０１、ＲＯＭ５０２およびＲＡＭ５０３は、バス５０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ、Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インターフェース５０５もバス５０４に接続されている。

ハードディスクなどを含む記憶部５０６、およびＬＡＮ（ローカルエリアネットワーク、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）カード、モデムなどを含むネットワークインターフェースカードの通信部５０７は、Ｉ／Ｏインターフェース５０５に接続されている。通信部５０７は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ５０８は、必要に応じてＩ／Ｏインターフェース５０５に接続される。リムーバブルメディア５０９は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ５０８に取り付けられ、したがって、ドライバ５０８から読み出されたコンピュータプログラムが必要に応じて記憶部５０６にインストールされる。

特に，本発明の実施例によれば、上記のフローチャートに参照して説明された過程はコンピュータソフトウェアプログラムに実現されても良い。例えば、本発明の実施例はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信部５０７を介してネットワークからダウンロードしてインストールされ、及び／又はリムーバブルメディア５０９からインストールされても良い。当該コンピュータプログラムは、中央処理ユニット（ＣＰＵ）５０１により実行される場合に、本願の方法に限定される前記機能を実行する。説明すべきなのは、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは前記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、消去可能なプログラミング読取専用メモリ（ＥＰＲＯＭ又はフラッシュ）、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ（ＣＤ−ＲＯＭ）、光学記憶素子、磁気記憶素子、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は前記の任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、ＲＦなど、或いは前記の任意の適当の組み合わせを含むが、それらに限定されない。

図面におけるフローチャート及びブロック図は、本願の各実施例によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って決定される。注意すべきなのは、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。

本発明の実施例に説明されたユニットはソフトウェアの手段で実現されても良く、ハードウェアの手段で実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば，受信ユニットと、抽出ユニットと、マッチングユニットと、プッシュユニットとを備えるプロセッサとして記載されても良い。なお，これらユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない，例えば，受信ユニットは、「ユーザから端末を介して送信される音声情報を受信するユニット」と記載されても良い。

他の局面として、本発明は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、前記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。前記コンピュータ読取可能な媒体に一つ又は複数のプログラムがロードされる。前記一つ又は複数のプログラムが当該装置により実行されると、当該装置は、ユーザから端末を介して送信される、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と問合せ用の音声情報を含む音声情報を受信し、前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得し、前記声紋特徴情報と予め設定された、各登録声紋情報に登録声紋特徴情報と前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる登録声紋情報セットとをマッチングし、前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報及びマッチに成功した登録声紋特徴情報に対応するユーザ行為データに基づいて前記端末へオーディオ情報をプッシュする。

以上の記載は、ただ本発明の好適な実施例及び運用される技術原理に対する説明である。当業者であればわかるように、本発明にかかる発明範囲は、前記技術特徴の特定の組み合わせからなる技術案に限定されず、前記の発明構想から逸脱されない場合に前記技術特徴又は均等の特徴による任意の組み合わせで形成される他の技術案も同時に含まれるべきである。例えば前記特徴と本発明に開示された（それらに限定されない）類似の機能を具備する技術特徴が互いに置換されて得られる技術案は該当する。

Claims

情報をプッシュする方法であって、
ユーザから端末を介して送信された、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と、問合せ用の音声情報と、を含む音声情報を受信し、
前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得し、
前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングすることであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれ、
前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュする、
ことを含むことを特徴とする方法。
前記方法は、
前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定し、
超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除し、
前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する、
ことを更に含むことを特徴とする請求項１に記載の方法。
前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成することは、
前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、
前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、
前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、
前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする、
ことを含むことを特徴とする請求項２に記載の方法。
前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得することは、
前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、声紋特徴スーパーベクトルを取得し、
前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得する、
ことを含むことを特徴とする請求項１に記載の方法。
前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報に対応する声紋標識を更に含み、
前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識に関連付けて記憶される、ことを特徴とする請求項１に記載の方法。
情報をプッシュする装置であって、
ユーザから端末を介して送信される、前記端末を待機状態からウェークアップ状態へ切替えるウェークアップ用の音声情報と問合せ用の音声情報とを含む音声情報を受信する受信ユニットと、
前記ウェークアップ用の音声情報に対して声紋特徴の抽出を行って声紋特徴情報を取得する抽出ユニットと、
前記声紋特徴情報と予め設定された登録声紋情報セットとをマッチングするマッチングユニットであって、前記登録声紋情報セットにおける各登録声紋情報には登録声紋特徴情報及び前記登録声紋特徴情報に対応する登録ユーザのユーザ行為データが含まれる、マッチングユニットと、
前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋特徴情報とのマッチに成功したことに応じて、前記問合せ用の音声情報と、マッチに成功した登録声紋特徴情報に対応するユーザ行為データとに基づいて前記端末にオーディオ情報をプッシュするプッシュユニットと、
を備えることを特徴とする装置。
前記装置は、
前記声紋特徴情報と前記登録声紋情報セットにおける登録声紋情報とのマッチに成功しなかったことに応じて、前記登録声紋情報セットに含まれる登録声紋情報の数が予め設定された数量閾値を超えたか否かを確定する確定ユニットと、
超えた場合に、前記登録声紋情報セットにおける、ユーザ行為データの最も少ない登録声紋情報を削除する削除ユニットと、
前記ウェークアップ用の音声情報に基づいて、前記ユーザの登録声紋情報を作成し、作成された登録声紋情報を前記登録声紋情報セットに格納する登録ユニットと、
を更に備えることを特徴とする請求項６に記載の装置。
前記登録ユニットは、更に、
前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、第一声紋特徴スーパーベクトルを取得し、
前記第一声紋特徴スーパーベクトルに対して次元削減処理を行って第一登録声紋特徴情報を取得し、
前記第一登録声紋特徴情報の第一声紋標識を生成し、前記ユーザのユーザ行為データと前記第一声紋標識とを関連付けて記憶し、
前記第一登録声紋特徴情報、第一声紋標識及び前記ユーザのユーザ行為データを前記ユーザの登録声紋情報とする、ことを特徴とする請求項７に記載の装置。
前記抽出ユニットは、更に、
前記ウェークアップ用の音声情報を、予め訓練された、音声情報と声紋特徴スーパーベクトルの対応関係を示す共通背景モデルに導入しマッピングして、声紋特徴スーパーベクトルを取得し、
前記声紋特徴スーパーベクトルに対して次元削減処理を行って声紋特徴情報を取得する、ことを特徴とする請求項６に記載の装置。
前記登録声紋情報セットにおける各登録声紋情報は、登録声紋特徴情報に対応する声紋標識を更に含み、
前記登録声紋情報セットにおける各登録声紋情報について、当該登録声紋情報に含まれる登録声紋特徴情報及びユーザ行為データが当該登録声紋情報の声紋標識に関連付けて記憶される、ことを特徴とする請求項６に記載の装置。
一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶する記憶装置と、を備えるサーバであって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項１〜５の何れか一つに記載の方法を実現させるサーバ。
コンピュータプログラムが記憶されているコンピュータ読取可能な記憶媒体であって、
当該コンピュータプログラムがプロセッサにより実行されると、請求項１〜５の何れか一つに記載の方法を実現させる、ことを特徴とするコンピュータ読取可能な記憶媒体。
プロセッサにより実行されると、請求項１〜５の何れか一つに記載の方法を実現させる、ことを特徴とするコンピュータプログラム。