JP2019527371A

JP2019527371A - 声紋識別方法及び装置

Info

Publication number: JP2019527371A
Application number: JP2018546525A
Authority: JP
Inventors: ウェンユワン、; フー、ユアン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2017-06-30
Filing date: 2018-02-27
Publication date: 2019-09-26
Anticipated expiration: 2038-02-27
Also published as: CN107507612B; CN107507612A; US11302337B2; JP6711500B2; US20210225380A1; WO2019000991A1

Abstract

本発明は、声紋識別方法及び装置を開示し、取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別することと、命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別することと、前記ユーザ類別及び命令に基づいて資源を提供することとを含む。先行技術における伝統的な声紋識別方法において、クライアントが声紋識別に参加する必要があり、声紋訓練過程によってユーザIDを識別する必要があり、ユーザの満足度が高くない問題を避けることができる。ユーザが自然に話す過程によって、これらの非常に「普通」な命令音声に対して処理を行うと同時に、声紋識別の動作を完成する。

Description

この出願は、2017年6月30日に出願した、出願番号が201710525251.5で、発明名称が「声紋認識方法及び装置」である中国特許出願の優先権を主張する。

本願は、人工知能適用分野に係り、特に声紋識別方法及び装置に係るものである。

人工知能（Artificial Intelligence；AI）は、人間の知能をシミュレーション、延伸、拡張するための理論、方法、技術及び適用システムを研究、開発する新しい技術科学である。人工知能とは、コンピュータ科学の1つの支脈であり、知能の本質を了解し、人間の知性と類似なやり方で応答する新しい知能機器を製造することを目指し、この分野の研究には、ロボット工学、音声認識、画像認識、自然言語処理及びエキスパートシステム等がある。ただし、人工知能の最も重要な1つの側面は、声紋識別技術である。

近年では、人工知能技術は大幅に発展され、徐々に製品化が実現化されている。特に、スマート音声会話製品に関しては、国外のアマゾンECHOスマートオーディオ及びGoogle Homeスマートオーディオの登場に従って、会話を主なインタラクション方式とするスマート家庭用製品、特にスマートオーディオ製品が流行されている。

スマートスピーカを含むスマート音声会話製品の典型的な応用シーンが家庭であり、家庭において、ユーザが音声で機器とインタラクションを行うことが自然であるが、一般的に、家庭には複数のユーザが存在し、各ユーザの要求が異なり、現在の製品サービスが細かいとは言えなく、全部のユーザに同じサービスを提供しており、製品からの、ユーザの要求に対する応答において使用されたのが共通の標準で、ユーザのカスタマイズ要求が満たされないことがある。

音声会話の利点がユーザの音声を録音できることにあり、指紋と同じ、誰もが自分の音声を持っているので、毎人の音声を声紋と呼び、話者の声紋によって話者がだれかを判定し、該ユーザのデータを抽出してカスタマイズのサービスを提供する。本発明は、声紋技術に基づいて、一連の製品策略に合わせて、上記の問題に対する最適な解決策を提出した。

現在、業界の声紋技術が未熟であり、製品化レベルの要求を満たすことは困難である。先行方法の主な問題は以下とおり、即ち、
（1）技術依存性が非常に強いことであり、つまり、一般、技術が非常に高い精度に達成されるまでに製品化しないが、技術の発展が長い過程である。
（2）策略が単一であり、つまり、既に声紋技術を使用したものは、声紋の使用策略があまり単一であり、策略によって技術不足を補う提案がない。
（3）製品化の程度が低いことであり、つまり、策略が単一で、技術的能力が十分でないという影響によって、製品の設計が制限され、声紋が基本的な機能のみに使用されており、既に製品化されても、非常に狭いシーン、例えば、特定の音声によって装置を覚醒させることしかに使用できなく、カスタイズサービスを提供するためではなく、声紋技術が深く製品化されていない。

本願の複数の態様は、ユーザにカスタマイズサービスを提供するための声紋識別方法及び装置を提供する。
本願の1つの態様に係る声紋識別方法は、
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別することと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別することと、
前記ユーザ類別及び命令に基づいて資源を提供することと、を含む。

前記ユーザ類別は、ユーザ性別及びユーザ年齢層を含む。
前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、
前記取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別する前に、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成すること、を更に含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別する前に、
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得ること、を更に含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示することと、を含む。
前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することは、
前記命令に基づいて、現在の垂直分野を確定することと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得することと、を含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、
前記属性情報は、ユーザ年齢層及びユーザ性別の中の少なくとも1つを含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索する前に、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得することと、
ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得ることと、を更に含む。

本発明の他の態様に関する声紋識別装置は、
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別するための声紋識別モジュールと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別するための音声識別モジュールと、
前記ユーザ類別及び命令に基づいて資源を提供するための提供モジュールと、を含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、前記ユーザ類別は、ユーザ性別及びユーザ年齢層を含む。
前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、前記声紋識別モジュールは、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成するための声紋処理モデル作成サブモジュール、を更に含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、音声識別モジュールは、
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得るための音声識別モデル作成サブモジュール、を更に含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、前記提供モジュールは、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索するための捜索サブモジュールと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示するための表示サブモジュールと、を含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、前記捜索サブモジュールは、
前記命令に基づいて、現在の垂直分野を確定するための垂直分野確定サブモジュールと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得するための内容取得サブモジュールと、をさらに含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、前記属性情報は、ユーザ年齢層及びユーザ性別の中の少なくとも1つを含む。

前記態様及びいずれか1項の可能な実現方式によって、更に１つの実現方式を提供し、つまり、前記捜索サブモジュールは、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得し、ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得るためのユーザ興味モデル作成サブモジュール、を更に含む。

本願の他の態様に関する設備は、
1つ又は複数のプロセッサと
1つ又は複数のプログラムを記憶するための記憶装置と、を含み
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行される時、前記1つ又は複数のプロセッサに上記いずれか1項に記載の方法を実現させる。

本願の他の態様に関するコンピュータが読取り可能な記憶媒体は、コンピュータプログラムが記憶されているコンピュータが読取り可能な記憶媒体であって、該プログラムがプロセッサによって実行される時、上記いずれか1項に記載の方法を実現する。

上記の説明から分かるように、本発明の上記技術案によれば、推薦策略がより完備になり、推薦もより正確であるので、ユーザの満足度を向上でき、仮に偶に識別エラーや推薦エラーが発生しても、ユーザに明らかに感知されなく、製品化が技術に対する要求を低下できる。

本願の1つの実施例に提供された声紋識別方法のフローチャートである。本願の1つの実施例に提供された声紋識別方法における、ユーザ類別に基づいて命令にマッチングする推薦興味類別を捜索する手順のフローチャートである。本願の1つの実施例に提供された声紋識別装置の構成図である。本願の1つの実施例に提供された声紋識別装置の捜索モジュールの構成図である。本発明の実施例を実現するために適応する例示的なコンピュータシステム／サーバ12のブロック図である。

本発明の目的、技術的解決方法及び利点をより明確にさせるために、以下、図面及び実施例を参照して、本発明を更に説明する。

図1は、本願の1つの実施例に提供された声紋識別方法のフローチャートであり、図1に示すように、以下のステップを含む。

101において、取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別する。

具体的に、前記ユーザ類別はユーザ性別及びユーザ年齢層を含む。

異なるユーザ類別、即ち性別や年齢層が異なるユーザ群は特有な声紋特徴を有するので、声紋識別を行う前に、異なるユーザ類別の音声特徴を元にモデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成して、異なるユーザ類別向けのユーザ群の声紋分析を実現することができる。ユーザが音声検索を起動した時、声紋識別処理によって、ユーザが発出した命令音声に基づいて、命令音声を発出したユーザのユーザ性別や年齢層情報を識別することができる。

声紋識別を行う前に、まず話者の声紋に対してモデリング、即ち「訓練」または「学習」を行う必要がある。具体的に、ディープニューラルネットワークDNN声紋ベースラインシステムを適用することで、訓練集合中の音声毎に第1の特徴ベクトルを抽出し、前記音声毎の第1の特徴ベクトル及び事前に標記された性別及び年齢層のラベルに基づいて、性別識別器及び年齢識別器をそれぞれに訓練することで、性別及び年齢層を区分する声紋処理モデルを作成する。

取得された命令音声に基づいて、前記命令音声の第1の特徴情報を抽出し、第1の特徴情報を予め生成された性別識別器及び年齢層識別器にそれぞれに送信する。性別識別器及び年齢層識別器は第1の特徴情報を分析し、前記第1の特徴情報の性別ラベル及び年齢層ラベル、即ち命令音声の性別ラベル及び年齢層ラベルを取得する。

例えば、性別識別器がガウス混合モデルであるものを例として、まず前記音声請求に対して基本周波数特徴及びメル周波数ケプストラム係数MFCC特徴を抽出し、その後、ガウス混合モデルに基づいて基本周波数特徴及びMFCC特徴に対して事後確率値を計算し、計算結果に基づいて該ユーザの性別を確定することができ、例えば、仮に該ガウス混合モデルが男性ガウス混合モデルであれば、計算結果の事後確率値が非常に高い、例えば一定の閾値より大きければ、該ユーザの性別を男性と確定し、計算結果の事後確率値が非常に小さい、例えば一定の閾値より小さければ、該ユーザの性別を女性と確定することができる。

好ましくは、命令音声を発出したユーザの年齢層や性別情報を識別した後に、更に命令音声を発出したユーザのユーザ声紋IDを識別する。

各ユーザの音声は唯一の声紋IDを有し、該IDには該ユーザの名前、性別、年齢、嗜好等の個人データを記録している。

好ましくは、前記ユーザの命令音声の声紋特徴を抽出し、クラウド端に予めに記憶された登録声紋モデルと順次にマッチングすることで、マッチング値が閾値より大きければ、前記ユーザのユーザ声紋IDを確定する。前記マッチング値が閾値より小さければ、前記ユーザが登録されないと確定する。

好ましくは、前記声紋特徴はd-vector特徴であり、ディープニューラルネットワーク（Deep Neural Network，DNN）によって抽出された特徴であり、具体的にDNNにおける最後の隠れ層の出力である。

102において、前記ユーザ類別に基づいて、ユーザ類別に対応する音声識別モデルを採用して命令音声を音声識別して、命令音声に記述された命令を得る。

音声識別技術を採用した後に、命令音声の音声情報をテキスト情報として識別することができ、その後、テキスト情報に基づいて該当の操作を行うことができる。

識別の正確性を向上するために、異なるユーザ類別に対して音声識別モデルを予め作成しておく必要がある。

具体的に、異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得る。

例えば、ユーザ類別における年齢層が子供である場合については、子供口語化特徴を有するコーパスを収集してコーパス庫を形成し、更に該コーパス庫を利用してモデル訓練を行って子供音声識別モデルを得ることができる。

具体的に、ここで言う子供口語化特徴は、語彙が繰り返すこと、言葉がはっきりしないこと、句切を誤ること等を含む。

更に、ユーザ類別が子供ユーザである場合については、自動に子供モードを起動し、子供の習慣に該当する会話モードの音声インタラクション方式を採用して、子供に対して内容選別及び最適化を行うことができる。

ただし、子供モードのインタラクションは、子供会話の習慣に合わせるように特別的に設計しなければならない。TTSのような放送音声は、子供または若い女性の音声であれば、子供との距離を近づけることができ、放送の音声については、子供がより快適に聞こえるように、重言を多く使用する。子供がよく話すチャットデータに関して、子供チャットを設計し、子供の成長に伴うようにする。

子供モードについては、全ての内容資源に関しても真剣に選択して、ポルノ及び暴力の内容を除去する必要がある。音楽、有声、映画、テレビ等の全ての内容も、いずれも子供の要求に精確に符合しなければならない。例えば、音楽は大半が子供の歌であるべきであり、有声は大半が子供の物語であるべきであり、映画は大半がアニメーション映画であるべきであり、テレビは大半がアニメーションであるべきである。

103において、前記ユーザ類別及び命令に基づいて資源を提供する。

具体的に、以下のサブステップを含み、即ち、

前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することと、

前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示することとを含む。

ただし、図2に示すように、前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することは、以下のサブステップを含む。

201において、前記命令に基づいて現在の垂直分野を確定し、前記現在の垂直分野は、音楽、オーディオブック、放送、ラジオ、ビデオ、映画、美食、チャット等を含む。

例えば、ユーザ命令が「歌を歌う」であると、現在の垂直分野を音楽と確定する。

例えば、ユーザ命令が「映画を再生する」であると、現在の垂直分野を映画と確定する。

例えば、ユーザ命令が「何のおいしいものがあるか」であると、現在の垂直分野を美食と確定する。

202において、現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得する。

ただし、前記属性情報は、年齢層、性別及び興味情報中の少なくとも1つを含む。

好ましくは、ユーザ興味モデルを予め作成することは、

少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得することと、

ユーザ類別及び垂直分野に従って、ユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得ることと、を含む。

ユーザの予め設置された時間粒度（例えば、2ヶ月、4ヶ月又は半年等）におけるユーザ履歴ログを多く取得することができる。ユーザの行動習慣によって、多数のユーザ履歴ログを元に、異なるユーザ類別の特定の垂直分野での特定の行動、即ユーザ興味趣向を得ることができる。言い換えると、ユーザ類別及び垂直分野に従って、ユーザ行動履歴データを分類統計して前記ユーザ興味モデルを得る。ユーザ興味モデルを利用して推薦策略を確定することができ、音楽、オーディオブック、放送、ラジオ、ビデオ、映画、美食、チャット等の異なるシーンでの垂直分野推薦策略は、ユーザ年齢層及び性別という次元を含む。即ち、現在のユーザ類別及び垂直分野に基づいて、前記ユーザ興味モデルを利用して、現在のユーザ類別及び現在の垂直分野に関連する推薦興味類別を確定する。

例えば、子供年齢層のユーザがビデオ垂直分野において視認するビデオは、"小馬宝莉"、"探検好きのドラ"、《Peppa Pig》等のアニメーションビデオを含む場合に、該年齢層のユーザの履歴行動を発掘することで、子供年齢層のユーザのビデオ垂直分野における推薦興味類別がアニメーションビデオであるという結論が得る。

好ましくは、前記ユーザのユーザ声紋IDを確定したら、現在の垂直分野に基づいて、該ユーザ声紋IDに対応するユーザ興味モデルを利用して、現在ユーザ及び現在の垂直分野に関連する推薦内容を確定する。ただし、前記ユーザ声紋IDに基づいてユーザ声紋IDに対応するユーザ行動履歴データを取得し、垂直分野に従って前記ユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得る。

104において、マルチ媒体資源庫から、前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示する。

例えば、
音楽という垂直分野において、ユーザが「歌を歌う」等の普通な命令を発出すると、ユーザが女性であると識別したら、柔らかでロマンチック等のタイプの音楽を推薦し、男性であると識別したら、ロックンロールで情熱等のタイプの音楽を推薦し、老人であると識別したら、演劇等の音楽を推薦し、子供であると識別したら、子供の歌等のタイプの音楽を再生することができ、また、年齢及び性別を組み合わせて、少年及び少女については、異なるタイプの子供の歌を推薦することができる。

映画という垂直分野において、ユーザが「映画を再生する」等の普通な命令を発出すると、ユーザが男性であると識別したら、最新で最も人気あるアクション等のタイプの映画を推薦し、ユーザが女性であると識別したら、愛情等のタイプの映画を推薦し、ユーザが子供であると識別したら、アニメーションのタイプの映画を推薦する。

美食という垂直分野において、ユーザが「何のおいしいものがあるか」を述べると、子供であると識別したら、甘い菓子等のタイプの美食を推薦し、女性であると識別したら、甘い菓子又は食事の環境がロマンチックであるレストランを推薦しても良い。

本実施例の技術案において、声紋識別過程は暗黙推薦識別であり、声紋又はユーザが誰かを識別する特定な識別過程はなく、ユーザが自然に話す過程で、これらの非常に「普通」な命令音声に対して処理を行うと同時に、声紋識別の動作を完成する。

暗黙推薦識別であるので、仮に偶に識別エラーや推薦エラーが発生しても、ユーザに明らかに感知されない。

スマート識別によって子供モードに入り、音声会話製品のインタラクションの利点を十分に利用できる。ユーザ年齢を主動的に質問しなくとも、スマート的に子供モードへの変換を実現することができ、ユーザの体験性を更に向上する。

推薦策略へ年齢及び性別を追加することで、推薦策略がより完璧になり、推薦もより正確であるので、ユーザの満足度を向上することができる。

製品化が技術に対する要求を低下し、技術が非常に高い精度に達成していない場合にも、技術の製品化を実現することができ、技術発展に従って満足度が向上したことをユーザに体験させることができる。同時に、製品化された後により多いデータがあり、機器学習技術を基礎とする声紋識別技術においては、より多いデータがあれば、技術のイテレーション過程を促進することができ、製品が技術を補うことができ、技術をさらに深く製品化し、良性循環に入る。

注意すべきことは、前述各方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表示したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例であり、係る操作及びモジュールが、本発明にとっては必ずしも必要とは限らないことを、当業者であれば理解すべきである。

上記実施例において、各実施例に関する説明はいずれもそれ自身に集中しており、ある実施例において詳述していない部分が、他の実施例にかかる説明を参照できる。

図3は、本願の他の実施例に提供された声紋識別装置の構成図であり、図3に示すように、声紋識別モジュール301、音声識別モジュール302、提供モジュール303を含み、ただし、

前記声紋識別モジュール301は、取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別するために用いられる。

異なるユーザ類別、即ち性別や年齢層が異なるユーザ群は特有な声紋特徴を有するので、前記声紋識別モジュール301は、異なるユーザ類別の音声特徴を元にモデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成するための声紋処理モデル作成サブモジュールをさらに含み、異なるユーザ類別向けのユーザ群の声紋分析を実現することができる。ユーザが音声検索を起動した時、声紋識別処理によって、ユーザが発出した命令音声に基づいて、命令音声を発出したユーザのユーザ性別や年齢層情報を識別することができる。

声紋識別を行う前に、まず話者の声紋に対してモデリング、即ち「訓練」或「学習」を行う必要がある。具体的に、ディープニューラルネットワークDNN声紋ベースラインシステムを適用することで、訓練集合中の音声毎に第1の特徴ベクトルを抽出し、前記音声毎の第1の特徴ベクトル及び事前に標記された性別及び年齢層のラベルに基づいて、性別識別器及び年齢識別器をそれぞれに訓練することで、性別及び年齢層を区分する声紋処理モデルを作成する。

各ユーザの音声は唯一の声紋IDを有し、該IDには該ユーザの名前、性別、年齢、嗜好等の個人データを記録されている。

前記音声識別モジュール302は、前記ユーザ類別に基づいて、対応するユーザ類別の音声識別モデルを採用して命令音声を音声識別して、命令音声に記述された命令を得るために用いられる。

識別の正確性を向上するために、前記音声識別モジュール302は、異なるユーザ類別に対して音声識別モデルを予め作成するための音声識別モデルモデリングサブモジュールを更に含む。

ここで言う子供口語化特徴は、語彙が繰り返すことや、言葉がはっきりしないことや、句切を誤ること等を含む。

更に、ユーザ類別が子供ユーザである場合については、自動に子供モードを起動し、子供の習慣に該当する会話モードの音声インタラクション方式を採用して、子供に対して内容選別及び最適化を行うための子供ガイドモジュールを更に含む。

ただし、子供モードのインタラクションは、子供会話の習慣に合わせるように特別的に設計しなければならない。TTSのような放送音声は、子供または若い女性の音声であれば、子供との距離を近づけることができ、放送の音声については、子供がより快適に聞こえるように重言を多く使用する。子供がよく話すチャットデータに関して、子供チャットを設計し、子供の成長に伴うようにする。

前記提供モジュール303は、前記ユーザ類別及び命令に基づいて資源を提供するために用いられ、具体的に、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索するための捜索サブモジュールと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示するための表示サブモジュールとを含む。

ただし、前記捜索サブモジュールは、前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索する。

具体的に、図4に示すように、以下のサブモジュールを含む。

垂直分野確定サブモジュール401は、前記命令に基づいて現在の垂直分野を確定するために用いられ、前記現在の垂直分野は、音楽、オーディオブック、放送、ラジオ、ビデオ、映画、美食、チャット等を含む。

内容取得サブモジュール402は、現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得するために用いられる。

ただし、前記属性情報は、年齢層、性別及び興味情報の中の少なくとも1つを含む。

好ましくは、ユーザ興味モデルを予め作成するために用いられるユーザ興味モデルモデリングモジュール403をさらに含み、ただし、該ユーザ興味モデルモデリングモジュール403は、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得し、
ユーザ類別及び垂直分野に従って、ユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得る。

ユーザの予め設置された時間粒度（例えば、2ヶ月、4ヶ月又は半年等）におけるユーザ履歴ログを多く取得することができる。

ユーザの行動習慣によって、多数のユーザ履歴ログを元に、異なるユーザ類別の特定の垂直分野での特定の行動、即ユーザ興味趣向を得ることができる。言い換えると、ユーザ類別及び垂直分野に従って、ユーザ行動履歴データを分類統計して前記ユーザ興味モデルを得る。ユーザ興味モデルを利用して推薦策略を確定することができ、音楽、オーディオブック、放送、ラジオ、ビデオ、映画、美食、チャット等の異なるシーンでの垂直分野推薦策略は、ユーザ年齢層及び性別という次元を含む。即ち、現在のユーザ類別及び垂直分野に基づいて、前記ユーザ興味モデルを利用して、現在のユーザ類別及び現在の垂直分野に関連する推薦興味類別を確定する。

例えば、子供年齢層のユーザがビデオ垂直分野において視認するビデオは、《小馬宝莉》、《探検好きのドラ》、《Peppa Pig》等のアニメーションビデオを含む場合に、該年齢層のユーザの履歴行動を発掘することで、子供年齢層のユーザのビデオ垂直分野における推薦興味類別がアニメーションビデオであるという結論が得る。

前記表示サブモジュールは、マルチ媒体資源庫から、前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示するために用いられる。

推薦策略へ年齢及び性別を追加することで、推薦策略がより完璧になり、推薦もより正確であり、ユーザの満足度を向上することができる。

製品化が技術に対する要求を低下し、技術が非常に高い精度に達成していない場合にも、技術の製品化を実現することができ、技術発展に従って満足度が向上したことをユーザに体験させできる。同時に、製品化された後により多いデータがあり、機器学習技術を基礎とする声紋識別技術においては、より多いデータがあれば、技術のイテレーション過程を促進することができ、製品が技術を補うことができ、技術がさらに深く製品化され、良性循環に入る。

当業者であれば、説明の便宜及び簡略化のために、上述記述された端末及びサーバの具体的な動作過程は、前述方法実施例における対応過程を参照できることを理解すべき、ここでは贅言しない。

本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきである。例えば、上述の装置に関する実施形態は例示だけであり、例えば、前記手段の区分がロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよく、例えば、複数の手段又は部材は、他の1つのシステムに組み合又は集積してもよく、又は一部の特徴は無視してもよく、実行しなくてもよい。更に、図示または検討した相互の結合または直接結合または通信接続は、いくつかのインタフェース、デバイス、または手段を介した間接的な結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。

前記の分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、１つの箇所に位置してもよく、又は複数のネットワークセルに分布されても良い。実際の必要に基づいて、その中の部分又は全部を選択して、本実施例の態様の目的を実現できる。

また、本発明の各実施例における各機能手段が、１つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、２つ又は２つ以上の手段が１つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア＋ソフトウェア機能手段の形式で実現しても良い。

図5は、本発明の実施形態を実現するために適応する例示的なコンピュータシステム／サーバ012のブロック図を示す。図5に示すコンピュータシステム／サーバ012は、1つの例だけであり、本発明の実施例の機能と使用範囲を制限していない。

図5に示すように、コンピュータシステム／サーバ012は、汎用演算設備の形態で表示される。コンピュータシステム／サーバ012の構成要素には、1つ又は複数のプロセッサ016と、システムメモリ028と、異なるシステム構成要素（システムメモリ028とプロセッサ016とを含む）を接続するためのバス018を含んでいるが、これに限定されない。

バス018は、複数種類のバス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ、周辺バス、グラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構（ISA）バス、マイクロチャンネル架構（MAC）バス、増強型ISAバス、ビデオ電子規格協会（VESA）ローカルバス及び周辺コンポーネント接続（PCI）バスを含んでいるが、これに限定されない。

コンピュータシステム／サーバ012には、典型的には複数の種類の、コンピュータシステムが読取り可能な媒体を含む。それらの媒体は、コンピュータシステム／サーバ012にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

メモリ028には、揮発性メモリ形態のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ（RAM）030及び／又はキャッシュメモリ032を含むことができる。コンピュータシステム／サーバ012には、更に他の移動可能／移動不可なコンピュータシステム記憶媒体や揮発性／不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ034は、移動不可能な不揮発性磁媒体を読み書くために用いられる（図5に示していないが、常に「ハードディスクドライブ」とも呼ばれる）。図5に示していないが、移動可能な不揮発性磁気ディスク（例えば「フレキシブルディスク」）に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク（例えばCD-ROM、DVD-ROM又は他の光媒体）に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、1つ又は複数のデータ媒体インタフェースを介してバス018にそれぞれ接続される。メモリ028には少なくとも1つのプログラム製品を含み、該プログラム製品には1組の（例えば少なくとも1つの）プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行できるように配置される。

1組の（少なくとも1つの）プログラムモジュール042を含むプログラム／実用ツール040は、例えばメモリ028に記憶され、このようなプログラムモジュール042には、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール042は、常に本発明に記載されている実施例における機能及び／又は方法を実行する。

コンピュータシステム／サーバ012は、1つ又は複数の周辺設備014（例えばキーボード、ポインティングデバイス、ディスプレイ024等）と通信を行ってもよく、本発明において、コンピュータシステム／サーバ012は外部レーダ設備と通信を行い、1つ又は複数のユーザと該コンピュータシステム／サーバ012とのインタラクションを実現することができる設備と通信を行ってもよく、及び／又は該コンピュータシステム／サーバ012と1つ又は複数の他の演算設備との通信を実現することができるいずれかの設備（例えばネットワークカード、モデム等）と通信を行っても良い。このような通信は入力／出力（I/O）インタフェース022によって行うことができる。そして、コンピュータシステム／サーバ012は、ネットワークアダプタ020によって、1つ又は複数のネットワーク（例えばローカルエリアネットワーク（LAN）、広域ネットワーク（WAN）及び／又は公衆回線網、例えばインターネット）と通信を行っても良い。図5に示すように、ネットワークアダプタ020は、バス018によってコンピュータシステム／サーバ012の他のモジュールと通信を行う。もちろん、図5に示していないが、コンピュータシステム／サーバ012と連携して他のハードウェア及び／又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

プロセッサ016は、メモリ028に記憶されているプログラムを実行することで、本発明に記載されている実施例における機能及び／又は方法を実行する。

上記のコンピュータプログラムは、コンピュータ記憶媒体に設けることができ、即ち該コンピュータ記憶媒体にコンピュータプログラムが記憶されており、該プログラムが1つ又は複数のコンピュータに実行される時、1つ又は複数のコンピュータに本発明の上記の実施例に記載されている方法フロー及び／又は装置操作を実行させる。

経時及び技術発達に伴い、媒体の意味もますます広がり、コンピュータプログラムの伝送経路も、有形な媒体に限らず、ネットワーク等から直接的にダウンロードすることもできる。1つ又は複数のコンピュータ読み取り可能な媒体の任意な組合せを採用しても良い。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体又はコンピュータ読み取り可能な記憶媒体である。コンピュータ読み取り可能な記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記のものの任意な組合せであるが、これに限定されない。コンピュータが読み取り可能な記憶媒体の更なる具体的な例（網羅的ではないリスト）には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（RAM）、リードオンリーメモリ（ROM）、消去可能なプログラマブルリードオンリーメモリ（EPROM又はフラッシュ）、光ファイバー、携帯式コンパクト磁気ディスクリードオンリーメモリ（CD-ROM）、光メモリ部材、磁気メモリ部材、又は上記のものの任意で適切な組合せを含む。本願において、コンピュータが読み取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されることができる。

コンピュータ読み取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピュータが読み取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号、光信号又はそれらの任意で適切な組合せを含んでいるが、これに限定されない。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体以外の任意なコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。

コンピュータ読み取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線、電線、光ケーブル、ＲＦ等、又は上記のものの任意で適切な組合せが含されているが、これに限定されない。

1つ又は複数の種類のプログラミング言語又はそれらの組合せで、本発明の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava（登録商標）、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言葉又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク（LAN）又は広域ネットワーク（WAN）を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービス事業者を利用してインターネットを介して接続できる）。

以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で実行した任意な修正、等価置換、改良なども、全部本発明の保護する範囲に属すべきである。

Claims

声紋識別方法であって、
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別することと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別することと、
前記ユーザ類別及び命令に基づいて資源を提供することと、を含む
声紋識別方法。
前記ユーザ類別は、ユーザ性別及びユーザ年齢層を含む
請求項1に記載の声紋識別方法。
前記取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別する前に、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成すること、を更に含む
請求項1又は2に記載の声紋識別方法。
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別する前に、
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得ること、を更に含む
請求項1、2又は3のいずれか１項に記載の声紋識別方法。
前記ユーザ類別及び命令に基づいて資源を提供することは、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示することと、を含む
請求項1から4のいずれか１項に記載の声紋識別方法。
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することは、
前記命令に基づいて、現在の垂直分野を確定することと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得することと、を含む
請求項5に記載の声紋識別方法。
前記属性情報は、ユーザ年齢層及びユーザ性別の中の少なくとも1つを含む
請求項6に記載の声紋識別方法。
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索する前に、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得することと、
ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、ユーザ興味モデルを得ることと、を更に含む
請求項5に記載の声紋識別方法。
声紋識別装置であって、
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別するための声紋識別モジュールと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別するための音声識別モジュールと、
前記ユーザ類別及び命令に基づいて資源を提供するための提供モジュールと、を含む
声紋識別装置。
前記ユーザ類別は、ユーザ性別及びユーザ年齢層を含む
請求項9に記載の声紋識別装置。
前記声紋識別モジュールは、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成するための声紋処理モデル作成サブモジュール、を更に含む
請求項9又は10に記載の声紋識別装置。
前記音声識別モジュールは、
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得るための音声識別モデル作成サブモジュール、を更に含む
請求項9、10又は11のいずれか１項に記載の声紋識別装置。
前記提供モジュールは、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索するための捜索サブモジュールと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示するための表示サブモジュールと、を含む
請求項9から12のいずれか１項に記載の声紋識別装置。
前記捜索サブモジュールは、
前記命令に基づいて、現在の垂直分野を確定するための垂直分野確定サブモジュールと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得するための内容取得サブモジュールと、を含む
請求項13に記載の声紋識別装置。
前記属性情報は、ユーザ年齢層及びユーザ性別の中の少なくとも1つを含む
請求項14に記載の声紋識別装置。
前記捜索サブモジュールは、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得し、ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得るためのユーザ興味モデル作成サブモジュール、を更に含む
請求項14に記載の声紋識別装置。
設備であって、
1つ又は複数のプロセッサと
1つ又は複数のプログラムを記憶するための記憶装置と、を含み
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行される時、前記1つ又は複数のプロセッサに請求項1〜8のいずれか1項に記載の声紋識別方法を実現させる
設備。
プロセッサによって実行される時、請求項1〜8のいずれか1項に記載の声紋識別方法を実現する
プログラム。