JP2021144221A

JP2021144221A - 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2021144221A
Application number: JP2021043324A
Authority: JP
Inventors: ズージェタン，; Zijie Tang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-05
Filing date: 2021-03-17
Publication date: 2021-09-24
Anticipated expiration: 2041-03-17
Also published as: EP3846164A3; US20210217437A1; EP3846164B1; JP7230085B2; KR20210042277A; EP3846164A2; CN111916065A

Abstract

【課題】ユーザ音声の音声分類情報及びマッチング関係情報に基づいて、ターゲットマッチング音声分類情報を確定する効率を向上させる方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。【解決手段】音声を処理するための方法は、ユーザが端末を介して送信したユーザ音声を受信することと、ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得ることと、上記音声分類情報及び予め設定されたマッチング関係情報に基づき、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することと、を含む。上記マッチング関係情報は、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すために用いられる。【選択図】図１

Description

本出願は、コンピュータ技術分野に関し、特に音声技術分野に関する。

インターネット技術の発展に伴い、人々の間の社交行動は、必ずしもオフライン対面式社交に限定されない。徐々にネットワークを介して文字、ピクチャ、音声、映像等の多種のインタラクション形式の社交を行うようになる。そのうち、音声は非常に良好な情緒表現ツールとし、社交に天然の情緒優位性を有する。画像、文字等のキャリアに比べ、音がより温かさを感じるものである。異なる語気、イントネーション、話速などが付与された音はより感情を直接表現しやすい。現在の段階では、インターネットに大量の音声ファンが出現し、「声優ファン」とも呼ばれる。彼らは一般的に素敵な音声に対して特別な感情を有するが、異なる音声ファンは異なるカテゴリの音声に対して異なる好みを有し、異なる音声は彼らの心の中で異なる魅力指数を有する。音声は出力効率の低い情報伝送媒体であるため、音声嗜好者が自分の好みの音声をネットワーク上で探し出そうとすることは非常に困難である。したがって、どのように「声優ファン」の人々に迅速且つ効率的にお気に入りの音をマッチングするかは、価値のあることである。

本出願は、音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。

本出願の第１態様によれば、音声を処理するための方法であって、ユーザが端末を介して送信したユーザ音声を受信することと、上記ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得ることと、上記音声分類情報と、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための予め設定されたマッチング関係情報とに基づいて、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することと、を含む、音声を処理するための方法を提供する。

本出願の第２態様によれば、音声を処理するための装置であって、ユーザが端末を介して送信したユーザ音声を受信するように構成される受信ユニットと、上記ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得るように構成される分類ユニットと、上記音声分類情報と、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための予め設定されたマッチング関係情報と、に基づいて、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定するように構成される確定ユニットと、を含む、音声を処理するための装置を提供する。

本出願の第３態様によれば、少なくとも１つのプロセッサと、上記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、上記メモリには、上記少なくとも１つのプロセッサによって実行可能な命令が格納されており、上記命令が上記少なくとも１つのプロセッサによって実行されると、上記少なくとも１つのプロセッサに第１態様のいずれか１項に記載の方法を実行させる、電子機器を提供する。

本開示の第４態様によれば、コンピュータ命令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ命令はコンピュータに第１態様のいずれか１項に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。

本開示の第５態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、第１態様のいずれか１項に記載の方法を実現する、コンピュータプログラムを提供する。

本出願の技術に基づいてユーザ音声の音声分類情報及びマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定し、それによりターゲットマッチング音声分類情報を確定する効率を向上させる。

なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されるであろう。

図面は本出願をよりよく理解するために用いられ、本出願に対する限定を構成しない。ここで：
本出願に係る音声を処理するための方法の一実施例を示すフローチャートである。本出願に係る音声を処理するための方法の一応用シーンを示す概略図である。本出願に係る音声を処理するための方法のもう一つの実施例を示すフローチャートである。本出願に係る音声を処理するための装置の一実施例を示す構造概略図である。本出願の実施例に係る音声を処理するための方法を実現するための電子機器のブロック図である。

以下は図面を参照して本出願の例示的な実施例を説明し、ここでは理解を容易にするため、本出願の実施例の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施例に対して様々な変更や修正を行うことができることは自明である。なお、以下の説明では、明確化及び簡略化のため、公知の機能及び構成については説明を省略する。

なお、本出願の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本発明を詳細に説明する。

本出願に係る音声を処理するための方法の一実施例のフロー１００を示す図１を参照する。この音声を処理するための方法は、次のステップ（Ｓ１０１〜Ｓ１０３）を含む。

Ｓ１０１：ユーザが端末を介して送信したユーザ音声を受信する。

本実施例において、音声を処理するための方法の実行主体（例えばサーバ）は有線接続方式又は無線接続方式によりユーザが使用する端末からユーザの音声を受信することができる。ここで、ユーザ音声は、ユーザが発したオーディオの一部であってもよい。例えば、ユーザ音声はユーザが勝手に話す又は勝手に歌う音声の一部であってもよく、ユーザが予め設定されたテキストを読み上げる音声であってもよく、ユーザが予め設定された歌を歌う音声などであってもよい。

一般的に、ユーザは端末に設置された音声収集装置（例えば、マイクロフォン、マイクロホンアレイ等）を利用して音声を録音することができる。録音が完了した後、端末は録音されたユーザ音声をサーバに送信することができる。ここで、サーバは、各種のサービスを提供するサーバであってもよい。例えば、端末が送信したユーザ音声等のデータを解析等の処理を行い、処理結果に基づいて端末に情報をプッシュするサーバである。

Ｓ１０２：ユーザ音声を分類し、ユーザ音声の音声分類情報を得る。

本実施例において、実行主体はＳ１０１で受信したユーザ音声を分類してユーザ音声の音声分類情報を取得することができる。ここで、音声分類情報は、性別および音声カテゴリを含むことができる。そのうち、性別は男性及び女性を含むことができる。音声カテゴリは音色の分類であってもよく、例えば、ショタ音、青年音、おじさん音、ロリ音、少女音、御姉音などを含むことができる。そのうち、ショタ音は小さい男の子の音声であってもよく、青年音は青少年の音声であってもよく、おじさん音は３０歳代前後の男性の音声であってもよく、ロリ音は小さい女の子の音声であってもよく、少女音は妙齢少女の音声であってもよく、御姉音は３０歳代前後の女性の音声であってもよい。

実際に、実行主体は様々な方法で解析してユーザ音声の音声分類情報を得ることができる。一例として、実行主体は、ユーザ音声の性別を様々な方法で確定することができ、例えば、ユーザ音声の性別は、ユーザ音声入力を機械学習アルゴリズムに基づいてトレーニングして音声性別分類モデルを得ることによって得ることができる。ここで、音声性別分類モデルは大量のトレーニングデータに基づいてトレーニングされ、入力された音声に基づいて該音声に対応する話者の性別を予測するために用いられるものであってもよい。実行主体はまた、様々な方法を採用し、ユーザ音声に基づいてユーザの年齢を識別し、ユーザの年齢に基づいて音声カテゴリを確定することができる。その後、実行主体は、ユーザ音声の性別および音声カテゴリをユーザ音声の音声分類情報とすることができる。

なお、分類の正確性を保証するために、ユーザ音声を分類する前に、さらにユーザ音声に対して、例えば、ノイズ低減、空白除去等の前処理を行うこともできる。

本実施例のいくつかの選択的な実現形態において、Ｓ１０２は具体的にユーザ音声を予め確立された音声分類モデルに入力し、ユーザ音声の音声分類情報を得るように行うことができる。

本実施形態において、実行主体の内部に予め確立された音声分類モデルを記憶することができる。ここで、音声分類モデルは、音声情報と音声分類情報との対応関係を表すために用いることができる。音声分類モデルは、入力された音声情報に基づいて、音声分類情報を出力することができる。一例として、音声分類モデルは、機械学習アルゴリズムに基づいてトレーニングされた分類モデルであってもよい。これにより、実行主体は、ステップＳ１０１で受信したユーザ音声を音声分類モデルに入力し、音声分類モデルが出力する音声分類情報をユーザ音声の音声分類情報とすることができる。

例えば、上述した音声分類モデルをトレーニングする実行主体は、上述した音声を処理するための方法の実行主体と同じであってもよいし、異なっていてもよい。上記音声分類モデルは以下の方式でトレーニングされ得る。

先ず、トレーニングサンプルセットを取得する。そのうち、トレーニングサンプルセットにおけるトレーニングサンプルはサンプル音声及びサンプル音声に対応するサンプル音声分類情報を含むことができる。

その後、トレーニングサンプルセットにおけるトレーニングサンプルのサンプル音声を入力とし、入力されたサンプル音声に対応するサンプル音声分類情報を所望の出力として、音声分類モデルをトレーニングして得る。

理解されるように、音声分類モデルの分類精度を向上させるために、音声分類モデルの使用段階において、以下のモデル更新ステップを実行することができる：１）音声分類モデルにより入力音声に対して出力された音声分類情報を表示する；２）技術者が表示された音声分類情報に対して入力した補正情報を受信する；３）入力音声及び補正情報を用いてトレーニングサンプルを構成し、該トレーニングサンプルを用いて音声分類モデルをさらにトレーニングする。

本実現形態により、実行主体は予めトレーニングされた音声分類モデルに基づいて、ユーザ音声の音声分類情報を得ることができる。音声分類モデルは大量のトレーニングサンプルに基づいてトレーニングして得られるため、得られた音声分類情報をより正確にすることができる。

Ｓ１０３：音声分類情報及び予め設定されたマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定する。
本実施例において、実行主体の内部に事前設定されたマッチング関係情報を予め記憶することができる。そのうち、上記マッチング関係情報は音声分類情報とマッチング音声分類情報との間のマッチング関係を表すために用いることができる。一例として、上記マッチング関係情報は音声分類情報及びマッチング音声分類情報、並びに音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含み得る。そのうち、あるマッチング関係情報におけるマッチング音声分類情報は該マッチング関係情報における音声分類情報とマッチングする音声分類情報であってもよい。例えば、あるマッチング関係情報における音声分類情報は「男、青年音」を例とし、該音声分類情報とマッチングするマッチング音声分類情報は、例えば、「女、少女音」、「女、ロリ音」、「女、御姉音」、「男、青年音」、「男、ショタ音」、「男、おじさん音」等、様々な音声分類情報を含むことができる。ここで、ある音声分類情報に対応する音声とは、分類された音声分類情報と該音声分類情報と同じ音声を指すことができる。音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度は、音声分類情報とマッチング音声分類情報に対応する音声とマッチングする度合いを示すことができる。一例として、マッチング度は数値の形態であってもよい。一般に、２つの音声のマッチング度が高いほど、音声分類情報に対応する話者がマッチング音声分類情報に対応する音声を好む可能性が高いことを示す。一例として、マッチング関係情報におけるマッチング度は、例えば、多数の音声分類情報に対応する音声の話者間の対話行為の統計に基づいて技術者によって確定され得る。

このように、実行主体はステップＳ１０２で得られた音声分類情報及びマッチング関係情報に基づいて、ステップＳ１０２で得られた音声分類情報とマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することができる。例えば、実行主体は、ステップＳ１０２で取得された音声分類情報に対応する音声との間のマッチング度が予め設定された条件（例えば、所定閾値を超えること）を満たすマッチング音声分類情報をターゲットマッチング音声分類情報として確定することができる。

本実施例のいくつかの選択的な実現形態では、上記音声を処理するための方法はさらに図１に示されない以下のステップを含むことができる：上記ターゲットマッチング音声分類情報に基づいて、上記端末にインストールされたプリセットクライアントが再生する音声の音色を確定する。

本実現形態において、実行主体は確定されたターゲットマッチング音声分類情報に基づいて、ユーザが使用する端末にインストールされたプリセットクライアントによって再生される音声の音色を確定することができる。例えば、ユーザが使用する端末に、例えば、音声アシスタント、音声秘書等の音声関連の様々なクライアントをインストールすることができ、これらのクライアントは音声を再生することができる。実行主体は、ターゲットマッチング音声分類情報に基づいて、端末にインストールされたこれらのクライアントによる再生音声の音色を調整することができる。本実現形態により、ターゲットマッチング音声分類情報に基づいてユーザが使用する端末にインストールされた予め設定されたクライアントが再生する音声の音色を確定することができ、それによりクライアントが再生する音声の音色がユーザのニーズを満たし、個人化された音声再生が実現される。

本実施例のいくつかの選択的な実現形態では、上記音声を処理するための方法はさらに図１に示されない以下のステップを含むことができる：

まず、音声分類情報及びマッチング関係情報に基づいて、音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報として確定する。

本実現形態において、実行主体はステップＳ１０２で確定された音声分類情報及びマッチング関係情報に基づいて、音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報として確定することができる。例えば、実行主体は、マッチング関係情報のうち、ステップＳ１０２で確定された音声分類情報とのマッチング度が最も高いマッチング音声分類情報を、表示対象マッチング音声分類情報とすることができる。

次に、端末がユーザに表示することに供するために、表示対象マッチング音声分類情報を端末に送信する。

本実現形態において、実行主体は、端末がユーザに表示することに供するために、表示対象マッチング音声分類情報を端末に送信することができる。例として、表示対象マッチング音声分類情報を送信する場合、さらに例えば、最適なＣＰ（Ｃｏｕｐｌｉｎｇ、ペアリング）、最適な組み合わせ等、予め設定された用語を組み合わせることができ、表示対象マッチング音声分類情報が「女、少女音」であることを例とし、実行主体は端末に情報「最適なＣＰ：少女音」を送信することができる。なお、実行主体は端末に表示対象マッチング音声分類情報を送信する以外に、さらに予め設定された用語（例えば、メイン音色、あなたの音色等）を組み合わせて端末にステップＳ１０２で確定された音声分類情報を送信することができ、ステップＳ１０２で確定された音声分類情報は「男、青年音」を例とし、実行主体は端末に情報「あなたの音色は青年音」を送信することができる。本実現形態により、実行主体は端末に表示対象マッチング音声分類情報を送信することができ、それによりユーザが閲覧することに供するために、予め設定された条件を満たす表示対象マッチング音声分類情報を端末に表示することができる。

まず、ユーザ音声と、予め設定された対象人物音声セットにおける対象人物音声と、の類似度を確定する。

本実現形態において、実行主体内部に対象人物音声セットが予め記憶されてもよく、そのうち、対象人物音声セットに少なくとも一人の対象人物の音声が含まれてもよい。ここで、対象人物は予め設定された人物であってもよく、例えば、対象人物は芸能スターであってもよい。これにより、実行主体は、ステップＳ１０１で受信したユーザ音声と、対象人物音声セット内の各対象人物音声との類似度を算出することができる。一例として、実行主体は、まずユーザ音声及び各対象人物音声の音声特徴をそれぞれ抽出し、次にユーザ音声の音声特徴と各対象人物音声の音声特徴との類似度を算出し、それによりユーザ音声と各対象人物音声との類似度を得ることができる。

次に、類似度に基づいて、少なくとも一人の対象人物から対象人物を類似人物として選択する。

本実現形態において、実行主体は、ユーザ音声と各対象人物音声との類似度に基づいて、少なくとも一人の対象人物から一人又は複数の対象人物を選択して類似人物とすることができる。例えば、実行主体は算出された複数の類似度を大きい順にソートし、且つ前の所定位（例えば、第１位）にランク付けされた類似度に対応する対象人物音声に対応する対象人物を類似人物とすることができる。ここで、ある類似度に対応する対象人物音声とは、その類似度を算出する際に用いられる対象人物音声であってもよい。

最後に、類似人物の名称を端末に送信する。

本実現形態において、実行主体は、端末がユーザに表示することに供するために、選択された類似人物の名称を端末に送信することができる。類似人物の名称が「張三」であることを例とし、端末は情報「類似人物が張三である」と表示することができる。本実現形態により、実行主体は、端末にユーザ音声に類似する対象人物音声に対応する対象人物の名称をプッシュすることができ、端末はユーザにその音声に類似する対象人物の名称を提示する。

次に、本実施例に係る音声を処理するための方法の応用シーンを示す概略図である図２を参照する。図２の応用シーンにおいて、端末２０１はユーザが送信した音声を受信した後、ユーザ音声をサーバ２０２に送信することができる。その後、サーバ２０２は受信したユーザ音声を分類し、ユーザ音声の音声分類情報「男、青年音」を得ることができる。次に、サーバ２０２は音声分類情報「男、青年音」及び予め設定されたマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定する。

本出願の上記実施例の提供する方法は、ユーザ音声の音声分類情報及びマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定し、それによりターゲットマッチング音声分類情報を確定する効率を向上させる。

更に、音声を処理するための方法のもう一つの実施例のフロー３００を示す図３を参照する。この音声を処理するための方法のフロー３００は、次のステップ（Ｓ３０１〜Ｓ３０７）を含む。

Ｓ３０１：ユーザが端末を介して送信したユーザ音声を受信する。

本実施例では、ステップＳ３０１は図１に示す実施例のステップＳ１０１と同様であり、ここではその説明を省略する。

Ｓ３０２：ユーザ音声を分類し、ユーザ音声の音声分類情報を得る。

本実施例では、ステップＳ３０２は図１に示す実施例のステップＳ１０２と同様であり、ここではその説明を省略する。

Ｓ３０３：音声分類情報及び予め設定されたマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定する。

本実施例では、ステップＳ３０３は図１に示す実施例のステップＳ１０３と同様であり、ここではその説明を省略する。

Ｓ３０４：ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定する。

本実施例において、実行主体の内部に音声情報セットを予め記憶することができる。これにより、実行主体は、ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定することができる。ここで、音声情報セット内の音声情報には、音声分類情報がマークされている。一例として、音声情報セットにおける音声分類情報がターゲットマッチング音声分類情報と同じ音声情報をターゲット音声情報として選択することができる。他の例として、ステップＳ３０２で確定された音声分類情報とマッチング音声分類情報に対応する音声とのマッチング度に基づいて、音声情報セットから複数の音声情報をターゲット音声情報として確定してもよい。例えば、マッチング度に基づいて、割合に応じて音声情報セットから異なる音声分類情報に対応する音声を選択し、例えば、マッチング度が高いほど選択された割合が高い。

Ｓ３０５：ターゲット音声情報を端末にプッシュする。

本実施例において、実行主体は、端末を使用するユーザが再生することに供するために、ステップＳ３０４で確定されたターゲット音声情報を端末にプッシュすることができる。

Ｓ３０６：端末から送信された、ユーザのプッシュされた音声情報に対する操作情報を受信する。

本実施例において、実行主体は、端末から送信された、ユーザのプッシュされた音声情報に対する操作情報を受信することができる。ここで、ユーザのプッシュされた音声情報に対する操作は、賛成、お気に入り、フル再生、複数回再生、音声情報の話者とのインタラクション等を含むことができる。

Ｓ３０７：操作情報に基づいて、マッチング関係情報におけるマッチング度を調整する。

本実施例において、実行主体は、ステップＳ３０６で受信した操作情報に基づいて、マッチング関係情報におけるマッチング度を調整し、上記ユーザに対するマッチング関係情報を得ることができる。一般的に、ユーザはある音声情報に対して賛成、お気に入り、フル再生、複数回再生等の操作を実行すれば、該音声情報はユーザのニーズに合致することを示す。このとき、マッチング関係情報における、ユーザ音声の音声分類情報と該音声情報の音声分類情報との間のマッチング度を予め設定された値だけ高くすることができる。ユーザはある音声情報に対して検索後の未再生、再生途中のシャットダウン等の操作を実行すると、該音声情報はユーザのニーズに合致しないことを示す。このとき、マッチング関係情報における、ユーザ音声の音声分類情報と該音声情報の音声分類情報との間のマッチング度を予め設定された値だけ低くすることができる。例として、実行主体は、さらにプッシュされた各音声分類情報に対応する音声情報のフル再生率を統計することができ、且つフル再生率に基づいてユーザ音声の音声分類情報と該音声分類情報との間のマッチング度を調整することができる。例えば、フル再生率が高いほど調整値が高くなる。

図３から分かるように、図１に対応する実施例に比べ、本実施例における音声を処理するための方法のフロー３００は、端末にターゲット音声情報をプッシュし、及びユーザがプッシュされた音声情報に対する操作情報に基づいてマッチング関係情報におけるマッチング度を調整するステップを強調する。それにより、本実施例に記載の解決手段は、ユーザの行為に基づいてマッチング関係情報におけるマッチング度を調整することができ、それによりマッチング関係情報をよりユーザの嗜好に合致させ、さらに後続にプッシュされる情報はよりユーザのニーズを満たすことができる。

更に図４を参照すると、上記の図に示された方法の実施態様として、本出願は、音声を処理するための装置の一実施例を提供し、該装置の実施例は、図１に示された方法の実施例に対応しており、該装置は、具体的に様々な電子機器に適用することができる。

図４に示すように、本実施例にかかる音声を処理するための装置４００は、受信ユニット４０１と、分類ユニット４０２と、確定ユニット４０３と、を備える。受信ユニット４０１は、ユーザが端末を介して送信したユーザ音声を受信するように構成される。分類ユニット４０２は上記ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得るように構成される。確定ユニット４０３は、上記音声分類情報と、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための予め設定されたマッチング関係情報と、に基づいて、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定するように構成される。

本実施例において、音声を処理するための装置４００の受信ユニット４０１、分類ユニット４０２及び確定ユニット４０３の具体的な処理及びそれらの技術効果は、それぞれ図１の対応する実施例におけるＳ１０１、Ｓ１０２、及びＳ１０３の関連する説明を参照することができ、ここではその説明を省略する。

本実施例のいくつかの選択的な実現形態では、上記装置４００は、上記ターゲットマッチング音声分類情報に基づいて、上記端末にインストールされたプリセットクライアントが再生する音声の音色を確定するように構成される音色確定ユニット（図示せず）をさらに備える。

本実施例のいくつかの選択的な実現形態では、上記装置４００は、上記ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定するように構成される情報確定ユニット（図示せず）と、前記ターゲット音声情報を上記端末にプッシュするように構成されるプッシュユニット（図示せず）をさらに備える。

本実施例のいくつかの選択的な実現形態において、上記マッチング関係情報は音声分類情報とマッチング音声分類情報、及び音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含む。上記装置４００は、上記端末から送信された上記ユーザがプッシュされた音声情報に対する操作情報を受信するように構成される情報受信ユニット（図示せず）と、上記操作情報に基づいて、上記マッチング関係情報におけるマッチング度を調整するように構成される調整ユニット（図示せず）をさらに備える。

本実施例のいくつかの選択的な実現形態において、上記分類ユニット４０２はさらに、予め作成された、音声情報と音声分類情報との間の対応関係を表すための音声分類モデルに上記ユーザ音声を入力して、上記ユーザ音声の音声分類情報を取得するように構成される。

本実施例のいくつかの選択的な実現形態では、上記装置４００は、上記音声分類情報及び上記マッチング関係情報に基づいて、上記音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報として確定するように構成される情報確定ユニット（図示せず）と、上記端末が上記ユーザに表示することに供するために、上記表示対象マッチング音声分類情報を上記端末に送信するように構成される情報プッシュユニット（図示せず）と、をさらに備える。

本実施例のいくつかの選択的な実現形態において、上記装置４００は、上記ユーザ音声と予め設定された対象人物音声セットにおける対象人物音声との類似度を確定するように構成される類似度確定ユニットであって、上記対象人物音声セットは少なくとも一人の対象人物の音声を含む、類似度確定ユニット（図示せず）と、上記類似度に基づいて、上記少なくとも一人の対象人物から対象人物を選択して類似人物とするように構成される選択ユニット（図示せず）と、上記端末に上記類似人物の名称を送信するように構成される名称送信ユニット（図示せず）と、をさらに備える。

本出願の実施例によれば、本出願はさらに電子機器及び可読記憶媒体を提供する。

図５に示すように、本出願の実施例に係る音声を処理するための方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、大型コンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで説明および／または要求した本出願の実現を限定することを意図するものではない。

図５に示すように、該電子機器は、１つ又は複数のプロセッサ５０１、メモリ５０２、及び各コンポーネントを接続するためのインタフェース（高速インタフェース及び低速インタフェースを含む）を含む。各コンポーネントは、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは電子機器内で実行される命令を処理することができ、インターフェースに結合された表示装置等の外部入出力装置に、グラフィカルユーザインタフェース（ＧＵＩ，ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）のグラフィック情報を表示するために命令をメモリ内またはメモリ上に格納することを含む。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスおよび複数のメモリを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図５では、１つのプロセッサ５０１を例としている。

メモリ５０２は、本出願が提供する非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも１つのプロセッサが実行可能な命令を格納しており、それにより前記少なくとも１つのプロセッサに本出願が提供する音声を処理するための方法を実行させる。本出願の非一時的コンピュータ可読記憶媒体はコンピュータ命令を格納し、該コンピュータ命令はコンピュータに本出願が提供する音声を処理するための方法を実行させるために用いられる。

メモリ５０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを格納することに用いることができ、例えば本出願の実施例における音声を処理するための方法に対応するプログラム命令／モジュール（例えば、図４に示す受信ユニット４０１、分類ユニット４０２及び確定ユニット４０３）が挙げられる。プロセッサ５０１は、メモリ５０２に格納された非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各種機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声を処理するための方法を実現する。

メモリ５０２はオペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶できるプログラム記憶領域と、音声を処理するための電子機器の使用に応じて作成されるデータ等を記憶できるデータ記憶領域とを含み得る。また、メモリ５０２は高速ランダムアクセスメモリを含むことができ、また非一時的メモリ（例えば、少なくとも１つの磁気ディスク記憶装置、フラッシュメモリデバイス又はその他の非一時的ソリッドステート記憶装置）を含むことができる。いくつかの実施例において、メモリ５０２は任意選択でプロセッサ５０１に対して遠隔に設置されたメモリを含み、これらの遠隔に設置されたメモリはネットワークを介して音声を処理するための電子機器に接続することができる。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網及びこれらの組み合わせなどが挙げられるが、それらに限定されない。

音声を処理するための電子機器はさらに、入力装置５０３及び出力装置５０４を含み得る。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４は、バス又はその他の方式で接続されていてもよく、図５ではバスで接続されている例を示している。

例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、１つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置５０３は、入力された数字や文字情報を受信でき、音声を処理するための電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置５０４は表示装置、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）等を含むことができる。該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。

ここで説明するシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実装され、該１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び／又は解釈することができ、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置及び少なくとも１つの出力装置からデータ及び命令を受信することができ、且つデータ及び命令を該記憶システム、該少なくとも１つの入力装置及び該少なくとも１つの出力装置に伝送することを含み得る。

これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ言語／機械語を利用して実現することができる。ここで、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械指令及び／又はデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム製品、装置、及び／又はデバイス（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味し、機械可読信号である機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および／またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。

ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置（例えば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ，ＣＲＴ）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを備えるコンピュータ上で実現することができ、ユーザが該キーボード及び該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力又は、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバ）に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ）に実施されてもよく、ユーザは該グラフィカルユーザインタフェース又はウェブブラウザを介してここで説明したシステム及び技術の実施形態とインタラクションしてもよく、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各構成要素間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットなどを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係は、互いにクライアント−サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。

本出願実施例の技術的手段に基づいて、ユーザ音声の音声分類情報及びマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定し、それによりターゲットマッチング音声分類情報を確定する効率を向上させる。

なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、部分的組合せ、および置換を行うことができることを当業者は理解すべきである。本出願の精神および原理内で行われたあらゆる補正、同等置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

ユーザにより端末を介して送信されたユーザ音声を受信することと、
前記ユーザ音声を分類し、前記ユーザ音声の音声分類情報を得ることと、
前記音声分類情報と、予め設定された、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための、マッチング関係情報とに基づいて、前記音声分類情報とマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することと、を含む、音声を処理するための方法。
前記方法は、
前記ターゲットマッチング音声分類情報に基づいて、前記端末にインストールされたプリセットクライアントによって再生される音声の音色を確定することをさらに含む請求項１に記載の方法。
前記方法は、
前記ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定することと、
前記ターゲット音声情報を前記端末にプッシュすることと、をさらに含む請求項１に記載の方法。
前記マッチング関係情報は、音声分類情報及びマッチング音声分類情報、並びに音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含み、
前記方法は、
前記端末から送信された、前記ユーザのプッシュされた音声情報に対する操作情報を受信することと、
前記操作情報に基づいて、前記マッチング関係情報におけるマッチング度を調整することと、をさらに含む請求項３に記載の方法。
前記ユーザ音声を分類し、前記ユーザ音声の音声分類情報を得ることは、
前記ユーザ音声を、予め作成された、音声情報と音声分類情報との間の対応関係を表すための音声分類モデルに入力して、前記ユーザ音声の音声分類情報を取得することを含む請求項１に記載の方法。
前記方法は、
前記音声分類情報及び前記マッチング関係情報に基づいて、前記音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報とすることと、
前記端末が前記ユーザに表示することに供するために、前記表示対象マッチング音声分類情報を前記端末に送信することと、をさらに含む請求項１に記載の方法。
前記方法は、
前記ユーザ音声と予め設定された対象人物音声セットにおける対象人物音声との類似度を確定することであって、前記対象人物音声セットは、少なくとも一人の対象人物の音声を含む、ことと、
前記類似度に基づいて、前記少なくとも一人の対象人物から対象人物を類似人物として選択することと、
前記類似人物の名称を前記端末に送信することと、をさらに含む請求項１に記載の方法。
ユーザにより端末を介して送信されたユーザ音声を受信するように構成される受信ユニットと、
前記ユーザ音声を分類し、前記ユーザ音声の音声分類情報を得るように構成される分類ユニットと、
前記音声分類情報と、予め設定された、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための、マッチング関係情報とに基づいて、前記音声分類情報とマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定するように構成される確定ユニットと、を含む、音声を処理するための装置。
前記装置は、
前記ターゲットマッチング音声分類情報に基づいて、前記端末にインストールされたプリセットクライアントによって再生される音声の音色を確定するように構成される音色確定ユニットをさらに含む請求項８に記載の装置。
前記装置は、
前記ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定するように構成される情報確定ユニットと、
前記ターゲット音声情報を前記端末にプッシュするように構成されるプッシュユニットと、をさらに含む請求項８に記載の装置。
前記マッチング関係情報は、音声分類情報及びマッチング音声分類情報、並びに音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含み、
前記装置は、
前記端末から送信された、前記ユーザのプッシュされた音声情報に対する操作情報を受信するように構成される情報受信ユニットと、
前記操作情報に基づいて、前記マッチング関係情報におけるマッチング度を調整するように構成される調整ユニットと、をさらに含む請求項１０に記載の装置。
前記分類ユニットは、更に
前記ユーザ音声を、予め作成された、音声情報と音声分類情報との間の対応関係を表すための音声分類モデルに入力して、前記ユーザ音声の音声分類情報を取得するように構成される請求項８に記載の装置。
前記装置は、
前記音声分類情報及び前記マッチング関係情報に基づいて、前記音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報とするように構成される情報確定ユニットと、
前記端末が前記ユーザに表示することに供するために、前記表示対象マッチング音声分類情報を前記端末に送信するように構成される情報プッシュユニットと、をさらに含む請求項８に記載の装置。
前記装置は、
前記ユーザ音声と予め設定された対象人物音声セットにおける対象人物音声との類似度を確定するように構成される類似度確定ユニットであって、前記対象人物音声セットは、少なくとも一人の対象人物の音声を含む、類似度確定ユニットと、
前記類似度に基づいて、前記少なくとも一人の対象人物から対象人物を類似人物として選択するように構成される選択ユニットと、
前記類似人物の名称を前記端末に送信するように構成される名称送信ユニットと、をさらに含む請求項８に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が格納されており、前記命令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１〜７のいずれか１項に記載の方法を実行させる、電子機器。
コンピュータ命令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ命令は前記コンピュータに請求項１〜７のいずれか１項に記載の方法を実行させるために用いられることを特徴とする非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１〜７のいずれか１項に記載の方法を実現する、コンピュータプログラム。