JP2021144221A - 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2021144221A
JP2021144221A JP2021043324A JP2021043324A JP2021144221A JP 2021144221 A JP2021144221 A JP 2021144221A JP 2021043324 A JP2021043324 A JP 2021043324A JP 2021043324 A JP2021043324 A JP 2021043324A JP 2021144221 A JP2021144221 A JP 2021144221A
Authority
JP
Japan
Prior art keywords
voice
information
matching
classification information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021043324A
Other languages
English (en)
Other versions
JP7230085B2 (ja
Inventor
ズージェ タン,
Zijie Tang
ズージェ タン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021144221A publication Critical patent/JP2021144221A/ja
Application granted granted Critical
Publication of JP7230085B2 publication Critical patent/JP7230085B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

【課題】ユーザ音声の音声分類情報及びマッチング関係情報に基づいて、ターゲットマッチング音声分類情報を確定する効率を向上させる方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。【解決手段】音声を処理するための方法は、ユーザが端末を介して送信したユーザ音声を受信することと、ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得ることと、上記音声分類情報及び予め設定されたマッチング関係情報に基づき、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することと、を含む。上記マッチング関係情報は、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すために用いられる。【選択図】図1

Description

本出願は、コンピュータ技術分野に関し、特に音声技術分野に関する。
インターネット技術の発展に伴い、人々の間の社交行動は、必ずしもオフライン対面式社交に限定されない。徐々にネットワークを介して文字、ピクチャ、音声、映像等の多種のインタラクション形式の社交を行うようになる。そのうち、音声は非常に良好な情緒表現ツールとし、社交に天然の情緒優位性を有する。画像、文字等のキャリアに比べ、音がより温かさを感じるものである。異なる語気、イントネーション、話速などが付与された音はより感情を直接表現しやすい。現在の段階では、インターネットに大量の音声ファンが出現し、「声優ファン」とも呼ばれる。彼らは一般的に素敵な音声に対して特別な感情を有するが、異なる音声ファンは異なるカテゴリの音声に対して異なる好みを有し、異なる音声は彼らの心の中で異なる魅力指数を有する。音声は出力効率の低い情報伝送媒体であるため、音声嗜好者が自分の好みの音声をネットワーク上で探し出そうとすることは非常に困難である。したがって、どのように「声優ファン」の人々に迅速且つ効率的にお気に入りの音をマッチングするかは、価値のあることである。
本出願は、音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
本出願の第1態様によれば、音声を処理するための方法であって、ユーザが端末を介して送信したユーザ音声を受信することと、上記ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得ることと、上記音声分類情報と、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための予め設定されたマッチング関係情報とに基づいて、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することと、を含む、音声を処理するための方法を提供する。
本出願の第2態様によれば、音声を処理するための装置であって、ユーザが端末を介して送信したユーザ音声を受信するように構成される受信ユニットと、上記ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得るように構成される分類ユニットと、上記音声分類情報と、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための予め設定されたマッチング関係情報と、に基づいて、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定するように構成される確定ユニットと、を含む、音声を処理するための装置を提供する。
本出願の第3態様によれば、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、上記メモリには、上記少なくとも1つのプロセッサによって実行可能な命令が格納されており、上記命令が上記少なくとも1つのプロセッサによって実行されると、上記少なくとも1つのプロセッサに第1態様のいずれか1項に記載の方法を実行させる、電子機器を提供する。
本開示の第4態様によれば、コンピュータ命令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ命令はコンピュータに第1態様のいずれか1項に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
本開示の第5態様によれば、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、第1態様のいずれか1項に記載の方法を実現する、コンピュータプログラムを提供する。
本出願の技術に基づいてユーザ音声の音声分類情報及びマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定し、それによりターゲットマッチング音声分類情報を確定する効率を向上させる。
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴又は重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されるであろう。
図面は本出願をよりよく理解するために用いられ、本出願に対する限定を構成しない。ここで:
本出願に係る音声を処理するための方法の一実施例を示すフローチャートである。 本出願に係る音声を処理するための方法の一応用シーンを示す概略図である。 本出願に係る音声を処理するための方法のもう一つの実施例を示すフローチャートである。 本出願に係る音声を処理するための装置の一実施例を示す構造概略図である。 本出願の実施例に係る音声を処理するための方法を実現するための電子機器のブロック図である。
以下は図面を参照して本出願の例示的な実施例を説明し、ここでは理解を容易にするため、本出願の実施例の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施例に対して様々な変更や修正を行うことができることは自明である。なお、以下の説明では、明確化及び簡略化のため、公知の機能及び構成については説明を省略する。
なお、本出願の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面及び実施例を参照しながら本発明を詳細に説明する。
本出願に係る音声を処理するための方法の一実施例のフロー100を示す図1を参照する。この音声を処理するための方法は、次のステップ(S101〜S103)を含む。
S101:ユーザが端末を介して送信したユーザ音声を受信する。
本実施例において、音声を処理するための方法の実行主体(例えばサーバ)は有線接続方式又は無線接続方式によりユーザが使用する端末からユーザの音声を受信することができる。ここで、ユーザ音声は、ユーザが発したオーディオの一部であってもよい。例えば、ユーザ音声はユーザが勝手に話す又は勝手に歌う音声の一部であってもよく、ユーザが予め設定されたテキストを読み上げる音声であってもよく、ユーザが予め設定された歌を歌う音声などであってもよい。
一般的に、ユーザは端末に設置された音声収集装置(例えば、マイクロフォン、マイクロホンアレイ等)を利用して音声を録音することができる。録音が完了した後、端末は録音されたユーザ音声をサーバに送信することができる。ここで、サーバは、各種のサービスを提供するサーバであってもよい。例えば、端末が送信したユーザ音声等のデータを解析等の処理を行い、処理結果に基づいて端末に情報をプッシュするサーバである。
S102:ユーザ音声を分類し、ユーザ音声の音声分類情報を得る。
本実施例において、実行主体はS101で受信したユーザ音声を分類してユーザ音声の音声分類情報を取得することができる。ここで、音声分類情報は、性別および音声カテゴリを含むことができる。そのうち、性別は男性及び女性を含むことができる。音声カテゴリは音色の分類であってもよく、例えば、ショタ音、青年音、おじさん音、ロリ音、少女音、御姉音などを含むことができる。そのうち、ショタ音は小さい男の子の音声であってもよく、青年音は青少年の音声であってもよく、おじさん音は30歳代前後の男性の音声であってもよく、ロリ音は小さい女の子の音声であってもよく、少女音は妙齢少女の音声であってもよく、御姉音は30歳代前後の女性の音声であってもよい。
実際に、実行主体は様々な方法で解析してユーザ音声の音声分類情報を得ることができる。一例として、実行主体は、ユーザ音声の性別を様々な方法で確定することができ、例えば、ユーザ音声の性別は、ユーザ音声入力を機械学習アルゴリズムに基づいてトレーニングして音声性別分類モデルを得ることによって得ることができる。ここで、音声性別分類モデルは大量のトレーニングデータに基づいてトレーニングされ、入力された音声に基づいて該音声に対応する話者の性別を予測するために用いられるものであってもよい。実行主体はまた、様々な方法を採用し、ユーザ音声に基づいてユーザの年齢を識別し、ユーザの年齢に基づいて音声カテゴリを確定することができる。その後、実行主体は、ユーザ音声の性別および音声カテゴリをユーザ音声の音声分類情報とすることができる。
なお、分類の正確性を保証するために、ユーザ音声を分類する前に、さらにユーザ音声に対して、例えば、ノイズ低減、空白除去等の前処理を行うこともできる。
本実施例のいくつかの選択的な実現形態において、S102は具体的にユーザ音声を予め確立された音声分類モデルに入力し、ユーザ音声の音声分類情報を得るように行うことができる。
本実施形態において、実行主体の内部に予め確立された音声分類モデルを記憶することができる。ここで、音声分類モデルは、音声情報と音声分類情報との対応関係を表すために用いることができる。音声分類モデルは、入力された音声情報に基づいて、音声分類情報を出力することができる。一例として、音声分類モデルは、機械学習アルゴリズムに基づいてトレーニングされた分類モデルであってもよい。これにより、実行主体は、ステップS101で受信したユーザ音声を音声分類モデルに入力し、音声分類モデルが出力する音声分類情報をユーザ音声の音声分類情報とすることができる。
例えば、上述した音声分類モデルをトレーニングする実行主体は、上述した音声を処理するための方法の実行主体と同じであってもよいし、異なっていてもよい。上記音声分類モデルは以下の方式でトレーニングされ得る。
先ず、トレーニングサンプルセットを取得する。そのうち、トレーニングサンプルセットにおけるトレーニングサンプルはサンプル音声及びサンプル音声に対応するサンプル音声分類情報を含むことができる。
その後、トレーニングサンプルセットにおけるトレーニングサンプルのサンプル音声を入力とし、入力されたサンプル音声に対応するサンプル音声分類情報を所望の出力として、音声分類モデルをトレーニングして得る。
理解されるように、音声分類モデルの分類精度を向上させるために、音声分類モデルの使用段階において、以下のモデル更新ステップを実行することができる:1)音声分類モデルにより入力音声に対して出力された音声分類情報を表示する;2)技術者が表示された音声分類情報に対して入力した補正情報を受信する;3)入力音声及び補正情報を用いてトレーニングサンプルを構成し、該トレーニングサンプルを用いて音声分類モデルをさらにトレーニングする。
本実現形態により、実行主体は予めトレーニングされた音声分類モデルに基づいて、ユーザ音声の音声分類情報を得ることができる。音声分類モデルは大量のトレーニングサンプルに基づいてトレーニングして得られるため、得られた音声分類情報をより正確にすることができる。
S103:音声分類情報及び予め設定されたマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定する。
本実施例において、実行主体の内部に事前設定されたマッチング関係情報を予め記憶することができる。そのうち、上記マッチング関係情報は音声分類情報とマッチング音声分類情報との間のマッチング関係を表すために用いることができる。一例として、上記マッチング関係情報は音声分類情報及びマッチング音声分類情報、並びに音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含み得る。そのうち、あるマッチング関係情報におけるマッチング音声分類情報は該マッチング関係情報における音声分類情報とマッチングする音声分類情報であってもよい。例えば、あるマッチング関係情報における音声分類情報は「男、青年音」を例とし、該音声分類情報とマッチングするマッチング音声分類情報は、例えば、「女、少女音」、「女、ロリ音」、「女、御姉音」、「男、青年音」、「男、ショタ音」、「男、おじさん音」等、様々な音声分類情報を含むことができる。ここで、ある音声分類情報に対応する音声とは、分類された音声分類情報と該音声分類情報と同じ音声を指すことができる。音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度は、音声分類情報とマッチング音声分類情報に対応する音声とマッチングする度合いを示すことができる。一例として、マッチング度は数値の形態であってもよい。一般に、2つの音声のマッチング度が高いほど、音声分類情報に対応する話者がマッチング音声分類情報に対応する音声を好む可能性が高いことを示す。一例として、マッチング関係情報におけるマッチング度は、例えば、多数の音声分類情報に対応する音声の話者間の対話行為の統計に基づいて技術者によって確定され得る。
このように、実行主体はステップS102で得られた音声分類情報及びマッチング関係情報に基づいて、ステップS102で得られた音声分類情報とマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することができる。例えば、実行主体は、ステップS102で取得された音声分類情報に対応する音声との間のマッチング度が予め設定された条件(例えば、所定閾値を超えること)を満たすマッチング音声分類情報をターゲットマッチング音声分類情報として確定することができる。
本実施例のいくつかの選択的な実現形態では、上記音声を処理するための方法はさらに図1に示されない以下のステップを含むことができる:上記ターゲットマッチング音声分類情報に基づいて、上記端末にインストールされたプリセットクライアントが再生する音声の音色を確定する。
本実現形態において、実行主体は確定されたターゲットマッチング音声分類情報に基づいて、ユーザが使用する端末にインストールされたプリセットクライアントによって再生される音声の音色を確定することができる。例えば、ユーザが使用する端末に、例えば、音声アシスタント、音声秘書等の音声関連の様々なクライアントをインストールすることができ、これらのクライアントは音声を再生することができる。実行主体は、ターゲットマッチング音声分類情報に基づいて、端末にインストールされたこれらのクライアントによる再生音声の音色を調整することができる。本実現形態により、ターゲットマッチング音声分類情報に基づいてユーザが使用する端末にインストールされた予め設定されたクライアントが再生する音声の音色を確定することができ、それによりクライアントが再生する音声の音色がユーザのニーズを満たし、個人化された音声再生が実現される。
本実施例のいくつかの選択的な実現形態では、上記音声を処理するための方法はさらに図1に示されない以下のステップを含むことができる:
まず、音声分類情報及びマッチング関係情報に基づいて、音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報として確定する。
本実現形態において、実行主体はステップS102で確定された音声分類情報及びマッチング関係情報に基づいて、音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報として確定することができる。例えば、実行主体は、マッチング関係情報のうち、ステップS102で確定された音声分類情報とのマッチング度が最も高いマッチング音声分類情報を、表示対象マッチング音声分類情報とすることができる。
次に、端末がユーザに表示することに供するために、表示対象マッチング音声分類情報を端末に送信する。
本実現形態において、実行主体は、端末がユーザに表示することに供するために、表示対象マッチング音声分類情報を端末に送信することができる。例として、表示対象マッチング音声分類情報を送信する場合、さらに例えば、最適なCP(Coupling 、ペアリング)、最適な組み合わせ等、予め設定された用語を組み合わせることができ、表示対象マッチング音声分類情報が「女、少女音」であることを例とし、実行主体は端末に情報「最適なCP:少女音」を送信することができる。なお、実行主体は端末に表示対象マッチング音声分類情報を送信する以外に、さらに予め設定された用語(例えば、メイン音色、あなたの音色等)を組み合わせて端末にステップS102で確定された音声分類情報を送信することができ、ステップS102で確定された音声分類情報は「男、青年音」を例とし、実行主体は端末に情報「あなたの音色は青年音」を送信することができる。本実現形態により、実行主体は端末に表示対象マッチング音声分類情報を送信することができ、それによりユーザが閲覧することに供するために、予め設定された条件を満たす表示対象マッチング音声分類情報を端末に表示することができる。
本実施例のいくつかの選択的な実現形態では、上記音声を処理するための方法はさらに図1に示されない以下のステップを含むことができる:
まず、ユーザ音声と、予め設定された対象人物音声セットにおける対象人物音声と、の類似度を確定する。
本実現形態において、実行主体内部に対象人物音声セットが予め記憶されてもよく、そのうち、対象人物音声セットに少なくとも一人の対象人物の音声が含まれてもよい。ここで、対象人物は予め設定された人物であってもよく、例えば、対象人物は芸能スターであってもよい。これにより、実行主体は、ステップS101で受信したユーザ音声と、対象人物音声セット内の各対象人物音声との類似度を算出することができる。一例として、実行主体は、まずユーザ音声及び各対象人物音声の音声特徴をそれぞれ抽出し、次にユーザ音声の音声特徴と各対象人物音声の音声特徴との類似度を算出し、それによりユーザ音声と各対象人物音声との類似度を得ることができる。
次に、類似度に基づいて、少なくとも一人の対象人物から対象人物を類似人物として選択する。
本実現形態において、実行主体は、ユーザ音声と各対象人物音声との類似度に基づいて、少なくとも一人の対象人物から一人又は複数の対象人物を選択して類似人物とすることができる。例えば、実行主体は算出された複数の類似度を大きい順にソートし、且つ前の所定位(例えば、第1位)にランク付けされた類似度に対応する対象人物音声に対応する対象人物を類似人物とすることができる。ここで、ある類似度に対応する対象人物音声とは、その類似度を算出する際に用いられる対象人物音声であってもよい。
最後に、類似人物の名称を端末に送信する。
本実現形態において、実行主体は、端末がユーザに表示することに供するために、選択された類似人物の名称を端末に送信することができる。類似人物の名称が「張三」であることを例とし、端末は情報「類似人物が張三である」と表示することができる。本実現形態により、実行主体は、端末にユーザ音声に類似する対象人物音声に対応する対象人物の名称をプッシュすることができ、端末はユーザにその音声に類似する対象人物の名称を提示する。
次に、本実施例に係る音声を処理するための方法の応用シーンを示す概略図である図2を参照する。図2の応用シーンにおいて、端末201はユーザが送信した音声を受信した後、ユーザ音声をサーバ202に送信することができる。その後、サーバ202は受信したユーザ音声を分類し、ユーザ音声の音声分類情報「男、青年音」を得ることができる。次に、サーバ202は音声分類情報「男、青年音」及び予め設定されたマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定する。
本出願の上記実施例の提供する方法は、ユーザ音声の音声分類情報及びマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定し、それによりターゲットマッチング音声分類情報を確定する効率を向上させる。
更に、音声を処理するための方法のもう一つの実施例のフロー300を示す図3を参照する。この音声を処理するための方法のフロー300は、次のステップ(S301〜S307)を含む。
S301:ユーザが端末を介して送信したユーザ音声を受信する。
本実施例では、ステップS301は図1に示す実施例のステップS101と同様であり、ここではその説明を省略する。
S302:ユーザ音声を分類し、ユーザ音声の音声分類情報を得る。
本実施例では、ステップS302は図1に示す実施例のステップS102と同様であり、ここではその説明を省略する。
S303:音声分類情報及び予め設定されたマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定する。
本実施例では、ステップS303は図1に示す実施例のステップS103と同様であり、ここではその説明を省略する。
S304:ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定する。
本実施例において、実行主体の内部に音声情報セットを予め記憶することができる。これにより、実行主体は、ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定することができる。ここで、音声情報セット内の音声情報には、音声分類情報がマークされている。一例として、音声情報セットにおける音声分類情報がターゲットマッチング音声分類情報と同じ音声情報をターゲット音声情報として選択することができる。他の例として、ステップS302で確定された音声分類情報とマッチング音声分類情報に対応する音声とのマッチング度に基づいて、音声情報セットから複数の音声情報をターゲット音声情報として確定してもよい。例えば、マッチング度に基づいて、割合に応じて音声情報セットから異なる音声分類情報に対応する音声を選択し、例えば、マッチング度が高いほど選択された割合が高い。
S305:ターゲット音声情報を端末にプッシュする。
本実施例において、実行主体は、端末を使用するユーザが再生することに供するために、ステップS304で確定されたターゲット音声情報を端末にプッシュすることができる。
S306:端末から送信された、ユーザのプッシュされた音声情報に対する操作情報を受信する。
本実施例において、実行主体は、端末から送信された、ユーザのプッシュされた音声情報に対する操作情報を受信することができる。ここで、ユーザのプッシュされた音声情報に対する操作は、賛成、お気に入り、フル再生、複数回再生、音声情報の話者とのインタラクション等を含むことができる。
S307:操作情報に基づいて、マッチング関係情報におけるマッチング度を調整する。
本実施例において、実行主体は、ステップS306で受信した操作情報に基づいて、マッチング関係情報におけるマッチング度を調整し、上記ユーザに対するマッチング関係情報を得ることができる。一般的に、ユーザはある音声情報に対して賛成、お気に入り、フル再生、複数回再生等の操作を実行すれば、該音声情報はユーザのニーズに合致することを示す。このとき、マッチング関係情報における、ユーザ音声の音声分類情報と該音声情報の音声分類情報との間のマッチング度を予め設定された値だけ高くすることができる。ユーザはある音声情報に対して検索後の未再生、再生途中のシャットダウン等の操作を実行すると、該音声情報はユーザのニーズに合致しないことを示す。このとき、マッチング関係情報における、ユーザ音声の音声分類情報と該音声情報の音声分類情報との間のマッチング度を予め設定された値だけ低くすることができる。例として、実行主体は、さらにプッシュされた各音声分類情報に対応する音声情報のフル再生率を統計することができ、且つフル再生率に基づいてユーザ音声の音声分類情報と該音声分類情報との間のマッチング度を調整することができる。例えば、フル再生率が高いほど調整値が高くなる。
図3から分かるように、図1に対応する実施例に比べ、本実施例における音声を処理するための方法のフロー300は、端末にターゲット音声情報をプッシュし、及びユーザがプッシュされた音声情報に対する操作情報に基づいてマッチング関係情報におけるマッチング度を調整するステップを強調する。それにより、本実施例に記載の解決手段は、ユーザの行為に基づいてマッチング関係情報におけるマッチング度を調整することができ、それによりマッチング関係情報をよりユーザの嗜好に合致させ、さらに後続にプッシュされる情報はよりユーザのニーズを満たすことができる。
更に図4を参照すると、上記の図に示された方法の実施態様として、本出願は、音声を処理するための装置の一実施例を提供し、該装置の実施例は、図1に示された方法の実施例に対応しており、該装置は、具体的に様々な電子機器に適用することができる。
図4に示すように、本実施例にかかる音声を処理するための装置400は、受信ユニット401と、分類ユニット402と、確定ユニット403と、を備える。受信ユニット401は、ユーザが端末を介して送信したユーザ音声を受信するように構成される。分類ユニット402は上記ユーザ音声を分類し、上記ユーザ音声の音声分類情報を得るように構成される。確定ユニット403は、上記音声分類情報と、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための予め設定されたマッチング関係情報と、に基づいて、上記音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定するように構成される。
本実施例において、音声を処理するための装置400の受信ユニット401、分類ユニット402及び確定ユニット403の具体的な処理及びそれらの技術効果は、それぞれ図1の対応する実施例におけるS101、S102、及びS103の関連する説明を参照することができ、ここではその説明を省略する。
本実施例のいくつかの選択的な実現形態では、上記装置400は、上記ターゲットマッチング音声分類情報に基づいて、上記端末にインストールされたプリセットクライアントが再生する音声の音色を確定するように構成される音色確定ユニット(図示せず)をさらに備える。
本実施例のいくつかの選択的な実現形態では、上記装置400は、上記ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定するように構成される情報確定ユニット(図示せず)と、前記ターゲット音声情報を上記端末にプッシュするように構成されるプッシュユニット(図示せず)をさらに備える。
本実施例のいくつかの選択的な実現形態において、上記マッチング関係情報は音声分類情報とマッチング音声分類情報、及び音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含む。上記装置400は、上記端末から送信された上記ユーザがプッシュされた音声情報に対する操作情報を受信するように構成される情報受信ユニット(図示せず)と、上記操作情報に基づいて、上記マッチング関係情報におけるマッチング度を調整するように構成される調整ユニット(図示せず)をさらに備える。
本実施例のいくつかの選択的な実現形態において、上記分類ユニット402はさらに、予め作成された、音声情報と音声分類情報との間の対応関係を表すための音声分類モデルに上記ユーザ音声を入力して、上記ユーザ音声の音声分類情報を取得するように構成される。
本実施例のいくつかの選択的な実現形態では、上記装置400は、上記音声分類情報及び上記マッチング関係情報に基づいて、上記音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報として確定するように構成される情報確定ユニット(図示せず)と、上記端末が上記ユーザに表示することに供するために、上記表示対象マッチング音声分類情報を上記端末に送信するように構成される情報プッシュユニット(図示せず)と、をさらに備える。
本実施例のいくつかの選択的な実現形態において、上記装置400は、上記ユーザ音声と予め設定された対象人物音声セットにおける対象人物音声との類似度を確定するように構成される類似度確定ユニットであって、上記対象人物音声セットは少なくとも一人の対象人物の音声を含む、類似度確定ユニット(図示せず)と、上記類似度に基づいて、上記少なくとも一人の対象人物から対象人物を選択して類似人物とするように構成される選択ユニット(図示せず)と、上記端末に上記類似人物の名称を送信するように構成される名称送信ユニット(図示せず)と、をさらに備える。
本出願の実施例によれば、本出願はさらに電子機器及び可読記憶媒体を提供する。
図5に示すように、本出願の実施例に係る音声を処理するための方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、大型コンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで説明および/または要求した本出願の実現を限定することを意図するものではない。
図5に示すように、該電子機器は、1つ又は複数のプロセッサ501、メモリ502、及び各コンポーネントを接続するためのインタフェース(高速インタフェース及び低速インタフェースを含む)を含む。各コンポーネントは、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは電子機器内で実行される命令を処理することができ、インターフェースに結合された表示装置等の外部入出力装置に、グラフィカルユーザインタフェース(GUI,Graphical User Interface)のグラフィック情報を表示するために命令をメモリ内またはメモリ上に格納することを含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスおよび複数のメモリを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図5では、1つのプロセッサ501を例としている。
メモリ502は、本出願が提供する非一時的コンピュータ可読記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサが実行可能な命令を格納しており、それにより前記少なくとも1つのプロセッサに本出願が提供する音声を処理するための方法を実行させる。本出願の非一時的コンピュータ可読記憶媒体はコンピュータ命令を格納し、該コンピュータ命令はコンピュータに本出願が提供する音声を処理するための方法を実行させるために用いられる。
メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを格納することに用いることができ、例えば本出願の実施例における音声を処理するための方法に対応するプログラム命令/モジュール(例えば、図4に示す受信ユニット401、分類ユニット402及び確定ユニット403)が挙げられる。プロセッサ501は、メモリ502に格納された非一時的ソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各種機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声を処理するための方法を実現する。
メモリ502はオペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶できるプログラム記憶領域と、音声を処理するための電子機器の使用に応じて作成されるデータ等を記憶できるデータ記憶領域とを含み得る。また、メモリ502は高速ランダムアクセスメモリを含むことができ、また非一時的メモリ(例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリデバイス又はその他の非一時的ソリッドステート記憶装置)を含むことができる。いくつかの実施例において、メモリ502は任意選択でプロセッサ501に対して遠隔に設置されたメモリを含み、これらの遠隔に設置されたメモリはネットワークを介して音声を処理するための電子機器に接続することができる。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網及びこれらの組み合わせなどが挙げられるが、それらに限定されない。
音声を処理するための電子機器はさらに、入力装置503及び出力装置504を含み得る。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又はその他の方式で接続されていてもよく、図5ではバスで接続されている例を示している。
例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、1つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置503は、入力された数字や文字情報を受信でき、音声を処理するための電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置504は表示装置、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)等を含むことができる。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。
ここで説明するシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit,ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実装され、該1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び/又は解釈することができ、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及び命令を受信することができ、且つデータ及び命令を該記憶システム、該少なくとも1つの入力装置及び該少なくとも1つの出力装置に伝送することを含み得る。
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ言語/機械語を利用して実現することができる。ここで、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械指令及び/又はデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム製品、装置、及び/又はデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号である機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実現することができ、ユーザが該キーボード及び該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力又は、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェース又はウェブブラウザを介してここで説明したシステム及び技術の実施形態とインタラクションしてもよく、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各構成要素間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係は、互いにクライアント−サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。
本出願実施例の技術的手段に基づいて、ユーザ音声の音声分類情報及びマッチング関係情報に基づいて、音声分類情報にマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定し、それによりターゲットマッチング音声分類情報を確定する効率を向上させる。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番に実行されてもよいし、異なる順序で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、部分的組合せ、および置換を行うことができることを当業者は理解すべきである。本出願の精神および原理内で行われたあらゆる補正、同等置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (17)

  1. ユーザにより端末を介して送信されたユーザ音声を受信することと、
    前記ユーザ音声を分類し、前記ユーザ音声の音声分類情報を得ることと、
    前記音声分類情報と、予め設定された、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための、マッチング関係情報とに基づいて、前記音声分類情報とマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定することと、を含む、音声を処理するための方法。
  2. 前記方法は、
    前記ターゲットマッチング音声分類情報に基づいて、前記端末にインストールされたプリセットクライアントによって再生される音声の音色を確定することをさらに含む請求項1に記載の方法。
  3. 前記方法は、
    前記ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定することと、
    前記ターゲット音声情報を前記端末にプッシュすることと、をさらに含む請求項1に記載の方法。
  4. 前記マッチング関係情報は、音声分類情報及びマッチング音声分類情報、並びに音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含み、
    前記方法は、
    前記端末から送信された、前記ユーザのプッシュされた音声情報に対する操作情報を受信することと、
    前記操作情報に基づいて、前記マッチング関係情報におけるマッチング度を調整することと、をさらに含む請求項3に記載の方法。
  5. 前記ユーザ音声を分類し、前記ユーザ音声の音声分類情報を得ることは、
    前記ユーザ音声を、予め作成された、音声情報と音声分類情報との間の対応関係を表すための音声分類モデルに入力して、前記ユーザ音声の音声分類情報を取得することを含む請求項1に記載の方法。
  6. 前記方法は、
    前記音声分類情報及び前記マッチング関係情報に基づいて、前記音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報とすることと、
    前記端末が前記ユーザに表示することに供するために、前記表示対象マッチング音声分類情報を前記端末に送信することと、をさらに含む請求項1に記載の方法。
  7. 前記方法は、
    前記ユーザ音声と予め設定された対象人物音声セットにおける対象人物音声との類似度を確定することであって、前記対象人物音声セットは、少なくとも一人の対象人物の音声を含む、ことと、
    前記類似度に基づいて、前記少なくとも一人の対象人物から対象人物を類似人物として選択することと、
    前記類似人物の名称を前記端末に送信することと、をさらに含む請求項1に記載の方法。
  8. ユーザにより端末を介して送信されたユーザ音声を受信するように構成される受信ユニットと、
    前記ユーザ音声を分類し、前記ユーザ音声の音声分類情報を得るように構成される分類ユニットと、
    前記音声分類情報と、予め設定された、音声分類情報とマッチング音声分類情報との間のマッチング関係を表すための、マッチング関係情報とに基づいて、前記音声分類情報とマッチングするマッチング音声分類情報をターゲットマッチング音声分類情報として確定するように構成される確定ユニットと、を含む、音声を処理するための装置。
  9. 前記装置は、
    前記ターゲットマッチング音声分類情報に基づいて、前記端末にインストールされたプリセットクライアントによって再生される音声の音色を確定するように構成される音色確定ユニットをさらに含む請求項8に記載の装置。
  10. 前記装置は、
    前記ターゲットマッチング音声分類情報に基づいて、予め設定された音声情報セットから少なくとも一つの音声情報をターゲット音声情報として確定するように構成される情報確定ユニットと、
    前記ターゲット音声情報を前記端末にプッシュするように構成されるプッシュユニットと、をさらに含む請求項8に記載の装置。
  11. 前記マッチング関係情報は、音声分類情報及びマッチング音声分類情報、並びに音声分類情報とマッチング音声分類情報に対応する音声との間のマッチング度を含み、
    前記装置は、
    前記端末から送信された、前記ユーザのプッシュされた音声情報に対する操作情報を受信するように構成される情報受信ユニットと、
    前記操作情報に基づいて、前記マッチング関係情報におけるマッチング度を調整するように構成される調整ユニットと、をさらに含む請求項10に記載の装置。
  12. 前記分類ユニットは、更に
    前記ユーザ音声を、予め作成された、音声情報と音声分類情報との間の対応関係を表すための音声分類モデルに入力して、前記ユーザ音声の音声分類情報を取得するように構成される請求項8に記載の装置。
  13. 前記装置は、
    前記音声分類情報及び前記マッチング関係情報に基づいて、前記音声分類情報とのマッチング度が予め設定された条件を満たすマッチング音声分類情報を表示対象マッチング音声分類情報とするように構成される情報確定ユニットと、
    前記端末が前記ユーザに表示することに供するために、前記表示対象マッチング音声分類情報を前記端末に送信するように構成される情報プッシュユニットと、をさらに含む請求項8に記載の装置。
  14. 前記装置は、
    前記ユーザ音声と予め設定された対象人物音声セットにおける対象人物音声との類似度を確定するように構成される類似度確定ユニットであって、前記対象人物音声セットは、少なくとも一人の対象人物の音声を含む、類似度確定ユニットと、
    前記類似度に基づいて、前記少なくとも一人の対象人物から対象人物を類似人物として選択するように構成される選択ユニットと、
    前記類似人物の名称を前記端末に送信するように構成される名称送信ユニットと、をさらに含む請求項8に記載の装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が格納されており、前記命令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1〜7のいずれか1項に記載の方法を実行させる、電子機器。
  16. コンピュータ命令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ命令は前記コンピュータに請求項1〜7のいずれか1項に記載の方法を実行させるために用いられることを特徴とする非一時的コンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1〜7のいずれか1項に記載の方法を実現する、コンピュータプログラム。
JP2021043324A 2020-08-05 2021-03-17 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7230085B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010779755.1 2020-08-05
CN202010779755.1A CN111916065A (zh) 2020-08-05 2020-08-05 用于处理语音的方法和装置

Publications (2)

Publication Number Publication Date
JP2021144221A true JP2021144221A (ja) 2021-09-24
JP7230085B2 JP7230085B2 (ja) 2023-02-28

Family

ID=73287197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021043324A Active JP7230085B2 (ja) 2020-08-05 2021-03-17 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210217437A1 (ja)
EP (1) EP3846164B1 (ja)
JP (1) JP7230085B2 (ja)
KR (1) KR20210042277A (ja)
CN (1) CN111916065A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JP2009210790A (ja) * 2008-03-04 2009-09-17 Nec Software Kyushu Ltd 選曲歌手分析推薦装置、その方法及びプログラム
JP2014002383A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd 端末装置及び端末装置の制御方法
WO2015040751A1 (ja) * 2013-09-20 2015-03-26 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
WO2018235607A1 (ja) * 2017-06-20 2018-12-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US20200126566A1 (en) * 2018-10-17 2020-04-23 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for voice interaction

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778830B2 (en) * 2004-05-19 2010-08-17 International Business Machines Corporation Training speaker-dependent, phrase-based speech grammars using an unsupervised automated technique
CN102654859B (zh) * 2011-03-01 2014-04-23 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
US8732101B1 (en) * 2013-03-15 2014-05-20 Nara Logics, Inc. Apparatus and method for providing harmonized recommendations based on an integrated user profile
US9361942B2 (en) * 2011-12-22 2016-06-07 Apple Inc. Playlist configuration and preview
KR101289085B1 (ko) * 2012-12-12 2013-07-30 오드컨셉 주식회사 객체 기반 영상 검색시스템 및 검색방법
US9324318B1 (en) * 2014-10-14 2016-04-26 Nookster, Inc. Creation and application of audio avatars from human voices
CN104504059B (zh) * 2014-12-22 2018-03-27 合一网络技术(北京)有限公司 多媒体资源推荐方法
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US9336782B1 (en) * 2015-06-29 2016-05-10 Vocalid, Inc. Distributed collection and processing of voice bank data
US10091355B2 (en) * 2016-02-19 2018-10-02 International Business Machines Corporation Virtual voice response agent individually configured for a user
US10074359B2 (en) * 2016-11-01 2018-09-11 Google Llc Dynamic text-to-speech provisioning
CN106599110A (zh) * 2016-11-29 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能的语音搜索方法及装置
US9934785B1 (en) * 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN107809667A (zh) * 2017-10-26 2018-03-16 深圳创维-Rgb电子有限公司 电视机语音交互方法、语音交互控制装置及存储介质
CN108735211A (zh) * 2018-05-16 2018-11-02 智车优行科技(北京)有限公司 语音处理方法、装置、车辆、电子设备、程序及介质
CN108899033B (zh) * 2018-05-23 2021-09-10 出门问问信息科技有限公司 一种确定说话人特征的方法及装置
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108847214B (zh) * 2018-06-27 2021-03-26 北京微播视界科技有限公司 语音处理方法、客户端、装置、终端、服务器和存储介质
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
CN109582822A (zh) * 2018-10-19 2019-04-05 百度在线网络技术(北京)有限公司 一种基于用户语音的音乐推荐方法及装置
CN110164415A (zh) * 2019-04-29 2019-08-23 腾讯科技(深圳)有限公司 一种基于语音识别的推荐方法、装置及介质
CN110189754A (zh) * 2019-05-29 2019-08-30 腾讯科技(深圳)有限公司 语音交互方法、装置、电子设备及存储介质
CN111326136B (zh) * 2020-02-13 2022-10-14 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248971A (ja) * 1995-03-09 1996-09-27 Hitachi Ltd テキスト朗読読み上げ装置
JP2009210790A (ja) * 2008-03-04 2009-09-17 Nec Software Kyushu Ltd 選曲歌手分析推薦装置、その方法及びプログラム
JP2014002383A (ja) * 2012-06-15 2014-01-09 Samsung Electronics Co Ltd 端末装置及び端末装置の制御方法
WO2015040751A1 (ja) * 2013-09-20 2015-03-26 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
WO2018235607A1 (ja) * 2017-06-20 2018-12-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US20200126566A1 (en) * 2018-10-17 2020-04-23 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for voice interaction

Also Published As

Publication number Publication date
EP3846164A3 (en) 2021-08-11
US20210217437A1 (en) 2021-07-15
EP3846164B1 (en) 2023-01-04
JP7230085B2 (ja) 2023-02-28
KR20210042277A (ko) 2021-04-19
EP3846164A2 (en) 2021-07-07
CN111916065A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN108962217B (zh) 语音合成方法及相关设备
CN108806656B (zh) 歌曲的自动生成
WO2020177190A1 (zh) 一种处理方法、装置及设备
JP7283496B2 (ja) 情報処理方法、情報処理装置およびプログラム
KR20170026593A (ko) 소셜 대화형 입력들에 대한 컴퓨터 응답 생성
WO2019000991A1 (zh) 一种声纹识别方法及装置
US20210272569A1 (en) Voice feedback for user interface of media playback device
US20230118412A1 (en) Stylizing Text-to-Speech (TTS) Voice Response for Assistant Systems
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
JP2015517684A (ja) コンテンツのカスタマイズ
US11511200B2 (en) Game playing method and system based on a multimedia file
US11842721B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
US20200357390A1 (en) Apparatus for media entity pronunciation using deep learning
WO2019031268A1 (ja) 情報処理装置、及び情報処理方法
JP7140221B2 (ja) 情報処理方法、情報処理装置およびプログラム
Pauletto et al. Exploring expressivity and emotion with artificial voice and speech technologies
JP2022101663A (ja) ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112035699A (zh) 音乐合成方法、装置、设备和计算机可读介质
CA3105388A1 (en) Systems and methods for leveraging acoustic information of voice queries
JP6222465B2 (ja) アニメーション生成装置、アニメーション生成方法およびプログラム
JP2021144221A (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN112071287A (zh) 用于生成歌谱的方法、装置、电子设备和计算机可读介质
JPWO2019044534A1 (ja) 情報処理装置、及び情報処理方法
Lovely et al. Rule-based lip-syncing algorithm for virtual character in voice chatbot
US11935539B1 (en) Integrating voice controls into applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230215

R150 Certificate of patent or registration of utility model

Ref document number: 7230085

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150