JP7383140B2 - テキスト情報処理方法及び装置 - Google Patents
テキスト情報処理方法及び装置 Download PDFInfo
- Publication number
- JP7383140B2 JP7383140B2 JP2022523879A JP2022523879A JP7383140B2 JP 7383140 B2 JP7383140 B2 JP 7383140B2 JP 2022523879 A JP2022523879 A JP 2022523879A JP 2022523879 A JP2022523879 A JP 2022523879A JP 7383140 B2 JP7383140 B2 JP 7383140B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- semantic
- vector corresponding
- information
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 51
- 238000003672 processing method Methods 0.000 title claims description 33
- 239000013598 vector Substances 0.000 claims description 304
- 238000000034 method Methods 0.000 claims description 89
- 238000012545 processing Methods 0.000 claims description 43
- 239000002131 composite material Substances 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000033764 rhythmic process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、
前の時点で出力された第1のセマンティック情報を取得するステップであって、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、
第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含む。
第1のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、を含む。
第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するステップであって、第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含むステップを含む。
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定するステップと、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定するステップと、
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定するステップと、を含む。
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定するステップと、
第1のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定するステップと、を含む。
第2のプリセットモデルによって、第1のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するステップであって、第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含むステップを含む。
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定するステップと、
第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得るステップと、を含む。
テキスト情報の音素シーケンスを取得するステップであって、音素シーケンスが少なくとも1つの音素を含むステップと、
少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定するステップと、を含む。
プリセット音素リストで各音素に対応する識別子を検索するステップと、
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索するステップと、を含む。
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るステップを含む。
第1の取得モジュールは、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
第2の取得モジュールは、前の時点で出力された第1のセマンティック情報を取得することに用いられ、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
第1の決定モジュールは、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
第2の決定モジュールは、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられる。
第1のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含む。
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定すること、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定すること、及び
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定すること、
第1のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
第2のプリセットモデルによって、第1のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含む。
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定すること、及び
第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得ること、に用いられる。
少なくとも1つの音素を含む、テキスト情報の音素シーケンスを取得すること、及び
少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定すること、に用いられる。
プリセット音素リストで各音素に対応する識別子を検索すること、及び
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索すること、に用いられる。
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るために用いられる。
メモリにはコンピュータで実行可能な命令が記憶され、
少なくとも1つのプロセッサがメモリに記憶されたコンピュータで実行可能な命令を実行すると、少なくとも1つのプロセッサが上記した第1の態様のいずれか1項に示したテキスト情報処理方法を実行する。
第2のプリセットモデルによって、第1のセマンティック情報と、各音素に対応するセマンティックベクトルと音素ベクトルとの複合ベクトルとを処理し、セマンティックマッチング度合いを取得し、さらに、セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、現時点に対応するコンテキストベクトルを決定してもよい。
という条件を満たす必要がある。
である。
第1の取得モジュール11は、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
第2の取得モジュール12は、前の時点で出力された第1のセマンティック情報を取得するために用いられ、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
第1の決定モジュール13は、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
第2の決定モジュール14は、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられる。
第1のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含む。
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定すること、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定すること、及び
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定すること、
第1のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
第2のプリセットモデルによって、第1のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含む。
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定すること、及び
第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得ること、に用いられる。
少なくとも1つの音素を含む、テキスト情報の音素シーケンスを取得すること、及び
少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定すること、に用いられる。
プリセット音素リストで各音素に対応する識別子を検索すること、及び
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索すること、に用いられる。
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るために用いられる。
Claims (12)
- スマートデバイスによって実行されるテキスト情報処理方法であって、
テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、
前の時点で出力された第1のセマンティック情報を取得するステップであって、前記第1のセマンティック情報が前記テキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、前記一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、
前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、
前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含み、
前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップと、
前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含む、
ことを特徴とするスマートデバイスによって実行されるテキスト情報処理方法。 - 前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップは、
前記第1のセマンティック情報と前記各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
前記セマンティックマッチング度合い、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記第1のセマンティック情報と前記各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップは、
第1のプリセットモデルによって、前記第1のセマンティック情報と前記各音素に対応するセマンティックベクトルとを処理し、前記セマンティックマッチング度合いを取得するステップであって、前記第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含むステップを含むことを特徴とする請求項2に記載の方法。 - 前記セマンティックマッチング度合い、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
前記セマンティックマッチング度合いと前記各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定するステップと、
前記セマンティックマッチング度合いと前記各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定するステップと、
前記セマンティックコンテキストベクトルと前記音素コンテキストベクトルとに対して組み合わせ処理を行い、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項3に記載の方法。 - 前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップは、
前記各音素に対応する音素ベクトルと前記各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定するステップと、
前記第1のセマンティック情報と前記各音素に対応する複合ベクトルとに基づき、前記セマンティックマッチング度合いを決定するステップと、
前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
前記セマンティックマッチング度合いと前記各音素に対応する複合ベクトルとに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記第1のセマンティック情報と前記各音素に対応する複合ベクトルとに基づき、前記セマンティックマッチング度合いを決定するステップは、
第2のプリセットモデルによって、前記第1のセマンティック情報と前記各音素に対応する複合ベクトルとを処理し、前記セマンティックマッチング度合いを取得するステップであって、前記第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含むステップを含むことを特徴とする請求項5に記載の方法。 - 前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップは、
前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、前記現時点に対応する第2のセマンティック情報を決定するステップと、
前記第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、前記現時点での音声情報を得るステップと、を含むことを特徴とする請求項4又は6に記載の方法。 - テキスト情報処理装置であって、第1の取得モジュール、第2の取得モジュール、第1の決定モジュール及び第2の決定モジュールを含み、
前記第1の取得モジュールは、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
前記第2の取得モジュールは、前の時点で出力された第1のセマンティック情報を取得するために用いられ、前記第1のセマンティック情報が前記テキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、前記一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
前記第1の決定モジュールは、前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
前記第2の決定モジュールは、前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられ、
前記第1の取得モジュールは、前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定して、前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するために用いられることを特徴とするテキスト情報処理装置。 - 少なくとも1つのプロセッサとメモリとを含むテキスト情報処理装置であって、
前記メモリにはコンピュータで実行可能な命令が記憶され、
前記少なくとも1つのプロセッサが前記メモリに記憶されたコンピュータで実行可能な命令を実行すると、前記少なくとも1つのプロセッサが請求項1~7のいずれか1項に記載のテキスト情報処理方法を実行することを特徴とするテキスト情報処理装置。 - コンピュータ可読記憶媒体であって、コンピュータに請求項1~7のいずれか1項に記載のテキスト情報処理方法を実行させるためのプログラムを記録したことを特徴とするコンピュータ可読記憶媒体。
- コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項1~7のいずれか1項に記載のテキスト情報処理方法が実施されることを特徴とするコンピュータプログラム。
- メモリとプロセッサとを含むチップであって、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行すると、請求項1~7のいずれか1項に記載のテキスト情報処理方法が実行されることを特徴とするチップ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010172575.7A CN111785248B (zh) | 2020-03-12 | 2020-03-12 | 文本信息处理方法及装置 |
CN202010172575.7 | 2020-03-12 | ||
PCT/CN2021/072016 WO2021179791A1 (zh) | 2020-03-12 | 2021-01-15 | 文本信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022554149A JP2022554149A (ja) | 2022-12-28 |
JP7383140B2 true JP7383140B2 (ja) | 2023-11-17 |
Family
ID=72753264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022523879A Active JP7383140B2 (ja) | 2020-03-12 | 2021-01-15 | テキスト情報処理方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220406290A1 (ja) |
EP (1) | EP4044174A4 (ja) |
JP (1) | JP7383140B2 (ja) |
CN (1) | CN111785248B (ja) |
WO (1) | WO2021179791A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785248B (zh) * | 2020-03-12 | 2023-06-23 | 北京汇钧科技有限公司 | 文本信息处理方法及装置 |
CN112908294B (zh) * | 2021-01-14 | 2024-04-05 | 杭州倒映有声科技有限公司 | 一种语音合成方法以及语音合成系统 |
CN114420089B (zh) * | 2022-03-30 | 2022-06-21 | 北京世纪好未来教育科技有限公司 | 语音合成方法、装置和计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019120841A (ja) | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP2020034883A (ja) | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100347741C (zh) * | 2005-09-02 | 2007-11-07 | 清华大学 | 移动语音合成方法 |
US9286886B2 (en) * | 2011-01-24 | 2016-03-15 | Nuance Communications, Inc. | Methods and apparatus for predicting prosody in speech synthesis |
US10127901B2 (en) * | 2014-06-13 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hyper-structure recurrent neural networks for text-to-speech |
US10521945B2 (en) * | 2016-12-23 | 2019-12-31 | International Business Machines Corporation | Text-to-articulatory movement |
US10319250B2 (en) * | 2016-12-29 | 2019-06-11 | Soundhound, Inc. | Pronunciation guided by automatic speech recognition |
US10475438B1 (en) * | 2017-03-02 | 2019-11-12 | Amazon Technologies, Inc. | Contextual text-to-speech processing |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN110634466B (zh) * | 2018-05-31 | 2024-03-15 | 微软技术许可有限责任公司 | 具有高感染力的tts处理技术 |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN109036377A (zh) * | 2018-07-26 | 2018-12-18 | 中国银联股份有限公司 | 一种语音合成方法及装置 |
CN109285537B (zh) * | 2018-11-23 | 2021-04-13 | 北京羽扇智信息科技有限公司 | 声学模型建立、语音合成方法、装置、设备及存储介质 |
US12094447B2 (en) * | 2018-12-13 | 2024-09-17 | Microsoft Technology Licensing, Llc | Neural text-to-speech synthesis with multi-level text information |
CN109446333A (zh) * | 2019-01-16 | 2019-03-08 | 深兰人工智能芯片研究院(江苏)有限公司 | 一种实现中文文本分类的方法及相关设备 |
CN110136692B (zh) * | 2019-04-30 | 2021-12-14 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110164463B (zh) * | 2019-05-23 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 一种语音转换方法、装置、电子设备及存储介质 |
CN110534089B (zh) * | 2019-07-10 | 2022-04-22 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
KR102320975B1 (ko) * | 2019-07-25 | 2021-11-04 | 엘지전자 주식회사 | 발화 스타일 부여를 위한 인공지능 기반의 음성 샘플링 장치 및 방법 |
CN111785248B (zh) * | 2020-03-12 | 2023-06-23 | 北京汇钧科技有限公司 | 文本信息处理方法及装置 |
-
2020
- 2020-03-12 CN CN202010172575.7A patent/CN111785248B/zh active Active
-
2021
- 2021-01-15 JP JP2022523879A patent/JP7383140B2/ja active Active
- 2021-01-15 US US17/789,513 patent/US20220406290A1/en active Pending
- 2021-01-15 EP EP21767958.8A patent/EP4044174A4/en not_active Withdrawn
- 2021-01-15 WO PCT/CN2021/072016 patent/WO2021179791A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019120841A (ja) | 2018-01-09 | 2019-07-22 | 国立大学法人 奈良先端科学技術大学院大学 | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 |
JP2020034883A (ja) | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN111785248A (zh) | 2020-10-16 |
EP4044174A4 (en) | 2023-05-17 |
CN111785248B (zh) | 2023-06-23 |
WO2021179791A1 (zh) | 2021-09-16 |
JP2022554149A (ja) | 2022-12-28 |
EP4044174A1 (en) | 2022-08-17 |
US20220406290A1 (en) | 2022-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7383140B2 (ja) | テキスト情報処理方法及び装置 | |
CN111667814B (zh) | 一种多语种的语音合成方法及装置 | |
CN109389968B (zh) | 基于双音节混搭的波形拼接方法、装置、设备及存储介质 | |
CN109686361B (zh) | 一种语音合成的方法、装置、计算设备及计算机存储介质 | |
CN102687197B (zh) | 声音识别用词典制作装置、声音识别装置及声音合成装置 | |
CN109285537B (zh) | 声学模型建立、语音合成方法、装置、设备及存储介质 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN110992926B (zh) | 语音合成方法、装置、系统和存储介质 | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
CN111696521A (zh) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 | |
CN112365878A (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
CN114242033A (zh) | 语音合成方法、装置、设备、存储介质及程序产品 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN111739509A (zh) | 电子书音频生成方法、电子设备及存储介质 | |
CN118298796A (zh) | 语音合成模型的训练方法、语音合成方法、装置及可读介质 | |
WO2014176489A2 (en) | A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
CN112927677B (zh) | 语音合成方法和装置 | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
CN111048065A (zh) | 文本纠错数据生成方法及相关装置 | |
EP1632932B1 (en) | Voice response system, voice response method, voice server, voice file processing method, program and recording medium | |
JP4741208B2 (ja) | 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置 | |
CN114822492B (zh) | 语音合成方法及装置、电子设备、计算机可读存储介质 | |
JP5877823B2 (ja) | 音声認識装置、音声認識方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220421 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231107 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7383140 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |