JP7383140B2 - テキスト情報処理方法及び装置 - Google Patents

テキスト情報処理方法及び装置 Download PDF

Info

Publication number
JP7383140B2
JP7383140B2 JP2022523879A JP2022523879A JP7383140B2 JP 7383140 B2 JP7383140 B2 JP 7383140B2 JP 2022523879 A JP2022523879 A JP 2022523879A JP 2022523879 A JP2022523879 A JP 2022523879A JP 7383140 B2 JP7383140 B2 JP 7383140B2
Authority
JP
Japan
Prior art keywords
phoneme
semantic
vector corresponding
information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022523879A
Other languages
English (en)
Other versions
JP2022554149A (ja
Inventor
薛▲瀏▼蒙
宋▲偉▼
武▲執▼政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Publication of JP2022554149A publication Critical patent/JP2022554149A/ja
Application granted granted Critical
Publication of JP7383140B2 publication Critical patent/JP7383140B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本願の実施例は、コンピュータ技術の分野に関し、特に、テキスト情報処理方法及び装置に関する。
現在、テキスト情報に対して機械学習を行うことにより、当該テキスト情報に対応する音声を得ることができる。
関連技術において、テキスト情報に対して機械学習を行うことによりオーディオ情報を得るプロセスは、テキスト情報に対応する音素情報を取得し、音素情報に対して符号化処理を行うことによりセマンティック情報を得て、セマンティック情報を学習してコンテキストベクトルを得て、さらに、コンテキストベクトルに基づいて音声を合成することを含む。
上記プロセスでは、セマンティック情報を学習してコンテキストベクトルを得るプロセスで得られたコンテキストベクトルが不正確な場合、合成される音声の音質も悪くなる。
本願の実施例は、音声情報に基づいて合成される音声オーディオを、より良いリズム及びより安定的な音質を持つものにするためのテキスト情報処理方法及び装置を提供する。
第1の態様では、本願の実施例は、テキスト情報処理方法を提供し、
テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、
前の時点で出力された第1のセマンティック情報を取得するステップであって、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、
第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含む。
1つの可能な実施形態では、第1のセマンティック情報、各音素に対応する音素ベクトル、及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
第1のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、を含む。
他の可能な実施形態では、第1のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップは、
第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するステップであって、第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含むステップを含む。
他の可能な実施形態では、セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定するステップと、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定するステップと、
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定するステップと、を含む。
他の可能な実施形態では、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定するステップと、
第1のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定するステップと、を含む。
他の可能な実施形態では、第1のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定するステップは、
第2のプリセットモデルによって、第1のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するステップであって、第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含むステップを含む。
他の可能な実施形態では、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップは、
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定するステップと、
第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得るステップと、を含む。
他の可能な実施形態では、テキスト情報における各音素に対応する音素ベクトルを取得するステップは、
テキスト情報の音素シーケンスを取得するステップであって、音素シーケンスが少なくとも1つの音素を含むステップと、
少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定するステップと、を含む。
他の可能な実施形態では、少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定するステップは、
プリセット音素リストで各音素に対応する識別子を検索するステップと、
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索するステップと、を含む。
他の可能な実施形態では、各音素に対応するセマンティックベクトルを取得するステップは、
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るステップを含む。
第2の態様では、本願の実施例は、第1の取得モジュールと、第2の取得モジュールと、第1の決定モジュールと、第2の決定モジュールと、を含むテキスト情報処理装置を提供し、
第1の取得モジュールは、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
第2の取得モジュールは、前の時点で出力された第1のセマンティック情報を取得することに用いられ、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
第1の決定モジュールは、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
第2の決定モジュールは、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられる。
1つの可能な実施形態では、第1の決定モジュールは、具体的に、
第1のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の決定モジュールは、具体的に、
第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含む。
他の可能な実施形態では、第1の決定モジュールは、具体的に、
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定すること、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定すること、及び
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の決定モジュールは、具体的に、
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定すること、
第1のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の決定モジュールは、具体的に、
第2のプリセットモデルによって、第1のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含む。
他の可能な実施形態では、第2の決定モジュールは、具体的に、
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定すること、及び
第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得ること、に用いられる。
他の可能な実施形態では、第1の取得モジュールは、具体的に、
少なくとも1つの音素を含む、テキスト情報の音素シーケンスを取得すること、及び
少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の取得モジュールは、具体的に、
プリセット音素リストで各音素に対応する識別子を検索すること、及び
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索すること、に用いられる。
他の可能な実施形態では、第1の取得モジュールは、具体的に、
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るために用いられる。
第3の態様では、本願の実施例は、少なくとも1つのプロセッサとメモリとを含むテキスト情報処理装置を提供し、
メモリにはコンピュータで実行可能な命令が記憶され、
少なくとも1つのプロセッサがメモリに記憶されたコンピュータで実行可能な命令を実行すると、少なくとも1つのプロセッサが上記した第1の態様のいずれか1項に示したテキスト情報処理方法を実行する。
第4の態様では、本願の実施例は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、コンピュータで実行可能な命令が記憶されており、プロセッサがコンピュータで実行可能な命令を実行すると、上記した第1の態様のいずれか1項に記載のテキスト情報処理方法が実施される。
第5の態様では、本願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサにより実行されることができ、前記コンピュータプログラムが実行されると、第1の態様のいずれか1項に記載の方法が実施される。
第6の態様では、本願の実施例は、メモリとプロセッサとを含むチップを提供し、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行して、第1の態様のいずれか1項に記載の方法を実行する。
本願の実施例は、テキスト情報処理方法及び装置を提供し、当該テキスト情報処理方法は、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、前の時点で出力された第1のセマンティック情報を取得するステップであって、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含む。上記方法には、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定することで、決定されるコンテキストベクトルはより正確になり、決定される音声情報の正確性は向上し、それによって、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。
以下、本願の実施例又は従来技術の技術案をより明確に説明するために、実施例又は従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は本願のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を想到しうる。
本願により提供されるテキスト情報処理方法の応用シーンの概略図である。 本願により提供されるテキスト情報処理方法のフローチャートである。 本願により提供される1つのテキスト情報処理方法のフローチャートである。 本願により提供される1つのテキスト情報処理方法の処理構造概略図である。 本願により提供される他のテキスト情報処理方法のフローチャートである。 本願により提供される他のテキスト情報処理方法の処理構造概略図である。 本願により提供されるテキスト情報処理装置の構造概略図である。 本願により提供されるテキスト情報処理装置のハードウェア構造概略図である。
本願の実施例の目的、技術案及び利点をより明瞭にするために、以下、本願の実施例に係る図面を参照しながら、その技術案について明瞭、且つ完全に説明し、当然のことながら、記載される実施例は本願の実施例の一部にすぎず、そのすべての実施例ではない。当業者が、本願における実施例に基づいて創造的な労働をすることなく、取得されたその他のすべての実施例は、いずれも本願の保護範囲に属する。
本願の明細書及び/又は特許請求の範囲、及び、上記に記載の図面における用語「第1」、「第2」、「第3」、「第4」など(あれば)は、類似する対象を区別するためのものであり、特定の順序又は順番を説明するために使用される必要はない。本明細書に説明する本願の実施例を、例えば、本明細書に図示又は説明した順序とは異なる順序で実施できるように、そのように使用されるデータを適宜交換できると理解すべきである。また、「含む」と「持つ」という用語、及び、それらのあらゆる変形は、いずれも非排他的含有をカバーすることを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又はデバイスは、明記されているステップ又はユニットに限定される必要はなく、明記されていないか、又は、それらのプロセス、方法、製品又はデバイスに固有の他のステップ又はユニットを含み得る。
図1は、本願により提供されるテキスト情報処理方法の応用シーンの概略図である。図1を参照すれば、スマートデバイス101が含まれており、スマートデバイス101は、テキスト情報を受信し、テキスト情報を音声オーディオとして合成してよい。スマートデバイス101は、例えば、スマートフォン、スマートロボット、スマートリーダーなどの、テキスト情報に基づいて音声オーディオを合成できるデバイスであってよい。
本願には、テキスト情報に基づいて音声オーディオを合成するプロセスは、テキスト情報における各音素に対応する音素ベクトルとセマンティックベクトルとに基づき、現時点に対応するコンテキストベクトルを決定し、そして、現時点に対応するコンテキストベクトルに基づき、現時点での音声情報を決定することを含む。上記プロセスでは、各音素に対応する音素ベクトルとセマンティックベクトルとに基づき、現時点に対応するコンテキストベクトルを決定することにより、正確なコンテキストベクトルを取得し、決定される音声情報の正確さを向上させることができ、それによって、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。
以下、本願に係る技術案について具体的な実施例を参照しながら詳細に説明する。なお、以下のいくつかの具体的な実施例を、互いに組み合わせることができ、同様又は類似する内容は、異なる実施例では繰り返して説明しないようにする。
図2は、本願により提供されるテキスト情報処理方法のフローチャートである。図2に示すように、テキスト情報処理方法は、S201~S204を含む。
S201において、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得する。
選択的に、本願に示されているテキスト情報処理方法の実行主体は、スマートデバイスであるが、スマートデバイスに配置されたテキスト情報処理装置にしてもよく、当該テキスト処理装置は、ソフトウェア及び/又はハードウェアの組み合わせによって実現され得る。
1つの可能な実施形態では、テキスト情報の音素シーケンスを取得することができ、音素シーケンスが少なくとも1つの音素を含み、少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定する。例えば、テキスト情報は、私は陝西にいるという情報であり、音素シーケンスは、w、o3、z、ai4、sh、an3、x、i1である。
さらに、プリセットデータテーブルから各音素に対応する音素ベクトルを取得することができ、プリセットデータテーブルには、少なくとも1つの音素及び各音素に対応する音素ベクトルが含まれる。
本願には、予め設定されたエンコーダーによって、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得る。選択的に、予め設定されたエンコーダーは、エンコーダー(Encoder)-デコーダー(Decoder)モデルにおけるエンコーダー(Encoder)モデルと同じである。
S202において、前の時点で出力された第1のセマンティック情報を取得し、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報である。
具体的に、前の時点で出力された第1のセマンティック情報は、予め設定されたデコーダーが前の時点にて出力した情報(即ち、隠れ層状態ベクトル)である。選択的に、予め設定されたデコーダーは、エンコーダー(Encoder)-デコーダー(Decoder)モデルにおけるデコーダー(Decoder)モデルと同じである。
S203において、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定する。
具体的に、第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得し、さらに、セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定してもよいか、または、
第2のプリセットモデルによって、第1のセマンティック情報と、各音素に対応するセマンティックベクトルと音素ベクトルとの複合ベクトルとを処理し、セマンティックマッチング度合いを取得し、さらに、セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、現時点に対応するコンテキストベクトルを決定してもよい。
なお、第1のプリセットモデルの詳細の説明は、図3に係る実施例を参照されたい。第2のモデルの詳細の説明は、図5に係る実施例を参照されたい。
S204において、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定する。
具体的に、予め設定されたデコーダーによって、コンテキストベクトルと第1のセマンティック情報とを処理し、現時点での第2のセマンティック情報を取得し、さらに、第2のセマンティック情報に基づいて現時点での音声情報を決定することができ、現時点での音声情報は、現時点に対応するメルスペクトルである。
本願の実施例により提供されるテキスト情報処理方法は、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、前の時点で出力された第1のセマンティック情報を取得するステップであって、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含む。上記方法には、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定することで、決定されるコンテキストベクトルはより正確になり、決定される音声情報の正確性は向上し、それによって、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。
以下、上記実施例に基づき、本願により提供されるテキスト情報処理方法について、図3に係る実施例を参照しながら、さらに詳細に説明し、具体的に、図3を参照されたい。
図3は、本願により提供される1つのテキスト情報処理方法のフローチャートである。図3に示すように、テキスト情報処理方法は、S301~S311を含む。
S301において、テキスト情報の音素シーケンスを取得し、音素シーケンスが少なくとも1つの音素を含む。
具体的に、テキスト情報に対して音素変換処理を行うことにより、テキスト情報の音素シーケンスを得ることができる。
例えば、テキスト情報は、中国を愛するという情報である場合、中国を愛するという情報に対して音素変換処理を行うと、得られる音素シーケンスは、w、o3、ai4、zh、ong1、g、uo2である。ここで、w、o3、ai4、zh、ong1、g、uo2は、いずれも音素である。
S302において、プリセット音素リストで各音素に対応する識別子を検索する。
具体的に、プリセット音素リストには、少なくとも1つの音素及び各音素に対応する識別子が含まれており、各音素に対応する識別子は、プリセット番号又はインデックス番号であってよい。
例えば、各音素に対応する識別子はプリセット番号であると、音素シーケンスはw、o3、ai4、zh、ong1、g、uo2である場合、プリセット音素リストで、上記音素シーケンスの中の音素に対応する識別子がそれぞれ53、22、11、66、39、28、42であると検索する。
S303において、各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索する。
S304において、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得る。
具体的に、予め設定されたエンコーダーによって、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを取得し、予め設定されたエンコーダーの詳細の説明は、図4に係る実施例を参照されたい。
S305において、前の時点で出力された第1のセマンティック情報を取得し、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報である。
具体的に、S305を実行する方法は、S202と同じであるため、ここで、S305を実行するプロセスについて繰り返して説明しない。
S306において、第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得し、第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含む。
S307において、セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定する。
選択的に、次の式2でセマンティックマッチング度合いを処理し、セマンティックアライメント度を取得し、さらに、次の式3でセマンティックアライメント度と各音素に対応するセマンティックベクトルとを処理し、セマンティックコンテキストベクトルを得てもよい。
なお、上記セマンティックアライメント度は、
という条件を満たす必要がある。
S308において、セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定する。
選択的に、上記式2でセマンティックマッチング度合いを処理し、セマンティックアライメント度を取得し、さらに、次の式4でセマンティックアライメント度と各音素に対応する音素ベクトルとを処理し、音素コンテキストベクトルを得てもよい。
S309において、セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定する。
選択的に、次の式5でセマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定してもよい。
S310において、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定する。
具体的に、予め設定されたデコーダーによって、コンテキストベクトルと第1のセマンティック情報とに対してデコーディング処理を行い、現時点に対応する第2のセマンティック情報を得る。第2のセマンティック情報は、予め設定されたデコーダーの現時点での隠れ層状態ベクトル
である。
S311において、第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得る。
さらに、上記S305~S311を繰り返して実行し、すべての時点での音声情報を取得し、さらに、すべての時点での音声情報に対して、予め設定された音声シンセサイザーによって音声合成処理を行い、テキスト情報に対応する音声オーディオを取得し、すべての時点は、予め設定されたデコーダーの自己学習プロセス中に決定される。予め設定された音声シンセサイザーは、WaveNet音声シンセサイザーであってもよいし、又は他の音声シンセサイザーであってもよい。
従来技術において、勾配逆バックホール法により、各音素のセマンティックベクトルに基づいてコンテキストベクトルを学習するプロセスでは、計算誤差が生じ、得られるコンテキストベクトルが不正確になり、それによって、音声オーディオの品質が影響される。
従来技術とは異なり、本願に示されているテキスト情報処理方法は、セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックに関するコンテキストベクトルを得るステップと、セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素に関する音素コンテキストベクトルを得るステップと、セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを得るステップと、を含む。本願は、現時点に対応するコンテキストベクトルを決定するプロセスには、各音素に対応する音素ベクトル及び音声ベクトルが参考とされ、決定される現時点に対応するコンテキストベクトルの正確さが向上する。
図4は、本願により提供される1つのテキスト情報処理方法の処理構造概略図である。図4に示すように、当該処理構造は、予め設定されたエンコーダー101、注意学習器102及び予め設定されたデコーダー103を含む。注意学習器102は、第1のプリセットモデルを含み、当該注意学習器102は、予め設定されたエンコーダー101と予め設定されたデコーダー103とにそれぞれ接続される。
実際に応用されるとき、予め設定されたエンコーダー101は、図3に係る実施例のS304に示されている方法を実行し、各音素に対応するセマンティックベクトルを取得し、各音素に対応するセマンティックベクトルを注意学習器102に提供する。注意学習器102は、図3に係る実施例のS305に示されている方法を実行し、予め設定されたデコーダー103の前の時点での出力された第1のセマンティック情報を取得し、第1のセマンティック情報、各音素に対応する音素ベクトル及びセマンティックベクトルに基づき、S306~S309に示されている方法を順次実行し、現時点に対応するコンテキストベクトルを取得し、予め設定されたデコーダー103に現時点に対応するコンテキストベクトルを提供する。予め設定されたデコーダー103は、S310に示されている方法を実行し、現時点に対応する第2のセマンティック情報を得ることができる。
従来技術において、エンコーダーは、各音素に対応する音素ベクトルに対して符号化処理を行うことで得られる各音素に対応するセマンティックベクトルは、情報損失が発生するため、各音素に対応するセマンティックベクトルのみに基づいて現時点でのコンテキストベクトルを決定することで、現時点でのコンテキストベクトルを正確に決定できず、決定される音声情報が不正確になり、それによって、音声情報に基づいて合成される音声オーディオは、リズムが整えておらず、音質の安定性が劣っている。
しかし、本願において、図4に示されている処理構造には、注意学習器102は、テキスト情報における各音素に対応する音素ベクトルと、予め設定されたエンコーダー101により出力される各音素に対応するセマンティックベクトルとを学習して得られ、セマンティックマッチング度合い、セマンティックアライメント度及び現時点でのコンテキストベクトルを順次取得して、それによって、決定されるコンテキストベクトルはより正確になり、決定される音声情報の正確性は向上し、さらに、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。
以下、上記実施例に基づいて、本願により提供されるテキスト情報処理方法について、図5に係る実施例を参照しながら、さらに詳細に説明し、具体的に、図5を参照されたい。
図5は、本願により提供される他のテキスト情報処理方法のフローチャートである。図5に示すように、テキスト情報処理方法は、S501~S510を含む。
S501において、テキスト情報の音素シーケンスを取得し、音素シーケンスが少なくとも1つの音素を含む。
S502において、プリセット音素リストで各音素に対応する識別子を検索する。
S503において、各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索する。
S504において、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得る。
S505において、前の時点で出力された第1のセマンティック情報を取得し、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報である。
具体的に、S501~S505を実行する方法は、S401~S405と同じであり、ここで、S501~S505を実行するプロセスを繰り返して説明しない。
S506において、各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定する。
S507において、第2のプリセットモデルによって、第1のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得し、第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られたものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含む。
なお、第2のプリセットモデルは、第1のプリセットモデルと同じであってもよいし、異なってもよい。
S508において、セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定する。
S509において、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定する。
S510において、第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得る。
具体的に、S509とS510とを実行する方法は、S310とS311とを実行する方法と同じであり、ここで、S509とS510とを実行するプロセスを繰り返して説明しない。
なお、S505~S510を繰り返して実行し、すべての時点での音声情報を取得し、そして、予め設定された音声シンセサイザーによって、すべての時点での音声情報に対して音声合成処理を行い、テキスト情報に対応する音声オーディオを取得し、全ての時点は、予め設定されたデコーダーの自己学習プロセス中に決定される。予め設定された音声シンセサイザーは、WaveNet音声シンセサイザーであってもよいし、又は他の音声シンセサイザーであってもよい。
図6は、本願により提供される他のテキスト情報処理方法の処理構造概略図である。図6に示すように、当該処理構造は、予め設定されたエンコーダー201、注意学習器202、予め設定されたデコーダー203及び加算器204を含む。注意学習器202は、第2のプリセットモデルを含み、当該注意学習器202は、加算器204と予め設定されたデコーダー203とにそれぞれ接続され、予め設定されたエンコーダー201は、加算器204に接続される。
なお、テキスト情報に対応する音素行列は、テキスト情報における各音素に対応する音素ベクトルの組み合わせ行列である。
実際に応用されるとき、予め設定されたエンコーダー201は、図5に係る実施例のS504に示されている方法を実行し、各音素に対応するセマンティックベクトルを取得し、各音素に対応するセマンティックベクトルを注意学習器202に提供する。注意学習器202は、図5に係る実施例のS505に示されている方法を実行し、予め設定されたデコーダー203の前の時点での第1のセマンティック情報を取得し、第1のセマンティック情報、各音素に対応する音素ベクトル及びセマンティックベクトルに基づき、S506~S508に示されている方法を順次実行し、現時点に対応するコンテキストベクトルを取得し、予め設定されたデコーダー203に現時点に対応するコンテキストベクトルを提供する。予め設定されたデコーダー203は、S509に示されている方法を実行し、現時点に対応する第2のセマンティック情報を得る。
図6に示されている処理構造には、加算器204は、各音素に対応するセマンティックベクトルと音素ベクトルとに対して重ね合わせ処理を行い、各音素に対応する複合ベクトルを得ることにより、従来技術において、エンコーダーが各音素に対応する音素ベクトルに対して符号化処理を行うことで得られる各音素に対応するセマンティックベクトルにおける情報損失は補われ、決定されるセマンティックマッチング度合い、セマンティックアライメント度及び現時点でのコンテキストベクトルの正確さは向上し、それによって、決定される音声情報の正確さは向上し、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。
図7は、本願により提供されるテキスト情報処理装置の構造概略図である。当該テキスト情報処理装置10は、スマートデバイスに配置されてもよい。図7に示すように、テキスト情報処理装置10は、第1の取得モジュール11、第2の取得モジュール12、第1の決定モジュール13及び第2の決定モジュール14を含み、
第1の取得モジュール11は、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
第2の取得モジュール12は、前の時点で出力された第1のセマンティック情報を取得するために用いられ、第1のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
第1の決定モジュール13は、第1のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
第2の決定モジュール14は、コンテキストベクトルと第1のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられる。
本願の実施例により提供されるテキスト情報処理装置10は、上記方法の実施例に示されている技術案を実行することができ、その実現原理及び有益な効果は類似するため、ここで繰り返して説明しない。
1つの可能な実施形態では、第1の決定モジュール13は、具体的に、
第1のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の決定モジュール13は、具体的に、
第1のプリセットモデルによって、第1のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含む。
他の可能な実施形態では、第1の決定モジュール13は、具体的に、
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定すること、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定すること、及び
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の決定モジュール13は、具体的に、
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定すること、
第1のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の決定モジュール13は、具体的に、
第2のプリセットモデルによって、第1のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含む。
他の可能な実施形態では、第2の決定モジュール14は、具体的に、
コンテキストベクトルと第1のセマンティック情報とに基づき、現時点に対応する第2のセマンティック情報を決定すること、及び
第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得ること、に用いられる。
他の可能な実施形態では、第1の取得モジュール11は、具体的に、
少なくとも1つの音素を含む、テキスト情報の音素シーケンスを取得すること、及び
少なくとも1つの音素に基づき、各音素に対応する音素ベクトルを決定すること、に用いられる。
他の可能な実施形態では、第1の取得モジュール11は、具体的に、
プリセット音素リストで各音素に対応する識別子を検索すること、及び
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索すること、に用いられる。
他の可能な実施形態では、第1の取得モジュール11は、具体的に、
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るために用いられる。
本願の実施例により提供されるテキスト情報処理装置10は、上記方法の実施例に示されている技術案を実行することができ、その実現原理及び有益な効果は類似するため、ここで繰り返して説明しない。
図8は、本願により提供されるテキスト情報処理装置のハードウェア構造概略図である。当該テキスト情報処理装置20は、スマートデバイスに配置されてよい。図8に示すように、当該テキスト情報処理装置20は、少なくとも1つのプロセッサ21とメモリ22とを含む。プロセッサ21とメモリ22は、バス23を介して接続される。
具体的な実現プロセスでは、少なくとも1つのプロセッサ21は、メモリ22に記憶されたコンピュータで実行可能な命令を実行すると、少なくとも1つのプロセッサ21は、上記したテキスト情報処理方法を実行する。
プロセッサ21の具体的な実現プロセスは、上記方法の実施例を参照することができ、その実現原理及び技術的効果は類似するため、本実施例では繰り返して説明しない。
上記図8に示されている実施例では、プロセッサは中央処理ユニット(Central Processing Unit、略称CPU)であってもよく、他の汎用プロセッサ、デジタルシグナルプロセッサ(Digital Signal Processor、略称DSP)、特定用途向け集積回路(Application Specific Integrated Circuits、略称ASIC)などであってもよいことを理解すべきである。汎用プロセッサは、マイクロプロセッサであってもよいし、任意のノーマルのプロセッサなどであってもよい。本願に開示された方法を組み合わせたステップは、ハードウェアプロセッサで、又はプロセッサ内のハードウェア及びソフトウェアモジュールの組み合わせで実行して完了されることに直接的に具現化され得る。
メモリは、高速RAMメモリを含み得るが、場合によっては少なくとも1つの磁気ディスクメモリなどの不揮発性ストレージNVMも含み得る。
バスは、工業標準体系構造(Industry Standard Architecture、ISA)バス、外部デバイス相互接続(Peripheral Component、PCI)バス、又は拡大工業標準体系構造(Extended Industry Standard Architecture、EISA)バスなどであってもよい。バスはアドレスバス、データバス、コントロールバスなどに分けられる。表現を容易にするために、本願の図面におけるバスは、1つのバス又は1種のバスだけを限定するものではない。
本願は、さらに、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、コンピュータで実行可能な命令が記憶されており、プロセッサはコンピュータで実行可能な命令を実行すると、上記したテキスト情報処理方法は実施される。
本願の実施例は、さらに、コンピュータプログラムを提供し、当該コンピュータプログラムはプロセッサにより実行されることができ、コンピュータプログラムは実行されると、上記方法のいずれか1つの実施例における技術案は実施できる。その実現原理及び有益な効果は類似するため、ここで繰り返して説明しない。
本願の実施例は、さらに、メモリとプロセッサとを含むチップを提供し、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサは、前記コンピュータプログラムを実行して、上記いずれか1つの方法実施例における技術案を実行する。その実現原理及び有益な効果は類似するため、ここで繰り返して説明しない。
上記したコンピュータ可読記憶媒体として、上記可読記憶媒体は、任意のタイプの揮発性又は不揮発性ストレージデバイス、又はそれらの組み合わせによって実装でき、例えば、スタティック・ランダム・アクセス・メモリ(SRAM)、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又はコンパクトディスクであってもよい。可読記憶媒体は、汎用コンピュータ又は特定用途向けコンピュータによってアクセスできる任意の利用可能な媒体にすることができる。
1つの例示的な可読記憶媒体は、プロセッサが当該可読記憶媒体から情報を読み取り、当該可読記憶媒体に情報を書き込むことができるようにプロセッサにカップリングされる。無論、可読記憶媒体は、プロセッサの構成部分であってもよい。プロセッサ及び可読記憶媒体は、特定用途向け集積回路(Application Specific Integrated Circuits,略称ASIC)に存在してもよい。無論、プロセッサと可読記憶媒体は、装置に別個のコンポーネントとして存在してもよい。
ユニットの分割は、論理機能上の分割にすぎず、実際に実施する際に別の形態で分割してもよく、例えば、複数のユニット又はコンポーネントを別のシステムに組み合わせもしくは集積させたり、又は一部の特徴を反映させず、実行しなかったりしてもよい。また、説明又は検討した各コンポーネントの互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、機器又はユニットを用いる間接的接続又は通信接続であってもよく、電気的形態、機械的形態又はその他の形態であってもよい。
分離される部品として説明されるユニットは、物理的に分離されるものでもよければ、分離されないものであってもよい。ユニットとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。即ち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。実際の必要に応じて、一部のユニットだけを用いるか、又はすべてのユニットを使用して本実施例に係る技術案の目的を達成することができる。
また、本願の各実施例では、各機能ユニットが1つの処理ユニットに集積されてもよいが、各ユニットが物理的に単独で1つのユニットとして存在するか、又は2つかまたは2つ以上のユニットが1つのユニットに集積されてもよい。
機能は、ソフトウェア機能ユニットの形で実施され、独立した製品として販売または使用される場合、1つのコンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本願の技術案は、本質的にソフトウェア製品の形で具現化されてもよいし、従来の技術に寄与する部分がソフトウェア製品の形で具現化されてもよいし、当該技術案の一部がソフトウェア製品の形で具現化されてもよい。当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい)に、本願の各実施例の方法のすべて又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、Uディスク、モバイルハードディスク、読み取り専用メモリ(ROM、Read Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、磁気ディスク、又はコンパクトディスクなどプログラムコードを記憶できる様々な媒体を含む。
当業者は、上記各方法各実施例を実施するステップのすべて又は一部は、プログラム命令に関連するハードウェアによって完了されることができることを理解できる。前述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶できる。当該プログラムによる実行は、上記各方法の実施例が含まれるステップを実行し、前述した記憶媒体は、ROM、RAM、磁気ディスク又はコンパクトディスクなどプログラムコードを記憶できる様々な媒体を含む。
最後に、以上の各実施例は、本願の技術案を説明するためのものであって、それを制限するものではなく、前述した各実施例を参照しながら本願を詳細に説明するが、当業者であれば、依然として前述した各実施例に記載の技術案を修正するか、又はそのうちの一部又はすべての技術的特徴に対して等価置換を行うことができ、それらの修正又は置換は、対応する技術案の本質を本願の各実施例の技術案の範囲から逸脱しないと理解すべきである。
本願は、2020年03月12日に中国特許庁に提出された、出願番号が202010172575.7、発明の名称が「テキスト情報処理方法及び装置」である中国特許出願の優先権を主張し、そのすべての内容は援用によって本願に組み込まれる。

Claims (12)

  1. スマートデバイスによって実行されるテキスト情報処理方法であって、
    テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、
    前の時点で出力された第1のセマンティック情報を取得するステップであって、前記第1のセマンティック情報が前記テキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、前記一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、
    前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、
    前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含み、
    前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
    前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップと、
    前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含む、
    ことを特徴とするスマートデバイスによって実行されるテキスト情報処理方法。
  2. 前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップは、
    前記第1のセマンティック情報と前記各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
    前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
    前記セマンティックマッチング度合い、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記第1のセマンティック情報と前記各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップは、
    第1のプリセットモデルによって、前記第1のセマンティック情報と前記各音素に対応するセマンティックベクトルとを処理し、前記セマンティックマッチング度合いを取得するステップであって、前記第1のプリセットモデルが複数のグループの第1のサンプルを学習して得られるものであり、各グループの第1のサンプルがセマンティック情報とセマンティックベクトルとを含むステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記セマンティックマッチング度合い、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
    前記セマンティックマッチング度合いと前記各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定するステップと、
    前記セマンティックマッチング度合いと前記各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定するステップと、
    前記セマンティックコンテキストベクトルと前記音素コンテキストベクトルとに対して組み合わせ処理を行い、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項3に記載の方法。
  5. 前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップは、
    前記各音素に対応する音素ベクトルと前記各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定するステップと、
    前記第1のセマンティック情報と前記各音素に対応する複合ベクトルとに基づき、前記セマンティックマッチング度合いを決定するステップと、
    前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
    前記セマンティックマッチング度合いと前記各音素に対応する複合ベクトルとに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項1に記載の方法。
  6. 前記第1のセマンティック情報と前記各音素に対応する複合ベクトルとに基づき、前記セマンティックマッチング度合いを決定するステップは、
    第2のプリセットモデルによって、前記第1のセマンティック情報と前記各音素に対応する複合ベクトルとを処理し、前記セマンティックマッチング度合いを取得するステップであって、前記第2のプリセットモデルが複数のグループの第2のサンプルを学習して得られるものであり、各グループの第2のサンプルがセマンティック情報と複合ベクトルとを含むステップを含むことを特徴とする請求項5に記載の方法。
  7. 前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、現時点での音声情報を決定するステップは、
    前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、前記現時点に対応する第2のセマンティック情報を決定するステップと、
    前記第2のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、前記現時点での音声情報を得るステップと、を含むことを特徴とする請求項4又は6に記載の方法。
  8. テキスト情報処理装置であって、第1の取得モジュール、第2の取得モジュール、第1の決定モジュール及び第2の決定モジュールを含み、
    前記第1の取得モジュールは、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
    前記第2の取得モジュールは、前の時点で出力された第1のセマンティック情報を取得するために用いられ、前記第1のセマンティック情報が前記テキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、前記一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
    前記第1の決定モジュールは、前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
    前記第2の決定モジュールは、前記コンテキストベクトルと前記第1のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられ
    前記第1の取得モジュールは、前記第1のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定して、前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するために用いられることを特徴とするテキスト情報処理装置。
  9. 少なくとも1つのプロセッサとメモリとを含むテキスト情報処理装置であって、
    前記メモリにはコンピュータで実行可能な命令が記憶され、
    前記少なくとも1つのプロセッサが前記メモリに記憶されたコンピュータで実行可能な命令を実行すると、前記少なくとも1つのプロセッサが請求項1~7のいずれか1項に記載のテキスト情報処理方法を実行することを特徴とするテキスト情報処理装置。
  10. コンピュータ可読記憶媒体であって、コンピュータに請求項1~7のいずれか1項に記載のテキスト情報処理方法を実行させるためのプログラムを記録したことを特徴とするコンピュータ可読記憶媒体。
  11. コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項1~7のいずれか1項に記載のテキスト情報処理方法が実施されることを特徴とするコンピュータプログラム。
  12. メモリとプロセッサとを含むチップであって、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行すると、請求項1~7のいずれか1項に記載のテキスト情報処理方法が実行されることを特徴とするチップ。
JP2022523879A 2020-03-12 2021-01-15 テキスト情報処理方法及び装置 Active JP7383140B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010172575.7 2020-03-12
CN202010172575.7A CN111785248B (zh) 2020-03-12 2020-03-12 文本信息处理方法及装置
PCT/CN2021/072016 WO2021179791A1 (zh) 2020-03-12 2021-01-15 文本信息处理方法及装置

Publications (2)

Publication Number Publication Date
JP2022554149A JP2022554149A (ja) 2022-12-28
JP7383140B2 true JP7383140B2 (ja) 2023-11-17

Family

ID=72753264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022523879A Active JP7383140B2 (ja) 2020-03-12 2021-01-15 テキスト情報処理方法及び装置

Country Status (5)

Country Link
US (1) US20220406290A1 (ja)
EP (1) EP4044174A4 (ja)
JP (1) JP7383140B2 (ja)
CN (1) CN111785248B (ja)
WO (1) WO2021179791A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785248B (zh) * 2020-03-12 2023-06-23 北京汇钧科技有限公司 文本信息处理方法及装置
CN112908294B (zh) * 2021-01-14 2024-04-05 杭州倒映有声科技有限公司 一种语音合成方法以及语音合成系统
CN114420089B (zh) * 2022-03-30 2022-06-21 北京世纪好未来教育科技有限公司 语音合成方法、装置和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019120841A (ja) 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP2020034883A (ja) 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100347741C (zh) * 2005-09-02 2007-11-07 清华大学 移动语音合成方法
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US10127901B2 (en) * 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
US10521945B2 (en) * 2016-12-23 2019-12-31 International Business Machines Corporation Text-to-articulatory movement
US10475438B1 (en) * 2017-03-02 2019-11-12 Amazon Technologies, Inc. Contextual text-to-speech processing
CN110634466B (zh) * 2018-05-31 2024-03-15 微软技术许可有限责任公司 具有高感染力的tts处理技术
CN109036375B (zh) * 2018-07-25 2023-03-24 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN109036377A (zh) * 2018-07-26 2018-12-18 中国银联股份有限公司 一种语音合成方法及装置
CN109285537B (zh) * 2018-11-23 2021-04-13 北京羽扇智信息科技有限公司 声学模型建立、语音合成方法、装置、设备及存储介质
CN109446333A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现中文文本分类的方法及相关设备
CN110136692B (zh) * 2019-04-30 2021-12-14 北京小米移动软件有限公司 语音合成方法、装置、设备及存储介质
CN110164463B (zh) * 2019-05-23 2021-09-10 北京达佳互联信息技术有限公司 一种语音转换方法、装置、电子设备及存储介质
CN110534089B (zh) * 2019-07-10 2022-04-22 西安交通大学 一种基于音素和韵律结构的中文语音合成方法
KR102320975B1 (ko) * 2019-07-25 2021-11-04 엘지전자 주식회사 발화 스타일 부여를 위한 인공지능 기반의 음성 샘플링 장치 및 방법
CN111785248B (zh) * 2020-03-12 2023-06-23 北京汇钧科技有限公司 文本信息处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019120841A (ja) 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法
JP2020034883A (ja) 2018-08-27 2020-03-05 日本放送協会 音声合成装置及びプログラム

Also Published As

Publication number Publication date
CN111785248B (zh) 2023-06-23
EP4044174A4 (en) 2023-05-17
JP2022554149A (ja) 2022-12-28
WO2021179791A1 (zh) 2021-09-16
US20220406290A1 (en) 2022-12-22
CN111785248A (zh) 2020-10-16
EP4044174A1 (en) 2022-08-17

Similar Documents

Publication Publication Date Title
JP7383140B2 (ja) テキスト情報処理方法及び装置
CN111667814B (zh) 一种多语种的语音合成方法及装置
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
CN102687197B (zh) 声音识别用词典制作装置、声音识别装置及声音合成装置
CN109285537B (zh) 声学模型建立、语音合成方法、装置、设备及存储介质
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
CN112365878A (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN110992926A (zh) 语音合成方法、装置、系统和存储介质
CN114242033A (zh) 语音合成方法、装置、设备、存储介质及程序产品
CN111696521A (zh) 语音克隆模型的训练方法、可读存储介质和语音克隆方法
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
WO2014176489A2 (en) A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
CN113066480A (zh) 语音识别方法、装置、电子设备及存储介质
CN111739509A (zh) 电子书音频生成方法、电子设备及存储介质
EP1632932B1 (en) Voice response system, voice response method, voice server, voice file processing method, program and recording medium
CN112927677B (zh) 语音合成方法和装置
CN111048065A (zh) 文本纠错数据生成方法及相关装置
JP4741208B2 (ja) 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置
CN114822492B (zh) 语音合成方法及装置、电子设备、计算机可读存储介质
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231107

R150 Certificate of patent or registration of utility model

Ref document number: 7383140

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150