JP7383140B2

JP7383140B2 - テキスト情報処理方法及び装置

Info

Publication number: JP7383140B2
Application number: JP2022523879A
Authority: JP
Inventors: 薛▲瀏▼蒙; 宋▲偉▼; 武▲執▼政
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-03-12
Filing date: 2021-01-15
Publication date: 2023-11-17
Anticipated expiration: 2041-01-15
Also published as: CN111785248A; EP4044174A4; CN111785248B; WO2021179791A1; JP2022554149A; EP4044174A1; US20220406290A1

Description

本願の実施例は、コンピュータ技術の分野に関し、特に、テキスト情報処理方法及び装置に関する。

現在、テキスト情報に対して機械学習を行うことにより、当該テキスト情報に対応する音声を得ることができる。

関連技術において、テキスト情報に対して機械学習を行うことによりオーディオ情報を得るプロセスは、テキスト情報に対応する音素情報を取得し、音素情報に対して符号化処理を行うことによりセマンティック情報を得て、セマンティック情報を学習してコンテキストベクトルを得て、さらに、コンテキストベクトルに基づいて音声を合成することを含む。

上記プロセスでは、セマンティック情報を学習してコンテキストベクトルを得るプロセスで得られたコンテキストベクトルが不正確な場合、合成される音声の音質も悪くなる。

本願の実施例は、音声情報に基づいて合成される音声オーディオを、より良いリズム及びより安定的な音質を持つものにするためのテキスト情報処理方法及び装置を提供する。

第１の態様では、本願の実施例は、テキスト情報処理方法を提供し、
テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、
前の時点で出力された第１のセマンティック情報を取得するステップであって、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、
第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、
コンテキストベクトルと第１のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含む。

１つの可能な実施形態では、第１のセマンティック情報、各音素に対応する音素ベクトル、及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
第１のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、を含む。

他の可能な実施形態では、第１のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップは、
第１のプリセットモデルによって、第１のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するステップであって、第１のプリセットモデルが複数のグループの第１のサンプルを学習して得られるものであり、各グループの第１のサンプルがセマンティック情報とセマンティックベクトルとを含むステップを含む。

他の可能な実施形態では、セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定するステップと、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定するステップと、
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定するステップと、を含む。

他の可能な実施形態では、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定するステップと、
第１のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定するステップと、を含む。

他の可能な実施形態では、第１のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定するステップは、
第２のプリセットモデルによって、第１のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するステップであって、第２のプリセットモデルが複数のグループの第２のサンプルを学習して得られるものであり、各グループの第２のサンプルがセマンティック情報と複合ベクトルとを含むステップを含む。

他の可能な実施形態では、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点での音声情報を決定するステップは、
コンテキストベクトルと第１のセマンティック情報とに基づき、現時点に対応する第２のセマンティック情報を決定するステップと、
第２のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得るステップと、を含む。

他の可能な実施形態では、テキスト情報における各音素に対応する音素ベクトルを取得するステップは、
テキスト情報の音素シーケンスを取得するステップであって、音素シーケンスが少なくとも１つの音素を含むステップと、
少なくとも１つの音素に基づき、各音素に対応する音素ベクトルを決定するステップと、を含む。

他の可能な実施形態では、少なくとも１つの音素に基づき、各音素に対応する音素ベクトルを決定するステップは、
プリセット音素リストで各音素に対応する識別子を検索するステップと、
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索するステップと、を含む。

他の可能な実施形態では、各音素に対応するセマンティックベクトルを取得するステップは、
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るステップを含む。

第２の態様では、本願の実施例は、第１の取得モジュールと、第２の取得モジュールと、第１の決定モジュールと、第２の決定モジュールと、を含むテキスト情報処理装置を提供し、
第１の取得モジュールは、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
第２の取得モジュールは、前の時点で出力された第１のセマンティック情報を取得することに用いられ、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
第１の決定モジュールは、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
第２の決定モジュールは、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられる。

１つの可能な実施形態では、第１の決定モジュールは、具体的に、
第１のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の決定モジュールは、具体的に、
第１のプリセットモデルによって、第１のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第１のプリセットモデルが複数のグループの第１のサンプルを学習して得られるものであり、各グループの第１のサンプルがセマンティック情報とセマンティックベクトルとを含む。

他の可能な実施形態では、第１の決定モジュールは、具体的に、
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定すること、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定すること、及び
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の決定モジュールは、具体的に、
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定すること、
第１のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の決定モジュールは、具体的に、
第２のプリセットモデルによって、第１のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第２のプリセットモデルが複数のグループの第２のサンプルを学習して得られるものであり、各グループの第２のサンプルがセマンティック情報と複合ベクトルとを含む。

他の可能な実施形態では、第２の決定モジュールは、具体的に、
コンテキストベクトルと第１のセマンティック情報とに基づき、現時点に対応する第２のセマンティック情報を決定すること、及び
第２のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得ること、に用いられる。

他の可能な実施形態では、第１の取得モジュールは、具体的に、
少なくとも１つの音素を含む、テキスト情報の音素シーケンスを取得すること、及び
少なくとも１つの音素に基づき、各音素に対応する音素ベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の取得モジュールは、具体的に、
プリセット音素リストで各音素に対応する識別子を検索すること、及び
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索すること、に用いられる。

他の可能な実施形態では、第１の取得モジュールは、具体的に、
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るために用いられる。

第３の態様では、本願の実施例は、少なくとも１つのプロセッサとメモリとを含むテキスト情報処理装置を提供し、
メモリにはコンピュータで実行可能な命令が記憶され、
少なくとも１つのプロセッサがメモリに記憶されたコンピュータで実行可能な命令を実行すると、少なくとも１つのプロセッサが上記した第１の態様のいずれか１項に示したテキスト情報処理方法を実行する。

第４の態様では、本願の実施例は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、コンピュータで実行可能な命令が記憶されており、プロセッサがコンピュータで実行可能な命令を実行すると、上記した第１の態様のいずれか１項に記載のテキスト情報処理方法が実施される。

第５の態様では、本願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサにより実行されることができ、前記コンピュータプログラムが実行されると、第１の態様のいずれか１項に記載の方法が実施される。

第６の態様では、本願の実施例は、メモリとプロセッサとを含むチップを提供し、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行して、第１の態様のいずれか１項に記載の方法を実行する。

本願の実施例は、テキスト情報処理方法及び装置を提供し、当該テキスト情報処理方法は、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、前の時点で出力された第１のセマンティック情報を取得するステップであって、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含む。上記方法には、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定することで、決定されるコンテキストベクトルはより正確になり、決定される音声情報の正確性は向上し、それによって、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。

以下、本願の実施例又は従来技術の技術案をより明確に説明するために、実施例又は従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記載する図面は本願のいくつかの実施例であり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を想到しうる。
本願により提供されるテキスト情報処理方法の応用シーンの概略図である。本願により提供されるテキスト情報処理方法のフローチャートである。本願により提供される１つのテキスト情報処理方法のフローチャートである。本願により提供される１つのテキスト情報処理方法の処理構造概略図である。本願により提供される他のテキスト情報処理方法のフローチャートである。本願により提供される他のテキスト情報処理方法の処理構造概略図である。本願により提供されるテキスト情報処理装置の構造概略図である。本願により提供されるテキスト情報処理装置のハードウェア構造概略図である。

本願の実施例の目的、技術案及び利点をより明瞭にするために、以下、本願の実施例に係る図面を参照しながら、その技術案について明瞭、且つ完全に説明し、当然のことながら、記載される実施例は本願の実施例の一部にすぎず、そのすべての実施例ではない。当業者が、本願における実施例に基づいて創造的な労働をすることなく、取得されたその他のすべての実施例は、いずれも本願の保護範囲に属する。

本願の明細書及び／又は特許請求の範囲、及び、上記に記載の図面における用語「第１」、「第２」、「第３」、「第４」など（あれば）は、類似する対象を区別するためのものであり、特定の順序又は順番を説明するために使用される必要はない。本明細書に説明する本願の実施例を、例えば、本明細書に図示又は説明した順序とは異なる順序で実施できるように、そのように使用されるデータを適宜交換できると理解すべきである。また、「含む」と「持つ」という用語、及び、それらのあらゆる変形は、いずれも非排他的含有をカバーすることを意図し、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又はデバイスは、明記されているステップ又はユニットに限定される必要はなく、明記されていないか、又は、それらのプロセス、方法、製品又はデバイスに固有の他のステップ又はユニットを含み得る。

図１は、本願により提供されるテキスト情報処理方法の応用シーンの概略図である。図１を参照すれば、スマートデバイス１０１が含まれており、スマートデバイス１０１は、テキスト情報を受信し、テキスト情報を音声オーディオとして合成してよい。スマートデバイス１０１は、例えば、スマートフォン、スマートロボット、スマートリーダーなどの、テキスト情報に基づいて音声オーディオを合成できるデバイスであってよい。

本願には、テキスト情報に基づいて音声オーディオを合成するプロセスは、テキスト情報における各音素に対応する音素ベクトルとセマンティックベクトルとに基づき、現時点に対応するコンテキストベクトルを決定し、そして、現時点に対応するコンテキストベクトルに基づき、現時点での音声情報を決定することを含む。上記プロセスでは、各音素に対応する音素ベクトルとセマンティックベクトルとに基づき、現時点に対応するコンテキストベクトルを決定することにより、正確なコンテキストベクトルを取得し、決定される音声情報の正確さを向上させることができ、それによって、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。

以下、本願に係る技術案について具体的な実施例を参照しながら詳細に説明する。なお、以下のいくつかの具体的な実施例を、互いに組み合わせることができ、同様又は類似する内容は、異なる実施例では繰り返して説明しないようにする。

図２は、本願により提供されるテキスト情報処理方法のフローチャートである。図２に示すように、テキスト情報処理方法は、Ｓ２０１～Ｓ２０４を含む。

Ｓ２０１において、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得する。

選択的に、本願に示されているテキスト情報処理方法の実行主体は、スマートデバイスであるが、スマートデバイスに配置されたテキスト情報処理装置にしてもよく、当該テキスト処理装置は、ソフトウェア及び／又はハードウェアの組み合わせによって実現され得る。

１つの可能な実施形態では、テキスト情報の音素シーケンスを取得することができ、音素シーケンスが少なくとも１つの音素を含み、少なくとも１つの音素に基づき、各音素に対応する音素ベクトルを決定する。例えば、テキスト情報は、私は陝西にいるという情報であり、音素シーケンスは、ｗ、ｏ３、ｚ、ａｉ４、ｓｈ、ａｎ３、ｘ、ｉ１である。

さらに、プリセットデータテーブルから各音素に対応する音素ベクトルを取得することができ、プリセットデータテーブルには、少なくとも１つの音素及び各音素に対応する音素ベクトルが含まれる。

本願には、予め設定されたエンコーダーによって、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得る。選択的に、予め設定されたエンコーダーは、エンコーダー（Ｅｎｃｏｄｅｒ）－デコーダー（Ｄｅｃｏｄｅｒ）モデルにおけるエンコーダー（Ｅｎｃｏｄｅｒ）モデルと同じである。

Ｓ２０２において、前の時点で出力された第１のセマンティック情報を取得し、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報である。

具体的に、前の時点で出力された第１のセマンティック情報は、予め設定されたデコーダーが前の時点にて出力した情報（即ち、隠れ層状態ベクトル）である。選択的に、予め設定されたデコーダーは、エンコーダー（Ｅｎｃｏｄｅｒ）－デコーダー（Ｄｅｃｏｄｅｒ）モデルにおけるデコーダー（Ｄｅｃｏｄｅｒ）モデルと同じである。

Ｓ２０３において、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定する。

具体的に、第１のプリセットモデルによって、第１のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得し、さらに、セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定してもよいか、または、
第２のプリセットモデルによって、第１のセマンティック情報と、各音素に対応するセマンティックベクトルと音素ベクトルとの複合ベクトルとを処理し、セマンティックマッチング度合いを取得し、さらに、セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、現時点に対応するコンテキストベクトルを決定してもよい。

なお、第１のプリセットモデルの詳細の説明は、図３に係る実施例を参照されたい。第２のモデルの詳細の説明は、図５に係る実施例を参照されたい。

Ｓ２０４において、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点での音声情報を決定する。

具体的に、予め設定されたデコーダーによって、コンテキストベクトルと第１のセマンティック情報とを処理し、現時点での第２のセマンティック情報を取得し、さらに、第２のセマンティック情報に基づいて現時点での音声情報を決定することができ、現時点での音声情報は、現時点に対応するメルスペクトルである。

本願の実施例により提供されるテキスト情報処理方法は、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、前の時点で出力された第１のセマンティック情報を取得するステップであって、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含む。上記方法には、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定することで、決定されるコンテキストベクトルはより正確になり、決定される音声情報の正確性は向上し、それによって、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。

以下、上記実施例に基づき、本願により提供されるテキスト情報処理方法について、図３に係る実施例を参照しながら、さらに詳細に説明し、具体的に、図３を参照されたい。

図３は、本願により提供される１つのテキスト情報処理方法のフローチャートである。図３に示すように、テキスト情報処理方法は、Ｓ３０１～Ｓ３１１を含む。

Ｓ３０１において、テキスト情報の音素シーケンスを取得し、音素シーケンスが少なくとも１つの音素を含む。

具体的に、テキスト情報に対して音素変換処理を行うことにより、テキスト情報の音素シーケンスを得ることができる。

例えば、テキスト情報は、中国を愛するという情報である場合、中国を愛するという情報に対して音素変換処理を行うと、得られる音素シーケンスは、ｗ、ｏ３、ａｉ４、ｚｈ、ｏｎｇ１、ｇ、ｕｏ２である。ここで、ｗ、ｏ３、ａｉ４、ｚｈ、ｏｎｇ１、ｇ、ｕｏ２は、いずれも音素である。

Ｓ３０２において、プリセット音素リストで各音素に対応する識別子を検索する。

具体的に、プリセット音素リストには、少なくとも１つの音素及び各音素に対応する識別子が含まれており、各音素に対応する識別子は、プリセット番号又はインデックス番号であってよい。

例えば、各音素に対応する識別子はプリセット番号であると、音素シーケンスはｗ、ｏ３、ａｉ４、ｚｈ、ｏｎｇ１、ｇ、ｕｏ２である場合、プリセット音素リストで、上記音素シーケンスの中の音素に対応する識別子がそれぞれ５３、２２、１１、６６、３９、２８、４２であると検索する。

Ｓ３０３において、各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索する。

Ｓ３０４において、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得る。

具体的に、予め設定されたエンコーダーによって、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを取得し、予め設定されたエンコーダーの詳細の説明は、図４に係る実施例を参照されたい。

Ｓ３０５において、前の時点で出力された第１のセマンティック情報を取得し、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報である。

具体的に、Ｓ３０５を実行する方法は、Ｓ２０２と同じであるため、ここで、Ｓ３０５を実行するプロセスについて繰り返して説明しない。

Ｓ３０６において、第１のプリセットモデルによって、第１のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得し、第１のプリセットモデルが複数のグループの第１のサンプルを学習して得られるものであり、各グループの第１のサンプルがセマンティック情報とセマンティックベクトルとを含む。

Ｓ３０７において、セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定する。

選択的に、次の式２でセマンティックマッチング度合いを処理し、セマンティックアライメント度を取得し、さらに、次の式３でセマンティックアライメント度と各音素に対応するセマンティックベクトルとを処理し、セマンティックコンテキストベクトルを得てもよい。

なお、上記セマンティックアライメント度は、
という条件を満たす必要がある。

Ｓ３０８において、セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定する。

選択的に、上記式２でセマンティックマッチング度合いを処理し、セマンティックアライメント度を取得し、さらに、次の式４でセマンティックアライメント度と各音素に対応する音素ベクトルとを処理し、音素コンテキストベクトルを得てもよい。

Ｓ３０９において、セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定する。

選択的に、次の式５でセマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定してもよい。

Ｓ３１０において、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点に対応する第２のセマンティック情報を決定する。

具体的に、予め設定されたデコーダーによって、コンテキストベクトルと第１のセマンティック情報とに対してデコーディング処理を行い、現時点に対応する第２のセマンティック情報を得る。第２のセマンティック情報は、予め設定されたデコーダーの現時点での隠れ層状態ベクトル
である。

Ｓ３１１において、第２のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得る。

さらに、上記Ｓ３０５～Ｓ３１１を繰り返して実行し、すべての時点での音声情報を取得し、さらに、すべての時点での音声情報に対して、予め設定された音声シンセサイザーによって音声合成処理を行い、テキスト情報に対応する音声オーディオを取得し、すべての時点は、予め設定されたデコーダーの自己学習プロセス中に決定される。予め設定された音声シンセサイザーは、ＷａｖｅＮｅｔ音声シンセサイザーであってもよいし、又は他の音声シンセサイザーであってもよい。

従来技術において、勾配逆バックホール法により、各音素のセマンティックベクトルに基づいてコンテキストベクトルを学習するプロセスでは、計算誤差が生じ、得られるコンテキストベクトルが不正確になり、それによって、音声オーディオの品質が影響される。

従来技術とは異なり、本願に示されているテキスト情報処理方法は、セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックに関するコンテキストベクトルを得るステップと、セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素に関する音素コンテキストベクトルを得るステップと、セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを得るステップと、を含む。本願は、現時点に対応するコンテキストベクトルを決定するプロセスには、各音素に対応する音素ベクトル及び音声ベクトルが参考とされ、決定される現時点に対応するコンテキストベクトルの正確さが向上する。

図４は、本願により提供される１つのテキスト情報処理方法の処理構造概略図である。図４に示すように、当該処理構造は、予め設定されたエンコーダー１０１、注意学習器１０２及び予め設定されたデコーダー１０３を含む。注意学習器１０２は、第１のプリセットモデルを含み、当該注意学習器１０２は、予め設定されたエンコーダー１０１と予め設定されたデコーダー１０３とにそれぞれ接続される。

実際に応用されるとき、予め設定されたエンコーダー１０１は、図３に係る実施例のＳ３０４に示されている方法を実行し、各音素に対応するセマンティックベクトルを取得し、各音素に対応するセマンティックベクトルを注意学習器１０２に提供する。注意学習器１０２は、図３に係る実施例のＳ３０５に示されている方法を実行し、予め設定されたデコーダー１０３の前の時点での出力された第１のセマンティック情報を取得し、第１のセマンティック情報、各音素に対応する音素ベクトル及びセマンティックベクトルに基づき、Ｓ３０６～Ｓ３０９に示されている方法を順次実行し、現時点に対応するコンテキストベクトルを取得し、予め設定されたデコーダー１０３に現時点に対応するコンテキストベクトルを提供する。予め設定されたデコーダー１０３は、Ｓ３１０に示されている方法を実行し、現時点に対応する第２のセマンティック情報を得ることができる。

従来技術において、エンコーダーは、各音素に対応する音素ベクトルに対して符号化処理を行うことで得られる各音素に対応するセマンティックベクトルは、情報損失が発生するため、各音素に対応するセマンティックベクトルのみに基づいて現時点でのコンテキストベクトルを決定することで、現時点でのコンテキストベクトルを正確に決定できず、決定される音声情報が不正確になり、それによって、音声情報に基づいて合成される音声オーディオは、リズムが整えておらず、音質の安定性が劣っている。

しかし、本願において、図４に示されている処理構造には、注意学習器１０２は、テキスト情報における各音素に対応する音素ベクトルと、予め設定されたエンコーダー１０１により出力される各音素に対応するセマンティックベクトルとを学習して得られ、セマンティックマッチング度合い、セマンティックアライメント度及び現時点でのコンテキストベクトルを順次取得して、それによって、決定されるコンテキストベクトルはより正確になり、決定される音声情報の正確性は向上し、さらに、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。

以下、上記実施例に基づいて、本願により提供されるテキスト情報処理方法について、図５に係る実施例を参照しながら、さらに詳細に説明し、具体的に、図５を参照されたい。

図５は、本願により提供される他のテキスト情報処理方法のフローチャートである。図５に示すように、テキスト情報処理方法は、Ｓ５０１～Ｓ５１０を含む。

Ｓ５０１において、テキスト情報の音素シーケンスを取得し、音素シーケンスが少なくとも１つの音素を含む。

Ｓ５０２において、プリセット音素リストで各音素に対応する識別子を検索する。

Ｓ５０３において、各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索する。

Ｓ５０４において、各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得る。

Ｓ５０５において、前の時点で出力された第１のセマンティック情報を取得し、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報である。

具体的に、Ｓ５０１～Ｓ５０５を実行する方法は、Ｓ４０１～Ｓ４０５と同じであり、ここで、Ｓ５０１～Ｓ５０５を実行するプロセスを繰り返して説明しない。

Ｓ５０６において、各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定する。

Ｓ５０７において、第２のプリセットモデルによって、第１のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得し、第２のプリセットモデルが複数のグループの第２のサンプルを学習して得られたものであり、各グループの第２のサンプルがセマンティック情報と複合ベクトルとを含む。

なお、第２のプリセットモデルは、第１のプリセットモデルと同じであってもよいし、異なってもよい。

Ｓ５０８において、セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定する。

Ｓ５０９において、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点に対応する第２のセマンティック情報を決定する。

Ｓ５１０において、第２のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得る。

具体的に、Ｓ５０９とＳ５１０とを実行する方法は、Ｓ３１０とＳ３１１とを実行する方法と同じであり、ここで、Ｓ５０９とＳ５１０とを実行するプロセスを繰り返して説明しない。

なお、Ｓ５０５～Ｓ５１０を繰り返して実行し、すべての時点での音声情報を取得し、そして、予め設定された音声シンセサイザーによって、すべての時点での音声情報に対して音声合成処理を行い、テキスト情報に対応する音声オーディオを取得し、全ての時点は、予め設定されたデコーダーの自己学習プロセス中に決定される。予め設定された音声シンセサイザーは、ＷａｖｅＮｅｔ音声シンセサイザーであってもよいし、又は他の音声シンセサイザーであってもよい。

図６は、本願により提供される他のテキスト情報処理方法の処理構造概略図である。図６に示すように、当該処理構造は、予め設定されたエンコーダー２０１、注意学習器２０２、予め設定されたデコーダー２０３及び加算器２０４を含む。注意学習器２０２は、第２のプリセットモデルを含み、当該注意学習器２０２は、加算器２０４と予め設定されたデコーダー２０３とにそれぞれ接続され、予め設定されたエンコーダー２０１は、加算器２０４に接続される。

なお、テキスト情報に対応する音素行列は、テキスト情報における各音素に対応する音素ベクトルの組み合わせ行列である。

実際に応用されるとき、予め設定されたエンコーダー２０１は、図５に係る実施例のＳ５０４に示されている方法を実行し、各音素に対応するセマンティックベクトルを取得し、各音素に対応するセマンティックベクトルを注意学習器２０２に提供する。注意学習器２０２は、図５に係る実施例のＳ５０５に示されている方法を実行し、予め設定されたデコーダー２０３の前の時点での第１のセマンティック情報を取得し、第１のセマンティック情報、各音素に対応する音素ベクトル及びセマンティックベクトルに基づき、Ｓ５０６～Ｓ５０８に示されている方法を順次実行し、現時点に対応するコンテキストベクトルを取得し、予め設定されたデコーダー２０３に現時点に対応するコンテキストベクトルを提供する。予め設定されたデコーダー２０３は、Ｓ５０９に示されている方法を実行し、現時点に対応する第２のセマンティック情報を得る。

図６に示されている処理構造には、加算器２０４は、各音素に対応するセマンティックベクトルと音素ベクトルとに対して重ね合わせ処理を行い、各音素に対応する複合ベクトルを得ることにより、従来技術において、エンコーダーが各音素に対応する音素ベクトルに対して符号化処理を行うことで得られる各音素に対応するセマンティックベクトルにおける情報損失は補われ、決定されるセマンティックマッチング度合い、セマンティックアライメント度及び現時点でのコンテキストベクトルの正確さは向上し、それによって、決定される音声情報の正確さは向上し、音声情報に基づいて合成される音声オーディオは、より良いリズム及びより安定的な音質を持つようになる。

図７は、本願により提供されるテキスト情報処理装置の構造概略図である。当該テキスト情報処理装置１０は、スマートデバイスに配置されてもよい。図７に示すように、テキスト情報処理装置１０は、第１の取得モジュール１１、第２の取得モジュール１２、第１の決定モジュール１３及び第２の決定モジュール１４を含み、
第１の取得モジュール１１は、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
第２の取得モジュール１２は、前の時点で出力された第１のセマンティック情報を取得するために用いられ、第１のセマンティック情報がテキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
第１の決定モジュール１３は、第１のセマンティック情報、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
第２の決定モジュール１４は、コンテキストベクトルと第１のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられる。

本願の実施例により提供されるテキスト情報処理装置１０は、上記方法の実施例に示されている技術案を実行することができ、その実現原理及び有益な効果は類似するため、ここで繰り返して説明しない。

１つの可能な実施形態では、第１の決定モジュール１３は、具体的に、
第１のセマンティック情報と各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合い、各音素に対応する音素ベクトル及び各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の決定モジュール１３は、具体的に、
第１のプリセットモデルによって、第１のセマンティック情報と各音素に対応するセマンティックベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第１のプリセットモデルが複数のグループの第１のサンプルを学習して得られるものであり、各グループの第１のサンプルがセマンティック情報とセマンティックベクトルとを含む。

他の可能な実施形態では、第１の決定モジュール１３は、具体的に、
セマンティックマッチング度合いと各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定すること、
セマンティックマッチング度合いと各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定すること、及び
セマンティックコンテキストベクトルと音素コンテキストベクトルとに対して組み合わせ処理を行い、現時点に対応するコンテキストベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の決定モジュール１３は、具体的に、
各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定すること、
第１のセマンティック情報と各音素に対応する複合ベクトルとに基づき、セマンティックマッチング度合いを決定すること、及び
セマンティックマッチング度合いと各音素に対応する複合ベクトルとに基づき、現時点に対応するコンテキストベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の決定モジュール１３は、具体的に、
第２のプリセットモデルによって、第１のセマンティック情報と各音素に対応する複合ベクトルとを処理し、セマンティックマッチング度合いを取得するために用いられ、第２のプリセットモデルが複数のグループの第２のサンプルを学習して得られるものであり、各グループの第２のサンプルがセマンティック情報と複合ベクトルとを含む。

他の可能な実施形態では、第２の決定モジュール１４は、具体的に、
コンテキストベクトルと第１のセマンティック情報とに基づき、現時点に対応する第２のセマンティック情報を決定すること、及び
第２のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、現時点での音声情報を得ること、に用いられる。

他の可能な実施形態では、第１の取得モジュール１１は、具体的に、
少なくとも１つの音素を含む、テキスト情報の音素シーケンスを取得すること、及び
少なくとも１つの音素に基づき、各音素に対応する音素ベクトルを決定すること、に用いられる。

他の可能な実施形態では、第１の取得モジュール１１は、具体的に、
プリセット音素リストで各音素に対応する識別子を検索すること、及び
各音素に対応する識別子に従って、プリセット音素ルックアップテーブルで各音素に対応する音素ベクトルを検索すること、に用いられる。

他の可能な実施形態では、第１の取得モジュール１１は、具体的に、
各音素に対応する音素ベクトルに対して符号化処理を行い、各音素に対応するセマンティックベクトルを得るために用いられる。

図８は、本願により提供されるテキスト情報処理装置のハードウェア構造概略図である。当該テキスト情報処理装置２０は、スマートデバイスに配置されてよい。図８に示すように、当該テキスト情報処理装置２０は、少なくとも１つのプロセッサ２１とメモリ２２とを含む。プロセッサ２１とメモリ２２は、バス２３を介して接続される。

具体的な実現プロセスでは、少なくとも１つのプロセッサ２１は、メモリ２２に記憶されたコンピュータで実行可能な命令を実行すると、少なくとも１つのプロセッサ２１は、上記したテキスト情報処理方法を実行する。

プロセッサ２１の具体的な実現プロセスは、上記方法の実施例を参照することができ、その実現原理及び技術的効果は類似するため、本実施例では繰り返して説明しない。

上記図８に示されている実施例では、プロセッサは中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、略称ＣＰＵ）であってもよく、他の汎用プロセッサ、デジタルシグナルプロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、略称ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ、略称ＡＳＩＣ）などであってもよいことを理解すべきである。汎用プロセッサは、マイクロプロセッサであってもよいし、任意のノーマルのプロセッサなどであってもよい。本願に開示された方法を組み合わせたステップは、ハードウェアプロセッサで、又はプロセッサ内のハードウェア及びソフトウェアモジュールの組み合わせで実行して完了されることに直接的に具現化され得る。

メモリは、高速ＲＡＭメモリを含み得るが、場合によっては少なくとも1つの磁気ディスクメモリなどの不揮発性ストレージＮＶＭも含み得る。

バスは、工業標準体系構造（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＩＳＡ）バス、外部デバイス相互接続（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔ、ＰＣＩ）バス、又は拡大工業標準体系構造（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、ＥＩＳＡ）バスなどであってもよい。バスはアドレスバス、データバス、コントロールバスなどに分けられる。表現を容易にするために、本願の図面におけるバスは、１つのバス又は１種のバスだけを限定するものではない。

本願は、さらに、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体には、コンピュータで実行可能な命令が記憶されており、プロセッサはコンピュータで実行可能な命令を実行すると、上記したテキスト情報処理方法は実施される。

本願の実施例は、さらに、コンピュータプログラムを提供し、当該コンピュータプログラムはプロセッサにより実行されることができ、コンピュータプログラムは実行されると、上記方法のいずれか１つの実施例における技術案は実施できる。その実現原理及び有益な効果は類似するため、ここで繰り返して説明しない。

本願の実施例は、さらに、メモリとプロセッサとを含むチップを提供し、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサは、前記コンピュータプログラムを実行して、上記いずれか１つの方法実施例における技術案を実行する。その実現原理及び有益な効果は類似するため、ここで繰り返して説明しない。

上記したコンピュータ可読記憶媒体として、上記可読記憶媒体は、任意のタイプの揮発性又は不揮発性ストレージデバイス、又はそれらの組み合わせによって実装でき、例えば、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、電気的に消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又はコンパクトディスクであってもよい。可読記憶媒体は、汎用コンピュータ又は特定用途向けコンピュータによってアクセスできる任意の利用可能な媒体にすることができる。

１つの例示的な可読記憶媒体は、プロセッサが当該可読記憶媒体から情報を読み取り、当該可読記憶媒体に情報を書き込むことができるようにプロセッサにカップリングされる。無論、可読記憶媒体は、プロセッサの構成部分であってもよい。プロセッサ及び可読記憶媒体は、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ，略称ＡＳＩＣ）に存在してもよい。無論、プロセッサと可読記憶媒体は、装置に別個のコンポーネントとして存在してもよい。

ユニットの分割は、論理機能上の分割にすぎず、実際に実施する際に別の形態で分割してもよく、例えば、複数のユニット又はコンポーネントを別のシステムに組み合わせもしくは集積させたり、又は一部の特徴を反映させず、実行しなかったりしてもよい。また、説明又は検討した各コンポーネントの互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、機器又はユニットを用いる間接的接続又は通信接続であってもよく、電気的形態、機械的形態又はその他の形態であってもよい。

分離される部品として説明されるユニットは、物理的に分離されるものでもよければ、分離されないものであってもよい。ユニットとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。即ち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。実際の必要に応じて、一部のユニットだけを用いるか、又はすべてのユニットを使用して本実施例に係る技術案の目的を達成することができる。

また、本願の各実施例では、各機能ユニットが１つの処理ユニットに集積されてもよいが、各ユニットが物理的に単独で１つのユニットとして存在するか、又は２つかまたは２つ以上のユニットが１つのユニットに集積されてもよい。

機能は、ソフトウェア機能ユニットの形で実施され、独立した製品として販売または使用される場合、１つのコンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本願の技術案は、本質的にソフトウェア製品の形で具現化されてもよいし、従来の技術に寄与する部分がソフトウェア製品の形で具現化されてもよいし、当該技術案の一部がソフトウェア製品の形で具現化されてもよい。当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい）に、本願の各実施例の方法のすべて又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み取り専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク、又はコンパクトディスクなどプログラムコードを記憶できる様々な媒体を含む。

当業者は、上記各方法各実施例を実施するステップのすべて又は一部は、プログラム命令に関連するハードウェアによって完了されることができることを理解できる。前述したプログラムは、コンピュータで読み取り可能な記憶媒体に記憶できる。当該プログラムによる実行は、上記各方法の実施例が含まれるステップを実行し、前述した記憶媒体は、ＲＯＭ、ＲＡＭ、磁気ディスク又はコンパクトディスクなどプログラムコードを記憶できる様々な媒体を含む。

最後に、以上の各実施例は、本願の技術案を説明するためのものであって、それを制限するものではなく、前述した各実施例を参照しながら本願を詳細に説明するが、当業者であれば、依然として前述した各実施例に記載の技術案を修正するか、又はそのうちの一部又はすべての技術的特徴に対して等価置換を行うことができ、それらの修正又は置換は、対応する技術案の本質を本願の各実施例の技術案の範囲から逸脱しないと理解すべきである。

本願は、２０２０年０３月１２日に中国特許庁に提出された、出願番号が２０２０１０１７２５７５．７、発明の名称が「テキスト情報処理方法及び装置」である中国特許出願の優先権を主張し、そのすべての内容は援用によって本願に組み込まれる。

Claims

スマートデバイスによって実行されるテキスト情報処理方法であって、
テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するステップと、
前の時点で出力された第１のセマンティック情報を取得するステップであって、前記第１のセマンティック情報が前記テキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、前記一部のテキスト情報がすでに音声情報に変換されたテキスト情報であるステップと、
前記第１のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップと、
前記コンテキストベクトルと前記第１のセマンティック情報とに基づき、現時点での音声情報を決定するステップと、を含み、
前記第１のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するステップは、
前記第１のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップと、
前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含む、
ことを特徴とするスマートデバイスによって実行されるテキスト情報処理方法。
前記第１のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップは、
前記第１のセマンティック情報と前記各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップと、
前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
前記セマンティックマッチング度合い、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記第１のセマンティック情報と前記各音素に対応するセマンティックベクトルとに基づき、セマンティックマッチング度合いを決定するステップは、
第１のプリセットモデルによって、前記第１のセマンティック情報と前記各音素に対応するセマンティックベクトルとを処理し、前記セマンティックマッチング度合いを取得するステップであって、前記第１のプリセットモデルが複数のグループの第１のサンプルを学習して得られるものであり、各グループの第１のサンプルがセマンティック情報とセマンティックベクトルとを含むステップを含むことを特徴とする請求項２に記載の方法。
前記セマンティックマッチング度合い、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
前記セマンティックマッチング度合いと前記各音素に対応するセマンティックベクトルとに基づき、セマンティックコンテキストベクトルを決定するステップと、
前記セマンティックマッチング度合いと前記各音素に対応する音素ベクトルとに基づき、音素コンテキストベクトルを決定するステップと、
前記セマンティックコンテキストベクトルと前記音素コンテキストベクトルとに対して組み合わせ処理を行い、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項３に記載の方法。
前記第１のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定するステップは、
前記各音素に対応する音素ベクトルと前記各音素に対応するセマンティックベクトルとに基づき、各音素に対応する複合ベクトルを決定するステップと、
前記第１のセマンティック情報と前記各音素に対応する複合ベクトルとに基づき、前記セマンティックマッチング度合いを決定するステップと、
前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するステップは、
前記セマンティックマッチング度合いと前記各音素に対応する複合ベクトルとに基づき、前記現時点に対応するコンテキストベクトルを決定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記第１のセマンティック情報と前記各音素に対応する複合ベクトルとに基づき、前記セマンティックマッチング度合いを決定するステップは、
第２のプリセットモデルによって、前記第１のセマンティック情報と前記各音素に対応する複合ベクトルとを処理し、前記セマンティックマッチング度合いを取得するステップであって、前記第２のプリセットモデルが複数のグループの第２のサンプルを学習して得られるものであり、各グループの第２のサンプルがセマンティック情報と複合ベクトルとを含むステップを含むことを特徴とする請求項５に記載の方法。
前記コンテキストベクトルと前記第１のセマンティック情報とに基づき、現時点での音声情報を決定するステップは、
前記コンテキストベクトルと前記第１のセマンティック情報とに基づき、前記現時点に対応する第２のセマンティック情報を決定するステップと、
前記第２のセマンティック情報に対してメルスペクトルネットワークマッピング処理を行い、前記現時点での音声情報を得るステップと、を含むことを特徴とする請求項４又は６に記載の方法。
テキスト情報処理装置であって、第１の取得モジュール、第２の取得モジュール、第１の決定モジュール及び第２の決定モジュールを含み、
前記第１の取得モジュールは、テキスト情報における各音素に対応する音素ベクトルと各音素に対応するセマンティックベクトルとを取得するために用いられ、
前記第２の取得モジュールは、前の時点で出力された第１のセマンティック情報を取得するために用いられ、前記第１のセマンティック情報が前記テキスト情報の中の一部のテキスト情報に対応するセマンティック情報であり、前記一部のテキスト情報がすでに音声情報に変換されたテキスト情報であり、
前記第１の決定モジュールは、前記第１のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、現時点に対応するコンテキストベクトルを決定するために用いられ、
前記第２の決定モジュールは、前記コンテキストベクトルと前記第１のセマンティック情報とに基づき、現時点での音声情報を決定するために用いられ、
前記第１の取得モジュールは、前記第１のセマンティック情報、前記各音素に対応する音素ベクトル及び前記各音素に対応するセマンティックベクトルに基づき、セマンティックマッチング度合いを決定して、前記セマンティックマッチング度合いに基づき、前記現時点に対応するコンテキストベクトルを決定するために用いられることを特徴とするテキスト情報処理装置。
少なくとも１つのプロセッサとメモリとを含むテキスト情報処理装置であって、
前記メモリにはコンピュータで実行可能な命令が記憶され、
前記少なくとも１つのプロセッサが前記メモリに記憶されたコンピュータで実行可能な命令を実行すると、前記少なくとも１つのプロセッサが請求項１～７のいずれか１項に記載のテキスト情報処理方法を実行することを特徴とするテキスト情報処理装置。
コンピュータ可読記憶媒体であって、コンピュータに請求項１～７のいずれか１項に記載のテキスト情報処理方法を実行させるためのプログラムを記録したことを特徴とするコンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項１～７のいずれか１項に記載のテキスト情報処理方法が実施されることを特徴とするコンピュータプログラム。
メモリとプロセッサとを含むチップであって、前記メモリには、コンピュータプログラムが記憶されており、前記プロセッサが前記コンピュータプログラムを実行すると、請求項１～７のいずれか１項に記載のテキスト情報処理方法が実行されることを特徴とするチップ。