JP2020505652A

JP2020505652A - 音声変換方法、コンピュータ機器、及び記憶媒体

Info

Publication number: JP2020505652A
Application number: JP2019542154A
Authority: JP
Inventors: ユアン，ハオレイ; メイ，シャオ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2017-02-21
Filing date: 2018-01-29
Publication date: 2020-02-20
Anticipated expiration: 2038-01-29
Also published as: US20190221201A1; KR102239650B1; CN106920547A; EP3588490B1; EP3588490A4; EP3588490A1; JP6893246B2; KR20190065408A; CN106920547B; US10878803B2; WO2018153223A1

Abstract

音声変換方法であって、ターゲットテキストを取得し（Ｓ３０２）、前記ターゲットテキストに対応する第１機械音声を合成し（Ｓ３０４）、非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し（Ｓ３０６）、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し（Ｓ３０８）、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第２機械音声を合成し（Ｓ３１０）、前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し（Ｓ３１２）、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る（Ｓ３１４）、ことを含む。

Description

本願は、２０１７年２月２１日に中国特許庁に提出された、出願番号が２０１７１００９３８６０８であり、発明の名称が「音声変換方法及び装置」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。

本願は、コンピュータ技術分野に関し、特に、音声変換方法、コンピュータ機器、及び記憶媒体に関する。

コンピュータ技術の発達に伴い、音声内容変換が、例えば、小説音読や音声ナビにおける個性的な声の実現などにますます広く適用されている。生活水準の向上に伴い、人々は、音声内容変換について、ただ単なる音色の変換に満足するのではなく、変換された音声が特定の話者の発話の習慣及び発話のスタイルにより合致することも要求する。

従来の音声内容変換技術では、変換によってターゲット話者の音声を得ることを必要とする場合、主に、音色の変換によって、他の話者の音声をターゲット話者の音声に変換する。しかしながら、従来の音声変換方法によって得られる音声は、話者の音声スタイルを真実に反映できないことで、真実の話者に比べると、音声変換効果に一定の開きがある。

本願により提供される各実施例によれば、音声変換方法、コンピュータ機器、及び記憶媒体が提供される。

音声変換方法であって、
コンピュータ機器がターゲットテキストを取得し、
前記コンピュータ機器が、前記ターゲットテキストに対応する第１機械音声を合成し、
前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
前記コンピュータ機器が、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記コンピュータ機器が、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第２機械音声を合成し、
前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを含み、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。

コンピュータ機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第１機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第２機械音声を合成し、
前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。

コンピュータ可読命令を記憶した１つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令は、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第１機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第２機械音声を合成し、
前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする。

本願の１つ又は複数の実施例の詳細は、次の図面及び説明に示される。本願の他の特徴、目的、及びメリットは、明細書、図面、及び請求の範囲から明らかになる。

本願の実施例の構成をより明確に説明するために、以下、実施例の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願の幾つかの実施例を示しているにすぎず、当業者にとって、創造的な労働をせずに、これらの図面から他の図面を得ることもできる。
一実施例における音声変換方法を実現するためのコンピュータ機器の内部構成の模式図である。一実施例における端末で音声変換方法を実現する場合の画面の模式図である。一実施例における音声変換方法のフローの模式図である。一実施例における非同期機械音声ライブラリから、韻律的特徴が第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することのフローの模式図である。一実施例における同期機械音声ライブラリから、第２機械音声の音響特徴とマッチングする同期機械音声単位を選別することのフローの模式図である。一実施例における話者音声ライブラリにおける同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることのフローの模式図である。一実施例における隣接する話者音声単位の接続の模式図である。一実施例における音声ライブラリの構築の論理ブロック図である。一実施例における音声変換方法の論理ブロック図である。一実施例におけるコンピュータ機器の構成ブロック図である。他の実施例におけるコンピュータ機器の構成ブロック図である。

本願の目的、構成、及びメリットをより明確にするために、以下、図面および実施例を参照して、本願をさらに詳しく説明する。理解すべきものとして、ここで説明される具体的な実施例は、本発明を解釈するためのものにすぎず、本発明を限定するものではない。

図１は、一実施例における音声変換方法を実現するためのコンピュータ機器の内部構成の模式図である。該コンピュータ機器は、サーバ又は端末であってもよい。該端末は、デスクトップ端末又は移動端末であってもよく、移動端末は、具体的に、携帯電話、タブレットコンピュータ、ラップトップコンピュータなどの少なくとも１つであってもよい。図１に示すように、該コンピュータ機器は、システムバスを介して接続されるプロセッサと、メモリと、ネットワークインターフェースと、を備える。ここで、メモリは、不揮発性記憶媒体及び内部メモリを含む。該コンピュータ機器の不揮発性記憶媒体は、オペレーティングシステム及びコンピュータ可読命令を記憶することができる。該コンピュータ可読命令が実行されると、プロセッサに音声変換方法を実行させることができる。該プロセッサは、計算及び制御の機能を提供し、端末全体の作動をサポートするものである。コンピュータ機器の内部メモリには、コンピュータ可読命令が記憶されてもよい。該コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに音声変換方法を実行させることができる。当業者であれば理解できるように、図１に示された構成は、本願発明に係る一部の構成のブロック図にすぎず、本願発明が適用されるコンピュータ機器を限定するものではない。具体的なコンピュータ機器は、図示よりも多く又は少ない構成要素を含んでもよく、又はいくらかの構成要素を組み合わせたものであってもよく、又は構成要素の異なる配置を有してもよい。

図２は、一実施例における端末で音声変換方法を実現する場合の画面の模式図である。具体的には、端末において、該音声変換方法を実行するためのアプリケーションプログラムを実行可能である。図２の左図に示すように、ユーザは、該アプリケーションプログラムを実行させて、マルチメディアデータを再生することができる。マルチメディアデータに含まれる音声に内容の間違いが存在して修正する必要がある場合、又は、映像画面に応じて音声を再び調整する必要がある場合、ユーザは、再生されるマルチメディアデータのうち、修正又は調整を必要とする音声を特定し、遷移エントリ２１０によって図２の右図に示す画面に遷移することができる。ユーザは、さらに、該アプリケーションプログラムにより提供されたテキスト入力ボックス２２０において、テキスト内容を入力することができる。該テキスト内容は、修正又は調整を必要とする音声に対応する正しいテキスト内容である。このように、アプリケーションプログラムは、ユーザがテキスト入力ボックスにおいて入力したテキスト内容を音声に変換すると、修正又は調整を必要とする音声内容を、変換された音声に取り替えることができる。

他のシナリオでは、例えば、該アプリケーションプログラムは、具体的に、ソーシャルアプリケーションプログラムであってもよい。ユーザは、ソーシャルアプリケーションプログラムによってソーシャルトークを行う場合に、ターゲット話者音声を送信したいとき、ソーシャルアプリケーションプログラムにより提供されたテキスト入力ボックスによって、テキスト内容を入力することができる。該テキスト内容は、ユーザの合成したい音声に対応するテキスト内容である。このように、ソーシャルアプリケーションプログラムは、ユーザがテキスト入力ボックスにおいて入力したテキスト内容を音声に変換すると、該変換された音声を送信することができる。

具体的には、端末は、ユーザが入力したテキスト内容を取得すると、該テキスト内容をターゲットテキストとして、該ターゲットテキストに対応する第１機械音声を合成し、非同期機械音声ライブラリから、韻律的特徴が第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、同期機械音声ライブラリから、該非同期機械音声単位系列に対応する同期機械音声単位系列を検索することにより、話者の音声スタイルに合致する韻律的特徴を得る。

さらに、端末は、該同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第２機械音声を合成し、前記同期機械音声ライブラリから、第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、話者音声ライブラリにおける該同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得るようにしてもよい。端末は、話者ターゲット音声を得た後、得られた該話者ターゲット音声を、現在トークにおける他のトークユーザに対応する端末に送信してもよい。

ここで、同期機械音声ライブラリ、非同期機械音声ライブラリ、及び話者音声ライブラリのテキスト内容が同じであり、話者音声ライブラリと同期機械音声ライブラリとの韻律的特徴がマッチングする。他の実施例では、端末は、非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリをサーバにアップロードしてもよい。これにより、サーバも、非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリに基づいて、該音声変換方法を実現することができる。

図３に示すように、一実施例では、音声変換方法が提供されている。本実施例では、該方法を上記の図１の端末に適用することを例として説明する。該方法は、具体的に以下のステップを含む。

Ｓ３０２で、ターゲットテキストを取得する。

ここで、ターゲットテキストとは、変換先である話者ターゲット音声に対応するテキスト内容である。テキスト内容とは、１つより多い文字を順に並べて構成した文字列である。本実施例では、変換先である話者ターゲット音声に対応するテキスト内容は、話者が話していない内容であってもよい。

具体的には、端末は、入力画面を提供して、ユーザが入力画面を介して入力した、音声変換を必要とするテキスト内容を取得し、取得されたテキスト内容をターゲットテキストとするようにしてもよい。

Ｓ３０４で、ターゲットテキストに対応する第１機械音声を合成する。

ここで、機械音声とは、自動音声合成システムの処理によって得られる、自動音声合成システムの音声スタイルに合致するオーディオデータである。第１機械音声とは、音色及び韻律的特徴の両方が自動音声合成システムの音声スタイルに合致する機械音声である。音色とは、発音体が発する音の特色である。異なる発音体は、材料、構造が異なるため、発する音の音色も異なる。物理学では、周波数スペクトルパラメータで音色を表現する。韻律的特徴とは、発音体が発する音の基本音調及びリズムである。物理学では、基本周波数パラメータ、時間長分布、及び信号強度で韻律的特徴を表現する。自動音声合成システムは、音声合成を行うためのシステムであり、具体的にテキスト読み上げ（ＴＴＳ：ＴｅｘｔＴｏＳｐｅｅｃｈ）パラメータ合成システムであってもよい。

具体的には、端末は、ターゲットテキストを取得した後、ＴＴＳパラメータ合成システムに基づいて、音声合成を行ってもよい。端末は、まず、ターゲットテキストに対して、テキストの文分割、単語分割、多音字の処理、数字の処理、略語の処理などを含む言語学的分析を行って、文の階層構造及び各字の音素構成を決定するようにしてもよい。端末は、さらに、処理されたテキストから、自動音声合成システムで音を合成し、ＴＴＳの韻律的特徴に応じて音声波形に変換して、第１機械音声を得るようにしてもよい。

Ｓ３０６で、非同期機械音声ライブラリから、韻律的特徴が第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、ここで、同期機械音声ライブラリ、非同期機械音声ライブラリ、及び話者音声ライブラリのテキスト内容が同じであり、話者音声ライブラリと同期機械音声ライブラリとの韻律的特徴がマッチングする。

ここで、話者音声ライブラリには、若干の話者音声単位系列が含まれる。話者音声単位系列とは、少なくとも１つの話者音声単位を順に並べて構成した系列である。話者音声単位ライブラリにおける各話者音声単位系列は、いずれも話者履歴音声から選択され、音色及び韻律的特徴の両方が話者の音声スタイルに合致する。

話者音声ライブラリにおける各話者音声単位系列毎に、それとテキスト内容が同じである１つの機械音声単位系列が存在する。これらの機械音声単位系列は、韻律的特徴が話者の韻律的特徴に合致しないため、非同期機械音声単位系列と呼ばれる。これらの非同期機械音声単位系列によって、非同期機械音声ライブラリが構成される。

話者音声ライブラリにおける各話者音声単位系列毎に、それとテキスト内容が同じであってかつ韻律的特徴がマッチングする１つの機械音声単位系列が存在する。これらの機械音声単位系列は、韻律的特徴が話者の韻律的特徴に合致するため、同期機械音声単位系列と呼ばれる。これらの同期機械音声単位系列によって、同期機械音声ライブラリが構成される。

さらに、テキスト内容に応じて、非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリを整列して、平行音声ライブラリとして統合してもよい。非同期機械音声ライブラリ、同期機械音声ライブラリ、及び話者音声ライブラリは、いずれも、ファイル、データベース、又はバッファに記憶され、必要に応じて、ファイル、データベース、又はバッファから取得されるようにしてもよい。

具体的には、端末は、列挙方式によって、非同期機械音声ライブラリにおける非同期機械音声単位系列を順次に取得し、取得された非同期機械音声単位系列と第１機械音声との韻律的特徴の比較を行い、非同期機械音声ライブラリに含まれる各非同期機械音声単位系列と第１機械音声との比較を完了すると、第１機械音声の韻律的特徴に最も近い非同期機械音声単位系列を選択して、マッチングする非同期機械音声単位系列とするようにしてもよい。

ここで、韻律的特徴の比較は、各非同期機械音声単位系列と第１機械音声との対応する基本周波数パラメータの比較、及び、各非同期機械音声単位系列と第１機械音声との対応する時間長分布の比較を含む。

Ｓ３０８で、同期機械音声ライブラリにおいて、非同期機械音声単位系列に対応する同期機械音声単位系列を検索する。

ここで、音声単位は、端末でカスタマイズされた時間尺度である。本実施例では、端末は、漢語ピンインの構築方式によって、話者履歴音声に対して音声単位分割を行う。例を挙げて説明すると、漢字「単元」のピンインは「ｄａｎｙｕａｎ」である。それを漢語ピンインの構築方式によって分割して、それぞれ「ｄ」、「ａｎ」、「ｙ」、「ｕａｎ」である４つの音声単位が得られる。他の実施例では、端末は、文字又は音素などに応じて、音声単位分割を行ってもよい。

具体的には、端末は、同期機械音声ライブラリにおいて、テキスト内容を介して非同期機械音声単位系列に対応付けられた同期機械音声単位系列を検索して、該同期機械音声単位系列を取得してもよい。

Ｓ３１０で、同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第２機械音声を合成する。

ここで、第２機械音声とは、音色が自動音声合成システムの音声スタイルに合致する一方、韻律的特徴が話者の音声スタイルに合致する機械音声である。第２機械音声及び第１機械音声は、いずれも機械音声であるが、異なる機械音声である。

具体的には、端末は、自動音声合成システムで、同期機械音声単位系列の韻律的特徴に応じて、話者の韻律的特徴に合致する第２機械音声を合成してもよい。

例を挙げて説明する。ターゲットテキスト内容が「小橋流水人家」（ピンインは「ｘｉａｏｑｉａｏｌｉｕｓｈｕｉｒｅｎｊｉａ」）であると仮定すると、ＴＴＳパラメータ合成システムでＴＴＳ自身の韻律的特徴に基づいて合成された第１機械音声が「ｘｉａｏｑｉａｏｌｉｕ−ｓｈｕｉ−ｒｅｎｊｉａ」となる。同期機械音声ライブラリにおいて検索された同期機械音声単位系列が「ｋｕｔｅｎｇ−ｌａｏｓｈｕ−ｈｕｎｙａ」となり、ＴＴＳパラメータ合成システムで同期機械音声単位系列の韻律的特徴に基づいて合成された第２機械音声が「ｘｉａｏｑｉａｏ−ｌｉｕｓｈｕｉ−ｒｅｎｊｉａ」となる。ここで、「−」は、ポーズを表す。

Ｓ３１２で、同期機械音声ライブラリから、第２機械音声の音響特徴とマッチングする同期機械音声単位を選別する。

ここで、音響特徴とは、発音体の振動によって生じる音波の物理学的な特徴である。音響パラメータは、音響特徴を表現するためのパラメータであり、具体的に、基本周波数パラメータ、周波数スペクトルパラメータ、及び非周期信号パラメータなどを含む。

具体的には、端末は、第２機械音声の生成段階での単位分割に基づいて、相応する機械音声単位系列を得、生成段階での各音声単位の発音注記に基づいて、同期機械音声ライブラリから、発音が同じである同期機械音声単位を検索して、候補同期機械音声単位とするようにしてもよい。

端末は、同期機械音声ライブラリに記憶された、候補同期機械音声単位に対応付けられた単位音響パラメータを検索し、検索された単位音響パラメータを逐一、相応する第２機械音声における音声単位の単位音響パラメータと比較し、単位音響パラメータの比較を完了すると、第２機械音声の音響パラメータに最も近い候補同期機械音声単位を選択して、音響特徴がマッチングする話者音声単位とするようにしてもよい。

Ｓ３１４で、話者音声ライブラリにおける同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。

具体的には、端末は、話者音声ライブラリにおいて、テキスト内容を介して同期機械音声単位に対応付けられた話者音声単位を検索し、検索された話者音声単位を接続して、話者ターゲット音声を得るようにしてもよい。

上記音声変換方法では、接続して話者ターゲット音声を得るための音声単位が話者音声ライブラリから選択され、接続して変換された音声には、話者の音色が保たれる。また、非同期機械音声ライブラリにおける機械の韻律的特徴に合致する非同期機械音声単位系列と、同期機械音声ライブラリにおける話者の韻律的特徴に合致する同期機械音声単位系列との対応関係が利用され、機械の韻律的特徴に合致する第１機械音声を合成した後、対応関係に基づいて、話者の音声スタイルに合致する韻律的特徴を決定する。また、該韻律的特徴に基づいて第２機械音声を合成し、第２機械音声の音響特徴を根拠として、同期機械音声ライブラリから、第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、さらに、話者音声ライブラリにおける、選択された同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。これにより、話者の韻律的特徴が保たれる。このように、話者の音色が保たれる上に、話者の韻律的特徴が保たれ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致し、音声変換効果を向上させる。

図４に示すように、一実施例では、ステップＳ３０６は、以下のステップを含む。

Ｓ４０２で、第１機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得する。

具体的には、端末は、非同期機械音声ライブラリにおける非同期機械音声単位系列を、非同期機械音声単位系列に含まれる非同期機械音声単位の数量によって、事前に分類してもよい。端末は、第１機械音声を合成した後、第１機械音声の生成時の音声単位分割に基づいて、分割された機械音声単位の数量を統計し、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が統計された数量以上である非同期機械音声単位系列を取得して、候補音声単位系列とするようにしてもよい。

一実施例では、ステップＳ４０２は、具体的に、第１機械音声に含まれる機械音声単位の数量を決定し、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された数量に等しい候補非同期機械音声単位系列を取得する、ことを含む。

具体的には、端末は、非同期機械音声単位系列を選択するための候補条件を予め設定してもよい。該候補条件は、含まれる非同期機械音声単位の数量が、第１機械音声に含まれる機械音声単位の数量に等しいことである。非同期機械音声単位系列に含まれる非同期機械音声単位の数量が、第１機械音声に含まれる機械音声単位の数量以上である場合、候補条件が満たされると判定し、該非同期機械音声単位系列、又は該非同期機械音声単位系列に含まれる非同期機械音声単位子系列を候補非同期機械音声単位系列とする。

本実施例では、第１機械音声に含まれる機械音声単位の数量を根拠として、候補非同期機械音声単位系列を選択して韻律的特徴差異度を算出することにより、韻律的特徴差異度の算出結果の信頼性を向上させる。

一実施例では、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された数量に等しい候補非同期機械音声単位系列を取得することは、具体的に、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査し、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より少ない場合、走査を続け、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量に等しい場合、現在走査中の非同期機械音声単位系列を候補非同期機械音声単位系列とし、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より多い場合、現在走査中の非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された数量に応じて、候補非同期機械音声単位系列を分割する、ことを含む。

本実施例では、含まれる非同期機械音声単位の数量が、第２機械音声に含まれる機械音声単位の数量より多い非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された数量に応じて、非同期機械音声単位子系列を分割して、候補非同期機械音声単位系列とする。これは、自然言語の一貫性に適合して、韻律的特徴差異度の算出結果の信頼性を保証する上に、非同期機械音声ライブラリにおける言語資料の利用率を向上させる。

例を挙げて説明する。第１機械音声単位から、ａ−ｂ−ｃの３つの機械音声単位が分割されると仮定する。端末は、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査する際に、現在走査中の非同期機械音声単位系列がｄ−ｅである場合、該非同期機械音声単位系列に２つの非同期機械音声単位が含まれ、候補条件に合致しなく、走査を続ける。現在走査中の非同期機械音声単位系列がｆ−ｇ−ｈである場合、該非同期機械音声単位系列に３つの非同期機械音声単位が含まれ、候補条件に合致し、端末は、「ｆ−ｇ−ｈ」を直接に候補非同期機械音声単位系列としてもよい。

現在走査中の非同期機械音声単位系列がｉ−ｊ−ｋ−ｌである場合、該非同期機械音声単位系列に４つの非同期機械音声単位が含まれ、候補条件に合致するが、該非同期機械音声単位系列に含まれる非同期機械音声単位の数量が、第１機械音声に含まれる機械音声単位の数量より多いため、該非同期機械音声単位系列から、含まれる非同期機械音声単位の数量が、第１機械音声に含まれる機械音声単位の数量に等しい非同期機械音声単位子系列を分割する必要がある。非同期機械音声単位系列が単方向性を持つので、端末は、非同期機械音声単位子系列「ｉ−ｊ−ｋ」、「ｊ−ｋ−ｌ」、「ｉ−ｋ−ｌ」、「ｉ−ｊ−ｌ」を候補非同期機械音声単位系列としてもよい。

Ｓ４０４で、候補非同期機械音声単位系列と第１機械音声との韻律的特徴差異度を決定する。

具体的には、端末は、候補非同期機械音声単位系列を選択した後、各候補非同期機械音声単位系列と第１機械音声との韻律的特徴差異度を順次に算出してもよい。

一実施例では、ステップＳ４０４は、具体的に、第１機械音声から機械音声単位を分割し、候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との韻律的パラメータ差異値に基づいて、候補非同期機械音声単位系列と第１機械音声との韻律的特徴差異度を生成する、ことを含む。ここで、韻律的パラメータ差異値は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも１つを含む。

具体的には、端末は、第１機械音声の合成時に得られた第１機械音声の韻律的パラメータ及び相応する機械音声単位分割によって、単位韻律的パラメータを得るようにしてもよい。端末は、さらに、候補非同期機械音声単位系列に含まれる各非同期機械音声単位に対応する単位韻律的パラメータを取得し、非同期機械音声単位に対応する単位韻律的パラメータと、相応する分割された機械音声単位に対応する単位韻律的パラメータとの差異値を算出することにより、候補非同期機械音声単位系列と第１機械音声との韻律的特徴差異度を算出するようにしてもよい。

本実施例では、候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との各韻律的パラメータ差異値によって、韻律的特徴差異度を算出する。韻律的特徴に影響する各パラメータを用いて算出することにより、韻律的特徴のマッチングの正確さを向上させる。

非同期機械音声単位系列と第１機械音声との韻律的特徴差異度は、以下の数式によって算出されてもよい。

ここで、ｆ_Ａは、候補非同期機械音声単位系列Ａの韻律的特徴パラメータを表し、ｆ_Ｂは、第１機械音声Ｂの韻律的特徴パラメータを表し、Ｎは、韻律的特徴差異度の算出時に選択された韻律的特徴の個数を表し、ｗ_ｎは、ｎ番目の韻律的特徴の重みを表し、Ｃ_{ｐｒｏｓｏｄｙ}は、韻律的特徴差異度を表し、Ｃ_{ｐｒｏｓｏｄｙ}の値が小さいほど、候補非同期機械音声単位系列Ａと第１機械音声Ｂとの韻律的特徴がマッチングすることが表される。候補非同期機械音声単位系列Ａと第１機械音声Ｂとの韻律的パラメータ差異値｜ｆ_Ａ−ｆ_Ｂ｜は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも１つを含む。

時間長差異値は、非同期機械音声単位直前の音声ポーズ時間長と相応する分割された機械音声単位直前の音声ポーズ時間長との差異値ΔＴ_ｈｅａｄ、非同期機械音声単位の発話時間長と相応する分割された機械音声単位の発話時間長との差異値ΔＴ_ｃｕｒｒ、及び非同期機械音声単位直後の音声ポーズ時間長と相応する分割された機械音声単位直後の音声ポーズ時間長との差異値ΔＴ_ｔａｉｌを含む。

ΔＦ_０，Ａは、候補非同期機械音声単位系列Ａの基本周波数変化率を表し、ΔＦ_０，Ｂは、第１機械音声Ｂの基本周波数変化率を表す。基本周波数変化率は、基本周波数の１次導関数である。｜ΔＦ_０，Ａ−Ｆ_０，Ｂ｜は、候補非同期機械音声単位系列Ａと第１機械音声Ｂとの基本周波数変化率差異値を表す。

Ｐ_Ｔ，Ａは、候補非同期機械音声単位系列Ａに対応する音響パラメータの時間長分布を表し、Ｐ_Ｔ，Ｂは、第１機械音声Ｂに対応する音響パラメータの時間長分布を表し、ＫＬＤ（Ｐ_Ｔ，Ａ，Ｐ_Ｔ，Ｂ）は、候補非同期機械音声単位系列Ａ及び第１機械音声Ｂのそれぞれに対応する音響パラメータの時間長分布のＫＬ発散（ＫＬＤ：Ｋｕｌｌｂａｃｋ−Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ）を求めることを表す。本実施例では、ガウス分布を用いて、音響パラメータの時間長分布をモデル化し、Ｐ_Ｔ，Ａを非同期機械音声単位系列Ａの時間長分布の平均値及び分散と等価にし、Ｐ_Ｔ，Ｂを第１機械音声Ｂの時間長分布の平均値及び分散と等価にする。

は、候補非同期機械音声単位系列Ａに対応する基本周波数変化率の確率分布を表し、

は、第１機械音声Ｂに対応する基本周波数変化率の確率分布を表し、

は、候補非同期機械音声単位系列Ａ及び第１機械音声Ｂのそれぞれに対応する基本周波数変化率の確率分布のＫＬ発散を求めることを表す。本実施例では、ガウス分布を用いて、基本周波数変化率の確率分布をモデル化し、

を非同期機械音声単位系列Ａの基本周波数変化率の確率分布の平均値及び分散と等価にし、

を第１機械音声Ｂの基本周波数変化率の確率分布の平均値及び分散と等価にする。

一次元単純なガウスモデルの場合、ＫＬＤの具体的な定義は、以下の通りである。

ここで、ｐ_Ａ（ｘ｜ｕ_１，σ_１）は、非同期機械音声単位系列Ａの韻律的パラメータが、平均値がｕ_１であり分散がσ_１であるガウス分布に従うことを表す。ｐ_Ａ（ｘ｜ｕ_２，σ_２）は、第１機械音声Ｂの韻律的パラメータが、平均値がｕ_２であり分散がσ_２であるガウス分布に従うことを表す。

Ｓ４０６で、最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする。

本実施例では、算出された非同期機械音声ライブラリにおける非同期機械音声単位系列と第１機械音声との韻律的特徴差異度を制約条件として、第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選択することにより、韻律的特徴の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。

図５に示すように、一実施例では、ステップＳ３１２は、具体的に以下のステップを含む。

Ｓ５０２で、第２機械音声から機械音声単位を分割する。

Ｓ５０４で、分割された各機械音声単位の発音特徴を決定する。

Ｓ５０６で、同期機械音声ライブラリから、発音特徴が分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別する。

具体的には、端末は、同期機械音声ライブラリにおける同期機械音声単位を走査し、走査時に、現在走査中の同期機械音声単位の発音と第２機械音声に注記された発音とを照合し、現在走査中の同期機械音声単位の発音が第２機械音声に注記された発音と一致する場合、該同期機械音声単位を選択して、発音特徴が分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを得るようにしてもよい。

Ｓ５０８で、各同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定する。

具体的には、端末は、各同期機械音声単位サブセット内の各同期機械音声単位を走査し、走査時に、現在走査中の同期機械音声単位に対応する音響パラメータを取得し、取得された音響パラメータと、相応する分割された機械音声単位に対応する音響パラメータとの音響特徴差異度を逐一算出するようにしてもよい。

一実施例では、ステップＳ５０８は、具体的に、各同期機械音声単位サブセット内の各同期機械音声単位の音響パラメータを決定し、分割された各機械音声単位の音響パラメータを決定し、各同期機械音声単位と、相応する分割された機械音声単位との相応する音響パラメータの差異値を算出し、算出された差異値に基づいて、該差異値と正相関する音響特徴差異度を生成する、ことを含む。

具体的には、端末は、同期機械音声ライブラリにおいて、同期機械音声単位に対応する単位音響パラメータを検索してもよい。端末は、第２機械音声の合成時に音響モデルによって出力された第２機械音声における各音声単位に対応する単位音響パラメータを取得してもよい。

ここで、同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度は、以下の数式によって算出されてもよい。

数式３において、ＴＣは、音響特徴差異度を表し、Ｎは、音響特徴差異度の算出時に使用される音響パラメータの個数を表し、ｆ_ａは、同期機械音声単位ａに対応する音響パラメータを表し、ｆ_ｂは、相応する分割された機械音声単位ｂに対応する音響パラメータを表し、ｗ_ｎは、ｎ番目の韻律的特徴の重みを表す。ＴＣの値が小さいほど、同期機械音声単位ａと、相応する分割された機械音声単位ｂとの音響特徴がマッチングすることが表される。

本実施例では、同期機械音声単位と、それぞれに対応する分割された機械音声単位との各音響パラメータの差異値によって、音響特徴差異度を算出する。音響特徴に影響する各パラメータを用いて算出することにより、音響特徴のマッチングの正確さを向上させる。

Ｓ５１０で、最小の音響特徴差異度に対応する同期機械音声単位を選別して、第２機械音声の音響特徴とマッチングする同期機械音声単位とする。

本実施例では、算出された同期機械音声ライブラリにおける同期機械音声単位と第２機械音声に含まれる機械音声単位との音響特徴差異度を制約条件として、第２機械音声の音響特徴とマッチングする同期機械音声単位を選択することにより、音響特徴の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。

図６に示すように、一実施例では、ステップＳ３１４は、具体的に以下のステップを含む。

Ｓ６０２で、選別された同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替える。

具体的には、端末は、同期機械音声ライブラリの構築時に、それに応じて、同期機械音声ライブラリにおける各同期機械音声単位と各同期機械音声単位の単位発音とを対応付ける。端末は、同期機械音声単位を選別した後、各同期機械音声単位に対応する単位発音に基づいて、ターゲットテキストにおける発音順序で、選別された同期機械音声単位を並べ替えてもよい。

Ｓ６０４で、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する。

具体的には、端末は、同期機械音声ライブラリから、隣接する同期機械音声単位のそれぞれに対応する単位音響パラメータを取得し、同期機械音声単位のうち隣接する同期機械音声単位に対応する単位音響パラメータの類似度を算出し、算出された類似度に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定するようにしてもよい。

一実施例では、ステップＳ６０４は、具体的に、選別された各同期機械音声単位から分割された音声フレームを取得し、隣接する同期機械音声単位の接続重畳音声フレーム数を決定して、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を最小化し、接続重畳音声フレーム数に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する、ことを含む。

具体的には、端末は、音声フレームの時間長を、例えば、５ｍｓや１０ｍｓなどに予め設定してもよい。端末は、さらに、時間領域において、予め設定された時間長で各同期機械音声単位を分割して、複数の音声フレームを得るようにしてもよい。本実施例では、端末は、列挙方式によって、隣接する同期機械音声単位の接続重畳音声フレーム数を順次に増加させ、接続重畳音声フレーム数の逓増に応じて、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を逐一算出し、差異度が最小となる場合に対応する接続重畳音声フレーム数を選択して、決定された接続重畳音声フレーム数とするようにしてもよい。

さらに、端末は、隣接する同期機械音声単位の接続重畳音声フレーム数を決定した後、事前に設定された接続関数を取得し、接続関数に基づいて、前に並べた同期機械音声単位に含まれる接続重畳音声フレームのうち保留すべき部分と、後に並べた同期機械音声単位に含まれる接続重畳音声フレームのうち保留すべき部分とを決定してもよい。これにより、接続後の音響パラメータの移行が自然音声により合致する。

本実施例では、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を制約条件として、隣接する同期機械音声単位の接続位置を選択することにより、接続位置の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。

他の実施例では、端末は、選別された各同期機械音声単位から、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に応じて分割された音声状態を取得し、隣接する同期機械音声単位の接続重畳音声状態数を決定して、隣接する同期機械音声単位のそれぞれの、接続重畳音声状態数に対応する音声状態の間の差異度を最小化し、接続重畳音声状態数に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定するようにしてもよい。

一実施例では、端末は、以下の数式によって、隣接する同期機械音声単位の接続重畳音声フレーム数を決定してもよい。

ここで、Ｔは、隣接する同期機械音声単位の接続重畳音声フレーム数を表し、ｔは、隣接する同期機械音声単位の接続重畳音声フレームのｔ番目のフレームを表し、ＣＣ_ｔは、隣接する同期機械音声単位の接続重畳音声フレームのｔ番目のフレームである音声フレームの差異度を表し、

は、

が最小となるＴを求めることを表す。

一実施例では、

は、以下の数式によって算出されてもよい。

ここで、ＣＣ_Δｔは、隣接する同期機械音声単位の、接続重畳音声フレーム数がΔｔである場合の差異度を表す。ｆ_ａ，ｔは、隣接する同期機械音声単位のうち前に並べた音声単位ａに含まれる接続重畳音声フレームのｔ番目のフレームの音響パラメータを表し、ｆ_ｂ，ｔは、隣接する同期機械音声単位のうち後に並べた音声単位ｂに含まれる接続重畳音声フレームのｔ番目のフレームの音響パラメータを表す。Ｎは、音声フレームの差異度の算出時に選択された音響パラメータの個数を表し、ｗ_ｎは、選択された各音響パラメータに割り当てられた重みを表し、ｗ_ｔは、各音声フレームに割り当てられた重みを表す。

本実施例では、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度が最小となる接続重畳フレーム数を求めるための具体的な方法が提供されていることで、接続位置の選択がより正確である。

Ｓ６０６で、話者音声ライブラリにおいて、同期機械音声単位に対応する話者音声単位を検索する。

Ｓ６０８で、決定された隣接する同期機械音声単位の接続位置に応じて、相応する話者音声単位を接続して、話者ターゲット音声を得る。

具体的には、端末は、各同期機械音声単位の接続位置を決定した後、該接続位置を相応する話者音声単位の接続位置として、話者音声単位を接続して、話者ターゲット音声を得る。

本実施例では、決定された接続位置に応じて、隣接する話者音声単位を接続することにより、接続の移行がより自然であり、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。

図７は、一実施例における隣接する話者音声単位の接続の模式図である。図７を参照すると、該模式図は、前に並べた話者音声単位７１０と、後に並べた話者音声単位７２０と、を含む。ここで、話者音声単位７１０は、Ｔ個の音声フレームが含まれる接続重畳部分７１１を含み、音声フレーム７１２は、話者音声単位７１０の接続重畳部分のｔ番目のフレームである。話者音声単位７２０は、Ｔ個の音声フレームが含まれる接続重畳部分７２１を含み、音声フレーム７２２は、話者音声単位７２０の接続重畳部分のｔ番目のフレームである。音声単位７１０の接続重畳部分のｔ番目のフレームと、話者音声単位７２０の接続重畳部分のｔ番目のフレームとが重畳する。

一実施例では、端末は、各同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定した後、話者音声ライブラリから、各同期機械音声単位に対応する話者音声単位を取得してもよい。端末は、さらに、取得された話者音声単位を、対応するターゲットテキストにおける発音順序で順列組み合わせして、複数の接続対象話者音声単位系列を得、各接続対象話者音声単位系列における隣接する話者音声単位の間の差異度を決定し、各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を、相応する話者音声単位と、相応する分割された機械音声単位との音響特徴差異度とするようにしてもよい。

端末は、各接続対象話者音声単位系列における各話者音声単位系列と、相応する分割された機械音声単位との音響特徴差異度を重み付け加算して、各接続対象話者音声単位系列に対応するターゲット代価を得、各接続対象話者音声単位系列における隣接する話者音声単位の間の差異度を重み付け加算して、各接続対象話者音声単位系列に対応する接続代価を得るようにしてもよい。

端末は、各接続対象話者音声単位系列に対応するターゲット代価及び接続代価をそれぞれ得た後、動的計画法によって、ターゲット代価と接続代価との和が最小となる接続方式を決定する。ここで、動的計画法は、データ計算方法上、最適解を求めるための手法である。

一実施例では、音声変換方法は、非同期機械音声ライブラリ及び同期機械音声ライブラリを構築することをさらに含む。非同期機械音声ライブラリ及び同期機械音声ライブラリを構築することは、具体的に、話者履歴音声を収集し、話者履歴音声に対応するテキスト内容を認識し、認識されたテキスト内容に基づいて非同期機械音声単位系列を生成し、生成された非同期機械音声単位系列に基づいて非同期機械音声ライブラリを構築し、収集された話者履歴音声の韻律的特徴を取得し、認識されたテキスト内容及び取得された韻律的特徴に基づいて同期機械音声単位系列を生成し、生成された同期機械音声単位系列に基づいて同期機械音声ライブラリを構築する、ことを含む。ここで、非同期機械音声ライブラリ及び同期機械音声ライブラリを構築することは、Ｓ３０２の前に行われてもよい。

図８を参照する。図８は、本実施例における音声ライブラリの構築の論理ブロック図である。具体的には、端末は、話者履歴音声を事前に収集してもよい。収集された話者履歴音声は、音声採取装置によって採取された音声波形であってもよい。端末は、各履歴音声波形に対して、音声認識システムで音声単位分割を行って、相応する話者音声単位系列、及び各単位波形を得、音声認識システムで各話者音声単位系列に対応するテキスト内容を認識し、各話者音声単位系列における各音声単位の発音及び時間長分布を注記して、各音声単位の単位発音を得るようにしてもよい。端末は、得られた単位発音、各単位波形、及び各話者音声単位系列に基づいて、話者音声ライブラリを構築してもよい。

端末は、各音声単位の発音注記に基づいて、自動音声合成システムで、各音声単位とは発音が同じである非同期機械音声単位系列を合成し、非同期機械音声単位系列に対応する音声波形を得、音響モデルによって、非同期機械音声単位系列に対応する音響パラメータを出力するようにしてもよい。さらに、端末は、非同期機械音声単位系列に対応する音声波形及び音響パラメータを、非同期機械音声単位に応じて分割して、各非同期機械音声単位に対応する単位波形及び単位音響パラメータを得、単位発音、各単位波形、各単位音響パラメータ、及び各非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築するようにしてもよい。

端末は、さらに、各音声単位の発音注記及び時間長分布注記に基づいて、自動音声合成システムで、各音声単位とは発音及び時間長分布の両方が同じである同期機械音声単位系列を合成し、同期機械音声単位系列に対応する音声波形を得、音響モデルによって、同期機械音声単位系列に対応する音響パラメータを出力するようにしてもよい。さらに、端末は、同期機械音声単位系列に対応する音声波形及び音響パラメータを、同期機械音声単位に応じて分割して、各同期機械音声単位に対応する単位波形及び単位音響パラメータを得、単位発音、各単位波形、各単位音響パラメータ、及び各同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築するようにしてもよい。

さらに、端末は、話者音声ライブラリにおける話者音声単位系列、非同期機械音声ライブラリにおける非同期機械音声単位系列、及び同期機械音声ライブラリにおける同期機械音声単位系列を、対応するテキスト内容に応じて整列して、平行音声ライブラリを統合して構築してもよい。

例を挙げて説明する。話者履歴音声（広東なまり）は「ｔａ−ｚａｉｈｕｉｊｉｓｈａｎｇ−ｎａｚｈｅｙｉｄｕｏ−ｘｉａｎｆａ」であり、認識されたテキスト内容は「ｔａｚａｉｆｅｉｊｉｓｈａｎｇｎａｚｈｅｙｉｄｕｏｘｉａｎｈｕａ」であり、合成された非同期機械音声単位系列は「ｔａｚａｉ−ｆｅｉｊｉｓｈａｎｇ−ｎａｚｈｅ− ｙｉｄｕｏｘｉａｎｈｕａ」であり、発音がテキスト内容の発音と同じであり、韻律的特徴が機械の韻律的特徴に合致し、合成された同期機械音声単位系列は「ｔａ−ｚａｉｆｅｉｊｉｓｈａｎｇ−ｎａｚｈｅｙｉｄｕｏ−ｘｉａｎｈｕａ」であり、発音がテキスト内容の発音と同じであり、韻律的特徴が話者の韻律的特徴に合致する。ここで、「−」は、音声間の韻律的ポーズを表す。

本実施例では、話者音声ライブラリにおける話者音声単位系列とはテキスト内容が同じである非同期機械音声単位系列が含まれる非同期機械音声ライブラリを構築し、話者の音声スタイルと機械の音声スタイルとを対応付けることにより、ターゲットテキストの韻律的特徴の選択がより正確である。話者音声ライブラリにおける話者音声単位系列とはテキスト内容が同じであってかつ韻律的特徴が同じである同期機械音声単位系列が含まれる同期機械音声ライブラリを構築し、韻律的特徴が同じである機械音声と話者音声とを対応付けることにより、接続して話者ターゲット音声を得るための話者音声単位の選択がより正確である。

図９は、一実施例における音声変換方法の論理ブロック図である。図９に示すように、端末は、話者履歴音声を事前に収集し、話者履歴音声に対して音声認識を行って、話者音声ライブラリを得、さらに、各音声単位の発音及び時間長分布を注記し、ＴＴＳパラメータ合成システムで、発音注記に基づいて非同期機械音声単位系列を合成し、非同期機械音声ライブラリを構成し、ＴＴＳパラメータ合成システムで、発音注記及び時間長分布注記に基づいて同期機械音声単位系列を合成し、同期機械音声ライブラリを構成するようにしてもよい。

端末は、テーゲットテキストを取得し、ターゲットテキストに基づいて第１機械音声を合成し、非同期機械音声ライブラリから、韻律的特徴が第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、同期機械音声ライブラリにおいて、非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第２機械音声を合成するようにしてもよい。端末は、さらに、第２機械音声の音響特徴に基づいて、同期機械音声ライブラリから、第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、話者音声ライブラリから、同期機械音声単位に対応する話者音声単位を選別し、選別された話者音声単位を接続して、話者ターゲット音声を得るようにしてもよい。ここで、同期機械音声単位系列と話者音声単位系列との時間長分布が同じであるので、同期機械音声単位系列の韻律的特徴を話者音声単位系列の韻律的特徴とすることができる。

理解すべきものとして、本願の各実施例における各ステップは、必ずしも、ステップ番号に示された順序で順次に実行されるとは限らない。本明細書で明確に説明されない限り、これらのステップの実行順序には、厳しい制限がない。これらのステップは、他の順序で実行されてもよい。また、各実施例における少なくとも一部のステップは、複数のサブステップ又は複数のステージを含んでもよい。これらのサブステップ又はステージは、必ずしも同一の時刻に実行完了するとは限らず、異なる時刻に実行されてもよい。これらのサブステップ又はステージの実行順序も、必ずしも順次に実行するとは限らず、他のステップ、或いは、他のステップのサブステップ又はステージの少なくとも一部と代わる代わる又は交代で実行されてもよい。

図１０に示すように、一実施例では、コンピュータ機器１０００が提供されている。該コンピュータ機器１０００の内部構成は、図１に示すような構成を参照することができる。下記の各モジュールは、全部又は一部で、ソフトウェア、ハードウェア、又はそれらの組み合わせによって実現されてもよい。図１０を参照すると、該コンピュータ機器１０００は、取得モジュール１００１と、第１合成モジュール１００２と、第１選別モジュール１００３と、検索モジュール１００４と、第２合成モジュール１００５と、第２選別モジュール１００６と、接続モジュール１００７と、を備える。

取得モジュール１００１は、ターゲットテキストを取得する。

第１合成モジュール１００２は、ターゲットテキストに対応する第１機械音声を合成する。

第１選別モジュール１００３は、非同期機械音声ライブラリから、韻律的特徴が第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別する。

検索モジュール１００４は、同期機械音声ライブラリにおいて、非同期機械音声単位系列に対応する同期機械音声単位系列を検索する。

第２合成モジュール１００５は、同期機械音声単位系列の韻律的特徴に基づいて、ターゲットテキストに対応する第２機械音声を合成する。

第２選別モジュール１００６は、同期機械音声ライブラリから、第２機械音声の音響特徴とマッチングする同期機械音声単位を選別する。

接続モジュール１００７は、話者音声ライブラリにおける同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。

ここで、同期機械音声ライブラリ、非同期機械音声ライブラリ、及び話者音声ライブラリのテキスト内容が同じであり、話者音声ライブラリと同期機械音声ライブラリとの韻律的特徴がマッチングする。

上記コンピュータ機器１０００では、接続して話者ターゲット音声を得るための音声単位が話者音声ライブラリから選択され、接続して変換された音声には、話者の音色が保たれる。また、非同期機械音声ライブラリにおける機械の韻律的特徴に合致する非同期機械音声単位系列と、同期機械音声ライブラリにおける話者の韻律的特徴に合致する同期機械音声単位系列との対応関係が利用され、機械の韻律的特徴に合致する第１機械音声を合成した後、対応関係に基づいて、話者の音声スタイルに合致する韻律的特徴を決定する。また、該韻律的特徴に基づいて第２機械音声を合成し、第２機械音声の音響特徴を根拠として、同期機械音声ライブラリから、第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、話者音声ライブラリにおける、選別された同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る。これにより、話者の韻律的特徴が保たれる。このように、話者の音色が保たれる上に、話者の韻律的特徴が保たれ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致し、音声変換効果を向上させる。

一実施例では、第１選別モジュール１００３は、さらに、第１機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、候補非同期機械音声単位系列と第１機械音声との韻律的特徴差異度を決定し、最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする。

一実施例では、第１選別モジュール１００３は、さらに、第１機械音声に含まれる機械音声単位の数量を決定し、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された数量に等しい候補非同期機械音声単位系列を取得する。

一実施例では、第１選別モジュール１００３は、さらに、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査し、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より少ない場合、走査を続け、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量に等しい場合、現在走査中の非同期機械音声単位系列を候補非同期機械音声単位系列とし、現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された数量より多い場合、現在走査中の非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された数量に応じて、候補非同期機械音声単位系列を分割する。

一実施例では、第１選別モジュール１００３は、さらに、第１機械音声から機械音声単位を分割し、候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との韻律的パラメータ差異値に基づいて、候補非同期機械音声単位系列と第１機械音声との韻律的特徴差異度を生成する。ここで、韻律的パラメータ差異値は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも１つを含む。

一実施例では、第２選別モジュール１００６は、さらに、第２機械音声から機械音声単位を分割し、分割された各機械音声単位の発音特徴を決定し、同期機械音声ライブラリから、発音特徴が分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、各同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、最小の音響特徴差異度に対応する同期機械音声単位を選別して、第２機械音声の音響特徴とマッチングする同期機械音声単位とする。

一実施例では、第２選別モジュール１００６は、さらに、各同期機械音声単位サブセット内の各同期機械音声単位の音響パラメータを決定し、分割された各機械音声単位の音響パラメータを決定し、各同期機械音声単位と、相応する分割された機械音声単位との相応する音響パラメータの差異値を算出し、差異値に基づいて、差異値と正相関する音響特徴差異度を生成する。

一実施例では、接続モジュール１００７は、さらに、同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、話者音声ライブラリにおいて、同期機械音声単位に対応する話者音声単位を検索し、決定された隣接する同期機械音声単位の接続位置に応じて、相応する話者音声単位を接続して、話者ターゲット音声を得る。

一実施例では、接続モジュール１００７は、さらに、選別された各同期機械音声単位から分割された音声フレームを取得し、隣接する同期機械音声単位の接続重畳音声フレーム数を決定して、隣接する同期機械音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を最小化し、接続重畳音声フレーム数に基づいて、並べ替えられた同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する。

本実施例では、隣接する話者音声単位のそれぞれの、接続重畳音声フレーム数に対応する音声フレームの間の差異度を制約条件として、隣接する話者音声単位の接続位置を選択することにより、接続位置の選択の正確さを向上させ、変換された音声は、より自然であり、所要の話者の音声スタイルにより合致する。

一実施例では、接続モジュール１００７は、さらに、以下の数式によって、隣接する同期機械音声単位の接続重畳音声フレーム数を決定する。

は、

が最小となるＴを求めることを表す。

図１１に示すように、一実施例では、コンピュータ機器１０００は、音声ライブラリ構築モジュール１００８をさらに含む。

音声ライブラリ構築モジュール１００８は、話者履歴音声を収集し、話者履歴音声に対応するテキスト内容を認識し、認識されたテキスト内容に基づいて非同期機械音声単位系列を生成し、生成された非同期機械音声単位系列に基づいて非同期機械音声ライブラリを構築し、収集された話者履歴音声の韻律的特徴を取得し、認識されたテキスト内容及び取得された韻律的特徴に基づいて同期機械音声単位系列を生成し、生成された同期機械音声単位系列に基づいて同期機械音声ライブラリを構築する。

当業者であれば理解できるように、上記の実施例に係る方法の手順の全部又は一部は、コンピュータプログラムから関連のハードウェアへ指示することにより実行されてもよい。前記プログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このプログラムが実行されると、上記のような各方法の実施例の手順が実行される。ここで、本願で提供された各実施例に使用されたメモリ、ストレージ、データベース、又は他の媒体へのいかなる引用でも、不揮発性及び／又は揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）、又は外部キャッシュを含んでもよい。限定ではなく説明として、ＲＡＭは、例えば、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンスドＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクリンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、ダイレクト・ラムバス（Ｒａｍｂｕｓ）ＲＡＭ（ＲＤＲＡＭ）、ダイレクト・ラムバス・ダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びラムバス・ダイナミックＲＡＭ（ＲＤＲＡＭ）などの多くの形態で利用可能である。

上述した実施例の各構成要件は、任意に組み合わせされてもよい。説明を簡潔にするために、上記実施例の各構成要件の可能な組み合わせがすべて説明されているわけではない。しかしながら、これらの構成要件の組み合わせは、矛盾がない限り、本明細書に記載された範囲にあると考えられるべきである。

上述した実施例は、本願の幾つかの実施形態を示したものにすぎず、説明が具体的で詳しいが、これによって発明の特許範囲への限定と理解されるわけにはいかない。指摘すべきものとして、当業者にとっては、本願の構想を逸脱しない前提で、若干の変形及び改良が可能である。これらの変形及び改良は、いずれも本願の保護範囲に属する。それゆえ、本願の特許保護範囲は、添付の特許請求の範囲に従うべきである。

２１０遷移エントリ
２２０テキスト入力ボックス
７１０、７２０話者音声単位
７１１、７２１接続重畳部分
７１２、７２２接続重畳部分のｔ番目のフレーム
１０００コンピュータ機器
１００１取得モジュール
１００２第１合成モジュール
１００３第１選別モジュール
１００４検索モジュール
１００５第２合成モジュール
１００６第２選別モジュール
１００７接続モジュール
１００８音声ライブラリ構築モジュール

Claims

音声変換方法であって、
コンピュータ機器がターゲットテキストを取得し、
前記コンピュータ機器が、前記ターゲットテキストに対応する第１機械音声を合成し、
前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
前記コンピュータ機器が、同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記コンピュータ機器が、前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第２機械音声を合成し、
前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを含み、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする方法。
前記コンピュータ機器が、非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
前記コンピュータ機器が、前記第１機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
前記コンピュータ機器が、前記候補非同期機械音声単位系列と前記第１機械音声との韻律的特徴差異度を決定し、
前記コンピュータ機器が、最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
ことを含むことを特徴とする請求項１に記載の方法。
前記コンピュータ機器が、前記第１機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得することは、
前記コンピュータ機器が、前記第１機械音声に含まれる機械音声単位の数量を決定し、
前記コンピュータ機器が、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された前記数量に等しい候補非同期機械音声単位系列を取得する、
ことを含むことを特徴とする請求項２に記載の方法。
前記コンピュータ機器が、非同期機械音声ライブラリから、含まれる非同期機械音声単位の数量が決定された前記数量に等しい候補非同期機械音声単位系列を取得することは、
前記コンピュータ機器が、非同期機械音声ライブラリに含まれる非同期機械音声単位系列を走査し、
現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量より少ない場合、前記コンピュータ機器が前記走査を続け、
現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量に等しい場合、前記コンピュータ機器が現在走査中の非同期機械音声単位系列を候補非同期機械音声単位系列とし、
現在走査中の非同期機械音声単位系列に含まれる非同期機械音声単位の数量が決定された前記数量より多い場合、前記コンピュータ機器が、現在走査中の非同期機械音声単位系列から、含まれる非同期機械音声単位の順序及び決定された前記数量に応じて、候補非同期機械音声単位系列を分割する、
ことを含むことを特徴とする請求項３に記載の方法。
前記コンピュータ機器が、前記候補非同期機械音声単位系列と前記第１機械音声との韻律的特徴差異度を決定することは、
前記コンピュータ機器が前記第１機械音声から機械音声単位を分割し、
前記コンピュータ機器が、前記候補非同期機械音声単位系列に含まれる各非同期機械音声単位と、それぞれに対応する分割された機械音声単位との韻律的パラメータ差異値に基づいて、前記候補非同期機械音声単位系列と前記第１機械音声との韻律的特徴差異度を生成する、ことを含み、
前記韻律的パラメータ差異値は、時間長差異値、基本周波数変化率差異値、音響パラメータの時間長分布差異、及び基本周波数変化率の確率分布差異の少なくとも１つを含む、
ことを特徴とする請求項２に記載の方法。
前記コンピュータ機器が、前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
前記コンピュータ機器が前記第２機械音声から機械音声単位を分割し、
前記コンピュータ機器が、分割された各機械音声単位の発音特徴を決定し、
前記コンピュータ機器が、前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
前記コンピュータ機器が、最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第２機械音声の音響特徴とマッチングする同期機械音声単位とする、
ことを含むことを特徴とする請求項１に記載の方法。
前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定することは、
前記コンピュータ機器が、各前記同期機械音声単位サブセット内の各同期機械音声単位の音響パラメータを決定し、
前記コンピュータ機器が、分割された各前記機械音声単位の音響パラメータを決定し、
前記コンピュータ機器が、各同期機械音声単位及び相応する分割された機械音声単位に対して、相応する音響パラメータの差異値を算出し、
前記コンピュータ機器が、前記差異値に基づいて、前記差異値と正相関する音響特徴差異度を生成する、
ことを含むことを特徴とする請求項６に記載の方法。
前記コンピュータ機器が、話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
前記コンピュータ機器が、選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
前記コンピュータ機器が、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
前記コンピュータ機器が、話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
前記コンピュータ機器が、決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
ことを含むことを特徴とする請求項１に記載の方法。
前記コンピュータ機器が、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定することは、
前記コンピュータ機器が、選別された各前記同期機械音声単位から分割された音声フレームを取得し、
前記コンピュータ機器が、隣接する同期機械音声単位の接続重畳音声フレーム数を決定して、隣接する同期機械音声単位のそれぞれの、前記接続重畳音声フレーム数に対応する音声フレームの間の差異度を最小化し、
前記コンピュータ機器が、前記接続重畳音声フレーム数に基づいて、並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定する、
ことを含むことを特徴とする請求項８に記載の方法。
前記コンピュータ機器が、隣接する同期機械音声単位の接続重畳音声フレーム数を決定することは、

を含み、
ここで、Ｔは、隣接する同期機械音声単位の接続重畳音声フレーム数を表し、ｔは、隣接する同期機械音声単位の接続重畳音声フレームのｔ番目のフレームを表し、ＣＣ_ｔは、隣接する同期機械音声単位の接続重畳音声フレームのｔ番目のフレームである音声フレームの差異度を表し、

は、

が最小となるＴを求めることを表す、
ことを特徴とする請求項９に記載の方法。
前記コンピュータ機器が話者履歴音声を収集し、
前記コンピュータ機器が、前記話者履歴音声に対応するテキスト内容を認識し、
前記コンピュータ機器が、認識された前記テキスト内容に基づいて、非同期機械音声単位系列を生成し、
前記コンピュータ機器が、生成された前記非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築し、
前記コンピュータ機器が、収集された前記話者履歴音声の韻律的特徴を取得し、
前記コンピュータ機器が、認識された前記テキスト内容及び取得された前記韻律的特徴に基づいて、同期機械音声単位系列を生成し、
前記コンピュータ機器が、生成された前記同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築する、
ことをさらに含むことを特徴とする請求項１に記載の方法。
コンピュータ機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第１機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第２機械音声を合成し、
前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングするコンピュータ機器。
前記非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
前記第１機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
前記候補非同期機械音声単位系列と前記第１機械音声との韻律的特徴差異度を決定し、
最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
ことを含むことを特徴とする請求項１２に記載のコンピュータ機器。
前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
前記第２機械音声から機械音声単位を分割し、
分割された各機械音声単位の発音特徴を決定し、
前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第２機械音声の音響特徴とマッチングする同期機械音声単位とする、
ことを含むことを特徴とする請求項１２に記載のコンピュータ機器。
前記話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
ことを含むことを特徴とする請求項１２に記載のコンピュータ機器。
前記コンピュータ可読命令は、前記プロセッサによって実行されると、さらに、前記プロセッサに、
話者履歴音声を収集し、
前記話者履歴音声に対応するテキスト内容を認識し、
認識された前記テキスト内容に基づいて、非同期機械音声単位系列を生成し、
生成された前記非同期機械音声単位系列に基づいて、非同期機械音声ライブラリを構築し、
収集された前記話者履歴音声の韻律的特徴を取得し、
認識された前記テキスト内容及び取得された前記韻律的特徴に基づいて、同期機械音声単位系列を生成し、
生成された前記同期機械音声単位系列に基づいて、同期機械音声ライブラリを構築する、
ことを実行させることを特徴とする請求項１２に記載のコンピュータ機器。
コンピュータ可読命令を記憶した１つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令は、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに、
ターゲットテキストを取得し、
前記ターゲットテキストに対応する第１機械音声を合成し、
非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別し、
同期機械音声ライブラリにおいて、前記非同期機械音声単位系列に対応する同期機械音声単位系列を検索し、
前記同期機械音声単位系列の韻律的特徴に基づいて、前記ターゲットテキストに対応する第２機械音声を合成し、
前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別し、
話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得る、ことを実行させ、
前記同期機械音声ライブラリ、前記非同期機械音声ライブラリ、及び前記話者音声ライブラリのテキスト内容が同じであり、前記話者音声ライブラリと前記同期機械音声ライブラリとの韻律的特徴がマッチングする記憶媒体。
前記非同期機械音声ライブラリから、韻律的特徴が前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列を選別することは、
前記第１機械音声に応じて、非同期機械音声ライブラリから候補非同期機械音声単位系列を取得し、
前記候補非同期機械音声単位系列と前記第１機械音声との韻律的特徴差異度を決定し、
最小の韻律的特徴差異度に対応する候補非同期機械音声単位系列を、前記第１機械音声の韻律的特徴とマッチングする非同期機械音声単位系列とする、
ことを含むことを特徴とする請求項１７に記載の記憶媒体。
前記同期機械音声ライブラリから、前記第２機械音声の音響特徴とマッチングする同期機械音声単位を選別することは、
前記第２機械音声から機械音声単位を分割し、
分割された各機械音声単位の発音特徴を決定し、
前記同期機械音声ライブラリから、発音特徴が前記分割された各機械音声単位の発音特徴とマッチングする同期機械音声単位サブセットを選別し、
各前記同期機械音声単位サブセット内の各同期機械音声単位と、相応する分割された機械音声単位との音響特徴差異度を決定し、
最小の音響特徴差異度に対応する同期機械音声単位を選別して、前記第２機械音声の音響特徴とマッチングする同期機械音声単位とする、
ことを含むことを特徴とする請求項１７に記載の記憶媒体。
前記話者音声ライブラリにおける前記同期機械音声単位に対応する話者音声単位を接続して、話者ターゲット音声を得ることは、
選別された前記同期機械音声単位を、対応するターゲットテキストにおける発音順序で並べ替え、
並べ替えられた前記同期機械音声単位のうち隣接する同期機械音声単位の接続位置を決定し、
話者音声ライブラリにおいて、前記同期機械音声単位に対応する話者音声単位を検索し、
決定された隣接する同期機械音声単位の接続位置に応じて、相応する前記話者音声単位を接続して、話者ターゲット音声を得る、
ことを含むことを特徴とする請求項１７に記載の記憶媒体。