JP2020056996A

JP2020056996A - 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2020056996A
Application number: JP2019149038A
Authority: JP
Inventors: 林其禹; Chyi-Yeu Lin; 古鴻炎; hong yan Gu
Original assignee: National Taiwan University of Science and Technology NTUST
Current assignee: National Taiwan University of Science and Technology NTUST
Priority date: 2018-08-16
Filing date: 2019-08-15
Publication date: 2020-04-09
Also published as: CN110867177A; US20200058288A1; TW202009924A

Abstract

【課題】音色選択可能なボイス再生システム、その再生方法およびコンピュータ読み取り可能な記録媒体を提供する。【解決手段】ボイス再生システム１は、スピーカーと、記憶装置と、処理装置とを含む。記憶装置は、文章データベースを記録する。処理装置は、音声入力装置、スピーカーおよび記憶装置に接続される。処理装置は、本物のボイス信号を取得して、文章データベース内の文章をテキスト読み上げ技術で最初の合成ボイス信号に変換してから、この最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換する。この音色変換モデルは、特定の人々から収集した本物のボイス信号を使用し、訓練した後に得られる。続いて、処理装置は、スピーカーでこの特定音色の変換されたボイス信号を再生することができる。これにより、ユーザーは、いつでも好きな人の声の音色および選択した文章内容を含む声の音声を聴くことができる。【選択図】図１

Description

本発明は、ボイス変換応用技術に関するものであり、特に、音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体に関するものである。

特定の人々の音声は、一部の人に対して心理的な共鳴をもたらすことができる。したがって、多くの人々は、指定した人に物語を話して聴かせて欲しいと望んでおり、例えば、子供は、大好きな父親、母親、さらには、祖父や祖母にも物語を読んで（話して）欲しいと望んでいる。物語を読んで欲しいと希望された者が子供の近くにいる場合は、その人が自ら子供に物語を読んであげることができる。しかし、実際の状況では、たとえその人が子供と一緒にいたとしても、物語を読んで聴かせる時間があるとは限らない。言うまでもなく、親が家にいない時、あるいは祖父や祖母と一緒に住んでいない時は、これらの人が子供に物語を読んであげることはできない。

既存技術では、ボイスレコーダーで特定の人々の音声を記録し、録音ファイルを再生して指定した物語の内容を話すことが可能であるが、全ての人が５つ、あるいはそれ以上の物語の内容を録音する時間があるわけではない。また、テキスト読み上げ（Text-to-Speech, TTS）技術により特定の文章内容を合成された声に変換することができるが、現存する関連商品において、親切な操作インターフェースで文章内容を選択できるものはなく、聴かせて欲しい人の音声音色を提供できるものもない。

したがって、本発明は、聴かせて欲しい人の音声音色を再生することができ、文章文字から変換された発話音声を選択することにより、ユーザーがいつでも聴き慣れた声の音色および音声を聴くことのできる音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体を提供する。

本発明の音色選択可能なボイス再生システムは、スピーカーと、記憶装置と、処理装置とを含む。スピーカーは、音声を再生するために使用される。記憶装置は、ボイス信号および文章データベースを記録するために使用される。処理装置は、音声入力装置、スピーカー、および記憶装置に接続される。処理装置は、本物のボイス信号を取得して、文章データベース内の文章をテキスト読み上げ（ＴＴＳ）技術で最初の合成ボイス信号に変換してから、この最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換する。この音色変換モデルは、特定の人々から収集したボイス信号を使用し、訓練した後に得られる。続いて、処理装置は、スピーカーでこの特定音色の変換された合成ボイス信号を再生することができる。

本発明の１つの実施形態において、上述した処理装置は、収集したボイス信号から音響学（acoustic）特徴を取得する；収集したボイス信号に対応する文字シナリオに基づいて、テキスト読み上げ（ＴＴＳ）技術で合成されたボイス信号を生成し、合成されたボイス信号から音響学特徴を取得する；その後、２種類の音声信号（本物の音声、合成された音声）の平行な音響学特徴を使用し、ボイス信号を訓練して音色変換のモデルを作成する。

本発明の１つの実施形態において、上述した処理装置は、ユーザーインターフェースを提供して、収集したボイス信号および文章データベースの文章を表示し、ユーザーインターフェース上のボイス信号の中の１つ、および文章データベースの中の１つの文章に対する選択操作を受信する。この選択操作に反応して、処理装置は、選択した文章内の一列の字句を合成ボイス信号に変換する。

本発明の１つの実施形態において、上述した記憶装置は、さらに、複数の人物が複数の時間において録音した本物のボイス信号を記録する。処理装置は、ユーザーインターフェースを提供して、これらの人物および対応する録音時間を表示し、ユーザーインターフェース上のこれらの人物および対応する録音時間に対する選択操作を受信する。この選択操作に反応して、処理装置は、選択した本物のボイス信号に対応する音色変換モデルを取得する。

本発明の１つの実施形態において、上述したボイス再生システムは、さらに、処理装置に接続されたディスプレイを含む。処理装置は、少なくとも１つの本物の顔映像を収集し、この合成ボイス信号に基づいて口唇形状変化データを生成し、１つの本物の顔映像を口唇形状変化データに基づいて合成顔映像に合成するとともに、それぞれディスプレイおよびスピーカーで合成顔映像および合成ボイス信号を同時に再生する。

本発明の１つの実施形態において、上述したボイス再生システムは、さらに、処理装置に接続された機械的頭蓋骨を含む。処理装置は、合成ボイス信号に基づいて口唇形状変化データを生成するとともに、この口唇形状変化データに基づいて機械的頭蓋骨の口唇部動作を制御し、同時にスピーカーで合成ボイス信号を再生する。

本発明のボイス再生方法は、以下のステップを含む。本物のボイス信号を収集する。文章内の各字句をテキスト読み上げ（ＴＴＳ）技術で最初の合成ボイス信号に変換する。最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換する。この音色変換モデルは、１組のボイス信号（本物のボイス信号と合成されたボイス信号）を使用し、訓練した後に生成される。続いて、この変換された合成ボイス信号を再生する。

本発明の１つの実施形態において、上述した最初に合成されたボイス信号を音色変換モデルにして、特定音色のボイス信号に変換するステップの前に、さらに、以下のステップを含む。収集した本物のボイス信号から音響学特徴を取得する。収集した本物のボイス信号に対応する文字シナリオに基づいて、テキスト読み上げ（ＴＴＳ）技術で合成されたボイス信号を生成する。合成されたボイス信号から音響学特徴を取得する。収集した音声の音響学特徴と合成した音声の音響学特徴を使用して、音色変換モデルを訓練する。

本発明の１つの実施形態において、上述した収集した本物のボイス信号に対応する文字シナリオに基づいて、テキスト読み上げ（ＴＴＳ）技術で合成されたボイス信号を生成するステップの前に、さらに、以下のステップを含む。ユーザーインターフェースを提供して、収集した本物のボイス信号およびボイス内容を記録した文字シナリオデータベースを表示する。ユーザーインターフェース上の本物のボイス信号および文字シナリオに対する選択操作を受信する。選択操作に反応して、選択した文字シナリオ内の各字句を合成されたボイス信号に変換する。

本発明の１つの実施形態において、上述した本物のボイス信号を収集するステップは、以下のステップを含む。複数の人物が複数の時間において録音した本物のボイス信号を記録する。ユーザーインターフェースを提供して、これらの人物および対応する録音時間を表示する。ユーザーインターフェース上のこれらの人物および対応する録音時間に対する選択操作を受信する。選択操作に反応して、選択した本物のボイス信号に対応する音色変換モデルを取得する。

本発明の１つの実施形態において、上述した文章データベース内の文章内容は、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも１つに関連する。

本発明の１つの実施形態において、上述した合成ボイス信号に変換するステップの後に、さらに、以下のステップを含む。本物の顔映像を取得する。合成ボイス信号に基づいて、口唇形状変化データを生成する。本物の顔映像を口唇形状変化データに基づいて、合成顔映像に合成する。合成顔映像および合成ボイス信号を同時に再生する。

本発明の１つの実施形態において、上述した合成ボイス信号に変換するステップの後に、さらに、以下のステップを含む。合成ボイス信号に基づいて、口唇形状変化データを生成する。口唇形状変化データに基づいて、機械的頭蓋骨の口唇部動作を制御し、同時に合成ボイス信号を再生する。

本発明のコンピュータ読み取り可能な記録媒体は、コードを記録して、装置のプロセッサにロードし、下記のステップを実行する。本物のボイス信号を収集する。文章内の各字句をテキスト読み上げ（ＴＴＳ）技術で最初の合成ボイス信号に変換する。最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換し、この音色変換モデルは、１組のボイス信号（本物のボイス信号と合成ボイス信号）を使用し、訓練した後に生成される。続いて、この変換された合成ボイス信号を再生する。

以上のように、本発明の実施形態の音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体は、特定音色の本物のボイス信号およびそれに対応する文字シナリオを予め録音または収集するだけでよく、文章を選択して再生する文章データベースを作成し、感情のない未知の音色により再生された音声ではなく、ユーザーがいつでも聴きたい音声音色と文章文字を選択することができる。また、ユーザーは、過去の履歴からボイス信号を選択し、リアルタイムで聴き慣れた声を思い出すことができる。

本発明の上記および他の目的、特徴、および利点をより分かり易くするため、図面と併せた幾つかの実施形態を以下に説明する。

本発明の１つの実施形態のボイス再生システムの構成要素のブロック図である。本発明の１つの実施形態のボイス再生方法のフロー図である。本発明の１つの実施形態の映像を組み合わせたボイス再生方法のフロー図である。本発明の別の実施形態のボイス再生システムの構成要素のブロック図である。本発明の１つの実施形態の機械的頭蓋骨を組み合わせたボイス再生方法のフロー図である。

以下において、音色選択可能なボイス再生システムをボイス再生システムと略称し、音色選択可能なボイス再生方法をボイス再生方法と略称する。

図１は、本発明の１つの実施形態のボイス再生システム１の構成要素のブロック図である。図１を参照すると、ボイス再生システム１は、音声入力装置１１０、ディスプレイ１２０、スピーカー１３０、操作入力装置１４０、記録装置１５０、および処理装置１７０を少なくとも含むが、本発明はこれに限定されない。

音声入力装置１１０は、全指向性マイクロホン、指向性マイクロホン、またはその他の音波（例えば、人の声、環境音、機器操作音等）を受信して音声信号に変換することのできる録音装置（電子素子、アナログデジタル変換器、フィルタ、およびオーディオプロセッサを含んでもよい）、通信送受信器（第四世代（４Ｇ）モバイルネットワーク、Ｗｉ−Ｆｉ等をサポートする通信規格）、または伝送インターフェース（例えば、ユニバーサルシリアルバス（ＵＳＢ）、サンダーボルト（thunderbolt）等）であってもよく、本実施形態において、音声入力装置１１０は、音波の受信に反応してデジタルの本物のボイス信号１５１１を生成することができ、外部装置（例えば、フラッシュドライブ、光ディスク等）またはインターネットを介して本物のボイス信号１５１１を直接入力することもできる。

ディスプレイ１２０は、液晶ディスプレイ（Liquid Crystal Display, LCD）、発光ダイオード（Light-Emitting Diode, LED）、有機発光ダイオード（Organic Light-Emitting Diode, OLED）等の各種ディスプレイであってもよい。本発明の実施形態において、ディスプレイ１２０は、ユーザーインターフェースを表示するために使用され、このユーザーインターフェースの内容については、後続の実施形態において詳しく説明する。

スピーカー１３０は、電磁石、コイル、振動膜等の電子素子により構成され、電圧信号を音声信号に変換する。

操作入力装置１４０は、各種（例えば、静電容量式、抵抗式、光学式）のタッチパネル、キーボード、マウス等のユーザーの入力操作（例えば、タップ、長押し、スライド等）を受信するための装置であってもよい。本発明の実施形態において、操作入力装置１４０は、ディスプレイ１２０に表示されたユーザーインターフェース上のユーザーの操作を受信するために使用される。

記憶装置１５０は、任意の種類の固定または移動式ランダムアクセスメモリ（Random Access Memory，RAM）、読み取り専用メモリ（Read-Only Memory，ROM）、フラッシュメモリ（Flash Memory）、または類似構成要素、あるいは上述した構成要素を組み合わせた保存媒体であってもよく、記憶装置１５０は、ソフトウェアプログラム、ボイス信号１５１（本物のボイス信号１５１１、合成ボイス信号１５１２を含む）、モデル訓練の文字シナリオ１５３、文章データベース１５５、映像データ１５７（本物の顔映像１５７１、合成顔映像１５７２を含む）、本物の声の音響学特徴、合成した声の音響学特徴、音色変換モデル、口唇形状変化データ等のデータまたはファイルを保存するために使用され、これらのソフトウェアプログラム、データ、ファイルについては、後続の実施形態において詳しく説明する。

処理装置１７０は、音声入力装置１１０、ディスプレイ１２０、スピーカー１３０、操作入力装置１４０、および記憶装置１５０に接続され、処理装置１７０は、デスクトップコンピュータ、ノート型パソコン、サーバー、またはワークステーション等の装置（中央処理装置（Central Processing Unit, CPU）、またはその他のプログラム可能な一般用途または特殊用途のマイクロプロセッサ（Microprocessor）、デジタル信号プロセッサ（Digital Signal Processing, DSP）、プログラマブルコントローラ、特定用途向け集積回路（Application-Specific Integrated Circuit, ASIC）、またはその他の類似構成要素、あるいはこれらの構成要素を組み合わせたプロセッサを少なくとも含む）であってもよい。本発明の実施形態において、処理装置１７０は、例えば、記憶装置１５０に記録されたデータまたはファイルにアクセスする、音声入力装置１１０が収集した本物のボイス信号１５１１を取得して処理する、操作入力装置１４０が受信したユーザーの入力操作を取得する、ディスプレイ１２０でユーザーインターフェースを表示する、あるいはスピーカー１３０で音色変換された合成ボイス信号１５１２を再生する等のボイス再生システム１の全ての操作を実行するために使用される。

説明すべきこととして、異なる応用の要求に応じて、ボイス再生システム１内の複数の装置を１つの装置に統合してもよい。例えば、音声入力装置１１０、ディスプレイ１２０、スピーカー１３０、および操作入力装置１４０を統合して、ユーザーが使用するスマートフォン、タブレットＰＣ、デスクトップコンピュータ、ノート型パソコンを形成する；記憶装置１５０と処理装置１７０がクラウドサーバーである場合、インターネットを介してボイスデータ１５１を伝送および受信する。あるいは、ボイス再生システム１内の全ての装置を１つの装置に統合してもよく、本発明はこれに限定されない。

本発明の実施形態の操作フローを理解しやすくするため、以下、複数の実施形態を用いて本発明の実施形態のボイス再生システム１の操作フローを詳しく説明する。以下において、ボイス再生システム１の各構成要素とモジュールを組み合わせて、本発明の実施形態の方法を説明する。この方法の各フローは、実施状況に応じて調整してもよく、本発明はこれに限定されない。

図２は、本発明の１つの実施形態のボイス再生方法のフロー図である。図２を参照すると、処理装置１７０は、少なくとも１つの本物のボイス信号１５１１を収集する（ステップＳ２１０）。１つの実施形態において、処理装置１７０は、例えば、スピーカー１３０で提示文字を再生するか、あるいはディスプレイ１２０（例えば、ＬＣＤ、ＬＥＤ、ＯＬＥＤ等のディスプレイ）で提示文字を表示して、ユーザーが指定した文字を導き出すことができ、処理装置１７０は、音声入力装置１１０で人が発した音声信号を録音することができる。例えば、家族がそれぞれマイクで１つの物語を話し、複数の本物のボイス信号１５１１を録音すると、この本物のボイス信号１５１１は、クラウドサーバー内の記憶装置１５０にアップロードされる。説明すべきこととして、ボイス再生システム１は、ユーザーが話す内容を制限せず、音声入力装置１１０で十分な時間の長さ（例えば、１０、３０秒等）の声を録音できればよい。別の実施形態において、処理装置１７０は、音声入力装置１１０でネットワークパケット、ユーザーアップロード、外部または内蔵の保存媒体（例えば、フラッシュドライブ、光ディスク、外付けハードディスクドライブ等）を取り込むことにより、本物のボイス信号１５１１（講演内容、会話内容、歌唱内容等を含んでもよい）を取得することができる。例えば、ユーザーがユーザーインターフェースで好きな歌手を入力すると、音声入力装置１１０は、インターネットからこの特定歌手の会話内容または歌唱音楽を検索して取得する。ユーザーインターフェースがアナウンサーの写真や名前を表示し、年長者に選択させると、音声入力装置１１０は、インターネットからこのアナウンサーのオンラインラジオの声を録音する。本物のボイス信号１５１１は、最初の音声振幅データ、または圧縮／符号化処理したオーディオファイルであってもよいが、本発明はこれに限定されない。

処理装置１７０は、続いて、本物のボイス信号１５１１から音響学特徴を取得する（ステップＳ２２０）。具体的に説明すると、処理装置１７０は、異なる言語（例えば、中国語、英語、フランス語等）の発音単位（例えば、韻母、声母、母音、子音等）に基づいて、各本物のボイス信号１５１１から発音に対応する音声スニペット（ピッチ、振幅、および音色等を記録することができる）を取得することができ、あるいは、処理装置１７０は、各本物のボイス信号１５１１のスペクトルに反応する特性を直接取得する等の方法により、後続の音色変換モデルに必要な音響学特徴を取得する。

一方、処理装置１７０は、モデル訓練の文字シナリオ１５３を選択することができる（ステップＳ２３０）。このモデル訓練の文字シナリオ１５３は、ステップＳ２１０で使用した提示文字と同じ内容、または異なる内容、あるいはその他の設計により後続の音色変換モデル訓練に便利な文字データ（例えば、全ての韻母、母音の字句）であってもよく、本発明はこれに限定されない。例えば、本物のボイス信号１５１１の内容が広告のキャッチフレーズである場合、文字シナリオは、唐詩に関連する。説明すべきこととして、文字シナリオ１５３は、内蔵されても、または外部から自動的に取得したものであってもよく、あるいはディスプレイ１２０がユーザーインターフェースを表示して、ユーザーに文字シナリオ１５３を選択させてもよい。続いて、処理装置１７０は、モデル訓練の文字シナリオ１５３を利用して、テキスト読み上げ（ＴＴＳ）技術を使用して合成されたボイス信号を生成する（ステップＳ２４０）。具体的に説明すると、処理装置１７０は、選択したモデル訓練の文字シナリオ１５３に対して単語分割、変調、符号発音等の文字分析を行った後、韻律パラメータ（例えば、ピッチ（pitch）、音の長さ（duration）、音の強さ、停頓等）を生成し、例えば、共振ピーク、正弦波、隠れマルコフモデル（Hidden Markov Model, HMM）または真っ直ぐ（straight）等の信号波形合成機で音声信号の合成を行い、合成されたボイス信号を生成する。その他の実施形態において、処理装置１７０は、モデル訓練の文字シナリオ１５３を外部または内蔵のテキスト読み上げエンジン（例えば、グーグル（Google）、工業技術研究院、ＡＴ＆Ｔのナチュラルボイス（Natural Voices）等）に直接入力して、合成されたボイス信号を生成してもよい。この合成されたボイス信号は、最初の音声振幅データであっても、あるいは圧縮／符号化処理したオーディオファイルであってもよく、本発明はこれに限定されない。説明すべきこととして、これらの実施形態において、合成されたボイス信号は、インターネット、外部保存媒体により取得したオーディオブック、オーディオファイル、録音ファイル等のデータであってもよく、本発明はこれに限定されない。例えば、音声入力装置１１０は、オンラインライブラリーから、オーディオブック、動画サイトに記録された合成音声信号等を取得する。

処理装置１７０は、続いて、合成されたボイス信号から合成音声の音響学特徴を取得する（ステップＳ２５０）。具体的に説明すると、処理装置１７０は、ステップＳ２２０と同じ、または類似する方法で、各発音単位の発音に対応する音声スニペットを取得することができ、あるいは各合成音声信号がスペクトルに反応する特性等の方法により、後続の音色変換模型に必要な音響学特徴を取得する。説明すべきこととして、本物の声の音響学特徴および合成した声の音響学特徴の類型は、さらに多くの多様性があり、実際の要求に応じて調整可能であるため、本発明はこれに限定されない。

続いて、処理装置１７０は、本物の声の音響学特徴および合成した声の音響学特徴を使用して、音色変換モデルを訓練する（ステップＳ２６０）。具体的に説明すると、処理装置１７０は、本物の声の音響学特徴および合成した声の音響学特徴を訓練サンプルとすることができ、合成したボイス信号１５１２をソース音声とし、本物のボイス信号１５１１をターゲット音声として、例えば、混合正規分布モデル（Gaussian Mixture Model, GMM）、人工神経網（Artificial Neural Network, ANN）等のモデルを訓練することができ、訓練して得られたモデルを音色変換モデルとして、任意の合成されたボイス信号を特定音色の合成ボイス信号１５１２に変換することができる。

説明すべきこととして、別の実施形態において、この音色変換モデルは、本物のボイス信号１５１１と合成されたボイス信号のスペクトル、あるいは音色上の差異を分析することによって生成してもよく、この時、合成されたボイス信号の生成に使用されたモデル訓練の文字シナリオ１５３の内容と本物のボイス信号１５１１の中から読み取った字句は、同じ、または類似する。原則的に、音色変換モデルは、本物のボイス信号１５１１に基づいて生成される。

音色変換モデルを作成した後、処理装置１７０は、文章データベース１５５内の文章内容を選択することができる（ステップＳ２７０）。具体的に説明すると、処理装置１７０は、ディスプレイ１２０またはスピーカー１３０で文章内容の選択提示を表示する、または流すことができ、文章データベース１５５内の文章内容は、郵便、メッセージ、書籍、広告、および／または新聞の中の字句であっても、あるいはその他の変化態様であってもよい。注意すべきこととして、要求に応じて、ボイス再生システム１は、いつでもユーザーが入力した文章内容を取得することができ、特定のウェブサイトに接続して文章内容にアクセスすることもできる。処理装置１７０は、例えば、タッチパネル、キーボード、マウス等の操作入力装置１４０を介してユーザーの文章内容に対する選択操作を受信し、選択操作に基づいて文章内容を決定する。

例を挙げて説明すると、携帯電話のディスプレイ１２０が複数の童話のタイトルまたはデザインを表示し、ユーザーが特定の童話を選択した後、処理装置１７０は、記憶装置１５０から、またはインターネットで童話の物語の内容（すなわち、文章内容）を取得する。コンピュータのディスプレイ１２０が複数のニュース報道を表示し、ユーザーが特定のニュース報道を選択した後、処理装置１７０は、このニュース報道のアナウンサーまたは記者の話す内容（すなわち、文章内容）をリアルタイムで録音または取得する。

処理装置１７０は、続いて、選択した文章内容の字句をテキスト読み上げ（ＴＴＳ）技術で最初の合成ボイス信号に変換する（ステップＳ２８０）。本実施形態において、処理装置１７０は、ステップＳ２４０と同じ、または類似する方法（例えば、文字分析、生成韻律パラメータ、信号合成、テキスト読み上げエンジン等）を利用して最初の合成ボイス信号を生成する。この最初の合成ボイス信号は、最初の音声振幅データ、または圧縮／符号化処理したオーディオファイルであってもよく、本発明はこれに限定されない。

処理装置１７０は、その後、最初の合成ボイス信号をステップＳ２６０で訓練した音色変換モデルにし、特定音色の合成ボイス信号１５１２に変換する（ステップＳ２９０）。具体的に説明すると、処理装置１７０は、まず、ステップＳ２２０およびＳ２５０と同じ、または類似する方法で最初の合成ボイス信号に対して合成した声の音響学特徴を取得してから、取得した最初の合成した声の音響学特徴をＧＭＭ、ＡＮＮ等のモデルでスペクトル写像、および／またはピッチ調整等の方法を行い、最初の合成ボイス信号の音色を変更することができる。あるいは、処理装置１７０は、直接本物のボイス信号１５１１と合成したボイス信号１５１２の間の差異に基づいて最初の合成ボイス信号を調整して、本物の声の音色をシミュレーションすることができる。処理装置１７０は、スピーカー１３０で音色変換した合成ボイス信号１５１２を再生することができる。この時、変換した合成ボイス信号１５１２が有する音色、音調は、本物のボイス信号１５１１に近い。これにより、ユーザーは、いつでも聞き慣れた音声音色を聴くことができ、聴かせる対象も大量の音声信号を録音する必要がない。

例を挙げて説明すると、子供がある人に物語を話して聴かせて欲しい時、その人の音声音色で語られる物語をすぐに聴くことができる。母親が出張前に話す音声を録音しておくと、母親が出張中に、子供は、いつでもスピーカー１３０で物語を聴くことができる。また、祖父が他界した後、処理装置１７０は、祖父が生前に録音した動画や音声に基づいて音色変換モデルを作成することができるため、孫は、ボイス再生システム１を介して祖父の生前の音声音色で語られる物語を聴くことができる。

さらに実際の要求に応じるため、１つの実施形態において、処理装置１７０は、さらに、ユーザーインターフェース（例えば、ディスプレイ１２０、物理的なボタン等）を提供して、異なる人々に対応する複数の本物のボイス信号１５１１および文章データベース１５５を表示する。処理装置１７０は、操作入力装置１４０を介してユーザーインターフェース上の任意の本物のボイス信号１５１１および文章データベース１５５の中の任意の文章に対する選択操作を受信することができる。この選択操作に反応して、処理装置１７０は、上述したステップＳ２７０〜Ｓ２９０により選択した本物のボイス信号１５１１を訓練した音色変換モデルを使用して、選択した文章文字を特定音色の合成ボイス信号１５１２に変換する。

例を挙げて説明すると、ユーザーは、家族の年長者が好きな司会者を設定することができ、処理装置１７０は、この司会者に対応する音色変換モデルを作成する。また、ユーザーインターフェースは、国内ニュース、国外ニュース、スポーツニュース、芸能ニュース等のオプションを表示することができる。年長者が国内ニュースを選択した後、処理装置１７０は、インターネットから国内ニュースのニュース内容を取得して、音色変換モデルで特定の司会者の音色の合成ボイス信号１５１２を生成することができるため、年長者は、好きな司会者が読む動的ニュースを聴くことができる。あるいは、ユーザーは、携帯電話でアイドルの名前を入力することができ、処理装置１７０は、このアイドルに対応する音色変換モデルを作成する。広告業者が商品を宣伝したい時、処理装置１７０がその広告宣伝内容を入力して、アイドルの音色変換モデルで特定アイドルの音色の合成ボイス信号１５１２を生成した後、ユーザーは、好きなアイドルの商品宣伝を聴くことができる。

また、声の音色は、年齢とともに変化するため、ユーザーは、以前の声の音色を聴きたいと思う可能性がある。１つの実施形態において、処理装置１７０は、音声入力装置１１０で本物のボイス信号１５１１を記録した後、録音または収集時間、および本物のボイス信号１５１１を録音した人の識別データを記録する。記憶装置１５０は、複数の人物の複数の録音時間における本物のボイス信号１５１１を記録することができる。処理装置１７０は、全ての記録した本物のボイス信号１５１１および対応する合成したボイス信号に基づいて、それぞれの音色変換モデルをそれぞれ訓練する。続いて、処理装置１７０は、ユーザーインターフェースを提供して、これらの人物および彼らが録音した時間を表示し、入力装置を介してユーザーインターフェース上のこれらの人物および録音時間に対する選択操作を受信する。この選択操作に反応して、処理装置１７０は、選択した本物のボイス信号１５１１に対応する音色変換モデルを取得してから、音色変換モデルで最初の合成ボイス信号に対して変換を行う。

例を挙げて説明すると、ユーザーがマイクで音声を録音した時、処理装置１７０は、自身のそれぞれの本物のボイス信号１５１１に対して録音時間を記録する。あるいは、音声入力装置１１０がインターネットから特定アイドルの本物のボイス信号１５１１を取得した時、この本物のボイス信号１５１１の録音時間またはこのアイドルの当時の年齢を検索する。

また、１つの実施形態において、スピーカー１３０は、ある本物のボイス信号１５１１に対応する音色変換モデルが変換した合成ボイス信号１５１２を再生する過程において、ユーザーのその他の本物のボイス信号１５１１に対する選択操作に反応して、処理装置１７０は、すぐに対応する音声変換モデルを選択し、適切な切り替え時間点を選択して、現在再生されている変換されたボイス信号１５１２を使用後に選択した本物のボイス信号１５１１に対応する音色変換モデルに切り替えて、音声信号の再生を途切れないようにし、ユーザーがすぐに別の人物の音声音色を聴けるようにすることができる。

例を挙げて説明すると、子供がある人物に物語を話して聴かせて欲しい時、その人の音声音色で語られる物語をすぐに聴くことができる。１つの物語を父親または母親が交互に話す、あるいは父親、母親、祖父、祖母が交互に話すよう指定することができ、いずれも一時的に選択することができる。このボイス再生システム１は、物語の内容を直接父親または母親が話す声に変換することができる。子供は、このボイス再生システム１に自分の親が物語を読んで聴かせてくれている感覚になる。

この他、本物のボイス信号１５１１をリアルタイムで更新し、文章データベース１５５を拡大することにより、ボイス再生システム１は、ユーザーの要求をさらに満たすことができる。例えば、音声入力装置１１０は、決まった時間にインターネットから指定する有名人、アナウンサーの録音ファイルを検索する。処理装置１７０は、決まった時間にオンラインライブラリーからオーディオブックをダウンロードする。ユーザーは、インターネットから電子ブックを購入する。

また、本発明は、さらに、非一時的コンピュータ読み取り可能な記録媒体（例えば、ハードディスク、光ディスク、フラッシュメモリ、固体ディスク（Solid State Disk, SSD）等の保存媒体）を提供し、このコンピュータ読み取り可能な記録媒体は、複数のプログラムコードスニペット（例えば、検出保存空間コードスニペット、空間調整オプション表示コードスニペット、維持作業コードスニペット、および画面表示コードスニペット等）を保存することができ、これらのコードスニペットは、処理装置１７０のプロセッサにロードして実行した後、上述した音色選択可能なボイス再生方法の全てのステップを完了することができる。言い換えると、上述したボイス再生方法は、アプリケーションプログラム（application program, APP）で実行することができ、携帯電話、タブレットＰＣ、またはコンピュータに搭載すれば、すぐにユーザーが操作できるようになる。

例を挙げて説明すると携帯電話のアプリがユーザーインターフェースを提供して好きな有名人を選択すると、クラウドにある処理装置１７０は、選択した有名人に基づいて録音ファイルまたは音声を有する映像ファイルを検索し、これに基づいてこの有名人の音色変換モデルを作成する。ユーザーが携帯電話のスピーカー１３０でインターネットテレビを視聴している時、処理装置１７０は、広告業者が提供する宣伝内容を音色変換モデルで変換して、この有名人の合成ボイス信号を生成することができる。この合成ボイス信号は、広告期間に挿入することができるため、ユーザーは、好きな有名人の商品宣伝を聞くことができる。

また、真実性と体験感を向上させるため、本発明の実施形態は、さらに、視覚映像技術を組み合わせることができる。図３は、本発明の１つの実施形態の映像を組み合わせたボイス再生方法のフロー図である。図３を参照すると、処理装置１７０は、少なくとも１つの本物の顔映像１５７１を収集する（ステップＳ３１０）。１つの実施形態において、上述したステップＳ２１０の本物のボイス信号１５１１を録音する過程において、処理装置１７０は、撮像装置（例えば、カメラ、ビデオレコーダー等）でユーザーに対して本物の顔映像を同時に録画することができる。例えば、家族が撮像装置および音声入力装置１１０に対して原稿を読んで、本物のボイス信号１５１１と本物の顔映像１５７１を同時に取得する。説明すべきこととして、本物のボイス信号１５１１と本物の顔映像１５７１は、音声と映像を有する本物の顔映像に統合しても、あるいはそれぞれの２つのデータであってもよく、本発明はこれに限定されない。別の実施形態において、処理装置１７０は、ネットワークパケット、ユーザーアップロード、外部または内蔵の保存媒体（例えば、フラッシュドライブ、光ディスク、外付けハードディスクドライブ等）を取り込むことにより、本物の顔映像１５７１（映像プラットフォームの映像、広告スニペット、トーク番組映像、映画スニペットであってもよい）を取得することができる。例えば、ユーザーがユーザーインターフェースで好きな俳優を入力すると、処理装置１７０は、ウェブサイトからこの特定俳優が話している映像を検索して取得する。

上述したステップＳ２９０において特定音色の合成ボイス信号１５１２を変換した後、処理装置１７０は、この合成ボイス信号１５１２に基づいて口唇形状変化データを生成する（ステップＳ３３０）。具体的に説明すると、処理装置１７０は、例えば、機械学習アルゴリズムで訓練した口唇形状変換モデルにより時間順序に基づいて順番に合成ボイス信号１５１２に対応する口唇部形状（唇、歯、舌、またはこれらを組み合わせた輪郭を含んでもよい）を取得し、これらの時間順序で配列された口唇部形状を口唇形状変化データとする。例えば、処理装置１７０が本物の顔映像１５７１に基づいて異なる人々に対応する口唇形状変換モデルを作成し、ユーザーがある映画スターおよび特定のコメディ小説を選択した後、処理装置１７０は、この映画スターの口唇部動作を有する口唇形状変化データを変換し、この口唇形状変化データは、この映画スターがコメディ小説を読む口唇部動作を記録する。

続いて、処理装置１７０は、本物の顔映像１５７１を口唇形状変化データに基づいて合成顔映像１５７２に合成する（ステップＳ３５０）。処理装置１７０は、口唇形状変化データが記録した口唇部形状に基づいて、本物の顔映像１５７１内の口唇部エリアを変更し、口唇部エリアの映像を口唇形状変化データが記録した時間順序とともに変更する。最後に、処理装置１７０は、それぞれディスプレイ１２０およびスピーカー１３０で合成顔映像１５７２および合成ボイス信号１５１２を同時に再生する（合成顔映像１５７２および合成ボイス信号１５１２は、１つの映像に統合してもよく、あるいは別々の２つのデータであってもよい）。例えば、ユーザーインターフェースが父親と母親の写真、および物語の表紙を表示し、子供が母親と赤ずきんの物語を選択した後、ディスプレイ１２０は、母親が物語を話す画面を表示し、スピーカー１３０は、同時に母親が物語を読んでいる声を再生する。

また、近年、ロボット技術が急速に発展し、市場には既にダミー機器が多く見られる。図４は、本発明の別の実施形態のボイス再生システム２の構成要素のブロック図である。図４を参照すると、図１と同じ装置については、ここでは説明を省略するが、図１のボイス再生システム１と異なる部分は、ボイス再生システム２がさらに機械的頭蓋骨１９０を含むことである。この機械的頭蓋骨１９０の顔部分の表情は、処理装置１７０で制御することができる。例えば、処理装置１７０は、機械的頭蓋骨１９０の笑う、話す、口を大きく開ける等の表情を制御することができる。

図５は、本発明の１つの実施形態の機械的頭蓋骨１９０を組み合わせたボイス再生方法のフロー図である。図５を参照すると、上述したステップＳ２９０において特定音色の合成ボイス信号１５１２を変換した後、処理装置１７０は、この合成ボイス信号１５１２に基づいて口唇形状変化データを生成する（ステップＳ５１０）。このステップの詳細については、ステップＳ３３０を参照することができるため、ここでは説明を省略する。続いて、処理装置１７０は、口唇形状変化データに基づいて、機械的頭蓋骨１９０の口唇部動作を制御し、同時にスピーカー１３０で合成ボイス信号１５１２を再生する（ステップＳ５３０）。処理装置１７０は、口唇形状変化データが記録した口唇部形状に基づいて、機械的頭蓋骨１９０の口唇部機械要素を変更し、口唇部機械要素を口唇形状変化データが記録した時間順序とともに変更する。例えば、少年がアイドルおよび恋愛小説を選択した後、機械的頭蓋骨１９０は、アイドルの話をシミュレーションし、スピーカー１３０は、同時にアイドルが恋愛小説を読む音声を再生する。

以上のように、本発明の実施形態のボイス再生システム、その再生方法、および非一時的コンピュータ読み取り可能な記録媒体は、選択した文章に対してテキスト読み上げ（ＴＴＳ）技術で最初の合成ボイス信号に変換してから、本物のボイス信号およびそれに対応する合成したボイス信号を訓練して得られた音色変換モデルにより、この最初の合成ボイス信号をターゲット対象の音色を有する合成ボイス信号に変換して、ユーザーがいつでも好きな音声音色と文章文字を聴けるようにすることができる。また、本発明の実施形態は、さらに、合成ボイス信号を合成顔映像または機械的頭蓋骨と組み合わせることにより、使用体験を増やすことができる。

以上のごとく、この発明を実施形態により開示したが、もとより、この発明を限定するためのものではなく、当業者であれば容易に理解できるように、この発明の技術思想の範囲内において、適当な変更ならびに修正が当然なされうるものであるから、その特許権保護の範囲は、特許請求の範囲および、それと均等な領域を基準として定めなければならない。

１ボイス再生システム
１１０音声入力装置
１２０ディスプレイ
１３０スピーカー
１４０操作入力装置
１５０記憶装置
１５１ボイスデータ
１５１１本物のボイス信号
１５１２合成ボイス信号
１５３本物の声の文字シナリオ
１５５文章データベース
１５７映像データ
１５７１本物の顔映像
１５７２合成顔映像
１７０処理装置
１９０機械的頭蓋骨
Ｓ２１０〜Ｓ２９５、Ｓ３１０〜Ｓ３５０、Ｓ５１０〜Ｓ５３０ステップ

Claims

音声を再生するスピーカーと、
文章データベースを記録する記憶装置と、
前記スピーカーおよび前記記憶装置に接続され、少なくとも１つの本物のボイス信号を取得して、前記文章データベース内の文章をテキスト読み上げ技術で最初の合成ボイス信号に変換し、前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換する処理装置と、
を含み、前記音色変換モデルが、前記少なくとも１つの本物のボイス信号を使用し、訓練した後に得られ、前記処理装置が、前記スピーカーで前記合成ボイス信号を再生するボイス再生システム。
前記処理装置が、前記少なくとも１つの本物のボイス信号から少なくとも１つの第１音響学（acoustic）特徴を取得し、前記少なくとも１つの本物のボイス信号に対応する文字シナリオに基づいて、前記テキスト読み上げ技術で合成ボイス信号を生成し、前記合成ボイス信号から少なくとも１つの第２音響学特徴を取得し、前記少なくとも１つの第１音響学特徴および前記少なくとも１つの第２音響学特徴を使用して前記音色変換のモデルを訓練する請求項１に記載のボイス再生システム。
前記処理装置が、ユーザーインターフェースを提供して、前記少なくとも１つの本物のボイス信号および前記文章データベースに記録された複数の前記文章を表示し、前記ユーザーインターフェース上の前記少なくとも１つの本物のボイス信号の中の１つおよび前記文章データベースの中の１つの前記文章に対する選択操作を受信し、前記選択操作に反応して、前記処理装置が、選択した文章内の字句を前記合成ボイス信号に変換する請求項１に記載のボイス再生システム。
前記記憶装置が、さらに、複数の人物が複数の録音時間における前記少なくとも１つの本物のボイス信号を記録し、前記処理装置が、ユーザーインターフェースを提供して、前記人物および対応する録音時間を表示し、前記ユーザーインターフェース上の前記人物および対応する前記録音時間に対する選択操作を受信し、前記選択操作に反応して、前記処理装置が、選択した本物のボイス信号に対応する音色変換モデルを取得する請求項１に記載のボイス再生システム。
前記文章データベース内の文章内容が、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも１つに関連する請求項１に記載のボイス再生システム。
前記処理装置に接続されたディスプレイをさらに含み、
前記処理装置が、少なくとも１つの本物の顔映像を収集し、前記合成ボイス信号に基づいて、口唇形状変化データを生成し、前記少なくとも１つの本物の顔映像のうちの１つを前記口唇形状変化データに基づいて、合成顔映像に合成するとともに、それぞれ前記ディスプレイおよび前記スピーカーで前記合成顔映像および前記合成ボイス信号を同時に再生する請求項１に記載のボイス再生システム。
前記処理装置に接続された機械的頭蓋骨をさらに含み、
前記処理装置が、前記合成ボイス信号に基づいて、口唇形状変化データを生成するとともに、前記口唇形状変化データに基づいて、前記機械的頭蓋骨の口唇部動作を制御し、同時に前記スピーカーで前記合成ボイス信号を再生する請求項１に記載のボイス再生システム。
少なくとも１つの本物のボイス信号を収集するステップと、
文章をテキスト読み上げ技術で最初の合成ボイス信号に変換するステップと、
前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換し、前記音色変換モデルが、前記少なくとも１つの本物のボイス信号を使用し、訓練した後に得られるステップと、
変換された前記合成ボイス信号を再生するステップと、
を含むボイス再生方法。
前記最初に合成されたボイス信号を前記音色変換モデルにして、前記合成ボイス信号に変換するステップの前に、さらに、
前記少なくとも１つの本物のボイス信号から少なくとも１つの第１音響学（acoustic）特徴を取得するステップと、
前記少なくとも１つの本物のボイス信号に対応する文字シナリオに基づいて、前記テキスト読み上げ技術で合成ボイス信号を生成するステップと、
前記合成ボイス信号から少なくとも１つの本物の第２音響学特徴を取得するステップと、
前記少なくとも１つの第１音響学特徴と前記少なくとも１つの第２音響学特徴を使用して、前記音色変換モデルを訓練するステップと、
を含む請求項８に記載のボイス再生方法。
前記最初の合成ボイス信号を前記音色変換モデルにして前記合成ボイス信号に変換するステップの前に、さらに、
ユーザーインターフェースを提供して、収集した前記少なくとも１つの本物のボイス信号および文章データベースに記録された複数の前記文章を表示するステップと、
前記ユーザーインターフェース上の前記本物のボイス信号および前記文章データベースの中の１つの前記文章に対する選択操作を受信するステップと、
前記選択操作に反応して、選択した文章内の字句を前記合成ボイス信号に変換するステップと、
を含む請求項８に記載のボイス再生方法。
前記本物のボイス信号を取得するステップが、
複数の人物が複数の録音時間における本物のボイス信号を記録するステップと、
ユーザーインターフェースを提供して、前記人物および対応する録音時間を表示するステップと、
前記ユーザーインターフェース上の前記人物および対応する前記録音時間に対する選択操作を受信するステップと、
前記選択操作に反応して、選択した本物のボイス信号に対応する音色変換モデルを取得するステップと、
を含む請求項８に記載のボイス再生方法。
前記文章内容が、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも１つに関連する請求項８に記載のボイス再生方法。
前記合成ボイス信号に変換するステップの後に、さらに、
本物の顔映像を取得するステップと、
前記合成ボイス信号に基づいて、口唇形状変化データを生成するステップと、
前記本物の顔映像を前記口唇形状変化データに基づいて、合成顔映像に合成するステップと、
前記合成顔映像および前記合成ボイス信号を同時に再生するステップと、
を含む請求項８に記載のボイス再生方法。
前記合成ボイス信号に変換するステップの後に、さらに、
前記合成ボイス信号に基づいて、口唇形状変化データを生成するステップと、
前記口唇形状変化データに基づいて、機械的頭蓋骨の口唇部動作を制御し、同時に前記合成ボイス信号を再生するステップと、
を含む請求項８に記載のボイス再生方法。
コードを記録して、装置のプロセッサにロードし、
少なくとも１つの本物のボイス信号を収集するステップと、
文章をテキスト読み上げ技術で最初の合成ボイス信号に変換するステップと、
前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換し、前記音色変換モデルが、前記少なくとも１つの本物のボイス信号を使用し、訓練した後に得られるステップと、
変換された前記合成ボイス信号を再生するステップと、
を実行する非一時的コンピュータ読み取り可能な記録媒体。