JP2020056996A - 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 - Google Patents

音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2020056996A
JP2020056996A JP2019149038A JP2019149038A JP2020056996A JP 2020056996 A JP2020056996 A JP 2020056996A JP 2019149038 A JP2019149038 A JP 2019149038A JP 2019149038 A JP2019149038 A JP 2019149038A JP 2020056996 A JP2020056996 A JP 2020056996A
Authority
JP
Japan
Prior art keywords
voice signal
synthesized
real
synthesized voice
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019149038A
Other languages
English (en)
Inventor
林其禹
Chyi-Yeu Lin
古鴻炎
hong yan Gu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Taiwan University of Science and Technology NTUST
Original Assignee
National Taiwan University of Science and Technology NTUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Taiwan University of Science and Technology NTUST filed Critical National Taiwan University of Science and Technology NTUST
Publication of JP2020056996A publication Critical patent/JP2020056996A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】音色選択可能なボイス再生システム、その再生方法およびコンピュータ読み取り可能な記録媒体を提供する。【解決手段】ボイス再生システム1は、スピーカーと、記憶装置と、処理装置とを含む。記憶装置は、文章データベースを記録する。処理装置は、音声入力装置、スピーカーおよび記憶装置に接続される。処理装置は、本物のボイス信号を取得して、文章データベース内の文章をテキスト読み上げ技術で最初の合成ボイス信号に変換してから、この最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換する。この音色変換モデルは、特定の人々から収集した本物のボイス信号を使用し、訓練した後に得られる。続いて、処理装置は、スピーカーでこの特定音色の変換されたボイス信号を再生することができる。これにより、ユーザーは、いつでも好きな人の声の音色および選択した文章内容を含む声の音声を聴くことができる。【選択図】図1

Description

本発明は、ボイス変換応用技術に関するものであり、特に、音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体に関するものである。
特定の人々の音声は、一部の人に対して心理的な共鳴をもたらすことができる。したがって、多くの人々は、指定した人に物語を話して聴かせて欲しいと望んでおり、例えば、子供は、大好きな父親、母親、さらには、祖父や祖母にも物語を読んで(話して)欲しいと望んでいる。物語を読んで欲しいと希望された者が子供の近くにいる場合は、その人が自ら子供に物語を読んであげることができる。しかし、実際の状況では、たとえその人が子供と一緒にいたとしても、物語を読んで聴かせる時間があるとは限らない。言うまでもなく、親が家にいない時、あるいは祖父や祖母と一緒に住んでいない時は、これらの人が子供に物語を読んであげることはできない。
既存技術では、ボイスレコーダーで特定の人々の音声を記録し、録音ファイルを再生して指定した物語の内容を話すことが可能であるが、全ての人が5つ、あるいはそれ以上の物語の内容を録音する時間があるわけではない。また、テキスト読み上げ(Text-to-Speech, TTS)技術により特定の文章内容を合成された声に変換することができるが、現存する関連商品において、親切な操作インターフェースで文章内容を選択できるものはなく、聴かせて欲しい人の音声音色を提供できるものもない。
したがって、本発明は、聴かせて欲しい人の音声音色を再生することができ、文章文字から変換された発話音声を選択することにより、ユーザーがいつでも聴き慣れた声の音色および音声を聴くことのできる音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体を提供する。
本発明の音色選択可能なボイス再生システムは、スピーカーと、記憶装置と、処理装置とを含む。スピーカーは、音声を再生するために使用される。記憶装置は、ボイス信号および文章データベースを記録するために使用される。処理装置は、音声入力装置、スピーカー、および記憶装置に接続される。処理装置は、本物のボイス信号を取得して、文章データベース内の文章をテキスト読み上げ(TTS)技術で最初の合成ボイス信号に変換してから、この最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換する。この音色変換モデルは、特定の人々から収集したボイス信号を使用し、訓練した後に得られる。続いて、処理装置は、スピーカーでこの特定音色の変換された合成ボイス信号を再生することができる。
本発明の1つの実施形態において、上述した処理装置は、収集したボイス信号から音響学(acoustic)特徴を取得する;収集したボイス信号に対応する文字シナリオに基づいて、テキスト読み上げ(TTS)技術で合成されたボイス信号を生成し、合成されたボイス信号から音響学特徴を取得する;その後、2種類の音声信号(本物の音声、合成された音声)の平行な音響学特徴を使用し、ボイス信号を訓練して音色変換のモデルを作成する。
本発明の1つの実施形態において、上述した処理装置は、ユーザーインターフェースを提供して、収集したボイス信号および文章データベースの文章を表示し、ユーザーインターフェース上のボイス信号の中の1つ、および文章データベースの中の1つの文章に対する選択操作を受信する。この選択操作に反応して、処理装置は、選択した文章内の一列の字句を合成ボイス信号に変換する。
本発明の1つの実施形態において、上述した記憶装置は、さらに、複数の人物が複数の時間において録音した本物のボイス信号を記録する。処理装置は、ユーザーインターフェースを提供して、これらの人物および対応する録音時間を表示し、ユーザーインターフェース上のこれらの人物および対応する録音時間に対する選択操作を受信する。この選択操作に反応して、処理装置は、選択した本物のボイス信号に対応する音色変換モデルを取得する。
本発明の1つの実施形態において、上述したボイス再生システムは、さらに、処理装置に接続されたディスプレイを含む。処理装置は、少なくとも1つの本物の顔映像を収集し、この合成ボイス信号に基づいて口唇形状変化データを生成し、1つの本物の顔映像を口唇形状変化データに基づいて合成顔映像に合成するとともに、それぞれディスプレイおよびスピーカーで合成顔映像および合成ボイス信号を同時に再生する。
本発明の1つの実施形態において、上述したボイス再生システムは、さらに、処理装置に接続された機械的頭蓋骨を含む。処理装置は、合成ボイス信号に基づいて口唇形状変化データを生成するとともに、この口唇形状変化データに基づいて機械的頭蓋骨の口唇部動作を制御し、同時にスピーカーで合成ボイス信号を再生する。
本発明のボイス再生方法は、以下のステップを含む。本物のボイス信号を収集する。文章内の各字句をテキスト読み上げ(TTS)技術で最初の合成ボイス信号に変換する。最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換する。この音色変換モデルは、1組のボイス信号(本物のボイス信号と合成されたボイス信号)を使用し、訓練した後に生成される。続いて、この変換された合成ボイス信号を再生する。
本発明の1つの実施形態において、上述した最初に合成されたボイス信号を音色変換モデルにして、特定音色のボイス信号に変換するステップの前に、さらに、以下のステップを含む。収集した本物のボイス信号から音響学特徴を取得する。収集した本物のボイス信号に対応する文字シナリオに基づいて、テキスト読み上げ(TTS)技術で合成されたボイス信号を生成する。合成されたボイス信号から音響学特徴を取得する。収集した音声の音響学特徴と合成した音声の音響学特徴を使用して、音色変換モデルを訓練する。
本発明の1つの実施形態において、上述した収集した本物のボイス信号に対応する文字シナリオに基づいて、テキスト読み上げ(TTS)技術で合成されたボイス信号を生成するステップの前に、さらに、以下のステップを含む。ユーザーインターフェースを提供して、収集した本物のボイス信号およびボイス内容を記録した文字シナリオデータベースを表示する。ユーザーインターフェース上の本物のボイス信号および文字シナリオに対する選択操作を受信する。選択操作に反応して、選択した文字シナリオ内の各字句を合成されたボイス信号に変換する。
本発明の1つの実施形態において、上述した本物のボイス信号を収集するステップは、以下のステップを含む。複数の人物が複数の時間において録音した本物のボイス信号を記録する。ユーザーインターフェースを提供して、これらの人物および対応する録音時間を表示する。ユーザーインターフェース上のこれらの人物および対応する録音時間に対する選択操作を受信する。選択操作に反応して、選択した本物のボイス信号に対応する音色変換モデルを取得する。
本発明の1つの実施形態において、上述した文章データベース内の文章内容は、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも1つに関連する。
本発明の1つの実施形態において、上述した合成ボイス信号に変換するステップの後に、さらに、以下のステップを含む。本物の顔映像を取得する。合成ボイス信号に基づいて、口唇形状変化データを生成する。本物の顔映像を口唇形状変化データに基づいて、合成顔映像に合成する。合成顔映像および合成ボイス信号を同時に再生する。
本発明の1つの実施形態において、上述した合成ボイス信号に変換するステップの後に、さらに、以下のステップを含む。合成ボイス信号に基づいて、口唇形状変化データを生成する。口唇形状変化データに基づいて、機械的頭蓋骨の口唇部動作を制御し、同時に合成ボイス信号を再生する。
本発明のコンピュータ読み取り可能な記録媒体は、コードを記録して、装置のプロセッサにロードし、下記のステップを実行する。本物のボイス信号を収集する。文章内の各字句をテキスト読み上げ(TTS)技術で最初の合成ボイス信号に変換する。最初の合成ボイス信号を音色変換モデルにして、特定音色の合成ボイス信号に変換し、この音色変換モデルは、1組のボイス信号(本物のボイス信号と合成ボイス信号)を使用し、訓練した後に生成される。続いて、この変換された合成ボイス信号を再生する。
以上のように、本発明の実施形態の音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体は、特定音色の本物のボイス信号およびそれに対応する文字シナリオを予め録音または収集するだけでよく、文章を選択して再生する文章データベースを作成し、感情のない未知の音色により再生された音声ではなく、ユーザーがいつでも聴きたい音声音色と文章文字を選択することができる。また、ユーザーは、過去の履歴からボイス信号を選択し、リアルタイムで聴き慣れた声を思い出すことができる。
本発明の上記および他の目的、特徴、および利点をより分かり易くするため、図面と併せた幾つかの実施形態を以下に説明する。
本発明の1つの実施形態のボイス再生システムの構成要素のブロック図である。 本発明の1つの実施形態のボイス再生方法のフロー図である。 本発明の1つの実施形態の映像を組み合わせたボイス再生方法のフロー図である。 本発明の別の実施形態のボイス再生システムの構成要素のブロック図である。 本発明の1つの実施形態の機械的頭蓋骨を組み合わせたボイス再生方法のフロー図である。
以下において、音色選択可能なボイス再生システムをボイス再生システムと略称し、音色選択可能なボイス再生方法をボイス再生方法と略称する。
図1は、本発明の1つの実施形態のボイス再生システム1の構成要素のブロック図である。図1を参照すると、ボイス再生システム1は、音声入力装置110、ディスプレイ120、スピーカー130、操作入力装置140、記録装置150、および処理装置170を少なくとも含むが、本発明はこれに限定されない。
音声入力装置110は、全指向性マイクロホン、指向性マイクロホン、またはその他の音波(例えば、人の声、環境音、機器操作音等)を受信して音声信号に変換することのできる録音装置(電子素子、アナログデジタル変換器、フィルタ、およびオーディオプロセッサを含んでもよい)、通信送受信器(第四世代(4G)モバイルネットワーク、Wi−Fi等をサポートする通信規格)、または伝送インターフェース(例えば、ユニバーサルシリアルバス(USB)、サンダーボルト(thunderbolt)等)であってもよく、本実施形態において、音声入力装置110は、音波の受信に反応してデジタルの本物のボイス信号1511を生成することができ、外部装置(例えば、フラッシュドライブ、光ディスク等)またはインターネットを介して本物のボイス信号1511を直接入力することもできる。
ディスプレイ120は、液晶ディスプレイ(Liquid Crystal Display, LCD)、発光ダイオード(Light-Emitting Diode, LED)、有機発光ダイオード(Organic Light-Emitting Diode, OLED)等の各種ディスプレイであってもよい。本発明の実施形態において、ディスプレイ120は、ユーザーインターフェースを表示するために使用され、このユーザーインターフェースの内容については、後続の実施形態において詳しく説明する。
スピーカー130は、電磁石、コイル、振動膜等の電子素子により構成され、電圧信号を音声信号に変換する。
操作入力装置140は、各種(例えば、静電容量式、抵抗式、光学式)のタッチパネル、キーボード、マウス等のユーザーの入力操作(例えば、タップ、長押し、スライド等)を受信するための装置であってもよい。本発明の実施形態において、操作入力装置140は、ディスプレイ120に表示されたユーザーインターフェース上のユーザーの操作を受信するために使用される。
記憶装置150は、任意の種類の固定または移動式ランダムアクセスメモリ(Random Access Memory,RAM)、読み取り専用メモリ(Read-Only Memory,ROM)、フラッシュメモリ(Flash Memory)、または類似構成要素、あるいは上述した構成要素を組み合わせた保存媒体であってもよく、記憶装置150は、ソフトウェアプログラム、ボイス信号151(本物のボイス信号1511、合成ボイス信号1512を含む)、モデル訓練の文字シナリオ153、文章データベース155、映像データ157(本物の顔映像1571、合成顔映像1572を含む)、本物の声の音響学特徴、合成した声の音響学特徴、音色変換モデル、口唇形状変化データ等のデータまたはファイルを保存するために使用され、これらのソフトウェアプログラム、データ、ファイルについては、後続の実施形態において詳しく説明する。
処理装置170は、音声入力装置110、ディスプレイ120、スピーカー130、操作入力装置140、および記憶装置150に接続され、処理装置170は、デスクトップコンピュータ、ノート型パソコン、サーバー、またはワークステーション等の装置(中央処理装置(Central Processing Unit, CPU)、またはその他のプログラム可能な一般用途または特殊用途のマイクロプロセッサ(Microprocessor)、デジタル信号プロセッサ(Digital Signal Processing, DSP)、プログラマブルコントローラ、特定用途向け集積回路(Application-Specific Integrated Circuit, ASIC)、またはその他の類似構成要素、あるいはこれらの構成要素を組み合わせたプロセッサを少なくとも含む)であってもよい。本発明の実施形態において、処理装置170は、例えば、記憶装置150に記録されたデータまたはファイルにアクセスする、音声入力装置110が収集した本物のボイス信号1511を取得して処理する、操作入力装置140が受信したユーザーの入力操作を取得する、ディスプレイ120でユーザーインターフェースを表示する、あるいはスピーカー130で音色変換された合成ボイス信号1512を再生する等のボイス再生システム1の全ての操作を実行するために使用される。
説明すべきこととして、異なる応用の要求に応じて、ボイス再生システム1内の複数の装置を1つの装置に統合してもよい。例えば、音声入力装置110、ディスプレイ120、スピーカー130、および操作入力装置140を統合して、ユーザーが使用するスマートフォン、タブレットPC、デスクトップコンピュータ、ノート型パソコンを形成する;記憶装置150と処理装置170がクラウドサーバーである場合、インターネットを介してボイスデータ151を伝送および受信する。あるいは、ボイス再生システム1内の全ての装置を1つの装置に統合してもよく、本発明はこれに限定されない。
本発明の実施形態の操作フローを理解しやすくするため、以下、複数の実施形態を用いて本発明の実施形態のボイス再生システム1の操作フローを詳しく説明する。以下において、ボイス再生システム1の各構成要素とモジュールを組み合わせて、本発明の実施形態の方法を説明する。この方法の各フローは、実施状況に応じて調整してもよく、本発明はこれに限定されない。
図2は、本発明の1つの実施形態のボイス再生方法のフロー図である。図2を参照すると、処理装置170は、少なくとも1つの本物のボイス信号1511を収集する(ステップS210)。1つの実施形態において、処理装置170は、例えば、スピーカー130で提示文字を再生するか、あるいはディスプレイ120(例えば、LCD、LED、OLED等のディスプレイ)で提示文字を表示して、ユーザーが指定した文字を導き出すことができ、処理装置170は、音声入力装置110で人が発した音声信号を録音することができる。例えば、家族がそれぞれマイクで1つの物語を話し、複数の本物のボイス信号1511を録音すると、この本物のボイス信号1511は、クラウドサーバー内の記憶装置150にアップロードされる。説明すべきこととして、ボイス再生システム1は、ユーザーが話す内容を制限せず、音声入力装置110で十分な時間の長さ(例えば、10、30秒等)の声を録音できればよい。別の実施形態において、処理装置170は、音声入力装置110でネットワークパケット、ユーザーアップロード、外部または内蔵の保存媒体(例えば、フラッシュドライブ、光ディスク、外付けハードディスクドライブ等)を取り込むことにより、本物のボイス信号1511(講演内容、会話内容、歌唱内容等を含んでもよい)を取得することができる。例えば、ユーザーがユーザーインターフェースで好きな歌手を入力すると、音声入力装置110は、インターネットからこの特定歌手の会話内容または歌唱音楽を検索して取得する。ユーザーインターフェースがアナウンサーの写真や名前を表示し、年長者に選択させると、音声入力装置110は、インターネットからこのアナウンサーのオンラインラジオの声を録音する。本物のボイス信号1511は、最初の音声振幅データ、または圧縮/符号化処理したオーディオファイルであってもよいが、本発明はこれに限定されない。
処理装置170は、続いて、本物のボイス信号1511から音響学特徴を取得する(ステップS220)。具体的に説明すると、処理装置170は、異なる言語(例えば、中国語、英語、フランス語等)の発音単位(例えば、韻母、声母、母音、子音等)に基づいて、各本物のボイス信号1511から発音に対応する音声スニペット(ピッチ、振幅、および音色等を記録することができる)を取得することができ、あるいは、処理装置170は、各本物のボイス信号1511のスペクトルに反応する特性を直接取得する等の方法により、後続の音色変換モデルに必要な音響学特徴を取得する。
一方、処理装置170は、モデル訓練の文字シナリオ153を選択することができる(ステップS230)。このモデル訓練の文字シナリオ153は、ステップS210で使用した提示文字と同じ内容、または異なる内容、あるいはその他の設計により後続の音色変換モデル訓練に便利な文字データ(例えば、全ての韻母、母音の字句)であってもよく、本発明はこれに限定されない。例えば、本物のボイス信号1511の内容が広告のキャッチフレーズである場合、文字シナリオは、唐詩に関連する。説明すべきこととして、文字シナリオ153は、内蔵されても、または外部から自動的に取得したものであってもよく、あるいはディスプレイ120がユーザーインターフェースを表示して、ユーザーに文字シナリオ153を選択させてもよい。続いて、処理装置170は、モデル訓練の文字シナリオ153を利用して、テキスト読み上げ(TTS)技術を使用して合成されたボイス信号を生成する(ステップS240)。具体的に説明すると、処理装置170は、選択したモデル訓練の文字シナリオ153に対して単語分割、変調、符号発音等の文字分析を行った後、韻律パラメータ(例えば、ピッチ(pitch)、音の長さ(duration)、音の強さ、停頓等)を生成し、例えば、共振ピーク、正弦波、隠れマルコフモデル(Hidden Markov Model, HMM)または真っ直ぐ(straight)等の信号波形合成機で音声信号の合成を行い、合成されたボイス信号を生成する。その他の実施形態において、処理装置170は、モデル訓練の文字シナリオ153を外部または内蔵のテキスト読み上げエンジン(例えば、グーグル(Google)、工業技術研究院、AT&Tのナチュラルボイス(Natural Voices)等)に直接入力して、合成されたボイス信号を生成してもよい。この合成されたボイス信号は、最初の音声振幅データであっても、あるいは圧縮/符号化処理したオーディオファイルであってもよく、本発明はこれに限定されない。説明すべきこととして、これらの実施形態において、合成されたボイス信号は、インターネット、外部保存媒体により取得したオーディオブック、オーディオファイル、録音ファイル等のデータであってもよく、本発明はこれに限定されない。例えば、音声入力装置110は、オンラインライブラリーから、オーディオブック、動画サイトに記録された合成音声信号等を取得する。
処理装置170は、続いて、合成されたボイス信号から合成音声の音響学特徴を取得する(ステップS250)。具体的に説明すると、処理装置170は、ステップS220と同じ、または類似する方法で、各発音単位の発音に対応する音声スニペットを取得することができ、あるいは各合成音声信号がスペクトルに反応する特性等の方法により、後続の音色変換模型に必要な音響学特徴を取得する。説明すべきこととして、本物の声の音響学特徴および合成した声の音響学特徴の類型は、さらに多くの多様性があり、実際の要求に応じて調整可能であるため、本発明はこれに限定されない。
続いて、処理装置170は、本物の声の音響学特徴および合成した声の音響学特徴を使用して、音色変換モデルを訓練する(ステップS260)。具体的に説明すると、処理装置170は、本物の声の音響学特徴および合成した声の音響学特徴を訓練サンプルとすることができ、合成したボイス信号1512をソース音声とし、本物のボイス信号1511をターゲット音声として、例えば、混合正規分布モデル(Gaussian Mixture Model, GMM)、人工神経網(Artificial Neural Network, ANN)等のモデルを訓練することができ、訓練して得られたモデルを音色変換モデルとして、任意の合成されたボイス信号を特定音色の合成ボイス信号1512に変換することができる。
説明すべきこととして、別の実施形態において、この音色変換モデルは、本物のボイス信号1511と合成されたボイス信号のスペクトル、あるいは音色上の差異を分析することによって生成してもよく、この時、合成されたボイス信号の生成に使用されたモデル訓練の文字シナリオ153の内容と本物のボイス信号1511の中から読み取った字句は、同じ、または類似する。原則的に、音色変換モデルは、本物のボイス信号1511に基づいて生成される。
音色変換モデルを作成した後、処理装置170は、文章データベース155内の文章内容を選択することができる(ステップS270)。具体的に説明すると、処理装置170は、ディスプレイ120またはスピーカー130で文章内容の選択提示を表示する、または流すことができ、文章データベース155内の文章内容は、郵便、メッセージ、書籍、広告、および/または新聞の中の字句であっても、あるいはその他の変化態様であってもよい。注意すべきこととして、要求に応じて、ボイス再生システム1は、いつでもユーザーが入力した文章内容を取得することができ、特定のウェブサイトに接続して文章内容にアクセスすることもできる。処理装置170は、例えば、タッチパネル、キーボード、マウス等の操作入力装置140を介してユーザーの文章内容に対する選択操作を受信し、選択操作に基づいて文章内容を決定する。
例を挙げて説明すると、携帯電話のディスプレイ120が複数の童話のタイトルまたはデザインを表示し、ユーザーが特定の童話を選択した後、処理装置170は、記憶装置150から、またはインターネットで童話の物語の内容(すなわち、文章内容)を取得する。コンピュータのディスプレイ120が複数のニュース報道を表示し、ユーザーが特定のニュース報道を選択した後、処理装置170は、このニュース報道のアナウンサーまたは記者の話す内容(すなわち、文章内容)をリアルタイムで録音または取得する。
処理装置170は、続いて、選択した文章内容の字句をテキスト読み上げ(TTS)技術で最初の合成ボイス信号に変換する(ステップS280)。本実施形態において、処理装置170は、ステップS240と同じ、または類似する方法(例えば、文字分析、生成韻律パラメータ、信号合成、テキスト読み上げエンジン等)を利用して最初の合成ボイス信号を生成する。この最初の合成ボイス信号は、最初の音声振幅データ、または圧縮/符号化処理したオーディオファイルであってもよく、本発明はこれに限定されない。
処理装置170は、その後、最初の合成ボイス信号をステップS260で訓練した音色変換モデルにし、特定音色の合成ボイス信号1512に変換する(ステップS290)。具体的に説明すると、処理装置170は、まず、ステップS220およびS250と同じ、または類似する方法で最初の合成ボイス信号に対して合成した声の音響学特徴を取得してから、取得した最初の合成した声の音響学特徴をGMM、ANN等のモデルでスペクトル写像、および/またはピッチ調整等の方法を行い、最初の合成ボイス信号の音色を変更することができる。あるいは、処理装置170は、直接本物のボイス信号1511と合成したボイス信号1512の間の差異に基づいて最初の合成ボイス信号を調整して、本物の声の音色をシミュレーションすることができる。処理装置170は、スピーカー130で音色変換した合成ボイス信号1512を再生することができる。この時、変換した合成ボイス信号1512が有する音色、音調は、本物のボイス信号1511に近い。これにより、ユーザーは、いつでも聞き慣れた音声音色を聴くことができ、聴かせる対象も大量の音声信号を録音する必要がない。
例を挙げて説明すると、子供がある人に物語を話して聴かせて欲しい時、その人の音声音色で語られる物語をすぐに聴くことができる。母親が出張前に話す音声を録音しておくと、母親が出張中に、子供は、いつでもスピーカー130で物語を聴くことができる。また、祖父が他界した後、処理装置170は、祖父が生前に録音した動画や音声に基づいて音色変換モデルを作成することができるため、孫は、ボイス再生システム1を介して祖父の生前の音声音色で語られる物語を聴くことができる。
さらに実際の要求に応じるため、1つの実施形態において、処理装置170は、さらに、ユーザーインターフェース(例えば、ディスプレイ120、物理的なボタン等)を提供して、異なる人々に対応する複数の本物のボイス信号1511および文章データベース155を表示する。処理装置170は、操作入力装置140を介してユーザーインターフェース上の任意の本物のボイス信号1511および文章データベース155の中の任意の文章に対する選択操作を受信することができる。この選択操作に反応して、処理装置170は、上述したステップS270〜S290により選択した本物のボイス信号1511を訓練した音色変換モデルを使用して、選択した文章文字を特定音色の合成ボイス信号1512に変換する。
例を挙げて説明すると、ユーザーは、家族の年長者が好きな司会者を設定することができ、処理装置170は、この司会者に対応する音色変換モデルを作成する。また、ユーザーインターフェースは、国内ニュース、国外ニュース、スポーツニュース、芸能ニュース等のオプションを表示することができる。年長者が国内ニュースを選択した後、処理装置170は、インターネットから国内ニュースのニュース内容を取得して、音色変換モデルで特定の司会者の音色の合成ボイス信号1512を生成することができるため、年長者は、好きな司会者が読む動的ニュースを聴くことができる。あるいは、ユーザーは、携帯電話でアイドルの名前を入力することができ、処理装置170は、このアイドルに対応する音色変換モデルを作成する。広告業者が商品を宣伝したい時、処理装置170がその広告宣伝内容を入力して、アイドルの音色変換モデルで特定アイドルの音色の合成ボイス信号1512を生成した後、ユーザーは、好きなアイドルの商品宣伝を聴くことができる。
また、声の音色は、年齢とともに変化するため、ユーザーは、以前の声の音色を聴きたいと思う可能性がある。1つの実施形態において、処理装置170は、音声入力装置110で本物のボイス信号1511を記録した後、録音または収集時間、および本物のボイス信号1511を録音した人の識別データを記録する。記憶装置150は、複数の人物の複数の録音時間における本物のボイス信号1511を記録することができる。処理装置170は、全ての記録した本物のボイス信号1511および対応する合成したボイス信号に基づいて、それぞれの音色変換モデルをそれぞれ訓練する。続いて、処理装置170は、ユーザーインターフェースを提供して、これらの人物および彼らが録音した時間を表示し、入力装置を介してユーザーインターフェース上のこれらの人物および録音時間に対する選択操作を受信する。この選択操作に反応して、処理装置170は、選択した本物のボイス信号1511に対応する音色変換モデルを取得してから、音色変換モデルで最初の合成ボイス信号に対して変換を行う。
例を挙げて説明すると、ユーザーがマイクで音声を録音した時、処理装置170は、自身のそれぞれの本物のボイス信号1511に対して録音時間を記録する。あるいは、音声入力装置110がインターネットから特定アイドルの本物のボイス信号1511を取得した時、この本物のボイス信号1511の録音時間またはこのアイドルの当時の年齢を検索する。
また、1つの実施形態において、スピーカー130は、ある本物のボイス信号1511に対応する音色変換モデルが変換した合成ボイス信号1512を再生する過程において、ユーザーのその他の本物のボイス信号1511に対する選択操作に反応して、処理装置170は、すぐに対応する音声変換モデルを選択し、適切な切り替え時間点を選択して、現在再生されている変換されたボイス信号1512を使用後に選択した本物のボイス信号1511に対応する音色変換モデルに切り替えて、音声信号の再生を途切れないようにし、ユーザーがすぐに別の人物の音声音色を聴けるようにすることができる。
例を挙げて説明すると、子供がある人物に物語を話して聴かせて欲しい時、その人の音声音色で語られる物語をすぐに聴くことができる。1つの物語を父親または母親が交互に話す、あるいは父親、母親、祖父、祖母が交互に話すよう指定することができ、いずれも一時的に選択することができる。このボイス再生システム1は、物語の内容を直接父親または母親が話す声に変換することができる。子供は、このボイス再生システム1に自分の親が物語を読んで聴かせてくれている感覚になる。
この他、本物のボイス信号1511をリアルタイムで更新し、文章データベース155を拡大することにより、ボイス再生システム1は、ユーザーの要求をさらに満たすことができる。例えば、音声入力装置110は、決まった時間にインターネットから指定する有名人、アナウンサーの録音ファイルを検索する。処理装置170は、決まった時間にオンラインライブラリーからオーディオブックをダウンロードする。ユーザーは、インターネットから電子ブックを購入する。
また、本発明は、さらに、非一時的コンピュータ読み取り可能な記録媒体(例えば、ハードディスク、光ディスク、フラッシュメモリ、固体ディスク(Solid State Disk, SSD)等の保存媒体)を提供し、このコンピュータ読み取り可能な記録媒体は、複数のプログラムコードスニペット(例えば、検出保存空間コードスニペット、空間調整オプション表示コードスニペット、維持作業コードスニペット、および画面表示コードスニペット等)を保存することができ、これらのコードスニペットは、処理装置170のプロセッサにロードして実行した後、上述した音色選択可能なボイス再生方法の全てのステップを完了することができる。言い換えると、上述したボイス再生方法は、アプリケーションプログラム(application program, APP)で実行することができ、携帯電話、タブレットPC、またはコンピュータに搭載すれば、すぐにユーザーが操作できるようになる。
例を挙げて説明すると携帯電話のアプリがユーザーインターフェースを提供して好きな有名人を選択すると、クラウドにある処理装置170は、選択した有名人に基づいて録音ファイルまたは音声を有する映像ファイルを検索し、これに基づいてこの有名人の音色変換モデルを作成する。ユーザーが携帯電話のスピーカー130でインターネットテレビを視聴している時、処理装置170は、広告業者が提供する宣伝内容を音色変換モデルで変換して、この有名人の合成ボイス信号を生成することができる。この合成ボイス信号は、広告期間に挿入することができるため、ユーザーは、好きな有名人の商品宣伝を聞くことができる。
また、真実性と体験感を向上させるため、本発明の実施形態は、さらに、視覚映像技術を組み合わせることができる。図3は、本発明の1つの実施形態の映像を組み合わせたボイス再生方法のフロー図である。図3を参照すると、処理装置170は、少なくとも1つの本物の顔映像1571を収集する(ステップS310)。1つの実施形態において、上述したステップS210の本物のボイス信号1511を録音する過程において、処理装置170は、撮像装置(例えば、カメラ、ビデオレコーダー等)でユーザーに対して本物の顔映像を同時に録画することができる。例えば、家族が撮像装置および音声入力装置110に対して原稿を読んで、本物のボイス信号1511と本物の顔映像1571を同時に取得する。説明すべきこととして、本物のボイス信号1511と本物の顔映像1571は、音声と映像を有する本物の顔映像に統合しても、あるいはそれぞれの2つのデータであってもよく、本発明はこれに限定されない。別の実施形態において、処理装置170は、ネットワークパケット、ユーザーアップロード、外部または内蔵の保存媒体(例えば、フラッシュドライブ、光ディスク、外付けハードディスクドライブ等)を取り込むことにより、本物の顔映像1571(映像プラットフォームの映像、広告スニペット、トーク番組映像、映画スニペットであってもよい)を取得することができる。例えば、ユーザーがユーザーインターフェースで好きな俳優を入力すると、処理装置170は、ウェブサイトからこの特定俳優が話している映像を検索して取得する。
上述したステップS290において特定音色の合成ボイス信号1512を変換した後、処理装置170は、この合成ボイス信号1512に基づいて口唇形状変化データを生成する(ステップS330)。具体的に説明すると、処理装置170は、例えば、機械学習アルゴリズムで訓練した口唇形状変換モデルにより時間順序に基づいて順番に合成ボイス信号1512に対応する口唇部形状(唇、歯、舌、またはこれらを組み合わせた輪郭を含んでもよい)を取得し、これらの時間順序で配列された口唇部形状を口唇形状変化データとする。例えば、処理装置170が本物の顔映像1571に基づいて異なる人々に対応する口唇形状変換モデルを作成し、ユーザーがある映画スターおよび特定のコメディ小説を選択した後、処理装置170は、この映画スターの口唇部動作を有する口唇形状変化データを変換し、この口唇形状変化データは、この映画スターがコメディ小説を読む口唇部動作を記録する。
続いて、処理装置170は、本物の顔映像1571を口唇形状変化データに基づいて合成顔映像1572に合成する(ステップS350)。処理装置170は、口唇形状変化データが記録した口唇部形状に基づいて、本物の顔映像1571内の口唇部エリアを変更し、口唇部エリアの映像を口唇形状変化データが記録した時間順序とともに変更する。最後に、処理装置170は、それぞれディスプレイ120およびスピーカー130で合成顔映像1572および合成ボイス信号1512を同時に再生する(合成顔映像1572および合成ボイス信号1512は、1つの映像に統合してもよく、あるいは別々の2つのデータであってもよい)。例えば、ユーザーインターフェースが父親と母親の写真、および物語の表紙を表示し、子供が母親と赤ずきんの物語を選択した後、ディスプレイ120は、母親が物語を話す画面を表示し、スピーカー130は、同時に母親が物語を読んでいる声を再生する。
また、近年、ロボット技術が急速に発展し、市場には既にダミー機器が多く見られる。図4は、本発明の別の実施形態のボイス再生システム2の構成要素のブロック図である。図4を参照すると、図1と同じ装置については、ここでは説明を省略するが、図1のボイス再生システム1と異なる部分は、ボイス再生システム2がさらに機械的頭蓋骨190を含むことである。この機械的頭蓋骨190の顔部分の表情は、処理装置170で制御することができる。例えば、処理装置170は、機械的頭蓋骨190の笑う、話す、口を大きく開ける等の表情を制御することができる。
図5は、本発明の1つの実施形態の機械的頭蓋骨190を組み合わせたボイス再生方法のフロー図である。図5を参照すると、上述したステップS290において特定音色の合成ボイス信号1512を変換した後、処理装置170は、この合成ボイス信号1512に基づいて口唇形状変化データを生成する(ステップS510)。このステップの詳細については、ステップS330を参照することができるため、ここでは説明を省略する。続いて、処理装置170は、口唇形状変化データに基づいて、機械的頭蓋骨190の口唇部動作を制御し、同時にスピーカー130で合成ボイス信号1512を再生する(ステップS530)。処理装置170は、口唇形状変化データが記録した口唇部形状に基づいて、機械的頭蓋骨190の口唇部機械要素を変更し、口唇部機械要素を口唇形状変化データが記録した時間順序とともに変更する。例えば、少年がアイドルおよび恋愛小説を選択した後、機械的頭蓋骨190は、アイドルの話をシミュレーションし、スピーカー130は、同時にアイドルが恋愛小説を読む音声を再生する。
以上のように、本発明の実施形態のボイス再生システム、その再生方法、および非一時的コンピュータ読み取り可能な記録媒体は、選択した文章に対してテキスト読み上げ(TTS)技術で最初の合成ボイス信号に変換してから、本物のボイス信号およびそれに対応する合成したボイス信号を訓練して得られた音色変換モデルにより、この最初の合成ボイス信号をターゲット対象の音色を有する合成ボイス信号に変換して、ユーザーがいつでも好きな音声音色と文章文字を聴けるようにすることができる。また、本発明の実施形態は、さらに、合成ボイス信号を合成顔映像または機械的頭蓋骨と組み合わせることにより、使用体験を増やすことができる。
以上のごとく、この発明を実施形態により開示したが、もとより、この発明を限定するためのものではなく、当業者であれば容易に理解できるように、この発明の技術思想の範囲内において、適当な変更ならびに修正が当然なされうるものであるから、その特許権保護の範囲は、特許請求の範囲および、それと均等な領域を基準として定めなければならない。
1 ボイス再生システム
110 音声入力装置
120 ディスプレイ
130 スピーカー
140 操作入力装置
150 記憶装置
151 ボイスデータ
1511 本物のボイス信号
1512 合成ボイス信号
153 本物の声の文字シナリオ
155 文章データベース
157 映像データ
1571 本物の顔映像
1572 合成顔映像
170 処理装置
190 機械的頭蓋骨
S210〜S295、S310〜S350、S510〜S530 ステップ

Claims (15)

  1. 音声を再生するスピーカーと、
    文章データベースを記録する記憶装置と、
    前記スピーカーおよび前記記憶装置に接続され、少なくとも1つの本物のボイス信号を取得して、前記文章データベース内の文章をテキスト読み上げ技術で最初の合成ボイス信号に変換し、前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換する処理装置と、
    を含み、前記音色変換モデルが、前記少なくとも1つの本物のボイス信号を使用し、訓練した後に得られ、前記処理装置が、前記スピーカーで前記合成ボイス信号を再生するボイス再生システム。
  2. 前記処理装置が、前記少なくとも1つの本物のボイス信号から少なくとも1つの第1音響学(acoustic)特徴を取得し、前記少なくとも1つの本物のボイス信号に対応する文字シナリオに基づいて、前記テキスト読み上げ技術で合成ボイス信号を生成し、前記合成ボイス信号から少なくとも1つの第2音響学特徴を取得し、前記少なくとも1つの第1音響学特徴および前記少なくとも1つの第2音響学特徴を使用して前記音色変換のモデルを訓練する請求項1に記載のボイス再生システム。
  3. 前記処理装置が、ユーザーインターフェースを提供して、前記少なくとも1つの本物のボイス信号および前記文章データベースに記録された複数の前記文章を表示し、前記ユーザーインターフェース上の前記少なくとも1つの本物のボイス信号の中の1つおよび前記文章データベースの中の1つの前記文章に対する選択操作を受信し、前記選択操作に反応して、前記処理装置が、選択した文章内の字句を前記合成ボイス信号に変換する請求項1に記載のボイス再生システム。
  4. 前記記憶装置が、さらに、複数の人物が複数の録音時間における前記少なくとも1つの本物のボイス信号を記録し、前記処理装置が、ユーザーインターフェースを提供して、前記人物および対応する録音時間を表示し、前記ユーザーインターフェース上の前記人物および対応する前記録音時間に対する選択操作を受信し、前記選択操作に反応して、前記処理装置が、選択した本物のボイス信号に対応する音色変換モデルを取得する請求項1に記載のボイス再生システム。
  5. 前記文章データベース内の文章内容が、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも1つに関連する請求項1に記載のボイス再生システム。
  6. 前記処理装置に接続されたディスプレイをさらに含み、
    前記処理装置が、少なくとも1つの本物の顔映像を収集し、前記合成ボイス信号に基づいて、口唇形状変化データを生成し、前記少なくとも1つの本物の顔映像のうちの1つを前記口唇形状変化データに基づいて、合成顔映像に合成するとともに、それぞれ前記ディスプレイおよび前記スピーカーで前記合成顔映像および前記合成ボイス信号を同時に再生する請求項1に記載のボイス再生システム。
  7. 前記処理装置に接続された機械的頭蓋骨をさらに含み、
    前記処理装置が、前記合成ボイス信号に基づいて、口唇形状変化データを生成するとともに、前記口唇形状変化データに基づいて、前記機械的頭蓋骨の口唇部動作を制御し、同時に前記スピーカーで前記合成ボイス信号を再生する請求項1に記載のボイス再生システム。
  8. 少なくとも1つの本物のボイス信号を収集するステップと、
    文章をテキスト読み上げ技術で最初の合成ボイス信号に変換するステップと、
    前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換し、前記音色変換モデルが、前記少なくとも1つの本物のボイス信号を使用し、訓練した後に得られるステップと、
    変換された前記合成ボイス信号を再生するステップと、
    を含むボイス再生方法。
  9. 前記最初に合成されたボイス信号を前記音色変換モデルにして、前記合成ボイス信号に変換するステップの前に、さらに、
    前記少なくとも1つの本物のボイス信号から少なくとも1つの第1音響学(acoustic)特徴を取得するステップと、
    前記少なくとも1つの本物のボイス信号に対応する文字シナリオに基づいて、前記テキスト読み上げ技術で合成ボイス信号を生成するステップと、
    前記合成ボイス信号から少なくとも1つの本物の第2音響学特徴を取得するステップと、
    前記少なくとも1つの第1音響学特徴と前記少なくとも1つの第2音響学特徴を使用して、前記音色変換モデルを訓練するステップと、
    を含む請求項8に記載のボイス再生方法。
  10. 前記最初の合成ボイス信号を前記音色変換モデルにして前記合成ボイス信号に変換するステップの前に、さらに、
    ユーザーインターフェースを提供して、収集した前記少なくとも1つの本物のボイス信号および文章データベースに記録された複数の前記文章を表示するステップと、
    前記ユーザーインターフェース上の前記本物のボイス信号および前記文章データベースの中の1つの前記文章に対する選択操作を受信するステップと、
    前記選択操作に反応して、選択した文章内の字句を前記合成ボイス信号に変換するステップと、
    を含む請求項8に記載のボイス再生方法。
  11. 前記本物のボイス信号を取得するステップが、
    複数の人物が複数の録音時間における本物のボイス信号を記録するステップと、
    ユーザーインターフェースを提供して、前記人物および対応する録音時間を表示するステップと、
    前記ユーザーインターフェース上の前記人物および対応する前記録音時間に対する選択操作を受信するステップと、
    前記選択操作に反応して、選択した本物のボイス信号に対応する音色変換モデルを取得するステップと、
    を含む請求項8に記載のボイス再生方法。
  12. 前記文章内容が、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも1つに関連する請求項8に記載のボイス再生方法。
  13. 前記合成ボイス信号に変換するステップの後に、さらに、
    本物の顔映像を取得するステップと、
    前記合成ボイス信号に基づいて、口唇形状変化データを生成するステップと、
    前記本物の顔映像を前記口唇形状変化データに基づいて、合成顔映像に合成するステップと、
    前記合成顔映像および前記合成ボイス信号を同時に再生するステップと、
    を含む請求項8に記載のボイス再生方法。
  14. 前記合成ボイス信号に変換するステップの後に、さらに、
    前記合成ボイス信号に基づいて、口唇形状変化データを生成するステップと、
    前記口唇形状変化データに基づいて、機械的頭蓋骨の口唇部動作を制御し、同時に前記合成ボイス信号を再生するステップと、
    を含む請求項8に記載のボイス再生方法。
  15. コードを記録して、装置のプロセッサにロードし、
    少なくとも1つの本物のボイス信号を収集するステップと、
    文章をテキスト読み上げ技術で最初の合成ボイス信号に変換するステップと、
    前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換し、前記音色変換モデルが、前記少なくとも1つの本物のボイス信号を使用し、訓練した後に得られるステップと、
    変換された前記合成ボイス信号を再生するステップと、
    を実行する非一時的コンピュータ読み取り可能な記録媒体。
JP2019149038A 2018-08-16 2019-08-15 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 Pending JP2020056996A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107128649A TW202009924A (zh) 2018-08-16 2018-08-16 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體
TW107128649 2018-08-16

Publications (1)

Publication Number Publication Date
JP2020056996A true JP2020056996A (ja) 2020-04-09

Family

ID=69523305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019149038A Pending JP2020056996A (ja) 2018-08-16 2019-08-15 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体

Country Status (4)

Country Link
US (1) US20200058288A1 (ja)
JP (1) JP2020056996A (ja)
CN (1) CN110867177A (ja)
TW (1) TW202009924A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003447A (ja) * 2020-06-23 2022-01-11 クリスタルメソッド株式会社 学習方法、コンテンツ再生装置、及びコンテンツ再生システム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105845125B (zh) * 2016-05-18 2019-05-03 百度在线网络技术(北京)有限公司 语音合成方法和语音合成装置
US11195507B2 (en) * 2018-10-04 2021-12-07 Rovi Guides, Inc. Translating between spoken languages with emotion in audio and video media streams
CN113449068A (zh) * 2020-03-27 2021-09-28 华为技术有限公司 一种语音交互方法及电子设备
CN111667812B (zh) * 2020-05-29 2023-07-18 北京声智科技有限公司 一种语音合成方法、装置、设备及存储介质
CN112151008B (zh) * 2020-09-22 2022-07-15 中用科技有限公司 一种语音合成方法、系统及计算机设备
CN112992116A (zh) * 2021-02-24 2021-06-18 北京中科深智科技有限公司 一种视频内容自动生成方法和系统
CN113223555A (zh) * 2021-04-30 2021-08-06 北京有竹居网络技术有限公司 视频生成方法、装置、存储介质及电子设备
EP4322162A1 (en) * 2021-07-16 2024-02-14 Samsung Electronics Co., Ltd. Electronic device for generating mouth shape, and operating method therefor
CN114822496B (zh) * 2021-08-20 2024-09-20 美的集团(上海)有限公司 一种音色切换方法、装置、设备及介质
CN118541751A (zh) * 2021-11-09 2024-08-23 Lg电子株式会社 提供语音合成服务的方法及其系统
CN114242093A (zh) * 2021-12-16 2022-03-25 游密科技(深圳)有限公司 语音音色转换方法、装置、计算机设备和存储介质
CN114842827A (zh) * 2022-04-28 2022-08-02 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
JP2008058379A (ja) * 2006-08-29 2008-03-13 Seiko Epson Corp 音声合成システム及びフィルタ装置
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
JP2014035541A (ja) * 2012-08-10 2014-02-24 Casio Comput Co Ltd コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
JP2017087344A (ja) * 2015-11-10 2017-05-25 株式会社国際電気通信基礎技術研究所 アンドロイドロボットの制御システム、装置、プログラムおよび方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
CN1914666B (zh) * 2004-01-27 2012-04-04 松下电器产业株式会社 声音合成装置
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN102609969B (zh) * 2012-02-17 2013-08-07 上海交通大学 基于汉语文本驱动的人脸语音同步动画的处理方法
CN104464716B (zh) * 2014-11-20 2018-01-12 北京云知声信息技术有限公司 一种语音播报系统和方法
CN104361620B (zh) * 2014-11-27 2017-07-28 韩慧健 一种基于综合加权算法的口型动画合成方法
CN105280179A (zh) * 2015-11-02 2016-01-27 小天才科技有限公司 一种文字转语音的处理方法及系统
CN105719518A (zh) * 2016-04-26 2016-06-29 迟同斌 智能儿童早教机
CN106205623B (zh) * 2016-06-17 2019-05-21 福建星网视易信息系统有限公司 一种声音转换方法及装置
US20180330713A1 (en) * 2017-05-14 2018-11-15 International Business Machines Corporation Text-to-Speech Synthesis with Dynamically-Created Virtual Voices
CN108206887A (zh) * 2017-09-21 2018-06-26 中兴通讯股份有限公司 一种短信播放方法、终端和计算机可读存储介质
CN107770380B (zh) * 2017-10-25 2020-12-08 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN108230438B (zh) * 2017-12-28 2020-06-19 清华大学 声音驱动辅助侧脸图像的人脸重建方法及装置
CN109036374B (zh) * 2018-07-03 2019-12-03 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN108847215B (zh) * 2018-08-29 2020-07-17 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266349A (ja) * 2004-03-18 2005-09-29 Nec Corp 声質変換装置および声質変換方法ならびに声質変換プログラム
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
JP2008058379A (ja) * 2006-08-29 2008-03-13 Seiko Epson Corp 音声合成システム及びフィルタ装置
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
JP2014035541A (ja) * 2012-08-10 2014-02-24 Casio Comput Co Ltd コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
JP2017087344A (ja) * 2015-11-10 2017-05-25 株式会社国際電気通信基礎技術研究所 アンドロイドロボットの制御システム、装置、プログラムおよび方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WU, CHUNG-HSIEN, ET AL.: "Voice Conversion Using Duration-Embedded Bi-HMMs for Expressive Speech Synthesis", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 14, no. 4, JPN6020044480, July 2006 (2006-07-01), pages 1109 - 1116, ISSN: 0004390223 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003447A (ja) * 2020-06-23 2022-01-11 クリスタルメソッド株式会社 学習方法、コンテンツ再生装置、及びコンテンツ再生システム

Also Published As

Publication number Publication date
CN110867177A (zh) 2020-03-06
US20200058288A1 (en) 2020-02-20
TW202009924A (zh) 2020-03-01

Similar Documents

Publication Publication Date Title
JP2020056996A (ja) 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体
US12069345B2 (en) Characterizing content for audio-video dubbing and other transformations
McKeown et al. The semaine database: Annotated multimodal records of emotionally colored conversations between a person and a limited agent
WO2022184055A1 (zh) 文章的语音播放方法、装置、设备、存储介质及程序产品
JP2015517684A (ja) コンテンツのカスタマイズ
WO2007043679A1 (ja) 情報処理装置およびプログラム
CN101042716A (zh) 一种电子宠物娱乐学习系统及方法
KR101164379B1 (ko) 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법
Goodman et al. Toward user-driven sound recognizer personalization with people who are d/deaf or hard of hearing
KR20200045852A (ko) 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법
WO2018043112A1 (ja) 情報提示装置、および情報提示方法
CN114464180A (zh) 一种智能设备及智能语音交互方法
KR101790709B1 (ko) 구연동화 서비스 제공 시스템, 장치 및 구연동화 서비스 제공 방법
KR20180042116A (ko) 구연동화 서비스 제공 시스템, 장치 및 구연동화 서비스 제공 방법
CN111726696B (zh) 声音弹幕的应用方法、装置、设备及可读存储介质
WO2023276539A1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2024533345A (ja) バーチャルコンサートの処理方法、処理装置、電子機器およびコンピュータプログラム
JP2016201678A (ja) 認識装置、映像コンテンツ提示システム
Abdo et al. Building Audio-Visual Phonetically Annotated Arabic Corpus for Expressive Text to Speech.
JP6619072B2 (ja) 音合成装置、音合成方法、及びそのプログラム
JP2008032788A (ja) 語学教材データ作成用プログラム
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
Kerry ‘The Birth of the Virtual Choir’: Exploring the multimodal realisation of the Covid-19 liminal space in a YouTube virtual choir performance
Gilmartin Composition and Dynamics of Multiparty Casual Conversation: A Corpus-based Analysis
Tong Speech to text with emoji

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210629