JP7271821B2

JP7271821B2 - クラウド音声変換システム

Info

Publication number: JP7271821B2
Application number: JP2023018018A
Authority: JP
Inventors: 和弘小林
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-10-02
Filing date: 2023-02-09
Publication date: 2023-05-12
Anticipated expiration: 2038-10-02
Also published as: JP2023053082A

Description

本発明は、音声変換システムに関する。

従来から、話者ユーザが発声する音声（以下、「入力音声」という。）を異なる音声に変換する音声変換システムが知られている（例えば、特許文献１参照）。この従来の音声変換システムによれば、話者ユーザがマイクに入力音声を入力した場合に、あらかじめ用意されたアニメキャラクタなどの目標の音声であるターゲット音声に近づくよう入力音声が音声変換されて生成された変換音声がスピーカから出力される。

特開２０１８－００５０４８号公報

近年、インターネットあるいは仮想空間上において、一のユーザが他のユーザと音声でコミュニケーションをとる機会が増えている。音声変換技術は音声コミュニケーションの付加価値を高めるものであるが、その機会が増えるに従って、どのユーザでも、どの端末装置からでも利用することのできる音声変換が求められるようになっている。しかしながら、その要望を実現することのできる音声変換システムは存在していなかった。

また、従来の音声変換システムは、話者ユーザから入力音声が入力されるたびに分析されたスペクトル特徴量などの音響特徴量が用いられて、入力音声が音声変換されるにすぎなかった。そのため、話者ユーザそれぞれの特性（例えば、年齢、性別）に基づいて最適な変換音声が提供されるわけではなかった。

本発明の目的は、クラウドを通じて変換音声を提供することのできる音声変換システムを提供することである。

第１の発明は、
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声（以下、「入力音声」という。）を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記サーバ装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記変換モデルを受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。

また、第１の発明において、
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置に送信してもよい。

第２の発明は、
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声（以下、「入力音声」という。）を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。

また、第２の発明において、
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信してもよい。

また、第１および第２の発明において、
前記変換音声は、前記入力音声を音声変換して生成された音声であることを識別する情報を含んでいてもよい。

また、第１および第２の発明において、
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段をさらに備え、
前記端末装置は、前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記端末装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。

また、第１および第２の発明において、
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段、および前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記サーバ装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。

また、第１および第２の発明において、
前記記憶部は、前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価を記憶しており、
前記サーバ装置は、前記記憶部に記憶された前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価をアプリケーションプログラミングインターフェース（ＡＰＩ）に共有する共有手段をさらに備えてもよい。

また、第１および第２の発明において、
前記端末装置は、前記ユーザが前記ターゲット音声の音の高さを再現する際の目安となるガイドを表示部に表示させる表示手段をさらに備えてもよい。

本発明によれば、クラウドを通じて変換音声を提供することのできる音声変換システムを提供することができる。

本実施形態における、クラウド音声変換システムの機能的構成を示す図である。本実施形態における、音声変換処理の模式図である。本実施形態における、音声変換の概略を示す図である。本実施形態における、音声変換処理のフローを示す図である。本実施形態における、音声評価処理の模式図である。本実施形態における、音声評価処理のフローを示す図である。

［実施形態］
本発明の実施の形態にかかるクラウド音声変換システム１について、図１～図６を参照して説明する。以下では、端末装置３を操作する人物をまとめて「ユーザ」という。また、説明の便宜上、自身の音声（入力音声）を入力するユーザを「話者ユーザ」といい、変換音声のダウンロードの要求を行うユーザは「要求ユーザ」といい、クラウドを通じて変換音声あるいはターゲット音声を提供するユーザを「提供ユーザ」という場合がある。

また、「変換音声」は入力音声を変換モデルに基づいて変換した音声である。「ターゲット音声」は、話者ユーザが自身の音声を近づけたいと目標にする音声である。したがって、「変換音声」が「ターゲット音声」となることがある。

また、本実施形態において、「音声」には、「声質」、「音高」、および「話し方（イントネーション、話す速さなど）」が含まれる。

＜クラウド音声変換システム１の説明＞
図１に示される本発明のクラウド音声変換システム１では、ユーザの操作を受けつける端末装置３と、端末装置３と通信ネットワーク４を介して接続されるとともに記憶部２１を備えるクラウドサーバ装置２とを備える。

＜ハードウェア構成＞
図１を参照して、本発明のクラウド音声変換システム１を構成するクラウドサーバ装置２のハードウェア構成、および、音声変換が提供される端末装置３のハードウェア構成について説明する。

なお、各ユーザには、それぞれ異なるアカウント（識別情報）が付与される。各端末装置３が通信ネットワーク４を介してクラウドサーバ装置２と通信を行う場合には、その端末装置３からユーザのアカウントが送信される。送信されたアカウントは、クラウドサーバ装置２において所定の認証がなされる。これにより、クラウドサーバ装置２と各端末装置３との通信が可能となる。

＜クラウドサーバ装置２の説明＞
クラウドサーバ装置２は、制御部２０、記憶部２１、および、ネットワークインターフェース２２を備える。

記憶部２１およびネットワークインターフェース２２は、バス２００を介してクラウドサーバ装置２の制御部２０に接続される。

制御部２０は、クラウドサーバ装置２の動作を制御する。

記憶部２１は、主にＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）で構成される。記憶部２１には、後述の変換音声などがユーザのアカウントに関連づけられた状態で、蓄積されて記憶される。

ネットワークインターフェース２２は、クラウドサーバ装置２と端末装置３との間でデータを送受信するために、通信ネットワーク４に接続される。

＜クラウドサーバ装置２の制御部２０の機能的構成＞
クラウドサーバ装置２の制御部２０は、所定のプログラムを実行することにより、照合手段２０１、記憶手段２０２、モデル提供手段２０３、音声提供手段２０４、および通信手段２０５として機能する。

＜照合手段２０１の説明＞
照合手段２０１は、端末装置３から送信されるユーザのアカウントを用いて、ユーザのアカウントの認証を行う。

＜記憶手段２０２の説明＞
記憶手段２０２は、端末装置３に入力された話者ユーザの入力音声を音声変換することで生成された変換音声を記憶部２１に蓄積して記憶させる。

また、記憶手段２０２は、入力音声を入力した話者ユーザのアカウント、変換音声をクラウドサーバ装置２にアップロードした提供ユーザのアカウント、および変換音声をダウンロードした要求ユーザのアカウントなどを入力音声、変換音声などと関連づけて記憶部２１に記憶させる。

＜モデル提供手段２０３の説明＞
モデル提供手段２０３は、話者ユーザの求めに応じて、クラウドサーバ装置２に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置３に送信する。

なお、この変換モデルは、例えば、平均的な変換モデル、あるいは最適化するよう学習（生成）された変換モデルなどで構成される。

平均的な変換モデルは、話者ユーザが、話者ユーザに関する情報をクラウドサーバ装置２に送信しなくとも提供される変換モデルである。すなわち、平均的な変換モデルは、ユーザの情報（ユーザのアカウント、および、ユーザの年齢、性別などの属性情報など）を登録することなく（ログインすることなく）使用することができるが、音声変換の質が低い。

一方、最適化するよう学習された変換モデルは、話者ユーザが、話者ユーザに関する情報をクラウドサーバ装置２に送信することにより提供される。すなわち、最適化するよう学習された変換モデルは、ユーザの情報を登録する（ログインする）必要があるが、話者ユーザの属性情報（年齢、性別など）に基づいて音声変換を最適化するように学習される。したがって、最適化するよう学習された変換モデルは、平均的なモデルよりも音声変換の質が高い。

最適化は、話者ユーザの属性情報に応じて、最適な変換モデルが選択されることにより実施される。例えば、話者ユーザの年齢、性別などの属性情報（パラメータ）に基づいて、複数の変換モデルで構成される変換モデル群から、最適な変換関数を備えた１つの変換モデルが選択される。

以下では、モデル提供手段２０３が、端末装置３に対して最適化するよう学習された変換モデルを提供する例が記載されている。

＜音声提供手段２０４の説明＞
音声提供手段２０４は、要求ユーザの操作に応じて、クラウドを通じて要求ユーザの端末装置３に変換音声を提供する。具体的には、音声提供手段２０４は、要求ユーザが記憶部２１に記憶されている提供ユーザの変換音声をクラウドを通じてダウンロードしたい旨の要求を行った場合に、記憶部２１からその変換音声を読み出す。音声提供手段２０４は、記憶部２１から読み出された提供ユーザの変換音声を、通信手段２０７を介して要求ユーザの端末装置３へ送信する。

なお、この提供ユーザの変換音声をダウンロードした要求ユーザのアカウントは、ダウンロードされた変換音声に関連づけられて記憶部２１に記憶される。これにより、いずれのユーザがどのユーザの変換音声をダウンロードしたかが蓄積して記憶部２１に記憶される。

＜通信手段２０５の説明＞
通信手段２０５は、ユーザのアカウント、変換モデルを要求する情報などを端末装置３から受信する。

また、通信手段２０５は、変換モデル、変換音声などを端末装置３へ送信する。

＜端末装置３の説明＞
端末装置３は、スピーカ３３０、およびマイク３６０が外部接続される、スマートフォンなどの端末装置である。この端末装置３において、クラウドサーバ装置２から提供される変換モデル、ならびに所定のプログラムおよびデータに基づいて音声変換が行われる。

また、端末装置３は、他端末装置３およびクラウドサーバ装置２との間で、インターネットあるいはＬＡＮなどの通信ネットワーク４を介して互いにデータ通信をすることができる。

端末装置３は、制御部３０、記憶部３１、ネットワークインターフェース３２、オーディオ処理部３３、グラフィック処理部３４、操作部３５、音声入力部３６を備える。

記憶部３１、ネットワークインターフェース３２、オーディオ処理部３３、グラフィック処理部３４、操作部３５、および音声入力部３６は、バス３００を介して、制御部３０に接続される。

制御部３０は、端末装置３の動作を制御する。

記憶部３１は、主にＨＤＤ、ＲＡＭおよびＲＯＭで構成される。記憶部３１には、例えば、本実施形態における音声変換を実行するための変換モデル、変換音声、ユーザのアカウントなどが記憶される。

ネットワークインターフェース３２は、端末装置３とクラウドサーバ装置２との間でデータを送受信するために、通信ネットワーク４に接続される。これにより、端末装置３は、クラウドサーバ装置２との間で、ユーザのアカウント、入力音声、変換音声等を送受信することができる。

オーディオ処理部３３は、制御部３０の指示に従ってデジタルの音声を再生および合成する。また、オーディオ処理部３３には、スピーカ３３０が外部接続される。音声は、スピーカ３３０から出力される。

グラフィック処理部３４は、制御部３０の指示に従って画像および映像を描画する。グラフィック処理部３４にて描画された画像および映像は、液晶画面３４０に表示される。

操作部３５には、ユーザからの操作信号が入力される。本実施形態において操作部３５には、入力位置検出装置であるタッチパッド３５０を介してユーザからの操作信号が入力される。

音声入力部３６は、ユーザの入力音声を検出する。音声入力部３６には、マイク３６０が外部接続されている。音声入力部３６は、ユーザの声の音声認識を行い、その情報を制御部３０へ送信する。

＜端末装置３の制御部３０の機能的構成＞
端末装置３の制御部３０は、所定のプログラムを実行することで、入力手段３０１、変換指示手段３０２、出力手段３０３、評価手段３０４、および通信手段３０５として機能する。

＜入力手段３０１の説明＞
入力手段３０１は、マイク３６０を介して話者ユーザの入力音声を入力する。この入力音声に関する情報は後述の変換指示手段３０２へと送信される。

また、入力手段３０１は、話者ユーザの操作に基づいて、ターゲット音声を入力（指定）する。具体的には、話者ユーザは、後述の第１～第３の方法のいずれかにより、目標とするターゲット音声を入力することができる。

第１の方法として、話者ユーザは、インターネットなどから自分の好きな人の音声をダウンロードし、その音声をターゲット音声に指定することができる。

第２の方法として、話者ユーザは、ターゲット音声を編集により指定することもできる。具体的には、例えば声の高さ等を決定するスライドバーを用いて、すでにある音声を編集することにより、ターゲット音声を生成することもできる。

第３の方法として、前述のとおり、クラウドサーバ装置２から提供ユーザがアップロードしている変換音声を話者ユーザがダウンロードすることにより、話者ユーザはその変換音声をターゲット音声に指定することができる。

なお、前述のターゲット音声の指定方法は一例であり、話者ユーザは様々な手法でターゲット音声を指定することができる。

＜変換指示手段３０２の説明＞
変換指示手段３０２は、話者ユーザの操作に基づいて、通信手段３０５を介して話者ユーザのアカウントを送信（ログイン）するとともに、変換モデルを要求する情報をクラウドサーバ装置２へ送信する。これにより、クラウドサーバ装置２は変換モデルを端末装置３へ送信する。

変換モデルを受信したのち、変換指示手段３０２は、変換モデルを端末装置３にインストールする。

また、変換指示手段３０２は、話者ユーザの操作に基づいて、端末装置３にてインストールされた変換モデルを起動させる。

変換指示手段３０２は、入力音声とターゲット音声とに基づいて、変換モデルの学習および変換モデルを用いた音声変換を行う。

（変換モデルの学習時の説明）
変換モデルの学習時には、変換指示手段３０２は、話者ユーザが発声した入力音声および話者ユーザが指定したターゲット音声を読み込む。

ついで、変換指示手段３０２は、読み込んだ入力音声およびターゲット音声を分析する。

例えば、変換指示手段３０２は、声の高さ等を表現する基本周波数等に関する音高分析、ならびに、音韻性および声質等を表現するスペクトル特徴量（スペクトル包絡）に関する分析により、入力音声およびターゲット音声の音響特徴量を分析する。なお、本実施形態では、音響特徴量の分析結果に基づいて変換音声の音声波形が生成される例が記載されているが、音響特徴量の分析結果に基づかず変換音声の音声波形を生成することもできる。

ついで、変換指示手段３０２は、分析された音響特徴量およびユーザの属性情報（年齢など）の少なくともいずれか一方に基づいて最適化するよう変換モデルの学習（生成）を行う。

また、最適化するよう学習された変換モデルは、ユーザのアカウントと対応づけられて、端末装置３の記憶部３１およびクラウドサーバ装置２の記憶部２１に記憶される。

（変換モデルを用いた音声変換時の説明）
音声変換時には、変換指示手段３０２は、話者ユーザが発声した入力音声を読み込むとともに、分析する。

この分析結果に応じて、変換モデルは、入力音声に対し最適な音声変換を行うことで変換音声の音声波形を生成する。

また、変換指示手段３０２は、変換音声を生成する際あるいは生成したのちに、当該変換音声は入力音声を音声変換して生成された音声であることを示す情報を変換音声に付加する。例えば、変換指示手段３０２は変換音声の非可聴領域にウォーターマークを埋め込む。これにより、音声が入力音声（話者ユーザが直に発した音声）なのか変換音声なのかを把握することができる。

＜出力手段３０３の説明＞
出力手段３０３は、スピーカ３３０を介して変換モデルによって生成された変換音声を出力する。例えば、話者ユーザがマイク３６０に入力音声を入力した場合には、スピーカ３３０からリアルタイムに変換音声が出力される。

＜評価手段３０４の説明＞
評価手段３０４は、要求ユーザの操作に基づいて、出力された変換音声を評価する。具体的には、クラウドを介して出力された変換音声を聞いた要求ユーザが「良い」、「普通」、「悪い」などの評価ボタンで変換音声を評価することができる。

この評価ボタンが押された回数は累積してカウントされ、変換音声に関する情報に対応づけられて、クラウドサーバ装置２の記憶部２１にスコアとして記憶される。スコアが高い音声は、高評価の音声として記憶部２１に記憶される。

＜通信手段３０５の説明＞
通信手段３０５は、ユーザの情報（ユーザのアカウント、および、ユーザの年齢、性別などの属性情報など）、話者ユーザの入力音声、変換音声、変換音声の評価等をクラウドサーバ装置２へ送信する。

また、通信手段３０５は、変換モデル、提供ユーザの入力音声に基づいて生成された変換音声等をクラウドサーバ装置２から受信する。

＜音声変換処理の説明＞
以下にて、図２、図３を参照しつつ、図４のフローチャートを用いて、音声変換処理について説明する。なお、後述の制御手段および処理手順は一例であり、本発明の実施形態はこれらには限られない。処理手順等は、本発明の要旨を変更しない範囲で適宜設計変更が可能である。

図２（Ａ）のとおり、まず端末装置３の変換指示手段３０２が、話者ユーザの操作に基づいて、通信手段３０５を介して話者ユーザのアカウント、および変換モデルを要求する情報をクラウドサーバ装置２へ送信する（ステップＳ１０１）。このようにユーザは、ログインをすることにより、高品質の変換モデルを要求することができる。

これを受けて、クラウドサーバ装置２の通信手段２０５が、図２（Ｂ）のとおり、変換モデルを端末装置３へ送信し、端末装置３の変換指示手段３０２が変換モデルをインストールする（ステップＳ１０２）。

ついで、端末装置３の変換指示手段３０２が、話者ユーザの操作に基づいて、端末装置３内にて変換モデルを起動させる（ステップＳ１０３）。

ついで、図３のとおり、端末装置３の入力手段３０１が、マイク３６０を介して話者ユーザの入力音声を入力するとともに、話者ユーザの操作に基づいてターゲット音声を指定（入力）する（ステップＳ１０４）。

ついで、変換指示手段３０２が、入力音声およびターゲット音声の音声分析を行う（ステップＳ１０５）。具体的には、変換指示手段３０２は、入力音声およびターゲット音声の基本周波数およびスペクトル特徴量などの音響特徴量を分析する。

ついで、変換指示手段３０２は、分析された音響特徴量およびユーザの属性情報の少なくともいずれか一方から、音声変換の最適化のための変換モデルの学習を行う（ステップＳ１０６）。

ついで、端末装置３の通信手段３０５が、図２（Ｃ）のとおり、話者ユーザのアカウント、および最適化するよう学習された変換モデルをクラウドサーバ装置２へ送信する（ステップＳ１０７）。

ついで、クラウドサーバ装置２の記憶手段２０２が、話者ユーザのアカウント、および話者ユーザの属性情報に対応づけられて最適化するよう学習された変換モデルを記憶部２１に記憶させる（ステップＳ１０８）。

また、端末装置３にインストールされた変換モデルは、分析された入力音声の音響特徴量をターゲット音声に近づくよう変換する（ステップＳ１０９）。

ついで、変換モデルは、変換された音響特徴量から変換音声の音声波形を生成する（ステップＳ１１０）。

また、変換指示手段３０２は、前記変換音声を生成したあとに、当該音声の非可聴領域にウォーターマークを埋め込む（ステップＳ１１１）。

ついで、端末装置３の出力手段３０３が、図３のとおり、スピーカ３３０より、変換音声を出力する（ステップＳ１１２）。

ついで、端末装置３の通信手段３０５が、図２（Ｄ）のとおり、話者ユーザのアカウント、入力音声、および変換音声をクラウドサーバ装置２の記憶手段２０２へ送信する（ステップＳ１１３）。

ついで、クラウドサーバ装置２の記憶手段２０２が、話者ユーザの情報、入力音声、および変換音声を関連づけて記憶部２１に記憶させる（ステップＳ１１４）。
以上の手順により、本発明の音声変換処理が実行される。

＜音声評価処理の説明＞
つぎに、図５を参照しつつ、図６のフローチャートを用いて、本発明の音声評価処理について説明する。

まず、端末装置３の入力手段３０１が、要求ユーザの操作に基づいて、ダウンロードしたい提供ユーザの変換音声を指定する（ステップＳ２０１）。

ついで、端末装置３の通信手段３０５が、図５（Ａ）のとおり、要求ユーザのアカウントおよびダウンロードしたい変換音声に関する情報をクラウドサーバ装置２へ送信する（ステップＳ２０２）。

ついで、クラウドサーバ装置２の音声提供手段２０４が、図５（Ｂ）のとおり、通信手段２０５を介して変換音声を端末装置３へ送信する。これにより、端末装置３に変換音声がダウンロードされる（ステップＳ２０３）。

ついで、端末装置３の出力手段３０３が、変換音声をスピーカ３３０から出力する（ステップＳ２０４）。

ついで、端末装置３の評価手段３０４が、要求ユーザの操作に基づいて、変換音声の評価を行う（ステップＳ２０５）。具体的には、変換音声を聞いた要求ユーザが、「良い」、「普通」、「悪い」などのように変換音声を評価する。

ついで、端末装置３の評価手段３０４が、図５（Ｃ）のとおり、端末装置３の通信手段３０５を介して、要求ユーザのアカウント、および、その変換音声の評価等の情報をクラウドサーバ装置２へ送信する（ステップＳ２０６）。

ついで、クラウドサーバ装置２の記憶手段２０２が、端末装置３から送信されてきた要求ユーザのアカウント、変換音声の評価等の情報を各々関連づけて記憶部２１に記憶させる（ステップＳ２０７）。
以上の手順により、本発明の音声評価処理が実行される。

（応用例１）
本発明を用いれば、ＶＲ（ヴァーチャルリアリティ）などによって提供される仮想空間上で、物品の販売者である話者ユーザの音声を変換することができる。例えば、ＶＲ上でｅコマースが提供される場合において、話者ユーザは自身好みの声で物品の販売を行うことができる。

このとき、例えば、クラウドサーバ装置２に営業成績の良い話者ユーザの音声が例えばスコア順に記憶されていれば、販売者である話者ユーザはスコアが高い音声を使用することもできる。

（応用例２）
クラウドサーバ装置２の音声提供手段２０３は、端末装置３において、記憶部２１に記憶された変換音声を１つ以上のアプリケーションプログラミングインターフェース（ＡＰＩ）にて提供することができてもよい。この場合には、ユーザは様々なＡＰＩ内で、例えば、自分好みのアバターを用いつつ、自分好みの声で話をすることができる。さらには、例えば２つのＡＰＩにまたがってユーザ好みの声で他のユーザと話をすることもできる。

（応用例３）
あるユーザが「良い」のボタンを押した回数の多い音声をサーバ装置２が備える評価手段が記憶部２１に当該ユーザのアカウントに対応つけて記憶させておくこともできる。そして、当該ユーザにおいて高評価となった音声によって、当該ユーザが参加する仮想空間上における広告文が読み上げられるといったことも可能となる。

以上をまとめると、本実施形態のクラウド音声変換システム１は、
ユーザの操作を受けつける端末装置３と、端末装置３と通信ネットワーク４を介して接続されるとともに記憶部２１が接続されたサーバ装置２とを備え、ユーザが発声する音声（入力音声）を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システム１であって、
サーバ装置２は、
ユーザの求めに応じて、サーバ装置２に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置３に送信するモデル提供手段３０２、
を備え、
端末装置３は、
ユーザの発声に基づいて入力音声を取り込む入力手段３０１、
サーバ装置２より変換モデルを受信したのちに、ユーザの操作に基づいて、変換モデルを起動させて入力音声を音声変換して変換音声を生成する変換指示手段３０２、および
変換音声を出力する出力手段３０３、
を備える。

＜発明の効果＞
本実施形態の音声変換システムによれば、クラウドを通じて変換音声を提供することができる。

［他の実施形態］
前記実施形態においては、ユーザの属性情報に基づいて変換モデルが最適化される例が記載されているが、本発明はこれには限られない。例えば、音声変換が提供されるシーンの情報に基づいて変換モデルが最適化されてもよい。具体的には、ｅコマースが提供されるシーンで、購入ユーザが物を購入したくなるような音声を生成することができるように、最適化するよう学習された変換モデルが提供されてもよい。

また、端末装置は、話者ユーザがターゲット音声の音の高さを再現する際の目安となるガイドを液晶画面に表示させる表示手段を備えていてもよい。これにより、話者ユーザは、ターゲット音声の音の高さを再現しやすくなる。なお、ガイドとしては、例えば、話者ユーザが発した音声の音高がターゲット音声の音高とほぼ同じであれば「ＧＯＯＤ！」などが表示されるユーザインターフェース（ＵＩ）が考えられる。

また、前記実施形態においては、変換モデルが端末装置にインストールされる例が記載されているが、本発明はこれには限られない。例えば、話者ユーザは端末装置に変換モデルをインストールすることなく、クラウドサーバ装置２が提供するブラウザにて変換モデルを使用することができてもよい。この場合において、音声変換、変換音声へのウォーターマークの埋め込み、およびターゲット音声の評価等はクラウドサーバ装置にて行われてもよい。

また、前記実施形態とは異なり、サーバ装置が変換音声を評価する評価手段を備えていてもよい。この場合には、ユーザの評価によらず、サーバ装置が自動的に変換音声を評価することができる。

また、前記実施形態においては、変換モデルはクラウドサーバ装置上に記憶されている例が記載されているが、本発明はこれには限られない。例えば、変換モデルは端末装置に記憶されており、変換モデルを起動させるためにユーザがログインして、クラウドサーバ装置から変換モデルの起動信号を受信してもよい。

前記実施形態では、変換音声の非可聴領域にウォーターマークを埋め込むことで、当該音声は音声変換された音声であることが識別される例が記載されているが、本発明はこれには限られない。例えば、端末装置あるいはクラウドサーバ装置で変換音声から聴覚上影響を与えない部分が削られ（マスク処理がなされ）、音声変換された音声であることが識別されてもよい。

また、ユーザが聞いていている音声の非可聴領域に埋め込まれたウォーターマークを読み込むことで当該音声が音声変換されて生成されたことを識別する機能を端末装置が備えていてもよい。

前記実施形態では、話者ユーザがマイクに入力音声を入力した場合には、スピーカからリアルタイムに変換音声が出力される例が記載されているが、本発明はこれには限られない。例えば、話者ユーザがマイクに入力音声を入力したのちスピーカから若干遅れて変換音声が出力されてもよく、また、変換音声が出力されるタイミングを話者ユーザが指定することができてもよい。

前記実施形態では、端末装置は１つの装置で構成されていたが、例えば、端末装置は、入力手段を備えた装置、および出力手段を備えた装置の２つの装置で構成されていてもよい。

また、前記実施形態では、端末装置にスピーカが直に外部接続されている例が記載されているが、端末装置とスピーカとの間に、例えばノイズキャンセル用のエフェクタが配置されてもよい。

また、前記実施形態では、クラウドサーバ装置に記憶部が内蔵されており、その記憶部に変換音声などが記憶されている例が記載されているが、本発明はこれには限られない。例えば、記憶部がクラウドサーバ装置に外部接続されていてもよい。

また、端末装置は、前記実施形態とは異なり、マイクおよびスピーカを内蔵していてもよい。

前記実施形態では、端末装置はスマートフォンであったが、例えば、パーソナルコンピュータ、テレビジョン装置、ＶＲあるいはＡＲ（オーグメンテッドリアリティ）用のスタンドアローン型のヘッドマウントディスプレイ、または、据置型あるいは携帯型のゲーム装置であってもよい。

１クラウド音声変換システム
２クラウドサーバ装置
２０１照合手段
２０２記憶手段
２０３モデル提供手段
２０４音声提供手段
２０５通信手段
３端末装置
３０１入力手段
３０２変換指示手段
３０３出力手段
３０４評価手段
３０５通信手段
４通信ネットワーク

Claims

ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声（以下、「入力音声」という。）を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システム。
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信する、
請求項１に記載の音声変換システム。