JP2020056907A - クラウド音声変換システム - Google Patents

クラウド音声変換システム Download PDF

Info

Publication number
JP2020056907A
JP2020056907A JP2018187315A JP2018187315A JP2020056907A JP 2020056907 A JP2020056907 A JP 2020056907A JP 2018187315 A JP2018187315 A JP 2018187315A JP 2018187315 A JP2018187315 A JP 2018187315A JP 2020056907 A JP2020056907 A JP 2020056907A
Authority
JP
Japan
Prior art keywords
voice
user
conversion
terminal device
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018187315A
Other languages
English (en)
Inventor
小林 和弘
Kazuhiro Kobayashi
和弘 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tarvo Co Ltd
Original Assignee
Tarvo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tarvo Co Ltd filed Critical Tarvo Co Ltd
Priority to JP2018187315A priority Critical patent/JP2020056907A/ja
Publication of JP2020056907A publication Critical patent/JP2020056907A/ja
Priority to JP2023018018A priority patent/JP7271821B2/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】クラウドを通じて変換音声を提供することのできる音声変換システムを提供すること。【解決手段】本発明の音声変換システムは、ユーザの操作を受けつける端末装置と、端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、ユーザが発声する音声(入力音声)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、サーバ装置は、ユーザの求めに応じて、サーバ装置に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置に送信するモデル提供手段、を備え、端末装置は、ユーザの発声に基づいて入力音声を取り込む入力手段、サーバ装置より変換モデルを受信したのちに、ユーザの操作に基づいて、変換モデルを起動させて入力音声を音声変換して変換音声を生成する変換指示手段、および変換音声を出力する出力手段、を備える。【選択図】図1

Description

本発明は、音声変換システムに関する。
従来から、話者ユーザが発声する音声(以下、「入力音声」という。)を異なる音声に変換する音声変換システムが知られている(例えば、特許文献1参照)。この従来の音声変換システムによれば、話者ユーザがマイクに入力音声を入力した場合に、あらかじめ用意されたアニメキャラクタなどの目標の音声であるターゲット音声に近づくよう入力音声が音声変換されて生成された変換音声がスピーカから出力される。
特開2018−005048号公報
近年、インターネットあるいは仮想空間上において、一のユーザが他のユーザと音声でコミュニケーションをとる機会が増えている。音声変換技術は音声コミュニケーションの付加価値を高めるものであるが、その機会が増えるに従って、どのユーザでも、どの端末装置からでも利用することのできる音声変換が求められるようになっている。しかしながら、その要望を実現することのできる音声変換システムは存在していなかった。
また、従来の音声変換システムは、話者ユーザから入力音声が入力されるたびに分析されたスペクトル特徴量などの音響特徴量が用いられて、入力音声が音声変換されるにすぎなかった。そのため、話者ユーザそれぞれの特性(例えば、年齢、性別)に基づいて最適な変換音声が提供されるわけではなかった。
本発明の目的は、クラウドを通じて変換音声を提供することのできる音声変換システムを提供することである。
第1の発明は、
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記サーバ装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記変換モデルを受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。
また、第1の発明において、
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置に送信してもよい。
第2の発明は、
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。
また、第2の発明において、
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信してもよい。
また、第1および第2の発明において、
前記変換音声は、前記入力音声を音声変換して生成された音声であることを識別する情報を含んでいてもよい。
また、第1および第2の発明において、
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段をさらに備え、
前記端末装置は、前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記端末装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。
また、第1および第2の発明において、
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段、および前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記サーバ装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。
また、第1および第2の発明において、
前記記憶部は、前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価を記憶しており、
前記サーバ装置は、前記記憶部に記憶された前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価をアプリケーションプログラミングインターフェース(API)に共有する共有手段をさらに備えてもよい。
また、第1および第2の発明において、
前記端末装置は、前記ユーザが前記ターゲット音声の音の高さを再現する際の目安となるガイドを表示部に表示させる表示手段をさらに備えてもよい。
本発明によれば、クラウドを通じて変換音声を提供することのできる音声変換システムを提供することができる。
本実施形態における、クラウド音声変換システムの機能的構成を示す図である。 本実施形態における、音声変換処理の模式図である。 本実施形態における、音声変換の概略を示す図である。 本実施形態における、音声変換処理のフローを示す図である。 本実施形態における、音声評価処理の模式図である。 本実施形態における、音声評価処理のフローを示す図である。
[実施形態]
本発明の実施の形態にかかるクラウド音声変換システム1について、図1〜図6を参照して説明する。以下では、端末装置3を操作する人物をまとめて「ユーザ」という。また、説明の便宜上、自身の音声(入力音声)を入力するユーザを「話者ユーザ」といい、変換音声のダウンロードの要求を行うユーザは「要求ユーザ」といい、クラウドを通じて変換音声あるいはターゲット音声を提供するユーザを「提供ユーザ」という場合がある。
また、「変換音声」は入力音声を変換モデルに基づいて変換した音声である。「ターゲット音声」は、話者ユーザが自身の音声を近づけたいと目標にする音声である。したがって、「変換音声」が「ターゲット音声」となることがある。
また、本実施形態において、「音声」には、「声質」、「音高」、および「話し方(イントネーション、話す速さなど)」が含まれる。
<クラウド音声変換システム1の説明>
図1に示される本発明のクラウド音声変換システム1では、ユーザの操作を受けつける端末装置3と、端末装置3と通信ネットワーク4を介して接続されるとともに記憶部21を備えるクラウドサーバ装置2とを備える。
<ハードウェア構成>
図1を参照して、本発明のクラウド音声変換システム1を構成するクラウドサーバ装置2のハードウェア構成、および、音声変換が提供される端末装置3のハードウェア構成について説明する。
なお、各ユーザには、それぞれ異なるアカウント(識別情報)が付与される。各端末装置3が通信ネットワーク4を介してクラウドサーバ装置2と通信を行う場合には、その端末装置3からユーザのアカウントが送信される。送信されたアカウントは、クラウドサーバ装置2において所定の認証がなされる。これにより、クラウドサーバ装置2と各端末装置3との通信が可能となる。
<クラウドサーバ装置2の説明>
クラウドサーバ装置2は、制御部20、記憶部21、および、ネットワークインターフェース22を備える。
記憶部21およびネットワークインターフェース22は、バス200を介してクラウドサーバ装置2の制御部20に接続される。
制御部20は、クラウドサーバ装置2の動作を制御する。
記憶部21は、主にHDD(Hard Disk Drive)、RAM(Random Access Memory)およびROM(Read Only Memory)で構成される。記憶部21には、後述の変換音声などがユーザのアカウントに関連づけられた状態で、蓄積されて記憶される。
ネットワークインターフェース22は、クラウドサーバ装置2と端末装置3との間でデータを送受信するために、通信ネットワーク4に接続される。
<クラウドサーバ装置2の制御部20の機能的構成>
クラウドサーバ装置2の制御部20は、所定のプログラムを実行することにより、照合手段201、記憶手段202、モデル提供手段203、音声提供手段204、および通信手段205として機能する。
<照合手段201の説明>
照合手段201は、端末装置3から送信されるユーザのアカウントを用いて、ユーザのアカウントの認証を行う。
<記憶手段202の説明>
記憶手段202は、端末装置3に入力された話者ユーザの入力音声を音声変換することで生成された変換音声を記憶部21に蓄積して記憶させる。
また、記憶手段202は、入力音声を入力した話者ユーザのアカウント、変換音声をクラウドサーバ装置2にアップロードした提供ユーザのアカウント、および変換音声をダウンロードした要求ユーザのアカウントなどを入力音声、変換音声などと関連づけて記憶部21に記憶させる。
<モデル提供手段203の説明>
モデル提供手段203は、話者ユーザの求めに応じて、クラウドサーバ装置2に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置3に送信する。
なお、この変換モデルは、例えば、平均的な変換モデル、あるいは最適化するよう学習(生成)された変換モデルなどで構成される。
平均的な変換モデルは、話者ユーザが、話者ユーザに関する情報をクラウドサーバ装置2に送信しなくとも提供される変換モデルである。すなわち、平均的な変換モデルは、ユーザの情報(ユーザのアカウント、および、ユーザの年齢、性別などの属性情報など)を登録することなく(ログインすることなく)使用することができるが、音声変換の質が低い。
一方、最適化するよう学習された変換モデルは、話者ユーザが、話者ユーザに関する情報をクラウドサーバ装置2に送信することにより提供される。すなわち、最適化するよう学習された変換モデルは、ユーザの情報を登録する(ログインする)必要があるが、話者ユーザの属性情報(年齢、性別など)に基づいて音声変換を最適化するように学習される。したがって、最適化するよう学習された変換モデルは、平均的なモデルよりも音声変換の質が高い。
最適化は、話者ユーザの属性情報に応じて、最適な変換モデルが選択されることにより実施される。例えば、話者ユーザの年齢、性別などの属性情報(パラメータ)に基づいて、複数の変換モデルで構成される変換モデル群から、最適な変換関数を備えた1つの変換モデルが選択される。
以下では、モデル提供手段203が、端末装置3に対して最適化するよう学習された変換モデルを提供する例が記載されている。
<音声提供手段204の説明>
音声提供手段204は、要求ユーザの操作に応じて、クラウドを通じて要求ユーザの端末装置3に変換音声を提供する。具体的には、音声提供手段204は、要求ユーザが記憶部21に記憶されている提供ユーザの変換音声をクラウドを通じてダウンロードしたい旨の要求を行った場合に、記憶部21からその変換音声を読み出す。音声提供手段204は、記憶部21から読み出された提供ユーザの変換音声を、通信手段207を介して要求ユーザの端末装置3へ送信する。
なお、この提供ユーザの変換音声をダウンロードした要求ユーザのアカウントは、ダウンロードされた変換音声に関連づけられて記憶部21に記憶される。これにより、いずれのユーザがどのユーザの変換音声をダウンロードしたかが蓄積して記憶部21に記憶される。
<通信手段205の説明>
通信手段205は、ユーザのアカウント、変換モデルを要求する情報などを端末装置3から受信する。
また、通信手段205は、変換モデル、変換音声などを端末装置3へ送信する。
<端末装置3の説明>
端末装置3は、スピーカ330、およびマイク360が外部接続される、スマートフォンなどの端末装置である。この端末装置3において、クラウドサーバ装置2から提供される変換モデル、ならびに所定のプログラムおよびデータに基づいて音声変換が行われる。
また、端末装置3は、他端末装置3およびクラウドサーバ装置2との間で、インターネットあるいはLANなどの通信ネットワーク4を介して互いにデータ通信をすることができる。
端末装置3は、制御部30、記憶部31、ネットワークインターフェース32、オーディオ処理部33、グラフィック処理部34、操作部35、音声入力部36を備える。
記憶部31、ネットワークインターフェース32、オーディオ処理部33、グラフィック処理部34、操作部35、および音声入力部36は、バス300を介して、制御部30に接続される。
制御部30は、端末装置3の動作を制御する。
記憶部31は、主にHDD、RAMおよびROMで構成される。記憶部31には、例えば、本実施形態における音声変換を実行するための変換モデル、変換音声、ユーザのアカウントなどが記憶される。
ネットワークインターフェース32は、端末装置3とクラウドサーバ装置2との間でデータを送受信するために、通信ネットワーク4に接続される。これにより、端末装置3は、クラウドサーバ装置2との間で、ユーザのアカウント、入力音声、変換音声等を送受信することができる。
オーディオ処理部33は、制御部30の指示に従ってデジタルの音声を再生および合成する。また、オーディオ処理部33には、スピーカ330が外部接続される。音声は、スピーカ330から出力される。
グラフィック処理部34は、制御部30の指示に従って画像および映像を描画する。グラフィック処理部34にて描画された画像および映像は、液晶画面340に表示される。
操作部35には、ユーザからの操作信号が入力される。本実施形態において操作部35には、入力位置検出装置であるタッチパッド350を介してユーザからの操作信号が入力される。
音声入力部36は、ユーザの入力音声を検出する。音声入力部36には、マイク360が外部接続されている。音声入力部36は、ユーザの声の音声認識を行い、その情報を制御部30へ送信する。
<端末装置3の制御部30の機能的構成>
端末装置3の制御部30は、所定のプログラムを実行することで、入力手段301、変換指示手段302、出力手段303、評価手段304、および通信手段305として機能する。
<入力手段301の説明>
入力手段301は、マイク360を介して話者ユーザの入力音声を入力する。この入力音声に関する情報は後述の変換指示手段302へと送信される。
また、入力手段301は、話者ユーザの操作に基づいて、ターゲット音声を入力(指定)する。具体的には、話者ユーザは、後述の第1〜第3の方法のいずれかにより、目標とするターゲット音声を入力することができる。
第1の方法として、話者ユーザは、インターネットなどから自分の好きな人の音声をダウンロードし、その音声をターゲット音声に指定することができる。
第2の方法として、話者ユーザは、ターゲット音声を編集により指定することもできる。具体的には、例えば声の高さ等を決定するスライドバーを用いて、すでにある音声を編集することにより、ターゲット音声を生成することもできる。
第3の方法として、前述のとおり、クラウドサーバ装置2から提供ユーザがアップロードしている変換音声を話者ユーザがダウンロードすることにより、話者ユーザはその変換音声をターゲット音声に指定することができる。
なお、前述のターゲット音声の指定方法は一例であり、話者ユーザは様々な手法でターゲット音声を指定することができる。
<変換指示手段302の説明>
変換指示手段302は、話者ユーザの操作に基づいて、通信手段305を介して話者ユーザのアカウントを送信(ログイン)するとともに、変換モデルを要求する情報をクラウドサーバ装置2へ送信する。これにより、クラウドサーバ装置2は変換モデルを端末装置3へ送信する。
変換モデルを受信したのち、変換指示手段302は、変換モデルを端末装置3にインストールする。
また、変換指示手段302は、話者ユーザの操作に基づいて、端末装置3にてインストールされた変換モデルを起動させる。
変換指示手段302は、入力音声とターゲット音声とに基づいて、変換モデルの学習および変換モデルを用いた音声変換を行う。
(変換モデルの学習時の説明)
変換モデルの学習時には、変換指示手段302は、話者ユーザが発声した入力音声および話者ユーザが指定したターゲット音声を読み込む。
ついで、変換指示手段302は、読み込んだ入力音声およびターゲット音声を分析する。
例えば、変換指示手段302は、声の高さ等を表現する基本周波数等に関する音高分析、ならびに、音韻性および声質等を表現するスペクトル特徴量(スペクトル包絡)に関する分析により、入力音声およびターゲット音声の音響特徴量を分析する。なお、本実施形態では、音響特徴量の分析結果に基づいて変換音声の音声波形が生成される例が記載されているが、音響特徴量の分析結果に基づかず変換音声の音声波形を生成することもできる。
ついで、変換指示手段302は、分析された音響特徴量およびユーザの属性情報(年齢など)の少なくともいずれか一方に基づいて最適化するよう変換モデルの学習(生成)を行う。
また、最適化するよう学習された変換モデルは、ユーザのアカウントと対応づけられて、端末装置3の記憶部31およびクラウドサーバ装置2の記憶部21に記憶される。
(変換モデルを用いた音声変換時の説明)
音声変換時には、変換指示手段302は、話者ユーザが発声した入力音声を読み込むとともに、分析する。
この分析結果に応じて、変換モデルは、入力音声に対し最適な音声変換を行うことで変換音声の音声波形を生成する。
また、変換指示手段302は、変換音声を生成する際あるいは生成したのちに、当該変換音声は入力音声を音声変換して生成された音声であることを示す情報を変換音声に付加する。例えば、変換指示手段302は変換音声の非可聴領域にウォーターマークを埋め込む。これにより、音声が入力音声(話者ユーザが直に発した音声)なのか変換音声なのかを把握することができる。
<出力手段303の説明>
出力手段303は、スピーカ330を介して変換モデルによって生成された変換音声を出力する。例えば、話者ユーザがマイク360に入力音声を入力した場合には、スピーカ330からリアルタイムに変換音声が出力される。
<評価手段304の説明>
評価手段304は、要求ユーザの操作に基づいて、出力された変換音声を評価する。具体的には、クラウドを介して出力された変換音声を聞いた要求ユーザが「良い」、「普通」、「悪い」などの評価ボタンで変換音声を評価することができる。
この評価ボタンが押された回数は累積してカウントされ、変換音声に関する情報に対応づけられて、クラウドサーバ装置2の記憶部21にスコアとして記憶される。スコアが高い音声は、高評価の音声として記憶部21に記憶される。
<通信手段305の説明>
通信手段305は、ユーザの情報(ユーザのアカウント、および、ユーザの年齢、性別などの属性情報など)、話者ユーザの入力音声、変換音声、変換音声の評価等をクラウドサーバ装置2へ送信する。
また、通信手段305は、変換モデル、提供ユーザの入力音声に基づいて生成された変換音声等をクラウドサーバ装置2から受信する。
<音声変換処理の説明>
以下にて、図2、図3を参照しつつ、図4のフローチャートを用いて、音声変換処理について説明する。なお、後述の制御手段および処理手順は一例であり、本発明の実施形態はこれらには限られない。処理手順等は、本発明の要旨を変更しない範囲で適宜設計変更が可能である。
図2(A)のとおり、まず端末装置3の変換指示手段302が、話者ユーザの操作に基づいて、通信手段305を介して話者ユーザのアカウント、および変換モデルを要求する情報をクラウドサーバ装置2へ送信する(ステップS101)。このようにユーザは、ログインをすることにより、高品質の変換モデルを要求することができる。
これを受けて、クラウドサーバ装置2の通信手段205が、図2(B)のとおり、変換モデルを端末装置3へ送信し、端末装置3の変換指示手段302が変換モデルをインストールする(ステップS102)。
ついで、端末装置3の変換指示手段302が、話者ユーザの操作に基づいて、端末装置3内にて変換モデルを起動させる(ステップS103)。
ついで、図3のとおり、端末装置3の入力手段301が、マイク360を介して話者ユーザの入力音声を入力するとともに、話者ユーザの操作に基づいてターゲット音声を指定(入力)する(ステップS104)。
ついで、変換指示手段302が、入力音声およびターゲット音声の音声分析を行う(ステップS105)。具体的には、変換指示手段302は、入力音声およびターゲット音声の基本周波数およびスペクトル特徴量などの音響特徴量を分析する。
ついで、変換指示手段302は、分析された音響特徴量およびユーザの属性情報の少なくともいずれか一方から、音声変換の最適化のための変換モデルの学習を行う(ステップS106)。
ついで、端末装置3の通信手段305が、図2(C)のとおり、話者ユーザのアカウント、および最適化するよう学習された変換モデルをクラウドサーバ装置2へ送信する(ステップS107)。
ついで、クラウドサーバ装置2の記憶手段202が、話者ユーザのアカウント、および話者ユーザの属性情報に対応づけられて最適化するよう学習された変換モデルを記憶部21に記憶させる(ステップS108)。
また、端末装置3にインストールされた変換モデルは、分析された入力音声の音響特徴量をターゲット音声に近づくよう変換する(ステップS109)。
ついで、変換モデルは、変換された音響特徴量から変換音声の音声波形を生成する(ステップS110)。
また、変換指示手段302は、前記変換音声を生成したあとに、当該音声の非可聴領域にウォーターマークを埋め込む(ステップS111)。
ついで、端末装置3の出力手段303が、図3のとおり、スピーカ330より、変換音声を出力する(ステップS112)。
ついで、端末装置3の通信手段305が、図2(D)のとおり、話者ユーザのアカウント、入力音声、および変換音声をクラウドサーバ装置2の記憶手段202へ送信する(ステップS113)。
ついで、クラウドサーバ装置2の記憶手段202が、話者ユーザの情報、入力音声、および変換音声を関連づけて記憶部21に記憶させる(ステップS114)。
以上の手順により、本発明の音声変換処理が実行される。
<音声評価処理の説明>
つぎに、図5を参照しつつ、図6のフローチャートを用いて、本発明の音声評価処理について説明する。
まず、端末装置3の入力手段301が、要求ユーザの操作に基づいて、ダウンロードしたい提供ユーザの変換音声を指定する(ステップS201)。
ついで、端末装置3の通信手段305が、図5(A)のとおり、要求ユーザのアカウントおよびダウンロードしたい変換音声に関する情報をクラウドサーバ装置2へ送信する(ステップS202)。
ついで、クラウドサーバ装置2の音声提供手段204が、図5(B)のとおり、通信手段205を介して変換音声を端末装置3へ送信する。これにより、端末装置3に変換音声がダウンロードされる(ステップS203)。
ついで、端末装置3の出力手段303が、変換音声をスピーカ330から出力する(ステップS204)。
ついで、端末装置3の評価手段304が、要求ユーザの操作に基づいて、変換音声の評価を行う(ステップS205)。具体的には、変換音声を聞いた要求ユーザが、「良い」、「普通」、「悪い」などのように変換音声を評価する。
ついで、端末装置3の評価手段304が、図5(C)のとおり、端末装置3の通信手段305を介して、要求ユーザのアカウント、および、その変換音声の評価等の情報をクラウドサーバ装置2へ送信する(ステップS206)。
ついで、クラウドサーバ装置2の記憶手段202が、端末装置3から送信されてきた要求ユーザのアカウント、変換音声の評価等の情報を各々関連づけて記憶部21に記憶させる(ステップS207)。
以上の手順により、本発明の音声評価処理が実行される。
(応用例1)
本発明を用いれば、VR(ヴァーチャルリアリティ)などによって提供される仮想空間上で、物品の販売者である話者ユーザの音声を変換することができる。例えば、VR上でeコマースが提供される場合において、話者ユーザは自身好みの声で物品の販売を行うことができる。
このとき、例えば、クラウドサーバ装置2に営業成績の良い話者ユーザの音声が例えばスコア順に記憶されていれば、販売者である話者ユーザはスコアが高い音声を使用することもできる。
(応用例2)
クラウドサーバ装置2の音声提供手段203は、端末装置3において、記憶部21に記憶された変換音声を1つ以上のアプリケーションプログラミングインターフェース(API)にて提供することができてもよい。この場合には、ユーザは様々なAPI内で、例えば、自分好みのアバターを用いつつ、自分好みの声で話をすることができる。さらには、例えば2つのAPIにまたがってユーザ好みの声で他のユーザと話をすることもできる。
(応用例3)
あるユーザが「良い」のボタンを押した回数の多い音声をサーバ装置2が備える評価手段が記憶部21に当該ユーザのアカウントに対応つけて記憶させておくこともできる。そして、当該ユーザにおいて高評価となった音声によって、当該ユーザが参加する仮想空間上における広告文が読み上げられるといったことも可能となる。
以上をまとめると、本実施形態のクラウド音声変換システム1は、
ユーザの操作を受けつける端末装置3と、端末装置3と通信ネットワーク4を介して接続されるとともに記憶部21が接続されたサーバ装置2とを備え、ユーザが発声する音声(入力音声)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システム1であって、
サーバ装置2は、
ユーザの求めに応じて、サーバ装置2に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置3に送信するモデル提供手段302、
を備え、
端末装置3は、
ユーザの発声に基づいて入力音声を取り込む入力手段301、
サーバ装置2より変換モデルを受信したのちに、ユーザの操作に基づいて、変換モデルを起動させて入力音声を音声変換して変換音声を生成する変換指示手段302、および
変換音声を出力する出力手段303、
を備える。
<発明の効果>
本実施形態の音声変換システムによれば、クラウドを通じて変換音声を提供することができる。
[他の実施形態]
前記実施形態においては、ユーザの属性情報に基づいて変換モデルが最適化される例が記載されているが、本発明はこれには限られない。例えば、音声変換が提供されるシーンの情報に基づいて変換モデルが最適化されてもよい。具体的には、eコマースが提供されるシーンで、購入ユーザが物を購入したくなるような音声を生成することができるように、最適化するよう学習された変換モデルが提供されてもよい。
また、端末装置は、話者ユーザがターゲット音声の音の高さを再現する際の目安となるガイドを液晶画面に表示させる表示手段を備えていてもよい。これにより、話者ユーザは、ターゲット音声の音の高さを再現しやすくなる。なお、ガイドとしては、例えば、話者ユーザが発した音声の音高がターゲット音声の音高とほぼ同じであれば「GOOD!」などが表示されるユーザインターフェース(UI)が考えられる。
また、前記実施形態においては、変換モデルが端末装置にインストールされる例が記載されているが、本発明はこれには限られない。例えば、話者ユーザは端末装置に変換モデルをインストールすることなく、クラウドサーバ装置2が提供するブラウザにて変換モデルを使用することができてもよい。この場合において、音声変換、変換音声へのウォーターマークの埋め込み、およびターゲット音声の評価等はクラウドサーバ装置にて行われてもよい。
また、前記実施形態とは異なり、サーバ装置が変換音声を評価する評価手段を備えていてもよい。この場合には、ユーザの評価によらず、サーバ装置が自動的に変換音声を評価することができる。
また、前記実施形態においては、変換モデルはクラウドサーバ装置上に記憶されている例が記載されているが、本発明はこれには限られない。例えば、変換モデルは端末装置に記憶されており、変換モデルを起動させるためにユーザがログインして、クラウドサーバ装置から変換モデルの起動信号を受信してもよい。
前記実施形態では、変換音声の非可聴領域にウォーターマークを埋め込むことで、当該音声は音声変換された音声であることが識別される例が記載されているが、本発明はこれには限られない。例えば、端末装置あるいはクラウドサーバ装置で変換音声から聴覚上影響を与えない部分が削られ(マスク処理がなされ)、音声変換された音声であることが識別されてもよい。
また、ユーザが聞いていている音声の非可聴領域に埋め込まれたウォーターマークを読み込むことで当該音声が音声変換されて生成されたことを識別する機能を端末装置が備えていてもよい。
前記実施形態では、話者ユーザがマイクに入力音声を入力した場合には、スピーカからリアルタイムに変換音声が出力される例が記載されているが、本発明はこれには限られない。例えば、話者ユーザがマイクに入力音声を入力したのちスピーカから若干遅れて変換音声が出力されてもよく、また、変換音声が出力されるタイミングを話者ユーザが指定することができてもよい。
前記実施形態では、端末装置は1つの装置で構成されていたが、例えば、端末装置は、入力手段を備えた装置、および出力手段を備えた装置の2つの装置で構成されていてもよい。
また、前記実施形態では、端末装置にスピーカが直に外部接続されている例が記載されているが、端末装置とスピーカとの間に、例えばノイズキャンセル用のエフェクタが配置されてもよい。
また、前記実施形態では、クラウドサーバ装置に記憶部が内蔵されており、その記憶部に変換音声などが記憶されている例が記載されているが、本発明はこれには限られない。例えば、記憶部がクラウドサーバ装置に外部接続されていてもよい。
また、端末装置は、前記実施形態とは異なり、マイクおよびスピーカを内蔵していてもよい。
前記実施形態では、端末装置はスマートフォンであったが、例えば、パーソナルコンピュータ、テレビジョン装置、VRあるいはAR(オーグメンテッドリアリティ)用のスタンドアローン型のヘッドマウントディスプレイ、または、据置型あるいは携帯型のゲーム装置であってもよい。
1 クラウド音声変換システム
2 クラウドサーバ装置
201 照合手段
202 記憶手段
203 モデル提供手段
204 音声提供手段
205 通信手段
3 端末装置
301 入力手段
302 変換指示手段
303 出力手段
304 評価手段
305 通信手段
4 通信ネットワーク

Claims (9)

  1. ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
    前記サーバ装置は、
    前記ユーザの求めに応じて、前記サーバ装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置に送信するモデル提供手段、
    を備え、
    前記端末装置は、
    前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
    前記サーバ装置より前記変換モデルを受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
    前記変換音声を出力する出力手段、
    を備える音声変換システム。
  2. 前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置に送信する、
    請求項1に記載の音声変換システム。
  3. ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
    前記サーバ装置は、
    前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
    を備え、
    前記端末装置は、
    前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
    前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
    前記変換音声を出力する出力手段、
    を備える音声変換システム。
  4. 前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信する、
    請求項3に記載の音声変換システム。
  5. 前記変換音声は、前記入力音声を音声変換して生成された音声であることを識別する情報を含む、
    請求項1〜4のいずれか1項に記載の音声変換システム。
  6. 前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段をさらに備え、
    前記端末装置は、前記変換音声を評価する評価手段をさらに備え、
    前記記憶手段は、前記端末装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させる、
    請求項1〜5のいずれか1項に記載の音声変換システム。
  7. 前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段、および前記変換音声を評価する評価手段をさらに備え、
    前記記憶手段は、前記サーバ装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させる、
    請求項1〜5のいずれか1項に記載の音声変換システム。
  8. 前記記憶部は、前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価を記憶しており、
    前記サーバ装置は、前記記憶部に記憶された前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価をアプリケーションプログラミングインターフェース(API)に共有する共有手段をさらに備える、
    請求項6または7に記載の音声変換システム。
  9. 前記端末装置は、前記ユーザが前記ターゲット音声の音の高さを再現する際の目安となるガイドを表示部に表示させる表示手段をさらに備える、
    請求項1〜8のいずれか1項に記載の音声変換システム。
JP2018187315A 2018-10-02 2018-10-02 クラウド音声変換システム Pending JP2020056907A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018187315A JP2020056907A (ja) 2018-10-02 2018-10-02 クラウド音声変換システム
JP2023018018A JP7271821B2 (ja) 2018-10-02 2023-02-09 クラウド音声変換システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018187315A JP2020056907A (ja) 2018-10-02 2018-10-02 クラウド音声変換システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023018018A Division JP7271821B2 (ja) 2018-10-02 2023-02-09 クラウド音声変換システム

Publications (1)

Publication Number Publication Date
JP2020056907A true JP2020056907A (ja) 2020-04-09

Family

ID=70107176

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018187315A Pending JP2020056907A (ja) 2018-10-02 2018-10-02 クラウド音声変換システム

Country Status (1)

Country Link
JP (1) JP2020056907A (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282267A (ja) * 2000-03-29 2001-10-12 Mega Chips Corp 音声処理システム及び音声処理方法
JP2005322125A (ja) * 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2006189471A (ja) * 2004-12-28 2006-07-20 Konami Co Ltd プログラム、歌唱力判定方法、ならびに、判定装置
JP2006330440A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内装置、音声案内システム及びプログラム
JP2008026489A (ja) * 2006-07-19 2008-02-07 Asahi Kasei Corp 音声信号変換装置
JP2014032364A (ja) * 2012-08-06 2014-02-20 Fujitsu Ltd 音処理装置、音処理方法及びプログラム
JP2014511154A (ja) * 2011-03-17 2014-05-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声変換のための方法、システム、およびコンピュータ・プログラム製品、ならびに音声変換を再構築するための方法およびシステム
JP2014199445A (ja) * 2013-03-11 2014-10-23 学校法人上智学院 サウンドマスキング装置、方法及びプログラム
WO2016103881A1 (ja) * 2014-12-25 2016-06-30 エイディシーテクノロジー株式会社 ロボット
JP2017517028A (ja) * 2014-04-17 2017-06-22 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe ロボットとの対話を取り扱う方法とシステム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282267A (ja) * 2000-03-29 2001-10-12 Mega Chips Corp 音声処理システム及び音声処理方法
JP2005322125A (ja) * 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2006189471A (ja) * 2004-12-28 2006-07-20 Konami Co Ltd プログラム、歌唱力判定方法、ならびに、判定装置
JP2006330440A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内装置、音声案内システム及びプログラム
JP2008026489A (ja) * 2006-07-19 2008-02-07 Asahi Kasei Corp 音声信号変換装置
JP2014511154A (ja) * 2011-03-17 2014-05-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声変換のための方法、システム、およびコンピュータ・プログラム製品、ならびに音声変換を再構築するための方法およびシステム
JP2014032364A (ja) * 2012-08-06 2014-02-20 Fujitsu Ltd 音処理装置、音処理方法及びプログラム
JP2014199445A (ja) * 2013-03-11 2014-10-23 学校法人上智学院 サウンドマスキング装置、方法及びプログラム
JP2017517028A (ja) * 2014-04-17 2017-06-22 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe ロボットとの対話を取り扱う方法とシステム
WO2016103881A1 (ja) * 2014-12-25 2016-06-30 エイディシーテクノロジー株式会社 ロボット

Similar Documents

Publication Publication Date Title
US20230267921A1 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
WO2019007249A1 (zh) 一种交互方法、电子设备及服务器
EP3309783A1 (en) Communication method, and electronic device therefor
CN110149805A (zh) 双向语音翻译系统、双向语音翻译方法和程序
TW201503107A (zh) 語音控制系統、電子裝置及語音控制方法
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
JP2021101252A (ja) 情報処理方法、情報処理装置およびプログラム
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2010176544A (ja) 会議支援装置
CN115312079A (zh) 信息展示方法、装置、电子设备和计算机可读介质
US20230223021A1 (en) Enhancing signature word detection in voice assistants
JP7271821B2 (ja) クラウド音声変換システム
JP2020056907A (ja) クラウド音声変換システム
CN111696566B (zh) 语音处理方法、装置和介质
US20210327419A1 (en) Enhancing signature word detection in voice assistants
US20220319516A1 (en) Conversation method, conversation system, conversation apparatus, and program
JP7177999B2 (ja) 商品情報提供システム
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
JP2015173857A (ja) 電子機器及び情報処理方法
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111696564B (zh) 语音处理方法、装置和介质
JP6993034B1 (ja) コンテンツ再生方法、及びコンテンツ再生システム
CN111696565B (zh) 语音处理方法、装置和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230613