JP7271821B2 - クラウド音声変換システム - Google Patents
クラウド音声変換システム Download PDFInfo
- Publication number
- JP7271821B2 JP7271821B2 JP2023018018A JP2023018018A JP7271821B2 JP 7271821 B2 JP7271821 B2 JP 7271821B2 JP 2023018018 A JP2023018018 A JP 2023018018A JP 2023018018 A JP2023018018 A JP 2023018018A JP 7271821 B2 JP7271821 B2 JP 7271821B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- user
- voice
- terminal device
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記サーバ装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記変換モデルを受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置に送信してもよい。
ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システムである。
前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信してもよい。
前記変換音声は、前記入力音声を音声変換して生成された音声であることを識別する情報を含んでいてもよい。
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段をさらに備え、
前記端末装置は、前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記端末装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。
前記サーバ装置は、前記変換音声を前記記憶部に記憶させる記憶手段、および前記変換音声を評価する評価手段をさらに備え、
前記記憶手段は、前記サーバ装置において評価された前記変換音声を、その評価に関連づけて前記記憶部に記憶させてもよい。
前記記憶部は、前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価を記憶しており、
前記サーバ装置は、前記記憶部に記憶された前記ユーザに関する情報、前記入力音声、前記ターゲット音声、前記変換音声、および前記評価をアプリケーションプログラミングインターフェース(API)に共有する共有手段をさらに備えてもよい。
前記端末装置は、前記ユーザが前記ターゲット音声の音の高さを再現する際の目安となるガイドを表示部に表示させる表示手段をさらに備えてもよい。
本発明の実施の形態にかかるクラウド音声変換システム1について、図1~図6を参照して説明する。以下では、端末装置3を操作する人物をまとめて「ユーザ」という。また、説明の便宜上、自身の音声(入力音声)を入力するユーザを「話者ユーザ」といい、変換音声のダウンロードの要求を行うユーザは「要求ユーザ」といい、クラウドを通じて変換音声あるいはターゲット音声を提供するユーザを「提供ユーザ」という場合がある。
図1に示される本発明のクラウド音声変換システム1では、ユーザの操作を受けつける端末装置3と、端末装置3と通信ネットワーク4を介して接続されるとともに記憶部21を備えるクラウドサーバ装置2とを備える。
図1を参照して、本発明のクラウド音声変換システム1を構成するクラウドサーバ装置2のハードウェア構成、および、音声変換が提供される端末装置3のハードウェア構成について説明する。
クラウドサーバ装置2は、制御部20、記憶部21、および、ネットワークインターフェース22を備える。
クラウドサーバ装置2の制御部20は、所定のプログラムを実行することにより、照合手段201、記憶手段202、モデル提供手段203、音声提供手段204、および通信手段205として機能する。
照合手段201は、端末装置3から送信されるユーザのアカウントを用いて、ユーザのアカウントの認証を行う。
記憶手段202は、端末装置3に入力された話者ユーザの入力音声を音声変換することで生成された変換音声を記憶部21に蓄積して記憶させる。
モデル提供手段203は、話者ユーザの求めに応じて、クラウドサーバ装置2に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置3に送信する。
音声提供手段204は、要求ユーザの操作に応じて、クラウドを通じて要求ユーザの端末装置3に変換音声を提供する。具体的には、音声提供手段204は、要求ユーザが記憶部21に記憶されている提供ユーザの変換音声をクラウドを通じてダウンロードしたい旨の要求を行った場合に、記憶部21からその変換音声を読み出す。音声提供手段204は、記憶部21から読み出された提供ユーザの変換音声を、通信手段207を介して要求ユーザの端末装置3へ送信する。
通信手段205は、ユーザのアカウント、変換モデルを要求する情報などを端末装置3から受信する。
端末装置3は、スピーカ330、およびマイク360が外部接続される、スマートフォンなどの端末装置である。この端末装置3において、クラウドサーバ装置2から提供される変換モデル、ならびに所定のプログラムおよびデータに基づいて音声変換が行われる。
端末装置3の制御部30は、所定のプログラムを実行することで、入力手段301、変換指示手段302、出力手段303、評価手段304、および通信手段305として機能する。
入力手段301は、マイク360を介して話者ユーザの入力音声を入力する。この入力音声に関する情報は後述の変換指示手段302へと送信される。
変換指示手段302は、話者ユーザの操作に基づいて、通信手段305を介して話者ユーザのアカウントを送信(ログイン)するとともに、変換モデルを要求する情報をクラウドサーバ装置2へ送信する。これにより、クラウドサーバ装置2は変換モデルを端末装置3へ送信する。
変換モデルの学習時には、変換指示手段302は、話者ユーザが発声した入力音声および話者ユーザが指定したターゲット音声を読み込む。
音声変換時には、変換指示手段302は、話者ユーザが発声した入力音声を読み込むとともに、分析する。
出力手段303は、スピーカ330を介して変換モデルによって生成された変換音声を出力する。例えば、話者ユーザがマイク360に入力音声を入力した場合には、スピーカ330からリアルタイムに変換音声が出力される。
評価手段304は、要求ユーザの操作に基づいて、出力された変換音声を評価する。具体的には、クラウドを介して出力された変換音声を聞いた要求ユーザが「良い」、「普通」、「悪い」などの評価ボタンで変換音声を評価することができる。
通信手段305は、ユーザの情報(ユーザのアカウント、および、ユーザの年齢、性別などの属性情報など)、話者ユーザの入力音声、変換音声、変換音声の評価等をクラウドサーバ装置2へ送信する。
以下にて、図2、図3を参照しつつ、図4のフローチャートを用いて、音声変換処理について説明する。なお、後述の制御手段および処理手順は一例であり、本発明の実施形態はこれらには限られない。処理手順等は、本発明の要旨を変更しない範囲で適宜設計変更が可能である。
以上の手順により、本発明の音声変換処理が実行される。
つぎに、図5を参照しつつ、図6のフローチャートを用いて、本発明の音声評価処理について説明する。
以上の手順により、本発明の音声評価処理が実行される。
本発明を用いれば、VR(ヴァーチャルリアリティ)などによって提供される仮想空間上で、物品の販売者である話者ユーザの音声を変換することができる。例えば、VR上でeコマースが提供される場合において、話者ユーザは自身好みの声で物品の販売を行うことができる。
クラウドサーバ装置2の音声提供手段203は、端末装置3において、記憶部21に記憶された変換音声を1つ以上のアプリケーションプログラミングインターフェース(API)にて提供することができてもよい。この場合には、ユーザは様々なAPI内で、例えば、自分好みのアバターを用いつつ、自分好みの声で話をすることができる。さらには、例えば2つのAPIにまたがってユーザ好みの声で他のユーザと話をすることもできる。
あるユーザが「良い」のボタンを押した回数の多い音声をサーバ装置2が備える評価手段が記憶部21に当該ユーザのアカウントに対応つけて記憶させておくこともできる。そして、当該ユーザにおいて高評価となった音声によって、当該ユーザが参加する仮想空間上における広告文が読み上げられるといったことも可能となる。
ユーザの操作を受けつける端末装置3と、端末装置3と通信ネットワーク4を介して接続されるとともに記憶部21が接続されたサーバ装置2とを備え、ユーザが発声する音声(入力音声)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システム1であって、
サーバ装置2は、
ユーザの求めに応じて、サーバ装置2に格納される変換モデルであって入力音声を音声変換して変換音声を生成する変換モデルを端末装置3に送信するモデル提供手段302、
を備え、
端末装置3は、
ユーザの発声に基づいて入力音声を取り込む入力手段301、
サーバ装置2より変換モデルを受信したのちに、ユーザの操作に基づいて、変換モデルを起動させて入力音声を音声変換して変換音声を生成する変換指示手段302、および
変換音声を出力する出力手段303、
を備える。
本実施形態の音声変換システムによれば、クラウドを通じて変換音声を提供することができる。
前記実施形態においては、ユーザの属性情報に基づいて変換モデルが最適化される例が記載されているが、本発明はこれには限られない。例えば、音声変換が提供されるシーンの情報に基づいて変換モデルが最適化されてもよい。具体的には、eコマースが提供されるシーンで、購入ユーザが物を購入したくなるような音声を生成することができるように、最適化するよう学習された変換モデルが提供されてもよい。
2 クラウドサーバ装置
201 照合手段
202 記憶手段
203 モデル提供手段
204 音声提供手段
205 通信手段
3 端末装置
301 入力手段
302 変換指示手段
303 出力手段
304 評価手段
305 通信手段
4 通信ネットワーク
Claims (2)
- ユーザの操作を受けつける端末装置と、前記端末装置と通信ネットワークを介して接続されるとともに記憶部が接続されたサーバ装置とを備え、前記ユーザが発声する音声(以下、「入力音声」という。)を目標の音声であるターゲット音声に音声変換して変換音声を生成する音声変換システムであって、
前記サーバ装置は、
前記ユーザの求めに応じて、前記端末装置に格納される変換モデルであって前記入力音声を音声変換して前記変換音声を生成する前記変換モデルを前記端末装置にて起動させるための起動信号を前記端末装置に送信するモデル提供手段、
を備え、
前記端末装置は、
前記ユーザの発声に基づいて前記入力音声を取り込む入力手段、
前記サーバ装置より前記起動信号を受信したのちに、前記ユーザの操作に基づいて、前記変換モデルを起動させて前記入力音声を音声変換して前記変換音声を生成する変換指示手段、および
前記変換音声を出力する出力手段、
を備える音声変換システム。 - 前記モデル提供手段は、前記端末装置から前記ユーザの操作に基づいて送信された前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報を前記サーバ装置が受信したのち、受信した前記ユーザに関する情報あるいは音声変換が提供される状況に関する情報に基づいて音声変換を最適化するように学習された前記変換モデルを前記端末装置にて起動させるための前記起動信号を送信する、
請求項1に記載の音声変換システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023018018A JP7271821B2 (ja) | 2018-10-02 | 2023-02-09 | クラウド音声変換システム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018187315A JP2020056907A (ja) | 2018-10-02 | 2018-10-02 | クラウド音声変換システム |
JP2023018018A JP7271821B2 (ja) | 2018-10-02 | 2023-02-09 | クラウド音声変換システム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018187315A Division JP2020056907A (ja) | 2018-10-02 | 2018-10-02 | クラウド音声変換システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023053082A JP2023053082A (ja) | 2023-04-12 |
JP7271821B2 true JP7271821B2 (ja) | 2023-05-12 |
Family
ID=87852751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023018018A Active JP7271821B2 (ja) | 2018-10-02 | 2023-02-09 | クラウド音声変換システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7271821B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008026489A (ja) | 2006-07-19 | 2008-02-07 | Asahi Kasei Corp | 音声信号変換装置 |
-
2023
- 2023-02-09 JP JP2023018018A patent/JP7271821B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008026489A (ja) | 2006-07-19 | 2008-02-07 | Asahi Kasei Corp | 音声信号変換装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2023053082A (ja) | 2023-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6755304B2 (ja) | 情報処理装置 | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2019007249A1 (zh) | 一种交互方法、电子设备及服务器 | |
JP6400445B2 (ja) | 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム | |
JP2016156978A (ja) | 音声録音装置、音声録音方法、及びプログラム | |
KR20200097444A (ko) | 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법 | |
CN110943908A (zh) | 语音消息发送方法、电子设备及介质 | |
CN107767862B (zh) | 语音数据处理方法、系统及存储介质 | |
CN111787986A (zh) | 基于面部表情的语音效果 | |
CN115312079A (zh) | 信息展示方法、装置、电子设备和计算机可读介质 | |
JP2010176544A (ja) | 会議支援装置 | |
JP7271821B2 (ja) | クラウド音声変換システム | |
CN108417223A (zh) | 在社交网络中发送变调语音的方法 | |
JP2020056907A (ja) | クラウド音声変換システム | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
CN111696566B (zh) | 语音处理方法、装置和介质 | |
CN112235183B (zh) | 通信消息处理方法、设备及即时通信客户端 | |
US20220319516A1 (en) | Conversation method, conversation system, conversation apparatus, and program | |
CN111768772A (zh) | 虚拟物品转移方法、装置、设备和可读存储介质 | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 | |
CN111696564B (zh) | 语音处理方法、装置和介质 | |
WO2019017033A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111696565B (zh) | 语音处理方法、装置和介质 | |
KR102544612B1 (ko) | 영상 콘텐츠 연동형 서비스 제공 방법 및 장치 | |
CN113066513B (zh) | 语音数据处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230209 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7271821 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |