JP2022171300A

JP2022171300A - コンピュータプログラム、方法及びサーバ装置

Info

Publication number: JP2022171300A
Application number: JP2021077876A
Authority: JP
Inventors: 暁彦白井; Akihiko Shirai; 貴紀堀部; Takanori Horibe
Original assignee: GREE Inc
Current assignee: GREE Inc
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-11-11
Also published as: JP2024059688A

Abstract

【課題】向上した性能を有するボイスチェンジャー機能を提供することが可能な、コンピュータプログラム、方法及びサーバ装置を提供すること。【解決手段】一実施形態に係るコンピュータプログラムは、少なくとも１つのプロセッサにより実行されることにより、ユーザの発話に関する第１音声信号を取得し、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示し、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示する、ように前記少なくとも１つのプロセッサを機能させる。【選択図】図８Ｃ

Description

特許法第３０条第２項適用申請有り（１）ウェブサイトの掲載日２０２１年２月２４日ウェブサイトのアドレスｈｔｔｐｓ：／／ｗｗｗ．ｍｔｇ．ａｃｏｕｓｔｉｃｓ．ｊｐ／ｐｏｓｔｅｒ．ｈｔｍｌ＃２－２Ｐ－９公開者白井暁彦、堀部貴紀及び森勢将雅公開された発明の内容白井暁彦、堀部貴紀及び森勢将雅が、上記アドレスにより特定されるウェブサイトにおいて、本件出願に係る発明に関連した、「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」と題した論文に関する概要及びポスターを公開した。（２）開催日２０２１年３月１１日集会名、開催場所日本音響学会２０２１年春季研究発表会、Ｚｏｏｍ会場公開者白井暁彦、堀部貴紀及び森勢将雅公開された発明の内容白井暁彦、堀部貴紀及び森勢将雅が、日本音響学会２０２１年春季研究発表会において、本件出願に係る発明に関連した、「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」と題した論文に関する発表を行った。（３）ウェブサイトの掲載日２０２１年４月６日ウェブサイトのアドレスｈｔｔｐｓ：／／ｗｗｗ．ｓｌｉｄｅｓｈａｒｅ．ｎｅｔ／ｖｒｓｔｕｄｉｏｌａｂ／ｓｓ－２４５７６９０２３公開者白井暁彦、堀部貴紀及び森勢将雅公開された発明の内容白井暁彦、堀部貴紀及び森勢将雅が、上記アドレスにより特定されるウェブサイトにおいて、本件出願に係る発明に関連した、「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」と題した論文に関するポスターを公開した。

本件出願に開示された技術は、ユーザの発話に関するデータを端末装置に表示するために用いられる、コンピュータプログラム、方法及びサーバ装置に関する。

昨今、ユーザの発話に関する音声信号を、別のキャラクターの声に類似した音声信号に変換するボイスチェンジャーという機能を提供するサービスが知られている。例えば、「転声こえうらない」（非特許文献１）というサービスでは、ユーザの発話に関する音声信号が、複数のキャラクターのうちそのユーザが所望するキャラクターの声に類似した音声信号に変換される。

"転声こえうらない"、［online］、２０１９年６月２７日、GREE Inc.、［２０２１年３月２９日検索］、インターネット（https://vr.gree.net/lab/demo/voice/）

一般的なユーザは、自身を取り囲む環境及び／又は自身の発話をどのように改善すれば、ボイスチェンジャー機能を介して自身が希望するものに近づいた音声信号を取得することができるのかを認識することは困難である。

そこで、本件出願に開示された技術は、向上した性能を有するボイスチェンジャー機能を提供することが可能な、コンピュータプログラム、方法及びサーバ装置を提供する。

一態様に係るコンピュータプログラムは、「少なくとも１つのプロセッサにより実行されることにより、ユーザの発話に関する第１音声信号を取得し、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示し、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。
一態様に係る方法は、「コンピュータにより読み取り可能な命令を実行する少なくとも１つのプロセッサにより実行される方法であって、前記少なくとも１つのプロセッサが、前記命令を実行することにより、ユーザの発話に関する第１音声信号を取得すること、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示すること、並びに、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示すること、を含む」ことができる。
一態様に係るサーバ装置は、「少なくとも１つのプロセッサを具備し、該少なくとも１つのプロセッサが、ユーザの発話に関する第１音声信号を該ユーザの端末装置から通信回線を介して取得し、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを、前記通信回線を介して前記端末装置に送信して表示させ、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記通信回線を介して前記端末装置に送信して表示させる、ように構成される」ことができる。
別の態様に係る方法は、「コンピュータにより読み取り可能な命令を実行する少なくとも１つのプロセッサにより実行される方法であって、前記少なくとも１つのプロセッサが、前記命令を実行することにより、ユーザの発話に関する第１音声信号を該ユーザの端末装置から通信回線を介して取得すること、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを、前記通信回線を介して前記端末装置に送信して表示させること、並びに、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記通信回線を介して前記端末装置に送信して表示させること、を含む」ことができる。

この［発明の概要］の欄は、選択された様々な概念を簡略化された形式により導入するために記載されており、これらの様々な概念については［発明を実施するための形態］の欄において後述する。本明細書において用いられるすべての商標は、これらの商標の保有者の財産である。この［発明の概要］の欄の記載は、特許請求の範囲に記載された発明の重要な特徴又は不可欠な特徴を特定することを意図するものでもなく、特許請求の範囲に記載された発明の技術的範囲を限定することを意図するものでもない。特許請求の範囲に記載された発明の、上述した又は他の目的、特徴及び効果は、添付図面を参照して以下に示される［発明を実施するための形態］の欄の記載からより明らかとなろう。

図１は、一実施形態に係る通信システムの構成の一例を示すブロック図である。図２は、図１に示した端末装置２０（又はサーバ装置３０等）のハードウェア構成の一例を模式的に示すブロック図である。図３は、図１に示した端末装置２０（又はサーバ装置３０）の機能の一例を模式的に示すブロック図である。図４は、図１に示す通信システムにおいて用いられる学習モデルに使用される教師データの具体例を示す表である。図５は、人の発話に関する音声信号から得られる周波数スペクトルにおける基本周波数とフォルマントの周波数との関係を示す図である。図６Ａは、図１に示した通信システムにおいて用いられる男性用の音声変換プリセットの機能を説明するための模式図である。図６Ｂは、図１に示した通信システムにおいて用いられる女性用の音声変換プリセットの機能を説明するための模式図である。図６Ｃは、図１に示した通信システムにおいて用いられる中性用の音声変換プリセットの機能を説明するための模式図である。図７Ａは、図１に示した通信システム１において行われる動作の一例を示すフロー図である。図７Ｂは、図１に示した通信システム１において行われる動作の一例を示すフロー図である。図８Ａは、図１に示した端末装置２０に表示される画面の一例を示す図である。図８Ｂは、図１に示した端末装置２０に表示される画面の別の例を示す図である。図８Ｃは、図１に示した端末装置２０に表示される画面のさらに別の例を示す図である。図８Ｄは、図１に示した端末装置２０に表示される画面のさらに別の例を示す図である。図９は、別の実施形態に係る通信システム１において行われる動作の一例を示すフロー図である。図１０Ａは、図９に示した通信システム１において視聴者の端末装置２０Ｂにより表示される画面の一例を示す図である。図１０Ｂは、図９に示した通信システム１において配信者の端末装置２０Ａにより表示される画面の一例を示す図である。図１１は、さらに別の実施形態に係る通信システム１において行われる動作の一例を示すフロー図である。図１２は、さらに別の実施形態に係る通信システム１において行われる動作の一例を示すフロー図である。図１３は、図１２に示した通信システム１において配信者の端末装置２０Ａにより表示される画面の一例を示す図である。図１４は、図１２に示した通信システム１において各視聴者の端末装置２０により表示される画面の一例を示す図である。

本明細書は、いかなる方法によっても限定されることを意図していない、代表的な様々な実施形態という意味により記載される。
本件出願において用いられるように、「１つの」、「前記」、「上記」、「当該」、「該」、「この」、「その」といった単数形は、複数形でないことを明確に示さない限り、複数形を含むことができる。また、「含む」という用語は、「具備する」こと又は「備える」ことを意味し得る。さらに、「結合された」、「結合した」、「結び付けられた」、「結び付けた、「接続された」又は「接続した」という用語は、対象物を相互に結合する、接続する又は結び付ける、機械的、電気的、磁気的及び光学的な方法を他の方法とともに包含し、このように結合された、結合した、結び付けられた、結び付けた、接続された又は接続した対象物の間にある中間要素の存在を排除しない。

本明細書において記載される、様々なシステム、方法及び装置は、いかなる方法によっても限定されるものとして解釈されるべきではない。実際には、本開示は、開示された様々な実施形態の各々、これら様々な実施形態を相互に組み合わせたもの、及び、これら様々な実施形態の一部を相互に組み合わせたもの、のうちのあらゆる新規な特徴及び態様に向けられている。本明細書において記載される、様々なシステム、方法及び装置は、特定の態様、特定の特徴、又は、このような特定の態様と特定の特徴とを組み合わせたものに限定されないし、本明細書に記載される物及び方法は、１若しくはそれ以上の特定の効果が存在すること又は課題が解決されることを、要求するものでもない。さらには、本明細書において記載された様々な実施形態のうちの様々な特徴若しくは態様、又は、そのような特徴若しくは態様の一部は、相互に組み合わせて用いられ得る。

本明細書において開示された様々な方法のうちの幾つかの方法の動作が、便宜上、特定の順序に沿って記載されているが、このような手法による記載は、特定の順序が以下特定の文章によって要求されていない限り、上記動作の順序を並び替えることを包含する、と理解すべきである。例えば、順番に記載された複数の動作は、幾つかの場合には、並び替えられるか又は同時に実行される。さらには、簡略化を目的として、添付図面は、本明細書に記載された様々な事項及び方法が他の事項及び方法とともに用いられ得るような様々な方法を示していない。加えて、本明細書は、「生成する」、「発生させる」、「表示する」、「受信する」、「評価する」及び「配信する」のような用語を用いることがある。これらの用語は、実行される実際の様々な動作のハイレベルな記載である。これらの用語に対応する実際の様々な動作は、特定の実装に依存して変化し得るし、本明細書の開示の利益を有する当業者によって容易に認識され得る。

本開示の装置又は方法に関連して本明細書に提示される、動作理論、科学的原理又は他の理論的な記載は、よりよい理解を目的として提供されており、技術的範囲を限定することを意図していない。添付した特許請求の範囲における装置及び方法は、このような動作理論により記載される方法により動作する装置及び方法に限定されない。

本明細書に開示された様々な方法のいずれもが、コンピュータにより読み取り可能な１又はそれ以上の媒体（例えば、１又はそれ以上の光学媒体ディスク、複数の揮発性メモリ部品、又は、複数の不揮発性メモリ部品といったような、非一時的なコンピュータにより読み取り可能な記憶媒体）に記憶された、コンピュータにより実行可能な複数の命令を用いて実装され、さらに、コンピュータにおいて実行され得る。ここで、上記複数の揮発性メモリ部品は、例えばＤＲＡＭ又はＳＲＡＭを含む。また、上記複数の不揮発性メモリ部品は、例えばハードドライブ及びソリッドステートドライブ（ＳＳＤ）を含む。さらに、上記コンピュータは、例えば、計算を行うハードウェアを有するスマートフォン及び他のモバイル装置を含む、市場において入手可能な任意のコンピュータを含む。

本明細書において開示された技術を実装するためのこのようなコンピュータにより実行可能な複数の命令のいずれもが、本明細書において開示された様々な実施形態の実装の間において生成され使用される任意のデータとともに、１又はそれ以上のコンピュータにより読み取り可能な媒体（例えば、非一時的なコンピュータにより読み取り可能な記憶媒体）に記憶され得る。このようなコンピュータにより実行可能な複数の命令は、例えば、個別のソフトウェアアプリケーションの一部であり得るか、又は、ウェブブラウザ若しくは（リモート計算アプリケーションといったような）他のソフトウェアアプリケーションを介してアクセス又はダウンロードされるソフトウェアアプリケーションの一部であり得る。このようなソフトウェアは、例えば、（例えば市場において入手可能な任意の好適なコンピュータにおいて実行されるプロセスとしての）単一のローカルコンピュータにおいて、又は、１又はそれ以上のネットワークコンピュータを用いて、ネットワーク環境（例えば、インターネット、ワイドエリアネットワーク、ローカルエリアネットワーク、（クラウド計算ネットワークといったような）クライアントサーバネットワーク、又は、他のそのようなネットワーク）において、実行され得る。

明確化のために、ソフトウェアをベースとした様々な実装のうちの特定の選択された様々な態様のみが記載される。当該分野において周知である他の詳細な事項は省略される。例えば、本明細書において開示された技術は、特定のコンピュータ言語又はプログラムに限定されない。例えば、本明細書において開示された技術は、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、又は、他の任意の好適なプログラミング言語で記述されたソフトウェアにより実行され得る。同様に、本明細書において開示された技術は、特定のコンピュータ又は特定のタイプのハードウェアに限定されない。好適なコンピュータ及びハードウェアの特定の詳細な事項は、周知であって、本明細書において詳細に説明する必要はない。

さらには、このようなソフトウェアをベースとした様々な実施形態（例えば、本明細書において開示される様々な方法のいずれかをコンピュータに実行させるための、コンピュータにより実行可能な複数の命令を含む）のいずれもが、好適な通信手段により、アップロードされ、ダウンロードされ、又は、リモート方式によりアクセスされ得る。このような好適な通信手段は、例えば、インターネット、ワールドワイドウェブ、イントラネット、ソフトウェアアプリケーション、ケーブル（光ファイバケーブルを含む）、磁気通信、電磁気通信（ＲＦ通信、マイクロ波通信、赤外線通信を含む）、電子通信、又は、他のそのような通信手段を含む。

本件出願において用いられる「ギフト」という用語は、「トークン（token）」という用語と同様の概念を意味する。したがって、「ギフト」という用語を「トークン（token）」という用語に置き換えて、本件出願に記載された技術を理解することも可能である。

以下、添付図面を参照して本発明の様々な実施形態を説明する。なお、図面において共通した構成要素には同一の参照符号が付されている。また、或る図面に表現された構成要素が、説明の便宜上、別の図面においては省略されていることがある点に留意されたい。さらにまた、添付した図面が必ずしも正確な縮尺で記載されている訳ではないということに注意されたい。

また、本件出願に開示された様々な実施形態に係るボイスチェンジャー機能は、ユーザの発話に関する音声信号を別のキャラクターの声に対応する音声信号に変換することが可能な任意のサービス・アプリケーションにおいて適用することが可能である。例えば、本件出願に開示された様々な実施形態に係るボイスチェンジャー機能は、以下に例示する様々なサービスのうちの少なくとも１つのサービス・アプリケーションにおいて適用することが可能である。
・ユーザの動作に関する動作データに基づいて変化するアバターのアニメーションとこのユーザの発話に関する音声信号とを含む動画（又はこの動画を生成するための構成データ）を、通信回線を介して他のユーザに向けて配信するサービス・アプリケーション（第１のタイプのサービス・アプリケーション）
・オンライン又はオフライン方式により、ユーザの発話に関する音声信号を、取得して、複数のキャラクターのうちユーザにより選択された１つのキャラクターの声に対応する音声信号に変換するサービス・アプリケーション（第２のタイプのサービス・アプリケーション）
・ユーザを撮像しかつこのユーザの声を録画した動画を、通信回線を介して他のユーザに向けて配信する所謂ビデオ会議を提供するサービス・アプリケーション（第３のタイプのサービス・アプリケーション）

以下、説明を簡単にするために、本件出願に開示された様々な実施形態に係るボイスチェンジャー機能を、第１のタイプのサービス・アプリケーションに適用される場合を例にとり説明する。

本件出願に開示された技術を用いる通信システムでは、簡潔にいえば、ユーザの端末装置等が、少なくとも一部分においてサーバ装置と通信しながら又はサーバ装置と通信することなく、上記ユーザの発話に関する音声信号がボイスチェンジャー機能により変換された音声信号を取得することができる。

１．通信システムの例
図１は、一実施形態に係る通信システムの構成の一例を示すブロック図である。図１に示すように、通信システム１は、通信網（通信回線）１０に接続される１又はそれ以上の端末装置２０と、通信網１０に接続される１又はそれ以上のサーバ装置３０と、を含むことができる。なお、図１には、端末装置２０の例として、３つの端末装置２０Ａ～２０Ｃが例示され、サーバ装置３０の例として、３つのサーバ装置３０Ａ～３０Ｃが例示されているが、端末装置２０として、これら以外の１又はそれ以上の端末装置２０が通信網１０に接続され得るし、サーバ装置３０として、これら以外の１又はそれ以上のサーバ装置３０が通信網１０に接続され得る。

また、通信システム１は、通信網１０に接続される１又はそれ以上のスタジオユニット４０を含むことができる。なお、図１には、スタジオユニット４０の例として、２つのスタジオユニット４０Ａ及び４０Ｂが例示されているが、スタジオユニット４０として、これら以外の１又はそれ以上のスタジオユニット４０が通信網１０に接続され得る。

「第１の態様」では、図１に示す通信システム１において、ユーザにより操作され特定のアプリケーションを実行する端末装置２０（例えば端末装置２０Ａ）が、端末装置２０Ａに対向するユーザの発話に関する音声信号を取得することができる。上記特定のアプリケーションは、ウェブブラウザ、音声／動画配信用のアプリケーション、及び／又は、ボイスチェンジャー機能を有するアプリケーション等であり得る。なお、ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。

端末装置２０Ａは、取得した音声信号に基づいて「変換器」、すなわち、音声変換アルゴリズム及び音声変換プリセット（音声変換に用いられるパラメータのセット）を取得し、取得した変換器を用いて変換された音声信号を生成することができる。また、端末装置２０Ａは、生成された音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介してサーバ装置３０（例えばサーバ装置３０Ａ）に送信することができる。

さらに、サーバ装置３０Ａが、端末装置２０Ａから受信した音声信号を（別の実施形態では動画信号とともに）、通信網１０を介して他の１又はそれ以上の端末装置２０であって特定のアプリケーションを実行して音声／動画の配信を要求する旨を送信した端末装置２０に配信することができる。上記特定のアプリケーションは、音声／動画視聴用のアプリケーション、及び／又は、ボイスチェンジャー機能を有するアプリケーション等であり得る。なお、ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。

また、この「第１の態様」では、ユーザの発話に関する音声信号を取得してから変換器（音声変換アルゴリズム、及び、音声変換プリセット（音声変換に用いられるパラメータ）のセット）を取得するまでの一連の動作のすべてが、端末装置２０によって実行されるようにしてもよいし、これら一連の動作のうち、音声信号の取得を除く動作の少なくとも一部が、サーバ装置３０又は他の端末装置２０等により実行されるようにしてもよい。

「第２の態様」では、図１に示す通信システム１において、例えばスタジオ等又は他の場所に設置されたサーバ装置３０（例えばサーバ装置３０Ｂ）が、上記スタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得することができる。サーバ装置３０Ｂは、取得した音声信号に基づいて変換器（音声変換アルゴリズム、及び、音声変換に用いられるパラメータのセット（音声変換プリセット））を取得し、取得した変換器を用いて変換された音声信号を生成することができる。さらに、サーバ装置３０Ｂは、生成された音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介して１又はそれ以上の端末装置２０であって特定のアプリケーションを実行して動画の配信を要求する旨を送信した端末装置２０に配信することができる。上記特定のアプリケーションは、動画視聴用のアプリケーション、及び／又は、ボイスチェンジャー機能を有するアプリケーション等であり得る。なお、ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。

「第３の態様」では、図１に示す通信システム１において、例えばスタジオ等又は他の場所に設置されたスタジオユニット４０が、上記スタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得することができる。このスタジオユニット４０は、取得した音声信号に基づいて変換器（音声変換アルゴリズム、及び、音声変換に用いられるパラメータのセット（音声変換プリセット））を取得することができる。さらに、スタジオユニット４０は、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を（別の実施形態では動画信号とともに）、通信網１０を介してサーバ装置３０（例えばサーバ装置３０Ａ）に送信することができる。さらに、サーバ装置３０Ａが、スタジオユニット４０から受信した音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介して他の１又はそれ以上の端末装置２０であって上記特定のアプリケーションを実行して音声／動画の配信を要求する旨を送信した端末装置２０に配信することができる。

通信網（通信回線）１０は、携帯電話網、無線ネットワーク（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、（ＩＥＥＥ８０２.１１ａ／ｂ／ｎといったような）ＷｉＦｉ、ＷｉＭａｘ、セルラー、衛星、レーザー、赤外線、を介したＲＦ接続）、固定電話網、インターネット、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及び／又は、イーサネット（登録商標）ネットワークを、これらに限定することなく含むことができる。

端末装置２０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページ（例えば、ＨＴＭＬ／ＨＴＭＬ５ドキュメント、幾つかの例では、ＪａｖａＳｃｒｉｐｔ又はＰＨＰコードといったような実行可能なコードを符号化したＨＴＭＬ／ＨＴＭＬ５ドキュメント）を受信及び表示し、そのウェブページに組み込まれたコード（プログラム）を実行することができる。これにより、端末装置２０は、図７Ａ、図７Ｂ、図９、図１１及び図１２等を参照して後に説明するような様々な動作を実行することができる。なお、端末装置２０は、これら様々な動作のうちの少なくとも一部の動作を、上記ウェブページに組み込まれたプログラムに従って実行することもできるし、サーバ装置３０に実行させてその実行の結果をサーバ装置３０から受信することもできる。なお、上記少なくとも一部の動作は、例えば、図７Ａに示すＳＴ３０２、ＳＴ３０４、ＳＴ３０６、ＳＴ３０８及び／又はＳＴ３２０等を、これらに限定することなく含むことができる。この場合、サーバ装置３０は、そのような少なくとも一部の動作を、任意のプログラミング言語（例えば、Ｐｙｔｈｏｎ、Ｃ＋＋等）により記述されたプログラムに従って実行することができる。
或いはまた、端末装置２０は、インストールされた上記特定のアプリケーションを実行することにより、同様の動作を実行することができる。

端末装置２０は、ブラウザを用いてウェブページを受信し、このウェブページに組み込まれたプログラムを実行することにより（又は特定のアプリケーションを実行することにより）、このような動作を実行することができる任意の端末装置であって、スマートフォン、タブレット、携帯電話（フィーチャーフォン）及び／又はパーソナルコンピュータ等を、これらに限定することなく含むことができる。

サーバ装置３０は、「第１の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、各端末装置２０からユーザの音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介して受信し、受信した音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。

サーバ装置３０は、「第２の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、このサーバ装置３０が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。

さらにまた、サーバ装置３０は、「第３の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、スタジオ等又は他の場所に設置されたスタジオユニット４０からこのスタジオ等に居るユーザの音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介して受信し、受信した音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各スタジオユニット４０に送信するウェブページを介して、同様の動作を実行することができる。

スタジオユニット４０は、インストールされた上記特定のアプリケーションを実行する情報処理装置として機能することができる。これにより、スタジオユニット４０は、このスタジオユニット４０が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介してサーバ装置３０（例えばサーバ装置３０Ａ）に送信する、という動作等を実行することができる。或いはまた、スタジオユニット４０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページを受信及び表示して（さらに、オプションとして、ウェブページに組み込まれたプログラムを実行して）、同様の動作を実行することができる。

２．各装置のハードウェア構成
次に、端末装置２０、サーバ装置３０及びスタジオユニット４０の各々が有するハードウェア構成の一例について説明する。

２－１．端末装置２０のハードウェア構成
各端末装置２０のハードウェア構成例について図２を参照して説明する。図２は、図１に示した端末装置２０（又はサーバ装置３０等）のハードウェア構成の一例を模式的に示すブロック図である（なお、図２において、括弧内の参照符号は、後述するように各サーバ装置３０に関連して記載されている）。

図２に示すように、各端末装置２０は、中央処理装置２１と、主記憶装置２２と、入出力インタフェイス装置２３と、入力装置２４と、補助記憶装置２５と、出力装置２６と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

中央処理装置２１は、「ＣＰＵ」と称され、主記憶装置２２に記憶されている命令及びデータに対して演算を行い、その演算の結果を主記憶装置２２に記憶させることができる。さらに、中央処理装置２１は、入出力インタフェイス装置２３を介して、入力装置２４、補助記憶装置２５及び出力装置２６等を制御することができる。端末装置２０は、１又はそれ以上のこのような中央処理装置２１を含むことが可能である。

主記憶装置２２は、「メモリ」と称され、入力装置２４、補助記憶装置２５及び通信網１０等（サーバ装置３０等）から、入出力インタフェイス装置２３を介して受信した命令及びデータ、並びに、中央処理装置２１の演算結果を記憶することができる。主記憶装置２２は、揮発性メモリ（例えば、レジスタ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ））、不揮発性メモリ（例えば、リードオンリーメモリ（ＲＯＭ）、ＥＥＰＲＯＭ、フラッシュメモリ）、及び、ストレージ（例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、磁気テープ、光学媒体）、といったようなコンピュータにより読み取り可能な媒体を、これらに限定することなく含むことができる。容易に理解されるように、「コンピュータにより読み取り可能な記録媒体」という用語は、変調されたデータ信号すなわち一時的な信号といったような送信媒体ではなく、メモリ及びストレージといったようなデータストレージのための媒体を含むことができる。

補助記憶装置２５は、主記憶装置２２よりも大きな容量を有する記憶装置である。補助記憶装置２５は、上記特定のアプリケーションやウェブブラウザ等を構成する命令及びデータ（コンピュータプログラム）を記憶しておき、中央処理装置２１により制御されることにより、これらの命令及びデータ（コンピュータプログラム）を、入出力インタフェイス装置２３を介して主記憶装置２２に送信することができる。補助記憶装置２５は、磁気ディスク装置及び／又は光ディスク装置等をこれらに限定することなく含むことができる。

入力装置２４は、外部からデータを取り込む装置であり、タッチパネル、ボタン、キーボード、マウス及び／又はセンサ（マイク、カメラ）等をこれらに限定することなく含むことができる。

出力装置２６は、ディスプレイ装置、タッチパネル、スピーカー及び／又はプリンタ装置等をこれらに限定することなく含むことができる。

このようなハードウェア構成にあっては、中央処理装置２１が、補助記憶装置２５に記憶された特定のアプリケーションを構成する命令及びデータ（コンピュータプログラム）を順次主記憶装置２２にロードし、ロードした命令及びデータを演算することができる。これにより、中央処理装置２１は、入出力インタフェイス装置２３を介して出力装置２６を制御し、或いはまた、入出力インタフェイス装置２３及び通信網１０を介して、他の装置（例えばサーバ装置３０及び他の端末装置２０等）との間で様々な情報（データ）の送受信を行うことができる。

このように、端末装置２０は、インストールされた上記特定のアプリケーションを実行することにより、ユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介してサーバ装置３０（例えばサーバ装置３０Ａ）に送信することができる。或いはまた、端末装置２０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページを受信及び表示して、同様の動作を実行することができる。

なお、端末装置２０は、中央処理装置２１に代えて又は中央処理装置２１とともに、１又はそれ以上のマイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含むこともできる。

２－２．サーバ装置３０のハードウェア構成
各サーバ装置３０のハードウェア構成例について同じく図２を参照して説明する。各サーバ装置３０のハードウェア構成としては、例えば、上述した各端末装置２０のハードウェア構成と同様のものを用いることが可能である。したがって、各サーバ装置３０が有する構成要素に対する参照符号は、図２において括弧内に示されている。

図２に示すように、各サーバ装置３０は、中央処理装置３１と、主記憶装置３２と、入出力インタフェイス装置３３と、入力装置３４と、補助記憶装置３５と、出力装置３６と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

中央処理装置３１、主記憶装置３２、入出力インタフェイス装置３３、入力装置３４、補助記憶装置３５及び出力装置３６は、それぞれ、上述した各端末装置２０に含まれる、中央処理装置２１、主記憶装置２２、入出力インタフェイス装置２３、入力装置２４、補助記憶装置２５及び出力装置２６と略同一であり得る。

このようなハードウェア構成にあっては、中央処理装置３１が、補助記憶装置３５に記憶された特定のアプリケーションを構成する命令及びデータ（コンピュータプログラム）を順次主記憶装置３２にロードし、ロードした命令及びデータを演算することができる。これにより、中央処理装置３１は、入出力インタフェイス装置３３を介して出力装置３６を制御し、或いはまた、入出力インタフェイス装置３３及び通信網１０を介して、他の装置（例えば各端末装置２０等）との間で様々な情報（データ）の送受信を行うことができる。

これにより、サーバ装置３０は、「第１の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、各端末装置２０からユーザの音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介して受信し、受信した音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。

また、サーバ装置３０は、「第２の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、このサーバ装置３０が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。或いはまた、サーバ装置３０は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置２０に送信するウェブページを介して、同様の動作を実行することができる。

さらにまた、サーバ装置３０は、「第３の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置３０は、スタジオ等又は他の場所に設置されたスタジオユニット４０からこのスタジオ等に居るユーザの音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介して受信し、受信した音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）通信網１０を介して各端末装置２０に配信する、という動作等を実行することができる。

なお、サーバ装置３０は、中央処理装置３１に代えて又は中央処理装置３１とともに、１又はそれ以上のマイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含むこともできる。或いはまた、サーバ装置３０は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各スタジオユニット４０に送信するウェブページを介して、同様の動作を実行することができる。

２－３．スタジオユニット４０のハードウェア構成
スタジオユニット４０は、パーソナルコンピュータ等の情報処理装置により実装可能であって、図示はされていないが、上述した端末装置２０及びサーバ装置３０と同様に、中央処理装置と、主記憶装置と、入出力インタフェイス装置と、入力装置と、補助記憶装置と、出力装置と、を含むことができる。これら装置同士は、データバス及び／又は制御バスにより接続されている。

スタジオユニット４０は、インストールされた上記特定のアプリケーションを実行して情報処理装置として機能することができる。これにより、スタジオユニット４０は、このスタジオユニット４０が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を（別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに）、通信網１０を介してサーバ装置３０（例えばサーバ装置３０Ａ）に送信する、という動作等を実行することができる。或いはまた、スタジオユニット４０は、インストールされたウェブブラウザを実行することにより、サーバ装置３０からウェブページを受信及び表示して、同様の動作を実行することができる。

３．各装置の機能
次に、端末装置２０、サーバ装置３０及びスタジオユニット４０の各々が有する機能の一例について説明する。

３－１．端末装置２０の機能
端末装置２０の機能の一例について図３を参照して説明する。図３は、図１に示した端末装置２０（又はサーバ装置３０）の機能の一例を模式的に示すブロック図である（なお、図３において、括弧内の参照符号は、後述するようにサーバ装置３０に関連して記載されたものである。）。

図３に示すように、端末装置２０は、構成データ生成部１００と、特徴量抽出部１１０と、変換器取得部１１２と、特徴量変換部１１４と、音声合成部１１６と、解析部１１８と、記憶部１２０と、表示部１２２と、通信部１２４と、音声出力部１２６と、動画生成部１２８と、を含むことができる。

（１）構成データ生成部１００
構成データ生成部１００は、当該端末装置１０が配信者の端末装置１０として動作する場合に、例えば単位時間ごとに、配信者の動作に関する動作データとこの配信者の発した音声に関する音声データとを少なくとも含む構成データを生成することができる。動作データは、配信者の顔等の動作のディジタル表現をタイムスタンプに対応付けて記録したデータであり得る。音声データ（音声信号）は、配信者の発した音声のディジタル表現をタイムスタンプに対応付けて記録したデータであり得る。

構成データ生成部１００は、このような構成データを生成するために、例えば、取得部１０２と、処理部１０４と、を含むことができる。

取得部１０２は、配信者の身体に関するデータを取得する１又はそれ以上の第１のセンサ１０２ａ（例えばカメラ１０２ｃ）と、配信者により発せられた発話に関する音声データを取得する１又はそれ以上の第２のセンサ１０２ｂ（例えばマイク１０２ｄ）と、を含むことができる。

第１のセンサ１０２ａは、例えば、配信者の顔等に向かって赤外線を放射する図示しない放射部、及び、配信者の顔等に反射した赤外線を検出する図示しない赤外線カメラを含むことができる。或いはまた、第１のセンサ１０２ａは、配信者の顔等を撮影する図示しないＲＧＢカメラ、及び、このカメラにより撮影された画像を処理する画像処理部を含むことができる。

第２のセンサ１０２ｂは、例えば、配信者により発せられた音声を検出して音声データ（音声信号）として出力することができる。

処理部１０４は、第１のセンサ１０２ａにより検出されたデータを用いて、所定の時点（例えば検出を開始した初期時点）からの配信者の表情の変化、及び、配信者の相対位置の変化を検出することができる。これにより、処理部１０４は、タイムスタンプに対応付けて配信者の顔等の変化を示す動作データ（モーションデータ）を生成することができる。かかる動作データは、例えば、タイムスタンプにより識別される単位時間ごとに、配信者の顔等のいずれの部分がどのように変化したのか、及び、配信者の相対位置がどのように変化したのかを示すデータ等を含み得る。

例えば、動作データは、モーションキャプチャシステムを用いて取得され得る。本開示による利益を有する当業者により容易に理解されるように、本件出願において開示される装置及び方法とともに使用され得る幾つかの例の適切なモーションキャプチャシステムは、パッシブマーカ若しくはアクティブマーカを用いた又はマーカを用いない光学式モーションキャプチャシステムと、慣性式及び磁気式の非光学式システムとを含む。モーションデータは、モーションデータを動画又は他のイメージデータに変換するコンピュータに結合された、（ＣＣＤ（電荷結合デバイス）又はＣＭＯＳ（相補型金属酸化膜半導体）イメージセンサといったような）イメージキャプチャ装置を用いて取得され得る。

さらに、処理部１０４は、第２のセンサ１０２ｂにより検出された音声データ（音声信号）をタイムスタンプに対応付けて記録することにより、音声データを生成することができる。例えば、処理部１０４は、この音声データ（音声信号）をＭＰＥＧファイル等の音声ファイルとして生成することができる。

このように、処理部１０４は、音声データ及び動作データを少なくとも含む構成データを生成することができる。

また、処理部１０４は、アバターデータを構成データに含めることもできる。アバターデータは、配信者のアバターを描画するための３次元モデルデータである。アバターデータは、アバター本体を描画するためのデータ、及び、アバター本体に適用されるテクスチャデータ等を含み得る。アバター本体を描画するためのデータには、ポリゴンデータ及びアバターの動作を表現するための骨格（ボーン）データ等が含まれ得る。テクスチャデータには、アバターに対して適用される複数のパーツデータ（例えば、目、眉、鼻、耳及び服等）が含まれ得る。

（２）特徴量抽出部１１０
特徴量抽出部１１０は、構成データ生成部１００により生成された音声信号（第１音声信号又は第２音声信号）に対して、例えば短時間フレーム分析を施すことにより、各時間フレームにおける各種の特徴量（音声特徴量）を抽出することができる。一実施形態では、特徴量抽出部１１０は、特徴量として、（i）声の高さを示す基本周波数、（ii）声道の共鳴によって強調される周波数成分（例えば、第１フォルマントの周波数）、（iii）メル周波数ケプストラム係数（ＭＦＣＣ）、（iv）ΔＭＦＣＣ（単位時間当たりのＭＦＣＣの変化量）、（v）再生時間、及び、（vi）信号対雑音比（ＳＮ比）等をこれらに限定することなく含む様々な特徴料、のうちの少なくとも１つを抽出することができる。これらの特徴量は、任意の周知の技術により取得可能である。例えば、これらの特徴量は、「ｏｐｅｎＳＭＩＬＥ」といった周知のライブラリを利用することによっても取得可能である。

（３）変換器取得部１１２
変換器取得部１１２は、特徴量抽出部１１０により抽出された特徴量を用いて、ユーザにより用いられるべき１又はそれ以上の変換器を取得することができる。ここで、「変換器」とは、ユーザの発話に関する音声信号であって変換対象である音声信号から抽出される少なくとも１つの特徴量をどのように変換するかを示すパラメータ（例えば、基本周波数をどの程度増加又は低下させるかを示すパラメータ、第１フォルマントの周波数をいずれの周波数の範囲に移動させるかを示すパラメータ等）有するものである。

（４）特徴量変換部１１４
特徴量変換部１１４は、ユーザの発話に関する音声信号から抽出した少なくとも１つの特徴量を、変換器取得部１１２により取得された変換器（音声変換アルゴリズム及び音声変換に用いられるパラメータのセット）を用いて変換し、変換された少なくとも１つの特徴量を、音声合成部１１６に出力することができる。

（５）音声合成部１１６
音声合成部１１６は、特徴量変換部１１４から入力した、変換された少なくとも１つの特徴量を用いて音声合成処理を行うことにより、ユーザの発話に関する音声信号（第１音声信号）が加工された音声信号（第２音声信号）を生成することができる。例えば、音声合成部１１６は、変換された少なくとも１つの特徴量から、ボコーダを用いることにより、ユーザの音声が加工された音声信号（変換後の音声信号）を生成することができる。
さらに、音声合成部１１６は、第１音声信号又は第２音声信号に対して少なくとも１つのポストエフェクト処理を行うことにより、ユーザが居る場所の音響を変化させた音声信号（第３音声信号）を生成することもできる。

（６）解析部１１８
解析部１１８は、構成データ生成部１００により生成された音声信号（音声データ）を解析することにより、少なくとも１つの解析結果を示す解析データを生成することができる。
まず第１に、解析部１１８は、音声信号の信号対雑音比（ＳＮ比）を示す第１解析データを生成することができる。音声信号の信号対雑音比を計算する手法としては、様々な周知の手法のうちのいずれかを用いることが可能である。
解析部１１８は、構成データ生成部１００が、ユーザの発話に関する音声信号を或る期間（例えば第１期間）において連続的に取得したときに、この第１期間に含まれる複数の単位時間（各単位時間は、固定又は可変の任意の時間であり、例えば１秒）と、これら複数の単位時間の各々に対応する音声信号の信号対雑音比と、を対応付けた第１解析データを生成することができる。

第２に、解析部１１８は、音声信号のラウドネスを示す第２解析データを生成することができる。音声信号のラウドネスを計算する手法としては、様々な周知の手法のうちのいずれかを用いることが可能である。
解析部１１８は、構成データ生成部１００が、ユーザの発話に関する音声信号を或る期間（例えば第２期間）において連続的に取得したときに、この第２期間に含まれる複数の単位時間（各単位時間は、固定又は可変の任意の時間であり、例えば１秒）と、これら複数の単位時間の各々に対応する音声信号のラウドネスと、を対応付けた第２解析データを生成することができる。

第３に、解析部１１８は、構成データ生成部１００により生成された音声信号（第１音声信号）と、学習モデルと、を用いて、解析を行うことができる。
具体的には、まず、学習モデルが予め用意され記憶されている。この学習モデルは、例えば、入力層と、複数の中間層と、出力層と、を含むモデル（例えばＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ））であり、複数セットの教師データを用いて学習させることにより、生成され得る。
上記複数セットの教師データの各々は、例えば１０秒間の第１音声信号から生成された複数の特徴量、例えば、ＭＦＣＣ、ΔＭＦＣＣ、再生時間及びＳＮ比を含む複数の特徴量と、この第１音声信号により変換された第２音声信号（この第２音声信号の内容を聴き取れなかったときにはこの第２音声信号の元となった第１音声信号）を聴いてこの第２音声信号（第１音声信号）にノイズが生じている少なくとも１つの要因として評価者（人間）により評価された要因を示す要因データと、を含むことができる。
図４は、図１に示す通信システムにおいて用いられる学習モデルに使用される教師データの具体例を示す表である。
評価者が、或るユーザの第２音声信号（この第２音声信号の内容を聴き取れなかったときにはこの第２音声信号の元になった第１音声信号）を聴いて、図４の左列に例示される複数の要因のうち、その第２音声信号にノイズが生じている少なくとも１つの要因を選択する（その要因に対応するラベルを付す）ことができる。そのように選択された少なくとも１つの要因を示す要因データが、生成される。このような各セットが第１音声信号から取得された複数の特徴量と要因データとを含む、複数セットの教師データを用いて、学習モデル（ＳＶＭ）が学習を行うことができる。これにより、学習モデルが生成され得る。
解析部１１８は、このような学習モデルに対して、特徴量抽出部１１０（２１０）により第１音声信号を用いて生成された複数の特徴量を入力することにより、その第１音声信号にノイズが生じている少なくとも１つの要因を示す要因データを取得することができる。なお、解析部１１８は、このような学習モデルに対して、特徴量抽出部１１０（２１０）により第２音声信号を用いて生成された複数の特徴量を入力することによっても、その第１音声信号にノイズが生じている少なくとも１つの要因を示す要因データを生成することができる。

少なくとも１つの要因データは、例えば、（Ａ）ユーザの居る環境、（Ｂ）外界の音、及び、（Ｃ）ユーザの発話に関するデータであり得る。
（Ａ）については、図４に示した例に着目すると、「屋外で収録」、「反響するような空間で収録」等が該当し得る。
（Ｂ）については、「空調などの音響が混じっている」、「他者の会話が混じっている」、「音楽が混じっている」、「テレビなどの音が混じっている」等が該当する。
（Ｃ）については、「マイクに息が当たっている」、「マイクなどに触れている」、「発話が途切れ途切れ」、「ボソボソ声」、「発話品質が低い」、「１秒未満・発話なし」等が該当し得る。

第４に、解析部１１８は、ユーザの発話に関する少なくとも１つのアドバイスを示すアドバイスデータを生成することができる。例えば、解析部１１８は、図４に例示されるような、各要因データと、その要因データに関連するアドバイスデータと、を対応付けたテーブルを記憶部１２０から取得することができる。
解析部１１８は、上述した要因データが、例えば「マイクに息が当たっている」、「空調などの音響が混じっている」及び「屋外で収録」を示す場合には、このようなテーブルを参照することにより、アドバイスデータとして、「発声する方向を少し変えてみましょう」、「空調を切りましょう」及び「屋内で話しましょう」を示すアドバイスデータを取得することができる。

或いはまた、解析部１１８は、アドバイスデータを、要因データと同様に、複数セットの教師データを用いて学習された学習モデルから生成することも可能である。上記複数セットの教師データの各々は、例えば１０秒間の第１音声信号から生成された複数の特徴量、例えば、ＭＦＣＣ、ΔＭＦＣＣ、再生時間及びＳＮ比を含む複数の特徴量と、この第１音声信号により変換された第２音声信号（この第２音声信号の内容を聴き取れなかったときにはこの第２音声信号の元となった第１音声信号）を聴いてこの第２音声信号（第１音声信号）にノイズが生じている少なくとも１つの要因に対するアドバイスとして評価者（人間）により付与されたアドバイスを示すアドバイスデータと、を含むことができる。
評価者が、或るユーザの第２音声信号（必要に応じてこの第２音声信号の元になった第１音声信号）を聴いて、図４の右列に例示される複数のアドバイスのうち提案すべき少なくとも１つのアドバイスを選択することができる。そのように選択された少なくとも１つのアドバイスを示すアドバイスデータが、生成される。このような各セットが第１音声信号から取得された複数の特徴量とアドバイスデータとを含む複数セットの教師データを用いて、学習モデル（ＳＶＭ）が学習を行うことができる。これにより、学習モデルが生成され得る。

解析部１１８は、このような学習モデルに対して、特徴量抽出部１１０（２１０）により第１音声信号を用いて生成された複数の特徴量を入力することにより、ユーザの発話に関する少なくとも１つのアドバイスを示すアドバイスデータを生成することができる。なお、解析部１１８は、このような学習モデルに対して、特徴量抽出部１１０（２１０）により第２音声信号を用いて生成された複数の特徴量を入力することによっても、ユーザの発話に関する少なくとも１つのアドバイスを示すアドバイスデータを生成することができる。

少なくとも１つのアドバイスデータは、例えば、（ａ）ユーザの抑揚に関するアドバイス」、（ｂ）ユーザの発話の長さに関するアドバイス、（ｃ）ユーザの居る環境に関するアドバイス、（ｄ）ノイズの要因に関するアドバイス、に関するデータであり得る。
（ａ）については、図４に示した例に着目すると、「もう少し明確に発声しましょう」、「もう少し大きな声で」等が該当し得る。
（ｂ）については、「もう少し長く話してみましょう」、「もう少し大きな声で」等が該当し得る。
（ｃ）については、「屋内で話しましょう」、「別の部屋に行きましょう」等が該当し得る。
（ｄ）については、「発声する方向を少し変えてみましょう」、「マイクから少し離れてみましょう」、「静かな部屋に行きましょう」、「音楽を切りましょう」、「空調を切りましょう」等が該当し得る。

（７）記憶部１２０
記憶部１２０は、端末装置２０の動作に用いられる様々な情報（データ）を記憶することができる。例えば、記憶部１２０は、音声／動画配信用のアプリケーション、音声／動画視聴用のアプリケーション、ボイスチェンジャー機能を有するアプリケーション、及び／又は、ウェブブラウザ等を含む様々なアプリケーションと、これらのアプリケーションにより用いられる及び／又は生成される様々な情報・信号・データ等と、を、これらに限定することなく記憶することができる。

（８）表示部１２２
表示部１２２は、音声／動画配信用のアプリケーション、音声／動画視聴用のアプリケーション、ボイスチェンジャー機能を有するアプリケーション、及び／又は、ウェブブラウザ等を含む様々なアプリケーションの実行により生成される様々な情報（データ）を、タッチパネル及びディスプレイ等を介して、ユーザに表示することができる。

（９）通信部１２４
通信部１２４は、ユーザの発話に関する音声信号に用いるべき変換器を取得するに際して用いられる情報（データ）及び／又は生成される情報（データ）、ユーザの発話に関する音声信号に対して、取得した変換器を用いて生成（加工）された音声信号等、を含む様々な情報を、通信網１０を介してサーバ装置３０及び／又は他の端末装置２０等との間で送受信することができる。

（１０）音声出力部１２６
音声出力部１２６は、マイク１０２ｄにより取得された音声信号（第１音声信号）、音声合成部１１６により生成された音声信号（第２音声信号又は第３音声信号）を、音声としてユーザに提示することができる。

（１１）動画生成部１２８
動画生成部１２８は、当該端末装置２０が配信者の端末装置２０として動作する場合には、当該端末装置１０の構成データ生成部１００により生成された構成データを用いて動画を生成することができる。一方、動画生成部１２８は、当該端末装置２０が視聴者の端末装置２０として動作する場合には、配信者の端末装置２０により送信され、当該端末装置２０の通信部１２４により受信された構成データを用いて動画を生成することができる。

具体的には、動画生成部１２８は、構成データに含まれた配信者のアバターデータに対して、この構成データに含まれた動作データ（モーションデータ）を適用してレンダリングを実行することができる。これにより、動画生成部１２８は、配信者の動作に同期して動作する配信者のアバターのアニメーションを含む動画を生成することができる。ここでいうレンダリングは、当業者に周知である任意の技術を含むことができ、例えば、透視投影及び隠面消去（ラスタ化）等を含む描画処理であり得る。かかる描画処理は、また、シェーディング（陰影処理）及び／又はテクスチャマッピング等の処理を含むことができる。

さらに、動画生成部１２８は、このように生成された動画に対して、構成データに含まれた音声信号（後述する第２音声信号又は第３音声信号であって例えばＭＰＥＧファイル）を組み合わせることができる。具体的には、動画生成部１２８は、動作データに含まれたタイムスタンプと音声データに含まれたスタンプとが一致（又は略一致）するように、動画に対して音声信号を組み込むことができる。これにより、動画において、配信者の動作に従って動作する配信者のアバターのアニメーションと、音声信号に基づいて再生される配信者の発話とを、同期又は実質的に同期させることができる。

なお、動画生成部１２８は、配信者の動作に関する動作データに基づいてこの配信者のアバターのアニメーションを含む動画を生成するために、他の任意の周知な技術を利用することも可能である。かかる周知技術には、下記URLにより特定されるウェブサイトに記載された”Blend Shapes”と称する技術が含まれる。
https://developer.apple.com/documentation/arkit/arfaceanchor/2928251-blendshapes

動画生成部１２８は、この技術を用いる場合には、配信者の上半身（顔等）の複数の特徴点のうち、配信者の動作に対応する１以上の特徴点の各々のパラメータを調整することができる。これにより、動画生成部１２８は、配信者の動作に追従したアバターの動画を生成することができる。

上述した各部の動作は、ユーザの端末装置２０にインストールされた上記所定のアプリケーションがこの端末装置２０により実行されることにより、この端末装置２０により実行され得る。

３－２．サーバ装置３０の機能
サーバ装置３０の機能の具体例について同じく図３を参照して説明する。サーバ装置３０の機能としては、例えば、上述した端末装置２０の機能の少なくとも一部を用いることが可能である。したがって、サーバ装置３０が有する構成要素に対する参照符号は、図３において括弧内に示されている。すなわち、サーバ装置３０は、構成データ生成部２００と、特徴量抽出部２１０と、変換器取得部２１２と、特徴量変換部２１４と、音声合成部２１６と、解析部２１８と、記憶部２２０と、表示部２２２と、通信部２２４と、を含むことができる。構成データ生成部２００、特徴量抽出部２１０、変換器取得部２１２、特徴量変換部２１４、音声合成部２１６、解析部２１８、記憶部２２０、表示部２２２、通信部２２４、音声出力部２２６及び動画生成部２２８は、それぞれ、端末装置２０が有する、構成データ生成部１００、特徴量抽出部１１０、変換器取得部１１２、特徴量変換部１１４、音声合成部１１６、解析部１１８、記憶部１２０、表示部１２２、通信部１２４、音声出力部１２６及び動画生成部１２８と実質的に同一とすることができる。

３－３．スタジオユニット４０の機能
スタジオユニット４０は、図３に示した端末装置２０又はサーバ装置３０と同様の構成を有することにより、端末装置２０又はサーバ装置３０と同様の動作を行うことが可能である。

４．通信システム１において用いられる音声変換プリセットの機能について
次に、通信システム１において用いられる音声変換プリセットの機能について説明する。通信システム１では、特徴量の具体例として、（i）基本周波数、及び（ii）第１フォルマントの周波数が用いられる。

人の声は、基本周波数、周波数特性及び音圧という３つの要素により特徴付けられるものである。基本周波数は、人の声の高さを特徴付けるものであり、周波数特性は、人の声の音色を特徴付けるものであり、音圧は、人の声の大きさを特徴付けるものである。

人の声道は、共鳴によって特定の周波数成分を強調する一種のフィルタであるといえる。声道の共鳴によって強調される周波数成分がフォルマントの周波数である。フォルマントの周波数は、無数に存在するが、周波数の低いものから、順次、第１フォルマントの周波数、第２フォルマントの周波数、第３フォルマントの周波数等のように称される。図５（横軸及び縦軸にそれぞれ周波数（［Ｈｚ］）及び音圧・振幅（［ｄＢ］）が示されている）に例示されるように、周波数スペクトルにおいては、声の高さを示す基本周波数の後に、第１フォルマントの周波数、第２フォルマントの周波数等が順次続く。

通信システム１において用意される複数の音声変換プリセットの各々は、ユーザの発話に関する音声信号から抽出された基本周波数及び第１フォルマントの周波数を、その音声変換プリセットにより定められた変化量に応じて変換するものである。

具体的には、図６Ａ、図６Ｂ及び図６Ｃに示すように、基本周波数（ｐｉｔｃｈ）（のオクターブ表現）を示す第１軸（横軸）と第１フォルマント（１ｓｔｆｏｒｍａｎｔ）の周波数（のオクターブ表現）を示す第２軸（縦軸）とにより定められる２次元座標系（以下「ｐｆ平面」と称する）を考える。

例えば、基本周波数ｆ_P１及び第１フォルマントの周波数ｆ_F１を有する標準的な男性の声が、ｐｆ平面において「標準男性」（０,０）として配置される。

一般的に、女性の基本周波数は、男性の基本周波数を１２ｐｉｔｃｈ増加させることにより得られることが分かっている。但し、８ｐｉｔｃｈが１物理的オクターブに相当するものとする。また、一般的には、基本周波数ｐと第１フォルマントｆとの間には、ｆ＝ｐ／３という関係が成り立ち得る。したがって、標準的な女性の声が、ｐｆ平面において「標準女性」（１２,４）として仮に配置される。これは、基本周波数ｆ_P２及び第１フォルマントの周波数ｆ_F２を有する標準的な女性の声が、ｐｆ平面において「標準女性」（１２,４）として配置されることを意味する。
さらに、中性の声が、標準男性（０,０）と標準女性（１２,４）との中点において「中性（６,２）」として配置される。

図６Ａには、男性の声を変換する音声変換プリセットの例（Ａ_Ｍ、Ｂ_Ｍ及びＣ_Ｍ）が示され、図６Ｂには、女性の声を変換する音声変換プリセット（Ａ_Ｆ、Ｂ_Ｆ及びＣ_Ｆ）の例が示されている。図６Ｃには、中性の声を変換する音声変換プリセット（Ａ_Ｎ、Ｂ_Ｎ及びＣ_Ｎ）の例が示されている。なお、Ａ、Ｂ及びＣは、それぞれ、キャラクターＡ、Ｂ及びＣの声を目標として入力音声信号を変換する音声変換プリセットの名称を示し、添字Ｍは、男性用の入力音声信号を変換するプリセットを示し、添字Ｆは、女性用の入力音声信号を変換するプリセットを示し、添字Ｎは、中性用の入力音声信号を変換するプリセットを示すものである。

まず、図６Ａを参照すると、各音声変換プリセットは、標準男性の基本周波数（男性用の第１基準値）（＝０）を基準とした基本周波数の変化量を定め、標準男性の第１フォルマントの周波数（男性用の第２基準値）（＝０）を基準とした第１フォルマントの周波数の変化量を定める。例えば、音声変換プリセットＡ_Ｍ（１７,６）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（０,０）に配置されると仮定して、その入力音声信号の基本周波数を１７ｐｉｔｃｈ増加させ、その入力音声信号の第１フォルマントの周波数を６ｆｏｒｍａｎｔ増加させる。

同様に、音声変換プリセットＢ_Ｍ（９,３）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（０,０）に配置されると仮定して、その入力音声信号の基本周波数を９ｐｉｔｃｈ増加させ、その入力音声信号の第１フォルマントの周波数を３ｆｏｒｍａｎｔ増加させる。さらに同様に、音声変換プリセットＣ_Ｍ（－３,－１）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（０,０）に配置されると仮定して、その入力音声信号の基本周波数を３ｐｉｔｃｈ減少させ、その入力音声信号の第１フォルマントの周波数を１ｆｏｒｍａｎｔ減少させる。

次に、図６Ｂを参照すると、各音声変換プリセットは、標準女性の基本周波数（女性用の第１基準値）（＝１２）を基準とした基本周波数の変化量を定め、標準女性の第１フォルマントの周波数（女性用の第２基準値）（＝４）を基準とした第１フォルマントの周波数の変化量を定める。例えば、音声変換プリセットＡ_Ｆ（５,３）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（１２,４）に配置されると仮定して、その入力音声信号の基本周波数を５ｐｉｔｃｈ増加させ、その入力音声信号の第１フォルマントの周波数を３ｆｏｒｍａｎｔ増加させる。

同様に、音声変換プリセットＢ_Ｆ（－３,０）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（１２,４）に配置されると仮定して、その入力音声信号の基本周波数を３ｐｉｔｃｈ減少させ、その入力音声信号の第１フォルマントの周波数を変化させない（そのまま維持する）。さらに同様に、音声変換プリセットＣ_Ｆ（－１５,－４）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（１２,４）に配置されると仮定して、その入力音声信号の基本周波数を１５ｐｉｔｃｈ減少させ、その入力音声信号の第１フォルマントの周波数を４ｆｏｒｍａｎｔ減少させる。

次に、図６Ｃを参照すると、各音声変換プリセットは、中性の基本周波数（中性用の第１基準値）（＝６）を基準とした基本周波数の変化量を定め、中性の第１フォルマントの周波数（中性用の第２基準値）（＝２）を基準とした第１フォルマントの周波数の変化量を定める。例えば、音声変換プリセットＡ_Ｎ（１１,２.５）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（６,２）に配置されると仮定して、その入力音声信号の基本周波数を１１ｐｉｔｃｈ増加させ、その入力音声信号の第１フォルマントの周波数を２ｆｏｒｍａｎｔ増加させる。

同様に、音声変換プリセットＢ_Ｎ（２.５,３）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（６,２）に配置されると仮定して、その入力音声信号の基本周波数を２.５ｐｉｔｃｈ増加させ、その入力音声信号の第１フォルマントの周波数を３ｆｏｒｍａｎｔ増加させる。さらに同様に、音声変換プリセットＣ_Ｎ（－７,－４）は、入力音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（６,２）に配置されると仮定して、その入力音声信号の基本周波数を７ｐｉｔｃｈ減少させ、その入力音声信号の第１フォルマントの周波数を４ｆｏｒｍａｎｔ減少させる。

なお、ここでは、標準的な男性の声が、基本周波数ｆ_P１及び第１フォルマントの周波数ｆ_F１を有するものとして、ｐｆ平面上において（０,０）に配置される場合について説明したが、複数の男性の基本周波数及び第１フォルマントの周波数を収集し、これらの基本周波数の平均値（例えばｆ_PAVE）及びこれらの第１フォルマントの周波数の平均値（例えばｆ_FAVE）が、ｐｆ平面上において（０,０）に配置されるようにしてもよい。このように、男性用の第１基準値は、複数の男性ユーザから取得された基本周波数の平均値に基づいて設定され得るものであり、男性用の第２基準値は、複数の男性ユーザから取得された第１フォルマントの周波数の平均値に基づいて設定され得る。

同様に、ここでは、標準的な女性の声が、ｐｆ平面上において（１２,４）に配置される場合について説明したが、複数の女性の基本周波数及び第１フォルマントの周波数を収集し、これらの基本周波数の平均値（例えばｆ_PAVE2）及びこれらの第１フォルマントの周波数の平均値（例えばｆ_FAVE2）が、ｐｆ平面上において（１２,４）に配置されるようにしてもよい。このように、女性用の第１基準値は、複数の女性ユーザから取得された基本周波数の平均値に基づいて設定され得るものであり、男性用の第２基準値は、複数の女性ユーザから取得された第１フォルマントの周波数の平均値に基づいて設定され得る。

５．通信システム１の動作
次に、上述した構成を有する通信システム１の動作の具体例について、図７Ａ及び図７Ｂを参照して説明する。図７Ａ及び図７Ｂは、図１に示した通信システム１において行われる動作の一例を示すフロー図である。ここでは、特徴量として、（i）基本周波数、（ii）第１フォルマントの周波数を用いる場合に着目する。

まず、ステップ（以下「ＳＴ」という。）３００において、配信者（ここでは配信者Ａ）の端末装置２０Ａが、上記特定のアプリケーション（例えば、ウェブブラウザ、動画配信用アプリケーション等）を起動して実行することができる。端末装置２０Ａは、配信者Ａに対して、配信者Ａの性別（男性、女性又は中性）、及び、用意された複数のキャラクター（に対応する音声変換プリセット）の中から配信者Ａが希望するキャラクター（に対応する音声変換プリセット）を指定するように、表示部１２２に表示されたユーザインタフェイスを介して要求することができる。端末装置２０Ａは、配信者Ａにより選択された性別及び音声変換プリセットを用いて、配信者Ａの発話に関する第１音声信号を変換した第２音声信号を生成することができる。端末装置２０Ａは、このような第２音声信号を含む構成データを、サーバ装置３０を介して各視聴者の端末装置２０に配信することができる。

端末装置２０Ａは、このような構成データを実際に配信する前に、図８Ａに例示するように、各視聴者の端末装置２０に向けて配信される自己の発話に関する音声信号を調整するための画面（ボイス調整画面）４００を表示することができる。

ＳＴ３０２において、配信者Ａが発話をしない状態（無言の状態）において、端末装置２０Ａは、サンプル信号としての第１音声信号を取得することができる。端末装置２０Ａは、配信者Ａの発話に関する第１音声信号を、例えば第１期間（例えば３０秒）において連続的に取得することができる。端末装置２０Ａ（の解析部１１８）は、このように連続的に第１音声信号を取得することと並行して、第１期間に含まれる複数の単位時間（例えば各単位時間は１秒）の各々に対応する第１音声信号の信号対雑音比（ＳＮ比）を順次計算することができる。これにより、端末装置２０Ａは、図８Ａに示すように、画面４００において、第１期間にわたって各単位時間に対応する第１音声信号のＳＮ比を示すグラフ４０２を表示することができる。このグラフ４０２では、横軸が時間を示し、縦軸が第１音声信号のＳＮ比を示す。このように、端末装置２０Ａは、配信者Ａの発話に関する第１音声信号のＳＮ比を、配信者Ａが発話することと並行して（すなわち、略リアルタイム方式により）計算して表示することができる。なお、端末装置２０Ａは、第１期間の経過後に、第１音声信号のＳＮ比を（非リアルタイム方式により）表示することも可能である。

これにより、配信者Ａは、無言の状態で画面４００のグラフ４０２に注目することにより、第１音声信号（配信者Ａの居る環境に関する音声信号、すなわち、配信者Ａの無言状態における発話に関する音声信号）のＳＮ比を認識することができる。例えば、グラフ４０２に示されＳＮ比が悪い場合（ＳＮ比が例えば４０～６０ｄＢの範囲にない場合）には、配信者Ａは、雑音の発生源となり得るエアコン、扇風機、テレビ等の電源を切ることにより、第１音声信号のＳＮ比を向上させることができる。

なお、別の実施形態では、端末装置２０Ａは、取得した第１音声信号をサーバ装置３０に送信し、サーバ装置３０により計算されたかかる第１音声信号のＳＮ比を受け取って表示することも可能である。

次に、ＳＴ３０４において、配信者Ａが発話をしている状態において、端末装置２０Ａは、サンプル信号としての第１音声信号を取得することができる。端末装置２０Ａは、配信者Ａの発話に関する第１音声信号を、例えば第２期間（例えば３０秒）において連続的に取得することができる。端末装置２０Ａ（の解析部１１８）は、このように連続的に第１音声信号を取得することと並行して、第２期間に含まれる複数の単位時間（例えば各単位時間は１秒）の各々に対応する第１音声信号のラウドネスを順次計算することができる。これにより、端末装置２０Ａは、図８Ｂに示すように、画面４１０において、第２期間にわたって各単位時間に対応する第１音声信号のラウドネスを示す図形４１２を表示することができる。この図形４１２では、ラウドネスが０の場合には、表示されたマイク全体が第１の色により着色され、ラウドネスが大きくなるに伴って、表示されたマイクの下端からそのラウドネスの大きさに比例した高さまでの部分が第２の色により着色される。すなわち、ラウドネスが増減するに伴って、表示されたマイクの第１の色と第２の色との境界が上下に移動する。このように、端末装置２０Ａは、配信者Ａの発話に関する第１音声信号のラウドネスを、配信者Ａが発話することと並行して（すなわち、略リアルタイム方式により）計算して表示することができる。なお、端末装置２０Ａは、第２期間の経過後に、第１音声信号のラウドネスを（非リアルタイム方式により）表示することも可能である。

これにより、配信者Ａは、発話しながら画面４００のグラフ４０２に注目することにより、第１音声信号のＳＮ比を認識することができる。例えば、グラフ４０２に示されＳＮ比が悪い場合（ＳＮ比が例えば４０～６０ｄＢの範囲にない場合）には、配信者Ａは、雑音の発生源となり得るエアコン、扇風機、テレビ等の電源を切ることにより、第１音声信号のＳＮ比を向上させることができる。

なお、別の実施形態では、端末装置２０Ａは、取得した第１音声信号をサーバ装置３０に送信し、サーバ装置３０により計算されたかかる第１音声信号のラウドネスを受け取って表示することも可能である。

次に、ＳＴ３０６において、配信者Ａが発話をしている状態において、端末装置２０Ａは、サンプル信号としての第１音声信号を取得することができる。端末装置２０Ａは、この第１音声信号に対する信号処理を行うことにより、例えばこの第１音声信号に対して上述した「ｏｐｅｎＳＭＩＬＥ」等のライブラリにより実行される信号処理を行うことにより、ＭＦＣＣ、ΔＭＦＣＣ、再生時間及びＳＮ比等の複数の特徴量を取得することができる。
なお、端末装置２０Ａではなく、サーバ装置３０がこのような第１音声信号を用いて複数の特徴量を取得することも可能である。これを可能とするために、端末装置２０Ａは、第１音声信号をサーバ装置３０に送信して、サーバ装置３０から複数の特徴量を受信することができる。

さらに、ＳＴ３０６において、オプションとして、端末装置２０Ａは、ＳＴ３００において配信者Ａにより選択された性別及び音声変換プリセットを用いて、第１音声信号を変換して第２音声信号を生成してもよい。例えば、配信者Ａが、中性を選択し、図６Ｃに例示した音声変換プリセットＢ_Ｎ（２.５,３）を選択した場合を考える。

この場合、まず、端末装置２０Ａ（の特徴量抽出部１１０）が、各時間フレームについて、第１音声信号から各種の特徴量（例えば、基本周波数及び第１フォルマントの周波数）を抽出することができる。具体的には、端末装置２０Ａは、第１音声信号に対して、既知の信号処理を実行することにより基本周波数を抽出することができる。

既知の信号処理の第１の手法として、ゼロ交差法を用いた手法を利用することができる。この手法では、第１音声信号が、例えばＭ個のフィルタに入力される。これらのフィルタの各々は、帯域通過フィルタとして機能し、入力された第１音声信号のうちそのフィルタに固有の通過帯域に対応する周波数成分のみを出力することができる。次に、Ｍ個の計算部が、それぞれ、上記Ｍ個のフィルタにより出力された信号を用いて、ゼロ交差法に基づいて基本周波数らしさを計算することができる。最後に、選択部が、上記Ｍ個の計算部により計算された基本周波数らしさのうち、最も信頼できるものを選択し、このように選択した基本周波数らしさに対応する周波数を第１音声信号の基本周波数として出力することができる。

既知の信号処理の第２の手法として、第１音声信号に対して、例えば、以下の信号処理を施すことにより、基本周波数を抽出することができる。
・プリエンファシスフィルタにより波形の高域成分を強調
・窓関数を掛けた後に高速フーリエ逆変換（ＦＦＴ）を行い振幅スペクトルを取得
・振幅スペクトルにメルフィルタバンクを掛けて圧縮
・上記圧縮した数値列を信号とみなして離散コサイン変換を実行
なお、一実施形態では、端末装置２０Ａは、例えば、音声分析変換合成システム「Ｗｏｒｌｄ」（http://www.kki.yamanashi.ac.jp/~mmorise/world/index.html）においてオープンソース実装されているＨａｒｖｅｓｔ及びＤＩＯ等のアルゴリズムを用いること等により、基本周波数を算出することができる。

他方、端末装置２０Ａは、第１音声信号を用いて、第１フォルマントの周波数を取得することができる。具体的には、端末装置２０Ａは、配信者Ａについて得られた第１音声信号に対して任意の既知の信号処理を実行することにより第１フォルマントの周波数を抽出することができる。

上述した第１の手法（ゼロ交差法を用いた手法）を用いる場合には、上述したＭ個のフィルタの各々が、そのフィルタに固有の通過帯域として、第１フォルマントの周波数に対応する通過帯域を用い、上述したＭ個の計算部が、それぞれ、上述したＭ個のフィルタにより出力された信号を用いて、ゼロ交差法に基づいて第１フォルマントの周波数らしさを計算することができる。これにより、選択部が、上記Ｍ個の計算部により計算された第１フォルマントの周波数らしさのうち、最も信頼できるものを選択し、このように選択した第１フォルマントの周波数らしさに対応する周波数を第１音声信号の第１フォルマントの周波数として出力することができる。

また、上述した第２の手法を用いる場合には、端末装置２０Ａは、第１音声信号に対して、例えば、以下の信号処理を施すことにより、基本周波数に加えて第１フォルマントの周波数をも抽出することができる。
・プリエンファシスフィルタにより波形の高域成分を強調
・窓関数を掛けた後に高速フーリエ逆変換（ＦＦＴ）を行い振幅スペクトルを取得
・振幅スペクトルにメルフィルタバンクを掛けて圧縮
・上記圧縮した数値列を信号とみなして離散コサイン変換を実行
なお、この場合にも、端末装置２０は、プログラミング言語であるＰｙｔｈｏｎにおいて用意されたライブラリである「ｏｐｅｎＳＭＩＬＥ」を用いること等により、基本周波数に加えて第１フォルマントの周波数をも算出することができる。

次に、端末装置２０Ａ（の特徴量変換部１１４）が、このように抽出された特徴量を、音声変換プリセットＢ_Ｎ（２.５,３）を用いて変換することができる。ここでは、端末装置２０Ａは、第１音声信号の基本周波数及び第１フォルマントの周波数がｐｆ平面上において（６,２）に配置されると仮定して、その第１音声信号から上記のように抽出された基本周波数を２.５ｐｉｔｃｈ増加させ、その第１音声信号から上記のように抽出された第１フォルマントの周波数を３ｆｏｒｍａｎｔ増加させる。次に、端末装置２０（の音声合成部１１６）が、上記のように変換された特徴量（基本周波数及び第１フォルマントの周波数）を用いて音声合成処理を行うことにより、配信者Ａの音声が加工された第２音声信号を生成することができる。

なお、端末装置２０Ａではなく、サーバ装置３０がこのような第２音声信号を生成することも可能である。これを可能とするために、端末装置２０Ａは、ＳＴ３００において配信者Ａにより選択された性別及び音声変換プリセット、並びに、取得された第１音声信号を、サーバ装置３０に送信することができる。これにより、サーバ装置３０が、配信者Ａにより選択された性別及び音声変換プリセット、並びに、取得された第１音声信号を用いて、上記のとおりに第２音声信号を生成することができる。
この後、端末装置２０Ａは、生成された第２音声信号をこのタイミングにおいて又は後の任意のタイミングにおいて音声出力部１２６に出力させることができる。

次に、ＳＴ３０８において、端末装置２０Ａ（の解析部１１８）は、第１音声信号を用いてＳＴ３０６において取得された複数の特徴量と、学習モデルと、を用いて、解析を行うことができる。解析の具体例については、上記「３－１．２（６）」において説明したとおりである。これにより、端末装置２０Ａは、第１音声信号にノイズが生じている少なくとも１つの要因を示す要因データ、及び／又は、ユーザの発話に関する少なくとも１つのアドバイスを示すアドバイスデータを生成することができる。

なお、ＳＴ３０８において、端末装置２０Ａではなく、サーバ装置３０が、要因データ及び／又はアドバイスデータを生成して、端末装置２０Ａに送信することができる。これを可能にするためには、端末装置２０Ａは、サーバ装置３０に対して、第１音声信号から生成された複数の特徴量を送信することができる。これにより、サーバ装置３０は、端末装置２０Ａから受信した複数の特徴量と、記憶部２２０から読み出した学習モデルと、を用いて、上記のとおり、要因データ及び／又はアドバイスデータを生成することができる。

次に、ＳＴ３１０において、端末装置２０Ａは、端末装置２０Ａ又はサーバ装置３０により生成された要因データ及びアドバイスデータのうちの少なくとも一方を表示部１２２に表示することができる。

例えば、図８Ｃに例示されるように、端末装置２０Ａは、画面４２０において、要因データ４２２及びアドバイスデータ４２４のうちの少なくとも一方を表示することができる。この例では、端末装置２０Ａは、要因データ４２２において、第１音声信号にノイズが生じている要因として、配信者Ａが反響する部屋に居ること、及び、配信者Ａが居る部屋においてエアコン等の空調音が鳴っていること、を示している。これは、生成された要因データが、図４に示したように、「反響するような空間で収録」及び「空調などの音響が混じっている」を示していることに対応している。

また、図８Ｃに示す例では、端末装置２０Ａは、アドバイスデータ４２４において、「別の部屋に行きましょう」及び「空調を切りましょう」を示している。これは、生成されたアドバイスデータが、図４に示したように、「別の部屋に行きましょう」及び「空調を切りましょう」を示していることに対応している。

図７Ａに戻り、次に、ＳＴ３１２において、端末装置２０Ａは、第１オブジェクト及び第２オブジェクトを表示することができる。例えば、図８Ｃに示すように、端末装置２０Ａは、画面４２０において、第１オブジェクトとして「練習しなおし」というオブジェクト４２６を表示し、第２オブジェクトとして「おすすめボイススタイルを見る」４２８を表示することができる。

図７Ａに戻り、ＳＴ３１４において、端末装置２０Ａは、配信者Ａが「練習しなおし」という第１オブジェクト４２６を選択したか否かを判定することができる。端末装置２０Ａは、配信者Ａが第１オブジェクト４２６を選択したと判定した場合には、処理は、上述したＳＴ３０２～ＳＴ３１２における動作を繰り返す（すなわち、配信者Ａが発話の練習を繰り返す）ことができる。一方、端末装置２０Ａは、配信者Ａが「おすすめボイススタイルを見る」という第２オブジェクト４２８を選択したと判定した場合には、処理はＳＴ３１６に移行することができる。

ＳＴ３１６において、端末装置２０Ａ又はサーバ装置３０が、配信者Ａの発話に関する第１音声信号を変換する少なくとも１つの任意の音声変換プリセットを、予め用意された複数の音声変換プリセットの中から、配信者Ａに提案すべく選択することができる。

第１の例として、端末装置２０Ａ又はサーバ装置３０は、まず、配信者Ａの第１音声信号を用いて、配信者Ａの基本周波数及び第１フォルマントの周波数を取得することができる。次に、端末装置２０Ａ又はサーバ装置３０は、予め用意された複数の音声変換プリセットの中から、これら基本周波数及び第１フォルマントに近い他のユーザ（すなわち、配信者Ａに似た声を有する他のユーザ）がこれまでに利用又は購入した少なくとも１つの音声変換プリセットを、配信者Ａに提案すべく選択することができる。

第２の例として、端末装置２０Ａ又はサーバ装置３０は、まず、配信者Ａの第１音声信号を用いて、配信者Ａの基本周波数及び第１フォルマントの周波数を取得することができる。次に、端末装置２０Ａ又はサーバ装置３０は、予め用意された複数の音声変換プリセットの中から、図６Ａ～図６Ｃに例示したようなｐｆ平面において、配信者Ａの基本周波数と一致しない基本周波数を有し、かつ、配信者Ａの第１フォルマントの周波数に近い第１フォルマントの周波数を有する、少なくとも１つの音声変換プリセットを選択することができる。例えば、配信者Ａが性別として中性を選択した場合には、図６Ｃにおいて、配信者Ａの基本周波数及び第１フォルマントの周波数が標準男性（０,０）に近いと仮定すると、音声変換プリセットＡ_Ｎ（１１,２.５）の基本周波数（１１）は、標準男性（０,０）の基本周波数（０）と一致せず、音声変換プリセットＡ_Ｎ（１１,２.５）の第１フォルマントの周波数（２.５）は、標準男性（０,０）の第１フォルマントの周波数（０）に比較的近い。よって、端末装置２０Ａ又はサーバ装置３０は、この音声変換プリセットＡ_Ｎ（１１,２.５）を、配信者Ａに提案すべく選択することができる。

第３の例として、端末装置２０Ａ又はサーバ装置３０は、配信者Ａの基本周波数及び第１フォルマントの周波数とは無関係に、人気のある（例えばダウンロード数が所定値を上回った）少なくとも１つの音声変換プリセットを、配信者Ａに提案すべく選択することができる。

図７Ａに戻り、次に、ＳＴ３１８において、端末装置２０Ａは、ＳＴ３１６において選択された少なくとも１つの音声変換プリセットに関するデータを表示することができる。例えば、端末装置２０Ａは、図８Ｄに示す画面４３０において、ＳＴ３１６において選択された例えば３つの音声変換プリセットに関するデータとして、各音声変換プリセットに対応する画像及び／又は名称をフィールド４３２に表示することができる。

配信者Ａは、フィールド４３２に表示された３つの音声変換プリセットに対応する画像うち、所望する音声変換プリセットに対応する画像及び／又は名称をタップ等することにより、使用すべき音声変換プリセットを選択することができる。図８Ｄには、配信者Ａが「歌手」に対応する音声変換プリセットを選択した例が示されている。

この状態において、配信者Ａが、画面４３０に表示された「自分の声を聴く」というオブジェクト４３６をタップ等することにより、端末装置２０Ａ又はサーバ装置３０は、これまでに取得された配信者Ａの性別及び第１音声信号と、この「歌手」に対応する音声変換プリセットと、を用いて、第１音声信号を変換した第２音声信号を生成して取得することができる。第２音声信号の生成方法は、ＳＴ３０６において説明したとおりである。端末装置２０Ａは、生成された第２音声信号を音声として音声出力部１２６に出力させることができる。

配信者Ａは、さらに、フィールド４３２に表示された他の音声変換プリセットに対応する画像をタップ等することにより、使用すべき音声変換プリセットを変更することができる。

さらに、オプションとして、端末装置２０Ａは、画面４３０において、配信者Ａの発話に関する第１音声信号に対して環境効果を付加する少なくとも１つの環境効果プリセットに関するデータ（各プリセットに対応する名称及び／又は画像）をフィールド４３４に表示することができる。
上記少なくとも１つの環境効果プリセットの各々は、配信者Ａが居る場所の音響を変化させるポストエフェクトフィルタ処理を、第１音声信号に対して行うことができる。上記少なくとも１つの環境効果プリセットは、以下に例示するもののうち少なくとも１つのプリセットをこれらに限定することなく含むことができる。
・リバーブ
・ディレイ
・コーラス
・フェイザー
・トレモロ
・コンプレッサー
・フランジャー
・ノイズゲート

図８Ｄには、例えば、４つの環境効果プリセットの各々に対応する例えば名称（画像であってもよいし、名称及び画像の両方であってもよい）が表示される例が示されている。配信者Ａは、これら複数の環境効果プリセットのうち使用したいプリセットを、これに対応する名称をタップ等することにより選択することができる。図８Ｄに示す例では、「クリアボイス」及び「洞窟」という２つの環境効果プリセットが配信者Ａに選択されている。

この状態において、配信者Ａが、端末装置２０Ａ又はサーバ装置３０は、画面４３０に表示された「自分の声を聴く」というオブジェクト４３６をタップ等することにより、端末装置２０Ａ又はサーバ装置３０は、上述したように、これまでに取得された配信者Ａの性別及び第１音声信号と、この「歌手」に対応する音声変換プリセットと、を用いて、第１音声信号を変換した第２音声信号を生成して取得することができる。さらに、端末装置２０Ａ又はサーバ装置３０は、配信者Ａに選択された上記２つの環境効果プリセットを用いて第２音声信号に対して信号処理（ポストエフェクトフィルタ処理）を行うことにより、第３音声信号を生成することができる。端末装置２０Ａは、生成された第３音声信号を音声として音声出力部１２６に出力させることができる。

この後、図８Ｄに示した状態において、配信者Ａが「これで決定」というオブジェクト４３８をタップ等することにより、端末装置２０Ａは、配信者Ａに選択された音声変換プリセット（さらにはオプションとしての環境効果プリセット）を用いた、動画の配信に関する動作を開始することができる。

具体的には、図７Ｂを参照すると、ＳＴ３２０において、端末装置２０Ａは、配信者Ａの発話に関する第１音声信号を上述したように取得することができる。さらに、端末装置２０Ａは、この第１音声信号を、ＳＴ３００において選択された性別と、ＳＴ３１６において選択された音声変換プリセットと、を用いて、第２音声信号を生成することができる。
さらに、端末装置２０Ａは、ＳＴ３１８において少なくとも１つの環境効果プリセットが選択された場合には、生成された上記第２音声信号と、選択された当該少なくとも１つの環境効果プリセットと、を用いて、第３音声信号を生成することができる。

次に、ＳＴ３２２において、端末装置２０Ａ（の構成データ生成部１００）は、生成された、第１音声信号、第２音声信号又は第３音声信号を組み込んだ構成データを生成してサーバ装置３０に送信することができる。

ＳＴ３２４において、サーバ装置３０が端末装置２０Ａから受信した構成データを、各視聴者の端末装置２０に送信することができる。ＳＴ３２６において、各視聴者の端末装置２０（の動画生成部１２８）は、受信した構成データを用いて動画を生成して表示することができる。かかる動画は、配信者である配信者Ａの動作に同期して動作する配信者のアバターのアニメーションを含むことができる。また、この動画では、このアニメーションと、配信者Ａの発話に関する第２音声信号又は第２音声信号とが、同期又は実質的に同期し得る。

次に、ＳＴ３２８において、端末装置２０Ａは、配信者の指示等により動画の配信を継続することを決定した場合には、上述したＳＴ３２０以降の動作を繰り返すことができる。一方、端末装置２０Ａは、配信者の指示等により動画の配信を停止することを決定した場合には、上述したＳＴ３００において起動したアプリケーションの実行を終了することができる。

なお、上述したＳＴ３０６では、端末装置２０Ａ又はサーバ装置３０が、第１音声信号を用いて複数の特徴量を取得するだけでなく、第１音声信号を第２音声信号に変換することができる。しかし、ＳＴ３０６において、端末装置２０Ａ又はサーバ装置３０は、第１音声信号を用いて複数の特徴量を取得すれば十分であって、第１音声信号を第２音声信号に変換することは必須ではなくオプションである。したがって、例えば、端末装置２０Ａ又はサーバ装置３０は、ＳＴ３０６において複数の特徴量を取得し（第２音声信号を生成せず）、ＳＴ３１０において要因データ及び／又はアドバイスデータを表示すること（すなわち、ユーザに注意を喚起すること）に伴って、第１音声信号を第２音声信号に変換すること、及び／又は、第２音声信号を通信回線１０を介して送信すること、を実行しないことも可能である。

なお、上述した様々な実施形態では、配信者（配信者Ａ）の端末装置２０Ａが、第１音声信号～第３音声信号のうちのいずれかの音声信号を組み込んだ構成データを、サーバ装置３０を介して、各視聴者の端末装置２０に送信し、各視聴者の端末装置２０が、構成データを用いて動画を生成して表示する例について説明した。しかし、別の実施形態では、例えば、以下の（１）～（４）のうちのいずれの手法を採用して、各視聴者の端末装置２０が動画を表示することも可能である。
（１）配信者の端末装置２０Ａ（又はスタジオユニット４０）が構成データをサーバ装置３０に送信し、サーバ装置３０（の動画生成部１２８）が、構成データを用いて動画を生成して各視聴者の端末装置２０に送信する。
（２）配信者の端末装置２０Ａ（又はスタジオユニット４０）が、構成データを用いて動画を生成してサーバ装置３０に送信し、サーバ装置３０がこの動画を各視聴者の端末装置２０に送信する。
（３）配信者が居るスタジオ等に設置されたサーバ装置３０が、構成データを各視聴者の端末装置２０に送信し、各視聴者の端末装置２０がこの構成データを用いて動画を生成して表示する。
（４）配信者が居るスタジオ等に設置されたサーバ装置３０が、構成データを用いて動画を生成して各視聴者の端末装置２０に送信する。

また、上述した様々な実施形態は、本明細書の冒頭において例示した第１～第３のタイプのサービス・アプリケーションにおいて、ユーザの端末装置が、ユーザの発話に関する第１音声信号を、音声変換プリセット（さらには環境効果プリセット）を用いて変換して通信回線を介して送信する局面において、適用可能である。この局面には、ユーザの端末装置２０が、第１音声信号から生成された第２音声信号（又は第３音声信号）を、実際に通信回線を介して送信する第１の局面、及び、このような第１の局面の前に、ユーザの端末装置２３０が、練習としての発話に関する第１音声信号から生成された第２音声信号（又は第３音声信号）を確認する第２の局面が、これらに限定することなく含まれる。

以上説明したように、上述した様々な実施形態によれば、配信者は、動画の配信等において音声変換プリセットを使用する際に、自己の発話に関する音声信号について、ノイズが生じている少なくとも１つの要因を示す要因データ、及び／又は、その配信者の発話に関する少なくとも１つのアドバイスを示すアドバイスデータを、提示され得る。配信者は、かかる要因データ及び／又はアドバイスデータに従って、自身を取り囲む環境及び／又は自身の発話等を改善することにより、特別な知識を有していなくとも、ボイスチェンジャー機能を介して自身が希望するものに近づいた音声信号（第２音声信号又は第３音声信号）を生成することができる。

６．更なる実施形態１
本実施形態では、或るユーザの端末装置２０が、別のユーザの端末装置２０に対して、少なくとも１つの音声変換プリセット、及び／又は、少なくとも１つの環境効果プリセットを、仮想的なギフトとして送信する場合について説明する。

昨今、配信者の端末装置が動画を配信している際に、その動画を視聴する視聴者の端末装置が、仮想的なギフト（トークン）を配信者の端末装置に送信するサービスが提供されている。このギフトを受信した配信者の端末装置は、その視聴者の端末装置から受信したギフトに対応するオブジェクトを表示した動画を、視聴者の端末装置に送信することができる。

このようなサービスにおいて、視聴者の端末装置が、仮想的なギフト（トークン）の一態様として、音声変換プリセット及び／又は環境効果プリセットを、配信者の端末装置に送信し、配信者の端末装置が、そのような音声変換プリセット及び／又は環境効果プリセットを用いて変換された配信者の発話に関する音声信号を含む動画（又は動画を生成するための構成データ）を視聴者の端末装置に送信することができれば、かかるサービスをより魅力的なものにすることができる。

以下、このような実施形態について、図１～図８Ｄを用いて上述した実施形態と異なる点のみに着目して説明する。図９は、別の実施形態に係る通信システム１において行われる動作の一例を示すフロー図である。

まず、ＳＴ５００において、配信者（ここでは配信者Ａ）の端末装置２０Ａが、上記特定のアプリケーション（例えば、ウェブブラウザ、動画配信用アプリケーション等）を起動して実行することができる。次に、ＳＴ５０２において、端末装置２０Ａが、構成データを生成して各視聴者の端末装置２０に送信することができる。構成データの生成については、ＳＴ３２２（図７Ｂ）に関連して上述したとおりである。但し、ＳＴ５０２では、構成データに含まれる音声信号は、配信者Ａの発話に関する第１音声信号である。

ＳＴ５０４において、各視聴者の端末装置２０は、端末装置２０Ａにより送信された構成データを、サーバ装置３０を介して受信することができる。各視聴者の端末装置２０は、受信した構成データを用いて動画を生成して表示することができる。この動画は、配信者である配信者Ａの動作に同期して動作する配信者のアバターのアニメーションを含むことができる。また、この動画では、このアニメーションと、配信者Ａの発話に関する第１音声信号とが、同期又は実質的に同期し得る。

ＳＴ５０６において、配信者Ａにより配信される動画を視聴している或る視聴者（ここでは視聴者Ｂ）が、その端末装置２０Ｂを利用して、配信者Ａにプレゼントするための少なくとも１つの音声変換プリセット及び／又は少なくとも１つの環境効果プリセットを購入することができる。

図１０Ａは、図９に示した通信システム１において視聴者の端末装置２０Ｂにより表示される画面の一例を示す図である。図１０Ｂは、図９に示した通信システム１において配信者の端末装置２０Ａにより表示される画面の一例を示す図である。

視聴者Ｂは、配信者Ａの端末装置２０Ａにより配信される動画を視聴している際に、所定のオブジェクト（図示しない）をタップ等することにより、端末装置２０Ｂは、図１０Ａに例示されるような、音声変換プリセット等を購入するための画面６００を表示することができる。

図１０Ａに示すように、画面６００は、フィールド６０２において、複数の音声変換プリセットに関するデータを表示することができる。ここでは、フィールド６０２は、各音声変換プリセットに関する画像、名称及び対価（価格又は消費ポイント等）といったデータを含むことができる。なお、フィールド６０２は、各音声変換プリセットに関するデータとして、（１）画像及び対価、（２）名称及び対価、又は、（３）画像、名称及び対価、を含み得る。

視聴者Ｂは、このように表示された複数の音声変換プリセットのうち、所望するプリセットに対応する画像等をタップ等することにより、配信者Ａに送信すべきプリセットとして選択することができる。図１０Ｂには、視聴者Ｂが、配信者Ａに送信すべきプリセットとして、「歌手」に対応するプリセットを選択した例が示されている。

これに加えて又はこれに代えて、画面６００は、フィールド６０４において、複数の環境効果プリセットに関するデータを表示することができる。ここでは、フィールド６０４は、各環境効果プリセットに関する名称及び対価（価格又は消費ポイント等）といったデータを含むことができる。なお、フィールド６０４は、各環境効果プリセットに関するデータとして、（１）画像及び対価、（２）名称及び対価、又は、（３）画像、名称及び対価、を含み得る。

視聴者Ｂは、このように表示された複数の環境効果プリセットのうち、所望するプリセットに対応する名称等をタップ等することにより、配信者Ａに送信すべきプリセットとして選択することができる。図１０Ｂには、視聴者Ｂが、配信者Ａに送信すべきプリセットとして、「クリアボイス」及び「洞窟」のそれぞれに対応するプリセットを選択した例が示されている。

この状態において、視聴者Ｂは、「購入して贈る」というオブジェクト６０６をタップ等することにより、視聴者Ｂの端末装置２０Ｂは、選択された１つの音声変換プリセット及び２つの環境効果プリセットの各々を識別するギフト識別データを、サーバ装置３０に送信することができる。

次に、ＳＴ５０８において、サーバ装置３０は、端末装置２０Ｂから受信したギフト識別データを用いて、視聴者Ｂにより選択された１つの音声変換プリセット及び２つの環境効果プリセットを識別することができる。サーバ装置３０は、視聴者Ｂにより選択された１つの音声変換プリセットに関するデータ、例えば、（１）このプリセットを識別する識別データ、（２）このプリセットを構成するパラメータ、例えば、図６Ａ～図６Ｃに例示された括弧内のパラメータ（増減すべき基本周波数のｐｉｃｔｈ数、増減すべき第１フォルマントの周波数のｆｏｒｍａｎｔ数）、（３）このプリセットに対応する画像及び／又は名称、（４）このプリセットの使用期限（例えば、使用開始時点から３分が経過した時点で使用不可能となること）を示すデータ、等を、配信者Ａの端末装置２０Ａに送信することができる。

さらに、サーバ装置３０は、視聴者Ｂにより選択された２つの環境効果プリセットに関するデータ、例えば、（１）このプリセットを識別するデータ、（２）このプリセットを構成するパラメータ（エフェクトの種類及び深さ等）、（３）このプリセットに対応する画像及び／又は名称、（４）このプリセットの使用期限（例えば、使用開始時点から３分が経過した時点で使用不可能となること）を示すデータ、等を、配信者Ａの端末装置２０Ａに送信することができる。

配信者Ａの端末装置２０Ａは、このようなデータをサーバ装置３０から受信することができる。これにより、端末装置２０Ａは、図１０Ｂに例示されるような画面６１０を表示することができる。画面６１０におけるフィールド６１２は、配信者Ａが視聴者Ｂから受信した１つの音声変換プリセットに関するデータ（ここでは、画像及び名称）を表示することができる。なお、配信者Ａが視聴者Ｂから複数の音声変換プリセットを受信した場合には、フィールド６１２は、これら複数の音声変換プリセットに関するデータを表示することができる。

画面におけるフィールド６１４は、配信者Ａが視聴者Ｂから受信した２つの環境効果プリセットに関するデータ（ここでは、名称のみ）を表示することができる。配信者Ａは、これらの環境効果プリセットのうち、使用したい環境効果プリセットに対応する名称等（画像であってもよい）をタップ等することにより、実際に使用する環境効果プリセットを選択することができる。

次に、ＳＴ５１０において、配信者Ａは、画面６１０に表示された「今すぐ装着」というオブジェクト６１６をタップ等することにより、視聴者Ｂから受信した１つの音声変換プリセットと、視聴者Ｂから受信した複数の環境効果プリセット（のうち、配信者Ａにより選択されたプリセット）と、を用いて、第２音声信号及び第３音声信号を生成することができる。

具体的には、端末装置２０Ａは、サーバ装置３０から受信した、１つの音声変換プリセットに関するデータを用いて、配信者Ａの発話に関する第１音声信号から第２音声信号を生成することができる。さらに、端末装置２０Ａは、サーバ装置３０から受信した、２つの環境効果プリセットに関するデータを用いて、第２音声信号から第３音声信号を生成することができる。なお、第１音声信号から第２音声信号を生成する手法、及び、第２音声信号から第３音声信号を生成する手法については、ＳＴ３２０（図７Ｂ）に関連して上述したとおりである。

さらに、端末装置２０Ａは、このように生成された第３音声信号を含む構成データを、生成して、サーバ装置３０を介して各視聴者の端末装置２０に送信することができる。

次に、ＳＴ５１２において、各視聴者の端末装置２０は、受信した構成データを用いて動画を生成して表示することができる。ここで、動画には、ＳＴ５１０において生成された第３音声信号が含まれている。

なお、配信者Ａが視聴者Ｂから受信した１つの音声変換プリセット及び２つの環境効果プリセットは、一実施形態では、現在時刻がこれらのプリセットに関するデータ（使用期限を示すデータ）により識別される日時に至った時点において、使用不可能となるが、別の実施形態では、使用不可となる期限を有しない。

次に、ＳＴ５１４において、端末装置２０Ａは、配信者の指示等により動画の配信を継続することを決定した場合には、上述したＳＴ５０２以降の動作を繰り返すことができる。一方、端末装置２０Ａは、配信者の指示等により動画の配信を停止することを決定した場合には、上述したＳＴ５００において起動したアプリケーションの実行を終了することができる。

以上のように、視聴者は、視聴している動画の配信者に対して、その動画において配信者により利用可能な少なくとも１つの音声変換プリセット及び／又は少なくとも１つの環境効果プリセットを送信することができる。これにより、視聴者は、自身が動画の配信者に送信したプリセットがその配信者によりその動画において利用されることにより、自身の行動を配信者による動画に反映することができる。これにより、視聴者は、配信者により配信される動画を単に視聴するだけでなく、その動画の配信に積極的に関与することができる。したがって、サービス全体の魅力を向上させることができる。

なお、別の実施形態では、各視聴者の端末装置に対して動画を配信している状態にあるか否かに関係なく任意のタイミングにおいて、任意のユーザが、上述した視聴者Ｂが配信者Ａに対して少なくとも１つの音声変換プリセット及び／又は少なくとも１つの環境効果プリセットを送信したものと同様の手法により、上記任意のユーザが希望する任意の他のユーザに対して、少なくとも１つの音声変換プリセット及び／又は少なくとも１つの環境効果プリセットを送信することができる。このようなプリセットを受信したユーザは、各視聴者の端末装置に対して動画を配信する局面又はこれ以外の任意の局面において、受信した少なくとも１つの音声変換プリセット及び／又は少なくとも１つの環境効果プリセットを使用することができる。

７．更なる実施形態２
本実施形態では、或る配信者の端末装置２０が、動画を配信している間に、ガチャを実行することにより、少なくとも１つの音声変換プリセットを取得して使用する場合について説明する。

昨今、配信者の端末装置が、動画を配信するに際して、予め用意された複数の音声変換プリセットのうちその配信者により選択されたプリセットを用いて、配信者の発話に関する第１音声信号を変換して各視聴者の端末装置に送信することができる。しかし、配信者は、予め用意された複数の音声変換プリセットのうちいずれのプリセットが、自身の好みに合致するか、効果的に自身の声を変換することができるか等を、認識することは困難である。また、配信者は、予め用意された複数の音声変換プリセットのうち、自身の好みに近いプリセットを選択する傾向があるため、意外性のあるプリセットを選択することは少ない。

このようなサービスにおいて、配信者の端末装置が、動画を配信するに際して、予め用意された複数の音声変換プリセットの中から、ガチャ方式により選択されたプリセットを取得する手法が考えられる。かかる手法によれば、配信者は、効果的に自身の声を変換することができる音声変換プリセット及び／又は意外性のある音声変換プリセット等を、取得して利用する機会を付与される。これにより、かかるサービスをより魅力的なものにすることができる。

以下、このような実施形態について、図１～図１０Ｂを用いて上述した実施形態と異なる点のみに着目して説明する。図１１は、さらに別の実施形態に係る通信システム１において行われる動作の一例を示すフロー図である。図１１において上述した図９と同様の動作に対しては、図９におけるものと同一の参照符号を付して、重複した説明を省略する。

ＳＴ７００において、各視聴者の端末装置２０に対して動画（動画を生成するための構成データ）を配信している或る配信者（ここでは「配信者Ａ」）の端末装置２０Ａは、配信者Ａに対して、ガチャの実行を提供するための画面（図示せず）を提示することができる。

配信者Ａは、そのような画面に含まれる例えば「ガチャの実行」といったようなオブジェクト（図示せず）をタップ等することにより、端末装置２０Ａは、ガチャを実行することができる。

この場合、端末装置２０Ａ又はサーバ装置３０は、予め用意された複数の音声変換プリセットの中から、少なくとも１つの音声変換プリセットを選択して配信者Ａに提示することができる。例えば、端末装置２０Ａ又はサーバ装置３０は、予め用意された複数の音声変換プリセットの中から、例えば配信者Ａの声を高品質に変換する可能性のある少なくとも１つのプリセットを選択することができる。

具体的には、端末装置２０Ａ又はサーバ装置３０は、まず、ＳＴ３０６（図７Ａ）に関連して上述したように、配信者Ａの端末装置２０Ａは、配信者Ａの発話に関する第１音声信号を用いて、配信者Ａの基本周波数及び第１フォルマントの周波数を取得することができる。さらに、配信者Ａの端末装置２０Ａは、配信者Ａの発話に関する第１音声信号を用いて、任意の周知技術を用いて、配信者Ａのピッチ（声の高さ）を取得することも可能である。次に、端末装置２０Ａ又はサーバ装置３０は、以下の条件を満たす少なくとも１つの音声変換プリセットを抽出することができる。
（１）配信者Ａの基本周波数とは一致しない基本周波数を有すること、すなわち、配信者Ａの基本周波数と、対象プリセットの基本周波数との間の差が、第１の閾値を上回ること。
（２）配信者Ａの第１フォルマントの周波数に近い第１フォルマントの周波数を有すること、すなわち、配信者Ａの第１フォルマントの周波数と、対象プリセットの第１フォルマントの周波数との間の差が、第２の閾値以下であること。
（３）配信者Ａのピッチとは一致しないピッチを有すること、すなわち、配信者Ａのピッチと、対象プリセットのピッチとの間の差が、第３の閾値を上回ること。

このような条件を満たす音声変換プリセットは、配信者Ａの声を高品質に変換することができる可能性があるか、又は、配信者Ａにとって意外な変換を行う可能性があるといえる。

このように配信者Ａに対して提示された少なくとも１つの音声変換プリセットのうち、配信者Ａにより選択された少なくとも１つの音声変換プリセットに関するデータを、端末装置２０Ａは、サーバ装置３０から受信して記憶することができる。この後、端末装置２０Ａは、ＳＴ５１０において、そのように取得した音声変換プリセットを利用して、構成データを生成することができる。

以上のように、配信者の端末装置は、動画を配信するに際して（動画を配信している間、又は、動画の配信の前に）、ガチャを実行することにより、配信者は、効果的に自身の声を変換することができる音声変換プリセット及び／又は意外性のある音声変換プリセット等を、取得して利用する機会を付与される。これにより、かかるサービスをより魅力的なものにすることができる。

なお、別の実施形態では、任意のユーザは、各視聴者の端末装置に対して動画を配信する局面、及び、この局面以外の任意の局面において、上記のとおり配信者Ａがガチャを実行して少なくとも１つの音声変換プリセットを取得したものと同様の手法により、ガチャを実行して少なくとも１つの音声変換プリセットを取得することができる。

８．更なる実施形態３
本実施形態では、或る１人の配信者の端末装置が、その配信者の動作データに従って動作する複数のアバターのアニメーションと、その配信者の発話に関する第１音声信号が各々のアバターに対応付けて変換される第２音声信号と、を含む構成データを送信する場合について説明する。

昨今、各配信者が、その端末装置を利用して、その配信者の動作データに従って動作する１つのアバターのアニメーションと、その配信者の発話に関する第１音声信号がそのアバターに対応付けて変換される第２音声信号と、を含む構成データを各視聴者の端末装置に配信する、ことを可能にするサービスが提供されている。

しかし、各配信者が、各視聴者の端末装置に対して動画を配信するに際して、単独で利用することができるのは、１つのアバター及びこのアバターに対応する音声変換プリセットのみである。

ここで、各配信者が、単独で複数のアバター及び各々のアバターに対応する音声変換プリセットを利用することができれば、かかるサービスはより魅力的なものとなる。

以下、このような実施形態について、図１～図１１を用いて上述した実施形態と異なる点のみに着目して説明する。図１２は、さらに別の実施形態に係る通信システム１において行われる動作の一例を示すフロー図である。図１２において上述した図９と同様の動作に対しては、図９におけるものと同一の参照符号を付して、重複した説明を省略する。

ＳＴ８００において、各視聴者の端末装置２０に対して動画（動画を生成するための構成データ）を配信する或る配信者（ここでは「配信者Ａ」）の端末装置２０Ａは、配信者ＡがアバターＸ、Ｙのうちいずれを操作しようとしているのかをリアルタイムで判定することができる。

第１の手法では、端末装置２０Ａは、図１３に例示される配信者Ａの端末装置２０Ａに表示される画面９００に示すように、フィールド９０２において、配信者Ａにより操作可能な複数のアバター（ここでは、「歌手」というアバターＸ及び「ヒーロー」というアバターＹ）に対応する画像及び／又は名称を表示することができる。

端末装置２０Ａは、配信者Ａが「歌手」に対応する画像又は名称９０２Ａをタップしたときには、枠９０２Ｂが図１３に示すようにこの画像又は名称を囲む状態となる。この状態では、端末装置２０Ａは、配信者ＡがアバターＸを操作しようとしていることを認識することができる。
一方、端末装置２０Ａは、配信者Ａが「ヒーロー」に対応する画像又は名称９０２Ｃをタップしたときには、枠９０２Ｂがこの画像又は名称を囲む状態に変わる。この状態では、端末装置２０Ａは、配信者ＡがアバターＹを操作しようとしていることを認識することができる。

第２の手法では、端末装置２０Ａは、配信者Ａが高い声で発声したときには、配信者ＡがアバターＸを操作しようとしていることを認識することができる。一方、端末装置２０Ａは、配信者Ａが低い声で発声したときには、配信者ＡがアバターＹを操作しようとしていることを認識することができる。

この第２の手法では、端末装置２０Ａは、配信者Ａの発話に関する第１音声信号から基本周波数を抽出し、この基本周波数が閾値を上回る場合に、配信者ＡがアバターＸを操作しようとしていることを認識することができる。一方、端末装置２０Ａは、配信者Ａの発話に関する第１音声信号から抽出した基本周波数が閾値以下である場合に、配信者ＡがアバターＹを操作しようとしていることを認識することができる。

第３の手法は、上述した第１の手法と第２の手法とを組み合わせる手法である
配信者Ａは、アバターＸを操作する際には、高い声で発声しかつ「歌手」に対応する画像又は名称９０２Ａをタップする。一方、配信者Ａは、アバターＹを操作する際には、低い声で発声しかつ「ヒーロー」に対応する画像又は名称９０２Ｃをタップする。

端末装置２０Ａは、第１音声信号から抽出した基本周波数と、その基本周波数が抽出された時点において、配信者Ａが画面９００において、画像／名称９０２Ａ、又は、画像／名称９０２Ｃのいずれかをタップしたかに関するデータと、を含む教師データを用いて、学習モデルを作成することができる。端末装置２０Ａは、学習モデルが生成された後には、第１音声信号から抽出された基本周波数をこの学習モデルに入力することにより、配信者ＡがアバターＸ、Ｙのいずれを操作しようとしているのかを推定することができる。

図１２に戻り、ＳＴ８０２において、端末装置２０Ａは、ＳＴ８００での判定結果に従って選択されたアバター（Ｘ又はＹ）に対応する、音声変換プリセット及びアバターを用いて、構成データを生成してサーバ装置３０に送信することができる。構成データの生成については、ＳＴ３２２に関連して上述したとおりである。このような構成データは、サーバ装置３０から各視聴者の端末装置２０に配信される。
特に、配信者ＡによりアバターＸが選択されたことが判定された場合には、端末装置２０Ａは、アバターＸのみを配信者Ａの動作データに基づいて動作させ、かつ、アバターＹを配信者Ａの動作データに基づいて動作させない（静止させる）、ように構成データを生成することができる。さらに、端末装置２０Ａは、第１音声信号がアバターＸに対応する音声変換プリセットを用いて生成された第２音声信号を組み込むように、構成データを生成することができる。

一方、配信者ＡによりアバターＹが選択されたことが判定された場合には、端末装置２０Ａは、アバターＹのみを配信者Ａの動作データに基づいて動作させ、かつ、アバターＸを配信者Ａの動作データに基づいて動作させない（静止させる）、ように構成データを生成することができる。さらに、端末装置２０Ａは、第１音声信号がアバターＹに対応する音声変換プリセットを用いて生成された第２音声信号を組み込むように、構成データを生成することができる。

ＳＴ８０４において、各視聴者の端末装置２０は、受信した構成データを用いて動画を生成して表示することができる。構成データを用いた動画の生成については、ＳＴ３２６に関連して上述したとおりである。図１４に示すように、各視聴者の端末装置２０の画面９５０には、構成データから生成された動画９６０が表示され得る。この動画９６０では、配信者ＡがアバターＸを選択した期間においては、アバターＸ（９６２）が動作データに従って動作し、アバターＸに対応する音声変換プリセットにより生成された第２音声信号が再生され得る。一方、配信者ＡがアバターＹを選択した期間においては、アバターＹ（９６４）が動作データに従って動作し、アバターＹに対応する音声変換プリセットにより生成された第２音声信号が再生され得る。

以上のように、各配信者の端末装置は、複数のアバターのうちその配信者により選択されたアバターを動作データに従って動作させたアニメーションと、そのように選択されたアバターに対応する音声変換プリセットを用いて変換した第２音声信号と、を含む動画を、各視聴者の端末装置に表示させることができる。これにより、より魅力的なサービスを提供することができる。

本開示の利益を有する当業者により容易に理解されるように、上述した様々な例は、矛盾の生じさせない限りにおいて、相互に様々なパターンで適切に組み合わせて用いられ得る。

９．様々な態様
第１の態様に係るコンピュータプログラムは、「少なくとも１つのプロセッサにより実行されることにより、ユーザの発話に関する第１音声信号を取得し、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示し、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第２の態様に係るコンピュータプログラムは、上記第１の態様において「前記ユーザの発話に関する第１音声信号に対して環境効果を付加する少なくとも１つの環境効果プリセットに関するデータを、該少なくとも１つの環境効果のうちの少なくとも１つの環境効果を前記ユーザに選択させるために、前記表示部に表示する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第３の態様に係るコンピュータプログラムは、上記第１の態様又は上記第２の態様において「前記ユーザの発話に関する第１音声信号を取得し、前記少なくとも１つの要因を示すデータ、及び／又は、前記少なくとも１つのアドバイスを示すデータを前記表示部に表示した後に、第１オブジェクト及び第２オブジェクトを前記表示部に表示する、という一連の処理を実行し、前記第１オブジェクトが前記ユーザにより選択されることにより、前記一連の処理を繰り返し、前記第２オブジェクトが前記ユーザにより選択されることにより、前記少なくとも１つの音声変換プリセットに関するデータを前記表示部に表示する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第４の態様に係るコンピュータプログラムにあっては、上記第１の態様から上記第３の態様のいずれかにおいて「前記少なくとも１つの要因が、前記ユーザの居る環境、外界の音、及び、前記ユーザの発話、のうちの少なくとも１つを含む」ことができる。

第５の態様に係るコンピュータプログラムにあっては、上記第１の態様から上記第４の態様のいずれかにおいて「前記少なくとも１つのアドバイスが、前記ユーザの抑揚に関するアドバイス、前記ユーザの発話の長さに関するアドバイス、前記ユーザの居る環境に関するアドバイス、及び、ノイズの要因に関するアドバイス、のうちの少なくとも１つを含む」ことができる。

第６の態様に係るコンピュータプログラムにあっては、上記第１の態様から上記第５の態様のいずれかにおいて「前記少なくとも１つの音声変換プリセットに関するデータが、各音声変換プリセットに固有の名称及び／又は画像を含む」ことができる。

第７の態様に係るコンピュータプログラムにあっては、上記第２の態様において「前記少なくとも１つの環境効果プリセットが、前記ユーザが居る場所の音響を変化させるポストエフェクトフィルタ処理を、前記ユーザの発話に関する第１音声信号に対して行い、リバーブ、ディレイ、コーラス、フェイザー、トレモロ、コンプレッサー、フランジャー及びノイズゲート、のうちの少なくとも１つとして機能する」ことができる。

第８の態様に係るコンピュータプログラムにあっては、上記第２の態様において「前記少なくとも１つの環境効果プリセットに関するデータが、各環境効果プリセットに固有の名称及び／又は画像を含む」ことができる。

第９の態様に係るコンピュータプログラムは、上記第１の態様から上記第８の態様のいずれかにおいて「前記ユーザの発話に関する第１音声信号を第１期間において連続的に取得し、前記第１期間に含まれる複数の単位時間と、該複数の単位時間の各々に対応する前記第１音声信号の信号対雑音比（ＳＮ比）と、を対応付けて、前記第１期間に又は該第１期間の後に前記表示部に表示する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第１０の態様に係るコンピュータプログラムは、上記第１の態様から上記第９の態様のいずれかにおいて「前記ユーザの発話に関する第１音声信号を第２期間において連続的に取得し、前記第２期間に含まれる複数の単位時間と、該複数の単位時間の各々に対応する前記第１音声信号のラウドネスと、を対応付けて、前記第２期間に又は該第２期間の後に前記表示部に表示する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第１１の態様に係るコンピュータプログラムは、上記第１の態様から上記第１０の態様のいずれかにおいて「前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより生成された第２音声信号を、音声出力部から出力する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第１２の態様に係るコンピュータプログラムは、上記第２の態様において「前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより生成された第２音声信号を、音声出力部から出力し、前記少なくとも１つの環境効果プリセットのうち前記ユーザにより選択された少なくとも１つの環境効果プリセットを用いて前記ユーザの発話に関する第１音声信号又は前記第２音声信号に対して信号処理を行うことにより生成された第３音声信号を、前記音声出力部から出力する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第１３の態様に係るコンピュータプログラムは、上記第１の態様から上記第１２の態様のいずれかにおいて「前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより生成された第２音声信号を、通信回線を介して送信する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第１４の態様に係るコンピュータプログラムは、上記第２の態様において「前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより第２音声信号を生成し、前記少なくとも１つの環境効果プリセットのうち前記ユーザにより選択された少なくとも１つの環境効果プリセットを用いて前記第２音声信号に対して信号処理を行うことにより生成された第３音声信号を、通信回線を介して送信する、ように前記少なくとも１つのプロセッサを機能させる」ことができる。

第１５の態様に係るコンピュータプログラムにあっては、上記第１の態様から上記第１４の態様のいずれかにおいて「前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む」ことができる。

第１６の態様に係る方法は、「コンピュータにより読み取り可能な命令を実行する少なくとも１つのプロセッサにより実行される方法であって、前記少なくとも１つのプロセッサが、前記命令を実行することにより、ユーザの発話に関する第１音声信号を取得すること、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示すること、並びに、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示すること、を含む」ことができる。

第１７の態様に係る方法にあっては、上記第１６の態様において、「前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む」ことができる。

第１８の態様に係るサーバ装置は、「」ことができる。

第１９の態様に係るサーバ装置にあっては、上記第１８の態様において「前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む」ことができる。

第２０の態様に係るサーバ装置にあっては、上記第１８の態様又は上記第１９の態様において「前記通信回線がインターネットを含む」ことができる。

第２１の態様に係る方法は、「コンピュータにより読み取り可能な命令を実行する少なくとも１つのプロセッサにより実行される方法であって、前記少なくとも１つのプロセッサが、前記命令を実行することにより、ユーザの発話に関する第１音声信号を該ユーザの端末装置から通信回線を介して取得すること、前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを、前記通信回線を介して前記端末装置に送信して表示させること、並びに、該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記通信回線を介して前記端末装置に送信して表示させること、を含む」ことができる。

第２２の態様に係る方法にあっては、上記第２１の態様において「前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む」ことができる。

第２３の態様に係る方法にあっては、上記第２１の態様又は上記第２２の態様において「前記通信回線がインターネットを含む」ことができる。

本明細書に開示された発明の原理が適用され得る多くの可能な実施形態を考慮すれば、例示された様々な実施形態は好ましい様々な例に過ぎず、特許請求の範囲に係る発明の技術的範囲をこれらの好ましい様々な例に限定すると考えるべきではない、と理解されたい。実際には、特許請求の範囲に係る発明の技術的範囲は、添付した特許請求の範囲により定められる。したがって、特許請求の範囲に記載された発明の技術的範囲に属するすべてについて、本発明者らの発明として、特許の付与を請求する。

１通信システム
１０通信網（通信回線）
２０（２０Ａ、２０Ｂ、２０Ｃ）端末装置
３０（３０Ａ、３０Ｂ、３０Ｃ）サーバ装置
４０（４０Ａ、４０Ｂ）スタジオユニット
１００（２００）構成データ生成部
１１０（２１０）特徴量抽出部
１１２（２１２）変換器取得部
１１４（２１４）特徴量抽出部
１１６（２１６）音声合成部
１１８（２１８）解析部
１２０（２２０）記憶部
１２２（２２２）表示部
１２４（２２４）通信部
１２６（２２６）音声出力部
１２８（２２８）動画生成部

Claims

少なくとも１つのプロセッサにより実行されることにより、
ユーザの発話に関する第１音声信号を取得し、
前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示し、
該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示する、
ように前記少なくとも１つのプロセッサを機能させる、ことを特徴とするコンピュータプログラム。
前記ユーザの発話に関する第１音声信号に対して環境効果を付加する少なくとも１つの環境効果プリセットに関するデータを、該少なくとも１つの環境効果のうちの少なくとも１つの環境効果を前記ユーザに選択させるために、前記表示部に表示する、
ように前記少なくとも１つのプロセッサを機能させる、請求項１に記載のコンピュータプログラム。
前記ユーザの発話に関する第１音声信号を取得し、前記少なくとも１つの要因を示すデータ、及び／又は、前記少なくとも１つのアドバイスを示すデータを前記表示部に表示した後に、第１オブジェクト及び第２オブジェクトを前記表示部に表示する、という一連の処理を実行し、
前記第１オブジェクトが前記ユーザにより選択されることにより、前記一連の処理を繰り返し、
前記第２オブジェクトが前記ユーザにより選択されることにより、前記少なくとも１つの音声変換プリセットに関するデータを前記表示部に表示する、
ように前記少なくとも１つのプロセッサを機能させる、請求項１又は請求項２に記載のコンピュータプログラム。
前記少なくとも１つの要因が、前記ユーザの居る環境、外界の音、及び、前記ユーザの発話、のうちの少なくとも１つを含む、請求項１から請求項３のいずれかに記載のコンピュータプログラム。
前記少なくとも１つのアドバイスが、前記ユーザの抑揚に関するアドバイス、前記ユーザの発話の長さに関するアドバイス、前記ユーザの居る環境に関するアドバイス、及び、ノイズの要因に関するアドバイス、のうちの少なくとも１つを含む、請求項１から請求項４のいずれかに記載のコンピュータプログラム。
前記少なくとも１つの音声変換プリセットに関するデータが、各音声変換プリセットに固有の名称及び／又は画像を含む、請求項１から請求項５のいずれかに記載のコンピュータプログラム。
前記少なくとも１つの環境効果プリセットが、
前記ユーザが居る場所の音響を変化させるポストエフェクトフィルタ処理を、前記ユーザの発話に関する第１音声信号に対して行い、
リバーブ、ディレイ、コーラス、フェイザー、トレモロ、コンプレッサー、フランジャー及びノイズゲート、のうちの少なくとも１つとして機能する、請求項２に記載のコンピュータプログラム。
前記少なくとも１つの環境効果プリセットに関するデータが、各環境効果プリセットに固有の名称及び／又は画像を含む、請求項２に記載のコンピュータプログラム。
前記ユーザの発話に関する第１音声信号を第１期間において連続的に取得し、
前記第１期間に含まれる複数の単位時間と、該複数の単位時間の各々に対応する前記第１音声信号の信号対雑音比（ＳＮ比）と、を対応付けて、前記第１期間に又は該第１期間の後に前記表示部に表示する、
ように前記少なくとも１つのプロセッサを機能させる、請求項１から請求項８のいずれかに記載のコンピュータプログラム。
前記ユーザの発話に関する第１音声信号を第２期間において連続的に取得し、
前記第２期間に含まれる複数の単位時間と、該複数の単位時間の各々に対応する前記第１音声信号のラウドネスと、を対応付けて、前記第２期間に又は該第２期間の後に前記表示部に表示する、
ように前記少なくとも１つのプロセッサを機能させる、請求項１から請求項９のいずれかに記載のコンピュータプログラム。
前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより生成された第２音声信号を、音声出力部から出力する、
ように前記少なくとも１つのプロセッサを機能させる、請求項１から請求項１０のいずれかに記載のコンピュータプログラム。
前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより生成された第２音声信号を、音声出力部から出力し、
前記少なくとも１つの環境効果プリセットのうち前記ユーザにより選択された少なくとも１つの環境効果プリセットを用いて前記ユーザの発話に関する第１音声信号又は前記第２音声信号に対して信号処理を行うことにより生成された第３音声信号を、前記音声出力部から出力する、
ように前記少なくとも１つのプロセッサを機能させる、請求項２に記載のコンピュータプログラム。
前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより生成された第２音声信号を、通信回線を介して送信する、
ように前記少なくとも１つのプロセッサを機能させる、請求項１から請求項１２のいずれかに記載のコンピュータプログラム。
前記少なくとも１つの音声変換プリセットのうち前記ユーザにより選択された１つの音声変換プリセットを用いて前記ユーザの発話に関する第１音声信号に対して信号処理を行うことにより第２音声信号を生成し、
前記少なくとも１つの環境効果プリセットのうち前記ユーザにより選択された少なくとも１つの環境効果プリセットを用いて前記第２音声信号に対して信号処理を行うことにより生成された第３音声信号を、通信回線を介して送信する、
ように前記少なくとも１つのプロセッサを機能させる、請求項２に記載のコンピュータプログラム。
前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む、請求項１から請求項１４のいずれかに記載のコンピュータプログラム。
コンピュータにより読み取り可能な命令を実行する少なくとも１つのプロセッサにより実行される方法であって、
前記少なくとも１つのプロセッサが、前記命令を実行することにより、
ユーザの発話に関する第１音声信号を取得すること、
前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示すること、並びに、
該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示すること、
を含むことを特徴とする方法。
前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む、請求項１６に記載の方法。
少なくとも１つのプロセッサを具備し、
該少なくとも１つのプロセッサが、
ユーザの発話に関する第１音声信号を該ユーザの端末装置から通信回線を介して取得し、
前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを、前記通信回線を介して前記端末装置に送信して表示させ、
該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記通信回線を介して前記端末装置に送信して表示させる、
ように構成されることを特徴とするサーバ装置。
前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む、請求項１８に記載のサーバ装置。
前記通信回線がインターネットを含む、請求項１８又は請求項１９に記載のサーバ装置。
コンピュータにより読み取り可能な命令を実行する少なくとも１つのプロセッサにより実行される方法であって、
前記少なくとも１つのプロセッサが、前記命令を実行することにより、
ユーザの発話に関する第１音声信号を該ユーザの端末装置から通信回線を介して取得すること、
前記第１音声信号に対して信号処理を行うことにより取得された、該第１音声信号にノイズが生じている少なくとも１つの要因を示すデータ、及び、前記第１音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも１つのアドバイスを示すデータ、のうちの少なくとも一方のデータを、前記通信回線を介して前記端末装置に送信して表示させること、並びに、
該ユーザの発話に関する第１音声信号を変換する少なくとも１つの音声変換プリセットに関するデータを、該少なくとも１つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記通信回線を介して前記端末装置に送信して表示させること、
を含むことを特徴とする方法。
前記少なくとも１つのプロセッサが、中央処理装置（ＣＰＵ）、マイクロプロセッサ、及び／又は、グラフィックスプロセッシングユニット（ＧＰＵ）を含む、請求項２１に記載の方法。
前記通信回線がインターネットを含む、請求項２１又は請求項２２に記載の方法。