特許法第30条第2項適用申請有り (1)ウェブサイトの掲載日 2021年2月24日 ウェブサイトのアドレス https://www.mtg.acoustics.jp/poster.html#2-2P-9 公開者 白井 暁彦、堀部 貴紀及び森勢 将雅 公開された発明の内容 白井 暁彦、堀部 貴紀及び森勢 将雅が、上記アドレスにより特定されるウェブサイトにおいて、本件出願に係る発明に関連した、「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」と題した論文に関する概要及びポスターを公開した。 (2)開催日 2021年3月11日 集会名、開催場所 日本音響学会2021年春季研究発表会、Zoom会場 公開者 白井 暁彦、堀部 貴紀及び森勢 将雅 公開された発明の内容 白井 暁彦、堀部 貴紀及び森勢 将雅が、日本音響学会2021年春季研究発表会において、本件出願に係る発明に関連した、「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」と題した論文に関する発表を行った。 (3)ウェブサイトの掲載日 2021年4月6日 ウェブサイトのアドレス https://www.slideshare.net/vrstudiolab/ss-245769023 公開者 白井 暁彦、堀部 貴紀及び森勢 将雅 公開された発明の内容 白井 暁彦、堀部 貴紀及び森勢 将雅が、上記アドレスにより特定されるウェブサイトにおいて、本件出願に係る発明に関連した、「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」と題した論文に関するポスターを公開した。
本明細書は、いかなる方法によっても限定されることを意図していない、代表的な様々な実施形態という意味により記載される。
本件出願において用いられるように、「1つの」、「前記」、「上記」、「当該」、「該」、「この」、「その」といった単数形は、複数形でないことを明確に示さない限り、複数形を含むことができる。また、「含む」という用語は、「具備する」こと又は「備える」ことを意味し得る。さらに、「結合された」、「結合した」、「結び付けられた」、「結び付けた、「接続された」又は「接続した」という用語は、対象物を相互に結合する、接続する又は結び付ける、機械的、電気的、磁気的及び光学的な方法を他の方法とともに包含し、このように結合された、結合した、結び付けられた、結び付けた、接続された又は接続した対象物の間にある中間要素の存在を排除しない。
本明細書において記載される、様々なシステム、方法及び装置は、いかなる方法によっても限定されるものとして解釈されるべきではない。実際には、本開示は、開示された様々な実施形態の各々、これら様々な実施形態を相互に組み合わせたもの、及び、これら様々な実施形態の一部を相互に組み合わせたもの、のうちのあらゆる新規な特徴及び態様に向けられている。本明細書において記載される、様々なシステム、方法及び装置は、特定の態様、特定の特徴、又は、このような特定の態様と特定の特徴とを組み合わせたものに限定されないし、本明細書に記載される物及び方法は、1若しくはそれ以上の特定の効果が存在すること又は課題が解決されることを、要求するものでもない。さらには、本明細書において記載された様々な実施形態のうちの様々な特徴若しくは態様、又は、そのような特徴若しくは態様の一部は、相互に組み合わせて用いられ得る。
本明細書において開示された様々な方法のうちの幾つかの方法の動作が、便宜上、特定の順序に沿って記載されているが、このような手法による記載は、特定の順序が以下特定の文章によって要求されていない限り、上記動作の順序を並び替えることを包含する、と理解すべきである。例えば、順番に記載された複数の動作は、幾つかの場合には、並び替えられるか又は同時に実行される。さらには、簡略化を目的として、添付図面は、本明細書に記載された様々な事項及び方法が他の事項及び方法とともに用いられ得るような様々な方法を示していない。加えて、本明細書は、「生成する」、「発生させる」、「表示する」、「受信する」、「評価する」及び「配信する」のような用語を用いることがある。これらの用語は、実行される実際の様々な動作のハイレベルな記載である。これらの用語に対応する実際の様々な動作は、特定の実装に依存して変化し得るし、本明細書の開示の利益を有する当業者によって容易に認識され得る。
本開示の装置又は方法に関連して本明細書に提示される、動作理論、科学的原理又は他の理論的な記載は、よりよい理解を目的として提供されており、技術的範囲を限定することを意図していない。添付した特許請求の範囲における装置及び方法は、このような動作理論により記載される方法により動作する装置及び方法に限定されない。
本明細書に開示された様々な方法のいずれもが、コンピュータにより読み取り可能な1又はそれ以上の媒体(例えば、1又はそれ以上の光学媒体ディスク、複数の揮発性メモリ部品、又は、複数の不揮発性メモリ部品といったような、非一時的なコンピュータにより読み取り可能な記憶媒体)に記憶された、コンピュータにより実行可能な複数の命令を用いて実装され、さらに、コンピュータにおいて実行され得る。ここで、上記複数の揮発性メモリ部品は、例えばDRAM又はSRAMを含む。また、上記複数の不揮発性メモリ部品は、例えばハードドライブ及びソリッドステートドライブ(SSD)を含む。さらに、上記コンピュータは、例えば、計算を行うハードウェアを有するスマートフォン及び他のモバイル装置を含む、市場において入手可能な任意のコンピュータを含む。
本明細書において開示された技術を実装するためのこのようなコンピュータにより実行可能な複数の命令のいずれもが、本明細書において開示された様々な実施形態の実装の間において生成され使用される任意のデータとともに、1又はそれ以上のコンピュータにより読み取り可能な媒体(例えば、非一時的なコンピュータにより読み取り可能な記憶媒体)に記憶され得る。このようなコンピュータにより実行可能な複数の命令は、例えば、個別のソフトウェアアプリケーションの一部であり得るか、又は、ウェブブラウザ若しくは(リモート計算アプリケーションといったような)他のソフトウェアアプリケーションを介してアクセス又はダウンロードされるソフトウェアアプリケーションの一部であり得る。このようなソフトウェアは、例えば、(例えば市場において入手可能な任意の好適なコンピュータにおいて実行されるプロセスとしての)単一のローカルコンピュータにおいて、又は、1又はそれ以上のネットワークコンピュータを用いて、ネットワーク環境(例えば、インターネット、ワイドエリアネットワーク、ローカルエリアネットワーク、(クラウド計算ネットワークといったような)クライアントサーバネットワーク、又は、他のそのようなネットワーク)において、実行され得る。
明確化のために、ソフトウェアをベースとした様々な実装のうちの特定の選択された様々な態様のみが記載される。当該分野において周知である他の詳細な事項は省略される。例えば、本明細書において開示された技術は、特定のコンピュータ言語又はプログラムに限定されない。例えば、本明細書において開示された技術は、C、C++、Java(登録商標)、又は、他の任意の好適なプログラミング言語で記述されたソフトウェアにより実行され得る。同様に、本明細書において開示された技術は、特定のコンピュータ又は特定のタイプのハードウェアに限定されない。好適なコンピュータ及びハードウェアの特定の詳細な事項は、周知であって、本明細書において詳細に説明する必要はない。
さらには、このようなソフトウェアをベースとした様々な実施形態(例えば、本明細書において開示される様々な方法のいずれかをコンピュータに実行させるための、コンピュータにより実行可能な複数の命令を含む)のいずれもが、好適な通信手段により、アップロードされ、ダウンロードされ、又は、リモート方式によりアクセスされ得る。このような好適な通信手段は、例えば、インターネット、ワールドワイドウェブ、イントラネット、ソフトウェアアプリケーション、ケーブル(光ファイバケーブルを含む)、磁気通信、電磁気通信(RF通信、マイクロ波通信、赤外線通信を含む)、電子通信、又は、他のそのような通信手段を含む。
本件出願において用いられる「ギフト」という用語は、「トークン(token)」という用語と同様の概念を意味する。したがって、「ギフト」という用語を「トークン(token)」という用語に置き換えて、本件出願に記載された技術を理解することも可能である。
以下、添付図面を参照して本発明の様々な実施形態を説明する。なお、図面において共通した構成要素には同一の参照符号が付されている。また、或る図面に表現された構成要素が、説明の便宜上、別の図面においては省略されていることがある点に留意されたい。さらにまた、添付した図面が必ずしも正確な縮尺で記載されている訳ではないということに注意されたい。
また、本件出願に開示された様々な実施形態に係るボイスチェンジャー機能は、ユーザの発話に関する音声信号を別のキャラクターの声に対応する音声信号に変換することが可能な任意のサービス・アプリケーションにおいて適用することが可能である。例えば、本件出願に開示された様々な実施形態に係るボイスチェンジャー機能は、以下に例示する様々なサービスのうちの少なくとも1つのサービス・アプリケーションにおいて適用することが可能である。
・ユーザの動作に関する動作データに基づいて変化するアバターのアニメーションとこのユーザの発話に関する音声信号とを含む動画(又はこの動画を生成するための構成データ)を、通信回線を介して他のユーザに向けて配信するサービス・アプリケーション(第1のタイプのサービス・アプリケーション)
・オンライン又はオフライン方式により、ユーザの発話に関する音声信号を、取得して、複数のキャラクターのうちユーザにより選択された1つのキャラクターの声に対応する音声信号に変換するサービス・アプリケーション(第2のタイプのサービス・アプリケーション)
・ユーザを撮像しかつこのユーザの声を録画した動画を、通信回線を介して他のユーザに向けて配信する所謂ビデオ会議を提供するサービス・アプリケーション(第3のタイプのサービス・アプリケーション)
以下、説明を簡単にするために、本件出願に開示された様々な実施形態に係るボイスチェンジャー機能を、第1のタイプのサービス・アプリケーションに適用される場合を例にとり説明する。
本件出願に開示された技術を用いる通信システムでは、簡潔にいえば、ユーザの端末装置等が、少なくとも一部分においてサーバ装置と通信しながら又はサーバ装置と通信することなく、上記ユーザの発話に関する音声信号がボイスチェンジャー機能により変換された音声信号を取得することができる。
1.通信システムの例
図1は、一実施形態に係る通信システムの構成の一例を示すブロック図である。図1に示すように、通信システム1は、通信網(通信回線)10に接続される1又はそれ以上の端末装置20と、通信網10に接続される1又はそれ以上のサーバ装置30と、を含むことができる。なお、図1には、端末装置20の例として、3つの端末装置20A~20Cが例示され、サーバ装置30の例として、3つのサーバ装置30A~30Cが例示されているが、端末装置20として、これら以外の1又はそれ以上の端末装置20が通信網10に接続され得るし、サーバ装置30として、これら以外の1又はそれ以上のサーバ装置30が通信網10に接続され得る。
また、通信システム1は、通信網10に接続される1又はそれ以上のスタジオユニット40を含むことができる。なお、図1には、スタジオユニット40の例として、2つのスタジオユニット40A及び40Bが例示されているが、スタジオユニット40として、これら以外の1又はそれ以上のスタジオユニット40が通信網10に接続され得る。
「第1の態様」では、図1に示す通信システム1において、ユーザにより操作され特定のアプリケーションを実行する端末装置20(例えば端末装置20A)が、端末装置20Aに対向するユーザの発話に関する音声信号を取得することができる。上記特定のアプリケーションは、ウェブブラウザ、音声/動画配信用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等であり得る。なお、ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。
端末装置20Aは、取得した音声信号に基づいて「変換器」、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセット)を取得し、取得した変換器を用いて変換された音声信号を生成することができる。また、端末装置20Aは、生成された音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信することができる。
さらに、サーバ装置30Aが、端末装置20Aから受信した音声信号を(別の実施形態では動画信号とともに)、通信網10を介して他の1又はそれ以上の端末装置20であって特定のアプリケーションを実行して音声/動画の配信を要求する旨を送信した端末装置20に配信することができる。上記特定のアプリケーションは、音声/動画視聴用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等であり得る。なお、ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。
また、この「第1の態様」では、ユーザの発話に関する音声信号を取得してから変換器(音声変換アルゴリズム、及び、音声変換プリセット(音声変換に用いられるパラメータ)のセット)を取得するまでの一連の動作のすべてが、端末装置20によって実行されるようにしてもよいし、これら一連の動作のうち、音声信号の取得を除く動作の少なくとも一部が、サーバ装置30又は他の端末装置20等により実行されるようにしてもよい。
「第2の態様」では、図1に示す通信システム1において、例えばスタジオ等又は他の場所に設置されたサーバ装置30(例えばサーバ装置30B)が、上記スタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得することができる。サーバ装置30Bは、取得した音声信号に基づいて変換器(音声変換アルゴリズム、及び、音声変換に用いられるパラメータのセット(音声変換プリセット))を取得し、取得した変換器を用いて変換された音声信号を生成することができる。さらに、サーバ装置30Bは、生成された音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介して1又はそれ以上の端末装置20であって特定のアプリケーションを実行して動画の配信を要求する旨を送信した端末装置20に配信することができる。上記特定のアプリケーションは、動画視聴用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等であり得る。なお、ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。
「第3の態様」では、図1に示す通信システム1において、例えばスタジオ等又は他の場所に設置されたスタジオユニット40が、上記スタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得することができる。このスタジオユニット40は、取得した音声信号に基づいて変換器(音声変換アルゴリズム、及び、音声変換に用いられるパラメータのセット(音声変換プリセット))を取得することができる。さらに、スタジオユニット40は、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(別の実施形態では動画信号とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信することができる。さらに、サーバ装置30Aが、スタジオユニット40から受信した音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介して他の1又はそれ以上の端末装置20であって上記特定のアプリケーションを実行して音声/動画の配信を要求する旨を送信した端末装置20に配信することができる。
通信網(通信回線)10は、携帯電話網、無線ネットワーク(例えば、Bluetooth(登録商標)、(IEEE 802.11a/b/nといったような)WiFi、WiMax、セルラー、衛星、レーザー、赤外線、を介したRF接続)、固定電話網、インターネット、イントラネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及び/又は、イーサネット(登録商標)ネットワークを、これらに限定することなく含むことができる。
端末装置20は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページ(例えば、HTML/HTML5ドキュメント、幾つかの例では、JavaScript又はPHPコードといったような実行可能なコードを符号化したHTML/HTML5ドキュメント)を受信及び表示し、そのウェブページに組み込まれたコード(プログラム)を実行することができる。これにより、端末装置20は、図7A、図7B、図9、図11及び図12等を参照して後に説明するような様々な動作を実行することができる。なお、端末装置20は、これら様々な動作のうちの少なくとも一部の動作を、上記ウェブページに組み込まれたプログラムに従って実行することもできるし、サーバ装置30に実行させてその実行の結果をサーバ装置30から受信することもできる。なお、上記少なくとも一部の動作は、例えば、図7Aに示すST302、ST304、ST306、ST308及び/又はST320等を、これらに限定することなく含むことができる。この場合、サーバ装置30は、そのような少なくとも一部の動作を、任意のプログラミング言語(例えば、Python、C++等)により記述されたプログラムに従って実行することができる。
或いはまた、端末装置20は、インストールされた上記特定のアプリケーションを実行することにより、同様の動作を実行することができる。
端末装置20は、ブラウザを用いてウェブページを受信し、このウェブページに組み込まれたプログラムを実行することにより(又は特定のアプリケーションを実行することにより)、このような動作を実行することができる任意の端末装置であって、スマートフォン、タブレット、携帯電話(フィーチャーフォン)及び/又はパーソナルコンピュータ等を、これらに限定することなく含むことができる。
サーバ装置30は、「第1の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置30は、各端末装置20からユーザの音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介して受信し、受信した音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
サーバ装置30は、「第2の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置30は、このサーバ装置30が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
さらにまた、サーバ装置30は、「第3の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置30は、スタジオ等又は他の場所に設置されたスタジオユニット40からこのスタジオ等に居るユーザの音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介して受信し、受信した音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各スタジオユニット40に送信するウェブページを介して、同様の動作を実行することができる。
スタジオユニット40は、インストールされた上記特定のアプリケーションを実行する情報処理装置として機能することができる。これにより、スタジオユニット40は、このスタジオユニット40が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信する、という動作等を実行することができる。或いはまた、スタジオユニット40は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページを受信及び表示して(さらに、オプションとして、ウェブページに組み込まれたプログラムを実行して)、同様の動作を実行することができる。
2.各装置のハードウェア構成
次に、端末装置20、サーバ装置30及びスタジオユニット40の各々が有するハードウェア構成の一例について説明する。
2-1.端末装置20のハードウェア構成
各端末装置20のハードウェア構成例について図2を参照して説明する。図2は、図1に示した端末装置20(又はサーバ装置30等)のハードウェア構成の一例を模式的に示すブロック図である(なお、図2において、括弧内の参照符号は、後述するように各サーバ装置30に関連して記載されている)。
図2に示すように、各端末装置20は、中央処理装置21と、主記憶装置22と、入出力インタフェイス装置23と、入力装置24と、補助記憶装置25と、出力装置26と、を含むことができる。これら装置同士は、データバス及び/又は制御バスにより接続されている。
中央処理装置21は、「CPU」と称され、主記憶装置22に記憶されている命令及びデータに対して演算を行い、その演算の結果を主記憶装置22に記憶させることができる。さらに、中央処理装置21は、入出力インタフェイス装置23を介して、入力装置24、補助記憶装置25及び出力装置26等を制御することができる。端末装置20は、1又はそれ以上のこのような中央処理装置21を含むことが可能である。
主記憶装置22は、「メモリ」と称され、入力装置24、補助記憶装置25及び通信網10等(サーバ装置30等)から、入出力インタフェイス装置23を介して受信した命令及びデータ、並びに、中央処理装置21の演算結果を記憶することができる。主記憶装置22は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、リードオンリーメモリ(ROM)、EEPROM、フラッシュメモリ)、及び、ストレージ(例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、磁気テープ、光学媒体)、といったようなコンピュータにより読み取り可能な媒体を、これらに限定することなく含むことができる。容易に理解されるように、「コンピュータにより読み取り可能な記録媒体」という用語は、変調されたデータ信号すなわち一時的な信号といったような送信媒体ではなく、メモリ及びストレージといったようなデータストレージのための媒体を含むことができる。
補助記憶装置25は、主記憶装置22よりも大きな容量を有する記憶装置である。補助記憶装置25は、上記特定のアプリケーションやウェブブラウザ等を構成する命令及びデータ(コンピュータプログラム)を記憶しておき、中央処理装置21により制御されることにより、これらの命令及びデータ(コンピュータプログラム)を、入出力インタフェイス装置23を介して主記憶装置22に送信することができる。補助記憶装置25は、磁気ディスク装置及び/又は光ディスク装置等をこれらに限定することなく含むことができる。
入力装置24は、外部からデータを取り込む装置であり、タッチパネル、ボタン、キーボード、マウス及び/又はセンサ(マイク、カメラ)等をこれらに限定することなく含むことができる。
出力装置26は、ディスプレイ装置、タッチパネル、スピーカー及び/又はプリンタ装置等をこれらに限定することなく含むことができる。
このようなハードウェア構成にあっては、中央処理装置21が、補助記憶装置25に記憶された特定のアプリケーションを構成する命令及びデータ(コンピュータプログラム)を順次主記憶装置22にロードし、ロードした命令及びデータを演算することができる。これにより、中央処理装置21は、入出力インタフェイス装置23を介して出力装置26を制御し、或いはまた、入出力インタフェイス装置23及び通信網10を介して、他の装置(例えばサーバ装置30及び他の端末装置20等)との間で様々な情報(データ)の送受信を行うことができる。
このように、端末装置20は、インストールされた上記特定のアプリケーションを実行することにより、ユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信することができる。或いはまた、端末装置20は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページを受信及び表示して、同様の動作を実行することができる。
なお、端末装置20は、中央処理装置21に代えて又は中央処理装置21とともに、1又はそれ以上のマイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含むこともできる。
2-2.サーバ装置30のハードウェア構成
各サーバ装置30のハードウェア構成例について同じく図2を参照して説明する。各サーバ装置30のハードウェア構成としては、例えば、上述した各端末装置20のハードウェア構成と同様のものを用いることが可能である。したがって、各サーバ装置30が有する構成要素に対する参照符号は、図2において括弧内に示されている。
図2に示すように、各サーバ装置30は、中央処理装置31と、主記憶装置32と、入出力インタフェイス装置33と、入力装置34と、補助記憶装置35と、出力装置36と、を含むことができる。これら装置同士は、データバス及び/又は制御バスにより接続されている。
中央処理装置31、主記憶装置32、入出力インタフェイス装置33、入力装置34、補助記憶装置35及び出力装置36は、それぞれ、上述した各端末装置20に含まれる、中央処理装置21、主記憶装置22、入出力インタフェイス装置23、入力装置24、補助記憶装置25及び出力装置26と略同一であり得る。
このようなハードウェア構成にあっては、中央処理装置31が、補助記憶装置35に記憶された特定のアプリケーションを構成する命令及びデータ(コンピュータプログラム)を順次主記憶装置32にロードし、ロードした命令及びデータを演算することができる。これにより、中央処理装置31は、入出力インタフェイス装置33を介して出力装置36を制御し、或いはまた、入出力インタフェイス装置33及び通信網10を介して、他の装置(例えば各端末装置20等)との間で様々な情報(データ)の送受信を行うことができる。
これにより、サーバ装置30は、「第1の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置30は、各端末装置20からユーザの音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介して受信し、受信した音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
また、サーバ装置30は、「第2の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置30は、このサーバ装置30が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
さらにまた、サーバ装置30は、「第3の態様」では、インストールされた上記特定のアプリケーションを実行してアプリケーションサーバとして機能することができる。これにより、サーバ装置30は、スタジオ等又は他の場所に設置されたスタジオユニット40からこのスタジオ等に居るユーザの音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介して受信し、受信した音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。
なお、サーバ装置30は、中央処理装置31に代えて又は中央処理装置31とともに、1又はそれ以上のマイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含むこともできる。或いはまた、サーバ装置30は、インストールされた上記特定のアプリケーションを実行してウェブサーバとして機能することにより、各スタジオユニット40に送信するウェブページを介して、同様の動作を実行することができる。
2-3.スタジオユニット40のハードウェア構成
スタジオユニット40は、パーソナルコンピュータ等の情報処理装置により実装可能であって、図示はされていないが、上述した端末装置20及びサーバ装置30と同様に、中央処理装置と、主記憶装置と、入出力インタフェイス装置と、入力装置と、補助記憶装置と、出力装置と、を含むことができる。これら装置同士は、データバス及び/又は制御バスにより接続されている。
スタジオユニット40は、インストールされた上記特定のアプリケーションを実行して情報処理装置として機能することができる。これにより、スタジオユニット40は、このスタジオユニット40が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(別の実施形態では動画信号を生成するための構成データ又は動画信号自体とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信する、という動作等を実行することができる。或いはまた、スタジオユニット40は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページを受信及び表示して、同様の動作を実行することができる。
3.各装置の機能
次に、端末装置20、サーバ装置30及びスタジオユニット40の各々が有する機能の一例について説明する。
3-1.端末装置20の機能
端末装置20の機能の一例について図3を参照して説明する。図3は、図1に示した端末装置20(又はサーバ装置30)の機能の一例を模式的に示すブロック図である(なお、図3において、括弧内の参照符号は、後述するようにサーバ装置30に関連して記載されたものである。)。
図3に示すように、端末装置20は、構成データ生成部100と、特徴量抽出部110と、変換器取得部112と、特徴量変換部114と、音声合成部116と、解析部118と、記憶部120と、表示部122と、通信部124と、音声出力部126と、動画生成部128と、を含むことができる。
(1)構成データ生成部100
構成データ生成部100は、当該端末装置10が配信者の端末装置10として動作する場合に、例えば単位時間ごとに、配信者の動作に関する動作データとこの配信者の発した音声に関する音声データとを少なくとも含む構成データを生成することができる。動作データは、配信者の顔等の動作のディジタル表現をタイムスタンプに対応付けて記録したデータであり得る。音声データ(音声信号)は、配信者の発した音声のディジタル表現をタイムスタンプに対応付けて記録したデータであり得る。
構成データ生成部100は、このような構成データを生成するために、例えば、取得部102と、処理部104と、を含むことができる。
取得部102は、配信者の身体に関するデータを取得する1又はそれ以上の第1のセンサ102a(例えばカメラ102c)と、配信者により発せられた発話に関する音声データを取得する1又はそれ以上の第2のセンサ102b(例えばマイク102d)と、を含むことができる。
第1のセンサ102aは、例えば、配信者の顔等に向かって赤外線を放射する図示しない放射部、及び、配信者の顔等に反射した赤外線を検出する図示しない赤外線カメラを含むことができる。或いはまた、第1のセンサ102aは、配信者の顔等を撮影する図示しないRGBカメラ、及び、このカメラにより撮影された画像を処理する画像処理部を含むことができる。
第2のセンサ102bは、例えば、配信者により発せられた音声を検出して音声データ(音声信号)として出力することができる。
処理部104は、第1のセンサ102aにより検出されたデータを用いて、所定の時点(例えば検出を開始した初期時点)からの配信者の表情の変化、及び、配信者の相対位置の変化を検出することができる。これにより、処理部104は、タイムスタンプに対応付けて配信者の顔等の変化を示す動作データ(モーションデータ)を生成することができる。かかる動作データは、例えば、タイムスタンプにより識別される単位時間ごとに、配信者の顔等のいずれの部分がどのように変化したのか、及び、配信者の相対位置がどのように変化したのかを示すデータ等を含み得る。
例えば、動作データは、モーションキャプチャシステムを用いて取得され得る。本開示による利益を有する当業者により容易に理解されるように、本件出願において開示される装置及び方法とともに使用され得る幾つかの例の適切なモーションキャプチャシステムは、パッシブマーカ若しくはアクティブマーカを用いた又はマーカを用いない光学式モーションキャプチャシステムと、慣性式及び磁気式の非光学式システムとを含む。モーションデータは、モーションデータを動画又は他のイメージデータに変換するコンピュータに結合された、(CCD(電荷結合デバイス)又はCMOS(相補型金属酸化膜半導体)イメージセンサといったような)イメージキャプチャ装置を用いて取得され得る。
さらに、処理部104は、第2のセンサ102bにより検出された音声データ(音声信号)をタイムスタンプに対応付けて記録することにより、音声データを生成することができる。例えば、処理部104は、この音声データ(音声信号)をMPEGファイル等の音声ファイルとして生成することができる。
このように、処理部104は、音声データ及び動作データを少なくとも含む構成データを生成することができる。
また、処理部104は、アバターデータを構成データに含めることもできる。アバターデータは、配信者のアバターを描画するための3次元モデルデータである。アバターデータは、アバター本体を描画するためのデータ、及び、アバター本体に適用されるテクスチャデータ等を含み得る。アバター本体を描画するためのデータには、ポリゴンデータ及びアバターの動作を表現するための骨格(ボーン)データ等が含まれ得る。テクスチャデータには、アバターに対して適用される複数のパーツデータ(例えば、目、眉、鼻、耳及び服等)が含まれ得る。
(2)特徴量抽出部110
特徴量抽出部110は、構成データ生成部100により生成された音声信号(第1音声信号又は第2音声信号)に対して、例えば短時間フレーム分析を施すことにより、各時間フレームにおける各種の特徴量(音声特徴量)を抽出することができる。一実施形態では、特徴量抽出部110は、特徴量として、(i)声の高さを示す基本周波数、(ii)声道の共鳴によって強調される周波数成分(例えば、第1フォルマントの周波数)、(iii)メル周波数ケプストラム係数(MFCC)、(iv)ΔMFCC(単位時間当たりのMFCCの変化量)、(v)再生時間、及び、(vi)信号対雑音比(SN比)等をこれらに限定することなく含む様々な特徴料、のうちの少なくとも1つを抽出することができる。これらの特徴量は、任意の周知の技術により取得可能である。例えば、これらの特徴量は、「openSMILE」といった周知のライブラリを利用することによっても取得可能である。
(3)変換器取得部112
変換器取得部112は、特徴量抽出部110により抽出された特徴量を用いて、ユーザにより用いられるべき1又はそれ以上の変換器を取得することができる。ここで、「変換器」とは、ユーザの発話に関する音声信号であって変換対象である音声信号から抽出される少なくとも1つの特徴量をどのように変換するかを示すパラメータ(例えば、基本周波数をどの程度増加又は低下させるかを示すパラメータ、第1フォルマントの周波数をいずれの周波数の範囲に移動させるかを示すパラメータ等)有するものである。
(4)特徴量変換部114
特徴量変換部114は、ユーザの発話に関する音声信号から抽出した少なくとも1つの特徴量を、変換器取得部112により取得された変換器(音声変換アルゴリズム及び音声変換に用いられるパラメータのセット)を用いて変換し、変換された少なくとも1つの特徴量を、音声合成部116に出力することができる。
(5)音声合成部116
音声合成部116は、特徴量変換部114から入力した、変換された少なくとも1つの特徴量を用いて音声合成処理を行うことにより、ユーザの発話に関する音声信号(第1音声信号)が加工された音声信号(第2音声信号)を生成することができる。例えば、音声合成部116は、変換された少なくとも1つの特徴量から、ボコーダを用いることにより、ユーザの音声が加工された音声信号(変換後の音声信号)を生成することができる。
さらに、音声合成部116は、第1音声信号又は第2音声信号に対して少なくとも1つのポストエフェクト処理を行うことにより、ユーザが居る場所の音響を変化させた音声信号(第3音声信号)を生成することもできる。
(6)解析部118
解析部118は、構成データ生成部100により生成された音声信号(音声データ)を解析することにより、少なくとも1つの解析結果を示す解析データを生成することができる。
まず第1に、解析部118は、音声信号の信号対雑音比(SN比)を示す第1解析データを生成することができる。音声信号の信号対雑音比を計算する手法としては、様々な周知の手法のうちのいずれかを用いることが可能である。
解析部118は、構成データ生成部100が、ユーザの発話に関する音声信号を或る期間(例えば第1期間)において連続的に取得したときに、この第1期間に含まれる複数の単位時間(各単位時間は、固定又は可変の任意の時間であり、例えば1秒)と、これら複数の単位時間の各々に対応する音声信号の信号対雑音比と、を対応付けた第1解析データを生成することができる。
第2に、解析部118は、音声信号のラウドネスを示す第2解析データを生成することができる。音声信号のラウドネスを計算する手法としては、様々な周知の手法のうちのいずれかを用いることが可能である。
解析部118は、構成データ生成部100が、ユーザの発話に関する音声信号を或る期間(例えば第2期間)において連続的に取得したときに、この第2期間に含まれる複数の単位時間(各単位時間は、固定又は可変の任意の時間であり、例えば1秒)と、これら複数の単位時間の各々に対応する音声信号のラウドネスと、を対応付けた第2解析データを生成することができる。
第3に、解析部118は、構成データ生成部100により生成された音声信号(第1音声信号)と、学習モデルと、を用いて、解析を行うことができる。
具体的には、まず、学習モデルが予め用意され記憶されている。この学習モデルは、例えば、入力層と、複数の中間層と、出力層と、を含むモデル(例えばSVM(Support Vector Machine))であり、複数セットの教師データを用いて学習させることにより、生成され得る。
上記複数セットの教師データの各々は、例えば10秒間の第1音声信号から生成された複数の特徴量、例えば、MFCC、ΔMFCC、再生時間及びSN比を含む複数の特徴量と、この第1音声信号により変換された第2音声信号(この第2音声信号の内容を聴き取れなかったときにはこの第2音声信号の元となった第1音声信号)を聴いてこの第2音声信号(第1音声信号)にノイズが生じている少なくとも1つの要因として評価者(人間)により評価された要因を示す要因データと、を含むことができる。
図4は、図1に示す通信システムにおいて用いられる学習モデルに使用される教師データの具体例を示す表である。
評価者が、或るユーザの第2音声信号(この第2音声信号の内容を聴き取れなかったときにはこの第2音声信号の元になった第1音声信号)を聴いて、図4の左列に例示される複数の要因のうち、その第2音声信号にノイズが生じている少なくとも1つの要因を選択する(その要因に対応するラベルを付す)ことができる。そのように選択された少なくとも1つの要因を示す要因データが、生成される。このような各セットが第1音声信号から取得された複数の特徴量と要因データとを含む、複数セットの教師データを用いて、学習モデル(SVM)が学習を行うことができる。これにより、学習モデルが生成され得る。
解析部118は、このような学習モデルに対して、特徴量抽出部110(210)により第1音声信号を用いて生成された複数の特徴量を入力することにより、その第1音声信号にノイズが生じている少なくとも1つの要因を示す要因データを取得することができる。なお、解析部118は、このような学習モデルに対して、特徴量抽出部110(210)により第2音声信号を用いて生成された複数の特徴量を入力することによっても、その第1音声信号にノイズが生じている少なくとも1つの要因を示す要因データを生成することができる。
少なくとも1つの要因データは、例えば、(A)ユーザの居る環境、(B)外界の音、及び、(C)ユーザの発話に関するデータであり得る。
(A)については、図4に示した例に着目すると、「屋外で収録」、「反響するような空間で収録」等が該当し得る。
(B)については、「空調などの音響が混じっている」、「他者の会話が混じっている」、「音楽が混じっている」、「テレビなどの音が混じっている」等が該当する。
(C)については、「マイクに息が当たっている」、「マイクなどに触れている」、「発話が途切れ途切れ」、「ボソボソ声」、「発話品質が低い」、「1秒未満・発話なし」等が該当し得る。
第4に、解析部118は、ユーザの発話に関する少なくとも1つのアドバイスを示すアドバイスデータを生成することができる。例えば、解析部118は、図4に例示されるような、各要因データと、その要因データに関連するアドバイスデータと、を対応付けたテーブルを記憶部120から取得することができる。
解析部118は、上述した要因データが、例えば「マイクに息が当たっている」、「空調などの音響が混じっている」及び「屋外で収録」を示す場合には、このようなテーブルを参照することにより、アドバイスデータとして、「発声する方向を少し変えてみましょう」、「空調を切りましょう」及び「屋内で話しましょう」を示すアドバイスデータを取得することができる。
或いはまた、解析部118は、アドバイスデータを、要因データと同様に、複数セットの教師データを用いて学習された学習モデルから生成することも可能である。上記複数セットの教師データの各々は、例えば10秒間の第1音声信号から生成された複数の特徴量、例えば、MFCC、ΔMFCC、再生時間及びSN比を含む複数の特徴量と、この第1音声信号により変換された第2音声信号(この第2音声信号の内容を聴き取れなかったときにはこの第2音声信号の元となった第1音声信号)を聴いてこの第2音声信号(第1音声信号)にノイズが生じている少なくとも1つの要因に対するアドバイスとして評価者(人間)により付与されたアドバイスを示すアドバイスデータと、を含むことができる。
評価者が、或るユーザの第2音声信号(必要に応じてこの第2音声信号の元になった第1音声信号)を聴いて、図4の右列に例示される複数のアドバイスのうち提案すべき少なくとも1つのアドバイスを選択することができる。そのように選択された少なくとも1つのアドバイスを示すアドバイスデータが、生成される。このような各セットが第1音声信号から取得された複数の特徴量とアドバイスデータとを含む複数セットの教師データを用いて、学習モデル(SVM)が学習を行うことができる。これにより、学習モデルが生成され得る。
解析部118は、このような学習モデルに対して、特徴量抽出部110(210)により第1音声信号を用いて生成された複数の特徴量を入力することにより、ユーザの発話に関する少なくとも1つのアドバイスを示すアドバイスデータを生成することができる。なお、解析部118は、このような学習モデルに対して、特徴量抽出部110(210)により第2音声信号を用いて生成された複数の特徴量を入力することによっても、ユーザの発話に関する少なくとも1つのアドバイスを示すアドバイスデータを生成することができる。
少なくとも1つのアドバイスデータは、例えば、(a)ユーザの抑揚に関するアドバイス」、(b)ユーザの発話の長さに関するアドバイス、(c)ユーザの居る環境に関するアドバイス、(d)ノイズの要因に関するアドバイス、に関するデータであり得る。
(a)については、図4に示した例に着目すると、「もう少し明確に発声しましょう」、「もう少し大きな声で」等が該当し得る。
(b)については、「もう少し長く話してみましょう」、「もう少し大きな声で」等が該当し得る。
(c)については、「屋内で話しましょう」、「別の部屋に行きましょう」等が該当し得る。
(d)については、「発声する方向を少し変えてみましょう」、「マイクから少し離れてみましょう」、「静かな部屋に行きましょう」、「音楽を切りましょう」、「空調を切りましょう」等が該当し得る。
(7)記憶部120
記憶部120は、端末装置20の動作に用いられる様々な情報(データ)を記憶することができる。例えば、記憶部120は、音声/動画配信用のアプリケーション、音声/動画視聴用のアプリケーション、ボイスチェンジャー機能を有するアプリケーション、及び/又は、ウェブブラウザ等を含む様々なアプリケーションと、これらのアプリケーションにより用いられる及び/又は生成される様々な情報・信号・データ等と、を、これらに限定することなく記憶することができる。
(8)表示部122
表示部122は、音声/動画配信用のアプリケーション、音声/動画視聴用のアプリケーション、ボイスチェンジャー機能を有するアプリケーション、及び/又は、ウェブブラウザ等を含む様々なアプリケーションの実行により生成される様々な情報(データ)を、タッチパネル及びディスプレイ等を介して、ユーザに表示することができる。
(9)通信部124
通信部124は、ユーザの発話に関する音声信号に用いるべき変換器を取得するに際して用いられる情報(データ)及び/又は生成される情報(データ)、ユーザの発話に関する音声信号に対して、取得した変換器を用いて生成(加工)された音声信号等、を含む様々な情報を、通信網10を介してサーバ装置30及び/又は他の端末装置20等との間で送受信することができる。
(10)音声出力部126
音声出力部126は、マイク102dにより取得された音声信号(第1音声信号)、音声合成部116により生成された音声信号(第2音声信号又は第3音声信号)を、音声としてユーザに提示することができる。
(11)動画生成部128
動画生成部128は、当該端末装置20が配信者の端末装置20として動作する場合には、当該端末装置10の構成データ生成部100により生成された構成データを用いて動画を生成することができる。一方、動画生成部128は、当該端末装置20が視聴者の端末装置20として動作する場合には、配信者の端末装置20により送信され、当該端末装置20の通信部124により受信された構成データを用いて動画を生成することができる。
具体的には、動画生成部128は、構成データに含まれた配信者のアバターデータに対して、この構成データに含まれた動作データ(モーションデータ)を適用してレンダリングを実行することができる。これにより、動画生成部128は、配信者の動作に同期して動作する配信者のアバターのアニメーションを含む動画を生成することができる。ここでいうレンダリングは、当業者に周知である任意の技術を含むことができ、例えば、透視投影及び隠面消去(ラスタ化)等を含む描画処理であり得る。かかる描画処理は、また、シェーディング(陰影処理)及び/又はテクスチャマッピング等の処理を含むことができる。
さらに、動画生成部128は、このように生成された動画に対して、構成データに含まれた音声信号(後述する第2音声信号又は第3音声信号であって例えばMPEGファイル)を組み合わせることができる。具体的には、動画生成部128は、動作データに含まれたタイムスタンプと音声データに含まれたスタンプとが一致(又は略一致)するように、動画に対して音声信号を組み込むことができる。これにより、動画において、配信者の動作に従って動作する配信者のアバターのアニメーションと、音声信号に基づいて再生される配信者の発話とを、同期又は実質的に同期させることができる。
なお、動画生成部128は、配信者の動作に関する動作データに基づいてこの配信者のアバターのアニメーションを含む動画を生成するために、他の任意の周知な技術を利用することも可能である。かかる周知技術には、下記URLにより特定されるウェブサイトに記載された”Blend Shapes”と称する技術が含まれる。
https://developer.apple.com/documentation/arkit/arfaceanchor/2928251-blendshapes
動画生成部128は、この技術を用いる場合には、配信者の上半身(顔等)の複数の特徴点のうち、配信者の動作に対応する1以上の特徴点の各々のパラメータを調整することができる。これにより、動画生成部128は、配信者の動作に追従したアバターの動画を生成することができる。
上述した各部の動作は、ユーザの端末装置20にインストールされた上記所定のアプリケーションがこの端末装置20により実行されることにより、この端末装置20により実行され得る。
3-2.サーバ装置30の機能
サーバ装置30の機能の具体例について同じく図3を参照して説明する。サーバ装置30の機能としては、例えば、上述した端末装置20の機能の少なくとも一部を用いることが可能である。したがって、サーバ装置30が有する構成要素に対する参照符号は、図3において括弧内に示されている。すなわち、サーバ装置30は、構成データ生成部200と、特徴量抽出部210と、変換器取得部212と、特徴量変換部214と、音声合成部216と、解析部218と、記憶部220と、表示部222と、通信部224と、を含むことができる。構成データ生成部200、特徴量抽出部210、変換器取得部212、特徴量変換部214、音声合成部216、解析部218、記憶部220、表示部222、通信部224、音声出力部226及び動画生成部228は、それぞれ、端末装置20が有する、構成データ生成部100、特徴量抽出部110、変換器取得部112、特徴量変換部114、音声合成部116、解析部118、記憶部120、表示部122、通信部124、音声出力部126及び動画生成部128と実質的に同一とすることができる。
3-3.スタジオユニット40の機能
スタジオユニット40は、図3に示した端末装置20又はサーバ装置30と同様の構成を有することにより、端末装置20又はサーバ装置30と同様の動作を行うことが可能である。
4.通信システム1において用いられる音声変換プリセットの機能について
次に、通信システム1において用いられる音声変換プリセットの機能について説明する。通信システム1では、特徴量の具体例として、(i)基本周波数、及び(ii)第1フォルマントの周波数が用いられる。
人の声は、基本周波数、周波数特性及び音圧という3つの要素により特徴付けられるものである。基本周波数は、人の声の高さを特徴付けるものであり、周波数特性は、人の声の音色を特徴付けるものであり、音圧は、人の声の大きさを特徴付けるものである。
人の声道は、共鳴によって特定の周波数成分を強調する一種のフィルタであるといえる。声道の共鳴によって強調される周波数成分がフォルマントの周波数である。フォルマントの周波数は、無数に存在するが、周波数の低いものから、順次、第1フォルマントの周波数、第2フォルマントの周波数、第3フォルマントの周波数等のように称される。図5(横軸及び縦軸にそれぞれ周波数([Hz])及び音圧・振幅([dB])が示されている)に例示されるように、周波数スペクトルにおいては、声の高さを示す基本周波数の後に、第1フォルマントの周波数、第2フォルマントの周波数等が順次続く。
通信システム1において用意される複数の音声変換プリセットの各々は、ユーザの発話に関する音声信号から抽出された基本周波数及び第1フォルマントの周波数を、その音声変換プリセットにより定められた変化量に応じて変換するものである。
具体的には、図6A、図6B及び図6Cに示すように、基本周波数(pitch)(のオクターブ表現)を示す第1軸(横軸)と第1フォルマント(1st formant)の周波数(のオクターブ表現)を示す第2軸(縦軸)とにより定められる2次元座標系(以下「pf平面」と称する)を考える。
例えば、基本周波数fP1及び第1フォルマントの周波数fF1を有する標準的な男性の声が、pf平面において「標準男性」(0,0)として配置される。
一般的に、女性の基本周波数は、男性の基本周波数を12pitch増加させることにより得られることが分かっている。但し、8pitchが1物理的オクターブに相当するものとする。また、一般的には、基本周波数pと第1フォルマントfとの間には、f=p/3という関係が成り立ち得る。したがって、標準的な女性の声が、pf平面において「標準女性」(12,4)として仮に配置される。これは、基本周波数fP2及び第1フォルマントの周波数fF2を有する標準的な女性の声が、pf平面において「標準女性」(12,4)として配置されることを意味する。
さらに、中性の声が、標準男性(0,0)と標準女性(12,4)との中点において「中性(6,2)」として配置される。
図6Aには、男性の声を変換する音声変換プリセットの例(AM、BM及びCM)が示され、図6Bには、女性の声を変換する音声変換プリセット(AF、BF及びCF)の例が示されている。図6Cには、中性の声を変換する音声変換プリセット(AN、BN及びCN)の例が示されている。なお、A、B及びCは、それぞれ、キャラクターA、B及びCの声を目標として入力音声信号を変換する音声変換プリセットの名称を示し、添字Mは、男性用の入力音声信号を変換するプリセットを示し、添字Fは、女性用の入力音声信号を変換するプリセットを示し、添字Nは、中性用の入力音声信号を変換するプリセットを示すものである。
まず、図6Aを参照すると、各音声変換プリセットは、標準男性の基本周波数(男性用の第1基準値)(=0)を基準とした基本周波数の変化量を定め、標準男性の第1フォルマントの周波数(男性用の第2基準値)(=0)を基準とした第1フォルマントの周波数の変化量を定める。例えば、音声変換プリセットAM(17,6)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(0,0)に配置されると仮定して、その入力音声信号の基本周波数を17pitch増加させ、その入力音声信号の第1フォルマントの周波数を6formant増加させる。
同様に、音声変換プリセットBM(9,3)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(0,0)に配置されると仮定して、その入力音声信号の基本周波数を9pitch増加させ、その入力音声信号の第1フォルマントの周波数を3formant増加させる。さらに同様に、音声変換プリセットCM(-3,-1)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(0,0)に配置されると仮定して、その入力音声信号の基本周波数を3pitch減少させ、その入力音声信号の第1フォルマントの周波数を1formant減少させる。
次に、図6Bを参照すると、各音声変換プリセットは、標準女性の基本周波数(女性用の第1基準値)(=12)を基準とした基本周波数の変化量を定め、標準女性の第1フォルマントの周波数(女性用の第2基準値)(=4)を基準とした第1フォルマントの周波数の変化量を定める。例えば、音声変換プリセットAF(5,3)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(12,4)に配置されると仮定して、その入力音声信号の基本周波数を5pitch増加させ、その入力音声信号の第1フォルマントの周波数を3formant増加させる。
同様に、音声変換プリセットBF(-3,0)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(12,4)に配置されると仮定して、その入力音声信号の基本周波数を3pitch減少させ、その入力音声信号の第1フォルマントの周波数を変化させない(そのまま維持する)。さらに同様に、音声変換プリセットCF(-15,-4)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(12,4)に配置されると仮定して、その入力音声信号の基本周波数を15pitch減少させ、その入力音声信号の第1フォルマントの周波数を4formant減少させる。
次に、図6Cを参照すると、各音声変換プリセットは、中性の基本周波数(中性用の第1基準値)(=6)を基準とした基本周波数の変化量を定め、中性の第1フォルマントの周波数(中性用の第2基準値)(=2)を基準とした第1フォルマントの周波数の変化量を定める。例えば、音声変換プリセットAN(11,2.5)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(6,2)に配置されると仮定して、その入力音声信号の基本周波数を11pitch増加させ、その入力音声信号の第1フォルマントの周波数を2formant増加させる。
同様に、音声変換プリセットBN(2.5,3)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(6,2)に配置されると仮定して、その入力音声信号の基本周波数を2.5pitch増加させ、その入力音声信号の第1フォルマントの周波数を3formant増加させる。さらに同様に、音声変換プリセットCN(-7,-4)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(6,2)に配置されると仮定して、その入力音声信号の基本周波数を7pitch減少させ、その入力音声信号の第1フォルマントの周波数を4formant減少させる。
なお、ここでは、標準的な男性の声が、基本周波数fP1及び第1フォルマントの周波数fF1を有するものとして、pf平面上において(0,0)に配置される場合について説明したが、複数の男性の基本周波数及び第1フォルマントの周波数を収集し、これらの基本周波数の平均値(例えばfPAVE)及びこれらの第1フォルマントの周波数の平均値(例えばfFAVE)が、pf平面上において(0,0)に配置されるようにしてもよい。このように、男性用の第1基準値は、複数の男性ユーザから取得された基本周波数の平均値に基づいて設定され得るものであり、男性用の第2基準値は、複数の男性ユーザから取得された第1フォルマントの周波数の平均値に基づいて設定され得る。
同様に、ここでは、標準的な女性の声が、pf平面上において(12,4)に配置される場合について説明したが、複数の女性の基本周波数及び第1フォルマントの周波数を収集し、これらの基本周波数の平均値(例えばfPAVE2)及びこれらの第1フォルマントの周波数の平均値(例えばfFAVE2)が、pf平面上において(12,4)に配置されるようにしてもよい。このように、女性用の第1基準値は、複数の女性ユーザから取得された基本周波数の平均値に基づいて設定され得るものであり、男性用の第2基準値は、複数の女性ユーザから取得された第1フォルマントの周波数の平均値に基づいて設定され得る。
5.通信システム1の動作
次に、上述した構成を有する通信システム1の動作の具体例について、図7A及び図7Bを参照して説明する。図7A及び図7Bは、図1に示した通信システム1において行われる動作の一例を示すフロー図である。ここでは、特徴量として、(i)基本周波数、(ii)第1フォルマントの周波数を用いる場合に着目する。
まず、ステップ(以下「ST」という。)300において、配信者(ここでは配信者A)の端末装置20Aが、上記特定のアプリケーション(例えば、ウェブブラウザ、動画配信用アプリケーション等)を起動して実行することができる。端末装置20Aは、配信者Aに対して、配信者Aの性別(男性、女性又は中性)、及び、用意された複数のキャラクター(に対応する音声変換プリセット)の中から配信者Aが希望するキャラクター(に対応する音声変換プリセット)を指定するように、表示部122に表示されたユーザインタフェイスを介して要求することができる。端末装置20Aは、配信者Aにより選択された性別及び音声変換プリセットを用いて、配信者Aの発話に関する第1音声信号を変換した第2音声信号を生成することができる。端末装置20Aは、このような第2音声信号を含む構成データを、サーバ装置30を介して各視聴者の端末装置20に配信することができる。
端末装置20Aは、このような構成データを実際に配信する前に、図8Aに例示するように、各視聴者の端末装置20に向けて配信される自己の発話に関する音声信号を調整するための画面(ボイス調整画面)400を表示することができる。
ST302において、配信者Aが発話をしない状態(無言の状態)において、端末装置20Aは、サンプル信号としての第1音声信号を取得することができる。端末装置20Aは、配信者Aの発話に関する第1音声信号を、例えば第1期間(例えば30秒)において連続的に取得することができる。端末装置20A(の解析部118)は、このように連続的に第1音声信号を取得することと並行して、第1期間に含まれる複数の単位時間(例えば各単位時間は1秒)の各々に対応する第1音声信号の信号対雑音比(SN比)を順次計算することができる。これにより、端末装置20Aは、図8Aに示すように、画面400において、第1期間にわたって各単位時間に対応する第1音声信号のSN比を示すグラフ402を表示することができる。このグラフ402では、横軸が時間を示し、縦軸が第1音声信号のSN比を示す。このように、端末装置20Aは、配信者Aの発話に関する第1音声信号のSN比を、配信者Aが発話することと並行して(すなわち、略リアルタイム方式により)計算して表示することができる。なお、端末装置20Aは、第1期間の経過後に、第1音声信号のSN比を(非リアルタイム方式により)表示することも可能である。
これにより、配信者Aは、無言の状態で画面400のグラフ402に注目することにより、第1音声信号(配信者Aの居る環境に関する音声信号、すなわち、配信者Aの無言状態における発話に関する音声信号)のSN比を認識することができる。例えば、グラフ402に示されSN比が悪い場合(SN比が例えば40~60dBの範囲にない場合)には、配信者Aは、雑音の発生源となり得るエアコン、扇風機、テレビ等の電源を切ることにより、第1音声信号のSN比を向上させることができる。
なお、別の実施形態では、端末装置20Aは、取得した第1音声信号をサーバ装置30に送信し、サーバ装置30により計算されたかかる第1音声信号のSN比を受け取って表示することも可能である。
次に、ST304において、配信者Aが発話をしている状態において、端末装置20Aは、サンプル信号としての第1音声信号を取得することができる。端末装置20Aは、配信者Aの発話に関する第1音声信号を、例えば第2期間(例えば30秒)において連続的に取得することができる。端末装置20A(の解析部118)は、このように連続的に第1音声信号を取得することと並行して、第2期間に含まれる複数の単位時間(例えば各単位時間は1秒)の各々に対応する第1音声信号のラウドネスを順次計算することができる。これにより、端末装置20Aは、図8Bに示すように、画面410において、第2期間にわたって各単位時間に対応する第1音声信号のラウドネスを示す図形412を表示することができる。この図形412では、ラウドネスが0の場合には、表示されたマイク全体が第1の色により着色され、ラウドネスが大きくなるに伴って、表示されたマイクの下端からそのラウドネスの大きさに比例した高さまでの部分が第2の色により着色される。すなわち、ラウドネスが増減するに伴って、表示されたマイクの第1の色と第2の色との境界が上下に移動する。このように、端末装置20Aは、配信者Aの発話に関する第1音声信号のラウドネスを、配信者Aが発話することと並行して(すなわち、略リアルタイム方式により)計算して表示することができる。なお、端末装置20Aは、第2期間の経過後に、第1音声信号のラウドネスを(非リアルタイム方式により)表示することも可能である。
これにより、配信者Aは、発話しながら画面400のグラフ402に注目することにより、第1音声信号のSN比を認識することができる。例えば、グラフ402に示されSN比が悪い場合(SN比が例えば40~60dBの範囲にない場合)には、配信者Aは、雑音の発生源となり得るエアコン、扇風機、テレビ等の電源を切ることにより、第1音声信号のSN比を向上させることができる。
なお、別の実施形態では、端末装置20Aは、取得した第1音声信号をサーバ装置30に送信し、サーバ装置30により計算されたかかる第1音声信号のラウドネスを受け取って表示することも可能である。
次に、ST306において、配信者Aが発話をしている状態において、端末装置20Aは、サンプル信号としての第1音声信号を取得することができる。端末装置20Aは、この第1音声信号に対する信号処理を行うことにより、例えばこの第1音声信号に対して上述した「openSMILE」等のライブラリにより実行される信号処理を行うことにより、MFCC、ΔMFCC、再生時間及びSN比等の複数の特徴量を取得することができる。
なお、端末装置20Aではなく、サーバ装置30がこのような第1音声信号を用いて複数の特徴量を取得することも可能である。これを可能とするために、端末装置20Aは、第1音声信号をサーバ装置30に送信して、サーバ装置30から複数の特徴量を受信することができる。
さらに、ST306において、オプションとして、端末装置20Aは、ST300において配信者Aにより選択された性別及び音声変換プリセットを用いて、第1音声信号を変換して第2音声信号を生成してもよい。例えば、配信者Aが、中性を選択し、図6Cに例示した音声変換プリセットBN(2.5,3)を選択した場合を考える。
この場合、まず、端末装置20A(の特徴量抽出部110)が、各時間フレームについて、第1音声信号から各種の特徴量(例えば、基本周波数及び第1フォルマントの周波数)を抽出することができる。具体的には、端末装置20Aは、第1音声信号に対して、既知の信号処理を実行することにより基本周波数を抽出することができる。
既知の信号処理の第1の手法として、ゼロ交差法を用いた手法を利用することができる。この手法では、第1音声信号が、例えばM個のフィルタに入力される。これらのフィルタの各々は、帯域通過フィルタとして機能し、入力された第1音声信号のうちそのフィルタに固有の通過帯域に対応する周波数成分のみを出力することができる。次に、M個の計算部が、それぞれ、上記M個のフィルタにより出力された信号を用いて、ゼロ交差法に基づいて基本周波数らしさを計算することができる。最後に、選択部が、上記M個の計算部により計算された基本周波数らしさのうち、最も信頼できるものを選択し、このように選択した基本周波数らしさに対応する周波数を第1音声信号の基本周波数として出力することができる。
既知の信号処理の第2の手法として、第1音声信号に対して、例えば、以下の信号処理を施すことにより、基本周波数を抽出することができる。
・プリエンファシスフィルタにより波形の高域成分を強調
・窓関数を掛けた後に高速フーリエ逆変換(FFT)を行い振幅スペクトルを取得
・振幅スペクトルにメルフィルタバンクを掛けて圧縮
・上記圧縮した数値列を信号とみなして離散コサイン変換を実行
なお、一実施形態では、端末装置20Aは、例えば、音声分析変換合成システム「World」(http://www.kki.yamanashi.ac.jp/~mmorise/world/index.html)においてオープンソース実装されているHarvest及びDIO等のアルゴリズムを用いること等により、基本周波数を算出することができる。
他方、端末装置20Aは、第1音声信号を用いて、第1フォルマントの周波数を取得することができる。具体的には、端末装置20Aは、配信者Aについて得られた第1音声信号に対して任意の既知の信号処理を実行することにより第1フォルマントの周波数を抽出することができる。
上述した第1の手法(ゼロ交差法を用いた手法)を用いる場合には、上述したM個のフィルタの各々が、そのフィルタに固有の通過帯域として、第1フォルマントの周波数に対応する通過帯域を用い、上述したM個の計算部が、それぞれ、上述したM個のフィルタにより出力された信号を用いて、ゼロ交差法に基づいて第1フォルマントの周波数らしさを計算することができる。これにより、選択部が、上記M個の計算部により計算された第1フォルマントの周波数らしさのうち、最も信頼できるものを選択し、このように選択した第1フォルマントの周波数らしさに対応する周波数を第1音声信号の第1フォルマントの周波数として出力することができる。
また、上述した第2の手法を用いる場合には、端末装置20Aは、第1音声信号に対して、例えば、以下の信号処理を施すことにより、基本周波数に加えて第1フォルマントの周波数をも抽出することができる。
・プリエンファシスフィルタにより波形の高域成分を強調
・窓関数を掛けた後に高速フーリエ逆変換(FFT)を行い振幅スペクトルを取得
・振幅スペクトルにメルフィルタバンクを掛けて圧縮
・上記圧縮した数値列を信号とみなして離散コサイン変換を実行
なお、この場合にも、端末装置20は、プログラミング言語であるPythonにおいて用意されたライブラリである「openSMILE」を用いること等により、基本周波数に加えて第1フォルマントの周波数をも算出することができる。
次に、端末装置20A(の特徴量変換部114)が、このように抽出された特徴量を、音声変換プリセットBN(2.5,3)を用いて変換することができる。ここでは、端末装置20Aは、第1音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(6,2)に配置されると仮定して、その第1音声信号から上記のように抽出された基本周波数を2.5pitch増加させ、その第1音声信号から上記のように抽出された第1フォルマントの周波数を3formant増加させる。次に、端末装置20(の音声合成部116)が、上記のように変換された特徴量(基本周波数及び第1フォルマントの周波数)を用いて音声合成処理を行うことにより、配信者Aの音声が加工された第2音声信号を生成することができる。
なお、端末装置20Aではなく、サーバ装置30がこのような第2音声信号を生成することも可能である。これを可能とするために、端末装置20Aは、ST300において配信者Aにより選択された性別及び音声変換プリセット、並びに、取得された第1音声信号を、サーバ装置30に送信することができる。これにより、サーバ装置30が、配信者Aにより選択された性別及び音声変換プリセット、並びに、取得された第1音声信号を用いて、上記のとおりに第2音声信号を生成することができる。
この後、端末装置20Aは、生成された第2音声信号をこのタイミングにおいて又は後の任意のタイミングにおいて音声出力部126に出力させることができる。
次に、ST308において、端末装置20A(の解析部118)は、第1音声信号を用いてST306において取得された複数の特徴量と、学習モデルと、を用いて、解析を行うことができる。解析の具体例については、上記「3-1.2(6)」において説明したとおりである。これにより、端末装置20Aは、第1音声信号にノイズが生じている少なくとも1つの要因を示す要因データ、及び/又は、ユーザの発話に関する少なくとも1つのアドバイスを示すアドバイスデータを生成することができる。
なお、ST308において、端末装置20Aではなく、サーバ装置30が、要因データ及び/又はアドバイスデータを生成して、端末装置20Aに送信することができる。これを可能にするためには、端末装置20Aは、サーバ装置30に対して、第1音声信号から生成された複数の特徴量を送信することができる。これにより、サーバ装置30は、端末装置20Aから受信した複数の特徴量と、記憶部220から読み出した学習モデルと、を用いて、上記のとおり、要因データ及び/又はアドバイスデータを生成することができる。
次に、ST310において、端末装置20Aは、端末装置20A又はサーバ装置30により生成された要因データ及びアドバイスデータのうちの少なくとも一方を表示部122に表示することができる。
例えば、図8Cに例示されるように、端末装置20Aは、画面420において、要因データ422及びアドバイスデータ424のうちの少なくとも一方を表示することができる。この例では、端末装置20Aは、要因データ422において、第1音声信号にノイズが生じている要因として、配信者Aが反響する部屋に居ること、及び、配信者Aが居る部屋においてエアコン等の空調音が鳴っていること、を示している。これは、生成された要因データが、図4に示したように、「反響するような空間で収録」及び「空調などの音響が混じっている」を示していることに対応している。
また、図8Cに示す例では、端末装置20Aは、アドバイスデータ424において、「別の部屋に行きましょう」及び「空調を切りましょう」を示している。これは、生成されたアドバイスデータが、図4に示したように、「別の部屋に行きましょう」及び「空調を切りましょう」を示していることに対応している。
図7Aに戻り、次に、ST312において、端末装置20Aは、第1オブジェクト及び第2オブジェクトを表示することができる。例えば、図8Cに示すように、端末装置20Aは、画面420において、第1オブジェクトとして「練習しなおし」というオブジェクト426を表示し、第2オブジェクトとして「おすすめボイススタイルを見る」428を表示することができる。
図7Aに戻り、ST314において、端末装置20Aは、配信者Aが「練習しなおし」という第1オブジェクト426を選択したか否かを判定することができる。端末装置20Aは、配信者Aが第1オブジェクト426を選択したと判定した場合には、処理は、上述したST302~ST312における動作を繰り返す(すなわち、配信者Aが発話の練習を繰り返す)ことができる。一方、端末装置20Aは、配信者Aが「おすすめボイススタイルを見る」という第2オブジェクト428を選択したと判定した場合には、処理はST316に移行することができる。
ST316において、端末装置20A又はサーバ装置30が、配信者Aの発話に関する第1音声信号を変換する少なくとも1つの任意の音声変換プリセットを、予め用意された複数の音声変換プリセットの中から、配信者Aに提案すべく選択することができる。
第1の例として、端末装置20A又はサーバ装置30は、まず、配信者Aの第1音声信号を用いて、配信者Aの基本周波数及び第1フォルマントの周波数を取得することができる。次に、端末装置20A又はサーバ装置30は、予め用意された複数の音声変換プリセットの中から、これら基本周波数及び第1フォルマントに近い他のユーザ(すなわち、配信者Aに似た声を有する他のユーザ)がこれまでに利用又は購入した少なくとも1つの音声変換プリセットを、配信者Aに提案すべく選択することができる。
第2の例として、端末装置20A又はサーバ装置30は、まず、配信者Aの第1音声信号を用いて、配信者Aの基本周波数及び第1フォルマントの周波数を取得することができる。次に、端末装置20A又はサーバ装置30は、予め用意された複数の音声変換プリセットの中から、図6A~図6Cに例示したようなpf平面において、配信者Aの基本周波数と一致しない基本周波数を有し、かつ、配信者Aの第1フォルマントの周波数に近い第1フォルマントの周波数を有する、少なくとも1つの音声変換プリセットを選択することができる。例えば、配信者Aが性別として中性を選択した場合には、図6Cにおいて、配信者Aの基本周波数及び第1フォルマントの周波数が標準男性(0,0)に近いと仮定すると、音声変換プリセットAN(11,2.5)の基本周波数(11)は、標準男性(0,0)の基本周波数(0)と一致せず、音声変換プリセットAN(11,2.5)の第1フォルマントの周波数(2.5)は、標準男性(0,0)の第1フォルマントの周波数(0)に比較的近い。よって、端末装置20A又はサーバ装置30は、この音声変換プリセットAN(11,2.5)を、配信者Aに提案すべく選択することができる。
第3の例として、端末装置20A又はサーバ装置30は、配信者Aの基本周波数及び第1フォルマントの周波数とは無関係に、人気のある(例えばダウンロード数が所定値を上回った)少なくとも1つの音声変換プリセットを、配信者Aに提案すべく選択することができる。
図7Aに戻り、次に、ST318において、端末装置20Aは、ST316において選択された少なくとも1つの音声変換プリセットに関するデータを表示することができる。例えば、端末装置20Aは、図8Dに示す画面430において、ST316において選択された例えば3つの音声変換プリセットに関するデータとして、各音声変換プリセットに対応する画像及び/又は名称をフィールド432に表示することができる。
配信者Aは、フィールド432に表示された3つの音声変換プリセットに対応する画像うち、所望する音声変換プリセットに対応する画像及び/又は名称をタップ等することにより、使用すべき音声変換プリセットを選択することができる。図8Dには、配信者Aが「歌手」に対応する音声変換プリセットを選択した例が示されている。
この状態において、配信者Aが、画面430に表示された「自分の声を聴く」というオブジェクト436をタップ等することにより、端末装置20A又はサーバ装置30は、これまでに取得された配信者Aの性別及び第1音声信号と、この「歌手」に対応する音声変換プリセットと、を用いて、第1音声信号を変換した第2音声信号を生成して取得することができる。第2音声信号の生成方法は、ST306において説明したとおりである。端末装置20Aは、生成された第2音声信号を音声として音声出力部126に出力させることができる。
配信者Aは、さらに、フィールド432に表示された他の音声変換プリセットに対応する画像をタップ等することにより、使用すべき音声変換プリセットを変更することができる。
さらに、オプションとして、端末装置20Aは、画面430において、配信者Aの発話に関する第1音声信号に対して環境効果を付加する少なくとも1つの環境効果プリセットに関するデータ(各プリセットに対応する名称及び/又は画像)をフィールド434に表示することができる。
上記少なくとも1つの環境効果プリセットの各々は、配信者Aが居る場所の音響を変化させるポストエフェクトフィルタ処理を、第1音声信号に対して行うことができる。上記少なくとも1つの環境効果プリセットは、以下に例示するもののうち少なくとも1つのプリセットをこれらに限定することなく含むことができる。
・リバーブ
・ディレイ
・コーラス
・フェイザー
・トレモロ
・コンプレッサー
・フランジャー
・ノイズゲート
図8Dには、例えば、4つの環境効果プリセットの各々に対応する例えば名称(画像であってもよいし、名称及び画像の両方であってもよい)が表示される例が示されている。配信者Aは、これら複数の環境効果プリセットのうち使用したいプリセットを、これに対応する名称をタップ等することにより選択することができる。図8Dに示す例では、「クリアボイス」及び「洞窟」という2つの環境効果プリセットが配信者Aに選択されている。
この状態において、配信者Aが、端末装置20A又はサーバ装置30は、画面430に表示された「自分の声を聴く」というオブジェクト436をタップ等することにより、端末装置20A又はサーバ装置30は、上述したように、これまでに取得された配信者Aの性別及び第1音声信号と、この「歌手」に対応する音声変換プリセットと、を用いて、第1音声信号を変換した第2音声信号を生成して取得することができる。さらに、端末装置20A又はサーバ装置30は、配信者Aに選択された上記2つの環境効果プリセットを用いて第2音声信号に対して信号処理(ポストエフェクトフィルタ処理)を行うことにより、第3音声信号を生成することができる。端末装置20Aは、生成された第3音声信号を音声として音声出力部126に出力させることができる。
この後、図8Dに示した状態において、配信者Aが「これで決定」というオブジェクト438をタップ等することにより、端末装置20Aは、配信者Aに選択された音声変換プリセット(さらにはオプションとしての環境効果プリセット)を用いた、動画の配信に関する動作を開始することができる。
具体的には、図7Bを参照すると、ST320において、端末装置20Aは、配信者Aの発話に関する第1音声信号を上述したように取得することができる。さらに、端末装置20Aは、この第1音声信号を、ST300において選択された性別と、ST316において選択された音声変換プリセットと、を用いて、第2音声信号を生成することができる。
さらに、端末装置20Aは、ST318において少なくとも1つの環境効果プリセットが選択された場合には、生成された上記第2音声信号と、選択された当該少なくとも1つの環境効果プリセットと、を用いて、第3音声信号を生成することができる。
次に、ST322において、端末装置20A(の構成データ生成部100)は、生成された、第1音声信号、第2音声信号又は第3音声信号を組み込んだ構成データを生成してサーバ装置30に送信することができる。
ST324において、サーバ装置30が端末装置20Aから受信した構成データを、各視聴者の端末装置20に送信することができる。ST326において、各視聴者の端末装置20(の動画生成部128)は、受信した構成データを用いて動画を生成して表示することができる。かかる動画は、配信者である配信者Aの動作に同期して動作する配信者のアバターのアニメーションを含むことができる。また、この動画では、このアニメーションと、配信者Aの発話に関する第2音声信号又は第2音声信号とが、同期又は実質的に同期し得る。
次に、ST328において、端末装置20Aは、配信者の指示等により動画の配信を継続することを決定した場合には、上述したST320以降の動作を繰り返すことができる。一方、端末装置20Aは、配信者の指示等により動画の配信を停止することを決定した場合には、上述したST300において起動したアプリケーションの実行を終了することができる。
なお、上述したST306では、端末装置20A又はサーバ装置30が、第1音声信号を用いて複数の特徴量を取得するだけでなく、第1音声信号を第2音声信号に変換することができる。しかし、ST306において、端末装置20A又はサーバ装置30は、第1音声信号を用いて複数の特徴量を取得すれば十分であって、第1音声信号を第2音声信号に変換することは必須ではなくオプションである。したがって、例えば、端末装置20A又はサーバ装置30は、ST306において複数の特徴量を取得し(第2音声信号を生成せず)、ST310において要因データ及び/又はアドバイスデータを表示すること(すなわち、ユーザに注意を喚起すること)に伴って、第1音声信号を第2音声信号に変換すること、及び/又は、第2音声信号を通信回線10を介して送信すること、を実行しないことも可能である。
なお、上述した様々な実施形態では、配信者(配信者A)の端末装置20Aが、第1音声信号~第3音声信号のうちのいずれかの音声信号を組み込んだ構成データを、サーバ装置30を介して、各視聴者の端末装置20に送信し、各視聴者の端末装置20が、構成データを用いて動画を生成して表示する例について説明した。しかし、別の実施形態では、例えば、以下の(1)~(4)のうちのいずれの手法を採用して、各視聴者の端末装置20が動画を表示することも可能である。
(1)配信者の端末装置20A(又はスタジオユニット40)が構成データをサーバ装置30に送信し、サーバ装置30(の動画生成部128)が、構成データを用いて動画を生成して各視聴者の端末装置20に送信する。
(2)配信者の端末装置20A(又はスタジオユニット40)が、構成データを用いて動画を生成してサーバ装置30に送信し、サーバ装置30がこの動画を各視聴者の端末装置20に送信する。
(3)配信者が居るスタジオ等に設置されたサーバ装置30が、構成データを各視聴者の端末装置20に送信し、各視聴者の端末装置20がこの構成データを用いて動画を生成して表示する。
(4)配信者が居るスタジオ等に設置されたサーバ装置30が、構成データを用いて動画を生成して各視聴者の端末装置20に送信する。
また、上述した様々な実施形態は、本明細書の冒頭において例示した第1~第3のタイプのサービス・アプリケーションにおいて、ユーザの端末装置が、ユーザの発話に関する第1音声信号を、音声変換プリセット(さらには環境効果プリセット)を用いて変換して通信回線を介して送信する局面において、適用可能である。この局面には、ユーザの端末装置20が、第1音声信号から生成された第2音声信号(又は第3音声信号)を、実際に通信回線を介して送信する第1の局面、及び、このような第1の局面の前に、ユーザの端末装置230が、練習としての発話に関する第1音声信号から生成された第2音声信号(又は第3音声信号)を確認する第2の局面が、これらに限定することなく含まれる。
以上説明したように、上述した様々な実施形態によれば、配信者は、動画の配信等において音声変換プリセットを使用する際に、自己の発話に関する音声信号について、ノイズが生じている少なくとも1つの要因を示す要因データ、及び/又は、その配信者の発話に関する少なくとも1つのアドバイスを示すアドバイスデータを、提示され得る。配信者は、かかる要因データ及び/又はアドバイスデータに従って、自身を取り囲む環境及び/又は自身の発話等を改善することにより、特別な知識を有していなくとも、ボイスチェンジャー機能を介して自身が希望するものに近づいた音声信号(第2音声信号又は第3音声信号)を生成することができる。
6.更なる実施形態1
本実施形態では、或るユーザの端末装置20が、別のユーザの端末装置20に対して、少なくとも1つの音声変換プリセット、及び/又は、少なくとも1つの環境効果プリセットを、仮想的なギフトとして送信する場合について説明する。
昨今、配信者の端末装置が動画を配信している際に、その動画を視聴する視聴者の端末装置が、仮想的なギフト(トークン)を配信者の端末装置に送信するサービスが提供されている。このギフトを受信した配信者の端末装置は、その視聴者の端末装置から受信したギフトに対応するオブジェクトを表示した動画を、視聴者の端末装置に送信することができる。
このようなサービスにおいて、視聴者の端末装置が、仮想的なギフト(トークン)の一態様として、音声変換プリセット及び/又は環境効果プリセットを、配信者の端末装置に送信し、配信者の端末装置が、そのような音声変換プリセット及び/又は環境効果プリセットを用いて変換された配信者の発話に関する音声信号を含む動画(又は動画を生成するための構成データ)を視聴者の端末装置に送信することができれば、かかるサービスをより魅力的なものにすることができる。
以下、このような実施形態について、図1~図8Dを用いて上述した実施形態と異なる点のみに着目して説明する。図9は、別の実施形態に係る通信システム1において行われる動作の一例を示すフロー図である。
まず、ST500において、配信者(ここでは配信者A)の端末装置20Aが、上記特定のアプリケーション(例えば、ウェブブラウザ、動画配信用アプリケーション等)を起動して実行することができる。次に、ST502において、端末装置20Aが、構成データを生成して各視聴者の端末装置20に送信することができる。構成データの生成については、ST322(図7B)に関連して上述したとおりである。但し、ST502では、構成データに含まれる音声信号は、配信者Aの発話に関する第1音声信号である。
ST504において、各視聴者の端末装置20は、端末装置20Aにより送信された構成データを、サーバ装置30を介して受信することができる。各視聴者の端末装置20は、受信した構成データを用いて動画を生成して表示することができる。この動画は、配信者である配信者Aの動作に同期して動作する配信者のアバターのアニメーションを含むことができる。また、この動画では、このアニメーションと、配信者Aの発話に関する第1音声信号とが、同期又は実質的に同期し得る。
ST506において、配信者Aにより配信される動画を視聴している或る視聴者(ここでは視聴者B)が、その端末装置20Bを利用して、配信者Aにプレゼントするための少なくとも1つの音声変換プリセット及び/又は少なくとも1つの環境効果プリセットを購入することができる。
図10Aは、図9に示した通信システム1において視聴者の端末装置20Bにより表示される画面の一例を示す図である。図10Bは、図9に示した通信システム1において配信者の端末装置20Aにより表示される画面の一例を示す図である。
視聴者Bは、配信者Aの端末装置20Aにより配信される動画を視聴している際に、所定のオブジェクト(図示しない)をタップ等することにより、端末装置20Bは、図10Aに例示されるような、音声変換プリセット等を購入するための画面600を表示することができる。
図10Aに示すように、画面600は、フィールド602において、複数の音声変換プリセットに関するデータを表示することができる。ここでは、フィールド602は、各音声変換プリセットに関する画像、名称及び対価(価格又は消費ポイント等)といったデータを含むことができる。なお、フィールド602は、各音声変換プリセットに関するデータとして、(1)画像及び対価、(2)名称及び対価、又は、(3)画像、名称及び対価、を含み得る。
視聴者Bは、このように表示された複数の音声変換プリセットのうち、所望するプリセットに対応する画像等をタップ等することにより、配信者Aに送信すべきプリセットとして選択することができる。図10Bには、視聴者Bが、配信者Aに送信すべきプリセットとして、「歌手」に対応するプリセットを選択した例が示されている。
これに加えて又はこれに代えて、画面600は、フィールド604において、複数の環境効果プリセットに関するデータを表示することができる。ここでは、フィールド604は、各環境効果プリセットに関する名称及び対価(価格又は消費ポイント等)といったデータを含むことができる。なお、フィールド604は、各環境効果プリセットに関するデータとして、(1)画像及び対価、(2)名称及び対価、又は、(3)画像、名称及び対価、を含み得る。
視聴者Bは、このように表示された複数の環境効果プリセットのうち、所望するプリセットに対応する名称等をタップ等することにより、配信者Aに送信すべきプリセットとして選択することができる。図10Bには、視聴者Bが、配信者Aに送信すべきプリセットとして、「クリアボイス」及び「洞窟」のそれぞれに対応するプリセットを選択した例が示されている。
この状態において、視聴者Bは、「購入して贈る」というオブジェクト606をタップ等することにより、視聴者Bの端末装置20Bは、選択された1つの音声変換プリセット及び2つの環境効果プリセットの各々を識別するギフト識別データを、サーバ装置30に送信することができる。
次に、ST508において、サーバ装置30は、端末装置20Bから受信したギフト識別データを用いて、視聴者Bにより選択された1つの音声変換プリセット及び2つの環境効果プリセットを識別することができる。サーバ装置30は、視聴者Bにより選択された1つの音声変換プリセットに関するデータ、例えば、(1)このプリセットを識別する識別データ、(2)このプリセットを構成するパラメータ、例えば、図6A~図6Cに例示された括弧内のパラメータ(増減すべき基本周波数のpicth数、増減すべき第1フォルマントの周波数のformant数)、(3)このプリセットに対応する画像及び/又は名称、(4)このプリセットの使用期限(例えば、使用開始時点から3分が経過した時点で使用不可能となること)を示すデータ、等を、配信者Aの端末装置20Aに送信することができる。
さらに、サーバ装置30は、視聴者Bにより選択された2つの環境効果プリセットに関するデータ、例えば、(1)このプリセットを識別するデータ、(2)このプリセットを構成するパラメータ(エフェクトの種類及び深さ等)、(3)このプリセットに対応する画像及び/又は名称、(4)このプリセットの使用期限(例えば、使用開始時点から3分が経過した時点で使用不可能となること)を示すデータ、等を、配信者Aの端末装置20Aに送信することができる。
配信者Aの端末装置20Aは、このようなデータをサーバ装置30から受信することができる。これにより、端末装置20Aは、図10Bに例示されるような画面610を表示することができる。画面610におけるフィールド612は、配信者Aが視聴者Bから受信した1つの音声変換プリセットに関するデータ(ここでは、画像及び名称)を表示することができる。なお、配信者Aが視聴者Bから複数の音声変換プリセットを受信した場合には、フィールド612は、これら複数の音声変換プリセットに関するデータを表示することができる。
画面におけるフィールド614は、配信者Aが視聴者Bから受信した2つの環境効果プリセットに関するデータ(ここでは、名称のみ)を表示することができる。配信者Aは、これらの環境効果プリセットのうち、使用したい環境効果プリセットに対応する名称等(画像であってもよい)をタップ等することにより、実際に使用する環境効果プリセットを選択することができる。
次に、ST510において、配信者Aは、画面610に表示された「今すぐ装着」というオブジェクト616をタップ等することにより、視聴者Bから受信した1つの音声変換プリセットと、視聴者Bから受信した複数の環境効果プリセット(のうち、配信者Aにより選択されたプリセット)と、を用いて、第2音声信号及び第3音声信号を生成することができる。
具体的には、端末装置20Aは、サーバ装置30から受信した、1つの音声変換プリセットに関するデータを用いて、配信者Aの発話に関する第1音声信号から第2音声信号を生成することができる。さらに、端末装置20Aは、サーバ装置30から受信した、2つの環境効果プリセットに関するデータを用いて、第2音声信号から第3音声信号を生成することができる。なお、第1音声信号から第2音声信号を生成する手法、及び、第2音声信号から第3音声信号を生成する手法については、ST320(図7B)に関連して上述したとおりである。
さらに、端末装置20Aは、このように生成された第3音声信号を含む構成データを、生成して、サーバ装置30を介して各視聴者の端末装置20に送信することができる。
次に、ST512において、各視聴者の端末装置20は、受信した構成データを用いて動画を生成して表示することができる。ここで、動画には、ST510において生成された第3音声信号が含まれている。
なお、配信者Aが視聴者Bから受信した1つの音声変換プリセット及び2つの環境効果プリセットは、一実施形態では、現在時刻がこれらのプリセットに関するデータ(使用期限を示すデータ)により識別される日時に至った時点において、使用不可能となるが、別の実施形態では、使用不可となる期限を有しない。
次に、ST514において、端末装置20Aは、配信者の指示等により動画の配信を継続することを決定した場合には、上述したST502以降の動作を繰り返すことができる。一方、端末装置20Aは、配信者の指示等により動画の配信を停止することを決定した場合には、上述したST500において起動したアプリケーションの実行を終了することができる。
以上のように、視聴者は、視聴している動画の配信者に対して、その動画において配信者により利用可能な少なくとも1つの音声変換プリセット及び/又は少なくとも1つの環境効果プリセットを送信することができる。これにより、視聴者は、自身が動画の配信者に送信したプリセットがその配信者によりその動画において利用されることにより、自身の行動を配信者による動画に反映することができる。これにより、視聴者は、配信者により配信される動画を単に視聴するだけでなく、その動画の配信に積極的に関与することができる。したがって、サービス全体の魅力を向上させることができる。
なお、別の実施形態では、各視聴者の端末装置に対して動画を配信している状態にあるか否かに関係なく任意のタイミングにおいて、任意のユーザが、上述した視聴者Bが配信者Aに対して少なくとも1つの音声変換プリセット及び/又は少なくとも1つの環境効果プリセットを送信したものと同様の手法により、上記任意のユーザが希望する任意の他のユーザに対して、少なくとも1つの音声変換プリセット及び/又は少なくとも1つの環境効果プリセットを送信することができる。このようなプリセットを受信したユーザは、各視聴者の端末装置に対して動画を配信する局面又はこれ以外の任意の局面において、受信した少なくとも1つの音声変換プリセット及び/又は少なくとも1つの環境効果プリセットを使用することができる。
7.更なる実施形態2
本実施形態では、或る配信者の端末装置20が、動画を配信している間に、ガチャを実行することにより、少なくとも1つの音声変換プリセットを取得して使用する場合について説明する。
昨今、配信者の端末装置が、動画を配信するに際して、予め用意された複数の音声変換プリセットのうちその配信者により選択されたプリセットを用いて、配信者の発話に関する第1音声信号を変換して各視聴者の端末装置に送信することができる。しかし、配信者は、予め用意された複数の音声変換プリセットのうちいずれのプリセットが、自身の好みに合致するか、効果的に自身の声を変換することができるか等を、認識することは困難である。また、配信者は、予め用意された複数の音声変換プリセットのうち、自身の好みに近いプリセットを選択する傾向があるため、意外性のあるプリセットを選択することは少ない。
このようなサービスにおいて、配信者の端末装置が、動画を配信するに際して、予め用意された複数の音声変換プリセットの中から、ガチャ方式により選択されたプリセットを取得する手法が考えられる。かかる手法によれば、配信者は、効果的に自身の声を変換することができる音声変換プリセット及び/又は意外性のある音声変換プリセット等を、取得して利用する機会を付与される。これにより、かかるサービスをより魅力的なものにすることができる。
以下、このような実施形態について、図1~図10Bを用いて上述した実施形態と異なる点のみに着目して説明する。図11は、さらに別の実施形態に係る通信システム1において行われる動作の一例を示すフロー図である。図11において上述した図9と同様の動作に対しては、図9におけるものと同一の参照符号を付して、重複した説明を省略する。
ST700において、各視聴者の端末装置20に対して動画(動画を生成するための構成データ)を配信している或る配信者(ここでは「配信者A」)の端末装置20Aは、配信者Aに対して、ガチャの実行を提供するための画面(図示せず)を提示することができる。
配信者Aは、そのような画面に含まれる例えば「ガチャの実行」といったようなオブジェクト(図示せず)をタップ等することにより、端末装置20Aは、ガチャを実行することができる。
この場合、端末装置20A又はサーバ装置30は、予め用意された複数の音声変換プリセットの中から、少なくとも1つの音声変換プリセットを選択して配信者Aに提示することができる。例えば、端末装置20A又はサーバ装置30は、予め用意された複数の音声変換プリセットの中から、例えば配信者Aの声を高品質に変換する可能性のある少なくとも1つのプリセットを選択することができる。
具体的には、端末装置20A又はサーバ装置30は、まず、ST306(図7A)に関連して上述したように、配信者Aの端末装置20Aは、配信者Aの発話に関する第1音声信号を用いて、配信者Aの基本周波数及び第1フォルマントの周波数を取得することができる。さらに、配信者Aの端末装置20Aは、配信者Aの発話に関する第1音声信号を用いて、任意の周知技術を用いて、配信者Aのピッチ(声の高さ)を取得することも可能である。次に、端末装置20A又はサーバ装置30は、以下の条件を満たす少なくとも1つの音声変換プリセットを抽出することができる。
(1)配信者Aの基本周波数とは一致しない基本周波数を有すること、すなわち、配信者Aの基本周波数と、対象プリセットの基本周波数との間の差が、第1の閾値を上回ること。
(2)配信者Aの第1フォルマントの周波数に近い第1フォルマントの周波数を有すること、すなわち、配信者Aの第1フォルマントの周波数と、対象プリセットの第1フォルマントの周波数との間の差が、第2の閾値以下であること。
(3)配信者Aのピッチとは一致しないピッチを有すること、すなわち、配信者Aのピッチと、対象プリセットのピッチとの間の差が、第3の閾値を上回ること。
このような条件を満たす音声変換プリセットは、配信者Aの声を高品質に変換することができる可能性があるか、又は、配信者Aにとって意外な変換を行う可能性があるといえる。
このように配信者Aに対して提示された少なくとも1つの音声変換プリセットのうち、配信者Aにより選択された少なくとも1つの音声変換プリセットに関するデータを、端末装置20Aは、サーバ装置30から受信して記憶することができる。この後、端末装置20Aは、ST510において、そのように取得した音声変換プリセットを利用して、構成データを生成することができる。
以上のように、配信者の端末装置は、動画を配信するに際して(動画を配信している間、又は、動画の配信の前に)、ガチャを実行することにより、配信者は、効果的に自身の声を変換することができる音声変換プリセット及び/又は意外性のある音声変換プリセット等を、取得して利用する機会を付与される。これにより、かかるサービスをより魅力的なものにすることができる。
なお、別の実施形態では、任意のユーザは、各視聴者の端末装置に対して動画を配信する局面、及び、この局面以外の任意の局面において、上記のとおり配信者Aがガチャを実行して少なくとも1つの音声変換プリセットを取得したものと同様の手法により、ガチャを実行して少なくとも1つの音声変換プリセットを取得することができる。
8.更なる実施形態3
本実施形態では、或る1人の配信者の端末装置が、その配信者の動作データに従って動作する複数のアバターのアニメーションと、その配信者の発話に関する第1音声信号が各々のアバターに対応付けて変換される第2音声信号と、を含む構成データを送信する場合について説明する。
昨今、各配信者が、その端末装置を利用して、その配信者の動作データに従って動作する1つのアバターのアニメーションと、その配信者の発話に関する第1音声信号がそのアバターに対応付けて変換される第2音声信号と、を含む構成データを各視聴者の端末装置に配信する、ことを可能にするサービスが提供されている。
しかし、各配信者が、各視聴者の端末装置に対して動画を配信するに際して、単独で利用することができるのは、1つのアバター及びこのアバターに対応する音声変換プリセットのみである。
ここで、各配信者が、単独で複数のアバター及び各々のアバターに対応する音声変換プリセットを利用することができれば、かかるサービスはより魅力的なものとなる。
以下、このような実施形態について、図1~図11を用いて上述した実施形態と異なる点のみに着目して説明する。図12は、さらに別の実施形態に係る通信システム1において行われる動作の一例を示すフロー図である。図12において上述した図9と同様の動作に対しては、図9におけるものと同一の参照符号を付して、重複した説明を省略する。
ST800において、各視聴者の端末装置20に対して動画(動画を生成するための構成データ)を配信する或る配信者(ここでは「配信者A」)の端末装置20Aは、配信者AがアバターX、Yのうちいずれを操作しようとしているのかをリアルタイムで判定することができる。
第1の手法では、端末装置20Aは、図13に例示される配信者Aの端末装置20Aに表示される画面900に示すように、フィールド902において、配信者Aにより操作可能な複数のアバター(ここでは、「歌手」というアバターX及び「ヒーロー」というアバターY)に対応する画像及び/又は名称を表示することができる。
端末装置20Aは、配信者Aが「歌手」に対応する画像又は名称902Aをタップしたときには、枠902Bが図13に示すようにこの画像又は名称を囲む状態となる。この状態では、端末装置20Aは、配信者AがアバターXを操作しようとしていることを認識することができる。
一方、端末装置20Aは、配信者Aが「ヒーロー」に対応する画像又は名称902Cをタップしたときには、枠902Bがこの画像又は名称を囲む状態に変わる。この状態では、端末装置20Aは、配信者AがアバターYを操作しようとしていることを認識することができる。
第2の手法では、端末装置20Aは、配信者Aが高い声で発声したときには、配信者AがアバターXを操作しようとしていることを認識することができる。一方、端末装置20Aは、配信者Aが低い声で発声したときには、配信者AがアバターYを操作しようとしていることを認識することができる。
この第2の手法では、端末装置20Aは、配信者Aの発話に関する第1音声信号から基本周波数を抽出し、この基本周波数が閾値を上回る場合に、配信者AがアバターXを操作しようとしていることを認識することができる。一方、端末装置20Aは、配信者Aの発話に関する第1音声信号から抽出した基本周波数が閾値以下である場合に、配信者AがアバターYを操作しようとしていることを認識することができる。
第3の手法は、上述した第1の手法と第2の手法とを組み合わせる手法である
配信者Aは、アバターXを操作する際には、高い声で発声しかつ「歌手」に対応する画像又は名称902Aをタップする。一方、配信者Aは、アバターYを操作する際には、低い声で発声しかつ「ヒーロー」に対応する画像又は名称902Cをタップする。
端末装置20Aは、第1音声信号から抽出した基本周波数と、その基本周波数が抽出された時点において、配信者Aが画面900において、画像/名称902A、又は、画像/名称902Cのいずれかをタップしたかに関するデータと、を含む教師データを用いて、学習モデルを作成することができる。端末装置20Aは、学習モデルが生成された後には、第1音声信号から抽出された基本周波数をこの学習モデルに入力することにより、配信者AがアバターX、Yのいずれを操作しようとしているのかを推定することができる。
図12に戻り、ST802において、端末装置20Aは、ST800での判定結果に従って選択されたアバター(X又はY)に対応する、音声変換プリセット及びアバターを用いて、構成データを生成してサーバ装置30に送信することができる。構成データの生成については、ST322に関連して上述したとおりである。このような構成データは、サーバ装置30から各視聴者の端末装置20に配信される。
特に、配信者AによりアバターXが選択されたことが判定された場合には、端末装置20Aは、アバターXのみを配信者Aの動作データに基づいて動作させ、かつ、アバターYを配信者Aの動作データに基づいて動作させない(静止させる)、ように構成データを生成することができる。さらに、端末装置20Aは、第1音声信号がアバターXに対応する音声変換プリセットを用いて生成された第2音声信号を組み込むように、構成データを生成することができる。
一方、配信者AによりアバターYが選択されたことが判定された場合には、端末装置20Aは、アバターYのみを配信者Aの動作データに基づいて動作させ、かつ、アバターXを配信者Aの動作データに基づいて動作させない(静止させる)、ように構成データを生成することができる。さらに、端末装置20Aは、第1音声信号がアバターYに対応する音声変換プリセットを用いて生成された第2音声信号を組み込むように、構成データを生成することができる。
ST804において、各視聴者の端末装置20は、受信した構成データを用いて動画を生成して表示することができる。構成データを用いた動画の生成については、ST326に関連して上述したとおりである。図14に示すように、各視聴者の端末装置20の画面950には、構成データから生成された動画960が表示され得る。この動画960では、配信者AがアバターXを選択した期間においては、アバターX(962)が動作データに従って動作し、アバターXに対応する音声変換プリセットにより生成された第2音声信号が再生され得る。一方、配信者AがアバターYを選択した期間においては、アバターY(964)が動作データに従って動作し、アバターYに対応する音声変換プリセットにより生成された第2音声信号が再生され得る。
以上のように、各配信者の端末装置は、複数のアバターのうちその配信者により選択されたアバターを動作データに従って動作させたアニメーションと、そのように選択されたアバターに対応する音声変換プリセットを用いて変換した第2音声信号と、を含む動画を、各視聴者の端末装置に表示させることができる。これにより、より魅力的なサービスを提供することができる。
本開示の利益を有する当業者により容易に理解されるように、上述した様々な例は、矛盾の生じさせない限りにおいて、相互に様々なパターンで適切に組み合わせて用いられ得る。
9.様々な態様
第1の態様に係るコンピュータプログラムは、「少なくとも1つのプロセッサにより実行されることにより、ユーザの発話に関する第1音声信号を取得し、前記第1音声信号に対して信号処理を行うことにより取得された、該第1音声信号にノイズが生じている少なくとも1つの要因を示すデータ、及び、前記第1音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも1つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示し、該ユーザの発話に関する第1音声信号を変換する少なくとも1つの音声変換プリセットに関するデータを、該少なくとも1つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第2の態様に係るコンピュータプログラムは、上記第1の態様において「前記ユーザの発話に関する第1音声信号に対して環境効果を付加する少なくとも1つの環境効果プリセットに関するデータを、該少なくとも1つの環境効果のうちの少なくとも1つの環境効果を前記ユーザに選択させるために、前記表示部に表示する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第3の態様に係るコンピュータプログラムは、上記第1の態様又は上記第2の態様において「前記ユーザの発話に関する第1音声信号を取得し、前記少なくとも1つの要因を示すデータ、及び/又は、前記少なくとも1つのアドバイスを示すデータを前記表示部に表示した後に、第1オブジェクト及び第2オブジェクトを前記表示部に表示する、という一連の処理を実行し、前記第1オブジェクトが前記ユーザにより選択されることにより、前記一連の処理を繰り返し、前記第2オブジェクトが前記ユーザにより選択されることにより、前記少なくとも1つの音声変換プリセットに関するデータを前記表示部に表示する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第4の態様に係るコンピュータプログラムにあっては、上記第1の態様から上記第3の態様のいずれかにおいて「前記少なくとも1つの要因が、前記ユーザの居る環境、外界の音、及び、前記ユーザの発話、のうちの少なくとも1つを含む」ことができる。
第5の態様に係るコンピュータプログラムにあっては、上記第1の態様から上記第4の態様のいずれかにおいて「前記少なくとも1つのアドバイスが、前記ユーザの抑揚に関するアドバイス、前記ユーザの発話の長さに関するアドバイス、前記ユーザの居る環境に関するアドバイス、及び、ノイズの要因に関するアドバイス、のうちの少なくとも1つを含む」ことができる。
第6の態様に係るコンピュータプログラムにあっては、上記第1の態様から上記第5の態様のいずれかにおいて「前記少なくとも1つの音声変換プリセットに関するデータが、各音声変換プリセットに固有の名称及び/又は画像を含む」ことができる。
第7の態様に係るコンピュータプログラムにあっては、上記第2の態様において「前記少なくとも1つの環境効果プリセットが、前記ユーザが居る場所の音響を変化させるポストエフェクトフィルタ処理を、前記ユーザの発話に関する第1音声信号に対して行い、リバーブ、ディレイ、コーラス、フェイザー、トレモロ、コンプレッサー、フランジャー及びノイズゲート、のうちの少なくとも1つとして機能する」ことができる。
第8の態様に係るコンピュータプログラムにあっては、上記第2の態様において「前記少なくとも1つの環境効果プリセットに関するデータが、各環境効果プリセットに固有の名称及び/又は画像を含む」ことができる。
第9の態様に係るコンピュータプログラムは、上記第1の態様から上記第8の態様のいずれかにおいて「前記ユーザの発話に関する第1音声信号を第1期間において連続的に取得し、前記第1期間に含まれる複数の単位時間と、該複数の単位時間の各々に対応する前記第1音声信号の信号対雑音比(SN比)と、を対応付けて、前記第1期間に又は該第1期間の後に前記表示部に表示する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第10の態様に係るコンピュータプログラムは、上記第1の態様から上記第9の態様のいずれかにおいて「前記ユーザの発話に関する第1音声信号を第2期間において連続的に取得し、前記第2期間に含まれる複数の単位時間と、該複数の単位時間の各々に対応する前記第1音声信号のラウドネスと、を対応付けて、前記第2期間に又は該第2期間の後に前記表示部に表示する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第11の態様に係るコンピュータプログラムは、上記第1の態様から上記第10の態様のいずれかにおいて「前記少なくとも1つの音声変換プリセットのうち前記ユーザにより選択された1つの音声変換プリセットを用いて前記ユーザの発話に関する第1音声信号に対して信号処理を行うことにより生成された第2音声信号を、音声出力部から出力する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第12の態様に係るコンピュータプログラムは、上記第2の態様において「前記少なくとも1つの音声変換プリセットのうち前記ユーザにより選択された1つの音声変換プリセットを用いて前記ユーザの発話に関する第1音声信号に対して信号処理を行うことにより生成された第2音声信号を、音声出力部から出力し、前記少なくとも1つの環境効果プリセットのうち前記ユーザにより選択された少なくとも1つの環境効果プリセットを用いて前記ユーザの発話に関する第1音声信号又は前記第2音声信号に対して信号処理を行うことにより生成された第3音声信号を、前記音声出力部から出力する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第13の態様に係るコンピュータプログラムは、上記第1の態様から上記第12の態様のいずれかにおいて「前記少なくとも1つの音声変換プリセットのうち前記ユーザにより選択された1つの音声変換プリセットを用いて前記ユーザの発話に関する第1音声信号に対して信号処理を行うことにより生成された第2音声信号を、通信回線を介して送信する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第14の態様に係るコンピュータプログラムは、上記第2の態様において「前記少なくとも1つの音声変換プリセットのうち前記ユーザにより選択された1つの音声変換プリセットを用いて前記ユーザの発話に関する第1音声信号に対して信号処理を行うことにより第2音声信号を生成し、前記少なくとも1つの環境効果プリセットのうち前記ユーザにより選択された少なくとも1つの環境効果プリセットを用いて前記第2音声信号に対して信号処理を行うことにより生成された第3音声信号を、通信回線を介して送信する、ように前記少なくとも1つのプロセッサを機能させる」ことができる。
第15の態様に係るコンピュータプログラムにあっては、上記第1の態様から上記第14の態様のいずれかにおいて「前記少なくとも1つのプロセッサが、中央処理装置(CPU)、マイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含む」ことができる。
第16の態様に係る方法は、「コンピュータにより読み取り可能な命令を実行する少なくとも1つのプロセッサにより実行される方法であって、前記少なくとも1つのプロセッサが、前記命令を実行することにより、ユーザの発話に関する第1音声信号を取得すること、前記第1音声信号に対して信号処理を行うことにより取得された、該第1音声信号にノイズが生じている少なくとも1つの要因を示すデータ、及び、前記第1音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも1つのアドバイスを示すデータ、のうちの少なくとも一方のデータを表示部に表示すること、並びに、該ユーザの発話に関する第1音声信号を変換する少なくとも1つの音声変換プリセットに関するデータを、該少なくとも1つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記表示部に表示すること、を含む」ことができる。
第17の態様に係る方法にあっては、上記第16の態様において、「前記少なくとも1つのプロセッサが、中央処理装置(CPU)、マイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含む」ことができる。
第18の態様に係るサーバ装置は、「」ことができる。
第19の態様に係るサーバ装置にあっては、上記第18の態様において「前記少なくとも1つのプロセッサが、中央処理装置(CPU)、マイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含む」ことができる。
第20の態様に係るサーバ装置にあっては、上記第18の態様又は上記第19の態様において「前記通信回線がインターネットを含む」ことができる。
第21の態様に係る方法は、「コンピュータにより読み取り可能な命令を実行する少なくとも1つのプロセッサにより実行される方法であって、前記少なくとも1つのプロセッサが、前記命令を実行することにより、ユーザの発話に関する第1音声信号を該ユーザの端末装置から通信回線を介して取得すること、前記第1音声信号に対して信号処理を行うことにより取得された、該第1音声信号にノイズが生じている少なくとも1つの要因を示すデータ、及び、前記第1音声信号に対して信号処理を行うことにより取得された、前記ユーザの発話に関する少なくとも1つのアドバイスを示すデータ、のうちの少なくとも一方のデータを、前記通信回線を介して前記端末装置に送信して表示させること、並びに、該ユーザの発話に関する第1音声信号を変換する少なくとも1つの音声変換プリセットに関するデータを、該少なくとも1つの音声変換プリセットのうちのいずれかの音声変換プリセットを前記ユーザに選択させるために、前記通信回線を介して前記端末装置に送信して表示させること、を含む」ことができる。
第22の態様に係る方法にあっては、上記第21の態様において「前記少なくとも1つのプロセッサが、中央処理装置(CPU)、マイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含む」ことができる。
第23の態様に係る方法にあっては、上記第21の態様又は上記第22の態様において「前記通信回線がインターネットを含む」ことができる。
本明細書に開示された発明の原理が適用され得る多くの可能な実施形態を考慮すれば、例示された様々な実施形態は好ましい様々な例に過ぎず、特許請求の範囲に係る発明の技術的範囲をこれらの好ましい様々な例に限定すると考えるべきではない、と理解されたい。実際には、特許請求の範囲に係る発明の技術的範囲は、添付した特許請求の範囲により定められる。したがって、特許請求の範囲に記載された発明の技術的範囲に属するすべてについて、本発明者らの発明として、特許の付与を請求する。