JP6619072B2 - 音合成装置、音合成方法、及びそのプログラム - Google Patents
音合成装置、音合成方法、及びそのプログラム Download PDFInfo
- Publication number
- JP6619072B2 JP6619072B2 JP2018191616A JP2018191616A JP6619072B2 JP 6619072 B2 JP6619072 B2 JP 6619072B2 JP 2018191616 A JP2018191616 A JP 2018191616A JP 2018191616 A JP2018191616 A JP 2018191616A JP 6619072 B2 JP6619072 B2 JP 6619072B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- stimulus
- visual information
- sound stimulus
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
図1は第一実施形態に係る音合成装置100の機能ブロック図を、図2はその処理フローを示す。
動画配信サーバ92は、動画データベース及びビデオカメラから動画を受け取り、視聴者端末の要求に応じて、動画データベース内に格納されている動画、または、ビデオカメラで収録した動画をリアルタイムで配信する(S2)。また、ビデオカメラで収録された動画に限らず、リアルタイムで合成・編集されたCGやモーションキャプチャ等から合成されたCGをリアルタイム配信することもある。動画データベースには、動画と共に動画に付加されたテキスト情報が記憶され、動画と共に配信される。さらに、テキスト情報にはメタデータが付加されている。メタデータとしては、テキスト情報の入力時刻、テキスト情報の大きさ、その色、その出現方法、その移動速度や、移動位置等がある。例えば、大きさ、色、出現方法、移動速度、移動位置等は、テキスト情報の入力者が選択できるものとしてもよく、視聴者端末がメタデータとしてテキスト情報と一緒に送信し、動画データベースに動画と共に記憶される。なお、テキスト情報付き動画に含まれるテキスト情報、音信号及び映像信号は、時間軸において同期しており、それぞれ時系列において対応付けられている。
音合成装置100には、テキスト情報付きの動画、より詳しく言うと、時間軸において同期しているテキスト情報、音信号及び映像信号が入力され、テキスト情報付き映像信号(図3参照)に合わせて、テキスト情報に対応する音刺激を合成し(S120)、合成した音刺激を重畳した音信号(図4参照)を出力する。時間軸において同期しているテキスト情報、映像信号、音刺激及び音信号を併せて音刺激及びテキスト情報付き動画ともいう。
音刺激データベース110には、テキスト情報と、そのテキスト情報が表す意味に対応する音刺激のテンプレートとが対応付けられて記憶されている(図5参照)。なお、本実施形態ではテキスト情報は所定の行為を意味するものとする。また、音刺激は、発話以外の音である。ここで、「発話以外の音」とは、「言語を音声として発し、その結果として発せられた音声」以外の音を意味し、例えば、笑い声、拍手音である。例えば、笑いを意味するテキスト情報「w」に対して、「ダブリュ」という音声波形のテンプレートではなく、「笑い声」の音の波形のテンプレート(笑い声の場合、例えば数秒分のテンプレート)が記憶されている。また、拍手及び手拍子の何れかを意味するテキスト情報「8」に対して、「ハチ」という音声波形のテンプレートではなく、「拍手音及び手拍子音の何れか」の音の波形のテンプレート(拍手音及び手拍子音の場合、例えば、数百ミリ秒分のテンプレート)が記憶されている。なお、図5の例では、テキスト情報と音刺激のテンプレートとが1対1で対応しているが、1対多、多対1、多対多で対応してもよい。つまり、(1)所定の意味(例えば笑い)を表す1つのテキスト情報(例えば「w」)とその意味に対応する複数の音刺激のテンプレート(複数の笑い声のバリエーションを用意する)とが1対多で対応してもよいし、(2)所定の意味(例えば笑い)を表す複数のテキスト情報(例えば「w」「(笑)」「(^o^)」)とその意味に対応する1つの音刺激のテンプレート(1つの笑い声を用意する)とが多対1で対応してもよいし、(3)所定の意味(例えば笑い)を表す複数のテキスト情報(例えば「w」「(笑)」「(^o^)」)とその意味に対応する複数の音刺激のテンプレート(複数の笑い声のバリエーションを用意する)とが多対多で対応してもよい。なお、拍手音、手拍子音及び笑い声等は、その時々により、異なるほうがより自然に聞こえるため、テキスト情報が重畳された映像の雰囲気をより自然に再現しようとするならば、複数の音刺激のテンプレートを用意するほうがよい。
音刺激合成部120は、テキスト情報付き動画(テキスト情報+音信号+映像信号)を受け取り、時系列のテキスト情報に対し、テキスト情報が表す意味に対応する音刺激のテンプレートを音刺激データベース110から取り出し、時系列のテキスト情報のタイミングと数の少なくとも何れかに基づき、音刺激を合成し(S120)、時系列の音信号に対応付けて出力する。なお、あるテキスト情報が表す意味に対応する音刺激のテンプレートが複数存在する場合には、その中から1つをランダムに選択すればよい。音刺激合成部120は、選択した音刺激のテンプレートを、必要に応じて前のフレームと補間をして、所定の時間長のフレーム単位(例えば映像の1フレームに対応する時間長)で、1フレームごとに励起される音刺激を合成する。音刺激合成部120は、合成した音刺激を受け取った音信号に重畳して(時系列の音信号に対応付けて)、出力する。
(参考文献1)鎌本優,河原一彦,尾本章,守谷健弘,「音楽鑑賞時に励起される拍手音・手拍子音の低遅延伝送に向けた基礎的検討」、日本音響学会 2014年秋季研究発表会, 1-Q-17、2014年.
(1)テキスト情報が表示されるタイミング(例えばテキスト情報の入力時刻)で、音刺激を音信号に重畳する(図6参照)。
なお、一人の人間による一拍分の音刺激(拍手音、手拍子音、笑い声等)を音刺激データベース110に記憶しておき、音刺激を音信号に繰り返し重畳する構成としてもよい。その場合、(音刺激を重畳するタイミング)の(1)及び(2)で求めたタイミングを、一番初めに音刺激を重畳するタイミングとして利用する。所定の時間区間分(例えば、テキスト情報が映像表示部に表示されてから消えるまで)繰り返し重畳すればよい。
揺らぎを持たせる際のバリエーションについて説明する。
音刺激の音量を調整する方法を説明する。
以上の構成により、テキスト情報が重畳された映像の雰囲気を再現することができる。
本実施形態では、音合成装置100は、音刺激及びテキスト情報付き動画を出力しているが、本実施形態のポイントは、音刺激を合成することであり、少なくとも音刺激を出力すればよい。例えば、本実施例のように視聴者端末(パーソナルコンピュータ、スマートホン、タブレット等)内に本実施形態の音合成装置100が組み込まれてもよいし、動画配信サーバ内に音合成装置100が組み込まれてもよい。また、音合成装置100を独立した装置として構成してもよい。少なくとも時間軸において音信号または映像信号に同期しているテキスト情報を受け取り、音刺激を合成し、出力することができればよい。音刺激を音信号に同期させる処理等は別装置において行ってもよい。
(参考文献2)「docomo/au共通絵文字」、株式会社NTTドコモ、[online]、[平成27年2月9日検索]、インターネット<URL: https://www.nttdocomo.co.jp/service/developer/smart_phone/make_contents/pictograph/>
(参考文献3)「アスキーアート」、[online]、2015年2月2日、ウィキペディア、[平成27年2月9日検索]、インターネット<URL: http://ja.wikipedia.org/wiki/%E3%82%A2%E3%82%B9%E3%82%AD%E3%83%BC%E3%82%A2%E3%83%BC%E3%83%88>
このテキスト情報以外の視覚情報を含む場合の音刺激データベース110に格納されるデータの例を図10に示す。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- 時系列の視覚情報に対し、当該視覚情報が表す意味に対応し、かつ、発話以外の音である音刺激を、当該時系列の視覚情報のタイミング及び数の少なくとも何れかに基づき、合成する音刺激合成部を含み、
上記時系列の視覚情報は上記音刺激とは異なる時系列の音信号と対応付けられており、上記音刺激合成部は上記音刺激を上記時系列の音信号に重畳して出力し、
上記音刺激合成部は、複数の上記視覚情報の中から、同じ意味を表す複数の視覚情報それぞれの入力時刻を抽出し、所定の時間区間毎に、抽出した入力時刻の平均値、最頻値、最小値及び最大値の少なくともいずれかである代表値に基づいて音刺激を重畳するタイミングを求める、
音合成装置。 - 請求項1の音合成装置であって、
上記代表値は平均値であり、
上記音刺激合成部は、上記視覚情報の中から、同じ意味を表す複数の視覚情報それぞれの入力時刻を抽出し、抽出した入力時刻の、所定の時間区間毎の平均値と分散とを持つガウス分布に従う乱数に基づいて上記音刺激を重畳するタイミングとする、
音合成装置。 - 請求項2の音合成装置であって、
音刺激が記憶される音刺激データベースを含み、
上記音刺激合成部は、上記視覚情報が映像表示部に表示されてから消えるまでの時間繰り返して上記音刺激データベースに記憶された上記音刺激を重畳し、
フレームのインデックスをiとし、合成後の音刺激をYiとし、フレームiに対して音刺激データベースから取り出した音刺激のテンプレートをTiとし、τを音刺激のテンプレートの長さに対応する値とし、前記乱数をσiとし、音刺激を重畳するタイミングを表すインパルスをδ(i・τ+σi)とし、*を畳み込み演算を表す演算子とし、上記音刺激合成部は、
前記乱数をσmとし、映像表示部に表示される同じ意味を表す視覚情報の個数をMとし、上記音刺激合成部は、
上記音刺激が拍手の場合、音刺激を重畳するタイミングを表すインパルスを
上記音刺激が手拍子の場合、音刺激を重畳するタイミングを表すインパルスをδ(τ+σ m )とし、
上記音刺激が笑い声の場合、音刺激を重畳するタイミングを表すインパルスを
音合成装置。 - 請求項1から請求項3の何れかの音合成装置であって、
音刺激が記憶される音刺激データベースを含み、
上記音刺激合成部は、前記代表値を、一番初めに音刺激を音信号に重畳するタイミングとして利用し、上記視覚情報が映像表示部に表示されてから消えるまでの時間繰り返して上記音刺激を重畳する、
音合成装置。 - 請求項1から請求項4の何れかの音合成装置であって、
視覚情報と、個数と、視覚情報が表す意味に対応する、個数に応じた音量の音刺激とが対応付けて記憶される音刺激データベースを含み、
上記音刺激合成部は、上記時系列の視覚情報の中から抽出される同じ意味を表す複数の視覚情報とその視覚情報が映像表示部に表示される個数とに対応する音刺激を上記音刺激データベースから選択し、重畳する、
音合成装置。 - 音合成装置による音合成方法であって、
音刺激合成部が、時系列の視覚情報に対し、当該視覚情報が表す意味に対応し、かつ、発話以外の音である音刺激を、当該時系列の視覚情報のタイミング及び数の少なくとも何れかに基づき、合成する音刺激合成ステップを含み、
上記時系列の視覚情報は上記音刺激とは異なる時系列の音信号と対応付けられており、上記音刺激合成ステップは上記音刺激を上記時系列の音信号に重畳して出力し、
上記音刺激合成ステップは、複数の上記視覚情報の中から、同じ意味を表す複数の視覚情報それぞれの入力時刻を抽出し、所定の時間区間毎に、抽出した入力時刻の平均値、最頻値、最小値及び最大値の少なくともいずれかである代表値に基づいて音刺激を重畳するタイミングを求める、
音合成方法。 - 請求項1から請求項5の何れかの音合成装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018191616A JP6619072B2 (ja) | 2018-10-10 | 2018-10-10 | 音合成装置、音合成方法、及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018191616A JP6619072B2 (ja) | 2018-10-10 | 2018-10-10 | 音合成装置、音合成方法、及びそのプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015080593A Division JP6495722B2 (ja) | 2015-04-10 | 2015-04-10 | 音合成装置、音合成方法、及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019023747A JP2019023747A (ja) | 2019-02-14 |
JP6619072B2 true JP6619072B2 (ja) | 2019-12-11 |
Family
ID=65368954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018191616A Active JP6619072B2 (ja) | 2018-10-10 | 2018-10-10 | 音合成装置、音合成方法、及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6619072B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312210B (zh) * | 2020-03-05 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种融合图文的语音合成方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5634853B2 (ja) * | 2010-12-22 | 2014-12-03 | 富士フイルム株式会社 | 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、ならびに電子コミックの表示方法 |
JP6095223B2 (ja) * | 2012-08-27 | 2017-03-15 | 日本電信電話株式会社 | 環境音合成装置、環境音伝送システム、環境音合成方法、環境音伝送方法、プログラム |
JP6295494B2 (ja) * | 2013-04-19 | 2018-03-20 | 株式会社ドワンゴ | 端末装置、コメント配信システム、及びプログラム |
-
2018
- 2018-10-10 JP JP2018191616A patent/JP6619072B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019023747A (ja) | 2019-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11158102B2 (en) | Method and apparatus for processing information | |
JP6936298B2 (ja) | 三次元仮想ポートレートの口形の変化を制御する方法および装置 | |
CN110751940B (zh) | 一种生成语音包的方法、装置、设备和计算机存储介质 | |
JP2022534708A (ja) | 動的に反応する仮想キャラクターのためのマルチモーダルモデル | |
US20210104169A1 (en) | System and method for ai based skill learning | |
TW202009924A (zh) | 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體 | |
US10878799B2 (en) | Information presenting apparatus and information presenting method | |
My-Thanh Nguyen et al. | Design of online learning platform with Vietnamese virtual assistant | |
CN113923462A (zh) | 视频生成、直播处理方法、设备和可读介质 | |
US20170092253A1 (en) | Karaoke system | |
KR20200045852A (ko) | 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법 | |
Sexton et al. | Automatic CNN-based enhancement of 360° video experience with multisensorial effects | |
JP2017064853A (ja) | ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム | |
JP6619072B2 (ja) | 音合成装置、音合成方法、及びそのプログラム | |
JP6367748B2 (ja) | 認識装置、映像コンテンツ提示システム | |
JP6568351B2 (ja) | カラオケシステム、プログラム及びカラオケ音声再生方法 | |
JP6495722B2 (ja) | 音合成装置、音合成方法、及びそのプログラム | |
JP5689774B2 (ja) | 対話型情報発信装置、対話型情報発信方法、及びプログラム | |
US20200111475A1 (en) | Information processing apparatus and information processing method | |
JP2020204683A (ja) | 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム | |
US20230230609A1 (en) | Training machine learning frameworks to generate studio-quality recordings through manipulation of noisy audio signals | |
JP6411274B2 (ja) | タイミング補正システム、その方法及びプログラム | |
JP5146974B1 (ja) | 番組画像作成方法およびその装置 | |
JPWO2019044534A1 (ja) | 情報処理装置、及び情報処理方法 | |
Iqbal et al. | A GPT-based Practical Architecture for Conversational Human Digital Twins. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181010 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191018 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6619072 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |