JP2018159779A - 音声再生態様決定装置、および音声再生態様決定プログラム - Google Patents
音声再生態様決定装置、および音声再生態様決定プログラム Download PDFInfo
- Publication number
- JP2018159779A JP2018159779A JP2017056331A JP2017056331A JP2018159779A JP 2018159779 A JP2018159779 A JP 2018159779A JP 2017056331 A JP2017056331 A JP 2017056331A JP 2017056331 A JP2017056331 A JP 2017056331A JP 2018159779 A JP2018159779 A JP 2018159779A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- audio
- reproduction
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】人と機械或いは機械と機械による音声インタラクションにおいて、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行う。
【解決手段】複数の音声データの各々の再生順と再生態様とを規定するシナリオデータの表すシナリオの進行中に聴き手の様子を示す様子データを取得する様子データ取得部と、前記複数の音声データの各々の表す音声の再生態様を前記シナリオデータにしたがって決定する再生態様決定部であって、前記複数の音声データのうちの少なくとも1つについては、前記様子データ取得部により取得された様子データの示す前記聴き手の様子に応じて再生態様を変更する再生態様決定部とを具備することを特徴とする音声再生態様決定装置、を提供する。
【選択図】図1
【解決手段】複数の音声データの各々の再生順と再生態様とを規定するシナリオデータの表すシナリオの進行中に聴き手の様子を示す様子データを取得する様子データ取得部と、前記複数の音声データの各々の表す音声の再生態様を前記シナリオデータにしたがって決定する再生態様決定部であって、前記複数の音声データのうちの少なくとも1つについては、前記様子データ取得部により取得された様子データの示す前記聴き手の様子に応じて再生態様を変更する再生態様決定部とを具備することを特徴とする音声再生態様決定装置、を提供する。
【選択図】図1
Description
本発明は、音声再生技術に関する。
音声再生技術の応用例として、人と機械による音声インタラクション或いは機械と機械による音声インタラクションが挙げられる。人と機械による音声インタラクションの一例としては、音声による利用者の問いに対してその問いに対する回答の音声をシナリオにしたがって再生することが挙げられる(例えば、特許文献1参照)。また、機械と機械による音声インタラクションの一例としては、予め定められたシナリオにしたがって音声再生装置Aにより再生された台詞の音声を、音声再生装置Bが認識し、上記シナリオにしたがって別の台詞の音声を再生することが挙げられる。機械と機械による音声インタラクションの具体例としては、登場人物の全てを機械(音声再生装置)が演じる演劇や漫才が挙げられる。
人と機械或いは機械と機械による音声インタラクションにより実現される演劇や漫才には、聴き手の様子によっては音声再生装置によって再生される台詞の音声が聴こえ難くなり、観賞に支障が生じ得る、といった問題がある。演劇や漫才の聴き手とは、演劇や漫才の鑑賞者、視聴者、観覧者のことをいう。例えば、聴き手の盛り上がりなどによっては、シナリオ通りに台詞等の音声を再生すると、聴き手の笑い声等に台詞の音声が埋もれて聴き取り難くなるからである。
本発明は以上に説明した課題に鑑みて為されたものであり、人と機械或いは機械と機械による音声インタラクションにおいて、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行う技術を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る音声再生態様決定装置は、音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、前記音声データの表す音声の再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、を具備することを特徴とする。
本態様によれば、様子データの示す聴き手の様子に応じて音声の再生態様が決定される。人と機械或いは機械と機械による音声インタラクションにおける音声の再生態様の決定に本態様の音声再生態様決定装置を用い、聴き手の様子を踏まえて鑑賞のしやすい再生態様に決定するようにすれば、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行うことが可能になる。
より好ましい態様においては、前記音声データは、複数の音声データの各々の再生順と当該再生順に応じて定められた再生態様とを規定するシーケンスデータにしたがって再生される前記複数の音声データの1つであり、前記再生態様決定部は、前記シーケンスデータの示す再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子に応じて変更することを特徴とする。上記シーケンスデータの具体例としては、登場人物の全てを機械(音声再生装置)が演じる演劇や漫才における音声の再生態様を表すデータをその再生順に配列したシーケンスデータ、すなわち、当該演劇や漫才のシナリオの進行を表すシーケンスデータが挙げられる。以下、このようなシーケンスデータを「シナリオデータ」と呼ぶ。
様子データの具体例としては、音声データの表す音声とは異なる音声を含む外部音声を表す外部音声データが挙げられる。この場合、様子データ取得部は、音声データの表す音声とは異なる音声を含む外部音声を表す外部音声データを様子データとして取得する。外部音声の具体例としては、上記シナリオデータにより進行が表されるシナリオの聴き手の笑い声等を含む音声が挙げられる。本態様においては、聴き手の音声に応じて再生態様が決定される。具体的には、様子データの表す外部音声の音量が大きい程、音声データの表す音声の再生タイミングを遅らせる、或いは再生音量を大きくする、ことが考えられる。このようにすれば、上記音声データの表す音声、すなわち演劇や漫才の台詞が聴き手の笑い声等に埋もれて聴き取り難くなることを回避することができる。
上記のように外部音声に応じて音声データの表す音声の再生音量をシーケンスデータにて定められた再生音量から引き上げる場合には、調和成分のみを引き上げることが好ましい。音声に含まれる非調和成分の一例としては気息音が挙げられる。非調和成分の音量を引き上げると気息音の音量が大きくなり、聴き手にうるさい感じを与える虞がある。調和成分のみを引き上げることで、このような不具合の発生を回避できるからである。
本発明の態様について、音声再生態様決定装置のみならず、コンピュータを当該音声再生態様決定装置として機能させるプログラムとして概念することも可能である。
以下、図面を参照しつつ、この発明の実施形態を説明する。
(A:実施形態)
図1は、本発明の実施形態に係る音声再生装置1の構成を示す図である。この音声再生装置1は、例えば、ぬいぐるみに組み込まれる装置である。音声再生装置1は、予め定められた漫才のシナリオにしたがって利用者が当該ぬいぐるみに問いを発したときに、そのシナリオにしたがって回答の音声を再生し、当該利用者を相方とする漫才を実現する。本実施形態では、音声再生装置1が漫才のツッコミ役を演じ、音声再生装置1の利用者がボケ役を演じる。音声再生装置1は、CPU(Central Processing Unit)や、音声入力部112を有し、予めインストールされたアプリケーションプログラムを当該CPUが実行することによって、複数の機能ブロックが次のように構築される。
(A:実施形態)
図1は、本発明の実施形態に係る音声再生装置1の構成を示す図である。この音声再生装置1は、例えば、ぬいぐるみに組み込まれる装置である。音声再生装置1は、予め定められた漫才のシナリオにしたがって利用者が当該ぬいぐるみに問いを発したときに、そのシナリオにしたがって回答の音声を再生し、当該利用者を相方とする漫才を実現する。本実施形態では、音声再生装置1が漫才のツッコミ役を演じ、音声再生装置1の利用者がボケ役を演じる。音声再生装置1は、CPU(Central Processing Unit)や、音声入力部112を有し、予めインストールされたアプリケーションプログラムを当該CPUが実行することによって、複数の機能ブロックが次のように構築される。
図1に示すように、音声再生装置1では、様子データ取得部102、再生態様決定部104、シナリオ選択部106、音声選択部108、音声再生部110、言語解析部114が構築される。図1では詳細な図示を省略したが、様子データ取得部102〜言語解析部114のほかにも音声再生装置1は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定を行えるようになっている。また、音声再生装置1は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。
音声入力部112は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するA/D変換器とで構成される。音声再生装置1の利用者が当該音声再生装置1に対して音声で問いを発すると、音声入力部112は、その問いの音声を表す音声信号を出力する。言語解析部114は、音声入力部112から出力される音声信号で規定される音声の意味内容を解析して文字列に変換し、その文字列を表す問い内容データを音声選択部108に与える。
シナリオライブラリ122は、漫才のシナリオの進行を表すシナリオデータを格納したデータベースである。シナリオデータは、そのシナリオデータにより進行が表されるシナリオにおける登場人物(漫才であれば、ツッコミ役とボケ役)の各々の台詞を示す台詞識別子と当該台詞の再生態様を示す再生態様データを、台詞の再生順に配列したシーケンスデータである。本実施形態における台詞識別子は、その台詞識別子の示す台詞の文字列である。また、台詞の再生態様とは、台詞を音声として再生する際の話速、音高、音量、および発話開始タイミングのことを言い、発話開始タイミングとは、直前の台詞の発話終了を起算点とする台詞の発話開始時刻のことを言う。シナリオにおける各登場人物の台詞の再生態様は、その台詞に先立って再生される台詞、すなわち先行する台詞に応じて予め定められ、これが所謂演出である。シナリオライブラリ122には、各々異なるシナリオに対応する複数のシナリオデータが格納されており、各シナリオデータにはそのシナリオデータの表すシナリオを一意に示すシナリオ識別子が対応付けられている。シナリオ識別子の具体例としては、そのシナリオ識別子の示すシナリオのタイトルの文字列が挙げられる。本実施形態では、シナリオ識別子としてシナリオのタイトルの文字列を用いるが、シーケンスインデックス(数字列)をシナリオ識別子として用いても良く、この態様であればシナリオ識別子の情報量を本実施形態よりも削減することができる。
シナリオ選択部106は、音声再生装置1の埋め込まれたぬいぐるみをツッコミ役として演じる漫才のシナリオの選択を利用者に促し、利用者により選択されたシナリオのシナリオデータをシナリオライブラリ122から読み出して音声選択部108に与える。より詳細に説明すると、シナリオ選択部106は、シナリオライブラリ122に格納されている複数のシナリオデータの各々に対応するシナリオ識別子のリストを表示部に表示させる。そして、シナリオ選択部106は、操作入力部に対する操作により何れかのシナリオ識別子が選択されると、当該選択されたシナリオ識別子に対応するシナリオデータをシナリオライブラリ122から読み出し、当該読み出したシナリオデータを音声選択部108に与える。
音声ライブラリ124は、利用者による問い(本実施形態では、ボケ役の台詞)に対する回答(本実施形態では、ツッコミ役の台詞)を示す回答識別子とその回答の音声データの組を複数格納したデータベースである。回答別子は、その回答識別子の示す回答の文字列である。また、上記音声データは、モデルとなる人物の音声を録音したものであり、例えば「ないない」、「そんなあほな」、「ええかげんにせぇ」といった漫才の台詞である。回答の音声データについては、例えばwavやmp3などのフォーマットである。
音声選択部108は、言語解析部114から与えられる問い内容データとシナリオ選択部106から与えられるシナリオデータとに応じて、上記問い内容データにより表される問いに対する回答の音声データを、音声ライブラリ124から1つを選択して音声ライブラリ124から読み出す。より詳細に説明すると、音声選択部108は、シナリオデータに配列されている台詞識別子と上記問い内容データとを比較して進行中のシナリオにおける現在位置を特定し、次に再生する台詞の台詞識別子と再生態様データとを当該シナリオデータから読み出す。そして、音声選択部108は、上記の要領で読み出した台詞識別子と同じ回答識別子に対応づけられている音声データを音声ライブラリ124から読み出して音声再生部110に与え、上記の要領で読み出した再生態様データを再生態様決定部104に与える。
音声再生部110は、音声選択部108から与えられた音声データの表す音声を、再生態様決定部104から与えられる再生態様データの示す再生態様で再生する。本実施形態では、漫才の台詞の音声を表す音声データを音声ライブラリ124に格納しておき、何れかの音声データを音声選択部108に選択させ、音声再生部110に再生させた。しかし、漫才の台詞を書き下した文字列を表す文字列データを音声ライブラリ124に格納しておき、この文字列データの表す台詞の音声を音声合成により音声再生部110に合成させ、合成した音声を音声再生部110に再生させても良い。本実施形態の特徴の一つは上記再生態様決定部104と、シナリオの進行中に聴き手の様子を示す様子データを取得して再生態様決定部104に与える様子データ取得部102を設けた点にある。以下、再生態様決定部104と様子データ取得部102を中心に説明する。
様子データ取得部102と再生態様決定部104は、図1に示すように、音声再生装置1に含まれる音声再生態様決定装置10を構成する。様子データ取得部102は、シナリオデータにしたがって再生される音声とは異なる音声を含む外部音声を収音するマイクロフォンであり、当該外部音声を表す外部音声データを様子データとして取得する。様子データ取得部102は、音声再生装置1とその利用者により演じられる漫才を鑑賞する観客の客席に設置され、当該観客の笑い声等を含む音声を外部音声として収音する。
再生態様決定部104は、音声再生部110により再生される音声の再生態様を、様子データ取得部102により取得された様子データの示す聴き手の様子に応じて上記漫才の鑑賞に支障が生じない再生態様に変更し、当該再生態様を示す再生態様データに更新する。ここで、上記漫才の鑑賞に支障が生じない再生態様とは、音声再生部110により再生される音声を聴き手が外部音声と区別することができ、音声再生部110により再生される音声の意味内容を聴き手が把握できる態様のことをいう。
図2は、再生態様決定部104の実行する再生態様決定処理の流れを示すフローチャートである。図2に示すように、再生態様決定部104は、まず、様子データの示す外部音声の音量(例えば、様子データから算出される平均音量)が予め定められた閾値を上回っているか否かを判別する(ステップSa10)。そして、ステップSa10の判定結果が「Yes」である場合には、再生態様決定部104は、漫才の鑑賞に支障が生じないように、音声選択部108から与えられた再生態様データを更新し(ステップSa11)、更新後の再生態様データを音声再生部110に与える。一方、ステップSa10の判定結果が「No」である場合には、再生態様決定部104は、ステップSa11の処理を行うことなく、音声選択部108から与えられた再生態様データをそのまま音声再生部110に与える。
ステップSa11における処理の具体例としては、再生音量を引き上げた再生態様データに更新する処理、発話開始タイミングを遅らせた再生態様データに更新する処理、再生対象の音声の再生を繰り返す再再生処理或いはこれらの処理の組み合わせが挙げられる。再生音量を引き上げること、発話開始タイミングを遅らせること、或いは繰り返し再生することで、音声再生部110により再生される音声が外部音声に埋もれることが回避され、聴き手は前者の音声の意味内容を把握することができるからである。本実施形態では、ステップSa11における処理として、再生音量を引き上げた再生態様データに更新する処理が採用されている。
再生音量の引き上げ態様については、更新前の再生態様データから算出される平均音量から予め定められた一定量だけ平均音量が上昇するように、再生音量の指定値を更新する態様や、様子データから算出される平均音量に応じた量だけ再生音量の指定値を更新する態様が考えられる。本実施形態では、後者の態様が採用されている。なお、再生音量を引き上げた再生態様データに更新する場合には、調和成分と非調和成分とを区別せずに両成分の音量を引き上げる態様と、調和成分の音量のみを引き上げる態様とが考えられるが、後者の方が好ましい。音声に含まれる非調和成分の一例としては気息音が挙げられる。非調和成分の音量を引き上げると気息音の音量を大きくなり、聴き手にうるさい感じを与える虞がある。調和成分のみを引き上げるのは、このような不具合の発生を回避するためである。
以上が音声再生態様決定装置10およびこれを含む音声再生装置1の構成である。
以上が音声再生態様決定装置10およびこれを含む音声再生装置1の構成である。
図3は、音声再生態様決定装置10の動作および効果を説明するための図である。図3では、音声再生装置1の利用者が当該音声再生装置1をツッコミ役として行っている漫才が聴き手の音声を含む外部音声の音量OVの時間変化が一点鎖線で示されており、音声再生装置1により再生される音声の音量PVの時間変化が実線で示されている。図3に示すように、時刻T1において、聴き手に大きな笑が起こり、外部音声の音量OVが閾値thを上回る状態が時刻T2まで継続したとする。このような状況下で、音声選択部108により選択された音声を再生音量の引き上げを行わずに再生すると、時刻T1〜時刻T2までの区間において当該音声は聴き手の笑い声に埋もれ、漫才の鑑賞に支障が生じる。
これに対して本実施形態では、時刻T1〜時刻T2までの区間では、図2に示すフローチャートのステップSa10の判定結果は「Yes」となり、ステップSa11の処理が実行される。その結果、再生音量PVは外部音声の音量OVに応じて引き上げられ、音声再生部110により再生される音声が聴き手の笑い声に埋もれることが回避される。なお、時刻T2以降は、外部音声の音量OVが閾値thを下回るため、図2に示すフローチャートのステップSa10の判定結果は「No」となって再生態様データの更新は行われず、音声再生部110により再生される音声の再生音量は、元の音量に戻る。
このように、本実施形態によれば、人と機械による音声インタラクションにおいて、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行うことが可能になる。なお、上記実施形態では、音声再生装置1の利用者が漫才のボケ役を演じ、音声再生装置1がツッコミ役を担う場合について説明したが、両者の役割を入れ替えても良い。この場合、音声ライブラリ124には、ボケ役の台詞の音声データを格納しておけば良い。また、本実施形態では、人と機械による音声インタラクションにより実現される漫才への本発明の適用例を説明したが、人と機械により実現される演劇、或いは機械と機械による音声インタラクションに本発明を適用しても勿論良い。
(B:変形および応用例)
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<音声入力部>
上記実施形態では、音声入力部112は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られない。すなわち、音声入力部112は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、音声入力部112は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。また、音声再生装置1に対する問い掛けは、音声による問い掛けには限定されず、問いを書き下した文を表すテキストデータの入力であっても良い。この場合、音声入力部112に代えてテキストデータ入力部を音声再生装置1に設けて置けば良い。
上記実施形態では、音声入力部112は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られない。すなわち、音声入力部112は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、音声入力部112は、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成、さらには、LSIに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。また、音声再生装置1に対する問い掛けは、音声による問い掛けには限定されず、問いを書き下した文を表すテキストデータの入力であっても良い。この場合、音声入力部112に代えてテキストデータ入力部を音声再生装置1に設けて置けば良い。
<再生態様を変更する処理のバリエーション>
上記実施形態では、再生態様を変更する処理として音量を引き上げる処理を説明したが、これに限定される訳ではない。例えば、発話タイミングを遅らせる処理、話速を速くする或いは遅くするなどの話速変換処理、再再生処理が考えられる。ここで、話速とは、単位時間当たりに発話される音素数のことをいう。また、音声を再生する際の音高の制御の基準点と制御幅(最高音高と最低音高の差)が再生態様データにて指定されており、音声再生部110では、音声選択部108から与えられる音声データにおける上記基準点以外の音高を、この制御幅内でシフトさせて再生する場合には、上記様子データに応じて上記制御幅を狭める或いは広げるようにしても良い。なお、上記基準点としては、音声選択部108から与えられる音声データの表す音声の始点或いは終点、音量が最大になる点、または始点と終点の間で任意に指定される点等が考えられる。
上記実施形態では、再生態様を変更する処理として音量を引き上げる処理を説明したが、これに限定される訳ではない。例えば、発話タイミングを遅らせる処理、話速を速くする或いは遅くするなどの話速変換処理、再再生処理が考えられる。ここで、話速とは、単位時間当たりに発話される音素数のことをいう。また、音声を再生する際の音高の制御の基準点と制御幅(最高音高と最低音高の差)が再生態様データにて指定されており、音声再生部110では、音声選択部108から与えられる音声データにおける上記基準点以外の音高を、この制御幅内でシフトさせて再生する場合には、上記様子データに応じて上記制御幅を狭める或いは広げるようにしても良い。なお、上記基準点としては、音声選択部108から与えられる音声データの表す音声の始点或いは終点、音量が最大になる点、または始点と終点の間で任意に指定される点等が考えられる。
また、音声データの再生態様を聴き手の様子に応じて変更するのではなく、再生対象の音声データを変更するようにしても良い。具体的には、相手の台詞の再入力を促す処理(例えば、「もう一度いうてみぃ」などの聞き直し用に予め容易された台詞の音声を再生する処理)や、台詞をスキップして他の台詞の音声を再生することでシナリオの進行を早める処理などであっても良い。また、上記実施形態では、台詞の音声の再生態様を変更するか否かを判別する際の基準となる閾値が1つであったが、複数の閾値を用いるようにしても良い。例えば、様子データの表す外部音声の音量が第1の閾値以上となったことを契機として、再生対象の台詞の音量を引き上げる場合には、外部音声の音量が上記第1の閾値よりも小さい第2の閾値を下回るまでその状態を維持し、当該第2の閾値を下回ったことを契機として再生対象の台詞の音量を引き下げるといったヒステリシスな動作を行わせるようにしても良い。
<再生態様の変更タイミングおよび様子データの取得タイミングのバリエーション>
上記実施形態では、シナリオデータにて再生順および再生態様が規定された音声データの全てについて再生態様の変更の要否を判定したが、例えば漫才であればオチやギャグに対応する1または複数の音声データについてのみ再生態様の変更の要否を判定しても良い。要は、シナリオデータにて再生順および再生態様が規定された複数の音声データのうちの少なくとも1つについて、様子データ取得部102により取得された様子データの示す聴き手の様子に応じて再生態様決定部104が再生態様を決定する態様であれば良い。
上記実施形態では、シナリオデータにて再生順および再生態様が規定された音声データの全てについて再生態様の変更の要否を判定したが、例えば漫才であればオチやギャグに対応する1または複数の音声データについてのみ再生態様の変更の要否を判定しても良い。要は、シナリオデータにて再生順および再生態様が規定された複数の音声データのうちの少なくとも1つについて、様子データ取得部102により取得された様子データの示す聴き手の様子に応じて再生態様決定部104が再生態様を決定する態様であれば良い。
また、上記実施形態では、シナリオデータの示すシナリオの進行中に様子データを常時取得する場合について説明したが、音声選択部108により音声の選択が行われる毎に様子データを取得しても良い。また、シナリオデータにて再生順および再生態様が規定された音声データのうちの1または複数について再生態様の変更の要否を判定する場合には、当該1または複数の音声データの各々の選択に応じて様子データを取得しても良く、音声選択部108による音声の選択とは無関係に、漫才であればオチやギャグのタイミング、演劇であればストーリーの区切りのタイミングなどの予め定められたタイミングで様子データを取得しても良い。つまり、様子データの取得は、シナリオの進行中であれば任意のタイミングで行えば良い。
<様子データのバリエーション>
上記実施形態では、外部音声を表す外部音声データを様子データとして用いたが、聴き手を撮像して得られる映像データを様子データとして用いても良く、また、操作入力部に対する操作により聴き手の年齢層を表す数値(高齢層であるほど大きな値)を入力し、当該数値を表すデータを様子データとしても良い。後者の態様の場合、様子データの表す値が閾値を超えている場合に、再生態様決定部104には音声の再生態様を変更させるようにすれば良い。具体的には、再生音量を引き上げる、話速を引き下げる、音高の制御幅を広くする、発話タイミングを遅くする、或いはこれらを組み合わせて実行する、といった具合である。聴き手が高齢者である場合に漫才の鑑賞に支障が生じないようにするためである。
上記実施形態では、外部音声を表す外部音声データを様子データとして用いたが、聴き手を撮像して得られる映像データを様子データとして用いても良く、また、操作入力部に対する操作により聴き手の年齢層を表す数値(高齢層であるほど大きな値)を入力し、当該数値を表すデータを様子データとしても良い。後者の態様の場合、様子データの表す値が閾値を超えている場合に、再生態様決定部104には音声の再生態様を変更させるようにすれば良い。具体的には、再生音量を引き上げる、話速を引き下げる、音高の制御幅を広くする、発話タイミングを遅くする、或いはこれらを組み合わせて実行する、といった具合である。聴き手が高齢者である場合に漫才の鑑賞に支障が生じないようにするためである。
<漫才等の演じ方の評価等>
音声入力部112から出力される音声データと当該音声データの出力タイミンにおける様子データとを比較して、利用者の音声が聴き手の声にかぶっていないか、或いは、聴き手の声に埋もれていないか、を評価・採点し、その評価結果や採点結果を報知するようにしても良い。このような態様によれば、漫才等の演じ方の練習を支援することが可能になる。
音声入力部112から出力される音声データと当該音声データの出力タイミンにおける様子データとを比較して、利用者の音声が聴き手の声にかぶっていないか、或いは、聴き手の声に埋もれていないか、を評価・採点し、その評価結果や採点結果を報知するようにしても良い。このような態様によれば、漫才等の演じ方の練習を支援することが可能になる。
<その他>
実施形態にあっては、発言に対する回答を取得する構成である言語解析部114、シナリオライブラリ、および音声ライブラリを音声再生装置1の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。また、上記実施形態では、本発明の特徴を顕著に示す音声再生態様決定装置10が音声再生装置1に組み込まれていたが、音声再生態様決定装置を音声再生装置とは別個の装置としても良く、音声再生装置とは別個に音声再生態様決定装置を単体で製造・販売しても良い。
実施形態にあっては、発言に対する回答を取得する構成である言語解析部114、シナリオライブラリ、および音声ライブラリを音声再生装置1の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。また、上記実施形態では、本発明の特徴を顕著に示す音声再生態様決定装置10が音声再生装置1に組み込まれていたが、音声再生態様決定装置を音声再生装置とは別個の装置としても良く、音声再生装置とは別個に音声再生態様決定装置を単体で製造・販売しても良い。
上記実施形態では、音声再生装置1と当該音声再生装置1の利用者により演じられる漫才への本発明の適用例を説明した。しかし、機械単独での朗読や一人芝居に本発明を適用しても良い。朗読や一人芝居に本発明を適用する場合、音声選択部108はシナリオデータにしたがって音声データを順次選択すれば良く、音声入力部112および言語解析部114は省略可能である。また、利用者の問い掛けに対して「はい」や「いいえ」、「うん」といった返事や相槌などの回答の音声を再生する音声再生装置における回答の音声の再生態様の決定に本発明を適用しても良い。すなわち、音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、上記音声データの表す音声の再生態様を、様子データ取得部により取得された様子データの示す聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、を具備することを特徴とする音声再生態様決定装置を提供しても良い。
1…音声再生装置、10…音声再生態様決定装置、102…様子データ取得部、104…再生態様決定部、106…シナリオ選択部、108…音声選択部、110…音声再生部、112…音声入力部、114…言語解析部、122…シナリオライブラリ、124…音声ライブラリ。
Claims (5)
- 音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、
前記音声データの表す音声の再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、
を具備することを特徴とする音声再生態様決定装置。 - 前記音声データは、複数の音声データの各々の再生順と先行する音声に応じて予め定められた再生態様とを規定するシーケンスデータにしたがって再生される前記複数の音声データの1つであり、
前記再生態様決定部は、
前記シーケンスデータの示す再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子に応じて変更することを特徴とする請求項1に記載の音声再生態様決定装置。 - 前記再生態様には、音声の再生音量が含まれ、
前記再生態様決定部は、音声データの表す音声の再生音量を前記シーケンスデータにて定められた再生音量から引き上げる場合には、調和成分のみを引き上げる
ことを特徴とする請求項2に記載の音声再生態様決定装置。 - 前記様子データ取得部は、前記音声データが表す音声とは異なる音声を含む外部音声を表す外部音声データを前記様子データとして取得する
ことを特徴とする請求項1〜3の何れか1項に記載の音声再生態様決定装置。 - コンピュータを、
音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、
前記音声データの表す音声の再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、
して機能させることを特徴とする音声再生態様決定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017056331A JP2018159779A (ja) | 2017-03-22 | 2017-03-22 | 音声再生態様決定装置、および音声再生態様決定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017056331A JP2018159779A (ja) | 2017-03-22 | 2017-03-22 | 音声再生態様決定装置、および音声再生態様決定プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018159779A true JP2018159779A (ja) | 2018-10-11 |
Family
ID=63796583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017056331A Pending JP2018159779A (ja) | 2017-03-22 | 2017-03-22 | 音声再生態様決定装置、および音声再生態様決定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018159779A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021084719A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
WO2021084721A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
-
2017
- 2017-03-22 JP JP2017056331A patent/JP2018159779A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021084719A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
WO2021084721A1 (ja) * | 2019-10-31 | 2021-05-06 | 富士通株式会社 | 音声再生プログラム、音声再生方法および音声再生システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6446993B2 (ja) | 音声制御装置およびプログラム | |
CN104574478A (zh) | 一种编辑动画人物口型的方法及装置 | |
JP6641045B1 (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
JP2018159779A (ja) | 音声再生態様決定装置、および音声再生態様決定プログラム | |
WO2014077182A1 (ja) | 携帯情報端末、シャドー音声管理方法及びコンピュータプログラム | |
US11417315B2 (en) | Information processing apparatus and information processing method and computer-readable storage medium | |
JP4882327B2 (ja) | コンテンツ再生装置、コンテンツ再生方法、及びコンテンツ再生プログラム | |
JP2009260718A (ja) | 画像再生装置及び画像再生処理プログラム | |
JP6170604B1 (ja) | 音声生成装置 | |
JP2018146961A (ja) | 音声再生装置及び音楽再生プログラム | |
JP2009075280A (ja) | コンテンツ再生装置 | |
JP4353084B2 (ja) | 映像再生方法及び装置及びプログラム | |
JP6190030B1 (ja) | 音声生成プログラム | |
JP2008022979A (ja) | ゲームシステム、プログラムおよび情報記憶媒体 | |
JP6646172B1 (ja) | 多言語コンテンツの教育用再生方法、そのためのデータ構造及びプログラム | |
JP6625089B2 (ja) | 音声生成プログラムおよびゲーム装置 | |
JP6134043B1 (ja) | 音声生成プログラムおよびゲーム装置 | |
JP6964918B1 (ja) | コンテンツ作成支援システム、コンテンツ作成支援方法及びプログラム | |
JP7503870B1 (ja) | 楽曲制作支援プログラム、楽曲制作支援装置、楽曲制作支援方法、及び音楽再生装置 | |
JP6185136B1 (ja) | 音声生成プログラムおよびゲーム装置 | |
JP6922306B2 (ja) | 音声再生装置、および音声再生プログラム | |
TWI774208B (zh) | 故事展演系統及其方法 | |
JP2008022978A (ja) | ゲームシステム、プログラムおよび情報記憶媒体 | |
KR101103329B1 (ko) | 어학 학습기 재생 방법 | |
JP6182894B2 (ja) | 音響処理装置および音響処理方法 |