JP2018159779A

JP2018159779A - 音声再生態様決定装置、および音声再生態様決定プログラム

Info

Publication number: JP2018159779A
Application number: JP2017056331A
Authority: JP
Inventors: 嘉山　啓; Hiroshi Kayama; 啓嘉山; 田邑　元一; Genichi Tamura; 元一田邑
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2018-10-11

Abstract

【課題】人と機械或いは機械と機械による音声インタラクションにおいて、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行う。
【解決手段】複数の音声データの各々の再生順と再生態様とを規定するシナリオデータの表すシナリオの進行中に聴き手の様子を示す様子データを取得する様子データ取得部と、前記複数の音声データの各々の表す音声の再生態様を前記シナリオデータにしたがって決定する再生態様決定部であって、前記複数の音声データのうちの少なくとも１つについては、前記様子データ取得部により取得された様子データの示す前記聴き手の様子に応じて再生態様を変更する再生態様決定部とを具備することを特徴とする音声再生態様決定装置、を提供する。
【選択図】図１

Description

本発明は、音声再生技術に関する。

音声再生技術の応用例として、人と機械による音声インタラクション或いは機械と機械による音声インタラクションが挙げられる。人と機械による音声インタラクションの一例としては、音声による利用者の問いに対してその問いに対する回答の音声をシナリオにしたがって再生することが挙げられる（例えば、特許文献１参照）。また、機械と機械による音声インタラクションの一例としては、予め定められたシナリオにしたがって音声再生装置Ａにより再生された台詞の音声を、音声再生装置Ｂが認識し、上記シナリオにしたがって別の台詞の音声を再生することが挙げられる。機械と機械による音声インタラクションの具体例としては、登場人物の全てを機械（音声再生装置）が演じる演劇や漫才が挙げられる。

特開２００４−２８７０１６号公報

人と機械或いは機械と機械による音声インタラクションにより実現される演劇や漫才には、聴き手の様子によっては音声再生装置によって再生される台詞の音声が聴こえ難くなり、観賞に支障が生じ得る、といった問題がある。演劇や漫才の聴き手とは、演劇や漫才の鑑賞者、視聴者、観覧者のことをいう。例えば、聴き手の盛り上がりなどによっては、シナリオ通りに台詞等の音声を再生すると、聴き手の笑い声等に台詞の音声が埋もれて聴き取り難くなるからである。

本発明は以上に説明した課題に鑑みて為されたものであり、人と機械或いは機械と機械による音声インタラクションにおいて、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行う技術を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る音声再生態様決定装置は、音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、前記音声データの表す音声の再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、を具備することを特徴とする。

本態様によれば、様子データの示す聴き手の様子に応じて音声の再生態様が決定される。人と機械或いは機械と機械による音声インタラクションにおける音声の再生態様の決定に本態様の音声再生態様決定装置を用い、聴き手の様子を踏まえて鑑賞のしやすい再生態様に決定するようにすれば、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行うことが可能になる。

より好ましい態様においては、前記音声データは、複数の音声データの各々の再生順と当該再生順に応じて定められた再生態様とを規定するシーケンスデータにしたがって再生される前記複数の音声データの１つであり、前記再生態様決定部は、前記シーケンスデータの示す再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子に応じて変更することを特徴とする。上記シーケンスデータの具体例としては、登場人物の全てを機械（音声再生装置）が演じる演劇や漫才における音声の再生態様を表すデータをその再生順に配列したシーケンスデータ、すなわち、当該演劇や漫才のシナリオの進行を表すシーケンスデータが挙げられる。以下、このようなシーケンスデータを「シナリオデータ」と呼ぶ。

様子データの具体例としては、音声データの表す音声とは異なる音声を含む外部音声を表す外部音声データが挙げられる。この場合、様子データ取得部は、音声データの表す音声とは異なる音声を含む外部音声を表す外部音声データを様子データとして取得する。外部音声の具体例としては、上記シナリオデータにより進行が表されるシナリオの聴き手の笑い声等を含む音声が挙げられる。本態様においては、聴き手の音声に応じて再生態様が決定される。具体的には、様子データの表す外部音声の音量が大きい程、音声データの表す音声の再生タイミングを遅らせる、或いは再生音量を大きくする、ことが考えられる。このようにすれば、上記音声データの表す音声、すなわち演劇や漫才の台詞が聴き手の笑い声等に埋もれて聴き取り難くなることを回避することができる。

上記のように外部音声に応じて音声データの表す音声の再生音量をシーケンスデータにて定められた再生音量から引き上げる場合には、調和成分のみを引き上げることが好ましい。音声に含まれる非調和成分の一例としては気息音が挙げられる。非調和成分の音量を引き上げると気息音の音量が大きくなり、聴き手にうるさい感じを与える虞がある。調和成分のみを引き上げることで、このような不具合の発生を回避できるからである。

本発明の態様について、音声再生態様決定装置のみならず、コンピュータを当該音声再生態様決定装置として機能させるプログラムとして概念することも可能である。

本発明の一実施形態に係る音声再生装置１の構成を示すブロック図である。同音声再生装置１に含まれる音声再生態様決定装置１０の動作を示すフローチャートである。同音声再生態様決定装置１０の動作および効果を説明するための図である。

以下、図面を参照しつつ、この発明の実施形態を説明する。
（Ａ：実施形態）
図１は、本発明の実施形態に係る音声再生装置１の構成を示す図である。この音声再生装置１は、例えば、ぬいぐるみに組み込まれる装置である。音声再生装置１は、予め定められた漫才のシナリオにしたがって利用者が当該ぬいぐるみに問いを発したときに、そのシナリオにしたがって回答の音声を再生し、当該利用者を相方とする漫才を実現する。本実施形態では、音声再生装置１が漫才のツッコミ役を演じ、音声再生装置１の利用者がボケ役を演じる。音声再生装置１は、ＣＰＵ（Central Processing Unit）や、音声入力部１１２を有し、予めインストールされたアプリケーションプログラムを当該ＣＰＵが実行することによって、複数の機能ブロックが次のように構築される。

図１に示すように、音声再生装置１では、様子データ取得部１０２、再生態様決定部１０４、シナリオ選択部１０６、音声選択部１０８、音声再生部１１０、言語解析部１１４が構築される。図１では詳細な図示を省略したが、様子データ取得部１０２〜言語解析部１１４のほかにも音声再生装置１は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定を行えるようになっている。また、音声再生装置１は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。

音声入力部１１２は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するＡ／Ｄ変換器とで構成される。音声再生装置１の利用者が当該音声再生装置１に対して音声で問いを発すると、音声入力部１１２は、その問いの音声を表す音声信号を出力する。言語解析部１１４は、音声入力部１１２から出力される音声信号で規定される音声の意味内容を解析して文字列に変換し、その文字列を表す問い内容データを音声選択部１０８に与える。

シナリオライブラリ１２２は、漫才のシナリオの進行を表すシナリオデータを格納したデータベースである。シナリオデータは、そのシナリオデータにより進行が表されるシナリオにおける登場人物（漫才であれば、ツッコミ役とボケ役）の各々の台詞を示す台詞識別子と当該台詞の再生態様を示す再生態様データを、台詞の再生順に配列したシーケンスデータである。本実施形態における台詞識別子は、その台詞識別子の示す台詞の文字列である。また、台詞の再生態様とは、台詞を音声として再生する際の話速、音高、音量、および発話開始タイミングのことを言い、発話開始タイミングとは、直前の台詞の発話終了を起算点とする台詞の発話開始時刻のことを言う。シナリオにおける各登場人物の台詞の再生態様は、その台詞に先立って再生される台詞、すなわち先行する台詞に応じて予め定められ、これが所謂演出である。シナリオライブラリ１２２には、各々異なるシナリオに対応する複数のシナリオデータが格納されており、各シナリオデータにはそのシナリオデータの表すシナリオを一意に示すシナリオ識別子が対応付けられている。シナリオ識別子の具体例としては、そのシナリオ識別子の示すシナリオのタイトルの文字列が挙げられる。本実施形態では、シナリオ識別子としてシナリオのタイトルの文字列を用いるが、シーケンスインデックス（数字列）をシナリオ識別子として用いても良く、この態様であればシナリオ識別子の情報量を本実施形態よりも削減することができる。

シナリオ選択部１０６は、音声再生装置１の埋め込まれたぬいぐるみをツッコミ役として演じる漫才のシナリオの選択を利用者に促し、利用者により選択されたシナリオのシナリオデータをシナリオライブラリ１２２から読み出して音声選択部１０８に与える。より詳細に説明すると、シナリオ選択部１０６は、シナリオライブラリ１２２に格納されている複数のシナリオデータの各々に対応するシナリオ識別子のリストを表示部に表示させる。そして、シナリオ選択部１０６は、操作入力部に対する操作により何れかのシナリオ識別子が選択されると、当該選択されたシナリオ識別子に対応するシナリオデータをシナリオライブラリ１２２から読み出し、当該読み出したシナリオデータを音声選択部１０８に与える。

音声ライブラリ１２４は、利用者による問い（本実施形態では、ボケ役の台詞）に対する回答（本実施形態では、ツッコミ役の台詞）を示す回答識別子とその回答の音声データの組を複数格納したデータベースである。回答別子は、その回答識別子の示す回答の文字列である。また、上記音声データは、モデルとなる人物の音声を録音したものであり、例えば「ないない」、「そんなあほな」、「ええかげんにせぇ」といった漫才の台詞である。回答の音声データについては、例えばｗａｖやｍｐ３などのフォーマットである。

音声選択部１０８は、言語解析部１１４から与えられる問い内容データとシナリオ選択部１０６から与えられるシナリオデータとに応じて、上記問い内容データにより表される問いに対する回答の音声データを、音声ライブラリ１２４から１つを選択して音声ライブラリ１２４から読み出す。より詳細に説明すると、音声選択部１０８は、シナリオデータに配列されている台詞識別子と上記問い内容データとを比較して進行中のシナリオにおける現在位置を特定し、次に再生する台詞の台詞識別子と再生態様データとを当該シナリオデータから読み出す。そして、音声選択部１０８は、上記の要領で読み出した台詞識別子と同じ回答識別子に対応づけられている音声データを音声ライブラリ１２４から読み出して音声再生部１１０に与え、上記の要領で読み出した再生態様データを再生態様決定部１０４に与える。

音声再生部１１０は、音声選択部１０８から与えられた音声データの表す音声を、再生態様決定部１０４から与えられる再生態様データの示す再生態様で再生する。本実施形態では、漫才の台詞の音声を表す音声データを音声ライブラリ１２４に格納しておき、何れかの音声データを音声選択部１０８に選択させ、音声再生部１１０に再生させた。しかし、漫才の台詞を書き下した文字列を表す文字列データを音声ライブラリ１２４に格納しておき、この文字列データの表す台詞の音声を音声合成により音声再生部１１０に合成させ、合成した音声を音声再生部１１０に再生させても良い。本実施形態の特徴の一つは上記再生態様決定部１０４と、シナリオの進行中に聴き手の様子を示す様子データを取得して再生態様決定部１０４に与える様子データ取得部１０２を設けた点にある。以下、再生態様決定部１０４と様子データ取得部１０２を中心に説明する。

様子データ取得部１０２と再生態様決定部１０４は、図１に示すように、音声再生装置１に含まれる音声再生態様決定装置１０を構成する。様子データ取得部１０２は、シナリオデータにしたがって再生される音声とは異なる音声を含む外部音声を収音するマイクロフォンであり、当該外部音声を表す外部音声データを様子データとして取得する。様子データ取得部１０２は、音声再生装置１とその利用者により演じられる漫才を鑑賞する観客の客席に設置され、当該観客の笑い声等を含む音声を外部音声として収音する。

再生態様決定部１０４は、音声再生部１１０により再生される音声の再生態様を、様子データ取得部１０２により取得された様子データの示す聴き手の様子に応じて上記漫才の鑑賞に支障が生じない再生態様に変更し、当該再生態様を示す再生態様データに更新する。ここで、上記漫才の鑑賞に支障が生じない再生態様とは、音声再生部１１０により再生される音声を聴き手が外部音声と区別することができ、音声再生部１１０により再生される音声の意味内容を聴き手が把握できる態様のことをいう。

図２は、再生態様決定部１０４の実行する再生態様決定処理の流れを示すフローチャートである。図２に示すように、再生態様決定部１０４は、まず、様子データの示す外部音声の音量（例えば、様子データから算出される平均音量）が予め定められた閾値を上回っているか否かを判別する（ステップＳａ１０）。そして、ステップＳａ１０の判定結果が「Ｙｅｓ」である場合には、再生態様決定部１０４は、漫才の鑑賞に支障が生じないように、音声選択部１０８から与えられた再生態様データを更新し（ステップＳａ１１）、更新後の再生態様データを音声再生部１１０に与える。一方、ステップＳａ１０の判定結果が「Ｎｏ」である場合には、再生態様決定部１０４は、ステップＳａ１１の処理を行うことなく、音声選択部１０８から与えられた再生態様データをそのまま音声再生部１１０に与える。

ステップＳａ１１における処理の具体例としては、再生音量を引き上げた再生態様データに更新する処理、発話開始タイミングを遅らせた再生態様データに更新する処理、再生対象の音声の再生を繰り返す再再生処理或いはこれらの処理の組み合わせが挙げられる。再生音量を引き上げること、発話開始タイミングを遅らせること、或いは繰り返し再生することで、音声再生部１１０により再生される音声が外部音声に埋もれることが回避され、聴き手は前者の音声の意味内容を把握することができるからである。本実施形態では、ステップＳａ１１における処理として、再生音量を引き上げた再生態様データに更新する処理が採用されている。

再生音量の引き上げ態様については、更新前の再生態様データから算出される平均音量から予め定められた一定量だけ平均音量が上昇するように、再生音量の指定値を更新する態様や、様子データから算出される平均音量に応じた量だけ再生音量の指定値を更新する態様が考えられる。本実施形態では、後者の態様が採用されている。なお、再生音量を引き上げた再生態様データに更新する場合には、調和成分と非調和成分とを区別せずに両成分の音量を引き上げる態様と、調和成分の音量のみを引き上げる態様とが考えられるが、後者の方が好ましい。音声に含まれる非調和成分の一例としては気息音が挙げられる。非調和成分の音量を引き上げると気息音の音量を大きくなり、聴き手にうるさい感じを与える虞がある。調和成分のみを引き上げるのは、このような不具合の発生を回避するためである。
以上が音声再生態様決定装置１０およびこれを含む音声再生装置１の構成である。

図３は、音声再生態様決定装置１０の動作および効果を説明するための図である。図３では、音声再生装置１の利用者が当該音声再生装置１をツッコミ役として行っている漫才が聴き手の音声を含む外部音声の音量ＯＶの時間変化が一点鎖線で示されており、音声再生装置１により再生される音声の音量ＰＶの時間変化が実線で示されている。図３に示すように、時刻Ｔ１において、聴き手に大きな笑が起こり、外部音声の音量ＯＶが閾値ｔｈを上回る状態が時刻Ｔ２まで継続したとする。このような状況下で、音声選択部１０８により選択された音声を再生音量の引き上げを行わずに再生すると、時刻Ｔ１〜時刻Ｔ２までの区間において当該音声は聴き手の笑い声に埋もれ、漫才の鑑賞に支障が生じる。

これに対して本実施形態では、時刻Ｔ１〜時刻Ｔ２までの区間では、図２に示すフローチャートのステップＳａ１０の判定結果は「Ｙｅｓ」となり、ステップＳａ１１の処理が実行される。その結果、再生音量ＰＶは外部音声の音量ＯＶに応じて引き上げられ、音声再生部１１０により再生される音声が聴き手の笑い声に埋もれることが回避される。なお、時刻Ｔ２以降は、外部音声の音量ＯＶが閾値ｔｈを下回るため、図２に示すフローチャートのステップＳａ１０の判定結果は「Ｎｏ」となって再生態様データの更新は行われず、音声再生部１１０により再生される音声の再生音量は、元の音量に戻る。

このように、本実施形態によれば、人と機械による音声インタラクションにおいて、聴き手の様子を踏まえて鑑賞のしやすい音声再生を行うことが可能になる。なお、上記実施形態では、音声再生装置１の利用者が漫才のボケ役を演じ、音声再生装置１がツッコミ役を担う場合について説明したが、両者の役割を入れ替えても良い。この場合、音声ライブラリ１２４には、ボケ役の台詞の音声データを格納しておけば良い。また、本実施形態では、人と機械による音声インタラクションにより実現される漫才への本発明の適用例を説明したが、人と機械により実現される演劇、或いは機械と機械による音声インタラクションに本発明を適用しても勿論良い。

（Ｂ：変形および応用例）
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。

＜音声入力部＞
上記実施形態では、音声入力部１１２は、利用者の音声（発言）をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られない。すなわち、音声入力部１１２は、音声信号による発言をなんらかの形で入力する、または、入力される構成であれば良い。詳細には、音声入力部１１２は、他の処理部で処理された音声信号や、他の装置から供給（または転送された）音声信号を入力する構成、さらには、ＬＳＩに内蔵され、単に音声信号を受信し後段に転送する入力インターフェース回路等を含んだ概念である。また、音声再生装置１に対する問い掛けは、音声による問い掛けには限定されず、問いを書き下した文を表すテキストデータの入力であっても良い。この場合、音声入力部１１２に代えてテキストデータ入力部を音声再生装置１に設けて置けば良い。

＜再生態様を変更する処理のバリエーション＞
上記実施形態では、再生態様を変更する処理として音量を引き上げる処理を説明したが、これに限定される訳ではない。例えば、発話タイミングを遅らせる処理、話速を速くする或いは遅くするなどの話速変換処理、再再生処理が考えられる。ここで、話速とは、単位時間当たりに発話される音素数のことをいう。また、音声を再生する際の音高の制御の基準点と制御幅（最高音高と最低音高の差）が再生態様データにて指定されており、音声再生部１１０では、音声選択部１０８から与えられる音声データにおける上記基準点以外の音高を、この制御幅内でシフトさせて再生する場合には、上記様子データに応じて上記制御幅を狭める或いは広げるようにしても良い。なお、上記基準点としては、音声選択部１０８から与えられる音声データの表す音声の始点或いは終点、音量が最大になる点、または始点と終点の間で任意に指定される点等が考えられる。

また、音声データの再生態様を聴き手の様子に応じて変更するのではなく、再生対象の音声データを変更するようにしても良い。具体的には、相手の台詞の再入力を促す処理（例えば、「もう一度いうてみぃ」などの聞き直し用に予め容易された台詞の音声を再生する処理）や、台詞をスキップして他の台詞の音声を再生することでシナリオの進行を早める処理などであっても良い。また、上記実施形態では、台詞の音声の再生態様を変更するか否かを判別する際の基準となる閾値が１つであったが、複数の閾値を用いるようにしても良い。例えば、様子データの表す外部音声の音量が第１の閾値以上となったことを契機として、再生対象の台詞の音量を引き上げる場合には、外部音声の音量が上記第１の閾値よりも小さい第２の閾値を下回るまでその状態を維持し、当該第２の閾値を下回ったことを契機として再生対象の台詞の音量を引き下げるといったヒステリシスな動作を行わせるようにしても良い。

＜再生態様の変更タイミングおよび様子データの取得タイミングのバリエーション＞
上記実施形態では、シナリオデータにて再生順および再生態様が規定された音声データの全てについて再生態様の変更の要否を判定したが、例えば漫才であればオチやギャグに対応する１または複数の音声データについてのみ再生態様の変更の要否を判定しても良い。要は、シナリオデータにて再生順および再生態様が規定された複数の音声データのうちの少なくとも１つについて、様子データ取得部１０２により取得された様子データの示す聴き手の様子に応じて再生態様決定部１０４が再生態様を決定する態様であれば良い。

また、上記実施形態では、シナリオデータの示すシナリオの進行中に様子データを常時取得する場合について説明したが、音声選択部１０８により音声の選択が行われる毎に様子データを取得しても良い。また、シナリオデータにて再生順および再生態様が規定された音声データのうちの１または複数について再生態様の変更の要否を判定する場合には、当該１または複数の音声データの各々の選択に応じて様子データを取得しても良く、音声選択部１０８による音声の選択とは無関係に、漫才であればオチやギャグのタイミング、演劇であればストーリーの区切りのタイミングなどの予め定められたタイミングで様子データを取得しても良い。つまり、様子データの取得は、シナリオの進行中であれば任意のタイミングで行えば良い。

＜様子データのバリエーション＞
上記実施形態では、外部音声を表す外部音声データを様子データとして用いたが、聴き手を撮像して得られる映像データを様子データとして用いても良く、また、操作入力部に対する操作により聴き手の年齢層を表す数値（高齢層であるほど大きな値）を入力し、当該数値を表すデータを様子データとしても良い。後者の態様の場合、様子データの表す値が閾値を超えている場合に、再生態様決定部１０４には音声の再生態様を変更させるようにすれば良い。具体的には、再生音量を引き上げる、話速を引き下げる、音高の制御幅を広くする、発話タイミングを遅くする、或いはこれらを組み合わせて実行する、といった具合である。聴き手が高齢者である場合に漫才の鑑賞に支障が生じないようにするためである。

＜漫才等の演じ方の評価等＞
音声入力部１１２から出力される音声データと当該音声データの出力タイミンにおける様子データとを比較して、利用者の音声が聴き手の声にかぶっていないか、或いは、聴き手の声に埋もれていないか、を評価・採点し、その評価結果や採点結果を報知するようにしても良い。このような態様によれば、漫才等の演じ方の練習を支援することが可能になる。

＜その他＞
実施形態にあっては、発言に対する回答を取得する構成である言語解析部１１４、シナリオライブラリ、および音声ライブラリを音声再生装置１の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。また、上記実施形態では、本発明の特徴を顕著に示す音声再生態様決定装置１０が音声再生装置１に組み込まれていたが、音声再生態様決定装置を音声再生装置とは別個の装置としても良く、音声再生装置とは別個に音声再生態様決定装置を単体で製造・販売しても良い。

上記実施形態では、音声再生装置１と当該音声再生装置１の利用者により演じられる漫才への本発明の適用例を説明した。しかし、機械単独での朗読や一人芝居に本発明を適用しても良い。朗読や一人芝居に本発明を適用する場合、音声選択部１０８はシナリオデータにしたがって音声データを順次選択すれば良く、音声入力部１１２および言語解析部１１４は省略可能である。また、利用者の問い掛けに対して「はい」や「いいえ」、「うん」といった返事や相槌などの回答の音声を再生する音声再生装置における回答の音声の再生態様の決定に本発明を適用しても良い。すなわち、音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、上記音声データの表す音声の再生態様を、様子データ取得部により取得された様子データの示す聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、を具備することを特徴とする音声再生態様決定装置を提供しても良い。

１…音声再生装置、１０…音声再生態様決定装置、１０２…様子データ取得部、１０４…再生態様決定部、１０６…シナリオ選択部、１０８…音声選択部、１１０…音声再生部、１１２…音声入力部、１１４…言語解析部、１２２…シナリオライブラリ、１２４…音声ライブラリ。

Claims

音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、
前記音声データの表す音声の再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、
を具備することを特徴とする音声再生態様決定装置。
前記音声データは、複数の音声データの各々の再生順と先行する音声に応じて予め定められた再生態様とを規定するシーケンスデータにしたがって再生される前記複数の音声データの１つであり、
前記再生態様決定部は、
前記シーケンスデータの示す再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子に応じて変更することを特徴とする請求項１に記載の音声再生態様決定装置。
前記再生態様には、音声の再生音量が含まれ、
前記再生態様決定部は、音声データの表す音声の再生音量を前記シーケンスデータにて定められた再生音量から引き上げる場合には、調和成分のみを引き上げる
ことを特徴とする請求項２に記載の音声再生態様決定装置。
前記様子データ取得部は、前記音声データが表す音声とは異なる音声を含む外部音声を表す外部音声データを前記様子データとして取得する
ことを特徴とする請求項１〜３の何れか1項に記載の音声再生態様決定装置。
コンピュータを、
音声データの表す音声の聴き手の様子を示す様子データを取得する様子データ取得部と、
前記音声データの表す音声の再生態様を、前記様子データ取得部により取得された様子データの示す前記聴き手の様子と先行する音声とに応じて決定する再生態様決定部と、
して機能させることを特徴とする音声再生態様決定プログラム。