JP6646001B2

JP6646001B2 - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP6646001B2
Application number: JP2017056290A
Authority: JP
Inventors: 山本　雅裕; 雅裕山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2020-02-14
Anticipated expiration: 2037-03-22
Also published as: CN108630213A; CN108630213B; US10803852B2; JP2018159772A; US20180277095A1

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。

日常環境の中で適切なメッセージを伝えることは非常に重要である。特にカーナビゲーションの中での注意喚起および危険通知、さらには緊急災害放送において周囲の環境音に埋もれることなく通知すべきメッセージなどは、その後の行動を考えても確実に届ける必要がある。

カーナビゲーションの中で注意喚起および危険通知を行うために広く行われている方法として、光による刺激、および、ブザー音の追加等が挙げられる。

特開２００７−０１９９８０号公報

しかしながら、従来技術では、通常の音声ガイドから刺激を増やすことで注意喚起を行っているため、注意喚起の瞬間にドライバーなどの利用者が驚くという現象を生じさせる。驚いた後の利用者の行動は遅れる傾向があり、本来刺激によりスムーズな危機回避行動を促すはずが、かえって行動を制限する結果になる場合がある。

実施形態の音声処理装置は、特定部と、決定部と、変調部と、を備える。特定部は、出力させる音声の強調部分を特定する。決定部は、複数の出力部のうち、強調部分を強調するための音声を出力させる第１出力部および第２出力部を決定する。変調部は、第１出力部に出力させる第１音声の強調部分と第２出力部に出力させる第２音声の強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、第１音声および第２音声の少なくとも一方の強調部分を変調する。

第１の実施形態にかかる音声処理装置のブロック図。実施形態のスピーカの配置の一例を示す図。測定結果の一例を示す図。実施形態のスピーカの配置の他の例を示す図。実施形態のスピーカの配置の他の例を示す図。ピッチ変調および位相変調について説明するための図。位相の差（度）と背景音の音圧（ｄＢ）との関係を示す図。周波数差（Ｈｚ）と背景音の音圧（ｄＢ）との関係を示す図。第１の実施形態における音声出力処理のフローチャート。第２の実施形態にかかる音声処理装置のブロック図。第２の実施形態における音声出力処理のフローチャート。第３の実施形態にかかる音声処理装置のブロック図。第３の実施形態における音声出力処理のフローチャート。第４の実施形態にかかる音声処理装置のブロック図。第４の実施形態における音声出力処理のフローチャート。実施形態のスピーカの配置の一例を示す図。実施形態のスピーカの配置の一例を示す図。実施形態のスピーカの配置の一例を示す図。実施形態のスピーカの配置の一例を示す図。実施形態にかかる音声処理装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる音声処理装置の好適な実施形態を詳細に説明する。

発明者の実験では、複数の音声出力装置（スピーカ、ヘッドフォンなど）のそれぞれから、ピッチおよび位相の少なくとも一方が異なる音声を聴く場合に、音声の物理的な大きさ（ラウドネス）によらず知覚による明瞭さが大きくなり、かつ、注意レベルが上昇することが確認されている。このとき、驚きの感覚はほとんど観測されない。

これまでの考え方では、複数の音声出力装置のそれぞれから、ピッチおよび位相のいずれかが異なる音声を聴く場合には、明瞭さが減少するため聞き取りが悪化するとされてきた。しかし、上記のように発明者の実験では、ピッチおよび位相の少なくとも一方が異なる音声を左右の耳で聴く場合に明瞭さが上昇し、注意レベルが上昇することが確認できた。

これは、聴覚が両耳を使用して音声をより明確に知覚しようとする働きを示しており、これまでにはない新しい発見である。以下の実施形態は、この発見を基にしており、左右の耳に対してピッチおよび位相の少なくとも一方が異なる音声による知覚上昇を利用して注意喚起および危険通知を可能とする。

（第１の実施形態）
第１の実施形態にかかる音声処理装置は、強調部分に対応する音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させ、次動作をスムーズに実行させることが可能となる。

図１は、第１の実施形態にかかる音声処理装置１００の構成の一例を示すブロック図である。図１に示すように、音声処理装置１００は、記憶部１２１と、受付部１０１と、特定部１０２と、変調部１０３と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎ（ｎは２以上の整数）と、を備えている。

記憶部１２１は、音声処理装置１００で使用される各種データを記憶する。例えば記憶部１２１は、入力されたテキストデータ、および、テキストデータから特定された強調部分を示すデータなどを記憶する。記憶部１２１は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

スピーカ１０５−１〜１０５−ｎは、出力制御部１０４からの指示に従い音声を出力する出力部である。スピーカ１０５−１〜１０５−ｎは、同様の構成を備えるため、区別する必要がない場合は単にスピーカ１０５という場合がある。以下では、スピーカ１０５−１（第１出力部）およびスピーカ１０５−２（第２出力部）の２つのスピーカの組に出力する音声の間でピッチおよび位相の少なくとも一方を変調する場合を例に説明する。２以上の組に対して同様の処理を適用してもよい。

受付部１０１は、処理対象とする各種データを受け付ける。例えば受付部１０１は、音声に変換して出力させるテキストデータの入力を受け付ける。

特定部１０２は、出力させる音声のうち、強調して出力する部分を表す強調部分を特定する。強調部分は、注意喚起および危険通知等を行うためにピッチおよび位相の少なくとも一方を変調して出力する部分に相当する。例えば特定部１０２は、入力されたテキストデータから強調部分を特定する。入力するテキストデータに事前に強調部分を特定するための情報が付加されている場合は、特定部１０２は、付加された情報（付加情報）を参照して強調部分を特定することができる。特定部１０２は、テキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。特定部１０２は、付加情報による特定およびデータ照合による特定の両方を実行してもよい。強調部分を示すデータは、記憶部１２１に記憶されてもよいし、音声処理装置１００の外部の記憶装置に記憶されてもよい。

特定部１０２は、特定した強調部分を強調することを示す情報（付加情報）をテキストデータに付加する符号化処理を実行してもよい。後段の変調部１０３は、このようにして付加された付加情報を参照して、変調する強調部分を判定することが可能となる。付加情報は、強調部分であることを判定可能であればどのような形式であってもよい。また、特定部１０２は、符号化処理を実行したテキストデータを記憶部１２１などの記憶媒体に保存してもよい。これにより、以降の音声出力処理では、事前に付加情報が付加されたテキストデータを利用することが可能となる。

変調部１０３は、出力させる音声のピッチおよび位相の少なくとも一方である変調対象を変調する。例えば変調部１０３は、スピーカ１０５−１に出力させる音声（第１音声）の強調部分と、スピーカ１０５−２に出力させる音声（第２音声）の強調部分との間で変調対象が異なるように、少なくとも一方の音声の強調部分の変調対象を変調する。

本実施形態では、変調部１０３は、テキストデータを変換した音声を生成するときに、テキストデータが強調部分であるかを逐次判定し、強調部分に対して変調処理を実行する。すなわち変調部１０３は、テキストデータを変換して、スピーカ１０５−１に出力させる音声（第１音声）およびスピーカ１０５−２に出力させる音声（第２音声）を生成するときに、強調部分のテキストデータに対しては、変調対象が相互に異なるように、少なくとも一方の変調対象を変調した第１音声および第２音声を生成する。

テキストデータを音声に変換する処理（音声合成処理）は、フォルマント音声合成および音声コーパスベースの音声合成などの従来から用いられているあらゆる方法を用いることができる。

位相を変調する場合、変調部１０３は、スピーカ１０５−１およびスピーカ１０５−２のうち一方に入力する信号の極性を反転してもよい。これにより、スピーカ１０５の一方が他方に対して逆相になり、音声データの位相を変調する場合と同様の機能を実現できる。

変調部１０３は、処理対象のデータの完全性を確認し、完全性が確認された場合に変調処理を行ってもよい。例えばテキストデータに付加された付加情報が、強調部分の開始を示す情報と、強調部分の終了を示す情報とを指定する形式の場合、変調部１０３は、開始を示す情報と終了を示す情報とが対応することが確認できた場合に変調処理を行ってもよい。

出力制御部１０４は、スピーカ１０５からの音声の出力を制御する。例えば出力制御部１０４は、変調対象が変調された第１音声をスピーカ１０５−１に出力させ、第２音声をスピーカ１０５−２から出力させる。スピーカ１０５−１およびスピーカ１０５−２以外のスピーカ１０５が備えられている場合は、出力制御部１０４は、各スピーカ１０５に最適な音声を割り当てて出力させる。各スピーカ１０５は、出力制御部１０４からの出力データに基づいて音声を出力する。

出力制御部１０４は、スピーカ１０５の位置および特性等のパラメータを用いて、各スピーカ１０５への出力（アンプ出力）を計算する。これらのパラメータは、例えば記憶部１２１に記憶される。

例えば、２つのスピーカ１０５において必要な音圧を揃える場合には、以下のように、各スピーカへのアンプ出力Ｗ１、Ｗ２を計算する。２つのスピーカの距離をＬ１、Ｌ２とする。Ｌ１（Ｌ２）は、例えば、スピーカ１０５−１（スピーカ１０５−２）と頭部の中心との間の距離である。各スピーカ１０５から、最も近い耳までの距離を用いてもよい。使用する音声の可聴領域のスピーカ１０５−１（スピーカ１０５−２）のゲインをＧｓ１（Ｇｓ２）とする。距離が２倍になると６ｄＢの低下となり、３ｄＢの音圧上昇にアンプ出力が２倍必要であるとする。両耳での音圧を揃えるために、出力制御部１０４は、以下の式が成り立つように、アンプ出力Ｗ１、Ｗ２を計算して決定する。
−６×（Ｌ１／Ｌ２）×（１／２）＋（２／３）×Ｇｓ１×Ｗ１＝
−６×（Ｌ２／Ｌ１）×（１／２）＋（２／３）×Ｇｓ２×Ｗ２

受付部１０１、特定部１０２、変調部１０３、および、出力制御部１０４は、例えば、ＣＰＵ（Central Processing Unit）などの１以上のプロセッサにプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などの１以上のプロセッサ、すなわちハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

図２は、本実施形態のスピーカ１０５の配置の一例を示す図である。図２は、利用者２０５の鉛直上方から下方を観察した場合のスピーカ１０５の配置の例を示す。スピーカ１０５−１とスピーカ１０５−２からは、変調部１０３により変調処理が実行された音声が流れる。スピーカ１０５−１は、利用者２０５の右耳の延長上に置かれている。スピーカ１０５−２は、スピーカ１０５−１と右耳とを通過する線を基準として角度をもって置くことができる。

発明者は、曲線２０３または曲線２０４に沿ってスピーカ１０５−２の位置を変化させ、ピッチおよび位相を変調した音声を出力した場合の注意力を測定し、いずれの場合でも注意力の増大を確認した。注意力は、ＥＥＧ（Electroencephalogram）、ＮＩＲＳ（Near-Infrared Spectroscopy）、および、主観評価などの評価基準を用いて測定した。

図３は、測定結果の一例を示す図である。図３のグラフの横軸は、スピーカ１０５の配置角度を表す。配置角度は、例えば、スピーカ１０５−１と利用者２０５とを結ぶ線と、スピーカ１０５−２と利用者２０５とを結ぶ線とのなす角度である。図３に示すように、配置角度が９０°から１８０°のときに注意力の増加が大きくなる。従って、スピーカ１０５−１とスピーカ１０５−２は、配置角度が９０°から１８０°となるように配置することが望ましい。なお注意力は検出されるため、配置角度が０°より大きければ９０°より小さくてもよい。

音声の全区間のピッチまたは位相を変調してもよいが、この場合、慣れなどのために注意力が減少する可能性がある。そこで変調部１０３は、付加情報などにより特定された強調部分のみに対して変調を行う。これにより、強調部分に対する注意力をより効果的に高めることが可能となる。

図４は、本実施形態のスピーカ１０５の配置の他の例を示す図である。図４は、例えば屋外で場外放送を出力するために設置されるスピーカ１０５の配置の例を示す。図３に示すように、９０°から１８０°の配置角度となるスピーカ１０５の組を用いることが望ましい。従って、図４の例では、１８０°の配置角度で配置されるスピーカ１０５−１、スピーカ１０５−２の組に対して、音声の変調処理が実行される。

図５は、本実施形態のスピーカ１０５の配置の他の例を示す図である。図５は、ヘッドフォンとしてスピーカ１０５−１およびスピーカ１０５−２を構成した例である。

スピーカ１０５の配置例は図２、図４および図５に限られるものではない。図３に示したように注意力が得られる配置角度で配置されれば、どのような組み合わせのスピーカであってもよい。例えば、カーナビゲーションのために用いられる複数のスピーカに対して本実施形態を適用してもよい。

次に、ピッチ変調および位相変調について説明する。図６は、ピッチ変調および位相変調について説明するための図である。位相変調は、音声の包絡線６０４をもとに、元の信号６０１に対して同一の包絡線に対して単位時間内の波数を変えることなく、ピークの時間位置を変更した信号６０３を出力する。ピッチ変調は、波数を変更した信号６０２を出力する。

次に、ピッチまたは位相の変調と、音声の聞き取りやすさとの関係について説明する。図７は、位相の差（度）と背景音の音圧（ｄＢ）との関係を示す図である。位相の差は、２つのスピーカ１０５から出力させる音声間の位相の差（例えばスピーカ１０５−１から出力させる音声の位相と、スピーカ１０５−２から出力させる音声の位相との差）を表す。背景音の音圧は、出力された音声を利用者が聞き取ることができる背景音の音圧の最大値（限界音圧）を表す。

背景音は、スピーカ１０５から出力する音声以外の音である。例えば周囲の雑音、および、音声以外に出力されている音楽等の音が、背景音に相当する。図７の矩形で示す点が、得られた値の平均値を表す。この点の上下の線で示した範囲が得られた値の標準偏差を表す。

図７に示すように、０．５ｄＢ以上の背景音が存在する場合であっても、位相の差が６０°以上１８０°以下であれば、利用者はスピーカ１０５から出力される音声を聞き取ることができる。従って、変調部１０３は、位相の差が６０°以上１８０°以下となるように変調処理を実行してもよい。変調部１０３は、より限界音圧の高い９０°以上１８０°以下、または、１２０°以上１８０°以下の位相差となるように変調処理を実行してもよい。

図８は、周波数差（Ｈｚ）と背景音の音圧（ｄＢ）との関係を示す図である。周波数差は、２つのスピーカ１０５から出力させる音声の周波数の差（例えばスピーカ１０５−１から出力させる音声の周波数と、スピーカ１０５−２から出力させる音声の周波数との差）を表す。図８の矩形で示す点が、得られた値の平均値を表す。この点の横に付した数値“Ａ、Ｂ”のうち、Ａが周波数差を表し、Ｂが背景音の音圧を表す。

図８に示すように、背景音が存在する場合であっても、周波数差が１００Ｈｚ（ヘルツ）以上であれば、利用者はスピーカ１０５から出力される音声を聞き取ることができる。従って、変調部１０３は、可聴域の範囲内で、周波数差が１００Ｈｚ以上となるように変調処理を実行してもよい。

次に、このように構成された第１の実施形態にかかる音声処理装置１００による音声出力処理について図９を用いて説明する。図９は、第１の実施形態における音声出力処理の一例を示すフローチャートである。

受付部１０１は、テキストデータの入力を受け付ける（ステップＳ１０１）。特定部１０２は、テキストデータに付加情報が付加されているか否かを判断する（ステップＳ１０２）。付加されていない場合（ステップＳ１０２：Ｎｏ）、特定部１０２は、テキストデータから強調部分を特定する（ステップＳ１０３）。例えば特定部１０２は、入力されたテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定する。特定部１０２は、強調部分を示す付加情報を、対応するテキストデータの強調部分に付加する（ステップＳ１０４）。付加情報の付加方法は、変調部１０３が、強調部分を特定できればどのような方法であってもよい。

付加情報が付加された後（ステップＳ１０４）、および、テキストデータに付加情報が付加されている場合（ステップＳ１０２：Ｙｅｓ）、変調部１０３は、テキストデータに対応する音声であって、強調部分のテキストデータに対しては変調対象が相互に異なるように変調対象を変調した音声（第１音声、第２音声）を生成する（ステップＳ１０５）。

出力制御部１０４は、スピーカ１０５ごとに出力する音声を決定し、決定した音声を出力させる（ステップＳ１０６）。各スピーカ１０５は、出力制御部１０４の指示に従い音声を出力する。

このように、第１の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成しながら、強調部分に対応するテキストデータに対しては、音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第２の実施形態）
第１の実施形態では、テキストデータを逐次音声に変換するときに、強調部分のテキストデータに対して変調処理を行った。第２の実施形態にかかる音声処理装置は、テキストデータに対する音声を生成した後、生成した音声のうち強調部分に相当する音声に対して変調処理を行う。

図１０は、第２の実施形態にかかる音声処理装置１００−２の構成の一例を示すブロック図である。図１０に示すように、音声処理装置１００−２は、記憶部１２１と、受付部１０１と、特定部１０２と、変調部１０３−２と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎと、生成部１０６−２と、を備えている。

第２の実施形態では、変調部１０３−２の機能、および、生成部１０６−２を追加したことが第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる音声処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

生成部１０６−２は、テキストデータに対応する音声を生成する。例えば生成部１０６−２は、入力されたテキストデータを、スピーカ１０５−１に出力する音声（第１音声）およびスピーカ１０５−２に出力する音声（第２音声）に変換する。

変調部１０３−２は、生成部１０６−２により生成された音声のうち、強調部分の音声に対して変調処理を行う。例えば変調部１０３−２は、生成された第１音声の強調部分と生成された第２音声の強調部分との間で変調対象が異なるように、第１音声および第２音声の少なくとも一方の強調部分の変調対象を変調する。

次に、このように構成された第２の実施形態にかかる音声処理装置１００−２による音声出力処理について図１１を用いて説明する。図１１は、第２の実施形態における音声出力処理の一例を示すフローチャートである。

ステップＳ２０１からステップＳ２０４までは、第１の実施形態にかかる音声処理装置１００におけるステップＳ１０１からステップＳ１０４までと同様の処理なので、その説明を省略する。

本実施形態では、テキストデータが入力されると、生成部１０６−２による音声生成処理（音声合成処理）が実行される。すなわち、生成部１０６−２は、テキストデータに対応する音声を生成する（ステップＳ２０５）。

音声を生成後（ステップＳ２０５）、付加情報が付加された後（ステップＳ２０４）、および、テキストデータに付加情報が付加されている場合（ステップＳ２０２：Ｙｅｓ）、変調部１０３−２は、生成された音声から強調部分を抽出する（ステップＳ２０６）。例えば変調部１０３−２は、付加情報を参照してテキストデータのうち強調部分を特定するとともに、テキストデータと生成した音声との対応から、特定したテキストデータの強調部分に対応する音声の強調部分を抽出する。変調部１０３−２は、抽出した音声の強調部分に対して変調処理を実行する（ステップＳ２０７）。なお変調部１０３−２は、強調部分以外の音声に対しては変調処理を行わない。

ステップＳ２０８は、第１の実施形態にかかる音声処理装置１００におけるステップＳ１０６と同様の処理なので、その説明を省略する。

このように、第２の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成した後に、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第３の実施形態）
第１および第２の実施形態では、テキストデータを入力し、テキストデータを音声に変換して出力した。このような実施形態は、例えば、予め定められた緊急災害放送用のテキストデータを出力する場合などに適用できる。一方、利用者が発声した音声を緊急災害放送用に出力する状況も考えられる。第３の実施形態にかかる音声処理装置は、マイクなどの音声入力装置から音声を入力し、入力された音声の強調部分に対して変調処理を行う。

図１２は、第３の実施形態にかかる音声処理装置１００−３の構成の一例を示すブロック図である。図１２に示すように、音声処理装置１００−３は、記憶部１２１と、受付部１０１−３と、特定部１０２−３と、変調部１０３−３と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎと、生成部１０６−２と、を備えている。

第３の実施形態では、受付部１０１−３、特定部１０２−３、および、変調部１０３−３の機能が第２の実施形態と異なっている。その他の構成および機能は、第２の実施形態にかかる音声処理装置１００−２のブロック図である図１０と同様であるので、同一符号を付し、ここでの説明は省略する。

受付部１０１−３は、テキストデータのみでなく、マイクなどの音声入力装置から入力される音声を受け付ける。また、受付部１０１−３は、入力される音声のうち強調する部分の指定を受け付ける。例えば受付部１０１−３は、利用者による所定のボタンの押下を、押下後に入力される音声が強調する部分であることを示す指定として受け付ける。受付部１０１−３は、強調部分の開始および終了の指定を、開始から終了までに入力された音声が強調する部分であることを示す指定として受け付けてもよい。指定方法はこれらに限られるものではなく、音声のうち強調する部分を決定可能であればどのような方法であってもよい。以下では、音声のうち強調する部分の指定をトリガーという場合がある。

特定部１０２−３は、さらに、受け付けられた指定（トリガー）に基づいて、音声の強調部分を特定する機能を有する。

変調部１０３−３は、生成部１０６−２により生成された音声、または、入力された音声のうち、強調部分の音声に対して変調処理を行う。

次に、このように構成された第３の実施形態にかかる音声処理装置１００−３による音声出力処理について図１３を用いて説明する。図１３は、第３の実施形態における音声出力処理の一例を示すフローチャートである。

受付部１０１−３は、音声入力優先であるか否かを判定する（ステップＳ３０１）。音声入力優先とは、テキストデータではなく、音声を入力して出力することを示す指定である。例えば、音声入力優先を指定するためのボタンが押下された場合に、受付部１０１−３は、音声入力優先であると判定する。

音声入力優先であるかの判定方法はこれに限られるものではない。例えば、音声入力優先であるかを示す事前に保存された情報を参照して判定してもよい。また、テキストデータは入力せず、音声入力のみとする場合は、音声入力優先の指定や判定（ステップＳ３０１）を実行しなくてもよい。この場合、後述するテキストデータに基づく付加処理（ステップＳ３０６）も実行しなくてもよい。

音声入力優先の場合（ステップＳ３０１：Ｙｅｓ）、受付部１０１−３は、音声の入力を受け付ける（ステップＳ３０２）。特定部１０２−３は、音声の強調する部分の指定（トリガー）が入力されているか否かを判定する（ステップＳ３０３）。

トリガーが入力されていない場合（ステップＳ３０３：Ｎｏ）、特定部１０２−３は、音声の強調部分を特定する（ステップＳ３０４）。例えば特定部１０２−３は、入力されている音声と、予め登録された音声データとを照合し、登録された音声データと一致または類似する音声を強調部分として特定する。特定部１０２−３は、入力された音声を音声認識して得られるテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。

ステップＳ３０３でトリガーが入力されていると判定した場合（ステップＳ３０３：Ｙｅｓ）、および、ステップＳ３０４で強調部分を特定した後、特定部１０２−３は、入力されている音声のデータに対して、強調部分を示す付加情報を付加する（ステップＳ３０５）。付加情報の付加方法は、音声が強調部分であることを判定できればどのような方法であってもよい。

ステップＳ３０１で音声入力優先でないと判定された場合（ステップＳ３０１：Ｎｏ）、テキストに基づく付加処理が実行される（ステップＳ３０６）。この処理は、例えば図１１のステップＳ２０１からステップＳ２０５までと同様の処理で実現できる。

変調部１０３−３は、生成された音声から強調部分を抽出する（ステップＳ３０７）。例えば変調部１０３−３は、付加情報を参照して音声の強調部分を抽出する。ステップＳ３０６を実行した場合は、変調部１０３−３は、図１１のステップＳ２０６と同様の処理により強調部分を抽出する。

ステップＳ３０８からステップＳ３０９までは、第２の実施形態にかかる音声処理装置１００−２におけるステップＳ２０７からステップＳ２０８までと同様の処理なので、その説明を省略する。

このように、第３の実施形態にかかる音声処理装置では、入力された音声の強調部分をトリガーなどにより特定し、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第４の実施形態）
上記実施形態では、１組のスピーカ１０５（スピーカ１０５−１、スピーカ１０５−２）に出力する音声を変調する場合を例として説明した。第４の実施形態の音声処理装置は、複数のスピーカ１０５の中から、音声を変調させるスピーカ１０５の組を決定し、決定した組のスピーカ１０５に出力する音声を変調する。

図１４は、第４の実施形態にかかる音声処理装置１００−４の構成の一例を示すブロック図である。図１４に示すように、音声処理装置１００−４は、記憶部１２１と、受付部１０１と、特定部１０２−４と、変調部１０３−４と、出力制御部１０４−４と、スピーカ１０５−１〜１０５−ｎと、決定部１０７−４と、を備えている。記憶部１２１、受付部１０１、および、スピーカ１０５−１〜１０５−ｎは、第１の実施形態にかかる音声処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

スピーカ１０５は、音声処理装置１００−４の外部に備えられてもよい。後述するようにスピーカ１０５が屋外の公共空間に設置され、音声処理装置１００−４とネットワークなどにより接続されてもよい。この場合、音声処理装置１００−４は、例えばネットワークに接続されるサーバ装置として構成されてもよい。ネットワークは、無線ネットワークでもよいし、有線ネットワークでもよい。

なお以下では主に第１の実施形態を変更して第４の実施形態を構成する場合を例に説明するが、第２および第３の実施形態に対しても同様の変更を適用できる。

決定部１０７−４は、複数のスピーカ１０５（出力部）のうち、強調部分を強調するための音声を出力させる複数のスピーカ１０５を決定する。例えば決定部１０７−４は、２つのスピーカ１０５（第１出力部、第２出力部）を含む組を決定する。決定部１０７−４は、複数の組を決定してもよい。１つの組に３以上のスピーカ１０５が含まれてもよい。複数の組に含まれるスピーカ１０５は一部が重複してもよい。スピーカ１０５の組の決定方法の具体例は後述する。以下では、強調部分を強調するための音声を出力させるスピーカ１０５を対象スピーカという場合がある。

例えば決定部１０７−４は、スピーカ１０５−１〜スピーカ１０５−ｎのうち、利用者により指定されたスピーカ１０５を、対象スピーカとして決定する。スピーカ１０５の決定方法はこれに限られるものではない。スピーカ１０５−１〜スピーカ１０５−ｎから対象スピーカを決定できる方法であれば、どのような方法であってもよい。例えば、出力する音声に対して予め定められたスピーカ１０５を対象スピーカとして決定する方法でもよい。季節、日時、時刻、および、スピーカ１０５の周辺の状況などの各種情報に応じて対象スピーカを決定する方法でもよい。周辺の状況は、例えば、物体（人、車両、飛行体など）の有無、物体の数、および、物体の動作状況を含む。

特定部１０２−４は、複数の組に音声を出力する場合に、組ごとに異なる強調部分を特定する機能をさらに備える点が、第１の実施形態の特定部１０２と異なっている。

変調部１０３−４は、複数の組に音声を出力する場合に、組ごとに異なる強調部分を変調する機能をさらに備える点が、第１の実施形態の変調部１０３と異なっている。

出力制御部１０４−４は、複数のスピーカ１０５のうち、音声を変調して出力しないスピーカ１０５に対しては強調部分を強調しない音声を出力するように制御する機能をさらに備える点が、第１の実施形態の出力制御部１０４と異なっている。

次に、このように構成された第４の実施形態にかかる音声処理装置１００−４による音声出力処理について図１５を用いて説明する。図１５は、第４の実施形態における音声出力処理の一例を示すフローチャートである。

決定部１０７−４は、複数のスピーカ１０５のうち、強調部分を強調するための音声を出力させる複数のスピーカ１０５（対象スピーカ）を決定する（ステップＳ４０１）。決定部１０７−４は、複数のスピーカ１０５のうち、強調のための変調を行わない音声（通常の音声）を出力させるスピーカ１０５をさらに決定してもよい。

その後、決定されたスピーカ１０５に対して、音声が出力される（ステップＳ４０２）。ステップＳ４０２の処理は、例えば、第１の実施形態の図９と同様の処理で実現できる。本実施形態の方法を第２または第３の実施形態に対して適用する場合は、それぞれ図１１または図１３と同様の処理がステップＳ４０２で実行される。

ステップＳ４０１のスピーカ１０５を決定する処理は、ステップＳ４０２の中で実行されてもよい。例えば、決定部１０７−４は、テキストが受け付けられたときに（図９ではステップＳ１０１）、受け付けられたテキストに応じて定められたスピーカ１０５を決定してもよい。決定部１０７−４は、強調部分が特定されたときに（図９ではステップＳ１０３）、特定された強調部分に応じて定められたスピーカ１０５を決定してもよい。

以下、対象スピーカの決定方法の具体例について図１６〜図１９を用いて説明する。図１６は、鉄道のプラットフォームに設置されるスピーカ１０５の配置の例、および、決定されるスピーカ１０５の例を示す。

図１６に示すように、２つのプラットフォーム１６０１、１６０２に、それぞれ複数のスピーカ１０５が設置される。図１６は、２つのプラットフォーム１６０１、１６０２の上部から観察した場合のスピーカ１０５の配置の例である。プラットフォーム１６０１には、スピーカ１０５−１〜スピーカ１０５−１２が設置される。プラットフォーム１６０２には、スピーカ１０５−１３〜スピーカ１０５−２４が設置される。

決定部１０７−４は、これらのスピーカ１０５のうち、例えばプラットフォーム１６０１の端部の領域に設置されたスピーカ１０５の組を対象スピーカとして決定する。このように、決定部１０７−４は、各領域に応じて定められるスピーカ１０５を対象スピーカとして決定してもよい。例えば、領域１６１１が、プラットフォーム１６０１の端部に近く、かつ、プラットフォーム１６０１の車両が進入する側の領域であるとする。このような領域１６１１に対して強調した音声を出力させる場合であれば、決定部１０７−４は、領域１６１１の方向に音声を出力するスピーカ１０５−２、１０５−５の組を、対象スピーカとして決定する。これにより、例えば、車両が進入することを適切に知らせることが可能となる。

この場合、プラットフォーム１６０１の中央部の領域に設置されたスピーカ１０５は、音声を強調せずに出力するスピーカ１０５として決定されてもよい。決定部１０７−４は、プラットフォーム１６０１の中央部の領域に設置されたスピーカ１０５を対象スピーカとし、他の領域に設置されたスピーカ１０５を、音声を強調せずに出力するスピーカ１０５として決定してもよい。

決定部１０７−４は、プラットフォーム１６０１の末端により近い領域１６１２に音声を出力するスピーカ１０５−１、１０５−３の組を対象スピーカとして決定してもよい。対象スピーカとするスピーカ１０５は、同一のプラットフォームに設置される必要はない。例えば決定部１０７−４は、プラットフォーム１６０１、１６０２の間の領域１６１３に音声を出力するスピーカ１０５−７、１０５−１４の組を対象スピーカとして決定してもよい。音声の出力範囲が重なっていれば、例えば、スピーカ１０５−５、１０５−６が対象スピーカとして決定されてもよい。これにより、スピーカ１０５−５、１０５−６の直下を含む領域に対しても、強調した音声を出力可能となる。

領域１６１４は、階段１６０３の近くの領域である。決定部１０７−４は、このような領域１６１４に音声を出力するスピーカ１０５−１０、１０５−１２の組を対象スピーカとして決定してもよい。これにより、例えば、階段１６０３などの障害物により混雑していることの注意を促す音声を適切に出力することが可能となる。

決定部１０７−４は、強調した音声を出力する対象（人など）に対して他のスピーカ１０５より近いスピーカ１０５を対象スピーカとして決定してもよい。例えば決定部１０７−４は、対象者に近い順に２つのスピーカ１０５を対象スピーカとして決定してもよい。決定部１０７−４は、対象者が存在する領域を例えばカメラを用いて判定し、判定した領域に対して音声を出力する２つのスピーカ１０５を対象スピーカとして決定してもよい。

すべてのスピーカ１０５から強調した音声を出力する場合は、決定部１０７−４は、すべてのスピーカ１０５を対象スピーカとして決定してもよい。

例えば隣接する複数の領域のスピーカ１０５が対象スピーカとして決定される場合、変調部１０３−４は、各領域に対して強調した音声が出力されるように、各対象スピーカに出力させる音声を変調すればよい。例えば、領域１６１１と、スピーカ１０５−５およびスピーカ１０５−６の直下を含む領域と、に対して強調した音声を出力する場合を考える。この場合、変調部１０３−４は、例えば、スピーカ１０５−２およびスピーカ１０５−６に出力させる音声の変調対象を変調し、スピーカ１０５−５に出力させる音声の変調対象は変調しない。

なお本実施形態では、例えば上りの車両か下りの車両かで男性の音声および女性の音声を分ける、すなわち、出力する音声自体を変更する必要はない。変調部１０３−４は、同じ音声に対して変調処理を実行することにより、強調した音声を出力することができる。

スピーカ１０５は指向性があるほうがよりよいが、無指向性であってもよい。図１７は、鉄道のプラットフォームに設置されるスピーカ１０５の配置の他の例を示す。図１７に示すように、指向性のあるスピーカ１０５−１、１０５−３と、指向性のないスピーカ１０５−２とを組み合わせてもよい。

図１８は、公共空間に設置されるスピーカ１０５の配置の例、および、決定されるスピーカ１０５の例を示す。公共空間は、例えば、防災放送を出力する屋外スピーカが設置された空間、公園、および、グラウンドなどである。

図１８では、公共空間に５つのスピーカ１０５−１〜１０５−５が設置された例が示されている。図１８は、各スピーカ１０５のいずれに近いかによって領域を分けたボロノイ図としても解釈できる。

例えばボロノイ図を構成する１辺の中間付近の領域を、強調した音声を出力する領域としてもよい。決定部１０７−４は、例えば、この領域に対応する辺によって分けられるボロノイ図内の２つの領域に含まれる２つのスピーカ１０５を、対象スピーカとして決定する。例えば図１８の領域１７１１内の対象に対して強調した音声を出力する場合、決定部１０７−４は、スピーカ１０５−１とスピーカ１０５−２とを対象スピーカとして決定する。決定部１０７−４は、対象（人など）が含まれる領域のスピーカ１０５と、対象が含まれる領域外のスピーカ１０５のうち最も近いスピーカ１０５とを、対象スピーカとして決定してもよい。決定部１０７−４は、ボロノイ図により分けた領域に関わらず、対象に近い順に２つのスピーカ１０５を対象スピーカとして決定してもよい。

隣接する複数の領域に強調した音声を出力する場合、決定部１０７−４は、すべての領域に対して強調した音声を出力できるように対象スピーカを決定する。例えば図１８の全領域に対して強調した音声を出力する場合、決定部１０７−４は、すべてのスピーカ１０５−１〜１０５−５を対象スピーカとして決定する。この場合、変調部１０３−４は、各領域に対して強調した音声が出力されるように、各対象スピーカに出力させる音声を変調すればよい。

例えば、変調部１０３−４は、スピーカ１０５−１とスピーカ１０５−２の組、スピーカ１０５−２とスピーカ１０５−４の組、スピーカ１０５−４とスピーカ１０５−５の組、スピーカ１０５−５とスピーカ１０５−３の組、および、スピーカ１０５−３とスピーカ１０５−１の組の５つの組それぞれについて、組に含まれるスピーカ１０５間で変調対象が異なるように変調処理を行う。

なお、例えばスピーカ１０５−１、１０５−４、および、１０５−３に出力する音声を同じように変調し、スピーカ１０５−２および１０５−５に出力する音声を変調しないように構成したとする。この場合、上記５組のうち最後の組については変調対象が異なるように変調できない。このような場合は、変調部１０３−４は、例えば、各組に対する変調の度合い（変調強度）を異ならせるように変調処理を行えばよい。例えば変調部１０３−４は、各組の変調強度を段階的に変更すれば、５組すべてについて変調対象が異なるように変調処理を実行できる。

スピーカ１０５の一部を拡声器などの出力部に置き換え、拡声器とスピーカ１０５との間で変調対象を変調してもよい。例えば音声処理装置１００−４は、拡声器とスピーカ１０５との距離を予め測定しておく。距離は、レーザ、ドップラー効果、および、ＧＰＳを利用した方法などの任意の方法で測定できる。決定部１０７−４は、測定された距離やスピーカ１０５の配置などを参照し、拡声器と組にするスピーカ１０５を決定する。変調部１０３−４は、拡声器に入力される音声に対して、拡声器に出力させる音声の強調部分と、スピーカ１０５に出力させる音声の強調部分との間で変調対象が異なるように、少なくとも一方の音声の強調部分の変調対象を変調する。

図１９は、音声出力アプリケーションなどにより音声を出力する場合のスピーカ１０５の配置の例、および、決定されるスピーカ１０５の例を示す。音声出力アプリケーションは、例えば、書籍（テキストデータ）の内容を読み上げて音声により出力する朗読アプリケーションを含む。適用可能なアプリケーションはこれらに限られるものではない。

音声が出力される全体の領域は、スピーカ１０５の組により４つの領域に分けられる。図１９では、縦および横の破線により分けられる４つの領域が該当する。このように分けられる領域ごとに、異なる部分を強調するように構成してもよい。例えば特定部１０２−４は、領域１８１１に出力する音声の強調部分（第１強調部分）と、領域１８１２に出力する音声の強調部分（第２強調部分）を特定する。そして決定部１０７−４は、第１強調部分を強調するための音声を出力させる対象スピーカ（第１出力部、第２出力部）を決定し、第２強調部分を強調するための音声を出力させる対象スピーカ（第３出力部、第４出力部）を決定する。

例えば、特定部１０２−４は、記憶部１２１などに記憶された、強調した音声を出力する領域、および、強調部分を定めた情報を参照して、強調部分を出力する領域および強調部分を特定する。また決定部１０７−４は、特定された領域に対して定められたスピーカ１０５を対象スピーカとして決定する。音声出力アプリケーションが、音声出力中に領域および強調部分を指定するための機能を備え、特定部１０２−４が、音声出力アプリケーションを介して指定された領域および強調部分を特定してもよい。

このように構成することにより、例えば、領域ごとに、物語の異なる登場人物の音声を強調して出力することが可能となる。この結果、例えば物語の臨場感をより増大させることが可能となる。特定部１０２−４は、音声出力アプリケーションを実行する場所および音声の出力回数の少なくとも一方に応じて異なる領域および異なる強調部分を特定してもよい。これにより、例えば同じ書籍の内容であってもユーザに飽きさせないように音声を出力することが可能となる。

このように、第４の実施形態にかかる音声処理装置では、複数のスピーカから、強調部分を強調した音声を出力するスピーカが決定され、決定されたスピーカに出力する音声が変調される。これにより、例えば所望の場所に対して強調する音声を適切に出力することが可能となる。例えば、特定の場所に存在するユーザに対して効率的に注意を喚起させることが可能となる。

以上説明したとおり、第１から第４の実施形態によれば、音声のピッチおよび位相の少なくとも一方を変調して出力することにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

次に、第１から第４の実施形態にかかる音声処理装置のハードウェア構成について図２０を用いて説明する。図２０は、第１から第４の実施形態にかかる音声処理装置のハードウェア構成例を示す説明図である。

第１から第４の実施形態にかかる音声処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第４の実施形態における音声処理装置は、コンピュータまたは組み込みシステムであり、パソコンおよびマイコン等の１つからなる装置、または、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。また、本実施形態におけるコンピュータは、パソコンに限らず、情報処理機器に含まれる演算処理装置およびマイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器または装置を総称している。

第１から第４の実施形態にかかる音声処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第４の実施形態にかかる音声処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢフラッシュメモリー、ＳＤカード、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第４の実施形態にかかる音声処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第４の実施形態にかかる音声処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第４の実施形態にかかる音声処理装置で実行されるプログラムは、コンピュータを上述した音声処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００−２、１００−３、１００−４音声処理装置
１０１、１０１−３受付部
１０２、１０２−３、１０２−４特定部
１０３、１０３−２、１０３−３、１０３−４変調部
１０４、１０４−４出力制御部
１０５スピーカ
１０６−２生成部
１０７−４決定部
１２１記憶部

Claims

出力させる音声の第１強調部分と第２強調部分を特定する特定部と、
複数の出力部のうち、前記第１強調部分を強調するための音声を出力させる第１出力部および第２出力部を決定し、前記第２強調部分を強調するための音声を出力させる第３出力部および第４出力部を決定する決定部と、
前記第１出力部に出力させる第１音声の前記第１強調部分と前記第２出力部に出力させる第２音声の前記第１強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分を変調し、前記第３出力部に出力させる第３音声の前記第２強調部分と前記第４出力部に出力させる第４音声の前記第２強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第３音声および前記第４音声の少なくとも一方の前記第２強調部分を変調する変調部と、
を備える音声処理装置。
前記決定部は、複数の前記出力部のうち、前記第１強調部分を強調した音声を出力する対象に対して、他の出力部よりも近い出力部を前記第１出力部および前記第２出力部として決定する、
請求項１に記載の音声処理装置。
前記決定部は、複数の前記出力部のうち、前記第１強調部分を強調した音声を出力する領域に応じて定められる出力部を前記第１出力部および前記第２出力部として決定する、
請求項１に記載の音声処理装置。
前記第１出力部に前記第１音声を出力し、前記第２出力部に前記第２音声を出力し、前記第３出力部に前記第３音声を出力し、前記第４出力部に前記第４音声を出力し、複数の前記出力部のうち、前記第１強調部分および前記第２強調部分を強調して出力しない出力部に対しては前記第１強調部分および前記第２強調部分を強調しない音声を出力するように制御する出力制御部をさらに備える、
請求項１に記載の音声処理装置。
前記特定部は、入力されたテキストデータから前記第１強調部分を特定し、
前記変調部は、前記テキストデータに対応する前記第１音声および前記第２音声であって、前記第１強調部分の前記ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分を変調した前記第１音声および前記第２音声を生成する、
請求項１に記載の音声処理装置。
入力されたテキストデータに対応する前記第１音声および前記第２音声を生成する生成部をさらに備え、
前記特定部は、前記テキストデータから前記第１強調部分を特定し、
前記変調部は、生成された前記第１音声の前記第１強調部分と生成された前記第２音声の前記第１強調部分との間で、前記ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分を変調する、
請求項１に記載の音声処理装置。
入力される音声のうち強調する部分の指定を受け付ける受付部をさらに備え、
前記特定部は、前記指定に基づいて前記第１強調部分を特定する、
請求項１に記載の音声処理装置。
前記変調部は、前記第１音声の前記第１強調部分の位相と、前記第２音声の前記第１強調部分の位相との差が、６０°以上１８０°以下となるように、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分の位相を変調する、
請求項１に記載の音声処理装置。
前記変調部は、前記第１音声の前記第１強調部分の周波数と、前記第２音声の前記第１強調部分の周波数との差が、１００ヘルツ以上となるように、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分のピッチを変調する、
請求項１に記載の音声処理装置。
前記変調部は、前記第１出力部または前記第２出力部に入力する信号の極性を反転することにより、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分の位相を変調する、
請求項１に記載の音声処理装置。
出力させる音声の第１強調部分と第２強調部分を特定する特定ステップと、
複数の出力部のうち、前記第１強調部分を強調するための音声を出力させる第１出力部および第２出力部を決定し、前記第２強調部分を強調するための音声を出力させる第３出力部および第４出力部を決定する決定ステップと、
前記第１出力部に出力させる第１音声の前記第１強調部分と前記第２出力部に出力させる第２音声の前記第１強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分を変調し、前記第３出力部に出力させる第３音声の前記第２強調部分と前記第４出力部に出力させる第４音声の前記第２強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第３音声および前記第４音声の少なくとも一方の前記第２強調部分を変調する変調ステップと、
を含む音声処理方法。
コンピュータを、
出力させる音声の第１強調部分と第２強調部分を特定する特定部と、
複数の出力部のうち、前記第１強調部分を強調するための音声を出力させる第１出力部および第２出力部を決定し、前記第２強調部分を強調するための音声を出力させる第３出力部および第４出力部を決定する決定部と、
前記第１出力部に出力させる第１音声の前記第１強調部分と前記第２出力部に出力させる第２音声の前記第１強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記第１強調部分を変調し、前記第３出力部に出力させる第３音声の前記第２強調部分と前記第４出力部に出力させる第４音声の前記第２強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第３音声および前記第４音声の少なくとも一方の前記第２強調部分を変調する変調部と、
として機能させるためのプログラム。