JP2018036527A

JP2018036527A - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP2018036527A
Application number: JP2016170043A
Authority: JP
Inventors: 山本　雅裕; Masahiro Yamamoto; 雅裕山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-08
Anticipated expiration: 2036-08-31
Also published as: JP6716397B2

Abstract

【課題】利用者の注意力を増大させることができる音声処理装置、音声処理方法およびプログラムを提供する。【解決手段】音声処理装置１００は、特定部１０２と、変調部１０３と、を備える。特定部１０２は、出力させる音声の強調部分を特定する。変調部１０３は、第１出力部に出力させる第１音声の強調部分と第２出力部に出力させる第２音声の強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、第１音声および第２音声の少なくとも一方の強調部分を変調する。【選択図】図１

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。

日常環境の中で適切なメッセージを伝えることは非常に重要である。特にカーナビゲーションの中での注意喚起および危険通知、さらには緊急災害放送において周囲の環境音に埋もれることなく通知すべきメッセージなどは、その後の行動を考えても確実に届ける必要がある。

カーナビゲーションの中で注意喚起および危険通知を行うために広く行われている方法として、光による刺激、および、ブザー音の追加等が挙げられる。

特開２００７−０１９９８０号公報

しかしながら、従来技術では、通常の音声ガイドから刺激を増やすことで注意喚起を行っているため、注意喚起の瞬間にドライバーなどの利用者が驚くという現象を生じさせる。驚いた後の利用者の行動は遅れる傾向があり、本来刺激によりスムーズな危機回避行動を促すはずが、かえって行動を制限する結果になる場合がある。

実施形態の音声処理装置は、特定部と、変調部と、を備える。特定部は、出力させる音声の強調部分を特定する。変調部は、第１出力部に出力させる第１音声の強調部分と第２出力部に出力させる第２音声の強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、第１音声および第２音声の少なくとも一方の強調部分を変調する。

第１の実施形態にかかる音声処理装置のブロック図。実施形態のスピーカの配置の一例を示す図。測定結果の一例を示す図。実施形態のスピーカの配置の他の例を示す図。実施形態のスピーカの配置の他の例を示す図。ピッチ変調および位相変調について説明するための図。位相の差（度）と背景音の音圧（ｄＢ）との関係を示す図。周波数差（Ｈｚ）と背景音の音圧（ｄＢ）との関係を示す図。第１の実施形態における音声出力処理のフローチャート。第２の実施形態にかかる音声処理装置のブロック図。第２の実施形態における音声出力処理のフローチャート。第３の実施形態にかかる音声処理装置のブロック図。第３の実施形態における音声出力処理のフローチャート。実施形態にかかる音声処理装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる音声処理装置の好適な実施形態を詳細に説明する。

発明者の実験では、複数の音声出力装置（スピーカ、ヘッドフォンなど）のそれぞれから、ピッチおよび位相の少なくとも一方が異なる音声を聴く場合に、音声の物理的な大きさ（ラウドネス）によらず知覚による明瞭さが大きくなり、かつ、注意レベルが上昇することが確認されている。このとき、驚きの感覚はほとんど観測されない。

これまでの考え方では、複数の音声出力装置のそれぞれから、ピッチおよび位相のいずれかが異なる音声を聴く場合には、明瞭さが減少するため聞き取りが悪化するとされてきた。しかし、上記のように発明者の実験では、ピッチおよび位相の少なくとも一方が異なる音声を左右の耳で聴く場合に明瞭さが上昇し、注意レベルが上昇することが確認できた。

これは、聴覚が両耳を使用して音声をより明確に知覚しようとする働きを示しており、これまでにはない新しい発見である。以下の実施形態は、この発見を基にしており、左右の耳に対してピッチおよび位相の少なくとも一方が異なる音声による知覚上昇を利用して注意喚起および危険通知を可能とする。

（第１の実施形態）
第１の実施形態にかかる音声処理装置は、強調部分に対応する音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させ、次動作をスムーズに実行させることが可能となる。

図１は、第１の実施形態にかかる音声処理装置１００の構成の一例を示すブロック図である。図１に示すように、音声処理装置１００は、記憶部１２１と、受付部１０１と、特定部１０２と、変調部１０３と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎ（ｎは２以上の整数）と、を備えている。

記憶部１２１は、音声処理装置１００で使用される各種データを記憶する。例えば記憶部１２１は、入力されたテキストデータ、および、テキストデータから特定された強調部分を示すデータなどを記憶する。記憶部１２１は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive)）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

スピーカ１０５−１〜１０５−ｎは、出力制御部１０４からの指示に従い音声を出力する出力部である。スピーカ１０５−１〜１０５−ｎは、同様の構成を備えるため、区別する必要がない場合は単にスピーカ１０５という場合がある。以下では、スピーカ１０５−１（第１出力部）およびスピーカ１０５−２（第２出力部）の２つのスピーカの組に出力する音声の間でピッチおよび位相の少なくとも一方を変調する場合を例に説明する。２以上の組に対して同様の処理を適用してもよい。

受付部１０１は、処理対象とする各種データを受け付ける。例えば受付部１０１は、音声に変換して出力させるテキストデータの入力を受け付ける。

特定部１０２は、出力させる音声のうち、強調して出力する部分を表す強調部分を特定する。強調部分は、注意喚起および危険通知等を行うためにピッチおよび位相の少なくとも一方を変調して出力する部分に相当する。例えば特定部１０２は、入力されたテキストデータから強調部分を特定する。入力するテキストデータに事前に強調部分を特定するための情報が付加されている場合は、特定部１０２は、付加された情報（付加情報）を参照して強調部分を特定することができる。特定部１０２は、テキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。特定部１０２は、付加情報による特定およびデータ照合による特定の両方を実行してもよい。強調部分を示すデータは、記憶部１２１に記憶されてもよいし、音声処理装置１００の外部の記憶装置に記憶されてもよい。

特定部１０２は、特定した強調部分を強調することを示す情報（付加情報）をテキストデータに付加する符号化処理を実行してもよい。後段の変調部１０３は、このようにして付加された付加情報を参照して、変調する強調部分を判定することが可能となる。付加情報は、強調部分であることを判定可能であればどのような形式であってもよい。また、特定部１０２は、符号化処理を実行したテキストデータを記憶部１２１などの記憶媒体に保存してもよい。これにより、以降の音声出力処理では、事前に付加情報が付加されたテキストデータを利用することが可能となる。

変調部１０３は、出力させる音声のピッチおよび位相の少なくとも一方である変調対象を変調する。例えば変調部１０３は、スピーカ１０５−１に出力させる音声（第１音声）の強調部分と、スピーカ１０５−２に出力させる音声（第２音声）の強調部分との間で変調対象が異なるように、少なくとも一方の音声の強調部分の変調対象を変調する。

本実施形態では、変調部１０３は、テキストデータを変換した音声を生成するときに、テキストデータが強調部分であるかを逐次判定し、強調部分に対して変調処理を実行する。すなわち変調部１０３は、テキストデータを変換して、スピーカ１０５−１に出力させる音声（第１音声）およびスピーカ１０５−２に出力させる音声（第２音声）を生成するときに、強調部分のテキストデータに対しては、変調対象が相互に異なるように、少なくとも一方の変調対象を変調した第１音声および第２音声を生成する。

テキストデータを音声に変換する処理（音声合成処理）は、フォルマント音声合成および音声コーパスベースの音声合成などの従来から用いられているあらゆる方法を用いることができる。

位相を変調する場合、変調部１０３は、スピーカ１０５−１およびスピーカ１０５−２のうち一方に入力する信号の極性を反転してもよい。これにより、スピーカ１０５の一方が他方に対して逆相になり、音声データの位相を変調する場合と同様の機能を実現できる。

変調部１０３は、処理対象のデータの完全性を確認し、完全性が確認された場合に変調処理を行ってもよい。例えばテキストデータに付加された付加情報が、強調部分の開始を示す情報と、強調部分の終了を示す情報とを指定する形式の場合、変調部１０３は、開始を示す情報と終了を示す情報とが対応することが確認できた場合に変調処理を行ってもよい。

出力制御部１０４は、スピーカ１０５からの音声の出力を制御する。例えば出力制御部１０４は、変調対象が変調された第１音声をスピーカ１０５−１に出力させ、第２音声をスピーカ１０５−２から出力させる。スピーカ１０５−１およびスピーカ１０５−２以外のスピーカ１０５が備えられている場合は、出力制御部１０４は、各スピーカ１０５に最適な音声を割り当てて出力させる。各スピーカ１０５は、出力制御部１０４からの出力データに基づいて音声を出力する。

出力制御部１０４は、スピーカ１０５の位置および特性等のパラメータを用いて、各スピーカ１０５への出力（アンプ出力）を計算する。これらのパラメータは、例えば記憶部１２１に記憶される。

例えば、２つのスピーカ１０５において必要な音圧を揃える場合には、以下のように、各スピーカへのアンプ出力Ｗ１、Ｗ２を計算する。２つのスピーカの距離をＬ１、Ｌ２とする。Ｌ１（Ｌ２）は、例えば、スピーカ１０５−１（スピーカ１０５−２）と頭部の中心との間の距離である。各スピーカ１０５から、最も近い耳までの距離を用いてもよい。使用する音声の可聴領域のスピーカ１０５−１（スピーカ１０５−２）のゲインをＧｓ１（Ｇｓ２）とする。距離が２倍になると６ｄＢの低下となり、３ｄＢの音圧上昇にアンプ出力が２倍必要であるとする。両耳での音圧を揃えるために、出力制御部１０４は、以下の式が成り立つように、アンプ出力Ｗ１、Ｗ２を計算して決定する。
−６×（Ｌ１／Ｌ２）×（１／２）＋（２／３）×Ｇｓ１×Ｗ１＝
−６×（Ｌ２／Ｌ１）×（１／２）＋（２／３）×Ｇｓ２×Ｗ２

受付部１０１、特定部１０２、変調部１０３、および、出力制御部１０４は、例えば、ＣＰＵ（Central Processing Unit）などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

図２は、本実施形態のスピーカ１０５の配置の一例を示す図である。図２は、利用者２０５の鉛直上方から下方を観察した場合のスピーカ１０５の配置の例を示す。スピーカ１０５−１とスピーカ１０５−２からは、変調部１０３により変調処理が実行された音声が流れる。スピーカ１０５−１は、利用者２０５の右耳の延長上に置かれている。スピーカ１０５−２は、スピーカ１０５−１と右耳とを通過する線を基準として角度もって置くことができる。

発明者は、曲線２０３または曲線２０４に沿ってスピーカ１０５−２の位置を変化させ、ピッチおよび位相を変調した音声を出力した場合の注意力を測定し、いずれの場合でも注意力の増大を確認した。注意力は、ＥＥＧ（Electroencephalogram）、ＮＩＲＳ（Near-Infrared Spectroscopy）、および、主観評価などの評価基準を用いて測定した。

図３は、測定結果の一例を示す図である。図３のグラフの横軸は、スピーカ１０５の配置角度を表す。配置角度は、例えば、スピーカ１０５−１と利用者２０５とを結ぶ線と、スピーカ１０５−２と利用者２０５とを結ぶ線とのなす角度である。図３に示すように、配置角度が９０°から１８０°のときに注意力の増加が大きくなる。従って、スピーカ１０５−１とスピーカ１０５−２は、配置角度が９０°から１８０°となるように配置することが望ましい。なお注意力は検出されるため、配置角度が０°より大きければ９０°より小さくてもよい。

音声の全区間のピッチまたは位相を変調してもよいが、この場合、慣れなどのために注意力が減少する可能性がある。そこで変調部１０３は、付加情報などにより特定された強調部分のみに対して変調を行う。これにより、強調部分に対する注意力をより効果的に高めることが可能となる。

図４は、本実施形態のスピーカ１０５の配置の他の例を示す図である。図４は、例えば屋外で場外放送を出力するために設置されるスピーカ１０５の配置の例を示す。図３に示すように、９０°から１８０°の配置角度となるスピーカ１０５の組を用いることが望ましい。従って、図４の例では、１８０°の配置角度で配置されるスピーカ１０５−１、スピーカ１０５−２の組に対して、音声の変調処理が実行される。

図５は、本実施形態のスピーカ１０５の配置の他の例を示す図である。図５は、ヘッドフォンとしてスピーカ１０５−１およびスピーカ１０５−２を構成した例である。

スピーカ１０５の配置例は図２、図４および図５に限られるものではない。図３に示したように注意力が得られる配置角度で配置されれば、どのような組み合わせのスピーカであってもよい。例えば、カーナビゲーションのために用いられる複数のスピーカに対して本実施形態を適用してもよい。

次に、ピッチ変調および位相変調について説明する。図６は、ピッチ変調および位相変調について説明するための図である。位相変調は、音声の包絡線６０４をもとに、元の信号６０１に対して同一の包絡線に対して単位時間内の波数を変えることなく、ピークの時間位置を変更した信号６０３を出力する。ピッチ変調は、波数を変更した信号６０２を出力する。

次に、ピッチまたは位相の変調と、音声の聞き取りやすさとの関係について説明する。図７は、位相の差（度）と背景音の音圧（ｄＢ）との関係を示す図である。位相の差は、２つのスピーカ１０５から出力させる音声間の位相の差（例えばスピーカ１０５−１から出力させる音声の位相と、スピーカ１０５−２から出力させる音声の位相との差）を表す。背景音の音圧は、出力された音声を利用者が聞き取ることができる背景音の音圧の最大値（限界音圧）を表す。

背景音は、スピーカ１０５から出力する音声以外の音である。例えば周囲の雑音、および、音声以外に出力されている音楽等の音が、背景音に相当する。図７の矩形で示す点が、得られた値の平均値を表す。この点の上下の線で示した範囲が得られた値の標準偏差を表す。

図７に示すように、０．５ｄＢ以上の背景音が存在する場合であっても、位相の差が６０°以上１８０°以下であれば、利用者はスピーカ１０５から出力される音声を聞き取ることができる。従って、変調部１０３は、位相の差が６０°以上１８０°以下となるように変調処理を実行してもよい。変調部１０３は、より限界音圧の高い９０°以上１８０°以下、または、１２０°以上１８０°以下の位相差となるように変調処理を実行してもよい。

図８は、周波数差（Ｈｚ）と背景音の音圧（ｄＢ）との関係を示す図である。周波数差は、２つのスピーカ１０５から出力させる音声の周波数の差（例えばスピーカ１０５−１から出力させる音声の周波数と、スピーカ１０５−２から出力させる音声の周波数との差）を表す。図８の矩形で示す点が、得られた値の平均値を表す。この点の横に付した数値“Ａ、Ｂ”のうち、Ａが周波数差を表し、Ｂが背景音の音圧を表す。

図８に示すように、背景音が存在する場合であっても、周波数差が１００Ｈｚ（ヘルツ）以上であれば、利用者はスピーカ１０５から出力される音声を聞き取ることができる。従って、変調部１０３は、可聴域の範囲内で、周波数差が１００Ｈｚ以上となるように変調処理を実行してもよい。

次に、このように構成された第１の実施形態にかかる音声処理装置１００による音声出力処理について図９を用いて説明する。図９は、第１の実施形態における音声出力処理の一例を示すフローチャートである。

受付部１０１は、テキストデータの入力を受け付ける（ステップＳ１０１）。特定部１０２は、テキストデータに付加情報が付加されているか否かを判断する（ステップＳ１０２）。付加されていない場合（ステップＳ１０２：Ｎｏ）、特定部１０２は、テキストデータから強調部分を特定する（ステップＳ１０３）。例えば特定部１０２は、入力されたテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定する。特定部１０２は、強調部分を示す付加情報を、対応するテキストデータの強調部分に付加する（ステップＳ１０４）。付加情報の付加方法は、変調部１０３が、強調部分を特定できればどのような方法であってもよい。

付加情報が付加された後（ステップＳ１０４）、および、テキストデータに付加情報が付加されている場合（ステップＳ１０２：Ｙｅｓ）、変調部１０３は、テキストデータに対応する音声であって、強調部分のテキストデータに対しては変調対象が相互に異なるように変調対象を変調した音声（第１音声、第２音声）を生成する（ステップＳ１０５）。

出力制御部１０４は、スピーカ１０５ごとに出力する音声を決定し、決定した音声を出力させる（ステップＳ１０６）。各スピーカ１０５は、出力制御部１０４の指示に従い音声を出力する。

このように、第１の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成しながら、強調部分に対応するテキストデータに対しては、音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第２の実施形態）
第１の実施形態では、テキストデータを逐次音声に変換するときに、強調部分のテキストデータに対して変調処理を行った。第２の実施形態にかかる音声処理装置は、テキストデータに対する音声を生成した後、生成した音声のうち強調部分に相当する音声に対して変調処理を行う。

図１０は、第２の実施形態にかかる音声処理装置１００−２の構成の一例を示すブロック図である。図１０に示すように、音声処理装置１００−２は、記憶部１２１と、受付部１０１と、特定部１０２と、変調部１０３−２と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎと、生成部１０６−２と、を備えている。

第２の実施形態では、変調部１０３−２の機能、および、生成部１０６−２を追加したことが第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる音声処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

生成部１０６−２は、テキストデータに対応する音声を生成する。例えば生成部１０６−２は、入力されたテキストデータを、スピーカ１０５−１に出力する音声（第１音声）およびスピーカ１０５−２に出力する音声（第２音声）に変換する。

変調部１０３−２は、生成部１０６−２により生成された音声のうち、強調部分の音声に対して変調処理を行う。例えば変調部１０３−２は、生成された第１音声の強調部分と生成された第２音声の強調部分との間で変調対象が異なるように、第１音声および第２音声の少なくとも一方の強調部分の調対象を変調する。

次に、このように構成された第２の実施形態にかかる音声処理装置１００−２による音声出力処理について図１１を用いて説明する。図１１は、第２の実施形態における音声出力処理の一例を示すフローチャートである。

ステップＳ２０１からステップＳ２０４までは、第１の実施形態にかかる音声処理装置１００におけるステップＳ１０１からステップＳ１０４までと同様の処理なので、その説明を省略する。

本実施形態では、テキストデータが入力されると、生成部１０６−２による音声生成処理（音声合成処理）が実行される。すなわち、生成部１０６−２は、テキストデータに対応する音声を生成する（ステップＳ２０５）。

付加情報が付加された後（ステップＳ２０４）、および、テキストデータに付加情報が付加されている場合（ステップＳ２０２：Ｙｅｓ）、変調部１０３−２は、生成された音声から強調部分を抽出する（ステップＳ２０６）。例えば変調部１０３−２は、付加情報を参照してテキストデータのうち強調部分を特定するとともに、テキストデータと生成した音声との対応から、特定したテキストデータの強調部分に対応する音声の強調部分を抽出する。変調部１０３−２は、抽出した音声の強調部分に対して変調処理を実行する（ステップＳ２０７）。なお変調部１０３−２は、強調部分以外の音声に対しては変調処理を行わない。

ステップＳ２０８は、第１の実施形態にかかる音声処理装置１００におけるステップＳ１０６と同様の処理なので、その説明を省略する。

このように、第２の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成した後に、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第３の実施形態）
第１および第２の実施形態では、テキストデータを入力し、テキストデータを音声に変換して出力した。このような実施形態は、例えば、予め定められた緊急災害放送用のテキストデータを出力する場合などに適用できる。一方、利用者が発声した音声を緊急災害放送用に出力する状況も考えられる。第３の実施形態にかかる音声処理装置は、マイクなどの音声入力装置から音声を入力し、入力された音声の強調部分に対して変調処理を行う。

図１２は、第３の実施形態にかかる音声処理装置１００−３の構成の一例を示すブロック図である。図１２に示すように、音声処理装置１００−３は、記憶部１２１と、受付部１０１−３と、特定部１０２−３と、変調部１０３−３と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎと、生成部１０６−２と、を備えている。

第３の実施形態では、受付部１０１−３、特定部１０２−３、および、変調部１０３−３の機能が第２の実施形態と異なっている。その他の構成および機能は、第２の実施形態にかかる音声処理装置１００−２のブロック図である図１０と同様であるので、同一符号を付し、ここでの説明は省略する。

受付部１０１−３は、テキストデータのみでなく、マイクなどの音声入力装置から入力される音声を受け付ける。また、受付部１０１−３は、入力される音声のうち強調する部分の指定を受け付ける。例えば受付部１０１−３は、利用者による所定のボタンの押下を、押下後に入力される音声が強調する部分であることを示す指定として受け付ける。受付部１０１−３は、強調部分の開始および終了の指定を、開始から終了までに入力された音声が強調する部分であることを示す指定として受け付けてもよい。指定方法はこれらに限られるものではなく、音声のうち強調する部分を決定可能であればどのような方法であってもよい。以下では、音声のうち強調する部分の指定をトリガーという場合がある。

特定部１０２−３は、さらに、受け付けられた指定（トリガー）に基づいて、音声の強調部分を特定する機能を有する。

変調部１０３−３は、生成部１０６−２により生成された音声、または、入力された音声のうち、強調部分の音声に対して変調処理を行う。

次に、このように構成された第３の実施形態にかかる音声処理装置１００−３による音声出力処理について図１３を用いて説明する。図１３は、第３の実施形態における音声出力処理の一例を示すフローチャートである。

受付部１０１−３は、音声入力優先であるか否かを判定する（ステップＳ３０１）。音声入力優先とは、テキストデータではなく、音声を入力して出力することを示す指定である。例えば、音声入力優先を指定するためのボタンが押下された場合に、受付部１０１−３は、音声入力優先であると判定する。

音声入力優先であるかの判定方法はこれに限られるものではない。例えば、音声入力優先であるかを示す事前に保存された情報を参照して判定してもよい。また、テキストデータは入力せず、音声入力のみとする場合は、音声入力優先の指定や判定（ステップＳ３０１）を実行しなくてもよい。この場合、後述するテキストデータに基づく付加処理（ステップＳ３０６）も実行しなくてもよい。

音声入力優先の場合（ステップＳ３０１：Ｙｅｓ）、受付部１０１−３は、音声の入力を受け付ける（ステップＳ３０２）。特定部１０２−３は、音声の強調する部分の指定（トリガー）が入力されているか否かを判定する（ステップＳ３０３）。

トリガーが入力されていない場合（ステップＳ３０３：Ｎｏ）、特定部１０２−３は、音声の強調部分を特定する（ステップＳ３０４）。例えば特定部１０２−３は、入力されている音声と、予め登録された音声データとを照合し、登録された音声データと一致または類似する音声を強調部分として特定する。特定部１０２−３は、入力された音声を音声認識して得られるテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。

ステップＳ３０３でトリガーが入力されていると判定した場合（ステップＳ３０３：Ｙｅｓ）、および、ステップＳ３０４で強調部分を特定した後、特定部１０２−３は、入力されている音声のデータに対して、強調部分を示す付加情報を付加する（ステップＳ３０５）。付加情報の付加方法は、音声が強調部分であることを判定できればどのような方法であってもよい。

ステップＳ３０１で音声入力優先でないと判定された場合（ステップＳ３０１：Ｎｏ）、テキストに基づく付加処理が実行される（ステップＳ３０６）。この処理は、例えば図１１のステップＳ３０１からステップＳ３０５までと同様の処理で実現できる。

変調部１０３−３は、生成された音声から強調部分を抽出する（ステップＳ３０７）。例えば変調部１０３−３は、付加情報を参照して音声の強調部分を抽出する。ステップＳ３０６を実行した場合は、変調部１０３−３は、図１１のステップＳ２０６と同様の処理により強調部分を抽出する。

ステップＳ３０８からステップＳ３０９までは、第２の実施形態にかかる音声処理装置１００−２におけるステップＳ２０７からステップＳ２０８までと同様の処理なので、その説明を省略する。

このように、第３の実施形態にかかる音声処理装置では、入力された音声の強調部分をトリガーなどにより特定し、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

以上説明したとおり、第１から第３の実施形態によれば、音声のピッチおよび位相の少なくとも一方を変調して出力することにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

次に、第１から第３の実施形態にかかる音声処理装置のハードウェア構成について図１４を用いて説明する。図１４は、第１から第３の実施形態にかかる音声処理装置のハードウェア構成例を示す説明図である。

第１から第３の実施形態にかかる音声処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第３の実施形態における音声処理装置は、コンピュータまたは組み込みシステムであり、パソコンおよびマイコン等の１つからなる装置、または、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。また、本実施形態におけるコンピュータは、パソコンに限らず、情報処理機器に含まれる演算処理装置およびマイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器または装置を総称している。

第１から第３の実施形態にかかる音声処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第３の実施形態にかかる音声処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢフラッシュメモリー、ＳＤカード、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第３の実施形態にかかる音声処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第３の実施形態にかかる音声処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第３の実施形態にかかる音声処理装置で実行されるプログラムは、コンピュータを上述した音声処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００−２、１００−３音声処理装置
１０１受付部
１０２、１０２−３特定部
１０３、１０３−２、１０３−３変調部
１０４出力制御部
１０５スピーカ
１０６−２生成部
１２１記憶部

Claims

出力させる音声の強調部分を特定する特定部と、
第１出力部に出力させる第１音声の前記強調部分と第２出力部に出力させる第２音声の前記強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分を変調する変調部と、
を備える音声処理装置。
前記特定部は、入力されたテキストデータから前記強調部分を特定し、
前記変調部は、前記テキストデータに対応する前記第１音声および前記第２音声であって、前記強調部分の前記ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分を変調した前記第１音声および前記第２音声を生成する、
請求項１に記載の音声処理装置。
入力されたテキストデータに対応する前記第１音声および前記第２音声を生成する生成部をさらに備え、
前記特定部は、前記テキストデータから前記強調部分を特定し、
前記変調部は、生成された前記第１音声の前記強調部分と生成された前記第２音声の前記強調部分との間で、前記ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分を変調する、
請求項１に記載の音声処理装置。
入力される音声のうち強調する部分の指定を受け付ける受付部をさらに備え、
前記特定部は、前記指定に基づいて前記強調部分を特定する、
請求項１に記載の音声処理装置。
前記変調部は、前記第１音声の前記強調部分の位相と、前記第２音声の前記強調部分の位相との差が、６０°以上１８０°以下となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分の位相を変調する、
請求項１に記載の音声処理装置。
前記変調部は、前記第１音声の前記強調部分の周波数と、前記第２音声の前記強調部分の周波数との差が、１００ヘルツ以上となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分のピッチを変調する、
請求項１に記載の音声処理装置。
前記変調部は、前記第１出力部または前記第２出力部に入力する信号の極性を反転することにより、前記第１音声および前記第２音声の少なくとも一方の前記強調部分の位相を変調する、
請求項１に記載の音声処理装置。
出力させる音声の強調部分を特定する特定ステップと、
第１出力部に出力させる第１音声の前記強調部分と第２出力部に出力させる第２音声の前記強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分を変調する変調ステップと、
を含む音声処理方法。
コンピュータを、
出力させる音声の強調部分を特定する特定部と、
第１出力部に出力させる第１音声の前記強調部分と第２出力部に出力させる第２音声の前記強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分を変調する変調部と、
として機能させるためのプログラム。