JP2020098367A

JP2020098367A - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP2020098367A
Application number: JP2020039595A
Authority: JP
Inventors: 山本　雅裕; Masahiro Yamamoto; 雅裕山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2020-06-25
Anticipated expiration: 2037-03-22
Also published as: JP6995907B2

Abstract

【課題】利用者の注意力を増大させることができる音声処理装置、音声処理方法およびプログラムを提供する。【解決手段】音声処理装置は、特定部と、変調部と、を備える。特定部は、出力させる音声に含まれる１以上の音声のうちいずれか１以上を音声の属性に基づいて強調部分として特定する。変調部は、第１出力部に出力させる第１音声の強調部分と第２出力部に出力させる第２音声の強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、第１音声および第２音声の少なくとも一方の強調部分を変調する。【選択図】図１

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。

日常環境の中で適切なメッセージを伝えることは非常に重要である。特にカーナビゲーションの中での注意喚起および危険通知、さらには緊急災害放送において周囲の環境音に埋もれることなく通知すべきメッセージなどは、その後の行動を考えても確実に届ける必要がある。

カーナビゲーションの中で注意喚起および危険通知を行うために広く行われている方法として、光による刺激、および、ブザー音の追加等が挙げられる。

特開２００７−０１９９８０号公報

しかしながら、従来技術では、通常の音声ガイドから刺激を増やすことで注意喚起を行っているため、注意喚起の瞬間にドライバーなどの利用者が驚くという現象を生じさせる。驚いた後の利用者の行動は遅れる傾向があり、本来刺激によりスムーズな危機回避行動を促すはずが、かえって行動を制限する結果になる場合がある。

実施形態の音声処理装置は、特定部と、変調部と、を備える。特定部は、出力させる音声に含まれる１以上の音声のうちいずれか１以上を前記音声の属性に基づいて強調部分として特定する。変調部は、第１出力部に出力させる第１音声の強調部分と第２出力部に出力させる第２音声の強調部分との間で、ピッチおよび位相の少なくとも一方が異なるように、第１音声および第２音声の少なくとも一方の強調部分を変調する。

第１の実施形態にかかる音声処理装置のブロック図。実施形態のスピーカの配置の一例を示す図。測定結果の一例を示す図。実施形態のスピーカの配置の他の例を示す図。実施形態のスピーカの配置の他の例を示す図。ピッチ変調および位相変調について説明するための図。位相の差（度）と背景音の音圧（ｄＢ）との関係を示す図。周波数差（Ｈｚ）と背景音の音圧（ｄＢ）との関係を示す図。第１の実施形態における音声出力処理のフローチャート。第２の実施形態にかかる音声処理装置のブロック図。第２の実施形態における音声出力処理のフローチャート。第３の実施形態にかかる音声処理装置のブロック図。第３の実施形態における音声出力処理のフローチャート。第４の実施形態にかかる音声処理装置のブロック図。記憶部に記憶されるデータの構造の一例を示す図。第４の実施形態における音声出力処理のフローチャート。学習の対象とする箇所を指定するための指定画面の一例を示す図。学習画面の一例を示す図。学習画面の他の例を示す図。学習画面の他の例を示す図。学習画面の他の例を示す図。実施形態にかかる音声処理装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる音声処理装置の好適な実施形態を詳細に説明する。

発明者の実験では、複数の音声出力装置（スピーカ、ヘッドフォンなど）のそれぞれから、ピッチおよび位相の少なくとも一方が異なる音声を聴く場合に、音声の物理的な大きさ（ラウドネス）によらず知覚による明瞭さが大きくなり、かつ、注意レベルが上昇することが確認されている。このとき、驚きの感覚はほとんど観測されない。

これまでの考え方では、複数の音声出力装置のそれぞれから、ピッチおよび位相のいずれかが異なる音声を聴く場合には、明瞭さが減少するため聞き取りが悪化するとされてきた。しかし、上記のように発明者の実験では、ピッチおよび位相の少なくとも一方が異なる音声を左右の耳で聴く場合に明瞭さが上昇し、注意レベルが上昇することが確認できた。

これは、聴覚が両耳を使用して音声をより明確に知覚しようとする働きを示しており、これまでにはない新しい発見である。以下の実施形態は、この発見を基にしており、左右の耳に対してピッチおよび位相の少なくとも一方が異なる音声による知覚上昇を利用して注意喚起および危険通知を可能とする。

（第１の実施形態）
第１の実施形態にかかる音声処理装置は、強調部分に対応する音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させ、次動作をスムーズに実行させることが可能となる。

図１は、第１の実施形態にかかる音声処理装置１００の構成の一例を示すブロック図である。図１に示すように、音声処理装置１００は、記憶部１２１と、受付部１０１と、特定部１０２と、変調部１０３と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎ（ｎは２以上の整数）と、を備えている。

記憶部１２１は、音声処理装置１００で使用される各種データを記憶する。例えば記憶部１２１は、入力されたテキストデータ、および、テキストデータから特定された強調部分を示すデータなどを記憶する。記憶部１２１は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

スピーカ１０５−１〜１０５−ｎは、出力制御部１０４からの指示に従い音声を出力する出力部である。スピーカ１０５−１〜１０５−ｎは、同様の構成を備えるため、区別する必要がない場合は単にスピーカ１０５という場合がある。以下では、スピーカ１０５−１（第１出力部）およびスピーカ１０５−２（第２出力部）の２つのスピーカの組に出力する音声の間でピッチおよび位相の少なくとも一方を変調する場合を例に説明する。２以上の組に対して同様の処理を適用してもよい。

受付部１０１は、処理対象とする各種データを受け付ける。例えば受付部１０１は、音声に変換して出力させるテキストデータの入力を受け付ける。

特定部１０２は、出力させる音声のうち、強調して出力する部分を表す強調部分を特定する。強調部分は、注意喚起および危険通知等を行うためにピッチおよび位相の少なくとも一方を変調して出力する部分に相当する。例えば特定部１０２は、入力されたテキストデータから強調部分を特定する。入力するテキストデータに事前に強調部分を特定するための情報が付加されている場合は、特定部１０２は、付加された情報（付加情報）を参照して強調部分を特定することができる。特定部１０２は、テキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。特定部１０２は、付加情報による特定およびデータ照合による特定の両方を実行してもよい。強調部分を示すデータは、記憶部１２１に記憶されてもよいし、音声処理装置１００の外部の記憶装置に記憶されてもよい。

特定部１０２は、特定した強調部分を強調することを示す情報（付加情報）をテキストデータに付加する符号化処理を実行してもよい。後段の変調部１０３は、このようにして付加された付加情報を参照して、変調する強調部分を判定することが可能となる。付加情報は、強調部分であることを判定可能であればどのような形式であってもよい。また、特定部１０２は、符号化処理を実行したテキストデータを記憶部１２１などの記憶媒体に保存してもよい。これにより、以降の音声出力処理では、事前に付加情報が付加されたテキストデータを利用することが可能となる。

変調部１０３は、出力させる音声のピッチおよび位相の少なくとも一方である変調対象を変調する。例えば変調部１０３は、スピーカ１０５−１に出力させる音声（第１音声）の強調部分と、スピーカ１０５−２に出力させる音声（第２音声）の強調部分との間で変調対象が異なるように、少なくとも一方の音声の強調部分の変調対象を変調する。

本実施形態では、変調部１０３は、テキストデータを変換した音声を生成するときに、テキストデータが強調部分であるかを逐次判定し、強調部分に対して変調処理を実行する。すなわち変調部１０３は、テキストデータを変換して、スピーカ１０５−１に出力させる音声（第１音声）およびスピーカ１０５−２に出力させる音声（第２音声）を生成するときに、強調部分のテキストデータに対しては、変調対象が相互に異なるように、少なくとも一方の変調対象を変調した第１音声および第２音声を生成する。

テキストデータを音声に変換する処理（音声合成処理）は、フォルマント音声合成および音声コーパスベースの音声合成などの従来から用いられているあらゆる方法を用いることができる。

位相を変調する場合、変調部１０３は、スピーカ１０５−１およびスピーカ１０５−２のうち一方に入力する信号の極性を反転してもよい。これにより、スピーカ１０５の一方が他方に対して逆相になり、音声データの位相を変調する場合と同様の機能を実現できる。

変調部１０３は、処理対象のデータの完全性を確認し、完全性が確認された場合に変調処理を行ってもよい。例えばテキストデータに付加された付加情報が、強調部分の開始を示す情報と、強調部分の終了を示す情報とを指定する形式の場合、変調部１０３は、開始を示す情報と終了を示す情報とが対応することが確認できた場合に変調処理を行ってもよい。

出力制御部１０４は、スピーカ１０５からの音声の出力を制御する。例えば出力制御部１０４は、変調対象が変調された第１音声をスピーカ１０５−１に出力させ、第２音声をスピーカ１０５−２から出力させる。スピーカ１０５−１およびスピーカ１０５−２以外のスピーカ１０５が備えられている場合は、出力制御部１０４は、各スピーカ１０５に最適な音声を割り当てて出力させる。各スピーカ１０５は、出力制御部１０４からの出力データに基づいて音声を出力する。

出力制御部１０４は、スピーカ１０５の位置および特性等のパラメータを用いて、各スピーカ１０５への出力（アンプ出力）を計算する。これらのパラメータは、例えば記憶部１２１に記憶される。

例えば、２つのスピーカ１０５において必要な音圧を揃える場合には、以下のように、各スピーカへのアンプ出力Ｗ１、Ｗ２を計算する。２つのスピーカの距離をＬ１、Ｌ２とする。Ｌ１（Ｌ２）は、例えば、スピーカ１０５−１（スピーカ１０５−２）と頭部の中心との間の距離である。各スピーカ１０５から、最も近い耳までの距離を用いてもよい。使用する音声の可聴領域のスピーカ１０５−１（スピーカ１０５−２）のゲインをＧｓ１（Ｇｓ２）とする。距離が２倍になると６ｄＢの低下となり、３ｄＢの音圧上昇にアンプ出力が２倍必要であるとする。両耳での音圧を揃えるために、出力制御部１０４は、以下の式が成り立つように、アンプ出力Ｗ１、Ｗ２を計算して決定する。
−６×（Ｌ１／Ｌ２）×（１／２）＋（２／３）×Ｇｓ１×Ｗ１＝
−６×（Ｌ２／Ｌ１）×（１／２）＋（２／３）×Ｇｓ２×Ｗ２

受付部１０１、特定部１０２、変調部１０３、および、出力制御部１０４は、例えば、ＣＰＵ（Central Processing Unit）などの１以上のプロセッサにプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などの１以上のプロセッサ、すなわちハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

図２は、本実施形態のスピーカ１０５の配置の一例を示す図である。図２は、利用者２０５の鉛直上方から下方を観察した場合のスピーカ１０５の配置の例を示す。スピーカ１０５−１とスピーカ１０５−２からは、変調部１０３により変調処理が実行された音声が流れる。スピーカ１０５−１は、利用者２０５の右耳の延長上に置かれている。スピーカ１０５−２は、スピーカ１０５−１と右耳とを通過する線を基準として角度をもって置くことができる。

発明者は、曲線２０３または曲線２０４に沿ってスピーカ１０５−２の位置を変化させ、ピッチおよび位相を変調した音声を出力した場合の注意力を測定し、いずれの場合でも注意力の増大を確認した。注意力は、ＥＥＧ（Electroencephalogram）、ＮＩＲＳ（Near-Infrared Spectroscopy）、および、主観評価などの評価基準を用いて測定した。

図３は、測定結果の一例を示す図である。図３のグラフの横軸は、スピーカ１０５の配置角度を表す。配置角度は、例えば、スピーカ１０５−１と利用者２０５とを結ぶ線と、スピーカ１０５−２と利用者２０５とを結ぶ線とのなす角度である。図３に示すように、配置角度が９０°から１８０°のときに注意力の増加が大きくなる。従って、スピーカ１０５−１とスピーカ１０５−２は、配置角度が９０°から１８０°となるように配置することが望ましい。なお注意力は検出されるため、配置角度が０°より大きければ９０°より小さくてもよい。

音声の全区間のピッチまたは位相を変調してもよいが、この場合、慣れなどのために注意力が減少する可能性がある。そこで変調部１０３は、付加情報などにより特定された強調部分のみに対して変調を行う。これにより、強調部分に対する注意力をより効果的に高めることが可能となる。

図４は、本実施形態のスピーカ１０５の配置の他の例を示す図である。図４は、例えば屋外で場外放送を出力するために設置されるスピーカ１０５の配置の例を示す。図３に示すように、９０°から１８０°の配置角度となるスピーカ１０５の組を用いることが望ましい。従って、図４の例では、１８０°の配置角度で配置されるスピーカ１０５−１、スピーカ１０５−２の組に対して、音声の変調処理が実行される。

図５は、本実施形態のスピーカ１０５の配置の他の例を示す図である。図５は、ヘッドフォンとしてスピーカ１０５−１およびスピーカ１０５−２を構成した例である。

スピーカ１０５の配置例は図２、図４および図５に限られるものではない。図３に示したように注意力が得られる配置角度で配置されれば、どのような組み合わせのスピーカであってもよい。例えば、カーナビゲーションのために用いられる複数のスピーカに対して本実施形態を適用してもよい。

次に、ピッチ変調および位相変調について説明する。図６は、ピッチ変調および位相変調について説明するための図である。位相変調は、音声の包絡線６０４をもとに、元の信号６０１に対して同一の包絡線に対して単位時間内の波数を変えることなく、ピークの時間位置を変更した信号６０３を出力する。ピッチ変調は、波数を変更した信号６０２を出力する。

次に、ピッチまたは位相の変調と、音声の聞き取りやすさとの関係について説明する。図７は、位相の差（度）と背景音の音圧（ｄＢ）との関係を示す図である。位相の差は、２つのスピーカ１０５から出力させる音声間の位相の差（例えばスピーカ１０５−１から出力させる音声の位相と、スピーカ１０５−２から出力させる音声の位相との差）を表す。背景音の音圧は、出力された音声を利用者が聞き取ることができる背景音の音圧の最大値（限界音圧）を表す。

背景音は、スピーカ１０５から出力する音声以外の音である。例えば周囲の雑音、および、音声以外に出力されている音楽等の音が、背景音に相当する。図７の矩形で示す点が、得られた値の平均値を表す。この点の上下の線で示した範囲が得られた値の標準偏差を表す。

図７に示すように、０．５ｄＢ以上の背景音が存在する場合であっても、位相の差が６０°以上１８０°以下であれば、利用者はスピーカ１０５から出力される音声を聞き取ることができる。従って、変調部１０３は、位相の差が６０°以上１８０°以下となるように変調処理を実行してもよい。変調部１０３は、より限界音圧の高い９０°以上１８０°以下、または、１２０°以上１８０°以下の位相差となるように変調処理を実行してもよい。

図８は、周波数差（Ｈｚ）と背景音の音圧（ｄＢ）との関係を示す図である。周波数差は、２つのスピーカ１０５から出力させる音声の周波数の差（例えばスピーカ１０５−１から出力させる音声の周波数と、スピーカ１０５−２から出力させる音声の周波数との差）を表す。図８の矩形で示す点が、得られた値の平均値を表す。この点の横に付した数値“Ａ、Ｂ”のうち、Ａが周波数差を表し、Ｂが背景音の音圧を表す。

図８に示すように、背景音が存在する場合であっても、周波数差が１００Ｈｚ（ヘルツ）以上であれば、利用者はスピーカ１０５から出力される音声を聞き取ることができる。従って、変調部１０３は、可聴域の範囲内で、周波数差が１００Ｈｚ以上となるように変調処理を実行してもよい。

次に、このように構成された第１の実施形態にかかる音声処理装置１００による音声出力処理について図９を用いて説明する。図９は、第１の実施形態における音声出力処理の一例を示すフローチャートである。

受付部１０１は、テキストデータの入力を受け付ける（ステップＳ１０１）。特定部１０２は、テキストデータに付加情報が付加されているか否かを判断する（ステップＳ１０２）。付加されていない場合（ステップＳ１０２：Ｎｏ）、特定部１０２は、テキストデータから強調部分を特定する（ステップＳ１０３）。例えば特定部１０２は、入力されたテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定する。特定部１０２は、強調部分を示す付加情報を、対応するテキストデータの強調部分に付加する（ステップＳ１０４）。付加情報の付加方法は、変調部１０３が、強調部分を特定できればどのような方法であってもよい。

付加情報が付加された後（ステップＳ１０４）、および、テキストデータに付加情報が付加されている場合（ステップＳ１０２：Ｙｅｓ）、変調部１０３は、テキストデータに対応する音声であって、強調部分のテキストデータに対しては変調対象が相互に異なるように変調対象を変調した音声（第１音声、第２音声）を生成する（ステップＳ１０５）。

出力制御部１０４は、スピーカ１０５ごとに出力する音声を決定し、決定した音声を出力させる（ステップＳ１０６）。各スピーカ１０５は、出力制御部１０４の指示に従い音声を出力する。

このように、第１の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成しながら、強調部分に対応するテキストデータに対しては、音声のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第２の実施形態）
第１の実施形態では、テキストデータを逐次音声に変換するときに、強調部分のテキストデータに対して変調処理を行った。第２の実施形態にかかる音声処理装置は、テキストデータに対する音声を生成した後、生成した音声のうち強調部分に相当する音声に対して変調処理を行う。

図１０は、第２の実施形態にかかる音声処理装置１００−２の構成の一例を示すブロック図である。図１０に示すように、音声処理装置１００−２は、記憶部１２１と、受付部１０１と、特定部１０２と、変調部１０３−２と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎと、生成部１０６−２と、を備えている。

第２の実施形態では、変調部１０３−２の機能、および、生成部１０６−２を追加したことが第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態にかかる音声処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

生成部１０６−２は、テキストデータに対応する音声を生成する。例えば生成部１０６−２は、入力されたテキストデータを、スピーカ１０５−１に出力する音声（第１音声）およびスピーカ１０５−２に出力する音声（第２音声）に変換する。

変調部１０３−２は、生成部１０６−２により生成された音声のうち、強調部分の音声に対して変調処理を行う。例えば変調部１０３−２は、生成された第１音声の強調部分と生成された第２音声の強調部分との間で変調対象が異なるように、第１音声および第２音声の少なくとも一方の強調部分の変調対象を変調する。

次に、このように構成された第２の実施形態にかかる音声処理装置１００−２による音声出力処理について図１１を用いて説明する。図１１は、第２の実施形態における音声出力処理の一例を示すフローチャートである。

ステップＳ２０１からステップＳ２０４までは、第１の実施形態にかかる音声処理装置１００におけるステップＳ１０１からステップＳ１０４までと同様の処理なので、その説明を省略する。

本実施形態では、テキストデータが入力されると、生成部１０６−２による音声生成処理（音声合成処理）が実行される。すなわち、生成部１０６−２は、テキストデータに対応する音声を生成する（ステップＳ２０５）。

音声を生成後（ステップＳ２０５）、付加情報が付加された後（ステップＳ２０４）、および、テキストデータに付加情報が付加されている場合（ステップＳ２０２：Ｙｅｓ）、変調部１０３−２は、生成された音声から強調部分を抽出する（ステップＳ２０６）。例えば変調部１０３−２は、付加情報を参照してテキストデータのうち強調部分を特定するとともに、テキストデータと生成した音声との対応から、特定したテキストデータの強調部分に対応する音声の強調部分を抽出する。変調部１０３−２は、抽出した音声の強調部分に対して変調処理を実行する（ステップＳ２０７）。なお変調部１０３−２は、強調部分以外の音声に対しては変調処理を行わない。

ステップＳ２０８は、第１の実施形態にかかる音声処理装置１００におけるステップＳ１０６と同様の処理なので、その説明を省略する。

このように、第２の実施形態にかかる音声処理装置では、テキストデータに対応する音声を生成した後に、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第３の実施形態）
第１および第２の実施形態では、テキストデータを入力し、テキストデータを音声に変換して出力した。このような実施形態は、例えば、予め定められた緊急災害放送用のテキストデータを出力する場合などに適用できる。一方、利用者が発声した音声を緊急災害放送用に出力する状況も考えられる。第３の実施形態にかかる音声処理装置は、マイクなどの音声入力装置から音声を入力し、入力された音声の強調部分に対して変調処理を行う。

図１２は、第３の実施形態にかかる音声処理装置１００−３の構成の一例を示すブロック図である。図１２に示すように、音声処理装置１００−３は、記憶部１２１と、受付部１０１−３と、特定部１０２−３と、変調部１０３−３と、出力制御部１０４と、スピーカ１０５−１〜１０５−ｎと、生成部１０６−２と、を備えている。

第３の実施形態では、受付部１０１−３、特定部１０２−３、および、変調部１０３−３の機能が第２の実施形態と異なっている。その他の構成および機能は、第２の実施形態にかかる音声処理装置１００−２のブロック図である図１０と同様であるので、同一符号を付し、ここでの説明は省略する。

受付部１０１−３は、テキストデータのみでなく、マイクなどの音声入力装置から入力される音声を受け付ける。また、受付部１０１−３は、入力される音声のうち強調する部分の指定を受け付ける。例えば受付部１０１−３は、利用者による所定のボタンの押下を、押下後に入力される音声が強調する部分であることを示す指定として受け付ける。受付部１０１−３は、強調部分の開始および終了の指定を、開始から終了までに入力された音声が強調する部分であることを示す指定として受け付けてもよい。指定方法はこれらに限られるものではなく、音声のうち強調する部分を決定可能であればどのような方法であってもよい。以下では、音声のうち強調する部分の指定をトリガーという場合がある。

特定部１０２−３は、さらに、受け付けられた指定（トリガー）に基づいて、音声の強調部分を特定する機能を有する。

変調部１０３−３は、生成部１０６−２により生成された音声、または、入力された音声のうち、強調部分の音声に対して変調処理を行う。

次に、このように構成された第３の実施形態にかかる音声処理装置１００−３による音声出力処理について図１３を用いて説明する。図１３は、第３の実施形態における音声出力処理の一例を示すフローチャートである。

受付部１０１−３は、音声入力優先であるか否かを判定する（ステップＳ３０１）。音声入力優先とは、テキストデータではなく、音声を入力して出力することを示す指定である。例えば、音声入力優先を指定するためのボタンが押下された場合に、受付部１０１−３は、音声入力優先であると判定する。

音声入力優先であるかの判定方法はこれに限られるものではない。例えば、音声入力優先であるかを示す事前に保存された情報を参照して判定してもよい。また、テキストデータは入力せず、音声入力のみとする場合は、音声入力優先の指定や判定（ステップＳ３０１）を実行しなくてもよい。この場合、後述するテキストデータに基づく付加処理（ステップＳ３０６）も実行しなくてもよい。

音声入力優先の場合（ステップＳ３０１：Ｙｅｓ）、受付部１０１−３は、音声の入力を受け付ける（ステップＳ３０２）。特定部１０２−３は、音声の強調する部分の指定（トリガー）が入力されているか否かを判定する（ステップＳ３０３）。

トリガーが入力されていない場合（ステップＳ３０３：Ｎｏ）、特定部１０２−３は、音声の強調部分を特定する（ステップＳ３０４）。例えば特定部１０２−３は、入力されている音声と、予め登録された音声データとを照合し、登録された音声データと一致または類似する音声を強調部分として特定する。特定部１０２−３は、入力された音声を音声認識して得られるテキストデータと、予め定められた強調部分を示すデータとを照合することにより、強調部分を特定してもよい。

ステップＳ３０３でトリガーが入力されていると判定した場合（ステップＳ３０３：Ｙｅｓ）、および、ステップＳ３０４で強調部分を特定した後、特定部１０２−３は、入力されている音声のデータに対して、強調部分を示す付加情報を付加する（ステップＳ３０５）。付加情報の付加方法は、音声が強調部分であることを判定できればどのような方法であってもよい。

ステップＳ３０１で音声入力優先でないと判定された場合（ステップＳ３０１：Ｎｏ）、テキストに基づく付加処理が実行される（ステップＳ３０６）。この処理は、例えば図１１のステップＳ２０１からステップＳ２０５までと同様の処理で実現できる。

変調部１０３−３は、生成された音声から強調部分を抽出する（ステップＳ３０７）。例えば変調部１０３−３は、付加情報を参照して音声の強調部分を抽出する。ステップＳ３０６を実行した場合は、変調部１０３−３は、図１１のステップＳ２０６と同様の処理により強調部分を抽出する。

ステップＳ３０８からステップＳ３０９までは、第２の実施形態にかかる音声処理装置１００−２におけるステップＳ２０７からステップＳ２０８までと同様の処理なので、その説明を省略する。

このように、第３の実施形態にかかる音声処理装置では、入力された音声の強調部分をトリガーなどにより特定し、音声の強調部分のピッチおよび位相の少なくとも一方を変調し、変調した音声を出力する。これにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

（第４の実施形態）
上記実施形態では、例えば付加情報およびトリガーを参照して強調部分を特定した。強調部分の特定方法はこれに限られるものではない。第４の実施形態の音声処理装置は、出力させる音声に含まれる音声（部分音声）のうち、いずれか１以上の部分音声を、部分音声の属性に基づいて強調部分として特定する。

以下では、音声による学習のためのアプリケーション、または、テキストデータを音声として出力するアプリケーションとして音声処理装置を実現した例を説明する。音声による学習は、例えば、音声による外国語の学習、および、教科の内容を音声により出力する学習など、音声を用いた任意の学習を含む。テキストデータを音声として出力するアプリケーションは、例えば、書籍の内容を読み上げて音声により出力する朗読アプリケーションを含む。適用可能なアプリケーションはこれらに限られるものではない。

音声による学習のためのアプリケーションに適用することにより、例えば、学習の対象となる部分を適切に強調し、学習効果をより増大させることが可能となる。また、テキストデータを音声として出力するアプリケーションに適用することにより、例えば、音声の特定の部分に注意を向けさせることが可能となる。また、朗読アプリケーションに適用することにより、例えば、物語の臨場感をより増大させることが可能となる。

図１４は、第４の実施形態にかかる音声処理装置１００−４の構成の一例を示すブロック図である。図１４に示すように、音声処理装置１００−４は、記憶部１２１−４と、表示部１２２−４と、受付部１０１−４と、特定部１０２−４と、変調部１０３−４と、出力制御部１０４−４と、スピーカ１０５−１〜１０５−ｎと、を備えている。スピーカ１０５−１〜１０５−ｎは、第１の実施形態にかかる音声処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

記憶部１２１−４は、出力させる音声に含まれる部分音声の属性の一例として出力回数をさらに記憶する点が、第１の実施形態の記憶部１２１と異なっている。図１５は、記憶部１２１−４に記憶されるデータの構造の一例を示す図である。図１５は、学習の対象とする部分音声を示すデータのデータ構造の一例を示す。図１５に示すように、このデータは、音声ＩＤと、単語と、時間と、出力回数と、を含む。

音声ＩＤは、出力対象となる音声を識別する識別情報である。例えば、数値、および、音声を記憶するファイルのファイル名などを音声ＩＤとすることができる。

単語は、学習の対象の一例であり、他の情報を学習の対象としてもよい。例えば、複数の単語を含む文または章などの、単語以外の対象を、単語とともに、または、単語の代わりに用いてもよい。記憶部１２１−４に記憶する単語は、音声に含まれるすべての単語のうち、ユーザなどにより選択された一部の単語であってもよいし、音声に含まれるすべての単語であってもよい。単語の選択方法の例については後述する。

時間は、単語に対応する部分音声の音声内での位置を示す。部分音声の位置を特定できる情報であれば、時間以外の情報を記憶してもよい。

単語および時間は、例えば、学習に用いる音声を音声認識することにより得られる。音声処理装置１００−４は、他の装置で予め生成された図１５のようなデータを取得して記憶部１２１−４に記憶してもよい。音声処理装置１００−４が、入力された音声を音声認識して得られたデータを記憶部１２１−４に記憶してもよい。

出力回数は、単語に対応する部分音声を出力した回数を示す。例えば、学習が開始されてからの部分音声を出力した回数の累積値が、出力回数として記憶部１２１−４に記憶される。なお出力回数は部分音声の属性の一例であり、出力回数以外の情報を部分音声の属性として用いてもよい。他の属性の例については後述する。

図１４に戻り、表示部１２２−４は、各種処理で用いられるデータを表示する表示装置である。表示部１２２−４は、例えば液晶ディスプレイなどにより構成することができる。

受付部１０１−４は、学習の対象となる単語の指定などをさらに受け付ける点が第１の実施形態の受付部１０１と異なっている。

特定部１０２−４は、音声に含まれる１以上の部分音声のうちいずれか１以上の部分音声を、部分音声の属性に基づいて強調部分として特定する。例えば出力回数を属性とする場合、特定部１０２−４は、出力回数が閾値以下である部分音声を、強調部分として特定する。これにより、例えば、出力回数が少ないために学習が不十分であると解釈される単語が優先的に強調され、より学習効果を高めることが可能となる。出力回数の代わりに音声の出力時間（例えば学習開始からの出力時間の累計）を属性として用いる場合も、同様の効果を得ることができる。

変調部１０３−４は、属性に基づいて強調部分を変調する度合い（変調強度）を変更する点が、第１の実施形態の変調部１０３と異なっている。例えば変調部１０３−４は、出力回数が小さい部分音声は、変調強度がより大きくなるように、第１音声および第２音声の少なくとも一方を変調する。変調強度は、出力回数に応じて線形に変更してもよいし、非線形となるように変更してもよい。変調部１０３−４は、強調部分に含まれる各部分の変調強度を相互に異ならせてもよい。例えば、単語のアクセント部分のみを強調するように変調強度を制御してもよい。なお、属性に基づいて変調強度を変更しないように構成してもよい。この場合は第１の実施形態と同様の変調部１０３を備えればよい。

出力制御部１０４−４は、表示部１２２−４に対する各種データの出力（表示）を制御する機能をさらに備える点が、第１の実施形態の出力制御部１０４と異なっている。

次に、このように構成された第４の実施形態にかかる音声処理装置１００−４による音声出力処理について図１６を用いて説明する。図１６は、第４の実施形態における音声出力処理の一例を示すフローチャートである。

受付部１０１−４は、テキストデータの入力を受け付ける（ステップＳ４０１）。特定部１０２−４は、テキストデータから、属性を参照して強調部分を特定する（ステップＳ４０２）。例えば出力回数を属性とする場合、特定部１０２−４は、記憶部１２１−４に記憶された出力回数が閾値以下である単語を、強調部分として特定する。

変調部１０３−４は、特定された強調部分を変調した音声を生成する（ステップＳ４０３）。例えば変調部１０３−４は、特定された強調部分（単語など）に対応する音声であって、強調部分に対しては変調対象が相互に異なるように変調対象を変調した音声（第１音声、第２音声）を生成する。このとき変調部１０３−４は、属性に応じた変調強度となるように第１音声および第２音声を生成してもよい。

出力制御部１０４−４は、スピーカ１０５ごとに出力する音声を決定し、決定した音声を出力させる（ステップＳ４０４）。各スピーカ１０５は、出力制御部１０４−４の指示に従い音声を出力する。

次に、語学学習用のアプリケーションとして音声処理装置１００−４を実現する場合の例について説明する。学習アプリケーションは、例えば以下のような機能を有する。
（１）出力させる音声のうち、学習の対象とする箇所、すなわち、強調部分を指定する機能。
（２）音声を再生する機能。一時停止、巻き戻し、および、早送りなどの機能を備えてもよい。
（３）強調部分を理解できたか否かを確認するための機能。
（４）学習の結果などに応じて属性を変更する機能。

図１７は、学習の対象とする箇所を指定するための指定画面の一例を示す図である。図１７に示すように、指定画面１７００は、出力させる音声に対応するテキストデータを表示する画面である。指定画面１７００は、例えば出力制御部１０４−４により表示部１２２−４に表示される。指定画面１７００は、上記（１）の機能を実現する画面の例である。

ユーザは、指定画面１７００に表示されたテキストデータのうち、学習の対象とする箇所（単語、文など）を、マウスまたはタッチパネルなどにより選択する。単語１７０１は、このようにして選択された箇所の例を示している。

登録ボタン１７１１が押下されると、選択された単語が、学習の対象として記憶部１２１−４に記憶される。図１５は、このようにして記憶されたデータの一例を示す。図１５の出力回数は、登録時点では例えば「０」に設定される。キャンセルボタン１７１２が押下された場合は、例えば、選択が解除され、前の画面が表示される。

学習対象の指定方法は図１７に示す方法に限られない。例えば、音声が出力されている途中に登録（ボタンの押下など）が指示された場合に、指示されたタイミングで出力されていた箇所（単語など）を学習の対象として登録してもよい。学習対象とする１以上の単語を音声とは無関係に選択し、音声（または音声に対応するテキストデータ）から、選択された単語を抽出することにより、図１５に示すようなデータを生成してもよい。

学習を開始する前までに、図１７に示す方法などにより学習の対象とする箇所が指定され、図１５に示すようなデータが生成されていればよい。学習する際に用いられる画面の例について以下に説明する。

図１８は、学習画面の一例を示す図である。図１８に示すように、学習画面１８００は、カーソル１８０１と、出力制御ボタン１８０２と、ＯＫボタン１８１１と、キャンセルボタン１８１２と、を含む。

出力制御ボタン１８０２は、音声の再生開始、一時停止、再生の停止、巻き戻し、および、早送りなどのために用いられる。カーソル１８０１は、現在再生されている音声に対応する箇所を示すための情報である。図１８では矩形のカーソル１８０１の例が示されているが、カーソル１８０１の表示態様はこれに限られない。

ＯＫボタン１８１１が押下されると、学習処理が終了する。ＯＫボタン１８１１が押下された場合に、それまでに再生された各単語の出力回数に１加算して記憶部１２１−４のデータを更新してもよい。例えば巻き戻し機能により、ある単語の再生が繰り返されると、この単語の出力回数が増加する。特定部１０２−４は、例えば繰り返し再生された単語の出力回数が閾値を超えた場合、この単語を強調部分として特定せず、出力回数が閾値以下の単語のみを強調部分として特定する。これにより、学習の対象とする単語を適切に特定して学習効果を高めることが可能となる。

キャンセルボタン１８１２が押下された場合は、例えば、前の画面が表示される。キャンセルボタン１８１２が押下された場合には出力回数を更新しないように構成してもよい。

図１９は、学習画面の他の例を示す図である。図１９の学習画面１９００は、単語ごとに学習結果を指定可能とする画面の例である。再生されている音声に対応する単語にカーソル１９０１が表示されるとともに、カーソル１９０１に対応する指定ウインドウ１９１０が表示される。音声の再生が進むに従い、カーソル１９０１が移動するとともに、対応する指定ウインドウ１９１０も移動する。

指定ウインドウ１９１０は、ＯＫボタンとキャンセルボタンとを含む。例えばＯＫボタンが押下された場合、対応する単語の出力回数に１加算して記憶部１２１−４のデータが更新される。キャンセルボタンが押下された場合、出力回数は更新されない。指定ウインドウ１９１０がＯＫボタンのみを含み、ＯＫボタンが押下されない場合、出力回数が更新されないように構成してもよい。

図２０は、学習画面の他の例を示す図である。図２０の学習画面２０００では、学習する対象（単語など）が非表示とされ、正解を選択させる選択ウインドウ２０１０が表示される。選択ウインドウ２０１０では、対応する単語の正しい表記と、その他の表記とが、選択可能に表示される。例えば正しい表記が選択された場合に、対応する単語の出力回数に１加算して記憶部１２１−４のデータが更新される。正しい表記が選択されなかった場合には、出力回数は更新されない。このような構成の場合、出力回数の代わりに、正解回数を属性として記憶してもよい。

図２１は、学習画面の他の例を示す図である。図２１の学習画面２１００は、選択肢を下部に表示する画面の例である。学習する対象（単語など）の表記は非表示とされ、代わりに「Ｑ１」、「Ｑ２」、および、「Ｑ３」などのように、下部の選択肢とを対応づける情報が表示される。ユーザは、音声が再生されているとき、または、音声の再生が完了したときに、選択肢から表記を選択することができる。

次に、属性の他の例について説明する。

学校などでは、予め定められた計画に従い学習を進めるために、計画の進行に応じて学習の対象が変更される場合がある。そこで、学習の開始、例えば、音声出力の開始からの経過時間を属性としてもよい。この場合、特定部１０２−４は、経過時間に応じて異なる強調部分を特定する。例えば記憶部１２１−４は、図１７の出力回数の代わりに、経過時間の範囲を単語ごとに記憶する。特定部１０２−４は、実際の音声出力の開始からの経過時間が、記憶された経過時間の範囲に含まれる単語を、強調部分として特定する。さらに、音声等の繰り返し利用回数、例えば、ファイルの再生回数を属性として加味してもよい。

学習期間および学習の単元などの、学習の単位を属性としてもよい。例えば記憶部１２１−４は、図１７の出力回数の代わりに、複数の学習期間を識別する情報（学習期間１、学習期間２、学習期間３・・・など）を単語ごとに記憶する。特定部１０２−４は、ユーザなどにより指定される学習期間、または、予め定められた計画と日時などに基づき判定される学習期間に対応する単語を、強調部分として特定する。

学習の対象の種類を属性としてもよい。例えば、歴史の学習に適用する場合、記憶部１２１−４は、学習の対象（単語、文など）が、年代、および、キーワードなどのいずれの種類を示すかを、図１７の出力回数の代わりに属性として記憶する。特定部１０２−４は、ユーザなどにより指定される種類、または、予め定められた計画と日時などに基づき判定される種類に対応する単語を、強調部分として特定する。語学学習などに適用する場合、記憶部１２１−４は、単語の品詞を種類（属性）として記憶してもよい。

音声を出力する場所を属性としてもよい。例えば朗読アプリケーションに適用する場合、朗読アプリケーションを実行する場所および音声の出力回数の少なくとも一方に応じて異なる強調部分を特定してもよい。これにより、例えば同じ書籍の内容であってもユーザに飽きさせないように音声を出力することが可能となる。

学習の対象ごとに定められる優先度を属性としてもよい。優先度は、対象（対象に対応する部分音声）を優先する度合いを示す。優先度の決定方法はどのような方法であってもよい。例えば、ユーザが単語を選択するとともに優先度を指定してもよい。単語の辞書データなどの中で予め定められた単語の重要度（または難易度）を優先度として利用してもよい。優先度は固定である必要はなく、動的に変更されてもよい。

例えば特定部１０２−４は、優先度が閾値以上の単語に対応する部分音声を強調部分として特定する。特定部１０２−４は、優先度が指定された値（指定値）または指定された範囲（指定範囲）内の単語に対応する部分音声を強調部分として特定してもよい。閾値、指定値および指定範囲は、固定値でもよいし、ユーザ等により指定可能としてもよい。

例えば記憶部１２１−４は、図１７の出力回数の代わりに、優先度を単語ごとに記憶する。例えば単語「mission」、「knowledge」に対して「１」、単語「aspiration」に対して「２」が優先度として設定される。そして例えば閾値を「１」とした場合、特定部１０２−４は、「mission」および「knowledge」に対応する部分音声を強調部分として特定する。優先度の範囲を指定可能とすれば、例えば、単語の重要度（難易度）に応じて強調部分を変更することが可能となる。

優先度を他の情報に応じて変更するように構成してもよい。例えば優先度は、音声出力の開始からの経過時間に応じて変更されてもよい。経過時間に応じて学習の対象とする単語の優先度を上げ、対象外とする単語の優先度を下げるように制御すれば、上記のような計画に従った学習が可能となる。

また、例えば図２０および図２１のような画面で正解を選択させ、正解であった場合に優先度を下げ、正解でなかった場合に優先度を上げるように構成してもよい。これにより、学習が十分でない対象を適切に強調することが可能となる。正解回数などを属性とすることによっても同様の機能を実現できる。

これまでの説明では、第１の実施形態と同様に、テキストデータに対応する音声を生成しながら強調部分を変調する例を説明した。変調方法はこれに限られるものではない。例えば、第２の実施形態と同様に、生成された音声のうち強調部分に相当する音声に対して変調処理を行ってもよい。また、変調方法は、ピッチおよび位相の少なくとも一方を変調する方法に限られず、他の変調方法を適用してもよい。

このように、第４の実施形態にかかる音声処理装置では、属性に応じて変更した強調部分を変調して出力する。これにより、学習アプリケーションに適用した場合の学習効果の向上、および、朗読アプリケーションに適用した場合の臨場感の向上などが可能となる。

以上説明したとおり、第１から第４の実施形態によれば、音声のピッチおよび位相の少なくとも一方を変調して出力することにより、音声信号の強度を変えることなく、利用者の注意力を増大させることが可能となる。

次に、第１から第４の実施形態にかかる音声処理装置のハードウェア構成について図２２を用いて説明する。図２２は、第１から第４の実施形態にかかる音声処理装置のハードウェア構成例を示す説明図である。

第１から第４の実施形態にかかる音声処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

第１から第４の実施形態における音声処理装置は、コンピュータまたは組み込みシステムであり、パソコンおよびマイコン等の１つからなる装置、または、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。また、本実施形態におけるコンピュータは、パソコンに限らず、情報処理機器に含まれる演算処理装置およびマイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器または装置を総称している。

第１から第４の実施形態にかかる音声処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

第１から第４の実施形態にかかる音声処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）、ＵＳＢフラッシュメモリー、ＳＤカード、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１から第４の実施形態にかかる音声処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１から第４の実施形態にかかる音声処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１から第４の実施形態にかかる音声処理装置で実行されるプログラムは、コンピュータを上述した音声処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００、１００−２、１００−３、１００−４音声処理装置
１０１、１０１−３、１０１−４受付部
１０２、１０２−３、１０２−４特定部
１０３、１０３−２、１０３−３、１０３−４変調部
１０４、１０４−４出力制御部
１０５スピーカ
１０６−２生成部
１２１、１２１−４記憶部
１２２−４表示部

Claims

出力させる音声に含まれる１以上の音声のうちいずれか１以上を、前記音声の属性に基づいて強調部分として特定する特定部と、
第１出力部に出力させる第１音声の前記強調部分の周波数と、第２出力部に出力させる第２音声の前記強調部分の周波数との差が、１００ヘルツ以上となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分のピッチを変調する変調部と、
を備える音声処理装置。
前記変調部は、前記属性に基づいて、前記強調部分を変調する度合いを変更する、
請求項１に記載の音声処理装置。
前記属性は、出力させる音声に含まれる１以上の音声を出力した回数、および、出力させる音声に含まれる１以上の音声を出力した時間の少なくとも一方である、
請求項１に記載の音声処理装置。
前記属性は、前記第１音声および前記第２音声の出力を開始してからの経過時間である、
請求項１に記載の音声処理装置。
前記属性は、出力させる音声に含まれる１以上の音声に対して定められる優先度である、
請求項１に記載の音声処理装置。
前記特定部は、入力されたテキストデータから前記強調部分を特定し、
前記変調部は、前記テキストデータに対応する前記第１音声および前記第２音声であって、前記差が１００ヘルツ以上となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分のピッチを変調した前記第１音声および前記第２音声を生成する、
請求項１に記載の音声処理装置。
入力されたテキストデータに対応する前記第１音声および前記第２音声を生成する生成部をさらに備え、
前記特定部は、前記テキストデータから前記強調部分を特定し、
前記変調部は、生成された前記第１音声の前記強調部分と生成された前記第２音声の前記強調部分との間で、前記差が１００ヘルツ以上となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分のピッチを変調する、
請求項１に記載の音声処理装置。
前記変調部は、さらに、前記第１音声の前記強調部分の位相と、前記第２音声の前記強調部分の位相との差が、６０°以上１８０°以下となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分の位相を変調する、
請求項１に記載の音声処理装置。
前記変調部は、さらに、前記第１出力部または前記第２出力部に入力する信号の極性を反転することにより、前記第１音声および前記第２音声の少なくとも一方の前記強調部分の位相を変調する、
請求項１に記載の音声処理装置。
前記属性は、出力させる音声を出力する場所、出力させる音声を用いた学習の対象の種類、および、予め定められた計画と日時などに基づき判定される期間であって出力させる音声を用いた学習の学習期間、の少なくとも１つである、
請求項１に記載の音声処理装置。
出力させる音声に含まれる１以上の音声のうちいずれか１以上を、前記音声の属性に基づいて強調部分として特定する特定ステップと、
第１出力部に出力させる第１音声の前記強調部分の周波数と、第２出力部に出力させる第２音声の前記強調部分の周波数との差が、１００ヘルツ以上となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分のピッチを変調する変調ステップと、
を含む音声処理方法。
コンピュータを、
出力させる音声に含まれる１以上の音声のうちいずれか１以上を、前記音声の属性に基づいて強調部分として特定する特定部と、
第１出力部に出力させる第１音声の前記強調部分の周波数と、第２出力部に出力させる第２音声の前記強調部分の周波数との差が、１００ヘルツ以上となるように、前記第１音声および前記第２音声の少なくとも一方の前記強調部分のピッチを変調する変調部と、
として機能させるためのプログラム。