JP4785909B2

JP4785909B2 - 情報処理装置

Info

Publication number: JP4785909B2
Application number: JP2008310224A
Authority: JP
Inventors: 真一本多
Original assignee: Sony Interactive Entertainment Inc; Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2008-12-04
Filing date: 2008-12-04
Publication date: 2011-10-05
Anticipated expiration: 2028-12-04
Also published as: US20100145686A1; JP2010134203A

Description

本発明は情報処理技術に関し、特に視覚的に作成された情報を聴覚的な情報に変換する情報処理装置、およびそれに適用される情報処理方法に関する。

全盲者、弱視者など視覚に障害をもつ人がパーソナルコンピュータなどの情報端末を用いてウェブサイトなどにアクセスし情報を取得する場合、表示装置に表示される情報を視覚以外の手段で読み取れるように変換する必要がある。これに対し、表示された文字情報を音声や点字に変換する装置はこれまでにも実現されている（例えば特許文献１参照）。これらの装置では、インターネットなどを経由して表示される情報がＨＴＭＬやＸＭＬなどのマークアップ言語で記述されていることを利用して、記述されている文字列を類別する。ユーザが、あるウェブページ内の見出しを全て知りたい、といった場合、＜ｔｉｔｌｅ＞タグや＜ｈｅａｄ＞タグなどの後に記述されている文字列を抽出し、音声に変換して聞かせる、といった、聞かせる順序に基づく工夫がなされている。
特開２００４−２２６７４３号公報

ウェブサイト画面などの文字情報を音声情報として出力する場合、常に課題となるのがその効率である。上述のようにタグに基づいて見出しなどを先に読み、絞り込みを行うには、やはり多大な時間を労してしまう。それは、視覚的な情報は一度にざっと見渡すことが可能であるが、聴覚的な情報は全ての文章を順を追って聞いていく必要があるためである。例えタグにより所定の属性を有する文字列を先に読んでも、そこから戻ったり、進んだり、といった作業を繰り返し、ようやく目的の情報にたどり着く、という状況をユーザに強いることになっていた。

本発明はこのような課題に鑑みてなされたものであり、その目的は、高い効率で視覚的な情報を聴覚的に把握することのできる技術を提供することにある。

本発明のある態様は情報処理装置に関する。この情報処理装置は、文字情報から、あらかじめ定めた条件で複数の文字列を抽出する情報解析部と、情報解析部が抽出した複数の文字列をそれぞれの音声信号に変換する音声変換部と、音声変換部が変換した複数の音声信号のそれぞれに対して異なるパターンで周波数帯域を割り当てる周波数帯域割り当て部と、周波数帯域割り当て部が割り当てた周波数帯域のパターンで、複数の音声信号のそれぞれから、割り当てた周波数帯域成分を抽出して合成する音声処理部と、音声処理部が合成した音声信号を音響として出力する出力部と、を備えたことを特徴とする。

ここで「パターン」とは、可聴周波数帯域内で割り当てる帯域と割り当てない帯域の幅および周波数帯のバリエーションをいう。割り当てる領域と割り当てない領域はそれぞれ、可聴周波数帯域内に複数あってもよい。

本発明の別の態様は情報処理方法に関する。この情報処理方法は、文字情報から、あらかじめ定めた条件で複数の文字列を抽出するステップと、複数の文字列をそれぞれの音声信号に変換するステップと、複数の音声信号のそれぞれに対して異なるパターンで周波数帯域を割り当てるステップと、割り当てた周波数帯域のパターンで、複数の音声信号のそれぞれから、割り当てた周波数帯域成分を抽出して合成するステップと、合成した音声信号を音響として出力するステップと、を含むことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、ウェブページなどの画面を見ることのできないユーザであっても、当該画面が開示する情報のうち、効率的に所望の情報へ到達することができる。

始めに本実施の形態で実現する最終的な出力形態について概説する。本実施の形態の情報処理装置は、ウェブページなどの文字情報を音声信号に変換して出力する（以後、このような処理を「読み上げる」とも呼ぶ）。音声は一般的には複数の流れを同時に認識することが難しいため、従来の音声変換装置では、文字列を順次読み上げていくことが基本であった。その順序をタグなどの情報により入れ替える、といった工夫はなされるが、いずれにしろ逐次音声を聞かなければならず、所望の情報を得るのに大変な時間を要した。

一方、本実施の形態では、複数の音を同時に読み上げることにより、文字情報の内容把握を効率化する。ここで重要となるのが、複数の音声を分離させて聞こえるようにする技術である。詳しくは後に述べるが、複数の音声に異なる周波数帯域を割り当て、割り当てた周波数成分のみをそれぞれ抽出して合成することによって、複数の音声を同時に把握させることが可能となる。あるいは、複数の音声を異なる方向に定位させる。このような手段で複数の音を同時に認識することが可能になると、さらに様々なバリエーションを実現することができる。

例えば同時に読み上げる文字列であっても少しタイミングをずらすことが考えられる。タイミングをずらすことによりさらに分離して聞こえるようになる場合もある。さらに、あるタイミングで大見出しを読み、それが終わらないうちに小見出しを読み始める、といったことにより、大見出し、小見出しの区別をつけることができる。さらに、同時に読む対象を同じタグによって囲まれた文字列か、大見出し、小見出しのように異なる属性の文字列かを変化させることもできる。このようなバリエーションからユーザが選択したタイミング、定位割り当て、周波数帯域割り当てで同時に複数の文字列を読むことにより、従来手法に比べ格段に早くページ全体の内容を把握したり、所望の情報に到達することができる。

図１は本実施の形態の情報処理装置の構成を示している。情報処理装置１０は、ユーザからの入力を受け付ける入力部１２、接続したネットワークからウェブサイトのページ情報（以下、ウェブページとも呼ぶ）を取得するページ情報受信部１４、ページ情報を解析し読み上げる文字列を抽出するページ情報解析部１６、読み上げる文字列に周波数帯域、定位、時間をそれぞれ割り当てる周波数帯域割り当て部２０、定位割り当て部２２、および時間割り当て部２３、読み上げる文字列を音声信号に変換する音声変換部１８、割り当て結果に基づき各文字列の音声信号に処理を施す音声処理部２４、処理を施した音声信号を音響として出力する出力部２６、文字列の抽出条件や音声処理に必要な情報を記憶する割り当て情報記憶部２８を含む。

図１において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ（Central Processing Unit）、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

なお以下の例では、ネットワークを介してアクセスしたウェブサイトからウェブページを取得し、それに含まれる文字情報を音声信号に変換する、という態様について説明するが、取得する情報はウェブページに限らず、文書ファイルなどマークアップ言語で記述されているデータであれば同様に適用できる。

入力部１２は、キーボード、ボタンなどのいずれかまたは組み合わせであり、各種パラメータの設定や、ウェブページの選択などを入力する。一般的な音声変換装置では、ページ内の情報から、読み上げる対象を先に進めたり戻ったり、といったことを行う方向指示キーが備えられている。入力部１２も同様の機能を有していてよい。

ページ情報受信部１４は、入力部１２に対するユーザからの指示により、ネットワークからウェブページを受信する。ページ情報受信部１４が行う、ネットワークへの接続、ウェブサイトへのアクセスなどの処理は、一般的な情報処理装置が行っている手順と同じでよい。ページ情報解析部１６は、ページ情報受信部１４が受信したウェブページを、ユーザが選択するなどして決定した抽出条件に基づき解析する。具体的な例は後に述べるが、基本的にはユーザが設定した条件に合致するタグで囲まれた文字列を抽出し、読み上げる対象とする。ページ情報解析部１６はさらに、同時に読み上げる音声信号のそれぞれにどのような音声処理を施すかの情報を取得し、周波数帯域割り当て部２０、定位割り当て部２２、時間割り当て部２３に入力する。

周波数帯域割り当て部２０は、同時に読み上げる文字列のそれぞれに対し、割り当てる周波数帯域のパターンを設定する。割り当てる周波数帯域のパターンは割り当て情報記憶部２８に複数記憶させておき、ページ情報解析部１６から得た情報から各音声に対するパターンを決定する。定位割り当て部２２は、ページ情報解析部１６から得た情報に基づき、同時に読み上げる文字列を定位させる方向を設定する。時間割り当て部２３はページ情報解析部１６から得た情報に基づき、読み上げる文字列の相対的なタイミングを設定する。

音声変換部１８は、読み上げる文字列を音声信号に変換する。この処理は、従来の音声変換装置と同様であるため、その構成、処理手順も同様でよい。音声処理部２４は、周波数帯域割り当て部２０、定位割り当て部２２、および時間割り当て部２３の少なくともいずれかの設定に応じて、音声変換部１８が変換した複数の音声信号に音声処理を施し、その結果を合成する。出力部２６は、内蔵スピーカや外部に接続したスピーカ、イヤホンなど一般的な電子機器で用いられる音響出力装置で構成してよく、音声処理部２４が合成した音声信号を音響として出力する。

次に周波数帯域割り当て部２０が行う周波数帯域の割り当てについて説明する。人間は、耳における音の感知と、脳における音の解析との２段階によって音を認識する。人間が異なる音源から同時に発せられた音を聞き分けるには、この２段階のいずれかまたは双方において別の音源であることを表す情報、すなわち分離情報を取得できればよい。例えば右耳と左耳とで異なる音を聴くことは、内耳レベルで分離情報を得たことになり、脳において別の音として解析され認識できる。最初から混合されている音の場合は、音脈や音色の違いなどを、これまでの生活で学習し記憶された分離情報と照らして解析することにより、脳レベルで分離することが可能である。

複数の音を混合して１組のスピーカやイヤホンなどから聴く場合は、本来、内耳レベルでの分離情報が得られないため、上述のように音脈や音色の違いなどを頼りに脳で別の音であることを認識することになるが、そのようにして聞き分けることのできる音は限定的である。そこで、最終的に混合しても分離して認識できる音声信号を生成するために、複数の音源のそれぞれに周波数帯域を割り当て、内耳に働きかけを行う分離情報を音声信号に人工的に付加する。また、各音の音脈を認識する手がかりとして、音声信号を異なる方向に定位させる。

図２は、周波数帯域の割り当てについて説明するための図である。図の横軸は周波数であり周波数ｆ０からｆ８までを可聴帯域とする。同図では音ａ、音ｂの２つの音声信号を混合して聴く場合について示している。本実施の形態では、可聴帯域を複数のブロックに分割し、各ブロックを複数の音声信号の少なくともいずれかに割り当てる。そして各音声信号から、割り当てられたブロックに属する周波数成分のみを抽出する。

図２では、可聴帯域をｆ１、ｆ２、・・・、ｆ７の周波数で８つのブロックに分割している。そして例えば斜線にて示すように、音ａに対し周波数ｆ１〜ｆ２、ｆ３〜ｆ４、ｆ５〜ｆ６、ｆ７〜ｆ８の４つのブロックを、音ｂに対し周波数ｆ０〜ｆ１、ｆ２〜ｆ３、ｆ４〜ｆ５、ｆ６〜ｆ７の４つのブロックを割り当てる。ここでブロックの境界となる周波数ｆ１、ｆ２、・・・、ｆ７を、例えばＢａｒｋの２４臨界帯域の境界周波数のいずれかとすることにより、周波数帯域分割の効果をより発揮することができる。

臨界帯域とは、ある周波数帯域を有する音が、それ以上帯域幅を広げても他の音に対するマスキング量が増加しなくなる周波数帯域のことである。ここでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇する現象、すなわち聴きづらくなる現象であり、マスキング量はその最小可聴値の上昇量である。すなわち、異なる臨界帯域にある音どうしは互いにマスキングされにくい。実験によって判明したＢａｒｋの２４個の臨界帯域を利用して周波数帯域を分割することにより、例えば周波数ｆ１〜ｆ２のブロックに属する音ａの周波数成分が、周波数ｆ２〜ｆ３のブロックに属する音ｂの周波数成分をマスキングするなどの影響を抑えることができる。他のブロックについても同様であり、結果として、音ａと音ｂは互いに打ち消しあうことの少ない音声信号となる。

なお、ブロックへの分割は臨界帯域によらなくてもよい。いずれの場合でも、重複する周波数帯域を少なくすることにより、内耳の周波数分解能を利用して分離情報を与えることができる。また図２に示した例では、各ブロックが同程度の帯域幅を有しているが、実際には周波数帯によって変化させてもよい。例えば臨界帯域２つ分を１つのブロックとする帯域と４つ分を１つのブロックとする帯域があってもよい。ブロックへの分割の仕方は、例えば低域の周波数を有する音はマスキングされにくい、などの一般的な音の特性を考慮して決定してもよい。図２に示した例では、一連のブロックを交互に音ａ、音ｂに割り当てたが、連続した２つのブロックを音ａに割り当てるなど、割り当て方もこれに限らない。

図３は音声処理部２４の詳細な構成を示している。音声処理部２４は、第１周波数帯域抽出部３０ａ、第２周波数帯域抽出部３０ｂ、第１定位設定部３２ａ、第２定位設定部３２ｂ、第１時間調整部３４ａ、第２時間調整部３４ｂ、および合成部３６を含む。同図は同時に読み上げる文字列の数を２つとした場合の例を示しており、当該２つの文字列を音声変換して生成した２つの音声信号が音声変換部１８から入力されている。第１周波数帯域抽出部３０ａ、第１定位設定部３２ａ、第１時間調整部３４ａは２つの音声信号のうちの一方を順次処理していく。第２周波数帯域抽出部３０ｂ、第２定位設定部３２ｂ、第２時間調整部３４ｂは他方の音声信号を順次処理していく。

第１周波数帯域抽出部３０ａおよび第２周波数帯域抽出部３０ｂはそれぞれの音声信号から、それぞれに割り当てた周波数帯域の成分を抽出する。第１周波数帯域抽出部３０ａおよび第２周波数帯域抽出部３０ｂには、各音声に対して割り当てる周波数帯域のブロックの情報、すなわち割り当てパターンの情報が周波数帯域割り当て部２０によって設定される。第１定位設定部３２ａおよび第２定位設定部３２ｂは、音声信号をそれぞれに割り当てられた方向に定位させる。第１定位設定部３２ａおよび第２定位設定部３２ｂには、各音声に対して割り当てる定位の方向が、定位割り当て部２２によって設定される。第１定位設定部３２ａおよび第２定位設定部３２ｂは例えばパンポットなどで実現できる。

第１時間調整部３４ａおよび第２時間調整部３４ｂは音声信号のどちらか一方を他方の読み上げ開始のタイミングから遅延させる。第１時間調整部３４ａおよび第２時間調整部３４ｂには、遅延時間を考慮した各音声の読み上げ開始のタイミングが時間割り当て部２３によって設定される。あるいは遅延する方の調整部に遅延時間が設定される。第１時間調整部３４ａおよび第２時間調整部３４ｂは例えばタイミング回路、ディレイ回路などで実現できる。

第１時間調整部３４ａおよび第２時間調整部３４ｂから出力された音声信号は、合成部３６において合成され出力される。なお第１周波数帯域抽出部３０ａ、第１定位設定部３２ａ、第１時間調整部３４ａは、必ずしも全てが動作していなくてもよく、周波数抽出、定位、時間調整のいずれか、あるいはその組み合わせの処理のみでもよい。第２周波数帯域抽出部３０ｂ、第２定位設定部３２ｂ、第２時間調整部３４ｂも同様である。どの処理を施すかは、読み上げる状態についてあらかじめ設定した情報に含まれており、ページ情報解析部１６が取得する。

図４は、第１周波数帯域抽出部３０ａの詳細な構成を示している。なお第２周波数帯域抽出部３０ｂも同様の構成としてよく、周波数帯域の割り当てパターンを替えることによりそのまま適用できる。第１周波数帯域抽出部３０ａは、フィルタバンク５０および振幅調整部５２および合成部５４を含む。フィルタバンク５０は、入力された音声信号を、図２で示したような周波数帯域のブロック（図２の例では８個のブロック）に分離する。Ｎ個のブロックに分離する場合、フィルタバンク５０はＮ個のバンドパスフィルタで構成する。各バンドパスフィルタには、抽出する各ブロックの周波数帯域の情報をあらかじめ設定しておく。

振幅調整部５２は、フィルタバンク５０の各バンドパスフィルタが出力したブロックごとの音声信号を、あらかじめ設定された振幅にする。すなわち、割り当てられていない周波数帯域のブロックについては振幅を０とし、割り当てられている周波数帯域のブロックをそのままの振幅にする。合成部５４は、振幅調整が施された各ブロックの音声信号を合成して出力する。このような構成により、各音声信号のそれぞれに割り当てられた周波数帯域成分のみを抽出した音声信号を取得することができる。周波数帯域割り当て部２０は、割り当てパターンに応じて、Ｎ個のブロックに対しＮビットの選択／非選択の情報を入力し、振幅調整部５２のＮ個の振幅調整回路のそれぞれは、対応するビットの情報を参照し、非選択の振幅調性回路が振幅を０にする調整を行えばよい。

次に周波数帯域割り当て部２０が行う、周波数帯域の割り当て方について説明する。図２では複数の音声信号を分離して認識させる手法を説明するため、「音ａ」と「音ｂ」とでほぼ均等に周波数帯域のブロックの割り当てを行った。一方、ブロックを割り当てる数に大小をつけることにより、同時に聴かせる音のそれぞれの聞こえ方をさらに調整することができる。図５はブロックの割り当てパターンの例を模式的に示している。

同図は、可聴帯域を７個のブロックに分割した場合について示している。図２と同様、横軸に周波数をとり、説明の便宜上、低域側のブロックからブロック１、ブロック２、・・・、ブロック７とする。まず「パターン群Ａ」と記載された上から３つの割り当てパターンに着目する。これらのパターンのうち、最上段のパターンは最も割り当てられるブロックの数が大きいため、最も聞こえやすい。下の段に行くほど割り当てる数が減少するため、音の聞こえやすさが減少していく。ここで、割り当てるブロック数で決定される聞こえやすさの度合いを「フォーカス値」と呼ぶ。同図では、各割り当てパターンの左側に、フォーカス値として与えられる数値が例示されている。

ある音声信号の聞こえやすさの度合いを最高とする場合、すなわち他の音声信号と比較し最も聞き取り易くする場合、フォーカス値が１．０の割り当てパターンを当該音声信号に適用する。同図の「パターン群Ａ」では、ブロック２、ブロック３、ブロック５、およびブロック６の４つのブロックが同じ音声信号に割り当てられる。

ここで同じ音声信号の聞こえやすさの度合いを少し低下させる場合、割り当てパターンを例えばフォーカス値が０．５の割り当てパターンに変更する。同図の「パターン群Ａ」では、ブロック１、ブロック２、ブロック３の３つのブロックが割り当てられる。同様に同じ音声信号の聞こえやすさの度合いを最低としたい場合、すなわち聞き取れる範囲で最も目立たなくする場合は、割り当てパターンを、フォーカス値が０．１の割り当てパターンに変更する。同図の「パターン群Ａ」では、ブロック１の１つのブロックが割り当てられる。本実施の形態では後に述べるように、読み上げる文字列の種類によって重要度を設定し、重要度の異なる音声信号を同時に読み上げる場合は、フォーカス値の値を異ならせる。

同図に示すとおり、強調の度合いが最高である、フォーカス値が１．０の音声信号に対しても、全てのブロックを割り当ててしまわないようにすることが望ましい。同図ではブロック１、ブロック４、およびブロック７が割り当てられていない。これは、例えばブロック１をフォーカス１．０の音声信号にも割り当ててしまうと、ブロック１のみを割り当てられたフォーカス値０．１の別の音声信号の周波数成分をマスキングしてしまう可能性があるためである。本実施の形態では、複数の音声信号を分離して聴かせつつ、フォーカス値が低くても聞き取りが可能となることが望ましい。そのため、フォーカス値が低い音声信号に割り当てられたブロックは、フォーカス値が高い音声信号には割り当てないようにする。

以上の説明は「パターン群Ａ」に着目して行ったが、「パターン群Ｂ」、「パターン群Ｃ」のように、同じフォーカス値でも様々な割り当てパターンが存在する。従って、同じフォーカス値の設定であっても、別のパターン群を選択することにより、音声が互いに打ち消し合うのを防ぐことができる。周波数帯域割り当て部２０は、同時に聞かせる音声信号に同じフォーカス値を設定する旨の指示をページ情報解析部１６から受けたら、割り当て情報記憶部２８に格納した複数のパターン群から、それぞれ別のパターン群を選択したうえで、割り当てパターンを決定する。

割り当て情報記憶部２８に記憶させておく割り当てパターンは、フォーカス値０．１、０．５、１．０以外のフォーカス値を含んでよい。しかしながらブロックの個数は有限であるため、あらかじめ準備できる割り当てパターンは限られる。そのため割り当て情報記憶部２８に記憶されていないフォーカス値の場合は、その前後のフォーカス値で、割り当て情報記憶部２８に記憶されている直近のフォーカス値の割り当てパターンを補間することによって割り当てパターンを決定する。補間の方法としては、ブロックをさらに分割して割り当てる周波数帯域を調整したり、あるブロックに属する周波数成分の振幅を調整したりする。

次に、ページ情報解析部１６が同時に読み上げる文字列を決定する手順について説明する。図６は、割り当て情報記憶部２８に格納され、ページ情報解析部１６が参照する重要度判定テーブルの例を示している。重要度判定テーブル６０は、重要度欄６２および文字列の種類欄６４を含む。同図において文字列の種類欄６４に記載されてる情報は、ＨＴＭＬなどのマークアップ言語において使用されるタグである。例えば「＜ｔｉｔｌｅ＞」で囲まれた文字列はページの題名、「＜ｅｍ＞」で囲まれた文字列は強調文字であり、重要度欄６２における重要度が「大」に設定されている。「＜ｌｉ＞」で囲まれた文字列はリストの項目であり重要度が「中」に設定されている。「＜ｓｍａｌｌ＞」で囲まれた文字列は小さい文字であり重要度が「小」に設定されている。

このように、タグと重要度とを対応づけた重要度判定テーブル６０を参照することにより、ページ情報解析部１６は、ユーザの指示などに従い重要度が「大」の文字列のみを抽出して読み上げる対象とすることができる。あるいは、重要度が「大」と「中」の文字列を読み上げる対象として抽出し、「大」の文字列はフォーカス値を大きく、「中」の文字列はフォーカス値を小さく設定するように、周波数帯域割り当て部２０に指示を送る。このようにすることで、読み出す対象の文字列を、タグのみでなく重要度によっても抽出することができる。なお当該設定は、あらかじめ一般的な設定を装置製造者が行ってもよいし、ユーザがカスタマイズできるようにしてもよい。

さらに文字列の種類欄６４に設定する文字列の種類は、タグに限定されず、定型文や特定の単語などでもよい。この場合ページ情報解析部１６は、処理対象のＨＴＭＬ文書などに対し形態素解析を行い、該当する文や単語が含まれる所定範囲の文字列を抽出するようにしてもよい。あるいは、ユーザが情報処理装置１０で過去に検索ワードとして入力した文字列のうち、頻度が所定のしきい値より高い文字列は重要度判定テーブル６０の重要度「大」に含めるようにして、ユーザの嗜好を学習するようにしてもよい。

また設定によっては、ページ情報解析部１６は、重要度と関係なく、特定のタグで囲まれた文字列を抽出するようにしてもよい。これまでのように、重要度やタグを利用して読み上げる文字列を抽出し、同時に読み上げるそれぞれの文字列にフォーカス値、定位、遅延時間を設定できるようにすれば、単に逐次的に読み上げる場合と比べ、読み上げる順番や組み合わせのバリエーションが格段に増える。これによってユーザは、様々なバリエーションの中から自分の目的や好みによって最適な態様を選択することができる。図７、図８は、文字列の抽出条件および読み上げの状態に係る設定例を示している。これらのパラメータ設定テーブルは、割り当て情報記憶部２８に格納しておき、ページ情報解析部１６が文字列の抽出、各種パラメータの設定依頼に利用する。このようなパラメータ設定テーブルを複数準備しておき、ユーザが選択するようにしてもよい。

図７のパラメータ設定テーブル７０では、パラメータ欄７２に示すように、「重要度」に基づき文字列を抽出し、「フォーカス値」を変化させている。第１音声欄７４および第２音声欄７６に記載された、同時に聞かせる２つの音声のうち、第１音声は重要度が「大」の文字列の音声であり、フォーカス値は「１．０」とする。第２音声は重要度が「中」の文字列の音声であり、フォーカス値は「０．１」とする。このように設定すると、ページ情報解析部１６はページの上側から重要度が「大」に該当する文字列と「中」に該当する文字列を抽出し、前者は比較的聞き取りやすい声で、後者は控えめな声で、読み上げられた声が同時に聞こえる。

このとき上述のように、異なる周波数帯域のパターンで割り当てがなされているため、重要度「中」の音声はその内容を認識できる程度に聞こえている。するとユーザは、重要度が「大」の文字列の音声を聴きながら、重要度が「中」の文字列の確認を同時にできるため、一度読み飛ばした部分へ確認のために戻る、といった作業をすることなく、重要度が「大」の文字列のみでは把握しきれない全体的なページの概要を把握することができる。

図８のパラメータ設定テーブル８０では、パラメータ欄８２に示すように、「タグ」に基づき文字列を抽出し、「フォーカス値」および「定位」を変化させている。第１音声欄８４および第２音声欄８６に記載された２つの音声のうち、第１音声はタグが「＜ｔｈ＞」の文字列の音声であり、フォーカス値は「１．０」、定位を「左」とする。第２音声はタグが「＜ｔｄ＞」の文字列の音声であり、フォーカス値は「０．３」、定位を「右」とする。このように設定すると、ページ情報解析部１６はページの上側から「＜ｔｈ＞」タグが意味する「表の見出し」に該当する文字列と、「＜ｔｄ＞」タグが意味する「表のデータ」に該当する文字列を抽出し、前者は比較的聞き取りやすい声で左側から、後者は多少控えめな声で右側から、声が同時に聞こえるようになる。

この場合も、定位の違いに加えて周波数帯域をそれぞれに割り当てているため、どちらの内容も認識できる。そしてページに含まれる表の見出しを全て聞いてから、データを確認したい位置まで戻る、といった作業をすることなく、全ての表のデータをおよそ一度で把握することができる。このように第１音声のタグと第２音声のタグに主従関係がある場合、“主”のタグの文字のみ先に進んでしまわないよう、時間割り当て部２３は、“従”のタグに対応する文字列を全て読み終わってから次の“主”のタグに対応する文字列を読むように読み始めの時間を調整してもよい。

次にこれまで述べた構成による動作を説明する。図９は情報処理装置１０がウェブページの情報を複数の音声で読み上げる処理手順を示すフローチャートである。まずユーザが、入力部１２に対し指示入力を行うことにより、ページ情報受信部１４はネットワークを介して所望のウェブサイトからウェブページを取得する（Ｓ１０）。するとページ情報解析部１６は、割り当て情報記憶部２８のパラメータ設定テーブルを参照し、抽出条件を確認したうえ、ウェブページより文字列を抽出する（Ｓ１２）。このとき抽出条件が重要度であった場合は、割り当て情報記憶部２８の重要度判定テーブルを参照してタグと重要度の関係を確認してから文字列を抽出する。

そしてページ情報解析部１６が、パラメータ設定テーブルを参照して各音声を読み上げる状態、すなわち、フォーカス値や定位、遅延時間に係る情報を、周波数帯域割り当て部２０、定位割り当て部２２、および時間割り当て部２３にそれぞれ入力すると、周波数帯域割り当て部２０、定位割り当て部２２、および時間割り当て部２３は、必要な情報を適宜割り当て情報記憶部２８から読み出し、音声処理部２４の対応する機能ブロックに設定を行う（Ｓ１４）。

一方、ページ情報解析部１６から、読み上げる対象の文字列に係る情報を取得した音声変換部１８は、当該文字列をページの上から順に音声信号に変換する（Ｓ１６）。すると音声処理部２４は、Ｓ１４で設定された条件で周波数帯域成分の抽出、定位、時間遅延などの音声処理を適宜行い、各音声信号を合成する（Ｓ１８）。そして出力部３４が合成された音を出力する（Ｓ２０）。

以上述べた本実施の形態によれば、ウェブページなどの文字情報を音声信号として出力する情報処理装置において、あらかじめ設定された条件に合致した複数の文字列を抽出していき、音声信号として並列に出力する。この際、複数の音声信号が聴覚上分離して聞こえるように、互いに異なる周波数帯域のパターンを割り当てる。割り当てる周波数帯域は重複を許してもよいが、重なりのない帯域があるように割り当てる。さらに異なる方向に定位させたり、読み出す時間を異ならせたりすることにより、同時に出力してもどちらの内容も把握できるようにする。このようにすることで、これまで多大な時間を要していた、音声による文字情報の把握が、短時間で可能になる。このとき、抽出する条件を変化させることにより、ページ全体をざっと確認したい場合や所定の部分を細かく確認したい場合などのそれぞれに適した読み上げの状態を実現することができる。

また、文字列抽出に重要度の概念を導入することにより、さらに多様なニーズに即した情報出力を行うことができる。このとき、重要度の大きさによって、割り当てる周波数帯域の総帯域幅を変化させることにより、重要度の大きい情報は聞き取りやすく、小さい情報は控えめに聞かせることができ、文字の大きさなどから受ける重要か否かの印象を、そのまま聴覚で直感的に感じることができる。

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

本実施の形態の情報処理装置の構成を示す図である。本実施の形態における周波数帯域の割り当てについて説明するための図である。本実施の形態における音声処理部の詳細な構成を示す図である。本実施の形態における第１周波数帯域抽出部の詳細な構成を示す図である。本実施の形態においてブロックの割り当て方のパターンを模式的に示す図である。本実施の形態において割り当て情報記憶部に格納される重要度判定テーブルの例を示す図である。本実施の形態において文字列の抽出条件および読み上げの状態に係る設定例を示す図である。本実施の形態において文字列の抽出条件および読み上げの状態に係る設定例を示す図である。本実施の形態にいて情報処理装置がウェブページの情報を複数の音声で読み上げる処理手順を示すフローチャートである。

符号の説明

１０情報処理装置、１２入力部、１４ページ情報受信部、１６ページ情報解析部、１８音声変換部、２０周波数帯域割り当て部、２２定位割り当て部、２３時間割り当て部、２４音声処理部、２６出力部、２８割り当て情報記憶部、３０ａ第１周波数帯域抽出部、３２ａ第１定位設定部、３４ａ第１時間調整部、３６合成部、５０フィルタバンク、５２振幅調整部。

Claims

文字情報から、あらかじめ定めた複数の条件のそれぞれに合致する文字列を抽出して、抽出した文字列の条件ごとの集合を処理単位とすることで、各条件に対応する複数の処理単位を形成する情報解析部と、
前記情報解析部が形成した、各条件に対応する処理単位ごとに、それに含まれる文字列を前記文字情報における出現順に音声信号に変換する音声変換部と、
前記音声変換部が変換した音声信号に対し、処理単位ごとに異なるパターンで周波数帯域を割り当てる周波数帯域割り当て部と、
前記周波数帯域割り当て部が割り当てた周波数帯域のパターンで、前記音声信号から、割り当てた周波数帯域成分を抽出したうえ、複数の処理単位の音声信号が同時に出力されるように合成する音声処理部と、
前記音声処理部が合成した音声信号を音響として出力する出力部と、
を備え、
前記文字情報は、マークアップ言語によって記述され、
前記情報解析部は、タグと、当該タグに囲まれた文字列の重要度と、を対応づけた重要度判定テーブルを参照し、前記条件として定められた重要度に応じて、該当するタグで囲まれた文字列を抽出して前記重要度ごとに処理単位を形成することを特徴とする情報処理装置。
前記複数の条件として定められた複数の重要度のそれぞれに対応づけられたタグが階層構造を有するとき、前記音声変換部が変換した複数の処理単位の音声信号の出力が開始されるタイミングを、文字列を抽出した条件に対応するタグの階層に応じて所定時間ずらす設定を行う時間割り当て部をさらに備え、
前記音声処理部はさらに、前記時間割り当て部が設定した時間分、出力開始タイミングがずれるように前記複数の処理単位の音声信号を合成することを特徴とする請求項１に記載の情報処理装置。
前記複数の条件として定められた複数の重要度のそれぞれに対応づけられたタグが階層構造を有するとき、前記複数の処理単位の音声信号の時間的な相対関係が前記文字情報における文字列の位置関係に対応するように、文字列を抽出した条件に対応するタグの階層に応じて、各処理単位における音声信号の出力間隔を調整する時間割り当て部をさらに備え、
前記音声処理部はさらに、前記時間割り当て部が調整した間隔で前記複数の処理単位の音声信号が出力されるように合成することを特徴とする請求項１に記載の情報処理装置。