JP4785909B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP4785909B2
JP4785909B2 JP2008310224A JP2008310224A JP4785909B2 JP 4785909 B2 JP4785909 B2 JP 4785909B2 JP 2008310224 A JP2008310224 A JP 2008310224A JP 2008310224 A JP2008310224 A JP 2008310224A JP 4785909 B2 JP4785909 B2 JP 4785909B2
Authority
JP
Japan
Prior art keywords
unit
information
frequency band
audio
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008310224A
Other languages
English (en)
Other versions
JP2010134203A (ja
Inventor
真一 本多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Priority to JP2008310224A priority Critical patent/JP4785909B2/ja
Priority to US12/621,576 priority patent/US20100145686A1/en
Publication of JP2010134203A publication Critical patent/JP2010134203A/ja
Application granted granted Critical
Publication of JP4785909B2 publication Critical patent/JP4785909B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

本発明は情報処理技術に関し、特に視覚的に作成された情報を聴覚的な情報に変換する情報処理装置、およびそれに適用される情報処理方法に関する。
全盲者、弱視者など視覚に障害をもつ人がパーソナルコンピュータなどの情報端末を用いてウェブサイトなどにアクセスし情報を取得する場合、表示装置に表示される情報を視覚以外の手段で読み取れるように変換する必要がある。これに対し、表示された文字情報を音声や点字に変換する装置はこれまでにも実現されている(例えば特許文献1参照)。これらの装置では、インターネットなどを経由して表示される情報がHTMLやXMLなどのマークアップ言語で記述されていることを利用して、記述されている文字列を類別する。ユーザが、あるウェブページ内の見出しを全て知りたい、といった場合、<title>タグや<head>タグなどの後に記述されている文字列を抽出し、音声に変換して聞かせる、といった、聞かせる順序に基づく工夫がなされている。
特開2004−226743号公報
ウェブサイト画面などの文字情報を音声情報として出力する場合、常に課題となるのがその効率である。上述のようにタグに基づいて見出しなどを先に読み、絞り込みを行うには、やはり多大な時間を労してしまう。それは、視覚的な情報は一度にざっと見渡すことが可能であるが、聴覚的な情報は全ての文章を順を追って聞いていく必要があるためである。例えタグにより所定の属性を有する文字列を先に読んでも、そこから戻ったり、進んだり、といった作業を繰り返し、ようやく目的の情報にたどり着く、という状況をユーザに強いることになっていた。
本発明はこのような課題に鑑みてなされたものであり、その目的は、高い効率で視覚的な情報を聴覚的に把握することのできる技術を提供することにある。
本発明のある態様は情報処理装置に関する。この情報処理装置は、文字情報から、あらかじめ定めた条件で複数の文字列を抽出する情報解析部と、情報解析部が抽出した複数の文字列をそれぞれの音声信号に変換する音声変換部と、音声変換部が変換した複数の音声信号のそれぞれに対して異なるパターンで周波数帯域を割り当てる周波数帯域割り当て部と、周波数帯域割り当て部が割り当てた周波数帯域のパターンで、複数の音声信号のそれぞれから、割り当てた周波数帯域成分を抽出して合成する音声処理部と、音声処理部が合成した音声信号を音響として出力する出力部と、を備えたことを特徴とする。
ここで「パターン」とは、可聴周波数帯域内で割り当てる帯域と割り当てない帯域の幅および周波数帯のバリエーションをいう。割り当てる領域と割り当てない領域はそれぞれ、可聴周波数帯域内に複数あってもよい。
本発明の別の態様は情報処理方法に関する。この情報処理方法は、文字情報から、あらかじめ定めた条件で複数の文字列を抽出するステップと、複数の文字列をそれぞれの音声信号に変換するステップと、複数の音声信号のそれぞれに対して異なるパターンで周波数帯域を割り当てるステップと、割り当てた周波数帯域のパターンで、複数の音声信号のそれぞれから、割り当てた周波数帯域成分を抽出して合成するステップと、合成した音声信号を音響として出力するステップと、を含むことを特徴とする。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、ウェブページなどの画面を見ることのできないユーザであっても、当該画面が開示する情報のうち、効率的に所望の情報へ到達することができる。
始めに本実施の形態で実現する最終的な出力形態について概説する。本実施の形態の情報処理装置は、ウェブページなどの文字情報を音声信号に変換して出力する(以後、このような処理を「読み上げる」とも呼ぶ)。音声は一般的には複数の流れを同時に認識することが難しいため、従来の音声変換装置では、文字列を順次読み上げていくことが基本であった。その順序をタグなどの情報により入れ替える、といった工夫はなされるが、いずれにしろ逐次音声を聞かなければならず、所望の情報を得るのに大変な時間を要した。
一方、本実施の形態では、複数の音を同時に読み上げることにより、文字情報の内容把握を効率化する。ここで重要となるのが、複数の音声を分離させて聞こえるようにする技術である。詳しくは後に述べるが、複数の音声に異なる周波数帯域を割り当て、割り当てた周波数成分のみをそれぞれ抽出して合成することによって、複数の音声を同時に把握させることが可能となる。あるいは、複数の音声を異なる方向に定位させる。このような手段で複数の音を同時に認識することが可能になると、さらに様々なバリエーションを実現することができる。
例えば同時に読み上げる文字列であっても少しタイミングをずらすことが考えられる。タイミングをずらすことによりさらに分離して聞こえるようになる場合もある。さらに、あるタイミングで大見出しを読み、それが終わらないうちに小見出しを読み始める、といったことにより、大見出し、小見出しの区別をつけることができる。さらに、同時に読む対象を同じタグによって囲まれた文字列か、大見出し、小見出しのように異なる属性の文字列かを変化させることもできる。このようなバリエーションからユーザが選択したタイミング、定位割り当て、周波数帯域割り当てで同時に複数の文字列を読むことにより、従来手法に比べ格段に早くページ全体の内容を把握したり、所望の情報に到達することができる。
図1は本実施の形態の情報処理装置の構成を示している。情報処理装置10は、ユーザからの入力を受け付ける入力部12、接続したネットワークからウェブサイトのページ情報(以下、ウェブページとも呼ぶ)を取得するページ情報受信部14、ページ情報を解析し読み上げる文字列を抽出するページ情報解析部16、読み上げる文字列に周波数帯域、定位、時間をそれぞれ割り当てる周波数帯域割り当て部20、定位割り当て部22、および時間割り当て部23、読み上げる文字列を音声信号に変換する音声変換部18、割り当て結果に基づき各文字列の音声信号に処理を施す音声処理部24、処理を施した音声信号を音響として出力する出力部26、文字列の抽出条件や音声処理に必要な情報を記憶する割り当て情報記憶部28を含む。
図1において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU(Central Processing Unit)、メモリ、その他のLSIで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
なお以下の例では、ネットワークを介してアクセスしたウェブサイトからウェブページを取得し、それに含まれる文字情報を音声信号に変換する、という態様について説明するが、取得する情報はウェブページに限らず、文書ファイルなどマークアップ言語で記述されているデータであれば同様に適用できる。
入力部12は、キーボード、ボタンなどのいずれかまたは組み合わせであり、各種パラメータの設定や、ウェブページの選択などを入力する。一般的な音声変換装置では、ページ内の情報から、読み上げる対象を先に進めたり戻ったり、といったことを行う方向指示キーが備えられている。入力部12も同様の機能を有していてよい。
ページ情報受信部14は、入力部12に対するユーザからの指示により、ネットワークからウェブページを受信する。ページ情報受信部14が行う、ネットワークへの接続、ウェブサイトへのアクセスなどの処理は、一般的な情報処理装置が行っている手順と同じでよい。ページ情報解析部16は、ページ情報受信部14が受信したウェブページを、ユーザが選択するなどして決定した抽出条件に基づき解析する。具体的な例は後に述べるが、基本的にはユーザが設定した条件に合致するタグで囲まれた文字列を抽出し、読み上げる対象とする。ページ情報解析部16はさらに、同時に読み上げる音声信号のそれぞれにどのような音声処理を施すかの情報を取得し、周波数帯域割り当て部20、定位割り当て部22、時間割り当て部23に入力する。
周波数帯域割り当て部20は、同時に読み上げる文字列のそれぞれに対し、割り当てる周波数帯域のパターンを設定する。割り当てる周波数帯域のパターンは割り当て情報記憶部28に複数記憶させておき、ページ情報解析部16から得た情報から各音声に対するパターンを決定する。定位割り当て部22は、ページ情報解析部16から得た情報に基づき、同時に読み上げる文字列を定位させる方向を設定する。時間割り当て部23はページ情報解析部16から得た情報に基づき、読み上げる文字列の相対的なタイミングを設定する。
音声変換部18は、読み上げる文字列を音声信号に変換する。この処理は、従来の音声変換装置と同様であるため、その構成、処理手順も同様でよい。音声処理部24は、周波数帯域割り当て部20、定位割り当て部22、および時間割り当て部23の少なくともいずれかの設定に応じて、音声変換部18が変換した複数の音声信号に音声処理を施し、その結果を合成する。出力部26は、内蔵スピーカや外部に接続したスピーカ、イヤホンなど一般的な電子機器で用いられる音響出力装置で構成してよく、音声処理部24が合成した音声信号を音響として出力する。
次に周波数帯域割り当て部20が行う周波数帯域の割り当てについて説明する。人間は、耳における音の感知と、脳における音の解析との2段階によって音を認識する。人間が異なる音源から同時に発せられた音を聞き分けるには、この2段階のいずれかまたは双方において別の音源であることを表す情報、すなわち分離情報を取得できればよい。例えば右耳と左耳とで異なる音を聴くことは、内耳レベルで分離情報を得たことになり、脳において別の音として解析され認識できる。最初から混合されている音の場合は、音脈や音色の違いなどを、これまでの生活で学習し記憶された分離情報と照らして解析することにより、脳レベルで分離することが可能である。
複数の音を混合して1組のスピーカやイヤホンなどから聴く場合は、本来、内耳レベルでの分離情報が得られないため、上述のように音脈や音色の違いなどを頼りに脳で別の音であることを認識することになるが、そのようにして聞き分けることのできる音は限定的である。そこで、最終的に混合しても分離して認識できる音声信号を生成するために、複数の音源のそれぞれに周波数帯域を割り当て、内耳に働きかけを行う分離情報を音声信号に人工的に付加する。また、各音の音脈を認識する手がかりとして、音声信号を異なる方向に定位させる。
図2は、周波数帯域の割り当てについて説明するための図である。図の横軸は周波数であり周波数f0からf8までを可聴帯域とする。同図では音a、音bの2つの音声信号を混合して聴く場合について示している。本実施の形態では、可聴帯域を複数のブロックに分割し、各ブロックを複数の音声信号の少なくともいずれかに割り当てる。そして各音声信号から、割り当てられたブロックに属する周波数成分のみを抽出する。
図2では、可聴帯域をf1、f2、・・・、f7の周波数で8つのブロックに分割している。そして例えば斜線にて示すように、音aに対し周波数f1〜f2、f3〜f4、f5〜f6、f7〜f8の4つのブロックを、音bに対し周波数f0〜f1、f2〜f3、f4〜f5、f6〜f7の4つのブロックを割り当てる。ここでブロックの境界となる周波数f1、f2、・・・、f7を、例えばBarkの24臨界帯域の境界周波数のいずれかとすることにより、周波数帯域分割の効果をより発揮することができる。
臨界帯域とは、ある周波数帯域を有する音が、それ以上帯域幅を広げても他の音に対するマスキング量が増加しなくなる周波数帯域のことである。ここでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇する現象、すなわち聴きづらくなる現象であり、マスキング量はその最小可聴値の上昇量である。すなわち、異なる臨界帯域にある音どうしは互いにマスキングされにくい。実験によって判明したBarkの24個の臨界帯域を利用して周波数帯域を分割することにより、例えば周波数f1〜f2のブロックに属する音aの周波数成分が、周波数f2〜f3のブロックに属する音bの周波数成分をマスキングするなどの影響を抑えることができる。他のブロックについても同様であり、結果として、音aと音bは互いに打ち消しあうことの少ない音声信号となる。
なお、ブロックへの分割は臨界帯域によらなくてもよい。いずれの場合でも、重複する周波数帯域を少なくすることにより、内耳の周波数分解能を利用して分離情報を与えることができる。また図2に示した例では、各ブロックが同程度の帯域幅を有しているが、実際には周波数帯によって変化させてもよい。例えば臨界帯域2つ分を1つのブロックとする帯域と4つ分を1つのブロックとする帯域があってもよい。ブロックへの分割の仕方は、例えば低域の周波数を有する音はマスキングされにくい、などの一般的な音の特性を考慮して決定してもよい。図2に示した例では、一連のブロックを交互に音a、音bに割り当てたが、連続した2つのブロックを音aに割り当てるなど、割り当て方もこれに限らない。
図3は音声処理部24の詳細な構成を示している。音声処理部24は、第1周波数帯域抽出部30a、第2周波数帯域抽出部30b、第1定位設定部32a、第2定位設定部32b、第1時間調整部34a、第2時間調整部34b、および合成部36を含む。同図は同時に読み上げる文字列の数を2つとした場合の例を示しており、当該2つの文字列を音声変換して生成した2つの音声信号が音声変換部18から入力されている。第1周波数帯域抽出部30a、第1定位設定部32a、第1時間調整部34aは2つの音声信号のうちの一方を順次処理していく。第2周波数帯域抽出部30b、第2定位設定部32b、第2時間調整部34bは他方の音声信号を順次処理していく。
第1周波数帯域抽出部30aおよび第2周波数帯域抽出部30bはそれぞれの音声信号から、それぞれに割り当てた周波数帯域の成分を抽出する。第1周波数帯域抽出部30aおよび第2周波数帯域抽出部30bには、各音声に対して割り当てる周波数帯域のブロックの情報、すなわち割り当てパターンの情報が周波数帯域割り当て部20によって設定される。第1定位設定部32aおよび第2定位設定部32bは、音声信号をそれぞれに割り当てられた方向に定位させる。第1定位設定部32aおよび第2定位設定部32bには、各音声に対して割り当てる定位の方向が、定位割り当て部22によって設定される。第1定位設定部32aおよび第2定位設定部32bは例えばパンポットなどで実現できる。
第1時間調整部34aおよび第2時間調整部34bは音声信号のどちらか一方を他方の読み上げ開始のタイミングから遅延させる。第1時間調整部34aおよび第2時間調整部34bには、遅延時間を考慮した各音声の読み上げ開始のタイミングが時間割り当て部23によって設定される。あるいは遅延する方の調整部に遅延時間が設定される。第1時間調整部34aおよび第2時間調整部34bは例えばタイミング回路、ディレイ回路などで実現できる。
第1時間調整部34aおよび第2時間調整部34bから出力された音声信号は、合成部36において合成され出力される。なお第1周波数帯域抽出部30a、第1定位設定部32a、第1時間調整部34aは、必ずしも全てが動作していなくてもよく、周波数抽出、定位、時間調整のいずれか、あるいはその組み合わせの処理のみでもよい。第2周波数帯域抽出部30b、第2定位設定部32b、第2時間調整部34bも同様である。どの処理を施すかは、読み上げる状態についてあらかじめ設定した情報に含まれており、ページ情報解析部16が取得する。
図4は、第1周波数帯域抽出部30aの詳細な構成を示している。なお第2周波数帯域抽出部30bも同様の構成としてよく、周波数帯域の割り当てパターンを替えることによりそのまま適用できる。第1周波数帯域抽出部30aは、フィルタバンク50および振幅調整部52および合成部54を含む。フィルタバンク50は、入力された音声信号を、図2で示したような周波数帯域のブロック(図2の例では8個のブロック)に分離する。N個のブロックに分離する場合、フィルタバンク50はN個のバンドパスフィルタで構成する。各バンドパスフィルタには、抽出する各ブロックの周波数帯域の情報をあらかじめ設定しておく。
振幅調整部52は、フィルタバンク50の各バンドパスフィルタが出力したブロックごとの音声信号を、あらかじめ設定された振幅にする。すなわち、割り当てられていない周波数帯域のブロックについては振幅を0とし、割り当てられている周波数帯域のブロックをそのままの振幅にする。合成部54は、振幅調整が施された各ブロックの音声信号を合成して出力する。このような構成により、各音声信号のそれぞれに割り当てられた周波数帯域成分のみを抽出した音声信号を取得することができる。周波数帯域割り当て部20は、割り当てパターンに応じて、N個のブロックに対しNビットの選択/非選択の情報を入力し、振幅調整部52のN個の振幅調整回路のそれぞれは、対応するビットの情報を参照し、非選択の振幅調性回路が振幅を0にする調整を行えばよい。
次に周波数帯域割り当て部20が行う、周波数帯域の割り当て方について説明する。図2では複数の音声信号を分離して認識させる手法を説明するため、「音a」と「音b」とでほぼ均等に周波数帯域のブロックの割り当てを行った。一方、ブロックを割り当てる数に大小をつけることにより、同時に聴かせる音のそれぞれの聞こえ方をさらに調整することができる。図5はブロックの割り当てパターンの例を模式的に示している。
同図は、可聴帯域を7個のブロックに分割した場合について示している。図2と同様、横軸に周波数をとり、説明の便宜上、低域側のブロックからブロック1、ブロック2、・・・、ブロック7とする。まず「パターン群A」と記載された上から3つの割り当てパターンに着目する。これらのパターンのうち、最上段のパターンは最も割り当てられるブロックの数が大きいため、最も聞こえやすい。下の段に行くほど割り当てる数が減少するため、音の聞こえやすさが減少していく。ここで、割り当てるブロック数で決定される聞こえやすさの度合いを「フォーカス値」と呼ぶ。同図では、各割り当てパターンの左側に、フォーカス値として与えられる数値が例示されている。
ある音声信号の聞こえやすさの度合いを最高とする場合、すなわち他の音声信号と比較し最も聞き取り易くする場合、フォーカス値が1.0の割り当てパターンを当該音声信号に適用する。同図の「パターン群A」では、ブロック2、ブロック3、ブロック5、およびブロック6の4つのブロックが同じ音声信号に割り当てられる。
ここで同じ音声信号の聞こえやすさの度合いを少し低下させる場合、割り当てパターンを例えばフォーカス値が0.5の割り当てパターンに変更する。同図の「パターン群A」では、ブロック1、ブロック2、ブロック3の3つのブロックが割り当てられる。同様に同じ音声信号の聞こえやすさの度合いを最低としたい場合、すなわち聞き取れる範囲で最も目立たなくする場合は、割り当てパターンを、フォーカス値が0.1の割り当てパターンに変更する。同図の「パターン群A」では、ブロック1の1つのブロックが割り当てられる。本実施の形態では後に述べるように、読み上げる文字列の種類によって重要度を設定し、重要度の異なる音声信号を同時に読み上げる場合は、フォーカス値の値を異ならせる。
同図に示すとおり、強調の度合いが最高である、フォーカス値が1.0の音声信号に対しても、全てのブロックを割り当ててしまわないようにすることが望ましい。同図ではブロック1、ブロック4、およびブロック7が割り当てられていない。これは、例えばブロック1をフォーカス1.0の音声信号にも割り当ててしまうと、ブロック1のみを割り当てられたフォーカス値0.1の別の音声信号の周波数成分をマスキングしてしまう可能性があるためである。本実施の形態では、複数の音声信号を分離して聴かせつつ、フォーカス値が低くても聞き取りが可能となることが望ましい。そのため、フォーカス値が低い音声信号に割り当てられたブロックは、フォーカス値が高い音声信号には割り当てないようにする。
以上の説明は「パターン群A」に着目して行ったが、「パターン群B」、「パターン群C」のように、同じフォーカス値でも様々な割り当てパターンが存在する。従って、同じフォーカス値の設定であっても、別のパターン群を選択することにより、音声が互いに打ち消し合うのを防ぐことができる。周波数帯域割り当て部20は、同時に聞かせる音声信号に同じフォーカス値を設定する旨の指示をページ情報解析部16から受けたら、割り当て情報記憶部28に格納した複数のパターン群から、それぞれ別のパターン群を選択したうえで、割り当てパターンを決定する。
割り当て情報記憶部28に記憶させておく割り当てパターンは、フォーカス値0.1、0.5、1.0以外のフォーカス値を含んでよい。しかしながらブロックの個数は有限であるため、あらかじめ準備できる割り当てパターンは限られる。そのため割り当て情報記憶部28に記憶されていないフォーカス値の場合は、その前後のフォーカス値で、割り当て情報記憶部28に記憶されている直近のフォーカス値の割り当てパターンを補間することによって割り当てパターンを決定する。補間の方法としては、ブロックをさらに分割して割り当てる周波数帯域を調整したり、あるブロックに属する周波数成分の振幅を調整したりする。
次に、ページ情報解析部16が同時に読み上げる文字列を決定する手順について説明する。図6は、割り当て情報記憶部28に格納され、ページ情報解析部16が参照する重要度判定テーブルの例を示している。重要度判定テーブル60は、重要度欄62および文字列の種類欄64を含む。同図において文字列の種類欄64に記載されてる情報は、HTMLなどのマークアップ言語において使用されるタグである。例えば「<title>」で囲まれた文字列はページの題名、「<em>」で囲まれた文字列は強調文字であり、重要度欄62における重要度が「大」に設定されている。「<li>」で囲まれた文字列はリストの項目であり重要度が「中」に設定されている。「<small>」で囲まれた文字列は小さい文字であり重要度が「小」に設定されている。
このように、タグと重要度とを対応づけた重要度判定テーブル60を参照することにより、ページ情報解析部16は、ユーザの指示などに従い重要度が「大」の文字列のみを抽出して読み上げる対象とすることができる。あるいは、重要度が「大」と「中」の文字列を読み上げる対象として抽出し、「大」の文字列はフォーカス値を大きく、「中」の文字列はフォーカス値を小さく設定するように、周波数帯域割り当て部20に指示を送る。このようにすることで、読み出す対象の文字列を、タグのみでなく重要度によっても抽出することができる。なお当該設定は、あらかじめ一般的な設定を装置製造者が行ってもよいし、ユーザがカスタマイズできるようにしてもよい。
さらに文字列の種類欄64に設定する文字列の種類は、タグに限定されず、定型文や特定の単語などでもよい。この場合ページ情報解析部16は、処理対象のHTML文書などに対し形態素解析を行い、該当する文や単語が含まれる所定範囲の文字列を抽出するようにしてもよい。あるいは、ユーザが情報処理装置10で過去に検索ワードとして入力した文字列のうち、頻度が所定のしきい値より高い文字列は重要度判定テーブル60の重要度「大」に含めるようにして、ユーザの嗜好を学習するようにしてもよい。
また設定によっては、ページ情報解析部16は、重要度と関係なく、特定のタグで囲まれた文字列を抽出するようにしてもよい。これまでのように、重要度やタグを利用して読み上げる文字列を抽出し、同時に読み上げるそれぞれの文字列にフォーカス値、定位、遅延時間を設定できるようにすれば、単に逐次的に読み上げる場合と比べ、読み上げる順番や組み合わせのバリエーションが格段に増える。これによってユーザは、様々なバリエーションの中から自分の目的や好みによって最適な態様を選択することができる。図7、図8は、文字列の抽出条件および読み上げの状態に係る設定例を示している。これらのパラメータ設定テーブルは、割り当て情報記憶部28に格納しておき、ページ情報解析部16が文字列の抽出、各種パラメータの設定依頼に利用する。このようなパラメータ設定テーブルを複数準備しておき、ユーザが選択するようにしてもよい。
図7のパラメータ設定テーブル70では、パラメータ欄72に示すように、「重要度」に基づき文字列を抽出し、「フォーカス値」を変化させている。第1音声欄74および第2音声欄76に記載された、同時に聞かせる2つの音声のうち、第1音声は重要度が「大」の文字列の音声であり、フォーカス値は「1.0」とする。第2音声は重要度が「中」の文字列の音声であり、フォーカス値は「0.1」とする。このように設定すると、ページ情報解析部16はページの上側から重要度が「大」に該当する文字列と「中」に該当する文字列を抽出し、前者は比較的聞き取りやすい声で、後者は控えめな声で、読み上げられた声が同時に聞こえる。
このとき上述のように、異なる周波数帯域のパターンで割り当てがなされているため、重要度「中」の音声はその内容を認識できる程度に聞こえている。するとユーザは、重要度が「大」の文字列の音声を聴きながら、重要度が「中」の文字列の確認を同時にできるため、一度読み飛ばした部分へ確認のために戻る、といった作業をすることなく、重要度が「大」の文字列のみでは把握しきれない全体的なページの概要を把握することができる。
図8のパラメータ設定テーブル80では、パラメータ欄82に示すように、「タグ」に基づき文字列を抽出し、「フォーカス値」および「定位」を変化させている。第1音声欄84および第2音声欄86に記載された2つの音声のうち、第1音声はタグが「<th>」の文字列の音声であり、フォーカス値は「1.0」、定位を「左」とする。第2音声はタグが「<td>」の文字列の音声であり、フォーカス値は「0.3」、定位を「右」とする。このように設定すると、ページ情報解析部16はページの上側から「<th>」タグが意味する「表の見出し」に該当する文字列と、「<td>」タグが意味する「表のデータ」に該当する文字列を抽出し、前者は比較的聞き取りやすい声で左側から、後者は多少控えめな声で右側から、声が同時に聞こえるようになる。
この場合も、定位の違いに加えて周波数帯域をそれぞれに割り当てているため、どちらの内容も認識できる。そしてページに含まれる表の見出しを全て聞いてから、データを確認したい位置まで戻る、といった作業をすることなく、全ての表のデータをおよそ一度で把握することができる。このように第1音声のタグと第2音声のタグに主従関係がある場合、“主”のタグの文字のみ先に進んでしまわないよう、時間割り当て部23は、“従”のタグに対応する文字列を全て読み終わってから次の“主”のタグに対応する文字列を読むように読み始めの時間を調整してもよい。
次にこれまで述べた構成による動作を説明する。図9は情報処理装置10がウェブページの情報を複数の音声で読み上げる処理手順を示すフローチャートである。まずユーザが、入力部12に対し指示入力を行うことにより、ページ情報受信部14はネットワークを介して所望のウェブサイトからウェブページを取得する(S10)。するとページ情報解析部16は、割り当て情報記憶部28のパラメータ設定テーブルを参照し、抽出条件を確認したうえ、ウェブページより文字列を抽出する(S12)。このとき抽出条件が重要度であった場合は、割り当て情報記憶部28の重要度判定テーブルを参照してタグと重要度の関係を確認してから文字列を抽出する。
そしてページ情報解析部16が、パラメータ設定テーブルを参照して各音声を読み上げる状態、すなわち、フォーカス値や定位、遅延時間に係る情報を、周波数帯域割り当て部20、定位割り当て部22、および時間割り当て部23にそれぞれ入力すると、周波数帯域割り当て部20、定位割り当て部22、および時間割り当て部23は、必要な情報を適宜割り当て情報記憶部28から読み出し、音声処理部24の対応する機能ブロックに設定を行う(S14)。
一方、ページ情報解析部16から、読み上げる対象の文字列に係る情報を取得した音声変換部18は、当該文字列をページの上から順に音声信号に変換する(S16)。すると音声処理部24は、S14で設定された条件で周波数帯域成分の抽出、定位、時間遅延などの音声処理を適宜行い、各音声信号を合成する(S18)。そして出力部34が合成された音を出力する(S20)。
以上述べた本実施の形態によれば、ウェブページなどの文字情報を音声信号として出力する情報処理装置において、あらかじめ設定された条件に合致した複数の文字列を抽出していき、音声信号として並列に出力する。この際、複数の音声信号が聴覚上分離して聞こえるように、互いに異なる周波数帯域のパターンを割り当てる。割り当てる周波数帯域は重複を許してもよいが、重なりのない帯域があるように割り当てる。さらに異なる方向に定位させたり、読み出す時間を異ならせたりすることにより、同時に出力してもどちらの内容も把握できるようにする。このようにすることで、これまで多大な時間を要していた、音声による文字情報の把握が、短時間で可能になる。このとき、抽出する条件を変化させることにより、ページ全体をざっと確認したい場合や所定の部分を細かく確認したい場合などのそれぞれに適した読み上げの状態を実現することができる。
また、文字列抽出に重要度の概念を導入することにより、さらに多様なニーズに即した情報出力を行うことができる。このとき、重要度の大きさによって、割り当てる周波数帯域の総帯域幅を変化させることにより、重要度の大きい情報は聞き取りやすく、小さい情報は控えめに聞かせることができ、文字の大きさなどから受ける重要か否かの印象を、そのまま聴覚で直感的に感じることができる。
以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
本実施の形態の情報処理装置の構成を示す図である。 本実施の形態における周波数帯域の割り当てについて説明するための図である。 本実施の形態における音声処理部の詳細な構成を示す図である。 本実施の形態における第1周波数帯域抽出部の詳細な構成を示す図である。 本実施の形態においてブロックの割り当て方のパターンを模式的に示す図である。 本実施の形態において割り当て情報記憶部に格納される重要度判定テーブルの例を示す図である。 本実施の形態において文字列の抽出条件および読み上げの状態に係る設定例を示す図である。 本実施の形態において文字列の抽出条件および読み上げの状態に係る設定例を示す図である。 本実施の形態にいて情報処理装置がウェブページの情報を複数の音声で読み上げる処理手順を示すフローチャートである。
符号の説明
10 情報処理装置、 12 入力部、 14 ページ情報受信部、 16 ページ情報解析部、 18 音声変換部、 20 周波数帯域割り当て部、 22 定位割り当て部、 23 時間割り当て部、 24 音声処理部、 26 出力部、 28 割り当て情報記憶部、 30a 第1周波数帯域抽出部、 32a 第1定位設定部、 34a 第1時間調整部、 36 合成部、 50 フィルタバンク、 52 振幅調整部。

Claims (3)

  1. 文字情報から、あらかじめ定めた複数の条件のそれぞれに合致する文字列を抽出して、抽出した文字列の条件ごとの集合を処理単位とすることで、各条件に対応する複数の処理単位を形成する情報解析部と、
    前記情報解析部が形成した、各条件に対応する処理単位ごとに、それに含まれる文字列を前記文字情報における出現順に音声信号に変換する音声変換部と、
    前記音声変換部が変換した音声信号に対し、処理単位ごとに異なるパターンで周波数帯域を割り当てる周波数帯域割り当て部と、
    前記周波数帯域割り当て部が割り当てた周波数帯域のパターンで、前記音声信号から、割り当てた周波数帯域成分を抽出したうえ、複数の処理単位の音声信号が同時に出力されるように合成する音声処理部と、
    前記音声処理部が合成した音声信号を音響として出力する出力部と、
    を備え、
    前記文字情報は、マークアップ言語によって記述され、
    前記情報解析部は、タグと、当該タグに囲まれた文字列の重要度と、を対応づけた重要度判定テーブルを参照し、前記条件として定められた重要度に応じて、該当するタグで囲まれた文字列を抽出して前記重要度ごとに処理単位を形成することを特徴とする情報処理装置。
  2. 前記複数の条件として定められた複数の重要度のそれぞれに対応づけられたタグが階層構造を有するとき、前記音声変換部が変換した複数の処理単位の音声信号の出力が開始されるタイミングを、文字列を抽出した条件に対応するタグの階層に応じて所定時間ずらす設定を行う時間割り当て部をさらに備え、
    前記音声処理部はさらに、前記時間割り当て部が設定した時間分、出力開始タイミングがずれるように前記複数の処理単位の音声信号を合成することを特徴とする請求項1に記載の情報処理装置。
  3. 前記複数の条件として定められた複数の重要度のそれぞれに対応づけられたタグが階層構造を有するとき、前記複数の処理単位の音声信号の時間的な相対関係が前記文字情報における文字列の位置関係に対応するように、文字列を抽出した条件に対応するタグの階層に応じて、各処理単位における音声信号の出力間隔を調整する時間割り当て部をさらに備え、
    前記音声処理部はさらに、前記時間割り当て部が調整した間隔で前記複数の処理単位の音声信号が出力されるように合成することを特徴とする請求項1に記載の情報処理装置。
JP2008310224A 2008-12-04 2008-12-04 情報処理装置 Expired - Fee Related JP4785909B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008310224A JP4785909B2 (ja) 2008-12-04 2008-12-04 情報処理装置
US12/621,576 US20100145686A1 (en) 2008-12-04 2009-11-19 Information processing apparatus converting visually-generated information into aural information, and information processing method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008310224A JP4785909B2 (ja) 2008-12-04 2008-12-04 情報処理装置

Publications (2)

Publication Number Publication Date
JP2010134203A JP2010134203A (ja) 2010-06-17
JP4785909B2 true JP4785909B2 (ja) 2011-10-05

Family

ID=42232063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008310224A Expired - Fee Related JP4785909B2 (ja) 2008-12-04 2008-12-04 情報処理装置

Country Status (2)

Country Link
US (1) US20100145686A1 (ja)
JP (1) JP4785909B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102487461A (zh) * 2010-12-02 2012-06-06 康佳集团股份有限公司 在网络电视上实现网页朗读的方法及其装置
JP2016191791A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN105975469A (zh) * 2015-12-01 2016-09-28 乐视致新电子科技(天津)有限公司 一种浏览器的网页浏览方法和装置
JP7468111B2 (ja) 2020-04-17 2024-04-16 ヤマハ株式会社 再生制御方法、制御システムおよびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225255A (ja) * 1992-02-10 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 最大量規定型情報編集装置
JPH0916190A (ja) * 1995-06-26 1997-01-17 Matsushita Electric Ind Co Ltd 文章読上装置
JPH09325796A (ja) * 1996-06-06 1997-12-16 Oki Electric Ind Co Ltd 文書朗読装置
JP3309735B2 (ja) * 1996-10-24 2002-07-29 三菱電機株式会社 音声マンマシンインタフェース装置
US6018710A (en) * 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
JP3668583B2 (ja) * 1997-03-12 2005-07-06 株式会社東芝 音声合成装置及びその方法
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
JP3460964B2 (ja) * 1999-02-10 2003-10-27 日本電信電話株式会社 マルチメディア情報閲覧システムにおける音声読み上げ方法および記録媒体
JP2001014306A (ja) * 1999-06-30 2001-01-19 Sony Corp 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP3673471B2 (ja) * 2000-12-28 2005-07-20 シャープ株式会社 テキスト音声合成装置およびプログラム記録媒体
JP2002229985A (ja) * 2001-02-06 2002-08-16 Ricoh Co Ltd 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
JP4038211B2 (ja) * 2003-01-20 2008-01-23 富士通株式会社 音声合成装置,音声合成方法および音声合成システム
US7672436B1 (en) * 2004-01-23 2010-03-02 Sprint Spectrum L.P. Voice rendering of E-mail with tags for improved user experience
WO2006070566A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. 音声合成方法および情報提供装置
JP4823030B2 (ja) * 2006-11-27 2011-11-24 株式会社ソニー・コンピュータエンタテインメント 音声処理装置および音声処理方法

Also Published As

Publication number Publication date
US20100145686A1 (en) 2010-06-10
JP2010134203A (ja) 2010-06-17

Similar Documents

Publication Publication Date Title
JP4823030B2 (ja) 音声処理装置および音声処理方法
US9786201B2 (en) Wearable sound
CN106898340B (zh) 一种歌曲的合成方法及终端
Bendixen et al. Regular patterns stabilize auditory streams
EP3522151A1 (en) Method and device for processing dual-source audio data
US9390703B2 (en) Masking sound generating apparatus, storage medium stored with masking sound signal, masking sound reproducing apparatus, and program
Liu Just noticeable difference of tone pitch contour change for English-and Chinese-native listeners
US20150332659A1 (en) Sound vest
JP4785909B2 (ja) 情報処理装置
JP2008135891A (ja) 音声処理装置および音声処理方法
JPWO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
Summers et al. Informational masking of speech by acoustically similar intelligible and unintelligible interferers
JP2005203981A (ja) 音響信号処理装置および音響信号処理方法
Lin et al. Effects of language experience and expectations on attention to consonants and tones in English and Mandarin Chinese
US20140358528A1 (en) Electronic Apparatus, Method for Outputting Data, and Computer Program Product
JP4756560B2 (ja) 情報処理装置および情報処理方法
Marui et al. Timbre of nonlinear distortion effects: Perceptual attributes beyond sharpness
Roberts et al. Informational masking of monaural target speech by a single contralateral formant
CN113409761A (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
KR100812770B1 (ko) 화이트 노이즈를 이용한 배속 나레이션 음성신호 제공 방법및 장치
JP2010175717A (ja) 音声合成装置
JP6438200B2 (ja) 音声合成装置および制御プログラム
JP2009025328A (ja) 音声合成装置
CN110648686B (zh) 调整语音频率的方法及其声音播放装置
Marentakis et al. Top-down influences in the detection of spatial displacement in a musical scene

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101119

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20101125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110106

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140722

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees