JP6277958B2 - 再生装置、設定装置、再生方法およびプログラム - Google Patents

再生装置、設定装置、再生方法およびプログラム Download PDF

Info

Publication number
JP6277958B2
JP6277958B2 JP2014544412A JP2014544412A JP6277958B2 JP 6277958 B2 JP6277958 B2 JP 6277958B2 JP 2014544412 A JP2014544412 A JP 2014544412A JP 2014544412 A JP2014544412 A JP 2014544412A JP 6277958 B2 JP6277958 B2 JP 6277958B2
Authority
JP
Japan
Prior art keywords
unit
language data
playback
speed
reproduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014544412A
Other languages
English (en)
Other versions
JPWO2014069220A1 (ja
Inventor
謙一 北谷
謙一 北谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014069220A1 publication Critical patent/JPWO2014069220A1/ja
Application granted granted Critical
Publication of JP6277958B2 publication Critical patent/JP6277958B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/58Details of telephonic subscriber devices including a multilanguage function

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Description

本発明は、聴覚的言語データを再生する再生装置、再生速度が制御される部分を設定する設定装置、再生方法およびプログラムに関する。
情報媒体として、書籍や新聞やウェブ画面など、文字や図や写真など視覚的な情報伝達手段を用いた視覚情報媒体(情報を視覚的に提供する情報媒体)が多数存在する。
視覚情報媒体を閲覧する場合、ユーザ(情報媒体の利用者)は、二次元に配置されている情報の取捨選択を行うことができる。このため、ユーザは、比較的短時間のうちに所望の情報を把握し得る。例えば、ユーザは、新聞の紙面を見渡して所望の記事を選択し、選択した記事のみを詳細に読むことができる。
例えば歩行中や自動車の運転中の場合、周囲の状況を確認するために視覚を用いる必要がある。このため、視覚的情報媒体を注視することができない、あるいは、視覚的情報媒体を注視すべきでない。このように、視覚的情報媒体の利用が適当でない場合がある。
視覚的情報媒体の利用が適当でない場合、ユーザがオーディオプレーヤ(Audio Player)などの聴覚情報媒体(情報を聴覚的に提供する情報媒体)を利用して情報を把握することが考えられる。特に、聴覚情報媒体が発話を含む音を出力することで、多くの情報をユーザに提供し得る。ここでいう発話とは、言語としての音である。
情報の聴覚的な提供に関連して幾つかの技術が提案されている。
例えば、特許文献1では、通常の音声の再生に比べてゆっくり感が高い音声の再生を目的として、音声及び非音声の出力時間長を伸張するための技術が示されている。
特許文献2では、音声データの再生時に、音声データの再生条件を、単位音声データ(単語等)毎に変更するための技術が示されている。
日本国特開2009−075280号公報 日本国特開2007−219141号公報
文字や図や写真などの視覚的な表示と異なり、音の出力は、時系列にて行われる。従って、聴覚情報媒体が情報を提供する際、ある程度の時間が必要となる。
例えば、オーディオプレーヤが再生する音データは、一般的には再生速度が定められている。この再生速度に従ってオーディオプレーヤが音データを最初から最後まで再生する場合、その音データの再生時間として規定される所定時間が必要となる。オーディオプレーヤが再生速度を速めれば、音データの再生に要する時間は短くなる。しかしながら、ユーザが情報を把握可能な再生速度には限度がある。特に、再生音に発話が含まれる場合、再生速度が速すぎると、ユーザは、発話を言語として聴き取れなくなってしまう。
このように、音の出力が時系列にて行われることに起因して、ユーザが、聴覚的情報媒体の提供する情報の概要を把握して、情報の取捨選択を行う際にも時間が必要となる。
一例として、ユーザが、内容を未知の音データ(例えばユーザが初めて聴く音データ)から情報を把握したい場合について説明する。この場合、所望の情報を含む箇所を検出するため、または、そもそも所望の情報を含むか否かを判断するために、音データを最初から最後まで、情報を把握しながら聴くことが考えられる。その際、上記のように、ユーザが情報を把握可能な再生速度には限度がある。このため、データを聴くのに要する時間の短縮には限度がある。ここでいう音データの内容とは、音データの示す情報である。
特許文献1に示される技術は、例えば音声の再生速度を速めた際に、ゆっくり感が高い音声を再生するための技術である。すなわち、特許文献1に示される技術は、再生に要する時間を変化させるための技術ではない。この点において、特許文献1に示される技術では、ユーザが、聴覚的情報媒体の提供する情報の概要をより短い時間で把握して、情報の取捨選択を行うことはできない。
特許文献2に示される技術では、音声データの再生速度を変更するために、単位音声データ毎(例えば単語毎)に予め制御データを設定しておく、あるいは、予め単語帳に単語を登録しておく必要がある。かかる制御データの設定や単語の登録を行うためには、ユーザが、音声データの内容を予め把握しておく必要がある。従って、特許文献2に示される技術では、ユーザが、聴覚的情報媒体の提供する情報の概要をより短い時間で把握して情報の取捨選択を行うことはできない。
本発明の目的の一例は、上述の課題を解決することのできる再生装置、設定装置、再生方法およびプログラムを提供することである。
本発明の実施態様に係る再生装置は、発話音声として再生されるデータを含む聴覚的言語データを取得する取得部と、前記聴覚的言語データを解析して、解析結果を出力する解析部と、前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定する設定部と、前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する音声再生部と、を具備する。
本発明の実施態様に係る設定装置は、発話音声として再生されるデータを含む聴覚的言語データを取得する取得部と、前記聴覚的言語データを解析して、解析結果を出力する解析部と、前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定する設定部と、を具備し、前記制御部分以外の部分は前記制御部分よりも大きい音量で再生される部分とされる
本発明の実施態様に係る再生方法は、発話音声として再生されるデータを含む聴覚的言語データを取得し、前記聴覚的言語データを解析して、解析結果を出力し、前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定し、前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する、ことを含む。
本発明の実施態様に係るプログラムは、コンピュータに、発話音声として再生されるデータを含む聴覚的言語データを取得し、前記聴覚的言語データを解析して、解析結果を出力し、前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定し、前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生することを実行させる。
本発明の実施形態によれば、ユーザが、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
本発明の実施形態における聴覚的言語データ再生装置の機能構成を示す概略ブロック図である。 本発明の実施形態において、音声再生部がユーザ操作に基づいて再生速度を変化させる例を示す説明図である。 本発明の実施形態において、音声再生部が再生速度制御部分の設定に応じて再生速度を変化させる例を示す説明図である。 本発明の実施形態における、聴覚的言語データの種類毎の、再生速度制御部分の設定規則の例を示す説明図である。 本発明の実施形態における、聴覚的言語データの種類毎の、再生速度制御部分の設定規則の例を示す説明図である。 本発明の実施形態における、聴覚的言語データの種類毎の、再生速度制御部分の設定規則の例を示す説明図である。 本発明の実施形態において、聴覚的言語データ再生装置が聴覚的言語データに再生速度制御部分を設定して再生する際の処理手順を示すフローチャートである。 本発明の別の実施形態における聴覚的言語データ再生装置の主要部分を示す概略ブロック図である。 本発明のさらに別の実施形態における再生速度制御部分設定装置の機能構成を示す概略ブロック図である。
以下、図面を参照して、本発明の実施の形態について説明する。図1は、本発明の実施形態における聴覚的言語データ再生装置の機能構成を示す概略ブロック図である。図1において、聴覚的言語データ再生装置(以下、単に「再生装置」とも称する)100は、通信部110と、聴覚的言語データ取得部(以下、単に「取得部」とも称する)120と、表示部130と、音声再生部140と、操作入力部150と、制御部190とを具備する。取得部120は、記憶デバイス121を具備する。制御部190は、通信制御部191と、解析部192と、表示制御部193と、再生速度制御部分設定部(以下、単に「設定部」とも称する)194と、ユーザ指示検出部(以下、単に「検出部」とも称する)195と、アプリケーション実行部196とを具備する。
再生装置100は、聴覚的言語データを再生して発話音声を出力する。聴覚的言語データとは、発話音声として再生可能なデータである。聴覚的言語データは、発話音声を示す音データや、テキストデータまたはワープロ(Word Processor)データなどの文章データを含んでもよい。ここでいう発話音声とは、言語の聴覚的な表現としての音である。再生装置100が出力する発話音声は、人間の発した音声を録音した音声であってもよいし、合成音声であってもよい。
再生装置100のユーザ(以下、単に「ユーザ」と称する)は、再生装置100が出力する発話音声を聴くことで情報を取得できる。
以下では、再生装置100が携帯端末装置(携帯電話機またはスマートフォン)である場合を例に説明する。しかしながら、本発明の適用範囲は携帯端末装置に限らない。再生装置100は、聴覚的言語データを再生可能な、オーディオプレーヤや、ゲーム機や、パソコン(Personal Computer;PC)や、携帯情報端末(Personal Digital Assistants;PDA)であてもよい。
通信部110は、携帯電話網(通信事業者が携帯端末装置向けに提供する通信ネットワーク)に接続して通信を行う。
取得部120は、聴覚的言語データを取得する。具体的には、取得部120の具備する記憶デバイス121が、聴覚的言語データを記憶している。取得部120は、記憶デバイス121から聴覚的言語データを読み出すことでその聴覚的言語データを取得する。
取得部120が聴覚的言語データを取得する方法は、記憶デバイス121から聴覚的言語データを読み出す方法に限らない。この方法としては、再生速度可変に聴覚的言語データを取得する様々な方法を用いることができる。例えば、取得部120が、外部記憶装置に接続してその外部記憶装置から聴覚的言語データを読み出してもよい。
音声再生部140は、スピーカを有し、音を出力する。特に、音声再生部140は、設定部194の設定に従って聴覚的言語データを再生して発話音声を出力する。設定部194が聴覚的言語データに再生速度制御部分(以下、単に「制御部分」とも称する)を設定する。この制御部分とは、再生速度に関する所定の制御規則に従って再生すべき部分を示す。
音声再生部140は、聴覚的言語データを再生する際、制御部分に設定されている部分を、再生速度に関する所定の制御規則に従って再生する。音声再生部140は、聴覚的言語データのうち制御部分に設定されていない部分を、ユーザ指示に応じた再生速度で再生する。
再生速度に関する所定の制御規則として、様々な制御規則を適用することができる。例えば、制御部分に適用される制御規則は、所定の再生速度で再生するという規則あってもよいし、ユーザの指示する再生速度の半分の再生速度で再生すべきという規則であってもよい。
図2および図3を参照して、音声再生部140が聴覚的言語データを再生する再生速度について説明する。
図2は、音声再生部140がユーザ操作に基づいて再生速度を変化させる例を示す説明図である。図2は、制御部分が設定されていない場合の例を示している。
図2の(A)部は、聴覚的言語データの再生速度の設定例を示す。図2の(A)部において、聴覚的言語データは単位A〜Fに分割されている。各単位に対して再生速度が設定されている。
ここでいう単位とは、聴覚的言語データを言語的な意味に基づいて分割した一纏まりである。単位として、単語、文節、文、または段落といった、様々なレベルにおける言葉の単位を用いることができる。単位として、2文を1単位とする、または、聴覚的言語データを一定時間毎に分割して単位とするなど、言葉の単位以外の単位を用いるようにしてもよい。
ここで設定されている再生速度は、標準となる再生速度を示している。音声再生部140は、標準速度での再生(以下、「標準再生」と称する)を指示された際に、この標準となる再生速度にて再生を行う。図2の例では、初期の設定として、単位A〜Fのいずれにも同一の再生速度が設定されている。符号Hから単位A〜F各々への線は、再生速度が、単位ごとに設定されることを示している。
聴覚的言語データの再生速度の設定方法は、図2の(A)部に示すように単位毎に設定を行う方法に限らない。音声再生部140が、聴覚的言語データを標準再生する際の再生速度を取得可能な様々な方法を、聴覚的言語データの再生速度の設定方法として用いることができる。例えば、聴覚的言語データが音データの場合、その音データの規格にて聴覚的言語データ全体の再生速度が示されていてもよい。聴覚的言語データが文章データの場合、音声再生部140が実行する文章データを読み上げる機能において、各文書データに共通の標準読み上げ速度が設定されていてもよい。
図2の(B)部は、聴覚的言語データを再生する際の再生速度の例を示す。図2の(B)部において、各単位はユーザ操作に応じた再生速度で再生されている。ユーザ操作の例には、「ちゃんと聴く」および「聞き流す」が含まれる。「ちゃんと聴く」は、標準再生を指示するユーザ操作である。また、「聞き流す」は、高速再生を指示するユーザ操作である。ここでいう高速再生は、例えば標準となる再生速度の3倍など、標準再生時よりも高速な所定の再生速度での再生を指示するユーザ操作である。図2の(B)部において、符号J1およびJ3は、ユーザが単位A、B、E、Fに「聞き流す」を設定していることを示している。符号J2は、再生中の設定変更により、ユーザが単位CおよびDに「ちゃんと聴く」が設定していることを示している。 図2の(B)部において、符号I1は、単位AおよびBに、高速再生(音声小)が設定されていることを示している。符号I2は、再生中の設定変更により、単位CおよびDに、標準再生(音声大)が設定されていることを示している。符号I3は、単位EおよびFに、高速再生(音声小)が設定されていることを示している。
ユーザは、「聞き流す」のユーザ操作にて高速再生を選択することで、より短時間で聴覚的言語データ全体を再生装置100に再生させて、所望の情報を含む箇所を検出し得る。所望の情報を含む箇所を検出したユーザは、該当箇所を再生装置100に標準再生させることで、所望の情報を取得し得る。
図2の例の場合、ユーザは、聴覚的言語データを先頭の単位Aから順に再生装置100に高速再生させている。単位Cを再生した発話音声を聴いたユーザは、単位Cが所望の情報を含む箇所であることを認識して再生装置100に標準再生を指示する。図2の例においてユーザは、再生装置100に単位Cおよび単位Dを標準再生するように指示しており、これらの単位から情報を取得できる。
音声再生部140は、再生速度を低下させるユーザ指示を検出部195が検出すると、現在の再生位置から再生位置を巻き戻して、低下させた再生速度にて、巻き戻した位置から聴覚的言語データの再生を開始する。より具体的には、音声再生部140は、再生速度を低下させるユーザ指示を検出部195が検出すると、現在の再生位置を含む単位の先頭へ再生位置を巻き戻す。さらに、音声再生部140は、低下させた再生速度にて単位の先頭から聴覚的言語データの再生を開始する。
例えば、図2の(B)部に示す例において、単位Cの高速再生中にユーザが、操作入力部150に「ちゃんと聴く」の指示を入力することによって標準再生を指示する。この指示に応答して、音声再生部140は、単位Cの先頭へ再生位置を巻き戻し、単位Cの先頭から標準再生を行う。
単位Cを高速再生した発話音声を聴いて単位Cに所望の情報が含まれていると判断したユーザは、通常、単位Cの途中で標準再生を指示する。しかし、音声再生部140が文の途中や単語の途中など単位の途中から標準再生を行った場合、ユーザが所望の情報を取得できない。
そこで、音声再生部140は単位の先頭へ再生位置を巻き戻し、その単位の先頭から標準再生を行っている。このため、ユーザが所望の情報を取得し易くなる。
別法として以下のように再生を行ってもよい。すなわち、検出部195が再生速度を低下させるユーザ指示を検出部195が検出すると音声再生部140が現在の再生位置を含む単位の先頭よりもさらに遡った位置へ再生位置を巻き戻す。さらに、音声再生部140が低下させた再生速度にて遡った位置から聴覚的言語データを再生する。
ここでいう遡った位置とは、聴覚的言語データ全体を連続的に再生した場合に、より早い時刻に再生される箇所を指す。
具体例を、図2の(B)部を参照して説明する。操作入力部150は、ユーザから、単位Cの高速再生中に「ちゃんと聴く」の指示を受け付ける。その指示に応答して、検出部195は、標準再生を検出する。すると、音声再生部140は、単位Cの先頭よりも所定時間(例えば標準再生時の時間で5秒)遡った単位Bの途中の位置へ再生位置を巻き戻す。さらに、音声再生部140は、その単位Bの途中の位置から聴覚的言語データの標準再生を行う。
これにより、ユーザは、所望の情報を含む単位(例えば単位C)と、その前の単位(例えば単位B)との関係を把握することができ、所望の情報をより取得し易くなる。
但し、上述した、音声再生部140が再生位置を巻き戻して低下させた再生速度にて聴覚的言語データを再生する処理は必須ではない。従って、再生速度を低下させるユーザ指示が行われた際、音声再生部140が、再生位置の巻き戻しを行わずに、そのまま再生速度を低下させて再生を行う(例えば標準再生を行う)ようにしてもよい。
図2の(B)部の例において、音声再生部140は、比較的大きい音量で標準再生を行い、比較的小さい音量で高速再生を行っている。比較的大きい音量とは、標準の音量よりも大きい音量である。比較的小さい音量とは、標準の音量よりも小さい音量である。
これにより、ユーザが、再生装置100に聴覚的言語データを高速再生させて所望の情報を含む箇所を探す際、再生される音声がユーザや周囲の他者に耳障りとなるおそれを低減させ得る。かつ、ユーザが所望する情報を含む箇所については、音声再生部140が比較的大きい音量で再生を行うことで、ユーザが、所望の情報を得易くなる。
但し、音声再生部140が比較的大きい音量で標準再生を行い、比較的小さい音量で高速再生を行う処理は必須ではない。音声再生部140が、標準再生と高速再生とを同じ音量で行うようにしてもよい。
別法として、音声再生部140が、標準再生時よりも大きい音量で高速再生を行うようにしてもよい。これにより、高速再生時にユーザが、所望の情報を含む箇所を検出し易くすることができる。
図3は、音声再生部140が制御部分の設定に応じて再生速度を変化させる例を示す説明図である。
図3の(A)部は、聴覚的言語データの再生速度および制御部分の設定例を示す。
図3の(A)部において、聴覚的言語データは単位A〜Fに分割されており、各単位に対して再生速度が設定されている。さらに、単位Dは制御部分に設定されている。符号Hから単位A〜F各々への線は、再生速度が、単位ごとに設定されることを示している。符号Lは、単位Dが制御部分に設定されていることを示している。
図3の例では、制御部分は標準再生すべき部分を示している。
図3の(B)部は、聴覚的言語データを再生する際の再生速度の例を示す。図3の(B)部において、ユーザは、「聞き流す」のユーザ操作を行って高速再生を指示している。そこで、音声再生部140は、制御部分に設定されていない単位A〜Cおよび単位E〜Fを、その指示に応じて高速再生している。これに対して、制御部分に設定されている単位Dについては、音声再生部140は、設定に従って標準再生している。図3の(B)部において、符号Nは、ユーザが単位A〜Fに「聞き流す」を設定していることを示している。
図3の(B)部において、符号M1およびM3は、単位A〜C、EおよびFに高速再生(音声小)が設定されていることを示している。符号M2は、単位Dに、標準再生(音声大)が設定されていることを示している。
後述するように、解析部192が聴覚的言語データを解析し、解析結果に基づいて設定部194が聴覚的言語データの各単位のうち重要である可能性の高い部分を制御部分に設定する。これにより、音声再生部140が聴覚的言語データのうち重要な部分を比較的低速で再生する(図3の例では重要な部分を標準再生している)。その結果、ユーザが所望の情報を得易くすることができる。
一方、制御部分に設定されていない部分については、音声再生部140がユーザの指示に応じた速度で再生する。このため、ユーザが、より高速な再生(図3の例では高速再生)を指示することで、聴覚的言語データ全体の再生時間を短縮することができる。
従って、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
音声再生部140は、制御部分の再生音量を大きくする。図3の(B)部の例では、音声再生部140は、比較的大きい音量で制御部分の再生を行っている。一方、音声再生部140は、比較的小さい音量で制御部分以外の部分の再生を行っている。
これにより、制御部分以外の部分について音声再生部140が高速再生を行う。その結果、ユーザが制御部分以外の部分について所望の情報が存在するか否かを判断する際、再生される音声がユーザや周囲の他者に耳障りとなるおそれを低減させ得る。かつ、制御部分については、音声再生部140が比較的大きい音量で再生を行う。その結果、ユーザが、所望の情報を得易くなる。
但し、音声再生部140が比較的大きい音量で制御部分の再生を行い、比較的小さい音量で制御部分以外の部分の再生を行う処理は必須ではない。音声再生部140が、制御部分と他の部分とを同じ音量で再生してもよい。
別法として、音声再生部140が、制御部分の再生時よりも大きい音量で、制御部分以外の部分の再生を行うようにしてもよい。これにより、制御部分以外の部分を高速再生する際に、ユーザが、所望の情報を含む箇所を検出し易くすることができる。
音声再生部140が、制御部分を所定の音量(比較的大きい音量または比較的小さい音量)で再生する場合について説明する。この場合、音声再生部140は、制御部分以外の部分を、一定の音量で再生するようにしてもよい。別法として、音声再生部140は、ユーザの指示する再生速度に応じて音量を変化させるようにしてもよい。
上記では、音声再生部140が、制御部分を比較的低速で再生(図3の例では標準再生)する場合について説明したが、この場合に限られない。音声再生部140が、制御部分を比較的高速で再生(図3の例では高速再生)するようにしてもよい。
例えば、設定部194が、聴覚的言語データの各単位のうち重要である可能性の比較的低い部分を制御部分に設定する。これにより、ユーザが、聴覚的言語データを発話音声にて聴く際、音声再生部140は、重要である可能性の比較的低い部分を比較的高速で再生することができる。このように再生を行うことで、聴覚的言語データ全体の再生時間を短縮することができる。
一方、重要である可能性の高い部分である制御部分に設定されていない部分については、音声再生部140は、ユーザの指示に応じた再生速度で再生を行う。これにより、ユーザは、重要である可能性の高い部分のうち所望の情報を含むと判断した部分を比較的低速で再生(図3の例では標準再生)させて、所望の情報を得ることができる。
図1に戻って説明を続ける。表示部130は、例えば液晶パネルまたは有機EL(Organic Electroluminescence)パネルなどの表示画面を有していてもよい。表示部130は、動画像や静止画像やテキスト(すなわち文字)など各種画像を表示する。特に、表示部130は、聴覚的言語データをテキストにてスクロール可能に表示する。さらには、表示部130は、聴覚的言語データのうち音声再生部140が再生している部分をテキストにて表示するように表示のスクロールを行う。
これにより、ユーザは、音声再生部140が再生する聴覚的言語データを視覚的にも確認することできる。例えば、ユーザは、音声再生部140が再生する聴覚的言語データを周囲の雑音等の影響で聴き取れなかった場合でも、表示部130の表示するテキストにて確認することができる。
また、ユーザは、音声再生部140の出力する発話音声にて聴覚的言語データの内容を確認できる。このため、表示部130を見続ける必要なしに、所望の情報を取得し得る。
但し、表示部130が、聴覚的言語データをテキストにてスクロール可能に表示することは必須ではない。例えば、再生装置100が表示部130を具備しない構成としてもよい。
操作入力部150は、例えば表示部130の表示画面に設けられてタッチパネルを構成するタッチセンサなどの入力デバイスを有していてもよい。操作入力部150は、ユーザ操作を受け付ける。
制御部190は、再生装置100の各部を制御して各種機能を実行する。制御部190は、例えば再生装置100が有するCPU(CentralProcessing Unit;中央処理装置)が、再生装置100が有する記憶デバイスからプログラムを読み出して実行することで実現されてもよい。
通信制御部191は、通信部110を制御して、通信部110に通信を行わせる。
表示制御部193は、表示部130を制御して、表示部130に各種画像を表示させる。
アプリケーション実行部196は、各種アプリケーションプログラムを実行する。
検出部195は、操作入力部150が受けたユーザ操作を検出する。特に、検出部195は、再生速度のユーザ指示を検出する。
再生速度を指示するユーザ操作として様々な操作を用いることができる。例えば、操作入力部150は、再生速度毎の入力キー(押ボタンまたは画面表示されるアイコン)、あるいは再生速度増減の入力キーを有していてもよい。検出部195は、それらの入力キーに対するキー操作を、再生速度を指示するユーザ操作として検出してもよい。
別法として、操作入力部150は、再生速度を切り替えるダイヤルスイッチを有していてもよい。検出部195は、そのダイヤルスイッチに対するダイヤル操作を、再生速度を指示するユーザ操作として検出してもよい。
別法として、表示部130が、聴覚的言語データ全体の再生時間における現在の再生位置を示すスクロールバーないしスライドスイッチを表示してもよい。検出部195は、そのスクロールバーないしスライドスイッチに対するタッチ操作(スクロール操作またはスライド操作)を、再生速度を指示するユーザ操作として検出してもよい。
特に、表示部130が、聴覚的言語データをテキストにてスクロール表示し、音声再生部140が再生している部分を表示するように表示のスクロールを行う場合について説明する。この場合、検出部195は、表示部130の表示に対するスクロール操作を再生速度のユーザ指示として検出してもよい。
これにより、ユーザは、表示部130の表示対するスクロール操作と、再生速度を指示するユーザ操作とを別々に行う必要がない。この点で、ユーザの手間を省くことができる。
但し、検出部195が、再生速度のユーザ指示を検出する処理は必須ではない。例えば、再生装置100が検出部195を具備しない構成としてもよい。この場合、音声再生部140は、制御部分の設定に応じた再生速度にて聴覚的言語データの再生を行う。具体的には、この場合、音声再生部140は、制御部分を標準再生し、制御部分に設定されていない部分を高速再生してもよい。
解析部192は、取得部120が取得した聴覚的言語データを解析する。解析部192が行う解析として、様々な解析を用いることができる。例えば、解析部192は、聴覚的言語データの言語解析(例えば、使用されている言語の解析や、構文解析など)を行ってもよい。解析部192は、音声が有るか否かを解析してもよい。
別法として、解析部192は、音声の強弱を解析してもよい。解析部192は、音声の高低を解析してもよい。さらには、解析部192は、音声の強弱と音声の高低とを解析するなど、複数の解析を行ってもよい。特に、解析部192が聴覚的言語データの構文解析を行う場合について説明する。この場合、解析部192は、構文解析結果に基づいて、聴覚的言語データを単語、文節、文、または段落といった文の単位に分割することができ、分割した各々を聴覚的言語データの単位とすることができる。
以下では、解析部192が、聴覚的言語データの種類を解析する場合を例に説明する。
例えば、解析部192は、聴覚的言語データの種類の解析として、言語が英語か日本語かといった、聴覚的言語データの言語の判定を行う。また、解析部192は、聴覚的言語データの種類の解析として、聴覚的言語データの用途の判定を行う。聴覚的言語データの用途には、ソーシャル・ネットワーク・サービス(Social Network Service;SNS)の投稿文、新聞または雑誌等の記事、電子メール等のメッセージが含まれていてもよい。
解析部192は、聴覚的言語データを使用するアプリケーションプログラムに基づいて、その聴覚的言語データの種類を判定してもよい。
具体例を以下に示す。アプリケーション実行部196が、モバイルブラウザ(Mobile Browser、携帯端末装置など携帯機器向けのウェブブラウザ)のアプリケーションプログラムを実行してSNSのサイトに接続している場合について説明する。この場合、解析部192は、アプリケーション実行部196が取得して記憶デバイス121に記憶させる聴覚的言語データが、SNSの投稿文であると判定する。
アプリケーション実行部196が、モバイルブラウザのアプリケーションプログラムを実行して新聞記事を閲覧するためのサイトに接続している場合について説明する。この場合、解析部192は、アプリケーション実行部196が取得して記憶デバイス121に記憶させる聴覚的言語データが、新聞記事であると判定する。
アプリケーション実行部196が、モバイルブラウザのアプリケーションプログラムを実行して、SNSや記事以外のウェブサイトに接続している場合について説明する。この場合、解析部192は、アプリケーション実行部196が取得して記憶デバイス121に記憶させる聴覚的言語データが、ウェブページであると判定する。
アプリケーション実行部196が、電子メールのアプリケーションプログラムを実行している場合について説明する。この場合、解析部192は、アプリケーション実行部196が取得して記憶デバイス121に記憶させる聴覚的言語データが、電子メールメッセージであると判定する。
別法として、解析部192は、聴覚的言語データを使用するアプリケーションプログラム以外の情報に基づいて、その聴覚的言語データの種類を判定してもよい。具体例としては、解析部192は、聴覚的言語データのフォーマットを解析して聴覚的言語データの種類を判定してもよい。
設定部194は、解析部192の解析結果に基づいて、聴覚的言語データに制御部分を設定する。例えば、設定部194は、聴覚的言語データの種類に基づいて制御部分の設定を行う。
図4A〜4Cは、聴覚的言語データの種類毎の、制御部分の設定規則の例を示す説明図である。
図4A〜4Cにおいて、符号hは先頭を示す。符号eは末尾を示す。
図4A〜4Cに示す設定規則に基づいて、設定部194は制御部分を設定する。
設定部194は、英語の聴覚的言語データに対しては、文章の頭の方の再生速度が比較的低速になるように制御部分を設定する。例えば、制御部分が標準再生を行う部分を示す場合、設定部194は、文章の頭の方に位置する単位を制御部分に設定する。これにより、文章の頭の方に位置する単位が高速再生されることを抑制する。
図4Aにおいて、符号O1は、英語向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。符号O2は、英語向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。
英語の文章では、重要な内容が文章の先頭の方に含まれることが多い。そこで、設定部194が文章の先頭の方に位置する単位に制御部分を設定するなど、音声再生部140が文章の頭の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。
設定部194が、単語または文節を単位として文毎に、文頭の方に位置する単位の再生速度が比較的低速になるように制御部分を設定してもよい。英語の文では、主語に続いて述語が配置され、また、否定語も文頭の方に配置されるなど、重要な内容が文頭の方に含まれることが多い。そこで、設定部194が、文頭の方に位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、文頭の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。
別法として、設定部194が、文を単位として段落ごとに、段落の頭の方に位置する単位の再生速度が比較的低速になるように制御部分を設定してもよい。
設定部194は、日本語の聴覚的言語データに対しては、文章の末尾の方の再生速度が比較的低速になるように制御部分を設定する。例えば、制御部分が標準再生を行う部分を示す場合、設定部194は、文章の末尾の方に位置する単位を制御部分に設定する。これにより、文章の末尾の方に位置する単位が高速再生されることを抑制する。
図4Aにおいて、符号P1は、日本語向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。符号P2は、日本語向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。
日本語の文章では、重要な内容が文章の末尾の方に含まれることが多い。そこで、設定部194が文章の末尾の方に位置する単位に制御部分を設定するなど、音声再生部140が文章の末尾の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。
設定部194が、単語または文節を単位として文毎に、文末の方に位置する単位の再生速度が比較的低速になるように制御部分を設定してもよい。日本語の文では、述語や否定語が文末の方に配置されるなど、重要な内容が文末の方に含まれることが多い。そこで、設定部194が、文末の方に位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、文末の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。
別法として、設定部194が、文を単位として段落ごとに、段落の末尾の方に位置する単位の再生速度が比較的低速になるように制御部分を設定してもよい。
設定部194は、SNSの投稿文の聴覚的言語データに対しては、文章の末尾の方の再生速度が比較的低速になるように制御部分を設定する。
図4Aにおいて、符号Q1は、SNS向けの設定規則として、再生速度が「速い」且つ音量が「小」であることが好ましい部分を示す。符号Q2は、SNS向けの設定規則として、再生速度が「遅い」且つ音量が「大」であることが好ましい部分を示す。
SNSの投稿文においては、文章の頭の方はあまり重要でないことが多い。従って、重要な内容は文章の末尾の方に含まれることが多い。そこで、設定部194が、文章の末尾の方に位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、文章の末尾の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。短い投稿文の場合、文節を単位としてもよい。
設定部194は、新聞や雑誌等の記事の聴覚的言語データに対しては、文章の中間辺りの再生速度が比較的低速になるように制御部分を設定する。
符号R1およびR3は、記事向けの設定規則として、再生速度が「速い」且つ音量が「小」であることが好ましい部分を示す。符号R2は、記事向けの設定規則として、再生速度が「遅い」且つ音量が「大」であることが好ましい部分を示す。
新聞や雑誌等の記事においては、文章の中間辺りで本題に入ることが多い。従って、重要な内容は文章の中間辺りに含まれることが多い。そこで、設定部194が、文章の中間辺りに位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、文章の中間辺りを比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。
設定部194は、電子メール等のメッセージの聴覚的言語データに対しては、送信者名や本文の再生速度が比較的低速になるように制御部分を設定する。
図4Bにおいて、符号S1およびS3は、電子メール向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。符号S2は、電子メール向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。
設定部194が、送信者名の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、送信者名を比較的低速で再生する。その結果、ユーザは、送信者名に基づいて重要なメッセージか否かを判定できる。
さらに、設定部194が、本文の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、本文を比較的低速で再生する。その結果、ユーザが、本文に含まれている所望の情報を取得し易くすることができる。
設定部194は、ウェブページの聴覚的言語データに対しては、タイトルや、各段落の頭の方の再生速度が比較的低速になるように制御部分を設定する。ここで、各段落において文を単位とすることができる。
図4Cにおいて、符号T1およびT3は、ウェブページ向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。符号T2およびT4は、ウェブページ向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。
設定部194が、タイトルの再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、タイトルを比較的低速で再生する。その結果、ユーザは、タイトルに基づいて重要な文章か否かを判定できる。
ウェブページにおいては、段落の頭の方で要件が示され、続いて補足説明や具体例が示されることが多い。すなわち、ウェブページにおいては、各段落の頭の方に重要な内容が含まれることが多い。そこで、設定部194が、各段落の頭の方に位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、各段落の頭の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。
解析部192が、聴覚的言語データの音声の強弱を解析する場合について説明する。この場合、設定部194が、音声の強い部分(すなわち、比較的大音量で再生される部分)の再生速度が比較的低速になるように制御部分を設定してもよい。
発話者は、重要な部分を強調するために、音声を強めて発話する場合がある。従って、音声の強い部分には重要な内容が含まれている可能性が高い。そこで、設定部194が、音声の強い部分の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、音声の強い部分を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでは様々な単位を用いることができる。例えば、単語、文節、文または文章を単位としてもよいし、聴覚的言語データを所定時間毎に区切った各部分を単位としてもよい。
解析部192が、聴覚的言語データの音程が高いかあるいは低いかを解析する場合について説明する。この場合、設定部194が、音程の高い部分の再生速度が比較的低速になるように制御部分を設定してもよい。
発話者が重要な部分をしっかり発話することで、重要な部分の音程が高くなる場合がある。従って、音程の高い部分には重要な内容が含まれている可能性が高い。そこで、設定部194が、音程の高い部分の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、音程の高い部分を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでは様々な単位を用いることができる。例えば、単語、文節、文または文章を単位としてもよい。聴覚的言語データを所定時間毎に区切った各部分を単位としてもよい。
次に、図5を参照して再生装置100の動作について説明する。
図5は、再生装置100が聴覚的言語データに制御部分を設定して再生する際の処理手順を示すフローチャートである。例えば、再生装置100は、聴覚的言語データを発話音声にて再生するよう要求するユーザ操作を検出すると、図5の処理を行う。
図5の処理において、まず、取得部120が、聴覚的言語データを取得し、制御部190へ出力する(ステップS101)。具体的には、取得部120は、記憶デバイス121の記憶している聴覚的言語データを読み出すことで聴覚的言語データを取得する。
制御部190では、解析部192が、取得部120の取得した聴覚的言語データを解析する(ステップS102)。
設定部194が、解析部192の解析結果に基づいて、制御部分の設定規則を選択する(ステップS103)。設定部194が、選択した設定規則に従って、聴覚的言語データに制御部分を設定する。さらに、設定部194は、制御部分が設定された聴覚的言語データを音声再生部140へ出力する(ステップS104)。
音声再生部140は、設定部194からの聴覚的言語データを、設定部194の設定した制御部分に従って再生し、発話音声を出力する(ステップS105)。
その後、図5の処理を終了する。
以上のように、解析部192が聴覚的言語データを解析する。設定部194は、解析部192の解析結果に基づいて、聴覚的言語データに制御部分を設定する。音声再生部140は、設定部194の設定に従って聴覚的言語データを再生する。
設定部194が、解析部192の解析結果に基づいて制御部分を設定することで、音声再生部140が、聴覚的言語データのうち重要な内容を含む可能性の高い部分を低速で再生することができる。その結果、ユーザが所望の情報を取得し易くすることができる。一方、重要な内容を含む可能性の高い部分以外の部分については、音声再生部140が高速で再生できる。その結果、聴覚的言語データ全体の再生時間を短縮することができる。従って、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
音声再生部140は、聴覚的言語データのうち制御部分に設定されていない部分を、ユーザ指示に応じた再生速度で再生する。
具体例として、制御部分が比較的低速に再生する部分を示す場合について説明する。この場合、ユーザは、制御部分に設定されていない部分においても、所望の情報を含むと判断した部分については、音声再生部140に比較的低速に再生させて、所望の情報を取得することができる。一方、ユーザは、所望の情報を含まないと判断した部分については、音声再生部140に比較的高速に再生させて、聴覚的言語データ全体の再生時間を短縮することができる。
音声再生部140は、再生速度を低下させるユーザ指示を検出部195が検出すると、再生位置を巻き戻して、低下させた再生速度にて聴覚的言語データを再生する。
具体例として、音声再生部140は、再生速度を低下させるユーザ指示を検出部195が検出すると、現在の再生位置を含む単位の先頭へ再生位置を巻き戻す。さらに、音声再生部140は、低下させた再生速度にて聴覚的言語データを単位の先頭から再生する。
これにより、ユーザは、所望の情報を含む単位を先頭から聴くことができるので、所望の情報を取得し易くなる。
別の具体例として、音声再生部140は、再生速度を低下させるユーザ指示を検出部195が検出すると、現在の再生位置を含む単位の先頭よりもさらに遡った位置へ再生位置を巻き戻す。さらに、音声再生部140は、低下させた再生速度にて遡った位置から聴覚的言語データを再生する。
これにより、ユーザは、所望の情報を含む単位と、その前の単位との関係を把握することができ、所望の情報をより取得し易くなる。
音声再生部140は、制御部分の再生音量を大きくする。
具体例として、制御部分が比較的低速に再生すべき部分を示す場合について説明する。この場合、ユーザは、再生装置100に聴覚的言語データを比較的高速に再生させて所望の情報を含む箇所を探す際、再生される音声がユーザや周囲の他者に耳障りとなるおそれを低減させ得る。一方で、ユーザ所望の情報を含む箇所については、音声再生部140が比較的大きい音量で再生を行うことで、ユーザが、所望の情報を得易くなる。
別の具体例として、制御部分が高速に再生すべき部分を示す場合について説明する。この場合、比較的高速での再生時にユーザが、所望の情報を含む箇所を検出し易くすることができる。
表示部130が、聴覚的言語データをテキストにてスクロール可能に表示し、検出部195は、表示部130の表示する聴覚的言語データに対するスクロール操作を再生速度のユーザ指示として検出する。
これにより、ユーザは、表示部130の表示に対するスクロール操作と、再生速度を指示するユーザ操作とを別々に行う必要がない。この点で、ユーザの手間を省くことができる。
表示部130は、聴覚的言語データのうち音声再生部140が再生している部分をテキストにて表示するように表示のスクロールを行う。
これにより、ユーザは、音声再生部140が再生する聴覚的言語データを視覚的にも確認することできる。例えば、ユーザは、音声再生部140が再生する聴覚的言語データを周囲の雑音等の影響で聴き取れなかった場合でも、表示部130の表示するテキストにて確認することができる。
また、ユーザは、音声再生部140の出力する発話音声にて聴覚的言語データの内容を確認できる。このため、ユーザは、表示部130を見続ける必要なしに、所望の情報を取得し得る。
設定部194は、聴覚的言語データの種類に基づいて制御部分の設定を行う。
これにより、設定部194は、聴覚的言語データの種類に応じて、重要な内容を含む可能性の高い部分を比較的低速に再生するよう、制御部分を設定することができる。
解析部192は、聴覚的言語データを使用するアプリケーションプログラムに基づいて、聴覚的言語データの種類を判定する。
これにより、解析部192は、聴覚的言語データを使用するアプリケーションプログラムを判定するという簡単な処理にて、聴覚的言語データの種類を判定することができる。
次に、図6を参照して、本発明の実施形態における聴覚的言語データ再生装置100の主要部分について説明する。
図6は、本発明の実施形態における再生装置100の主要部分を示す概略ブロック図である。図6では、図1に示す再生装置100の各部のうち、取得部120と、解析部192と、設定部194と、音声再生部140とが示されている。
図6に示す構成において、取得部120が聴覚的言語データを取得する。解析部192がその聴覚的言語データを解析する。設定部194は、解析部192の解析結果に基づいて、聴覚的言語データに制御部分を設定する。音声再生部140は、設定部194の設定に従って聴覚的言語データを再生する。
これにより、図1に示す構成の場合と同様、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
次に、図7を参照して、本発明の実施形態における再生速度制御部分設定装置(高速再生抑制設定装置)200について説明する。
図7は、本発明の実施形態における再生速度制御部分設定装置(以下、単に「設定装置」とも称する)200の機能構成を示す概略ブロック図である。図7では、図1に示す再生装置100の各部のうち、取得部120と、解析部192と、設定部194とが示されている。
図7に示す構成において、取得部120が聴覚的言語データを取得する。解析部192がその聴覚的言語データを解析する。設定部194は、解析部192の解析結果に基づいて、聴覚的言語データに制御部分を設定する。
設定部194が制御部分を設定した聴覚的言語データを音声再生装置に再生させる。これにより、図1に示す構成の場合と同様、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
設定装置200が具備する機能部は図7に示す機能部に限らない。設定装置200は、図7に示す各部に加えて他の機能部を含んでもよい。例えば、設定装置200は、通信部110(図1参照)をさらに具備してもよい。
再生装置100や設定装置200の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含む。
「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含む。
「コンピュータ読み取り可能な記録媒体」は、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置を含む。さらに「コンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。上記プログラムは、前述した機能の一部を実現しても良い。上記プログラムは、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
この出願は、2012年10月31日に出願された日本国特願2012−240430を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、再生装置、設定装置、再生方法およびプログラムに適用し得る。
100 聴覚的言語データ再生装置
110 通信部
120 聴覚的言語データ取得部
121 記憶デバイス
130 表示部
140 音声再生部
150 操作入力部
190 制御部
191 通信制御部
192 解析部
193 表示制御部
194 再生速度制御部分設定部
195 ユーザ指示検出部
196 アプリケーション実行部
200 再生速度制御部分設定装置

Claims (13)

  1. 発話音声として再生されるデータを含む聴覚的言語データを取得する取得部と、
    前記聴覚的言語データを解析して、解析結果を出力する解析部と、
    前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定する設定部と、
    前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する音声再生部と、
    を具備する再生装置。
  2. 再生速度のユーザ指示を検出する検出部を具備し、
    前記音声再生部は、前記聴覚的言語データのうち前記制御部分に設定されていない部分を、ユーザ指示に応じた再生速度で再生する請求項1に記載の再生装置。
  3. 記検出部は、第1の再生速度で前記聴覚的言語データを再生させている期間中に、ユーザ指示として、再生速度の低下を指示する速度低下指示を検出し、
    前記音声再生部は、前記速度低下指示に応答して、前記聴覚的言語データの再生位置を巻き戻し、
    前記音声再生部は、前記第1の再生速度よりも遅い第2の再生速度にて巻き戻された再生位置から前記聴覚的言語データを再生する請求項2に記載の再生装置。
  4. 前記聴覚的言語データは、第1の単位を含む複数の単位を含み、
    前記検出部は、第1の再生速度で前記第1の単位を再生させている期間中に、ユーザ指示として、再生速度の低下を指示する速度低下指示を検出し、
    前記音声再生部は、前記速度低下指示に応答して、前記第1の再生速度よりも遅い第2の再生速度にて前記聴覚的言語データを前記第1の単位の先頭から再生する請求項3に記載の再生装置。
  5. 前記聴覚的言語データは、第1の単位を含む複数の単位を含み、
    記検出部は、第1の再生速度で前記第1の単位を再生させている期間中に、ユーザ指示として、再生速度の低下を指示する速度低下指示を検出し、
    前記音声再生部は、前記速度低下指示に応答して、前記第1の再生速度よりも遅い第2の再生速度にて前記聴覚的言語データを前記第1の単位の先頭よりも前の再生位置から再生する請求項3に記載の再生装置。
  6. 前記音声再生部は、前記制御部分の再生音量を大きくする請求項1から5のいずれか一項に記載の再生装置。
  7. 前記聴覚的言語データをテキストにてスクロール可能に表示する表示部をさらに具備し、
    記表示部の表示する前記聴覚的言語データに対するスクロール操作を前記再生速度のユーザ指示として検出する
    請求項1から6のいずれか一項に記載の再生装置。
  8. 前記表示部は、前記聴覚的言語データのうち前記音声再生部が再生している部分をテキストにて表示するように表示のスクロールを行う請求項7に記載の再生装置。
  9. 前記設定部は、前記解析結果に基づいて、発話音声の前記聴覚的言語データにおける比較的大音量の部分を比較的低速の再生速度で再生される部分に設定し、
    前記音声再生部は、前記比較的大音量の部分を前記比較的低速の再生速度で発話音声として再生する
    請求項1から8のいずれか一項に記載の再生装置。
  10. 前記設定部は、前記解析結果に基づいて、SNSの投稿文の前記聴覚的言語データの文章の末尾に位置する単位を比較的低速の再生速度で再生される部分に設定し、
    前記音声再生部は、前記SNSの投稿文の前記聴覚的言語データの文章の末尾に位置する単位を前記比較的低速の再生速度で発話音声として再生する
    請求項1から9のいずれか一項に記載の再生装置。
  11. 発話音声として再生されるデータを含む聴覚的言語データを取得する取得部と、
    前記聴覚的言語データを解析して、解析結果を出力する解析部と、
    前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定する設定部と、
    を具備し、
    前記制御部分以外の部分は前記制御部分よりも大きい音量で再生される部分とされる
    設定装置。
  12. 発話音声として再生されるデータを含む聴覚的言語データを取得し、
    前記聴覚的言語データを解析して、解析結果を出力し、
    前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定し、
    前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する
    ことを含む再生方法。
  13. コンピュータに、
    発話音声として再生されるデータを含む聴覚的言語データを取得し、
    前記聴覚的言語データを解析して、解析結果を出力し、
    前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定し、
    前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する
    ことを実行させるためのプログラム。
JP2014544412A 2012-10-31 2013-10-11 再生装置、設定装置、再生方法およびプログラム Expired - Fee Related JP6277958B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012240430 2012-10-31
JP2012240430 2012-10-31
PCT/JP2013/077799 WO2014069220A1 (ja) 2012-10-31 2013-10-11 再生装置、設定装置、再生方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2014069220A1 JPWO2014069220A1 (ja) 2016-09-08
JP6277958B2 true JP6277958B2 (ja) 2018-02-14

Family

ID=50627134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014544412A Expired - Fee Related JP6277958B2 (ja) 2012-10-31 2013-10-11 再生装置、設定装置、再生方法およびプログラム

Country Status (5)

Country Link
US (1) US9728201B2 (ja)
EP (1) EP2916317B1 (ja)
JP (1) JP6277958B2 (ja)
CN (1) CN104756181B (ja)
WO (1) WO2014069220A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885869B (zh) * 2016-03-16 2023-07-18 索尼移动通讯有限公司 控制包含语音的音频数据的回放的方法、计算设备和介质
EP3244408A1 (en) * 2016-05-09 2017-11-15 Sony Mobile Communications, Inc Method and electronic unit for adjusting playback speed of media files
CN107068145B (zh) * 2016-12-30 2019-02-15 中南大学 语音评测方法及系统
KR102329888B1 (ko) * 2017-01-09 2021-11-23 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
US20220383769A1 (en) * 2019-11-07 2022-12-01 Learning Squared, Inc. Speech synthesizer with multimodal blending
CN111916053B (zh) * 2020-08-17 2022-05-20 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN113012498B (zh) * 2021-02-22 2023-12-05 广东青腾信息科技有限公司 一种智能化的教育系统及教育方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62219066A (ja) * 1986-03-19 1987-09-26 Fujitsu Ltd 文章読み上げ装置
JP3393478B2 (ja) * 1994-06-15 2003-04-07 株式会社ナカヨ通信機 早送り巻戻し機能付き音声再生装置
JP3707872B2 (ja) * 1996-03-18 2005-10-19 株式会社東芝 音声出力装置及びその方法
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
US20060209076A1 (en) * 2000-08-29 2006-09-21 Vtel Corporation Variable play back speed in video mail
JP2002132282A (ja) * 2000-10-20 2002-05-09 Oki Electric Ind Co Ltd 電子テキスト読み上げ装置
US20020086269A1 (en) 2000-12-18 2002-07-04 Zeev Shpiro Spoken language teaching system based on language unit segmentation
EP1554645A2 (en) * 2002-06-13 2005-07-20 Panasonic Automotive Systems Company Of America Interface for a multifunctional system
US7524191B2 (en) * 2003-09-02 2009-04-28 Rosetta Stone Ltd. System and method for language instruction
JP4684609B2 (ja) * 2004-09-29 2011-05-18 クラリオン株式会社 音声合成装置、制御方法、制御プログラム及び記録媒体
US20080189099A1 (en) * 2005-01-12 2008-08-07 Howard Friedman Customizable Delivery of Audio Information
JP2007219141A (ja) 2006-02-16 2007-08-30 Seiko Instruments Inc 音声学習器、音声学習器の制御方法及び制御プログラム
JP2009004859A (ja) * 2007-06-19 2009-01-08 Mizuho Information & Research Institute Inc テレホンサービス処理システム、テレホンサービス処理プログラム及びテレホンサービス処理方法
JP2009075280A (ja) 2007-09-20 2009-04-09 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置
JP2009117989A (ja) * 2007-11-02 2009-05-28 Sony Corp 情報再生装置及び情報再生方法
JP2010002841A (ja) * 2008-06-23 2010-01-07 Panasonic Corp コンテンツ再生装置
JP5164041B2 (ja) * 2008-09-10 2013-03-13 独立行政法人情報通信研究機構 音声合成装置、音声合成方法、及びプログラム
JP5146434B2 (ja) * 2009-10-05 2013-02-20 株式会社ナカヨ通信機 録音再生装置
JP2011087196A (ja) * 2009-10-16 2011-04-28 Nec Saitama Ltd 電話機、及び電話機の話速変換方法
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
US20120016671A1 (en) * 2010-07-15 2012-01-19 Pawan Jaggi Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US8473084B2 (en) * 2010-09-01 2013-06-25 Apple Inc. Audio crossfading
US9037743B2 (en) * 2010-10-28 2015-05-19 Avvasi Inc. Methods and apparatus for providing a presentation quality signal

Also Published As

Publication number Publication date
US9728201B2 (en) 2017-08-08
EP2916317A1 (en) 2015-09-09
WO2014069220A1 (ja) 2014-05-08
JPWO2014069220A1 (ja) 2016-09-08
US20150243294A1 (en) 2015-08-27
EP2916317A4 (en) 2016-08-31
EP2916317B1 (en) 2017-10-11
CN104756181B (zh) 2017-10-27
CN104756181A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
JP6277958B2 (ja) 再生装置、設定装置、再生方法およびプログラム
JP5855223B2 (ja) 同期されたコンテンツの再生管理
ES2751484T3 (es) Interfaz de entrada de voz incremental con retroalimentación en tiempo real
US20110153330A1 (en) System and method for rendering text synchronized audio
US20060194181A1 (en) Method and apparatus for electronic books with enhanced educational features
WO2014121233A1 (en) Selective synchronous presentation
JP5106608B2 (ja) 読み上げ支援装置、方法、およびプログラム
KR20140019167A (ko) 음성 안내 기능을 제공하기 위한 방법 및 그 전자 장치
US20130311187A1 (en) Electronic Apparatus
KR101567449B1 (ko) 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법
WO2014154097A1 (en) Automatic page content reading-aloud method and device thereof
US9286287B1 (en) Reference content determination from audio content
US7861186B2 (en) Systems and methods for navigating page-oriented information assets
JP7229296B2 (ja) 関連情報提供方法及びシステム
US20140297285A1 (en) Automatic page content reading-aloud method and device thereof
JP6365520B2 (ja) 音声出力装置、音声出力方法、およびプログラム
WO2020023070A1 (en) Text-to-speech interface featuring visual content supplemental to audio playback of text documents
KR101110644B1 (ko) 전자책의 독서속도 향상 방법 및 장치
KR102656262B1 (ko) 이미지를 이용한 중국어 연상학습 콘텐츠 제공 방법 및 장치
JP6373294B2 (ja) データ再生装置およびデータ再生方法
Francisco Concurrent speech feedback for blind people on touchscreens
KR20230102565A (ko) 한국어 회화 학습 콘텐츠 제공 방법 및 장치
JP4514144B2 (ja) 音声読み上げ装置およびプログラム
JP2006317876A (ja) 音声読み上げ装置およびプログラム
KR20080070977A (ko) 멀티미디어 텍스트 자동 검색 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180101

R150 Certificate of patent or registration of utility model

Ref document number: 6277958

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees