JP6277958B2 - 再生装置、設定装置、再生方法およびプログラム - Google Patents
再生装置、設定装置、再生方法およびプログラム Download PDFInfo
- Publication number
- JP6277958B2 JP6277958B2 JP2014544412A JP2014544412A JP6277958B2 JP 6277958 B2 JP6277958 B2 JP 6277958B2 JP 2014544412 A JP2014544412 A JP 2014544412A JP 2014544412 A JP2014544412 A JP 2014544412A JP 6277958 B2 JP6277958 B2 JP 6277958B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- language data
- playback
- speed
- reproduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000004458 analytical method Methods 0.000 claims description 76
- 238000001514 detection method Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008929 regeneration Effects 0.000 description 3
- 238000011069 regeneration method Methods 0.000 description 3
- 238000004904 shortening Methods 0.000 description 2
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/58—Details of telephonic subscriber devices including a multilanguage function
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Description
視覚情報媒体を閲覧する場合、ユーザ(情報媒体の利用者)は、二次元に配置されている情報の取捨選択を行うことができる。このため、ユーザは、比較的短時間のうちに所望の情報を把握し得る。例えば、ユーザは、新聞の紙面を見渡して所望の記事を選択し、選択した記事のみを詳細に読むことができる。
視覚的情報媒体の利用が適当でない場合、ユーザがオーディオプレーヤ(Audio Player)などの聴覚情報媒体(情報を聴覚的に提供する情報媒体)を利用して情報を把握することが考えられる。特に、聴覚情報媒体が発話を含む音を出力することで、多くの情報をユーザに提供し得る。ここでいう発話とは、言語としての音である。
例えば、特許文献1では、通常の音声の再生に比べてゆっくり感が高い音声の再生を目的として、音声及び非音声の出力時間長を伸張するための技術が示されている。
特許文献2では、音声データの再生時に、音声データの再生条件を、単位音声データ(単語等)毎に変更するための技術が示されている。
例えば、オーディオプレーヤが再生する音データは、一般的には再生速度が定められている。この再生速度に従ってオーディオプレーヤが音データを最初から最後まで再生する場合、その音データの再生時間として規定される所定時間が必要となる。オーディオプレーヤが再生速度を速めれば、音データの再生に要する時間は短くなる。しかしながら、ユーザが情報を把握可能な再生速度には限度がある。特に、再生音に発話が含まれる場合、再生速度が速すぎると、ユーザは、発話を言語として聴き取れなくなってしまう。
一例として、ユーザが、内容を未知の音データ(例えばユーザが初めて聴く音データ)から情報を把握したい場合について説明する。この場合、所望の情報を含む箇所を検出するため、または、そもそも所望の情報を含むか否かを判断するために、音データを最初から最後まで、情報を把握しながら聴くことが考えられる。その際、上記のように、ユーザが情報を把握可能な再生速度には限度がある。このため、データを聴くのに要する時間の短縮には限度がある。ここでいう音データの内容とは、音データの示す情報である。
特許文献2に示される技術では、音声データの再生速度を変更するために、単位音声データ毎(例えば単語毎)に予め制御データを設定しておく、あるいは、予め単語帳に単語を登録しておく必要がある。かかる制御データの設定や単語の登録を行うためには、ユーザが、音声データの内容を予め把握しておく必要がある。従って、特許文献2に示される技術では、ユーザが、聴覚的情報媒体の提供する情報の概要をより短い時間で把握して情報の取捨選択を行うことはできない。
再生装置100のユーザ(以下、単に「ユーザ」と称する)は、再生装置100が出力する発話音声を聴くことで情報を取得できる。
取得部120は、聴覚的言語データを取得する。具体的には、取得部120の具備する記憶デバイス121が、聴覚的言語データを記憶している。取得部120は、記憶デバイス121から聴覚的言語データを読み出すことでその聴覚的言語データを取得する。
取得部120が聴覚的言語データを取得する方法は、記憶デバイス121から聴覚的言語データを読み出す方法に限らない。この方法としては、再生速度可変に聴覚的言語データを取得する様々な方法を用いることができる。例えば、取得部120が、外部記憶装置に接続してその外部記憶装置から聴覚的言語データを読み出してもよい。
音声再生部140は、聴覚的言語データを再生する際、制御部分に設定されている部分を、再生速度に関する所定の制御規則に従って再生する。音声再生部140は、聴覚的言語データのうち制御部分に設定されていない部分を、ユーザ指示に応じた再生速度で再生する。
再生速度に関する所定の制御規則として、様々な制御規則を適用することができる。例えば、制御部分に適用される制御規則は、所定の再生速度で再生するという規則あってもよいし、ユーザの指示する再生速度の半分の再生速度で再生すべきという規則であってもよい。
図2は、音声再生部140がユーザ操作に基づいて再生速度を変化させる例を示す説明図である。図2は、制御部分が設定されていない場合の例を示している。
ここでいう単位とは、聴覚的言語データを言語的な意味に基づいて分割した一纏まりである。単位として、単語、文節、文、または段落といった、様々なレベルにおける言葉の単位を用いることができる。単位として、2文を1単位とする、または、聴覚的言語データを一定時間毎に分割して単位とするなど、言葉の単位以外の単位を用いるようにしてもよい。
聴覚的言語データの再生速度の設定方法は、図2の(A)部に示すように単位毎に設定を行う方法に限らない。音声再生部140が、聴覚的言語データを標準再生する際の再生速度を取得可能な様々な方法を、聴覚的言語データの再生速度の設定方法として用いることができる。例えば、聴覚的言語データが音データの場合、その音データの規格にて聴覚的言語データ全体の再生速度が示されていてもよい。聴覚的言語データが文章データの場合、音声再生部140が実行する文章データを読み上げる機能において、各文書データに共通の標準読み上げ速度が設定されていてもよい。
単位Cを高速再生した発話音声を聴いて単位Cに所望の情報が含まれていると判断したユーザは、通常、単位Cの途中で標準再生を指示する。しかし、音声再生部140が文の途中や単語の途中など単位の途中から標準再生を行った場合、ユーザが所望の情報を取得できない。
そこで、音声再生部140は単位の先頭へ再生位置を巻き戻し、その単位の先頭から標準再生を行っている。このため、ユーザが所望の情報を取得し易くなる。
ここでいう遡った位置とは、聴覚的言語データ全体を連続的に再生した場合に、より早い時刻に再生される箇所を指す。
これにより、ユーザは、所望の情報を含む単位(例えば単位C)と、その前の単位(例えば単位B)との関係を把握することができ、所望の情報をより取得し易くなる。
これにより、ユーザが、再生装置100に聴覚的言語データを高速再生させて所望の情報を含む箇所を探す際、再生される音声がユーザや周囲の他者に耳障りとなるおそれを低減させ得る。かつ、ユーザが所望する情報を含む箇所については、音声再生部140が比較的大きい音量で再生を行うことで、ユーザが、所望の情報を得易くなる。
別法として、音声再生部140が、標準再生時よりも大きい音量で高速再生を行うようにしてもよい。これにより、高速再生時にユーザが、所望の情報を含む箇所を検出し易くすることができる。
図3の(A)部は、聴覚的言語データの再生速度および制御部分の設定例を示す。
図3の(A)部において、聴覚的言語データは単位A〜Fに分割されており、各単位に対して再生速度が設定されている。さらに、単位Dは制御部分に設定されている。符号Hから単位A〜F各々への線は、再生速度が、単位ごとに設定されることを示している。符号Lは、単位Dが制御部分に設定されていることを示している。
図3の例では、制御部分は標準再生すべき部分を示している。
図3の(B)部において、符号M1およびM3は、単位A〜C、EおよびFに高速再生(音声小)が設定されていることを示している。符号M2は、単位Dに、標準再生(音声大)が設定されていることを示している。
一方、制御部分に設定されていない部分については、音声再生部140がユーザの指示に応じた速度で再生する。このため、ユーザが、より高速な再生(図3の例では高速再生)を指示することで、聴覚的言語データ全体の再生時間を短縮することができる。
従って、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
これにより、制御部分以外の部分について音声再生部140が高速再生を行う。その結果、ユーザが制御部分以外の部分について所望の情報が存在するか否かを判断する際、再生される音声がユーザや周囲の他者に耳障りとなるおそれを低減させ得る。かつ、制御部分については、音声再生部140が比較的大きい音量で再生を行う。その結果、ユーザが、所望の情報を得易くなる。
別法として、音声再生部140が、制御部分の再生時よりも大きい音量で、制御部分以外の部分の再生を行うようにしてもよい。これにより、制御部分以外の部分を高速再生する際に、ユーザが、所望の情報を含む箇所を検出し易くすることができる。
例えば、設定部194が、聴覚的言語データの各単位のうち重要である可能性の比較的低い部分を制御部分に設定する。これにより、ユーザが、聴覚的言語データを発話音声にて聴く際、音声再生部140は、重要である可能性の比較的低い部分を比較的高速で再生することができる。このように再生を行うことで、聴覚的言語データ全体の再生時間を短縮することができる。
一方、重要である可能性の高い部分である制御部分に設定されていない部分については、音声再生部140は、ユーザの指示に応じた再生速度で再生を行う。これにより、ユーザは、重要である可能性の高い部分のうち所望の情報を含むと判断した部分を比較的低速で再生(図3の例では標準再生)させて、所望の情報を得ることができる。
また、ユーザは、音声再生部140の出力する発話音声にて聴覚的言語データの内容を確認できる。このため、表示部130を見続ける必要なしに、所望の情報を取得し得る。
操作入力部150は、例えば表示部130の表示画面に設けられてタッチパネルを構成するタッチセンサなどの入力デバイスを有していてもよい。操作入力部150は、ユーザ操作を受け付ける。
通信制御部191は、通信部110を制御して、通信部110に通信を行わせる。
表示制御部193は、表示部130を制御して、表示部130に各種画像を表示させる。
アプリケーション実行部196は、各種アプリケーションプログラムを実行する。
再生速度を指示するユーザ操作として様々な操作を用いることができる。例えば、操作入力部150は、再生速度毎の入力キー(押ボタンまたは画面表示されるアイコン)、あるいは再生速度増減の入力キーを有していてもよい。検出部195は、それらの入力キーに対するキー操作を、再生速度を指示するユーザ操作として検出してもよい。
別法として、表示部130が、聴覚的言語データ全体の再生時間における現在の再生位置を示すスクロールバーないしスライドスイッチを表示してもよい。検出部195は、そのスクロールバーないしスライドスイッチに対するタッチ操作(スクロール操作またはスライド操作)を、再生速度を指示するユーザ操作として検出してもよい。
これにより、ユーザは、表示部130の表示対するスクロール操作と、再生速度を指示するユーザ操作とを別々に行う必要がない。この点で、ユーザの手間を省くことができる。
別法として、解析部192は、音声の強弱を解析してもよい。解析部192は、音声の高低を解析してもよい。さらには、解析部192は、音声の強弱と音声の高低とを解析するなど、複数の解析を行ってもよい。特に、解析部192が聴覚的言語データの構文解析を行う場合について説明する。この場合、解析部192は、構文解析結果に基づいて、聴覚的言語データを単語、文節、文、または段落といった文の単位に分割することができ、分割した各々を聴覚的言語データの単位とすることができる。
例えば、解析部192は、聴覚的言語データの種類の解析として、言語が英語か日本語かといった、聴覚的言語データの言語の判定を行う。また、解析部192は、聴覚的言語データの種類の解析として、聴覚的言語データの用途の判定を行う。聴覚的言語データの用途には、ソーシャル・ネットワーク・サービス(Social Network Service;SNS)の投稿文、新聞または雑誌等の記事、電子メール等のメッセージが含まれていてもよい。
具体例を以下に示す。アプリケーション実行部196が、モバイルブラウザ(Mobile Browser、携帯端末装置など携帯機器向けのウェブブラウザ)のアプリケーションプログラムを実行してSNSのサイトに接続している場合について説明する。この場合、解析部192は、アプリケーション実行部196が取得して記憶デバイス121に記憶させる聴覚的言語データが、SNSの投稿文であると判定する。
アプリケーション実行部196が、モバイルブラウザのアプリケーションプログラムを実行して、SNSや記事以外のウェブサイトに接続している場合について説明する。この場合、解析部192は、アプリケーション実行部196が取得して記憶デバイス121に記憶させる聴覚的言語データが、ウェブページであると判定する。
別法として、解析部192は、聴覚的言語データを使用するアプリケーションプログラム以外の情報に基づいて、その聴覚的言語データの種類を判定してもよい。具体例としては、解析部192は、聴覚的言語データのフォーマットを解析して聴覚的言語データの種類を判定してもよい。
図4A〜4Cは、聴覚的言語データの種類毎の、制御部分の設定規則の例を示す説明図である。
図4A〜4Cに示す設定規則に基づいて、設定部194は制御部分を設定する。
設定部194は、英語の聴覚的言語データに対しては、文章の頭の方の再生速度が比較的低速になるように制御部分を設定する。例えば、制御部分が標準再生を行う部分を示す場合、設定部194は、文章の頭の方に位置する単位を制御部分に設定する。これにより、文章の頭の方に位置する単位が高速再生されることを抑制する。
図4Aにおいて、符号O1は、英語向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。符号O2は、英語向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。
英語の文章では、重要な内容が文章の先頭の方に含まれることが多い。そこで、設定部194が文章の先頭の方に位置する単位に制御部分を設定するなど、音声再生部140が文章の頭の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。
別法として、設定部194が、文を単位として段落ごとに、段落の頭の方に位置する単位の再生速度が比較的低速になるように制御部分を設定してもよい。
図4Aにおいて、符号P1は、日本語向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。符号P2は、日本語向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。
日本語の文章では、重要な内容が文章の末尾の方に含まれることが多い。そこで、設定部194が文章の末尾の方に位置する単位に制御部分を設定するなど、音声再生部140が文章の末尾の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。
別法として、設定部194が、文を単位として段落ごとに、段落の末尾の方に位置する単位の再生速度が比較的低速になるように制御部分を設定してもよい。
図4Aにおいて、符号Q1は、SNS向けの設定規則として、再生速度が「速い」且つ音量が「小」であることが好ましい部分を示す。符号Q2は、SNS向けの設定規則として、再生速度が「遅い」且つ音量が「大」であることが好ましい部分を示す。
SNSの投稿文においては、文章の頭の方はあまり重要でないことが多い。従って、重要な内容は文章の末尾の方に含まれることが多い。そこで、設定部194が、文章の末尾の方に位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、文章の末尾の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。短い投稿文の場合、文節を単位としてもよい。
符号R1およびR3は、記事向けの設定規則として、再生速度が「速い」且つ音量が「小」であることが好ましい部分を示す。符号R2は、記事向けの設定規則として、再生速度が「遅い」且つ音量が「大」であることが好ましい部分を示す。
新聞や雑誌等の記事においては、文章の中間辺りで本題に入ることが多い。従って、重要な内容は文章の中間辺りに含まれることが多い。そこで、設定部194が、文章の中間辺りに位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、文章の中間辺りを比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでの単位は、段落であってもよいし、文であってもよい。
図4Bにおいて、符号S1およびS3は、電子メール向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。符号S2は、電子メール向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。
設定部194が、送信者名の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、送信者名を比較的低速で再生する。その結果、ユーザは、送信者名に基づいて重要なメッセージか否かを判定できる。
さらに、設定部194が、本文の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、本文を比較的低速で再生する。その結果、ユーザが、本文に含まれている所望の情報を取得し易くすることができる。
図4Cにおいて、符号T1およびT3は、ウェブページ向けの設定規則として、再生速度が「遅い」であることが好ましい部分を示す。符号T2およびT4は、ウェブページ向けの設定規則として、再生速度が「速い」であることが好ましい部分を示す。
設定部194が、タイトルの再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、タイトルを比較的低速で再生する。その結果、ユーザは、タイトルに基づいて重要な文章か否かを判定できる。
ウェブページにおいては、段落の頭の方で要件が示され、続いて補足説明や具体例が示されることが多い。すなわち、ウェブページにおいては、各段落の頭の方に重要な内容が含まれることが多い。そこで、設定部194が、各段落の頭の方に位置する単位の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、各段落の頭の方を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。
発話者は、重要な部分を強調するために、音声を強めて発話する場合がある。従って、音声の強い部分には重要な内容が含まれている可能性が高い。そこで、設定部194が、音声の強い部分の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、音声の強い部分を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでは様々な単位を用いることができる。例えば、単語、文節、文または文章を単位としてもよいし、聴覚的言語データを所定時間毎に区切った各部分を単位としてもよい。
発話者が重要な部分をしっかり発話することで、重要な部分の音程が高くなる場合がある。従って、音程の高い部分には重要な内容が含まれている可能性が高い。そこで、設定部194が、音程の高い部分の再生速度が比較的低速になるように制御部分を設定する。また、音声再生部140が、音程の高い部分を比較的低速で再生する。その結果、ユーザが所望の情報を取得し易くすることができる。ここでは様々な単位を用いることができる。例えば、単語、文節、文または文章を単位としてもよい。聴覚的言語データを所定時間毎に区切った各部分を単位としてもよい。
図5は、再生装置100が聴覚的言語データに制御部分を設定して再生する際の処理手順を示すフローチャートである。例えば、再生装置100は、聴覚的言語データを発話音声にて再生するよう要求するユーザ操作を検出すると、図5の処理を行う。
制御部190では、解析部192が、取得部120の取得した聴覚的言語データを解析する(ステップS102)。
音声再生部140は、設定部194からの聴覚的言語データを、設定部194の設定した制御部分に従って再生し、発話音声を出力する(ステップS105)。
その後、図5の処理を終了する。
設定部194が、解析部192の解析結果に基づいて制御部分を設定することで、音声再生部140が、聴覚的言語データのうち重要な内容を含む可能性の高い部分を低速で再生することができる。その結果、ユーザが所望の情報を取得し易くすることができる。一方、重要な内容を含む可能性の高い部分以外の部分については、音声再生部140が高速で再生できる。その結果、聴覚的言語データ全体の再生時間を短縮することができる。従って、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
具体例として、制御部分が比較的低速に再生する部分を示す場合について説明する。この場合、ユーザは、制御部分に設定されていない部分においても、所望の情報を含むと判断した部分については、音声再生部140に比較的低速に再生させて、所望の情報を取得することができる。一方、ユーザは、所望の情報を含まないと判断した部分については、音声再生部140に比較的高速に再生させて、聴覚的言語データ全体の再生時間を短縮することができる。
具体例として、音声再生部140は、再生速度を低下させるユーザ指示を検出部195が検出すると、現在の再生位置を含む単位の先頭へ再生位置を巻き戻す。さらに、音声再生部140は、低下させた再生速度にて聴覚的言語データを単位の先頭から再生する。
これにより、ユーザは、所望の情報を含む単位を先頭から聴くことができるので、所望の情報を取得し易くなる。
これにより、ユーザは、所望の情報を含む単位と、その前の単位との関係を把握することができ、所望の情報をより取得し易くなる。
具体例として、制御部分が比較的低速に再生すべき部分を示す場合について説明する。この場合、ユーザは、再生装置100に聴覚的言語データを比較的高速に再生させて所望の情報を含む箇所を探す際、再生される音声がユーザや周囲の他者に耳障りとなるおそれを低減させ得る。一方で、ユーザ所望の情報を含む箇所については、音声再生部140が比較的大きい音量で再生を行うことで、ユーザが、所望の情報を得易くなる。
別の具体例として、制御部分が高速に再生すべき部分を示す場合について説明する。この場合、比較的高速での再生時にユーザが、所望の情報を含む箇所を検出し易くすることができる。
これにより、ユーザは、表示部130の表示に対するスクロール操作と、再生速度を指示するユーザ操作とを別々に行う必要がない。この点で、ユーザの手間を省くことができる。
これにより、ユーザは、音声再生部140が再生する聴覚的言語データを視覚的にも確認することできる。例えば、ユーザは、音声再生部140が再生する聴覚的言語データを周囲の雑音等の影響で聴き取れなかった場合でも、表示部130の表示するテキストにて確認することができる。
また、ユーザは、音声再生部140の出力する発話音声にて聴覚的言語データの内容を確認できる。このため、ユーザは、表示部130を見続ける必要なしに、所望の情報を取得し得る。
これにより、設定部194は、聴覚的言語データの種類に応じて、重要な内容を含む可能性の高い部分を比較的低速に再生するよう、制御部分を設定することができる。
これにより、解析部192は、聴覚的言語データを使用するアプリケーションプログラムを判定するという簡単な処理にて、聴覚的言語データの種類を判定することができる。
図6は、本発明の実施形態における再生装置100の主要部分を示す概略ブロック図である。図6では、図1に示す再生装置100の各部のうち、取得部120と、解析部192と、設定部194と、音声再生部140とが示されている。
これにより、図1に示す構成の場合と同様、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
図7は、本発明の実施形態における再生速度制御部分設定装置(以下、単に「設定装置」とも称する)200の機能構成を示す概略ブロック図である。図7では、図1に示す再生装置100の各部のうち、取得部120と、解析部192と、設定部194とが示されている。
設定部194が制御部分を設定した聴覚的言語データを音声再生装置に再生させる。これにより、図1に示す構成の場合と同様、ユーザは、内容を未知の音データに含まれる情報の取捨選択を、より短時間で行うことができる。
設定装置200が具備する機能部は図7に示す機能部に限らない。設定装置200は、図7に示す各部に加えて他の機能部を含んでもよい。例えば、設定装置200は、通信部110(図1参照)をさらに具備してもよい。
「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含む。
「コンピュータ読み取り可能な記録媒体」は、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置を含む。さらに「コンピュータ読み取り可能な記録媒体」は、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。上記プログラムは、前述した機能の一部を実現しても良い。上記プログラムは、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
110 通信部
120 聴覚的言語データ取得部
121 記憶デバイス
130 表示部
140 音声再生部
150 操作入力部
190 制御部
191 通信制御部
192 解析部
193 表示制御部
194 再生速度制御部分設定部
195 ユーザ指示検出部
196 アプリケーション実行部
200 再生速度制御部分設定装置
Claims (13)
- 発話音声として再生されるデータを含む聴覚的言語データを取得する取得部と、
前記聴覚的言語データを解析して、解析結果を出力する解析部と、
前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定する設定部と、
前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する音声再生部と、
を具備する再生装置。 - 再生速度のユーザ指示を検出する検出部を具備し、
前記音声再生部は、前記聴覚的言語データのうち前記制御部分に設定されていない部分を、ユーザ指示に応じた再生速度で再生する請求項1に記載の再生装置。 - 前記検出部は、第1の再生速度で前記聴覚的言語データを再生させている期間中に、ユーザ指示として、再生速度の低下を指示する速度低下指示を検出し、
前記音声再生部は、前記速度低下指示に応答して、前記聴覚的言語データの再生位置を巻き戻し、
前記音声再生部は、前記第1の再生速度よりも遅い第2の再生速度にて巻き戻された再生位置から前記聴覚的言語データを再生する請求項2に記載の再生装置。 - 前記聴覚的言語データは、第1の単位を含む複数の単位を含み、
前記検出部は、第1の再生速度で前記第1の単位を再生させている期間中に、ユーザ指示として、再生速度の低下を指示する速度低下指示を検出し、
前記音声再生部は、前記速度低下指示に応答して、前記第1の再生速度よりも遅い第2の再生速度にて前記聴覚的言語データを前記第1の単位の先頭から再生する請求項3に記載の再生装置。 - 前記聴覚的言語データは、第1の単位を含む複数の単位を含み、
前記検出部は、第1の再生速度で前記第1の単位を再生させている期間中に、ユーザ指示として、再生速度の低下を指示する速度低下指示を検出し、
前記音声再生部は、前記速度低下指示に応答して、前記第1の再生速度よりも遅い第2の再生速度にて前記聴覚的言語データを前記第1の単位の先頭よりも前の再生位置から再生する請求項3に記載の再生装置。 - 前記音声再生部は、前記制御部分の再生音量を大きくする請求項1から5のいずれか一項に記載の再生装置。
- 前記聴覚的言語データをテキストにてスクロール可能に表示する表示部をさらに具備し、
前記表示部の表示する前記聴覚的言語データに対するスクロール操作を前記再生速度のユーザ指示として検出する
請求項1から6のいずれか一項に記載の再生装置。 - 前記表示部は、前記聴覚的言語データのうち前記音声再生部が再生している部分をテキストにて表示するように表示のスクロールを行う請求項7に記載の再生装置。
- 前記設定部は、前記解析結果に基づいて、発話音声の前記聴覚的言語データにおける比較的大音量の部分を比較的低速の再生速度で再生される部分に設定し、
前記音声再生部は、前記比較的大音量の部分を前記比較的低速の再生速度で発話音声として再生する
請求項1から8のいずれか一項に記載の再生装置。 - 前記設定部は、前記解析結果に基づいて、SNSの投稿文の前記聴覚的言語データの文章の末尾に位置する単位を比較的低速の再生速度で再生される部分に設定し、
前記音声再生部は、前記SNSの投稿文の前記聴覚的言語データの文章の末尾に位置する単位を前記比較的低速の再生速度で発話音声として再生する
請求項1から9のいずれか一項に記載の再生装置。 - 発話音声として再生されるデータを含む聴覚的言語データを取得する取得部と、
前記聴覚的言語データを解析して、解析結果を出力する解析部と、
前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定する設定部と、
を具備し、
前記制御部分以外の部分は前記制御部分よりも大きい音量で再生される部分とされる
設定装置。 - 発話音声として再生されるデータを含む聴覚的言語データを取得し、
前記聴覚的言語データを解析して、解析結果を出力し、
前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定し、
前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する、
ことを含む再生方法。 - コンピュータに、
発話音声として再生されるデータを含む聴覚的言語データを取得し、
前記聴覚的言語データを解析して、解析結果を出力し、
前記解析結果に基づいて、前記聴覚的言語データの少なくとも一部を、他の部分よりも低速の再生速度で再生される制御部分に設定し、
前記制御部分を他の部分よりも低速の再生速度で発話音声として再生し、前記制御部分以外の部分を前記制御部分よりも大きい音量で再生する、
ことを実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012240430 | 2012-10-31 | ||
JP2012240430 | 2012-10-31 | ||
PCT/JP2013/077799 WO2014069220A1 (ja) | 2012-10-31 | 2013-10-11 | 再生装置、設定装置、再生方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2014069220A1 JPWO2014069220A1 (ja) | 2016-09-08 |
JP6277958B2 true JP6277958B2 (ja) | 2018-02-14 |
Family
ID=50627134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014544412A Expired - Fee Related JP6277958B2 (ja) | 2012-10-31 | 2013-10-11 | 再生装置、設定装置、再生方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9728201B2 (ja) |
EP (1) | EP2916317B1 (ja) |
JP (1) | JP6277958B2 (ja) |
CN (1) | CN104756181B (ja) |
WO (1) | WO2014069220A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108885869B (zh) * | 2016-03-16 | 2023-07-18 | 索尼移动通讯有限公司 | 控制包含语音的音频数据的回放的方法、计算设备和介质 |
EP3244408A1 (en) * | 2016-05-09 | 2017-11-15 | Sony Mobile Communications, Inc | Method and electronic unit for adjusting playback speed of media files |
CN107068145B (zh) * | 2016-12-30 | 2019-02-15 | 中南大学 | 语音评测方法及系统 |
KR102329888B1 (ko) * | 2017-01-09 | 2021-11-23 | 현대자동차주식회사 | 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법 |
CN107808007A (zh) * | 2017-11-16 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 信息处理方法和装置 |
US20220383769A1 (en) * | 2019-11-07 | 2022-12-01 | Learning Squared, Inc. | Speech synthesizer with multimodal blending |
CN111916053B (zh) * | 2020-08-17 | 2022-05-20 | 北京字节跳动网络技术有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
CN113012498B (zh) * | 2021-02-22 | 2023-12-05 | 广东青腾信息科技有限公司 | 一种智能化的教育系统及教育方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62219066A (ja) * | 1986-03-19 | 1987-09-26 | Fujitsu Ltd | 文章読み上げ装置 |
JP3393478B2 (ja) * | 1994-06-15 | 2003-04-07 | 株式会社ナカヨ通信機 | 早送り巻戻し機能付き音声再生装置 |
JP3707872B2 (ja) * | 1996-03-18 | 2005-10-19 | 株式会社東芝 | 音声出力装置及びその方法 |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
US20060209076A1 (en) * | 2000-08-29 | 2006-09-21 | Vtel Corporation | Variable play back speed in video mail |
JP2002132282A (ja) * | 2000-10-20 | 2002-05-09 | Oki Electric Ind Co Ltd | 電子テキスト読み上げ装置 |
US20020086269A1 (en) | 2000-12-18 | 2002-07-04 | Zeev Shpiro | Spoken language teaching system based on language unit segmentation |
EP1554645A2 (en) * | 2002-06-13 | 2005-07-20 | Panasonic Automotive Systems Company Of America | Interface for a multifunctional system |
US7524191B2 (en) * | 2003-09-02 | 2009-04-28 | Rosetta Stone Ltd. | System and method for language instruction |
JP4684609B2 (ja) * | 2004-09-29 | 2011-05-18 | クラリオン株式会社 | 音声合成装置、制御方法、制御プログラム及び記録媒体 |
US20080189099A1 (en) * | 2005-01-12 | 2008-08-07 | Howard Friedman | Customizable Delivery of Audio Information |
JP2007219141A (ja) | 2006-02-16 | 2007-08-30 | Seiko Instruments Inc | 音声学習器、音声学習器の制御方法及び制御プログラム |
JP2009004859A (ja) * | 2007-06-19 | 2009-01-08 | Mizuho Information & Research Institute Inc | テレホンサービス処理システム、テレホンサービス処理プログラム及びテレホンサービス処理方法 |
JP2009075280A (ja) | 2007-09-20 | 2009-04-09 | Nippon Hoso Kyokai <Nhk> | コンテンツ再生装置 |
JP2009117989A (ja) * | 2007-11-02 | 2009-05-28 | Sony Corp | 情報再生装置及び情報再生方法 |
JP2010002841A (ja) * | 2008-06-23 | 2010-01-07 | Panasonic Corp | コンテンツ再生装置 |
JP5164041B2 (ja) * | 2008-09-10 | 2013-03-13 | 独立行政法人情報通信研究機構 | 音声合成装置、音声合成方法、及びプログラム |
JP5146434B2 (ja) * | 2009-10-05 | 2013-02-20 | 株式会社ナカヨ通信機 | 録音再生装置 |
JP2011087196A (ja) * | 2009-10-16 | 2011-04-28 | Nec Saitama Ltd | 電話機、及び電話機の話速変換方法 |
US20110184738A1 (en) * | 2010-01-25 | 2011-07-28 | Kalisky Dror | Navigation and orientation tools for speech synthesis |
US20120016671A1 (en) * | 2010-07-15 | 2012-01-19 | Pawan Jaggi | Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions |
US8473084B2 (en) * | 2010-09-01 | 2013-06-25 | Apple Inc. | Audio crossfading |
US9037743B2 (en) * | 2010-10-28 | 2015-05-19 | Avvasi Inc. | Methods and apparatus for providing a presentation quality signal |
-
2013
- 2013-10-11 JP JP2014544412A patent/JP6277958B2/ja not_active Expired - Fee Related
- 2013-10-11 CN CN201380055758.9A patent/CN104756181B/zh not_active Expired - Fee Related
- 2013-10-11 WO PCT/JP2013/077799 patent/WO2014069220A1/ja active Application Filing
- 2013-10-11 US US14/437,547 patent/US9728201B2/en not_active Expired - Fee Related
- 2013-10-11 EP EP13852242.0A patent/EP2916317B1/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
US9728201B2 (en) | 2017-08-08 |
EP2916317A1 (en) | 2015-09-09 |
WO2014069220A1 (ja) | 2014-05-08 |
JPWO2014069220A1 (ja) | 2016-09-08 |
US20150243294A1 (en) | 2015-08-27 |
EP2916317A4 (en) | 2016-08-31 |
EP2916317B1 (en) | 2017-10-11 |
CN104756181B (zh) | 2017-10-27 |
CN104756181A (zh) | 2015-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6277958B2 (ja) | 再生装置、設定装置、再生方法およびプログラム | |
JP5855223B2 (ja) | 同期されたコンテンツの再生管理 | |
ES2751484T3 (es) | Interfaz de entrada de voz incremental con retroalimentación en tiempo real | |
US20110153330A1 (en) | System and method for rendering text synchronized audio | |
US20060194181A1 (en) | Method and apparatus for electronic books with enhanced educational features | |
WO2014121233A1 (en) | Selective synchronous presentation | |
JP5106608B2 (ja) | 読み上げ支援装置、方法、およびプログラム | |
KR20140019167A (ko) | 음성 안내 기능을 제공하기 위한 방법 및 그 전자 장치 | |
US20130311187A1 (en) | Electronic Apparatus | |
KR101567449B1 (ko) | 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법 | |
WO2014154097A1 (en) | Automatic page content reading-aloud method and device thereof | |
US9286287B1 (en) | Reference content determination from audio content | |
US7861186B2 (en) | Systems and methods for navigating page-oriented information assets | |
JP7229296B2 (ja) | 関連情報提供方法及びシステム | |
US20140297285A1 (en) | Automatic page content reading-aloud method and device thereof | |
JP6365520B2 (ja) | 音声出力装置、音声出力方法、およびプログラム | |
WO2020023070A1 (en) | Text-to-speech interface featuring visual content supplemental to audio playback of text documents | |
KR101110644B1 (ko) | 전자책의 독서속도 향상 방법 및 장치 | |
KR102656262B1 (ko) | 이미지를 이용한 중국어 연상학습 콘텐츠 제공 방법 및 장치 | |
JP6373294B2 (ja) | データ再生装置およびデータ再生方法 | |
Francisco | Concurrent speech feedback for blind people on touchscreens | |
KR20230102565A (ko) | 한국어 회화 학습 콘텐츠 제공 방법 및 장치 | |
JP4514144B2 (ja) | 音声読み上げ装置およびプログラム | |
JP2006317876A (ja) | 音声読み上げ装置およびプログラム | |
KR20080070977A (ko) | 멀티미디어 텍스트 자동 검색 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6277958 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |