JP5058198B2 - 音声データ再生装置及び音声データ再生方法 - Google Patents

音声データ再生装置及び音声データ再生方法 Download PDF

Info

Publication number
JP5058198B2
JP5058198B2 JP2009078702A JP2009078702A JP5058198B2 JP 5058198 B2 JP5058198 B2 JP 5058198B2 JP 2009078702 A JP2009078702 A JP 2009078702A JP 2009078702 A JP2009078702 A JP 2009078702A JP 5058198 B2 JP5058198 B2 JP 5058198B2
Authority
JP
Japan
Prior art keywords
speed
upper limit
speech
limit value
playback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009078702A
Other languages
English (en)
Other versions
JP2010230992A (ja
Inventor
知克 奥谷
弘利 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2009078702A priority Critical patent/JP5058198B2/ja
Publication of JP2010230992A publication Critical patent/JP2010230992A/ja
Application granted granted Critical
Publication of JP5058198B2 publication Critical patent/JP5058198B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Telephone Function (AREA)

Description

本発明は、会話などの音声を含む音声データの再生処理を行う音声データ再生装置及び音声データ再生方法に関し、特に、出力音声の話速が入力音声の話速に対して速くなるよう変換する話速変換(倍速再生とも呼ばれる)の技術に関連した音声データ再生装置及び音声データ再生方法に関する。
現在、音声データを再生することが可能な音声データ再生機能が、様々な機器に実装されている。例えば、持ち運び可能な音楽再生プレイヤーやIC(Integrated Circuit)レコーダーなどのような音声データを主に取り扱う機器はもちろん、PC(Personal Computer)や車載ナビゲーション装置、携帯電話機、デジタルカメラなどを初めとする様々なデジタル機器に音声データ再生機能が実装されている。また、音声データ処理に関する技術も発達しており、音声データ再生機能の1つである倍速再生機能(発話時の速度よりも速い速度、すなわち、出力音声の話速が入力音声の話速に対して速くなるよう話速変換を行って再生する機能)が実装されている機器も多い。
また、倍速再生は、音声を聴取する時間を短縮できるという点で非常に有用であり、例えば、下記の特許文献1に記載されているようなコンテンツの再生技術や学習教材・教育教材に関する技術などを始めとして様々な分野で用いられている。
特開2008−270952号公報
倍速再生では、単に再生速度の速い再生が行われるだけでは無意味であり、ユーザが音声の内容をきちんと聞き取ることが可能であることが重要である。再生速度が高ければ再生時間が短縮できる一方、再生速度が高すぎるとユーザはその内容を聞き取ることが難しくなってしまう。実際には、ユーザが音声の内容を聞き取ることができる上限の再生速度が存在しており、この上限の再生速度を超える倍速再生が行われてしまった場合には、ユーザはその内容を聞き取ることができずに不快な思いとなったり、聞き取れなかった箇所を再度聞き直さなくてはならず、結果的に再生時間を効率良く短縮されなかったりするという弊害がある。
また、従来の機器は手動による倍速度の決定が行われており、再生される音声のテンポに合わせてユーザが倍速度を調整しているため、当該装置を副次的に使用し、かつ、当該装置の速度調整が実施できない状況下(例:運転中のドライバ)では、適切な速度調整が施行できない問題がある。
また、何か別の行動を行いながら倍速再生を聞いているような場合に、上限の再生速度を超える倍速再生が行われてしまうと、倍速再生の内容を聴取しようと音声の聞き取りに注意力が傾き、その結果、倍速再生の聴取と同時に行っている行動に対する集中力が低下するおそれがある。例えば、車の運転中や歩行中に倍速再生の聴取を行っているような場合には、運転や歩行に対する集中力が低下し、思わぬ危険が生じてしまう可能性がある。
一方、従来の倍速再生機能では、実用に即した上限値というものは設定されておらず、また、上限値を設定しようという考え方すら存在していない。従来の倍速再生では、なるべく高い再生速度まで再生できるようにすること、ユーザが任意に(あるいはプリセットされた値に)再生速度を変更操作できるようにすることしかユーザに提供されない。なお、従来の倍速再生機能では倍速再生可能な最大速度は存在するかもしれないが、この値は、例えば倍速再生システムの能力に依存して自ずと定まっているものであり、上記のような弊害を考慮して明確に定められたものではない。
本発明は、上記の目的を達成するため、聞き取りやすく、聴取のために過度の注意を払う必要がない倍速再生を実現するための音声データ再生装置及び音声データ再生方法を提供することを目的とする。
上記の目的を達成するため、本発明によれば、出力音声の話速が入力音声の話速に対して速くなるよう変換する倍速再生を行う音声データ再生装置であって、
前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定手段と、
前記可変上限値設定手段によって設定された前記上限値以下の再生速度で前記倍速再生を行う倍速再生手段と
前記倍速再生の現在の再生速度を変更する現在速度変更手段とを、
有し、
前記現在速度変更手段が、入力インタフェースからのユーザによる操作入力に従って前記現在の再生速度を変更するように構成されており、
前記ユーザによる操作入力に従って前記現在の再生速度が前記上限値を超える値に変更された場合には、前記可変上限値設定手段が、前記上限値を超えて変更された前記現在の再生速度の値が前記上限値に反映されるように前記上限値の変更を行うように構成されている音声データ再生装置が提供される。
この構成により、通常よりも速い速度での再生(発話時の速度よりも速い速度による再生、あるいは、入力音声の話速が速くなるよう話速変換を行った再生)の際に、ユーザが音声を聞き取ることができ、かつ聴き取り不可能な速度に上昇することを防止できる。その結果、聴覚集中による視覚集中の阻害を制御可能とし、ユーザが同時に行っている別の行動に対する集中力を低下させないようにすることが可能となる。また、本発明に係る通常よりも速い速度での再生システムに、柔軟性を与えることを可能とし、個々人の聴覚能力とユーザ状況による聴覚集中の許容量に応じた上限値をリアルタイムに決定することも可能となる。また、この構成により、様々な状況に応じて、通常よりも速い速度での再生に係る再生速度の変更を行えるようになり、ユーザが、通常よりも速い速度での再生に係る再生速度を変更することが可能となり、ユーザによって変更された再生速度が上限値に反映されるようになる。
さらに、本発明では、上記の構成に加えて、前記上限値以下の基本値を設定する基本値設定手段を有し、前記倍速再生手段が前記基本値を初期速度として前記倍速再生を開始するように構成されている音声データ再生装置が提供される。
この構成により、倍速再生機構は等倍速(1.0倍速)よりも速い速度で開始することが可能となる。
さらに、本発明では、上記の構成に加えて、前記基本値のデフォルトの値を前記入力音声の話速の1.3倍速とする音声データ再生方法が再生される。
この方法により、ドライバが聞き取ることができる倍速再生効率の良い初期速度(1.3倍速)で倍速再生が開始できるようになる。
さらに、本発明では、上記の構成に加えて、前記可変上限値設定手段が、入力インタフェースからのユーザによる操作入力に従って前記上限値を変更するように構成されている音声データ再生装置が提供される。
この構成により、ユーザが自分で上限値の設定を行うことが可能となる。
さらに、本発明では、上記の構成に加えて、個々のユーザに適した前記上限値を決定するための上限値決定テストを実施する上限値決定テスト手段を有し、前記可変上限値設定手段が、前記上限値決定テスト手段による前記上限値決定テストの結果に基づいて前記上限値の変更を行うように構成されている音声データ再生装置が提供される。
この構成により、個々のドライバに適した上限値が設定できるようになる。
さらに、本発明では、上記の構成に加えて、前記入力音声の話速と前記上限値とが関連付けられている音声データ再生装置が提供される。
この構成により、音声に含まれる会話の話速と上限値との関係を設定することが可能となる。
また、上記の目的を達成するため、本発明によれば、出力音声の話速が入力音声の話速に対して速くなるよう変換する倍速再生を行う音声データ再生装置であって、
前記倍速再生を行う前記入力音声の話速を算定する話速算定手段と、
前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度に関して、前記話速算定手段で算定された前記入力音声の話速に基づいて、前記倍速再生の現在の再生速度を自動的に変更する現在速度変更手段と
前記再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定手段とを有し、
前記現在速度変更手段が、前記入力音声の話速に加えて、前記上限値に基づいて前記倍速再生の前記現在の再生速度を変更するよう構成されており、
前記可変上限値設定手段が、前記入力音声の話速に関連付けられている前記上限値を設定するよう構成されている音声データ再生装置が提供される。
この構成により、音声に含まれる会話の話速を考慮して、通常よりも速い速度での再生に係る再生速度が変更されるようになる。また、この構成により、音声に含まれる会話の話速に加え、設定されている上限値も考慮して、通常よりも速い速度での再生に係る再生速度が変更されるようになり、音声に含まれる会話の話速と上限値との関係を設定することが可能となる。
さらに、本発明では、上記の構成に加えて、前記話速算定手段が、前記入力音声に含まれる音拍幅を解析する音拍幅解析部を有し、
前記音拍幅解析部が、前記入力音声に関して、単位時間当たりに含まれる音拍幅に基づいて前記入力音声の話速を算定するよう構成されており、
前記可変上限値設定手段が、前記音拍幅と前記上限値との関係を示す情報を参照して、前記音拍幅解析部で解析された前記音拍幅に対応する前記上限値を設定するよう構成されている音声データ再生装置が提供される
また、上記の目的を達成するため、本発明によれば、出力音声の話速が入力音声の話速に対してくなるよう変換する倍速再生を行う音声データ再生方法であって、
前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定ステップと、
前記可変上限値設定ステップで設定された前記上限値以下の再生速度で前記倍速再生を行う倍速再生ステップと
前記倍速再生の現在の再生速度を変更する現在速度変更ステップとを、
有し、
前記現在速度変更ステップにおいて、入力インタフェースからのユーザによる操作入力に従って前記現在の再生速度を変更し、
前記ユーザによる操作入力に従って前記現在の再生速度が前記上限値を超える値に変更された場合には、前記可変上限値設定ステップにおいて、前記上限値を超えて変更された前記現在の再生速度の値が前記上限値に反映されるように前記上限値の変更を行う音声データ再生方法が提供される。
この方法により、通常よりも速い速度での再生の際に、ユーザが音声を聞き取ることができ、かつ聴き取り不可能な速度に上昇することを防止できる。その結果、聴覚集中による視覚集中の阻害を制御可能とし、ユーザが同時に行っている別の行動に対する集中力を低下させないようにすることが可能となる。また、本発明に係る通常よりも速い速度での再生システムに、柔軟性を与えることを可能とし、個々人の聴覚能力とユーザ状況による聴覚集中の許容量に応じた上限値をリアルタイムに決定することも可能となる。また、この構成により、様々な状況に応じて、通常よりも速い速度での再生に係る再生速度の変更を行えるようになり、ユーザが、通常よりも速い速度での再生に係る再生速度を変更することが可能となり、ユーザによって変更された再生速度が上限値に反映されるようになる。
さらに、本発明では、上記の方法に加えて、前記上限値以下の基本値を設定する基本値設定ステップを有し、前記倍速再生ステップにおいて、前記基本値を初期速度として前記倍速再生を開始する音声データ再生方法が提供される。
この方法により、倍速再生機構は等倍速(1.0倍速)よりも速い速度で開始することが可能となる。
さらに、本発明では、上記の方法に加えて、前記基本値のデフォルトの値を前記入力音声の話速の1.3倍速とする音声データ再生方法が再生される。
この方法により、ドライバが聞き取ることができる倍速再生効率の良い初期速度(1.3倍速)で倍速再生が開始できるようになる。
さらに、本発明では、上記の方法に加えて、前記可変上限値設定ステップにおいて、入力インタフェースからのユーザによる操作入力に従って前記上限値を変更する音声データ再生方法が提供される。
この方法により、ユーザが自分で上限値の設定を行うことが可能となる。
さらに、本発明では、上記の方法に加えて、個々のユーザに適した前記上限値を決定するための上限値決定テストを実施する上限値決定テストステップを有し、前記可変上限値設定ステップにおいて、前記上限値決定テストステップにおける前記上限値決定テストの結果に基づいて前記上限値の変更を行う音声データ再生方法が提供される。
この方法により、個々のドライバに適した上限値が設定できるようになる。
さらに、本発明では、上記の方法に加えて、前記入力音声の話速と前記上限値とが関連付けられている音声データ再生方法が提供される。
この方法により、音声に含まれる会話の話速と上限値との関係を設定することが可能となる。
また、上記の目的を達成するため、本発明によれば、出力音声の話速が入力音声の話速に対してくなるよう変換する倍速再生を行う音声データ再生方法であって、
前記倍速再生を行う前記入力音声の話速を算定する話速算定ステップと、
前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度に関して、前記話速算定ステップで算定された前記入力音声の話速に基づいて、前記倍速再生の現在の再生速度を変更する現在速度変更ステップと
前記再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定ステップとを有し、
前記現在速度変更ステップにおいて、前記入力音声の話速に加えて、前記上限値に基づいて前記倍速再生の前記現在の再生速度を変更し、
前記可変上限値設定手段において、前記入力音声の話速に関連付けられている前記上限値を設定する音声データ再生方法が提供される。
この方法により、音声に含まれる会話の話速を考慮して、通常よりも速い速度での再生に係る再生速度が変更されるようになる。また、この方法により、音声に含まれる会話の話速に加え、設定されている上限値も考慮して、通常よりも速い速度での再生に係る再生速度が変更されるようになり、音声に含まれる会話の話速と上限値との関係を設定することが可能となる。
さらに、本発明では、上記の方法に加えて、前記話速算定ステップが、前記入力音声に含まれる音拍幅を解析する音拍幅解析ステップを有し、
前記音拍幅解析ステップにおいて、前記入力音声に関して、単位時間当たりに含まれる音拍幅に基づいて前記入力音声の話速を算定し、
前記可変上限値設定ステップにおいて、前記音拍幅と前記上限値との関係を示す情報を参照して、前記音拍幅解析部で解析された前記音拍幅に対応する前記上限値を設定する音声データ再生方法が提供される。
また、自動で倍速再生することの弊害として、相手の話し方のテンポ(拍節の速さ)が変わってしまうため、本来、等倍速にて表現されていた感情の調子が判らなくなる。特に相手が知人の場合は、話速を速くすると相手がイライラしている、怒っているなどの錯覚が発生する。そのため、本発明に係る倍速再生機構では、再生速度に合わせて音拍のトーン(声調)の強弱差を弱めることで、感情の調子を軟弱にすることも可能である。
本発明は上記構成及び方法を有しており、ユーザが聞き取りやすく、聴取のために過度の注意を払う必要がない倍速再生を実現するという効果を有している。
本発明の実施の形態において、倍速再生を行う倍速再生機能を有する受話音声処理部の構成の一例を示すブロック図である。 本発明の実施の形態における倍速再生処理の倍速再生処理による処理の一例を示す音声波形のグラフである。 本発明の実施の形態において、実用速度範囲内で再生速度の変動を行う場合の再生速度と時間との関係の一例を示すグラフである。 本発明の実施の形態における音拍幅及び再生速度(倍率)の概念を説明するための図である。 本発明の実施の形態において、上限値を直接ユーザが変更する方法の一例を示すフローチャートである。 本発明の実施の形態において、基本値を直接ユーザが変更する方法の一例を示すフローチャートである。 本発明の実施の形態において、ユーザによる操作入力で設定された再生速度を反映して上限値を変更する方法の一例を示すフローチャートである。 本発明の実施の形態において、ユーザによる操作入力で設定された再生速度を反映して基本値を変更する方法の一例を示すフローチャートである。 本発明の実施の形態において、初期テストを行う場合の再生速度と時間との関係の一例を示すグラフである。 本発明の実施の形態における再生速度(倍率)と適切な平均音拍幅との関係の一例を示すグラフである。 本発明の実施の形態において、話速に適した再生速度に変更する処理の一
以下、本発明の実施の形態について説明する。
本発明の実施の形態では、音声データを通常よりも速い再生速度で再生する倍速再生の実用速度範囲として上限値(ピーク)が設定され、この上限値を超える速度での倍速再生は行われないようにする。
一般的に、人間が聴取可能な倍速再生の速度や、同時に別の行動を行っている場合に聴取可能な倍速再生の速度には上限が存在する。また、倍速再生の速度の上限は、個々人の聴取能力によって異なっている。こうした上限を超える速度の倍速再生が行われた場合、ユーザは、その内容を聞き取ることができないだけではなく、その内容を聞き取ろうと意識が傾き、その結果、同時に行っている別の行動に対する集中力が阻害されてしまう可能性がある。例えば、倍速再生の聴取を運転中や歩行中に行っているような場合には、ユーザの移動の安全性が低下するなどの弊害が生じる。本発明では、倍速再生の速度に関して、こうした要因を踏まえた上限値を定め、この上限値を超える速度での倍速再生は行われないようにする。
また、本発明の実施の形態では、上記の上限値に基づいて基本値が設定される。基本値は、上記の上限値よりも低い再生速度(かつ、倍速再生を行わない場合の再生速度よりも高い再生速度)であり、この基本値を初期値として倍速再生が開始される。なお、基本値及び上限値に関して、ユーザが再生速度を手動で変動させながら倍速再生が行われる手動変速モードの基本値及び上限値(システム上の基本値及び上限値)と、倍速再生システムが再生速度を自動で変動させながら倍速再生が行われる自動変速モードの基本値及び上限値は、それぞれ別に設定されてもよく、また、後述のように、自動変速モードにおいて各音拍幅に対応した基本値及び上限値が設定されてもよい。
本発明の実施の形態では、上記の上限値によって決定される再生速度の範囲(実用速度範囲)の再生速度で倍速再生を行うことで、ユーザが聞き取りやすい倍速再生を実現することが可能となる。倍速再生時に再生速度を変更する際においては(特に自動変速モードの場合においては)、この実用速度範囲から逸脱しないように再生速度が変動されることが望ましい。
また、本発明の実施の形態では、ユーザが上記の上限値を事前に設定することが可能である。また、上記の上限値を定めるためのテストを行ったり、手動変速モード時の手動操作から上限値の学習動作を行ったりすることも可能である。
次に、本発明の実施の形態における音声データ再生装置の構成の一例について説明する。図1は、本発明の実施の形態において、倍速再生を行う倍速再生機能を有する音声データ再生装置の構成の一例を示すブロック図である。
図1に図示されている音声データ再生装置120は、音声データキャッシュ121、音声処理部123、音声再生出力部125を有している。なお、音声データ再生装置120は、ユーザが操作入力を行うための入力インタフェース(GUI(Graphic User Interface)、操作スイッチや操作ボタン、音声認識システムによる音声入力インタフェースなど)や、情報を報知するディスプレイ及びスピーカなどを有していてもよいが、ここでは、図示省略する。
音声データキャッシュ121は、再生を行う音声データをキャッシュ(一時格納)する機能を有している。例えば、音声データ再生装置120は、音声データ記録メディアや外部装置(通信を介して接続)から再生用の音声データを取得し、その音声データを再生前にいったん音声データキャッシュ121に格納する。また、音声処理部123は、音声データキャッシュ121に格納されている音声データを読み出し、音声データの再生処理を制御する機能を有している。また、音声再生出力部125は、音声データの再生及び出力処理を行う機能を有している。
また、音声処理部123は、再生・停止制御部1231、倍速再生機構部1232によって構成されている。なお、音声処理部123における再生機能は、コンピュータによって実行可能なプログラムによっても実現可能である。
再生・停止制御部1231は、外部からの指示(例えば、ユーザによる入力)に基づいて、音声データキャッシュ121からの音声データの読み出しを開始/中断したり、同じく外部からの指示に基づいて、音声データの再生速度を変更したりすることが可能である。
また、倍速再生機構部1232は、音声データキャッシュ121に蓄積されている通話相手からの受信データを通常よりも速い再生速度で再生するための機能を有しており、自動変速制御部1233、音拍幅解析部1234、実用速度上限値学習部1235によって構成されている。
自動変速制御部1233は、音声データの再生速度を自動で調整する機能を有している。自動変速制御部1233は、上限値決定部1236、基本値決定部1237、変速指示部1238によって構成されている。
上限値決定部1236は、倍速再生を行う際に実用再生速度の上限値を決定する機能を有しており、基本値決定部1237は、倍速再生を行う際に実用再生速度の基本値を決定する機能を有している。上限値決定部1236で決定された上限値、及び、基本値決定部1237で決定された基本値は、変速指示部1238に通知される。
なお、倍速再生を行う際に用いられる上限値は、ユーザが聞き取ることが可能な再生速度(あるいは、ユーザによって行われている別の行動に対するユーザの集中力が低下しない上限の再生速度)に依存して定められるものであり、基本値は、上限値に対して余裕を持った再生速度(上限値の倍速再生よりもゆっくりした倍速再生)である。実際の倍速再生における再生速度の変動範囲には、上限値によって再生速度の最大値が規定される。また、下限値としては上記の基本値が用いられてもよく、あるいは、特別な値が規定されなくてもよい(例えば、等倍速を下限値としてもよい)。また、本明細書では、倍速再生の速度を元の音声データの再生速度に対する倍率で表現し、上限値及び基本値も再生速度の倍率によって表現する。
また、変速指示部1238は、倍速再生を行う際に決定された実用再生速度の上限値及び基本値、さらには音拍幅解析部1234によって解析された音拍幅(話速を考慮)に基づいて、実際に倍速再生を行う際の再生速度を決定する機能を有している。変速指示部1238で決定された実際に倍速再生を行う際の再生速度は、音声再生出力部125に通知され、この再生速度に基づいて音声データの倍速再生処理が行われる。すなわち、変速指示部1238で決定された再生速度が、実際にユーザが体感する再生速度となる。
また、音拍幅解析部1234は、再生する音声データに含まれる音拍幅を解析する機能を有している。音拍幅解析部1234が、例えば、再生する音声データの音声認識結果(音声認識は、この音拍幅解析部1234で行われてもよく、あるいは、不図示の音声認識システムで行われてもよい)から、その音声の音拍幅を解析する機能を有している。なお、音拍幅に関しては後で説明する。
また、実用速度上限値学習部1235は、特定のユーザに適した上限値(実用再生速度の上限値)を学習によって決定する機能を有している。なお、上限値と同様に基本値に関しても、ユーザにとって適切な基本値を学習によって決定してもよい。さらに、初期テスト実施部1239、リアルタイム学習部1240を有している。初期テスト実施部1239は、特定のユーザにとって適した再生速度を、初期テストを実施することで決定する機能を有している。また、リアルタイム学習部1240は、実際に倍速再生が行われている際にユーザによって設定された再生速度をリアルタイムで学習して、実用速度上限値を決定する機能を有している。
また、音声再生出力部125では、変速指示部1238で決定された再生速度に従って、音声データの倍速再生処理が行われる。本発明は、この倍速再生処理の方法に関しては特に限定するものではなく、音声再生出力部125は、例えば、通常のデジタル信号処理による倍速再生処理を行えばよい。通常の倍速再生処理では、元の音程を維持する(すなわち、話者の声質を変えない)音程変換処理が行われる。通例では、フーリエ変換をしかって音声部分の同類波形や無音部分の同類波形に対して時間軸に等比な加除算を行うことで音声伸長が実現される。
また、図2は、本発明の実施の形態における倍速再生処理の倍速再生処理による処理の一例を示す音声波形のグラフである。図2に図示されているように、音声波形は通常いくつかの同類波形によって形成されており、元の音声波形の音声伸長をカットすることで音声の再生時間を短縮することが可能である。なお、図2には、一例として元の音声波形を2分の1にした2倍速の音声波形が図示されているが、N分の1にすることでN倍速の音声波形が実現される。
また、会話のスピード(話速)は、単位時間当たりに含まれる音拍数によって表すことが可能である。1音拍は、例えば1つの母音を含む音拍幅を有しており、例えば『やきにく』という単語は『や(YA)』、『き(KI)』、『に(NI)』、『く(KU)』の4音拍(4つの母音を含む4音拍の有声音)とみなすことができる。
例えば、図3に図示されているように、1.0倍(等倍速)の『YAKINIKU』という単語は、1.1倍、1.3倍、1.5倍、2.0倍と再生速度を速くするにつれて各音拍幅が短くなり、単位時間当たりに含まれる音拍幅(音拍数の逆数、すなわち、話速の逆数)は大きくなる。会話の話速が速い場合(早口で話している場合など)には、単位時間当たりに含まれる音拍幅は小さくなり、会話の話速が遅い場合(ゆっくり話している場合など)には、単位時間当たりに含まれる音拍幅は大きくなる。なお、通常の会話では、音拍幅の異なる音拍が混在し、また、有音部分(話者が発生している状態)に加えて無音部分(話者が発生していない状態)も存在するため、ある一定時間に含まれる音拍数から得られる平均音拍数(逆数は平均音拍幅)が話速として考慮されることが望ましい。
また、ユーザが倍速再生を聞き取ることができる能力が音拍幅に依存していることも考えられる。この場合、ある音拍幅より小さくなるとその会話の内容を聞き取ることができなくなるのであれば、ユーザが会話の内容を聞き取ることができるかどうかの境界となる音拍幅(聞き取ることができる最小音拍幅)が存在することになる。この境界となる最小音拍幅は、単に再生速度(倍率)のみで決定されるのではなく、再生速度(倍率)に加えて話速が考慮される必要がある。
また、平均音拍幅の長さやその他の外乱(ノイズなど)によって、実際の実用再生速度の上限値は変動することが考えられる。例えば、図3に図示されている1.0倍の『YAKINIKU』という単語を1.3倍より大きな再生速度で再生すると聞き取りにくくなる場合、1.3倍が実用再生速度の上限値として定まる。しかしながら、元の発声がもっと早口であり、元の単語の音拍幅がより短い場合には、実用再生速度の上限値として定まる値はもっと小さくなることが予想される。
次に、本発明の実施の形態における動作について説明する。
上記の上限値は、例えば、初期状態(工場出荷時)においては所定の初期値(デフォルト値)が設定される。なお、出願人は、統計による検証を行い、上限値として1.3倍に設定することが望ましいという結果を得ている。また、初期状態(工場出荷時)においては、基本値はこの上限値の初期値よりも低い値(例えば、1.2倍)が設定されてもよく、基本値が上限値と同一の値(例えば、1.3倍)に設定されてもよい。
最も基本的な動作としては、これらデフォルトの初期値は変動できないようにし、デフォルトの上限値及び基本値に従った倍速再生を行う方法が可能である。例えば、図4に図示されているように、倍速再生を開始した場合には、開始時点における再生速度を基本値に設定する。なお、図4では、デフォルトの基本値として設定されている1.2倍に再生速度が設定されているが、デフォルトの基本値は任意の値であってよく、例えば、1.0倍とすることも可能である。このように、基本値が上限値よりも低い値に設定されている場合には、設定された基本値から倍速再生を開始して、いきなり高速の倍速再生が行われないようにすることで、耳障りな倍速再生が行われないようにし、例えば、ユーザが同時に行って入る別の行動に対する集中力を低下させないようにすることが可能となる。
また、倍速再生の再生速度は、上限値を上限とする実用速度範囲(下限値として基本値が設定されてもよい)内で変動されるようにすることが望ましい。このとき、なるべく速い再生速度で倍速再生を行ったほうが通常再生に戻るまでの時間が短縮されるが、本発明の実施の形態では、設定されている上限値を超える再生速度での倍速再生は行われないようにする。例えば、図4に図示されているように、段階的に上限値に近づくように再生速度を変動(増加)させ、上限値に到達した場合には、それ以上再生速度を上げずに倍速再生を行う。なお、ここでは、段階的に再生速度を上げる(再生速度を離散的な値で変動させる)ように図示されているが、再生速度を滑らかに上げてもよい。また、再生速度を上限値まで到達させずに、上限値に対して一定値だけ低い値を超えないよう再生速度を制御してもよい。これにより、上限値を超えた倍速再生が行われないようにすることで、聞き取りにくい倍速再生が行われないようにし、例えば、ユーザが同時に行って入る別の行動に対する集中力を低下させないようにすることが可能となる。
また、再生速度の変動に関しては、ユーザが再生速度の変動を行えるようにしてもよく(手動変速モード)、倍速再生システムにおいて自動的に再生速度の変動が行われるようにしてもよい(自動変速モード)。また、手動変速モード及び自動変速モード共に、倍速再生の再生速度は、上限値を上限とする実用速度範囲内で変動されるようにすることが望ましいが、手動変速モードに関しては、ユーザが上限値を超えて再生速度を変動できるようにしてもよく、さらに、上限値を超えて再生速度が変動された場合には、次回の倍速再生時において、上限値を超えて設定された再生速度の値が新たな上限値に反映されるようにしてもよい。
(手動変速モード)
倍速再生時に、ユーザ自身がその倍速再生の再生速度を変更できるようにしてもよい。ユーザは、例えば、GUI(Graphics User Interface)やその他の操作スイッチ)、音声入力(音声認識システムによる解析)などを始めとして、様々な入力インタフェースから再生速度の変更を行うことが可能である。なお、再生速度の変更入力に意識が傾くことによってユーザが同時に行っている別の行動に対する集中力が阻害されてしまうことが望ましくない場合には、別の行動が行われている最中かどうか(例えば、ユーザが運転中かどうか)を判断し、その判断結果に応じてユーザによる再生速度の変更を禁止したり、特定の入力インタフェース(例えば、操作スイッチや音声入力)経由でしか再生速度の変更が行えないようにしたりすることも可能である。
ユーザの手動設定を許す手動変速モードでは、ユーザによって、上限値を超えない範囲(あるいは、基本値と上限値との間の実用速度範囲内)での再生速度の変更が可能なようにしてもよく、例外的に実用速度範囲外においても再生速度の変更が可能なようにしてもよい。また、同時に行われている別の行動の性質や状態を考慮して、手動変速モードの内容を変えてもよい。例えば、ユーザが運転中の場合には、上限値を超えない実用速度範囲で再生速度を変更できるようにした手動変速モードとし、非運転中の場合には、上限値を超える範囲まで再生速度を変更できるようにした手動変速モードとしてもよい。
ユーザが上限値を超えない実用速度範囲内でのみ再生速度を変更できるようにした場合には、ユーザがいくら再生速度を上げる操作を行っても、再生速度が上限値よりも大きくなることはない。このような構成とすることで、例えば、ユーザが、再生速度を過度に上げてしまうような操作を誤って行ってしまった場合でも、再生速度は上限値を超えることはなく、常に聞き取ることが可能な再生速度の範囲(実用速度範囲)内での再生が行われる。また、誤った操作によって再生速度が上がってしまうことでユーザがあわててしまうといった事態を避けることが可能となる。
一方、ユーザが上限値を超える範囲まで再生速度を変更できるようにした手動変速モードでは、ユーザは、操作入力を行うことによって上限値を超える再生速度に設定することが可能となる。上限値は、システムにおいて保持されている値であって、そのときの会話の話速、あるいは、その他の外乱(ノイズ)などの要因は考慮されていない。したがって、上限値より高い再生速度で倍速再生が行われてもユーザは容易に聞き取れる場合もあり、このような場合に有効である。
また、ユーザはそれぞれ、倍速再生の会話を聞き取れる能力が異なっており、個々のユーザによって十分聞き取ることが可能な再生速度は異なっている。この要因によって、ユーザが上限値を超える再生速度に設定している可能性もある。すなわち、ユーザの倍速再生の会話を聞き取れる能力が、デフォルトの初期値よりも高い再生速度の倍速再生を聞き取ることができるものである可能性もある。このようなユーザ個々の能力は、上限値そのものを高くすることによって反映されることが望ましい。したがって、ユーザが、設定されている上限値そのものを変更できるようにしたり、あるいは、ユーザの倍速再生を聞き取る能力を反映した上限値に変更されるようにしたりすることが望ましい。
上限値そのものの変更方法(上限値の再設定方法)としては、上限値を直接ユーザが変更する方法、上限値を超える範囲でユーザ自身が再生速度を変更できるようにした手動変速モードにおいて、ユーザによる操作入力で設定された再生速度(上限値より高い再生速度)を反映して上限値を変更する方法、その他何らかのテスト(ここでは、初期テストと呼ぶ)によって上限値を変更する方法が考えられる。また、同様にして、基本値を変更することも可能である。
まず、上限値又は基本値を直接ユーザが変更する方法の一例について説明する。図5及び図6は、本発明の実施の形態において、上限値及び基本値のそれぞれを直接ユーザが変更する方法の一例を示すフローチャートである。
図5において、上限値の変更操作が行われる場合、まず、現在設定されている再生速度の上限値(再生倍率)をGUIプロパティ上に表示する(ステップS2101)。ユーザは、このGUIプロパティ上に表示された上限値を増減(インクリメント/デクリメント)させることが可能である。
ユーザがGUIプロパティ上で上限値を下げる入力を行った場合には(ステップS2102)、この入力に応じて上限値がデクリメント(ダウン)される(ステップS2103)。また、上限値が基本値より小さい値となった場合には(ステップS2104)、基本値が上限値以下となるように基本値がデクリメントされる(ステップS2105)。さらに、倍速再生が行われている最中であれば、現在の倍速再生の再生速度(現在速度:再生中の倍速再生における倍率)が基本値より小さい値となった場合には(ステップS2106)、現在速度が上限値以下となるように現在速度のデクリメントを行ってもよい(ステップS2107)。また、ユーザがGUIプロパティ上で上限値を上げる入力を行った場合には(ステップS2108)、この入力に応じて上限値がインクリメント(アップ)される(ステップS2109)。
また、図6において、基本値の変更操作が行われる場合、まず、現在設定されている再生速度の基本値(再生倍率)をGUIプロパティ上に表示する(ステップS2201)。ユーザは、このGUIプロパティ上に表示された基本値を増減(インクリメント/デクリメント)させることが可能である。
ユーザがGUIプロパティ上で基本値を下げる入力を行った場合には(ステップS2202)、この入力に応じて基本値がデクリメント(ダウン)される(ステップS2203)。また、ユーザがGUIプロパティ上で基本値を上げる入力を行った場合には(ステップS2204)、この入力に応じて基本値がインクリメント(アップ)される(ステップS2205)。また、倍速再生が行われている最中であれば、基本値が現在速度より大きい値となった場合には(ステップS2206)、現在速度が基本値以上となるように現在速度がインクリメントされてもよい(ステップS2207)。また、基本値が上限値より大きい値となった場合には(ステップS2208)、上限値が基本値以上となるように上限値がインクリメントされる(ステップS2209)。
なお、このようにGUIプロパティ上で上限値や基本値の増減を簡単に行えるようにした場合、ユーザの設定によって、実際に聞き取ることのできる再生速度を大きく超えた再生速度で倍速再生が行われてしまう可能性がある。したがって、GUIプロパティ上で上限値や基本値の増減が行われる場合にはいったん警告を報知し、ユーザ責任で上限値や基本値の変動が行われるようにしてもよい。
次に、上限値を超える範囲でユーザ自身が再生速度を変更できるようにした手動変速モードにおいて、ユーザによる操作入力で設定された再生速度を反映して上限値を変更する方法の一例について説明する。図7及び図8は、本発明の実施の形態において、ユーザによる操作入力で設定された再生速度を反映して上限値及び基本値のそれぞれを変更する方法の一例を示すフローチャートである。
図7において、倍速再生が行われている場合に、ユーザが操作スイッチを用いて現在速度を下げる入力を行った場合には(ステップS2301)、この入力に応じて現在速度がデクリメント(ダウン)される(ステップS2302)。このとき、現在速度が基本値より小さい値となった場合には(ステップS2303)、現在速度が基本値以上となるように基本値がデクリメントされる(ステップS2304)。また、ユーザが操作スイッチを用いて現在速度を上げる入力を行った場合には(ステップS2305)、この入力に応じて現在速度がインクリメント(アップ)される(ステップS2306)。このとき、現在速度が上限値よりも大きい値となった場合には(ステップS2307)、現在速度が上限値以下となるように上限値がインクリメントされる(ステップS2308)。
また、音声入力(音声認識による入力)を利用して、倍速再生中の再生速度が変更できるようにすることも可能である。この場合、図8において、ユーザによる音声入力を認識し(ステップS2401)、ユーザが音声入力によって現在速度を下げる入力を行った場合には(ステップS2402)、この入力に応じて現在速度がデクリメント(ダウン)される(ステップS2403)。このとき、現在速度が基本値より小さい値となった場合には(ステップS2404)、現在速度が基本値以上となるように基本値がデクリメントされる(ステップS2405)。また、ユーザが音声入力によって現在速度を上げる入力を行った場合には(ステップS2406)、この入力に応じて現在速度がインクリメント(アップ)される(ステップS2407)。このとき、現在速度が上限値よりも大きい値となった場合には(ステップS2408)、現在速度が上限値以下となるように上限値がインクリメントされる(ステップS2409)。
ユーザによる操作入力で設定された再生速度を反映して上限値及び基本値のそれぞれを変更する場合、例えば、図7のステップS2304、S2308や図8のステップS2405、S2409において即座に上限値や基本値を変更してもよいが、これらの結果を蓄積して、ユーザにとって適切と思われる上限値及び基本値の傾向を学習動作によって特定することで、適切な上限値や基本値への変更を行ってもよい。
また、例えば、図7や図8で行われる現在速度の変更入力そのものを蓄積して、ユーザにとって適切と思われる再生速度の変更方法(例えば、再生速度を段階的に上下させる場合にはその段階数や各段階における倍率、滑らかに上下させる場合にはその変動傾きなど)を学習動作によって特定することで、自動変速モードで倍速再生が行われる場合の再生速度の変更方法をユーザに適したものにすることが可能となる。
なお、図5及び図6では、ユーザによる上限値又は基本値の変更がGUIプロパティで行われており、図7及び図8では、ユーザによる再生速度の変更を反映した上限値又は基本値の変更が操作スイッチ又は音声入力によって行われているが、これらの入力インタフェースに限定されるものではなく、両方の方法において任意の入力インタフェースを用いることが可能である。ただし、ユーザの状態に応じて、使用可能な入力インタフェースを制限してもよい。
次に、初期テストによって上限値や基本値を変更する方法の一例について説明する。図9は、本発明の実施の形態において、初期テストを行う場合の再生速度と時間との関係の一例を示すグラフである。初期テストは、個々のユーザにとって適切な上限値や基本値を決定するためのテストである。例えば図9に示すように、初期テストでは、高い再生速度である会話(サンプル)の倍速再生を開始するとともに、この再生速度を徐々に下げていき、ユーザがその会話の内容を聞き取ることができた再生速度を上限値として決定する。なお、例えば、サンプルの倍速再生の再生速度をランダムに変更して、聞き取ることができる再生速度、及び、聞き取ることができない再生速度を計測していくことで、上限値の境界を決定するテストなどを始めとして、様々な初期テストの方法を採用することが可能である。
なお、上限値及び基本値は、再生速度(倍率)のみで定義されてもよく、この場合には、上限値及び基本値はそれぞれ再生速度(倍率)の値として規定される。一方、上述のように再生速度(倍率)に加えて話速(音拍幅)も考慮して定義されてもよく、この場合には、上限値及び基本値は、ある再生速度に対してどのくらいの話速の会話を聞き取ることができるかという関係(あるいは、ある話速に対してどのくらいの再生速度まで上げても聞き取ることができるかという関係)で規定される。平均音拍幅(話速の逆数)が大きければ(会話がゆっくりであれば)、高い再生速度(倍率)で倍速再生を行ってもユーザは会話の内容を聞き取ることが可能であり、例えば、図10に示すグラフあるいはテーブル(いくつかの再生速度(倍率)の段階それぞれに対する平均音拍幅の上限値や基本値を特定するテーブル)のような関係によって上限値及び基本値が保持されてもよい。このように再生速度と平均音拍幅との関係で上限値及び基本値が保持される場合には、上述した各フローチャートにおける上限値及び基本値は、そのとき倍速再生されている平均音拍幅と共に保持される。また、倍速再生システムが、再生速度(倍率)のみで定義された上限値及び基本値と、平均音拍幅によって異なる上限値及び基本値の両方を有するようにしてもよい。この場合、例えば、ゆっくりとした会話に対して高い再生速度で倍速再生できる場合であっても一定の絶対上限値を超える倍速再生は許可されないようにするなど、平均音拍幅と関連付けられた上限値が再生速度(倍率)のみで定義された上限値(絶対上限値)を超えないようにするといった制御が可能となる。
(自動変速モード)
また、倍速再生時に、ユーザが操作を行わなくても自動的に再生速度の変動が行われるようにしてもよい。この場合には、実用速度範囲内で倍速再生の再生速度が変動されるようにすることが望ましく、これによって、ユーザが聞き取ることができる(さらには、聞き取りやすい)再生速度による倍速再生が実現される。
音声データ再生装置120による自動変速の方法としては、あらかじめ定められた変動方法に従って再生速度の変動を行う方法(例えば、上述の図4に図示されているような変動を行う方法)に加えて、話速に適した再生速度の変動を行う方法が考えられる。
以下、図11を参照しながら、話速に適した再生速度に変更する処理の一例について説明する。図11は、本発明の実施の形態において、話速に適した再生速度に変更する処理の一例を示すフローチャートである。
図11において、自動変速モードによる倍速再生が開始された場合(ステップS3001)、倍速再生システムは、まず、現在設定されている上限値を取得する(ステップS3002)。なお、倍速再生開始時に取得される上限値は、工場出荷時のデフォルト値、あるいは、ユーザの操作に基づいて設定(直接設定、あるいは再生速度変動に伴う再設定)が行われた上限値となる。また、倍速再生処理が進み、後述のように上限値の変更が行われると、ステップS3002で取得される上限値は、ステップS3005で一時的に記憶された上限値となる。
また、倍速再生の開始とともに、倍速再生システムは、倍速再生を行う音声データに含まれている会話の話速の解析処理を開始する(ステップS3003)。話速の解析は、例えば、再生対象の音声データ(受信用キャッシュ122に格納されている音声データ)の直近再生区間の会話に含まれている音拍数を解析することによって行われる。すなわち、具体的には、例えば、先読みの窓関数によって、この後再生される一定区間に含まれている音拍数をカウントして、その区間の話速(例えば、平均音拍幅として表現)を算定する。
そして、倍速再生システムは、話速に適した再生速度となるように再生速度の変更を行うべきか否かを判断する(ステップS3004)。具体的には、例えば、図10に図示されているような再生速度と平均音拍幅(話速に相当)との関係を定めたグラフ又はテーブルを参照して、上限値の変更を行うべきか否かの判断が行われる。図10に図示されているグラフ又はテーブルが上限値とそのときの平均音拍幅を表すものであるならば、ある区間の話速(平均音拍幅)対して設定すべき上限値が容易に求められる。例えば、前回の話速に対して設定すべき上限値と、今回算定された話速に対して設定すべき上限値とが異なる場合には、話速の変更が行われるべきと判断される。
上限値の変更を行うべきと判断された場合には、算定された話速に対応する上限値を一時的に記憶し(ステップS3005)、その上限値によって規定される実用速度範囲内の任意の値を、実際の倍速再生に用いられる再生速度として決定する(ステップS3006)。なお、ステップS3005で一時的に記憶された上限値は、次回のステップS3002で取得される上限値となる。また、ステップS3006で決定される再生速度は、実用速度範囲内の値であればよく、単純に上限値を再生速度にしてもよく、あるいは、様々な要因(ノイズや倍速再生を開始してからの経過時間など)に基づいて再生速度が決定されてもよい。
上述の処理が、例えば、倍速再生中に所定の時間間隔で逐次行われることによって、話速に対応した再生速度の変動が可能となる。倍速再生が終了すると自動変速モードによる再生速度の決定処理も終了となり、ステップS3006で一時記憶される上限値も消去される。
なお、図11に図示されている先読みの窓関数を用いた処理では、前回の話速によって定められた上限値(ステップS3002)と、今回の話速の算定結果(ステップS3003)から、再生結果の変更を行うかどうかの判断が行われているが、これらの値を同期させてもよい。ただし、これらの値を同期させようとすると処理遅延が生じたり、処理負荷(同期アルゴリズムを実行できる高い処理能力)が発生したりする可能性があるので、特に同期処理を考慮しない簡単な構成としてもよい。また、自動変速モード中に手動変速モードへモード切り換えが行われてもよく、その逆に、手動変速モードから自動変速モードへのモード切り換えが行われてもよい。
また、ユーザが同時に行っている別の行動を考慮して(例えば、ユーザが車両の運転を行っている場合には)、手動変速モードで操作するインタフェースをGUI上から削除し、自動変速モードのみで倍速再生が行われるようにしてもよい。また、別の行動の性質や状態などに応じて、操作可能な入力インタフェースを制限してもよい。
また、倍速再生の再生速度を変動させた場合には、相手の話し方のテンポ(拍節の速さ)が変わってしまうため、本来、等倍速にて表現されていた感情の調子が判らなくなってしまうという問題がある。特に、知人との会話が倍速再生されている場合には、話速を速くすると相手がイライラしている、怒っているなどの錯覚が発生してしまうことがある。こうした錯覚が発生しないようにするため、本発明に係る倍速再生機構では、再生速度に合わせて音拍のトーン(声調)の強弱差を弱めることで、感情の調子を軟弱にすることも可能である。
本発明は、ユーザが聞き取りやすく、聴取のために過度の注意を払う必要がない倍速再生を実現するという効果を有しており、音声データの倍速再生を行う技術に適用可能である。例を示すフローチャートである。
120 音声データ再生装置
121 音声データキャッシュ
123 音声処理部
125 音声再生出力部
1231 再生・停止制御部
1232 倍速再生機構部
1233 自動変速制御部
1234 音拍幅解析部
1235 実用速度上限値学習部
1236 上限値決定部
1237 基本値決定部
1238 変速指示部
1239 初期テスト実施部
1240 リアルタイム学習部

Claims (16)

  1. 出力音声の話速が入力音声の話速に対して速くなるよう変換する倍速再生を行う音声データ再生装置であって、
    前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定手段と、
    前記可変上限値設定手段によって設定された前記上限値以下の再生速度で前記倍速再生を行う倍速再生手段と
    前記倍速再生の現在の再生速度を変更する現在速度変更手段とを、
    有し、
    前記現在速度変更手段が、入力インタフェースからのユーザによる操作入力に従って前記現在の再生速度を変更するように構成されており、
    前記ユーザによる操作入力に従って前記現在の再生速度が前記上限値を超える値に変更された場合には、前記可変上限値設定手段が、前記上限値を超えて変更された前記現在の再生速度の値が前記上限値に反映されるように前記上限値の変更を行うように構成されている音声データ再生装置。
  2. 前記上限値以下の基本値を設定する基本値設定手段を有し、前記倍速再生手段が前記基本値を初期速度として前記倍速再生を開始するように構成されている請求項1に記載の音声データ再生装置。
  3. 前記基本値のデフォルトの値を前記入力音声の話速の1.3倍速とする請求項2に記載の音声データ再生装置。
  4. 前記可変上限値設定手段が、入力インタフェースからのユーザによる操作入力に従って前記上限値を変更するように構成されている請求項2に記載の音声データ再生装置。
  5. 個々のユーザに適した前記上限値を決定するための上限値決定テストを実施する上限値決定テスト手段を有し、前記可変上限値設定手段が、前記上限値決定テスト手段による前記上限値決定テストの結果に基づいて前記上限値の変更を行うように構成されている請求項1に記載の音声データ再生装置。
  6. 前記入力音声の話速と前記上限値とが関連付けられている請求項1からのいずれか1つに記載の音声データ再生装置。
  7. 出力音声の話速が入力音声の話速に対して速くなるよう変換する倍速再生を行う音声データ再生装置であって、
    前記倍速再生を行う前記入力音声の話速を算定する話速算定手段と、
    前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度に関して、前記話速算定手段で算定された前記入力音声の話速に基づいて、前記倍速再生の現在の再生速度を自動的に変更する現在速度変更手段と
    前記再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定手段とを有し、
    前記現在速度変更手段が、前記入力音声の話速に加えて、前記上限値に基づいて前記倍速再生の前記現在の再生速度を変更するよう構成されており、
    前記可変上限値設定手段が、前記入力音声の話速に関連付けられている前記上限値を設定するよう構成されている音声データ再生装置。
  8. 前記話速算定手段が、前記入力音声に含まれる音拍幅を解析する音拍幅解析部を有し、
    前記音拍幅解析部が、前記入力音声に関して、単位時間当たりに含まれる音拍幅に基づいて前記入力音声の話速を算定するよう構成されており、
    前記可変上限値設定手段が、前記音拍幅と前記上限値との関係を示す情報を参照して、前記音拍幅解析部で解析された前記音拍幅に対応する前記上限値を設定するよう構成されている請求項7に記載の音声データ再生装置。
  9. 出力音声の話速が入力音声の話速に対してくなるよう変換する倍速再生を行う音声データ再生方法であって、
    前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定ステップと、
    前記可変上限値設定ステップで設定された前記上限値以下の再生速度で前記倍速再生を行う倍速再生ステップと
    前記倍速再生の現在の再生速度を変更する現在速度変更ステップとを、
    有し、
    前記現在速度変更ステップにおいて、入力インタフェースからのユーザによる操作入力に従って前記現在の再生速度を変更し、
    前記ユーザによる操作入力に従って前記現在の再生速度が前記上限値を超える値に変更された場合には、前記可変上限値設定ステップにおいて、前記上限値を超えて変更された前記現在の再生速度の値が前記上限値に反映されるように前記上限値の変更を行う音声データ再生方法。
  10. 前記上限値以下の基本値を設定する基本値設定ステップを有し、前記倍速再生ステップにおいて、前記基本値を初期速度として前記倍速再生を開始する請求項に記載の音声データ再生方法。
  11. 前記基本値のデフォルトの値を前記入力音声の話速の1.3倍速とする請求項10に記載の音声データ再生方法。
  12. 前記可変上限値設定ステップにおいて、入力インタフェースからのユーザによる操作入力に従って前記上限値を変更する請求項10に記載の音声データ再生方法。
  13. 個々のユーザに適した前記上限値を決定するための上限値決定テストを実施する上限値決定テストステップを有し、前記可変上限値設定ステップにおいて、前記上限値決定テストステップにおける前記上限値決定テストの結果に基づいて前記上限値の変更を行う請求項に記載の音声データ再生方法。
  14. 前記入力音声の話速と前記上限値とが関連付けられている請求項から13のいずれか1つに記載の音声データ再生方法。
  15. 出力音声の話速が入力音声の話速に対してくなるよう変換する倍速再生を行う音声データ再生方法であって、
    前記倍速再生を行う前記入力音声の話速を算定する話速算定ステップと、
    前記入力音声の話速に対する前記出力音声の話速の比率を示す再生速度に関して、前記話速算定ステップで算定された前記入力音声の話速に基づいて、前記倍速再生の現在の再生速度を変更する現在速度変更ステップと
    前記再生速度の上限値を可変とし、前記上限値を設定する可変上限値設定ステップとを有し、
    前記現在速度変更ステップにおいて、前記入力音声の話速に加えて、前記上限値に基づいて前記倍速再生の前記現在の再生速度を変更し、
    前記可変上限値設定手段において、前記入力音声の話速に関連付けられている前記上限値を設定する音声データ再生方法。
  16. 前記話速算定ステップが、前記入力音声に含まれる音拍幅を解析する音拍幅解析ステップを有し、
    前記音拍幅解析ステップにおいて、前記入力音声に関して、単位時間当たりに含まれる音拍幅に基づいて前記入力音声の話速を算定し、
    前記可変上限値設定ステップにおいて、前記音拍幅と前記上限値との関係を示す情報を参照して、前記音拍幅解析部で解析された前記音拍幅に対応する前記上限値を設定する請求項15に記載の音声データ再生方法。
JP2009078702A 2009-03-27 2009-03-27 音声データ再生装置及び音声データ再生方法 Expired - Fee Related JP5058198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009078702A JP5058198B2 (ja) 2009-03-27 2009-03-27 音声データ再生装置及び音声データ再生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009078702A JP5058198B2 (ja) 2009-03-27 2009-03-27 音声データ再生装置及び音声データ再生方法

Publications (2)

Publication Number Publication Date
JP2010230992A JP2010230992A (ja) 2010-10-14
JP5058198B2 true JP5058198B2 (ja) 2012-10-24

Family

ID=43046861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009078702A Expired - Fee Related JP5058198B2 (ja) 2009-03-27 2009-03-27 音声データ再生装置及び音声データ再生方法

Country Status (1)

Country Link
JP (1) JP5058198B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7396029B2 (ja) * 2019-12-23 2023-12-12 ティアック株式会社 録音再生装置
CN111627412B (zh) * 2020-05-06 2023-05-05 Oppo(重庆)智能科技有限公司 音频变速方法、装置、电子设备和计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006154531A (ja) * 2004-11-30 2006-06-15 Matsushita Electric Ind Co Ltd 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
JP2006258699A (ja) * 2005-03-18 2006-09-28 Aisin Aw Co Ltd 車載システム
JP2008009221A (ja) * 2006-06-30 2008-01-17 Casio Comput Co Ltd 音声再生制御装置及び音声再生制御プログラム
JP2009004859A (ja) * 2007-06-19 2009-01-08 Mizuho Information & Research Institute Inc テレホンサービス処理システム、テレホンサービス処理プログラム及びテレホンサービス処理方法

Also Published As

Publication number Publication date
JP2010230992A (ja) 2010-10-14

Similar Documents

Publication Publication Date Title
Arons Techniques, perception, and applications of time-compressed speech
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
WO2017006766A1 (ja) 音声対話方法および音声対話装置
US9336823B2 (en) Playing audio in trick-modes
JP5058198B2 (ja) 音声データ再生装置及び音声データ再生方法
JPH10260694A (ja) 話速変換装置、話速変換方法及び記録媒体
US20230066854A1 (en) Computer implemented method, device and computer program product for setting a playback speed of media content comprising audio
JP4965371B2 (ja) 音声再生装置
JP6343895B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP2009075280A (ja) コンテンツ再生装置
JP2020067531A (ja) プログラム、情報処理方法、及び情報処理装置
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
JP3373933B2 (ja) 話速変換装置
JP2006317768A (ja) 話速変換装置、及びこの話速変換装置を制御する話速変換プログラム
JP2004252085A (ja) 音声変換システム及び音声変換プログラム
JP5451134B2 (ja) 通信処理装置
JP2017106989A (ja) 音声対話装置およびプログラム
JP2005266571A (ja) 変速再生方法及び装置、並びにプログラム
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP6323491B2 (ja) 音声合成装置および音声合成方法
CN109947385A (zh) 动态调音方法、装置、可穿戴设备和存储介质
Gallo et al. Prioritizing signals for selective real-time audio processing
JP4275055B2 (ja) 音質調整装置、放送受信機、プログラム、及び記録媒体
JP4815494B2 (ja) 刻限通知装置、刻限通知方法、ならびに、プログラム
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120731

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5058198

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees