JP5873927B2 - デジタルオーディオ信号を低速化するための方法およびデバイス - Google Patents

デジタルオーディオ信号を低速化するための方法およびデバイス Download PDF

Info

Publication number
JP5873927B2
JP5873927B2 JP2014527570A JP2014527570A JP5873927B2 JP 5873927 B2 JP5873927 B2 JP 5873927B2 JP 2014527570 A JP2014527570 A JP 2014527570A JP 2014527570 A JP2014527570 A JP 2014527570A JP 5873927 B2 JP5873927 B2 JP 5873927B2
Authority
JP
Japan
Prior art keywords
digital audio
pattern
audio signal
time
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014527570A
Other languages
English (en)
Other versions
JP2014527648A (ja
Inventor
ウォルフ,クリストフ
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2014527648A publication Critical patent/JP2014527648A/ja
Application granted granted Critical
Publication of JP5873927B2 publication Critical patent/JP5873927B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

本出願は、2011年8月31日に出願された仏国特許出願第1157705号に基づくものであり、その開示は、引用によりその全体が本明細書により組み込まれており、その優先権は、米国特許法第119条の下で本明細書により主張される。
本発明は、その中の少なくとも1人が完全に流暢ではない言語を話している人々の間で、効果的な、リアルタイムで話されるコミュニケーションを可能にするために、デジタルオーディオ信号を低速化するよう意図された方法に関する。
最ももどかしい経験の1つは、言語が異なる話し手を理解できないことである。我々にとって他国のものである言語を理解する難しさに直面することは、よくあることである。しかしながら、人間交流に不可欠な一部分は、聞き、理解し、他者とコミュニケートすることである。世界はグローバル化が進んでおり、異なる言語を話す人々とコミュニケートする機会が増えている。例を挙げると、企業の従業員間での言語多様性が、さまざまな難題を呈している。
言語は、それが使用する音素において異なり、そのことは当然ながら、外国語に直面するときに困難を生み出す。話し言葉は、多くの要素を省略し、会話が行われる状況に依存する。考えながら話すという同時性のために、多くの文法的な誤りが存在する。最も頻繁には、背景雑音が、話された語と混ざり合う。このことはとりわけ、人間の言語を認識する際に、音声認識コンピュータシステムが有する難しさによって示される。これらの障害のすべては、聞いている人による思考努力を必要とし、そのことが彼らの即時の理解を遅らせ、彼らが会話の脈絡を失う原因となることがある。
たとえば、今日、世界各国でコミュニケートする必要のある人々は、主に、英語でコミュニケートする。残念ながら、その言語を用いる彼らのスキルは一様ではなく、ネイティブの話し手によって素早く話された英語を理解することは、非常に難しいことが多い。したがって、課題は、わかりやすい双方向のコミュニケーションをそのままにしながら、議論の意味を失う可能性なしに、しゃべりのスピードを低速化することである。
スピーチを低速化するためのソリューションは、数年にわたり存在している。しかしながら、それらのソリューションは、会話を長引かせる原因となる、本質的な副次的効果を有する。これは、冗漫となるコミュニケーションを、行き詰まりのリスクを伴って混乱させる。これらのソリューションは、放送事象(TV、ウェブなど)の場合には弱点なく適用されるが、双方向のコミュニケーションの場合には受け入れ可能でない。この低速化が、使用されている言語があまり容易でない人のためにもっぱら適用された場合、より流暢な話し手は、応答を得るために、自分たちの質問の遅い伝達の最後まで待たなければならないことになる。これは、やり取りにおける双方向性を問題の多いものにする。
したがって、本発明の目的は、使用されている言語において同じレベルの流暢さを持たない2人の話し手の間で、話し手のどちらも彼らの口頭のやり取りにおいて混乱させられることなく、改善された双方向のコミュニケーションを可能にすることである。
本発明の目的はまた、聞き手が、話し手のスピーチを理解するためのより多くの時間を割り当てることを、口頭のやり取りのペースがこのことに影響されることなく、可能にすることである。
本発明の目的はまた、それが誰であれ話し手の話を聞いている人のみに知覚可能なやり方で、話し手の語の速度を低速化することを可能にする方法を提案することである。
本発明の対象は、低速化されたデジタルオーディオ信号を受信機に送信するために、送信機からのデジタルオーディオ信号を低速化するための方法であって、
− 送信機から受信されたデジタルオーディオ信号が、一連の単語で構成されるテキストに変換されるステップと、
− タイムスタンプブックマークが、絶対時間基準に関連して、テキストにおける各単語に割り当てられるステップと、
− データベースにおいて参照されるパターンに属する単語が識別され、このことから、排除されるべきパターンが推定されるステップと、
− 低速化率が、排除されるべきパターンに基づいて定義されるステップと、
− タイムスタンプブックマークが、低速化率に基づいて低速化されたタイムフレームに適応されるステップと、
− 送信機から受信されたデジタルオーディオ信号が、低速化されるステップと、
− 排除されるべきパターンが、送信機から受信されたデジタルオーディオ信号から削除されるステップと、
− 低速化されたデジタルオーディオ信号が、受信機に送信されるステップと
を含む。
議論またはスピーチが解析されるとき、言語化された思考の過程で、以下のような付随条件が留意される:
− 休止、
− 擬声語によって隠された躊躇、
− しばしば言語性チックに関連付けられる、意味のない「ダミー語」、
− 繰り返し。
これらの事象のすべては、話している人の雰囲気および個性の一部を形成するので、コミュニケーションに貢献する。しかしながら、これらの事象は、やり取りされる語に意味を与えることには貢献しない。したがって、近似した、または不正確でさえある理解に甘んじるのではなく、本発明の目的は、その実際の意味を失うことなく、センテンスを低速化することに十分な時間を配分するよう時間を解放するために、これらの事象を取り除くことであり、それにより、リアルタイムの双方向性を保持することである。
第1の態様によれば、パターンデータベースが、パターン認識ブロックから新しいパターンを受信する。とりわけ、それは、話し手に固有の、繰り返しまたは言語性チックであることがある。
第2の態様によれば、パターンデータベースは、会話を構成するパターンにおいて、その存在が許可される必要な単語のリストを受信する。とりわけ、会社名もしくは人名、またはファーストネームもしくはニックネームなどの固有名詞が、頻繁に会話に入り込むことがある。そのようなケースでは、それらの固有名詞が、言語性チックとして識別されることがある。当然ながら、陳述が理解不能になるので、それらの固有名詞を削除するのを避けることが絶対に不可欠である。
第3の態様によれば、優先度のレベルが、それぞれのパターンに割り当てられる。これは、低速化率を送信機のスピーチ速度に適応させるのを可能にするために、それらの優先度に基づいて、排除されることになるパターンを選択することを可能にする。
最初に、タイムスタンプブックマークが、基準クロックによって与えられる絶対時間を基準として、テキストの各単語に割り当てられ、次いでタイムスタンプブックマークは、定義された低速化率に基づいて確立された新しい基準である、低速化されたタイムフレームに変換される。
本発明の対象はまた、その方法を実施するためのデバイスを有することである。とりわけ、本発明の対象は、上で説明された方法を実施するためのデバイスであって、デバイスは、
− 送信機からのデジタルオーディオ信号を受信する入力部と、
− デジタルオーディオ信号を、一連の単語で構成されるテキストに変換する変換器と、
− タイムスタンプブックマークを、テキストの複数の単語のそれぞれに関連付けるタイムスタンパと、
− 参照されるパターンを含むパターンデータベースと、
− 参照されるパターンに含まれた単語を識別し、排除するためのパターンを識別された単語から推定するパターン認識ブロックと、
− 排除されるべきパターンをフィルタリングするパターンフィルタリングブロックと、
− 低速化率を定義するフローコントローラと、
− 低速化率に基づいてデジタルオーディオ信号を低速化するデジタルオーディオ信号低速化器と、
− 低速化率に基づいて低速化されたタイムフレームを定義するタイムフレーム適応ブロックと、
− 低速化されたタイムフレーム内でタイムスタンプブックマークを調整するタイムスタンプブックマーク適応ブロックと、
− 絶対基準時間を、パターン認識ブロック、低速化器、およびタイムフレーム適応ブロックに提供する基準クロックと、
− デジタルオーディオ信号から排除されるべきパターンを削除し、デジタルオーディオ信号を再構築する再構成ブロックと、
− 低速化されたデジタルオーディオ信号を再生する出力部と
を含む。
一態様によれば、パターンデータベースは、各言語に固有である。これは、言語性チックに関連したダミー語などの表現を、ある言語から別の言語へと転換することができないからである。
一変形によれば、とりわけ、使用される言語に応じて1つのデータベースから別のデータベースに切り替えることを可能にするために、言語検出器が変換器に追加されてもよい。
本発明の1つの利点は、2人のうちの1人が使用されている言語に流暢ではない話し手同士の間で、即時の、双方向な、わかりやすいコミュニケーションを可能にすることである。
本発明の他の特徴および利点は、当然非限定的な例として与えられる以下の一実施形態の説明を、添付の図面において読むときに、明らかになるであろう。
デバイスの一実施形態を示す図である。 方法の一実施形態を示す図である。
以下の説明は、デジタル信号が、話し手と聞き手との間でやり取りされるデジタルオーディオ信号である、好ましい一実施形態に関する。
図1に示される本発明の実施形態において、デバイス1は、話し手のスピーチに対応したデジタルオーディオ信号3を受信する入力部2と、低速化されたデジタルオーディオ信号5が通って話し手の低速化されたスピーチを知覚する話し手に送られる、出力部4とを含む。
入力部2は、変換器6に接続されており、変換器6の機能は、デジタルオーディオ信号3を、たとえば、(「情報交換用米国標準コード」を表す)ASCIIフォーマットにおける一連の単語で構成されたテキスト7に変換することである。
得られたテキスト7は、タイムスタンパ8に送信され、タイムスタンパ8は、日付および時間(すなわち、「タイムスタンプ」)を表す一連の文字を意味するタイムスタンプブックマークを、各単語に割り当てる。タイムスタンピングは、日付および時間を、コンピュータデータに関連付けることからなるメカニズムである。タイムスタンピングは、基準時点からどのくらいの時間が経過したかを評価することを可能にする。タイムスタンプブックマークは、各単語の最初および最後に割り当てられる。各単語は、それが話されたときの絶対時間、および各単語がテキスト内に占める時間長を定義するために、タイムスタンプブックマークを受信する。
基準クロック9は、時間比較の基準としての役割を果たすタイムスタンプブックマークが設定されたことに基づいて、タイムスタンパ8に絶対時間の一元化された基準を提供する。
ASCIIフォーマットにおける、タイムスタンプされた単語10は次いで、パターンデータベース12に関連付けられたパターン認識ブロック11に送信される。
パターンデータベース12は、排除されるべき単語のグループである参照されるパターンを記憶するためのロケーションである。これらのパターンには、修飾詞が割り当てられる。修飾詞のいくつかの例は、(繰り返される単語を識別するための)その単語もしくは単語のグループの発生数、または、その言語に典型的だが意味のない充当詞のパターンを含み、排除される必要のある充当詞は、フランス語では「tu sais」、「voila」、「d’accord」、「effectivement」などの、または、英語では「you know(そうでしょう)」、「there you go(ほらね)」、「right(そうだね)」、「clearly(いかにも)」、「like(みたいね)」などのような表現を含む。
パターン認識ブロック11は、タイムスタンプされた複数の単語10を個々に受信する。パターン認識ブロック11は、パターンデータベース12において参照されるパターンに属するタイムスタンプされた単語、および保存されている他のタイムスタンプされた単語13を識別する。パターン認識ブロック11は、それらのパターンに基づいて、識別された単語を単語のグループにまとめる、すなわち、たとえば、その単語がそのパターンにおいて現れるのと同じ順序でまとめる。パターン認識ブロック11はとりわけ、排除される必要のある、繰り返される単語をマークする。最後に、パターン認識ブロック11は、まだ含まれていない任意のパターンをデータベース12に追加することによって、データベース12を内容充実させる。対応する単語が参照されるパターンに含まれていない場合、それらは最終的に保存され得るので、排除されるべき新しいパターンをパターンデータベース12の中に追加することは、パターン認識ブロック11の1つの不可欠な機能である。目標は次いで、単一の動作において参照されるパターンに属する、すべての不必要な単語を削除するのを可能にすることである。したがって、データベース11を内容充実させることは、本方法のとりわけ重要なステップである。
パターン認識が実施されると、ASCIIフォーマットにおける、タイムスタンプされた単語10のグループは、パターンフィルタリングブロック14に送られる。パターンフィルタリングブロック14の機能は、パターンデータベース12の中に見出され、かつパターン認識ブロック11によって識別された、排除されるべきパターン15から、維持されるべき単語13を分離することである。パターンフィルタリングブロック14の出力は、排除されるべきパターン15と、タイムスタンプされた単語のグループ13の組との両方で構成されており、タイムスタンプされた単語のグループ13が、維持され、言語があまり得意でない聞き手によって聞かれることになる。
パターンデータベース12は、排除されるべき新しいパターンをそこから受信するパターン認識ブロック11によってアクセスされてよく、かつ、排除されるべきパターン15と、テキストに維持されるべきタイムスタンプされた単語13とを分離するパターンフィルタリングブロック14によってアクセスされてよい。
当然ながら、パターンデータベース12は、問題となる言語に固有であり、その言語に典型的なパターンを含む。パターンは、それぞれの言語についてよく知られているシンプルテキストのパターンであってよい。これらのパターンは、言語学者によって提供され、ASCIIテキストの形式においてパターンを単にタイピングすることによって、パターンデータベース12に記憶され得る。しかしながら、パターンデータベース12の内容充実は、会話全体を通して頻繁に繰り返される会社名などの、しばしば繰り返される単語または表現が重要な情報であり得るために、事前対策を必要とする。会話においてその存在が認められる単語のリストを必要とする一方で、パターン認識ブロック11によって、パターンデータベース12の自動的な内容充実をアクティブにすることが可能である。その場合、パターン認識ブロック11は、発生カウンタの助けを得て、パターンデータベース12を内容充実させることを可能にすることになる。パターン認識の他の形式も予測可能であり、データベースの内容の増加をもたらすことができる。
1つの有効な実施形態は、各パターンに優先度レベルを割り当てることである:高優先度は、パターンデータベース12に最初から存在する、たとえば言語学者によって追加されたパターンに割り当てられ、低優先度は、パターン認識ブロック11からのパターンに割り当てられる。スピーチのための所望の低速化率に応じて、低優先度パターンは、維持されても、排除されてもよい。
デバイス1は、デジタルオーディオ信号の低速化器16をさらに含み、低速化器16は、デバイス1に入るときのその最初の状態のデジタルオーディオ信号3と、速度コントローラ17によって送られた所望の低速化率についての命令との両方を受信する。デジタルオーディオ信号3は、市販の最適化された低速化アルゴリズムを使用することによって低速化される。最初に受信されたデジタルオーディオ信号3は次いで、低速化されたデジタルオーディオ信号18に変換される。
速度コントローラ17は、パターン認識ブロック11によって識別された削除されるべきパターン15の時間長に対応した、削除されるべき時間を計算する。速度コントローラ17の機能は、適用する低速化率を決定すること、およびデジタルオーディオ信号3を低速化する速度を、パターンフィルタリングブロック14によって実施されるフィルタリングの有効性に適応させることである。これは、繰り返しまたは不必要な単語をわずかしか使用しない簡潔な話し方を有する話し手がいるためである。その場合、フィルタリングは、話しの速度において低い削減量をもたらし、リアルタイムに近い双方向性を保持する。したがって、低速化は、調整されなければならない。これは、フィルタリングの後に、維持されるべき単語13のタイムスタンプブックマークを、基準クロック9によって与えられた基準時間と常に比較することによって行われる。速度コントローラ17は、その比較から、必要な低速化率を決定する、時間シフトの正方向または負方向を推定する。
低速化されたデジタルオーディオ信号18は、再構成ブロック19に送られ、再構成ブロック19は、各単語の最初および最後に置かれたタイムスタンプブックマークに基づいて、パターンフィルタリングブロック14によって維持されたタイムスタンプされた単語13から、排除されるべきパターン15を削除し、テキストを再構築する。しかしながら、タイムスタンパ8によってテキスト7の中に追加されたタイムスタンプブックマークは、最初のデジタルオーディオ信号3が受信されたときの実際の時間に対応しており、これは、低速化されたデジタルオーディオ信号17の時間とは異なる。
タイムフレーム適応ブロック20は、基準クロック9によって与えられた絶対時間と比較して、所望の低速化率に基づいて低速化されたタイムフレームを定義する。タイムスタンプブックマーク適応ブロック21は、低速化されたタイムフレームに整合するように、各単語に関連付けられたタイムスタンプブックマークを変換する。
デバイス1は次いで、再構成ブロック19の出力部4において、低速化されたデジタルオーディオ信号5を聞き手に送り出し、聞き手は、話し手がそれに気づくことなく、または話し手が話している速さの変更を必要とすることなく、話し手を理解する改善された状態を体験する。
ここで、説明されたばかりのデバイス1のおかげにより実施される方法の、例示的な適用を示す図2を検討する。話し手20は、「Marvellous,you know(素晴らしいでしょう)」などの単語21を発する。このフレーズは、デジタルオーディオ信号の形式で変換器6によって受信され、それを変換器6が、たとえばASCIIフォーマットにおける単語で構成されるテキスト22に変換する。テキストの各単語23は、切り分けられ、タイムスタンパ8によってタイムスタンプブックマークを割り当てられる。パターン認識ブロック11は、データベース12において参照されるパターンに属する余分な単語24を識別し、余分な単語24は次いで、パターンフィルタリングブロック14によって排除される。
話し手20の発話21はまた、フローコントローラ17によって制御される低速化器16に送信される。話し手20の発話21は、低速化された発話18に変換される。同時に、タイムスタンプブックマークは、低速化されたタイムフレームに基づいて、タイムスタンプブックマーク適応ブロック21によってそれ相応に修正される。次いで維持された単語が、再構成ブロック19によって再編成され、低速化されて、より簡潔な発話22が聞き手23に送られる。
話し手が、議論の間に、たとえば、自分のネイティブ言語とは異なる言語に切り替えることによって言語を変更することを決めた場合、2つのオプションが可能である。
外国語を使用することは、最も一般的には、話し手が自分のネイティブ言語を使用しているときよりも、はるかに低い話しぶりをもたらす。したがって、変換器6によって報告される付随条件に基づいた低速化を無効にすることが可能になる。
あるいは、参照、データベース、および認識モードを適応させることによって、ある言語から別の言語へとデバイス1の機能を切り替えるために、言語検出器が変換器6に追加されてもよい。しかしながら、この2つ目のオプションは、言語検出器が言語の変更および使用される言語を識別可能にする前に、いくつかの単語が発音されるのを必要とすることが強調されなければならない。このケースにおいて、話しの間に発生した付随条件は、補正されず、しかし低速化プロセスにおいて維持され、話し手に送信される。結果として、2つの言語の間の移行は、両方の話し手に完全に透過的に見える。
デジタル信号を低速化するこのプロセスは、他の用途に使用されてもよい。タイムスタンピングのおかげで、デジタルオーディオ信号について説明されたばかりの同じ方法が、デジタルオーディオ信号に関連付けられたデジタルビデオ信号にもまた適用可能である。デジタルビデオ信号の低速化は、いくつかの画像の推移が、残りの画像とつなぎ合わせる難しさのために排除される場合に、見る者に不快感を引き起こすことがある。デジタルオーディオ信号が画像と調子を合わせたままにすることを確実にしながら、デジタルオーディオ信号のみを単純に低速化することが、より都合がよい。しかしながら、より複雑ではあるものの、デジタルオーディオ信号とデジタルビデオ信号との両方を低速化することは、全く可能である。
デジタルオーディオ信号は、同じデバイスを用いて、先に説明された方法によって低速化される。低速化率は、たとえば、ダイアログなどにおける画像と発話との間の整合である、追加のパラメータを考慮に入れなければならない。低速化されたデジタルオーディオ信号は次いで、元のままのデジタルビデオ信号と結合される。
当然ながら、本発明は、説明され、示された実施形態に限定されず、むしろ、本発明の趣旨から逸脱せずに当業者に利用可能な多くの変形形態を前提とする。とりわけ、本発明の範囲から逸脱せずに、デジタルオーディオ信号を、ASCIIフォーマット、バイナリフォーマット、表音フォーマット、または任意の他のフォーマットに変換することが可能である。

Claims (8)

  1. 低速化されたデジタルオーディオ信号を受信機に送信するために、送信機からのデジタルオーディオ信号を低速化するための方法であって、
    − 送信機から受信されたデジタルオーディオ信号が、一連の単語で構成されるテキストに変換されるステップと、
    − タイムスタンプブックマークが、絶対時間基準に関連して、テキストにおける各単語に割り当てられるステップと、
    − データベースにおいて参照されるパターンに属する単語が識別され、このことから、排除されるべきパターンが推定されるステップと、
    − 低速化率が、排除されるべきパターンに基づいて定義されるステップと、
    − タイムスタンプブックマークが、低速化率に基づいて低速化されたタイムフレームに適応されるステップと、
    − 送信機から受信されたデジタルオーディオ信号が、低速化されるステップと、
    − 排除されるべきパターンが、送信機から受信されたデジタルオーディオ信号から削除されるステップと、
    − 低速化されたデジタルオーディオ信号が、受信機に送信されるステップと
    を含む、方法。
  2. ータベースが、パターン認識ブロックから新しいパターンを受信する、請求項1に記載の方法。
  3. ータベースが、会話を構成するパターンにおいてその存在が認められる必要な単語のリストを受信する、請求項1または2に記載の方法。
  4. 優先度レベルが、各パターンに割り当てられる、請求項1から3のいずれか一項に記載の方法。
  5. タイムスタンプブックマークが、絶対時間を基準として割り当てられ、次いで、低速化されたタイムフレームに変換される、請求項1から4のいずれか一項に記載の方法。
  6. 送信機からのデジタルオーディオ信号を低速化するためのデバイスであって、
    − 送信機からのデジタルオーディオ信号を受信する入力部と、
    − デジタルオーディオ信号を、一連の単語で構成されるテキストに変換する変換器と、
    − タイムスタンプブックマークを、テキストの複数の単語のそれぞれに関連付けるタイムスタンパと、
    − 参照されるパターンを含むパターンデータベースと、
    − 参照されるパターンに含まれた単語を識別し、排除するためのパターンを識別された単語から推定するパターン認識ブロックと、
    − 排除されるべきパターンをフィルタリングするパターンフィルタリングブロックと、
    − 低速化率を定義するフローコントローラと、
    − 低速化率に基づいてデジタルオーディオ信号を低速化するデジタルオーディオ信号低速化器と、
    − 低速化率に基づいて低速化されたタイムフレームを定義するタイムフレーム適応ブロックと、
    − 低速化されたタイムフレーム内でタイムスタンプブックマークを調整するタイムスタンプブックマーク適応ブロックと、
    − 絶対基準時間を、パターン認識ブロック、低速化器、およびタイムフレーム適応ブロックに提供する基準クロックと、
    − デジタルオーディオ信号から排除されるべきパターンを削除し、デジタルオーディオ信号を再構築する再構成ブロックと、
    − 低速化されたデジタルオーディオ信号を再生する出力部と
    を含む、デバイス。
  7. パターンデータベースが、各言語に固有である、請求項6に記載のデバイス。
  8. 言語検出器が、変換器に追加される、請求項6または7に記載のデバイス。
JP2014527570A 2011-08-31 2012-08-08 デジタルオーディオ信号を低速化するための方法およびデバイス Expired - Fee Related JP5873927B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1157705A FR2979465B1 (fr) 2011-08-31 2011-08-31 Procede et dispositif de ralentissement d'un signal audionumerique
FR1157705 2011-08-31
PCT/EP2012/065495 WO2013029944A1 (en) 2011-08-31 2012-08-08 Method and device for slowing a digital audio signal

Publications (2)

Publication Number Publication Date
JP2014527648A JP2014527648A (ja) 2014-10-16
JP5873927B2 true JP5873927B2 (ja) 2016-03-01

Family

ID=46639511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014527570A Expired - Fee Related JP5873927B2 (ja) 2011-08-31 2012-08-08 デジタルオーディオ信号を低速化するための方法およびデバイス

Country Status (7)

Country Link
US (1) US9928849B2 (ja)
EP (1) EP2751802B1 (ja)
JP (1) JP5873927B2 (ja)
KR (1) KR101556483B1 (ja)
CN (1) CN103782340B (ja)
FR (1) FR2979465B1 (ja)
WO (1) WO2013029944A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014169182A2 (en) * 2013-04-12 2014-10-16 Dana Limited Vehicle and operator guidance by pattern recognition
US11557288B2 (en) 2020-04-10 2023-01-17 International Business Machines Corporation Hindrance speech portion detection using time stamps

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3332667B2 (ja) 1995-06-15 2002-10-07 三洋電機株式会社 ビデオテープレコーダ
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
JP3881620B2 (ja) 2002-12-27 2007-02-14 株式会社東芝 話速可変装置及び話速変換方法
JP2005148307A (ja) 2003-11-13 2005-06-09 Ricoh Co Ltd 話速変換装置、話速変換方法、プログラム及び記録媒体
CN100547654C (zh) 2004-07-21 2009-10-07 松下电器产业株式会社 语音合成装置
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
TWI277949B (en) * 2005-02-21 2007-04-01 Delta Electronics Inc Method and device of speech recognition and language-understanding analysis and nature-language dialogue system using the method
JP2008040431A (ja) 2006-08-10 2008-02-21 Yamaha Corp 音声加工装置
CN102867526A (zh) * 2007-02-14 2013-01-09 缪斯亚米有限公司 用于分布式音频文件编辑的门户网站
US8244531B2 (en) * 2008-09-28 2012-08-14 Avaya Inc. Method of retaining a media stream without its private audio content
TWI396443B (zh) * 2008-12-22 2013-05-11 Ind Tech Res Inst 應用於網路串流之影音控制回應及頻寬調適方法與使用該方法之伺服器
EP2383732B1 (en) 2009-01-29 2015-10-07 Panasonic Intellectual Property Management Co., Ltd. Hearing aid and hearing aiding method
US8958685B2 (en) * 2009-08-17 2015-02-17 Avaya Inc. Word cloud audio navigation
US9413869B2 (en) * 2010-02-10 2016-08-09 Qualcomm Incorporated Mobile device having plurality of input modes
US8681649B2 (en) * 2011-08-01 2014-03-25 Cisco Technology, Inc. System and method for adaptive optimization of resource utilization for redundancy elimination

Also Published As

Publication number Publication date
US9928849B2 (en) 2018-03-27
JP2014527648A (ja) 2014-10-16
KR101556483B1 (ko) 2015-10-01
KR20140047722A (ko) 2014-04-22
CN103782340A (zh) 2014-05-07
CN103782340B (zh) 2016-01-20
FR2979465A1 (fr) 2013-03-01
WO2013029944A1 (en) 2013-03-07
US20140229167A1 (en) 2014-08-14
EP2751802B1 (en) 2015-07-01
FR2979465B1 (fr) 2013-08-23
EP2751802A1 (en) 2014-07-09

Similar Documents

Publication Publication Date Title
US9978395B2 (en) Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US7627471B2 (en) Providing translations encoded within embedded digital information
US5943648A (en) Speech signal distribution system providing supplemental parameter associated data
WO2014099319A1 (en) Audio processing apparatus and audio processing method
CN110399315B (zh) 一种语音播报的处理方法、装置、终端设备及存储介质
US20100256972A1 (en) Automatic simultaneous interpertation system
US20240071400A1 (en) Encoded output data stream transmission
JP5387416B2 (ja) 発話分割システム、発話分割方法および発話分割プログラム
CN113488026A (zh) 基于语用信息的语音理解模型生成方法和智能语音交互方法
US8676578B2 (en) Meeting support apparatus, method and program
JP5873927B2 (ja) デジタルオーディオ信号を低速化するための方法およびデバイス
CN1932976B (zh) 一种实现视音频处理中字幕与语音同步的方法和系统
Wottawa et al. French learners audio corpus of German speech (FLACGS)
Pražák et al. Four-phase re-speaker training system
JP4979336B2 (ja) 音声出力装置
Watanabe et al. The distribution of fillers in lectures in the Japanese language
JP7323210B2 (ja) 音声認識表示装置、音声認識表示方法及びプログラム
Kolář et al. Czech spontaneous speech corpus with structural metadata
US20240161739A1 (en) System and method for hybrid generation of text from audio
KR20230080557A (ko) 보이스 교정 시스템
Giiven Spoken Turkish in television news and debates: Some acoustic and morphological aspects relevant to respeaking
Elliot The application of a Bayesian approach to auditory analysis in forensic speaker identification
Hull Manner of speech and its influence on speech understanding in older patients with impaired hearing
Reynolds Direct quotation in Japanese: A site for stereotyping
JP3535711B2 (ja) 通話表を作成する作成方法、ならびに当該作成方法を記述したプログラムを格納した記憶媒体、ならびに当該作成方法で作成された通話表、ならびに当該通話表を作成するための装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160118

R150 Certificate of patent or registration of utility model

Ref document number: 5873927

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees