JP5873927B2

JP5873927B2 - デジタルオーディオ信号を低速化するための方法およびデバイス

Info

Publication number: JP5873927B2
Application number: JP2014527570A
Authority: JP
Inventors: ウォルフ，クリストフ
Original assignee: アルカテル−ルーセント
Priority date: 2011-08-31
Filing date: 2012-08-08
Publication date: 2016-03-01
Anticipated expiration: 2032-08-08
Also published as: US9928849B2; JP2014527648A; KR101556483B1; KR20140047722A; CN103782340A; CN103782340B; FR2979465A1; WO2013029944A1; US20140229167A1; EP2751802B1; FR2979465B1; EP2751802A1

Description

本出願は、２０１１年８月３１日に出願された仏国特許出願第１１５７７０５号に基づくものであり、その開示は、引用によりその全体が本明細書により組み込まれており、その優先権は、米国特許法第１１９条の下で本明細書により主張される。

本発明は、その中の少なくとも１人が完全に流暢ではない言語を話している人々の間で、効果的な、リアルタイムで話されるコミュニケーションを可能にするために、デジタルオーディオ信号を低速化するよう意図された方法に関する。

最ももどかしい経験の１つは、言語が異なる話し手を理解できないことである。我々にとって他国のものである言語を理解する難しさに直面することは、よくあることである。しかしながら、人間交流に不可欠な一部分は、聞き、理解し、他者とコミュニケートすることである。世界はグローバル化が進んでおり、異なる言語を話す人々とコミュニケートする機会が増えている。例を挙げると、企業の従業員間での言語多様性が、さまざまな難題を呈している。

言語は、それが使用する音素において異なり、そのことは当然ながら、外国語に直面するときに困難を生み出す。話し言葉は、多くの要素を省略し、会話が行われる状況に依存する。考えながら話すという同時性のために、多くの文法的な誤りが存在する。最も頻繁には、背景雑音が、話された語と混ざり合う。このことはとりわけ、人間の言語を認識する際に、音声認識コンピュータシステムが有する難しさによって示される。これらの障害のすべては、聞いている人による思考努力を必要とし、そのことが彼らの即時の理解を遅らせ、彼らが会話の脈絡を失う原因となることがある。

たとえば、今日、世界各国でコミュニケートする必要のある人々は、主に、英語でコミュニケートする。残念ながら、その言語を用いる彼らのスキルは一様ではなく、ネイティブの話し手によって素早く話された英語を理解することは、非常に難しいことが多い。したがって、課題は、わかりやすい双方向のコミュニケーションをそのままにしながら、議論の意味を失う可能性なしに、しゃべりのスピードを低速化することである。

スピーチを低速化するためのソリューションは、数年にわたり存在している。しかしながら、それらのソリューションは、会話を長引かせる原因となる、本質的な副次的効果を有する。これは、冗漫となるコミュニケーションを、行き詰まりのリスクを伴って混乱させる。これらのソリューションは、放送事象（ＴＶ、ウェブなど）の場合には弱点なく適用されるが、双方向のコミュニケーションの場合には受け入れ可能でない。この低速化が、使用されている言語があまり容易でない人のためにもっぱら適用された場合、より流暢な話し手は、応答を得るために、自分たちの質問の遅い伝達の最後まで待たなければならないことになる。これは、やり取りにおける双方向性を問題の多いものにする。

したがって、本発明の目的は、使用されている言語において同じレベルの流暢さを持たない２人の話し手の間で、話し手のどちらも彼らの口頭のやり取りにおいて混乱させられることなく、改善された双方向のコミュニケーションを可能にすることである。

本発明の目的はまた、聞き手が、話し手のスピーチを理解するためのより多くの時間を割り当てることを、口頭のやり取りのペースがこのことに影響されることなく、可能にすることである。

本発明の目的はまた、それが誰であれ話し手の話を聞いている人のみに知覚可能なやり方で、話し手の語の速度を低速化することを可能にする方法を提案することである。

本発明の対象は、低速化されたデジタルオーディオ信号を受信機に送信するために、送信機からのデジタルオーディオ信号を低速化するための方法であって、
− 送信機から受信されたデジタルオーディオ信号が、一連の単語で構成されるテキストに変換されるステップと、
− タイムスタンプブックマークが、絶対時間基準に関連して、テキストにおける各単語に割り当てられるステップと、
− データベースにおいて参照されるパターンに属する単語が識別され、このことから、排除されるべきパターンが推定されるステップと、
− 低速化率が、排除されるべきパターンに基づいて定義されるステップと、
− タイムスタンプブックマークが、低速化率に基づいて低速化されたタイムフレームに適応されるステップと、
− 送信機から受信されたデジタルオーディオ信号が、低速化されるステップと、
− 排除されるべきパターンが、送信機から受信されたデジタルオーディオ信号から削除されるステップと、
− 低速化されたデジタルオーディオ信号が、受信機に送信されるステップと
を含む。

議論またはスピーチが解析されるとき、言語化された思考の過程で、以下のような付随条件が留意される：
− 休止、
− 擬声語によって隠された躊躇、
− しばしば言語性チックに関連付けられる、意味のない「ダミー語」、
− 繰り返し。

これらの事象のすべては、話している人の雰囲気および個性の一部を形成するので、コミュニケーションに貢献する。しかしながら、これらの事象は、やり取りされる語に意味を与えることには貢献しない。したがって、近似した、または不正確でさえある理解に甘んじるのではなく、本発明の目的は、その実際の意味を失うことなく、センテンスを低速化することに十分な時間を配分するよう時間を解放するために、これらの事象を取り除くことであり、それにより、リアルタイムの双方向性を保持することである。

第１の態様によれば、パターンデータベースが、パターン認識ブロックから新しいパターンを受信する。とりわけ、それは、話し手に固有の、繰り返しまたは言語性チックであることがある。

第２の態様によれば、パターンデータベースは、会話を構成するパターンにおいて、その存在が許可される必要な単語のリストを受信する。とりわけ、会社名もしくは人名、またはファーストネームもしくはニックネームなどの固有名詞が、頻繁に会話に入り込むことがある。そのようなケースでは、それらの固有名詞が、言語性チックとして識別されることがある。当然ながら、陳述が理解不能になるので、それらの固有名詞を削除するのを避けることが絶対に不可欠である。

第３の態様によれば、優先度のレベルが、それぞれのパターンに割り当てられる。これは、低速化率を送信機のスピーチ速度に適応させるのを可能にするために、それらの優先度に基づいて、排除されることになるパターンを選択することを可能にする。

最初に、タイムスタンプブックマークが、基準クロックによって与えられる絶対時間を基準として、テキストの各単語に割り当てられ、次いでタイムスタンプブックマークは、定義された低速化率に基づいて確立された新しい基準である、低速化されたタイムフレームに変換される。

本発明の対象はまた、その方法を実施するためのデバイスを有することである。とりわけ、本発明の対象は、上で説明された方法を実施するためのデバイスであって、デバイスは、
− 送信機からのデジタルオーディオ信号を受信する入力部と、
− デジタルオーディオ信号を、一連の単語で構成されるテキストに変換する変換器と、
− タイムスタンプブックマークを、テキストの複数の単語のそれぞれに関連付けるタイムスタンパと、
− 参照されるパターンを含むパターンデータベースと、
− 参照されるパターンに含まれた単語を識別し、排除するためのパターンを識別された単語から推定するパターン認識ブロックと、
− 排除されるべきパターンをフィルタリングするパターンフィルタリングブロックと、
− 低速化率を定義するフローコントローラと、
− 低速化率に基づいてデジタルオーディオ信号を低速化するデジタルオーディオ信号低速化器と、
− 低速化率に基づいて低速化されたタイムフレームを定義するタイムフレーム適応ブロックと、
− 低速化されたタイムフレーム内でタイムスタンプブックマークを調整するタイムスタンプブックマーク適応ブロックと、
− 絶対基準時間を、パターン認識ブロック、低速化器、およびタイムフレーム適応ブロックに提供する基準クロックと、
− デジタルオーディオ信号から排除されるべきパターンを削除し、デジタルオーディオ信号を再構築する再構成ブロックと、
− 低速化されたデジタルオーディオ信号を再生する出力部と
を含む。

一態様によれば、パターンデータベースは、各言語に固有である。これは、言語性チックに関連したダミー語などの表現を、ある言語から別の言語へと転換することができないからである。

一変形によれば、とりわけ、使用される言語に応じて１つのデータベースから別のデータベースに切り替えることを可能にするために、言語検出器が変換器に追加されてもよい。

本発明の１つの利点は、２人のうちの１人が使用されている言語に流暢ではない話し手同士の間で、即時の、双方向な、わかりやすいコミュニケーションを可能にすることである。

本発明の他の特徴および利点は、当然非限定的な例として与えられる以下の一実施形態の説明を、添付の図面において読むときに、明らかになるであろう。

デバイスの一実施形態を示す図である。方法の一実施形態を示す図である。

以下の説明は、デジタル信号が、話し手と聞き手との間でやり取りされるデジタルオーディオ信号である、好ましい一実施形態に関する。

図１に示される本発明の実施形態において、デバイス１は、話し手のスピーチに対応したデジタルオーディオ信号３を受信する入力部２と、低速化されたデジタルオーディオ信号５が通って話し手の低速化されたスピーチを知覚する話し手に送られる、出力部４とを含む。

入力部２は、変換器６に接続されており、変換器６の機能は、デジタルオーディオ信号３を、たとえば、（「情報交換用米国標準コード」を表す）ＡＳＣＩＩフォーマットにおける一連の単語で構成されたテキスト７に変換することである。

得られたテキスト７は、タイムスタンパ８に送信され、タイムスタンパ８は、日付および時間（すなわち、「タイムスタンプ」）を表す一連の文字を意味するタイムスタンプブックマークを、各単語に割り当てる。タイムスタンピングは、日付および時間を、コンピュータデータに関連付けることからなるメカニズムである。タイムスタンピングは、基準時点からどのくらいの時間が経過したかを評価することを可能にする。タイムスタンプブックマークは、各単語の最初および最後に割り当てられる。各単語は、それが話されたときの絶対時間、および各単語がテキスト内に占める時間長を定義するために、タイムスタンプブックマークを受信する。

基準クロック９は、時間比較の基準としての役割を果たすタイムスタンプブックマークが設定されたことに基づいて、タイムスタンパ８に絶対時間の一元化された基準を提供する。

ＡＳＣＩＩフォーマットにおける、タイムスタンプされた単語１０は次いで、パターンデータベース１２に関連付けられたパターン認識ブロック１１に送信される。

パターンデータベース１２は、排除されるべき単語のグループである参照されるパターンを記憶するためのロケーションである。これらのパターンには、修飾詞が割り当てられる。修飾詞のいくつかの例は、（繰り返される単語を識別するための）その単語もしくは単語のグループの発生数、または、その言語に典型的だが意味のない充当詞のパターンを含み、排除される必要のある充当詞は、フランス語では「ｔｕｓａｉｓ」、「ｖｏｉｌａ」、「ｄ’ａｃｃｏｒｄ」、「ｅｆｆｅｃｔｉｖｅｍｅｎｔ」などの、または、英語では「ｙｏｕｋｎｏｗ（そうでしょう）」、「ｔｈｅｒｅｙｏｕｇｏ（ほらね）」、「ｒｉｇｈｔ（そうだね）」、「ｃｌｅａｒｌｙ（いかにも）」、「ｌｉｋｅ（みたいね）」などのような表現を含む。

パターン認識ブロック１１は、タイムスタンプされた複数の単語１０を個々に受信する。パターン認識ブロック１１は、パターンデータベース１２において参照されるパターンに属するタイムスタンプされた単語、および保存されている他のタイムスタンプされた単語１３を識別する。パターン認識ブロック１１は、それらのパターンに基づいて、識別された単語を単語のグループにまとめる、すなわち、たとえば、その単語がそのパターンにおいて現れるのと同じ順序でまとめる。パターン認識ブロック１１はとりわけ、排除される必要のある、繰り返される単語をマークする。最後に、パターン認識ブロック１１は、まだ含まれていない任意のパターンをデータベース１２に追加することによって、データベース１２を内容充実させる。対応する単語が参照されるパターンに含まれていない場合、それらは最終的に保存され得るので、排除されるべき新しいパターンをパターンデータベース１２の中に追加することは、パターン認識ブロック１１の１つの不可欠な機能である。目標は次いで、単一の動作において参照されるパターンに属する、すべての不必要な単語を削除するのを可能にすることである。したがって、データベース１１を内容充実させることは、本方法のとりわけ重要なステップである。

パターン認識が実施されると、ＡＳＣＩＩフォーマットにおける、タイムスタンプされた単語１０のグループは、パターンフィルタリングブロック１４に送られる。パターンフィルタリングブロック１４の機能は、パターンデータベース１２の中に見出され、かつパターン認識ブロック１１によって識別された、排除されるべきパターン１５から、維持されるべき単語１３を分離することである。パターンフィルタリングブロック１４の出力は、排除されるべきパターン１５と、タイムスタンプされた単語のグループ１３の組との両方で構成されており、タイムスタンプされた単語のグループ１３が、維持され、言語があまり得意でない聞き手によって聞かれることになる。

パターンデータベース１２は、排除されるべき新しいパターンをそこから受信するパターン認識ブロック１１によってアクセスされてよく、かつ、排除されるべきパターン１５と、テキストに維持されるべきタイムスタンプされた単語１３とを分離するパターンフィルタリングブロック１４によってアクセスされてよい。

当然ながら、パターンデータベース１２は、問題となる言語に固有であり、その言語に典型的なパターンを含む。パターンは、それぞれの言語についてよく知られているシンプルテキストのパターンであってよい。これらのパターンは、言語学者によって提供され、ＡＳＣＩＩテキストの形式においてパターンを単にタイピングすることによって、パターンデータベース１２に記憶され得る。しかしながら、パターンデータベース１２の内容充実は、会話全体を通して頻繁に繰り返される会社名などの、しばしば繰り返される単語または表現が重要な情報であり得るために、事前対策を必要とする。会話においてその存在が認められる単語のリストを必要とする一方で、パターン認識ブロック１１によって、パターンデータベース１２の自動的な内容充実をアクティブにすることが可能である。その場合、パターン認識ブロック１１は、発生カウンタの助けを得て、パターンデータベース１２を内容充実させることを可能にすることになる。パターン認識の他の形式も予測可能であり、データベースの内容の増加をもたらすことができる。

１つの有効な実施形態は、各パターンに優先度レベルを割り当てることである：高優先度は、パターンデータベース１２に最初から存在する、たとえば言語学者によって追加されたパターンに割り当てられ、低優先度は、パターン認識ブロック１１からのパターンに割り当てられる。スピーチのための所望の低速化率に応じて、低優先度パターンは、維持されても、排除されてもよい。

デバイス１は、デジタルオーディオ信号の低速化器１６をさらに含み、低速化器１６は、デバイス１に入るときのその最初の状態のデジタルオーディオ信号３と、速度コントローラ１７によって送られた所望の低速化率についての命令との両方を受信する。デジタルオーディオ信号３は、市販の最適化された低速化アルゴリズムを使用することによって低速化される。最初に受信されたデジタルオーディオ信号３は次いで、低速化されたデジタルオーディオ信号１８に変換される。

速度コントローラ１７は、パターン認識ブロック１１によって識別された削除されるべきパターン１５の時間長に対応した、削除されるべき時間を計算する。速度コントローラ１７の機能は、適用する低速化率を決定すること、およびデジタルオーディオ信号３を低速化する速度を、パターンフィルタリングブロック１４によって実施されるフィルタリングの有効性に適応させることである。これは、繰り返しまたは不必要な単語をわずかしか使用しない簡潔な話し方を有する話し手がいるためである。その場合、フィルタリングは、話しの速度において低い削減量をもたらし、リアルタイムに近い双方向性を保持する。したがって、低速化は、調整されなければならない。これは、フィルタリングの後に、維持されるべき単語１３のタイムスタンプブックマークを、基準クロック９によって与えられた基準時間と常に比較することによって行われる。速度コントローラ１７は、その比較から、必要な低速化率を決定する、時間シフトの正方向または負方向を推定する。

低速化されたデジタルオーディオ信号１８は、再構成ブロック１９に送られ、再構成ブロック１９は、各単語の最初および最後に置かれたタイムスタンプブックマークに基づいて、パターンフィルタリングブロック１４によって維持されたタイムスタンプされた単語１３から、排除されるべきパターン１５を削除し、テキストを再構築する。しかしながら、タイムスタンパ８によってテキスト７の中に追加されたタイムスタンプブックマークは、最初のデジタルオーディオ信号３が受信されたときの実際の時間に対応しており、これは、低速化されたデジタルオーディオ信号１７の時間とは異なる。

タイムフレーム適応ブロック２０は、基準クロック９によって与えられた絶対時間と比較して、所望の低速化率に基づいて低速化されたタイムフレームを定義する。タイムスタンプブックマーク適応ブロック２１は、低速化されたタイムフレームに整合するように、各単語に関連付けられたタイムスタンプブックマークを変換する。

デバイス１は次いで、再構成ブロック１９の出力部４において、低速化されたデジタルオーディオ信号５を聞き手に送り出し、聞き手は、話し手がそれに気づくことなく、または話し手が話している速さの変更を必要とすることなく、話し手を理解する改善された状態を体験する。

ここで、説明されたばかりのデバイス１のおかげにより実施される方法の、例示的な適用を示す図２を検討する。話し手２０は、「Ｍａｒｖｅｌｌｏｕｓ，ｙｏｕｋｎｏｗ（素晴らしいでしょう）」などの単語２１を発する。このフレーズは、デジタルオーディオ信号の形式で変換器６によって受信され、それを変換器６が、たとえばＡＳＣＩＩフォーマットにおける単語で構成されるテキスト２２に変換する。テキストの各単語２３は、切り分けられ、タイムスタンパ８によってタイムスタンプブックマークを割り当てられる。パターン認識ブロック１１は、データベース１２において参照されるパターンに属する余分な単語２４を識別し、余分な単語２４は次いで、パターンフィルタリングブロック１４によって排除される。

話し手２０の発話２１はまた、フローコントローラ１７によって制御される低速化器１６に送信される。話し手２０の発話２１は、低速化された発話１８に変換される。同時に、タイムスタンプブックマークは、低速化されたタイムフレームに基づいて、タイムスタンプブックマーク適応ブロック２１によってそれ相応に修正される。次いで維持された単語が、再構成ブロック１９によって再編成され、低速化されて、より簡潔な発話２２が聞き手２３に送られる。

話し手が、議論の間に、たとえば、自分のネイティブ言語とは異なる言語に切り替えることによって言語を変更することを決めた場合、２つのオプションが可能である。

外国語を使用することは、最も一般的には、話し手が自分のネイティブ言語を使用しているときよりも、はるかに低い話しぶりをもたらす。したがって、変換器６によって報告される付随条件に基づいた低速化を無効にすることが可能になる。

あるいは、参照、データベース、および認識モードを適応させることによって、ある言語から別の言語へとデバイス１の機能を切り替えるために、言語検出器が変換器６に追加されてもよい。しかしながら、この２つ目のオプションは、言語検出器が言語の変更および使用される言語を識別可能にする前に、いくつかの単語が発音されるのを必要とすることが強調されなければならない。このケースにおいて、話しの間に発生した付随条件は、補正されず、しかし低速化プロセスにおいて維持され、話し手に送信される。結果として、２つの言語の間の移行は、両方の話し手に完全に透過的に見える。

デジタル信号を低速化するこのプロセスは、他の用途に使用されてもよい。タイムスタンピングのおかげで、デジタルオーディオ信号について説明されたばかりの同じ方法が、デジタルオーディオ信号に関連付けられたデジタルビデオ信号にもまた適用可能である。デジタルビデオ信号の低速化は、いくつかの画像の推移が、残りの画像とつなぎ合わせる難しさのために排除される場合に、見る者に不快感を引き起こすことがある。デジタルオーディオ信号が画像と調子を合わせたままにすることを確実にしながら、デジタルオーディオ信号のみを単純に低速化することが、より都合がよい。しかしながら、より複雑ではあるものの、デジタルオーディオ信号とデジタルビデオ信号との両方を低速化することは、全く可能である。

デジタルオーディオ信号は、同じデバイスを用いて、先に説明された方法によって低速化される。低速化率は、たとえば、ダイアログなどにおける画像と発話との間の整合である、追加のパラメータを考慮に入れなければならない。低速化されたデジタルオーディオ信号は次いで、元のままのデジタルビデオ信号と結合される。

当然ながら、本発明は、説明され、示された実施形態に限定されず、むしろ、本発明の趣旨から逸脱せずに当業者に利用可能な多くの変形形態を前提とする。とりわけ、本発明の範囲から逸脱せずに、デジタルオーディオ信号を、ＡＳＣＩＩフォーマット、バイナリフォーマット、表音フォーマット、または任意の他のフォーマットに変換することが可能である。

Claims

低速化されたデジタルオーディオ信号を受信機に送信するために、送信機からのデジタルオーディオ信号を低速化するための方法であって、
− 送信機から受信されたデジタルオーディオ信号が、一連の単語で構成されるテキストに変換されるステップと、
− タイムスタンプブックマークが、絶対時間基準に関連して、テキストにおける各単語に割り当てられるステップと、
− データベースにおいて参照されるパターンに属する単語が識別され、このことから、排除されるべきパターンが推定されるステップと、
− 低速化率が、排除されるべきパターンに基づいて定義されるステップと、
− タイムスタンプブックマークが、低速化率に基づいて低速化されたタイムフレームに適応されるステップと、
− 送信機から受信されたデジタルオーディオ信号が、低速化されるステップと、
− 排除されるべきパターンが、送信機から受信されたデジタルオーディオ信号から削除されるステップと、
− 低速化されたデジタルオーディオ信号が、受信機に送信されるステップと
を含む、方法。
データベースが、パターン認識ブロックから新しいパターンを受信する、請求項１に記載の方法。
データベースが、会話を構成するパターンにおいてその存在が認められる必要な単語のリストを受信する、請求項１または２に記載の方法。
優先度レベルが、各パターンに割り当てられる、請求項１から３のいずれか一項に記載の方法。
タイムスタンプブックマークが、絶対時間を基準として割り当てられ、次いで、低速化されたタイムフレームに変換される、請求項１から４のいずれか一項に記載の方法。
送信機からのデジタルオーディオ信号を低速化するためのデバイスであって、
− 送信機からのデジタルオーディオ信号を受信する入力部と、
− デジタルオーディオ信号を、一連の単語で構成されるテキストに変換する変換器と、
− タイムスタンプブックマークを、テキストの複数の単語のそれぞれに関連付けるタイムスタンパと、
− 参照されるパターンを含むパターンデータベースと、
− 参照されるパターンに含まれた単語を識別し、排除するためのパターンを識別された単語から推定するパターン認識ブロックと、
− 排除されるべきパターンをフィルタリングするパターンフィルタリングブロックと、
− 低速化率を定義するフローコントローラと、
− 低速化率に基づいてデジタルオーディオ信号を低速化するデジタルオーディオ信号低速化器と、
− 低速化率に基づいて低速化されたタイムフレームを定義するタイムフレーム適応ブロックと、
− 低速化されたタイムフレーム内でタイムスタンプブックマークを調整するタイムスタンプブックマーク適応ブロックと、
− 絶対基準時間を、パターン認識ブロック、低速化器、およびタイムフレーム適応ブロックに提供する基準クロックと、
− デジタルオーディオ信号から排除されるべきパターンを削除し、デジタルオーディオ信号を再構築する再構成ブロックと、
− 低速化されたデジタルオーディオ信号を再生する出力部と
を含む、デバイス。
パターンデータベースが、各言語に固有である、請求項６に記載のデバイス。
言語検出器が、変換器に追加される、請求項６または７に記載のデバイス。