JP2008500573A

JP2008500573A - メッセージを変更するための方法及びシステム

Info

Publication number: JP2008500573A
Application number: JP2007514234A
Authority: JP
Inventors: ビングリー，ペーテル; ボドラーンデル，マールテン; スヘリンヘルハウト，ニコラース
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-05-27
Filing date: 2005-05-17
Publication date: 2008-01-10
Also published as: EP1754221A1; CN1961350A; WO2005116992A1; US20080275700A1; KR20070020252A

Abstract

本発明は、音声コンテンツを有する入力メッセージ（ＩＭ）を変更するための方法及びシステムについて記載する。当該方法は、入力メッセージ（ＩＭ）の音声コンテンツ（Ａ）をテキスト表示（ＴＲ）の要素に変換するステップと、入力メッセージ（ＩＭ）の音声コンテンツ（Ａ）をテキスト表示（ＴＲ）に関連する構成音声要素（Ａｓ）に分割するステップと、編集入力に従って、テキスト表示（ＴＲ）を編集するのに適した形式でテキスト表示（ＴＲ）をレンダリングするステップと、出力メッセージ（ＯＭ）の変更された音声コンテンツ（Ａ’）を与えるように、編集されたテキスト表示（ＴＲ’）に従って、音声コンテンツ（Ａ）の関連する音声要素（Ａｓ）を改変するステップとを有する。

Description

本発明は、音声及び、随意的に映像のコンテンツを有するメッセージを変更するための方法及びシステムと、メッセージングシステムとに関する。

数十年前のオンラインユーザグループ及びチャットルームの発展以来、ユーザがメッセージをやり取りすることにより通信することを可能にするメッセージングシステムは、特にワールド・ワイド・ウェブ及びインターネットの急速な拡大とともに、ユーザ受容の連続的な成長に恵まれてきた。他のメッセージングシステムは、ユーザが、例えば携帯電話によりメッセージを送ることを可能にする。

ユーザがキーボードにより自らのメッセージをタイプし、その後に、メッセージが、目的地のユーザのＰＣにおいて、書かれた形式で現れることを含む初期のメッセージングシナリオは、メッセージングシステムが、音声メッセージコンテンツとともに映像を送ることができる増大した回線容量を使用するにつれて、急速に時代遅れとなりつつある。タイプされたメッセージの１つの利点は、タイプされたテキストが、メッセージがユーザにとって満足いくまで、適切なエディターを用いて、その瞬間に容易に編集又は変更されうる点であり、一方、通常はあるデジタル形式で符合化されている音声及び映像は、ユーザが変更することが決して容易ではない。しかし、音声又は映像メッセージを記録した後に、音声は、好ましくないイントネーション又は意図されない意味を持った言葉を含み、あるいは、映像は、ユーザが結局送ることを望まない要素を含みうる。音声及び映像の編集に含まれる努力は法外に高いので、１つの小さな望まない要素でさえも含む音声又は映像メッセージは、そのまま送られるか、あるいは、その全体で捨てられるかのいずれかであるべきであり、強制的にユーザにメッセージを再記録させる。音声及び映像の両処理は、複雑であり、ユーザがたとえ基本でも理解するためには平均的なユーザの一部に専門の高度なレベルを要求し、一方、職業的な編集及び混合の品質は、大部分のユーザには達成できない。

従って、本発明は、音声コンテンツを含むメッセージを、最終的にそれを受信者に提示する前に、容易に且つ直感的に変更する方法を提供することを目的とする。

この目的のために、本発明は：
入力メッセージの音声コンテンツをテキスト表示の要素に変換するステップと、
前記メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するステップと、
前記テキスト表示を編集に適した形式にレンダリングするステップと、
前記テキスト表示を編集入力に従って変更するステップと、
出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記音声コンテンツの前記関連する音声要素を改変するステップと、を有する方法を提供する。

入力メッセージを変更するための適切なシステムは、前記入力メッセージの音声コンテンツを記録するための音声入力部と、前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するための音声・テキスト変換器と、前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するための音声分割ユニットと、前記テキスト表示を編集に適した形式にレンダリングするためのレンダリングユニットと、前記テキスト表示の編集を可能にするためのエディターと、出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記関連する音声要素を改変するための音声改変ユニットと、を有する。

このようにして、本発明は、音声処理技術で熟練していることを必要とせずに、音声メッセージを発生させ、この音声メッセージに対して、それが受信者に提示される前に、如何なる必要な変更をも導入するための、ユーザにとって容易な方法を提供する。ユーザは、ユーザが、メッセージが正確であって、提示に適していることに満足するまで、元のメッセージに如何なる多数の変更をも行うことができる。

従属請求項及び以下の記載は、本発明の有利な実施例及び特徴を具体的に開示する。

音声入力メッセージは、変換器に接続された、例えばマイクロホンのような、ユーザが話しかける適切な記録装置を用いることによって、記録又は捕捉をなされうる。変換器において、自動発話認識ユニットは、入力されたメッセージの音声コンテンツを識別し、これをデジタルのテキスト表示に変換する。テキスト表示の要素は、例えば、カウンタ又は一種のクロックを用いて、音声コンテンツにおいてテキスト表示要素の相対的な位置を一意的に識別することによって、時間順に経過時間をマークする値を与えられても良い。

音声コンテンツの構成音声要素は、言葉全体、単語のグループ、及び文節、音節又は音素のフラグメントであっても良い。音声分割ユニットは、例えば、適切なアルゴリズム及び／又はフィルタを適用することによって、音声コンテンツをその構成音声要素へと限定する。

相関関係又は等価は、同様に分割処理の間に個々の音声要素へ時間順に経過時間をマークするよう値を割り当てることによって、音声コンテンツの音声要素とテキスト表示要素との間に容易に確立されうる。このようにして、音声要素及びその対応するテキスト表示要素は、それらの整合又は対応する時間的価値に基づいて位置付けられ、あるいは識別されうる。時間的価値は、ある種類のマーカ又は指示を直接的にテキスト表示又は音声コンテンツに挿入しても良く、あるいは、テキスト表示又は音声コンテンツの適切な点を参照してリストに集められても良い。

音声コンテンツが満足なものであるかどうかをユーザが確認することを可能にするよう、それは、編集のために適した形でユーザに提示される。この目的のために、音声コンテンツのテキスト表示は、音声合成装置により音にレンダリングし直され、ラウドスピーカやヘッドホンなどによりユーザに対して再生されても良い。望ましくは、ユーザは、テキスト表示が、例えば、パーソナルコンピュータのスクリーン、携帯電話のスクリーン、ＴＶのスクリーンなどの表示ユニットに表示されうるように、音声コンテンツがテキスト形式にレンダリングされた後に、表示ユニットで音声コンテンツを見ても良い。ユーザは、例えば、編集命令をマイクロホンに話しかけることにより、言語でテキスト表示への変更を指示しても良い。話された編集命令は、その後、適切な発話解釈ユニットによって、対応する編集命令に変換されても良い。代替的に、変更は、例えば、キーボード又はキーパッドによりそれらをタイプすることによって、テキスト表示において実行されても良い。望ましくは、発話解釈ユニット及び／又は表示ユニットは、ユーザが編集の間にテキスト表示のテキストを観測することができるように、何らかの方法でエディターへ接続される。音声コンテンツの音声要素は、その後、テキスト表示での変更に従って、音声改変ユニットで変更される。

望ましくは、変更された音声コンテンツは、例えば、ラウドスピーカ又はヘッドホンのような適切な音声出力部により、メッセージを提示する前に、ユーザに対して再生される。ユーザは、変更された音声コンテンツを聴いて、それが満足できるかどうか、又は、テキスト表示における更なる変更が、最終的にメッセージを送る前に行われる必要があるかどうかを決定する。

テキスト表示を編集するためのエディターは、当該装置の表示ユニットを用いるパーソナルコンピュータ、携帯電話、ホームエンターテイメント装置などに組み込まれても良い。ユーザは、テキスト表示の要素を再配置、削除又は複製することによってテキスト表示のテキストを変更しても良い。これらの変更は、その場合に、対応する方法で音声コンテンツの音声要素で行われる。例えば、テキスト要素がテキスト表示から削除された場合には、その時間マーカにより識別される、対応する音声要素も削除されうる。テキスト要素がテキスト表示の異なる位置に動かされた場合には、対応する音声要素は、音声コンテンツのその元の位置から動かされ、テキスト表示における変更に対応する異なった位置に挿入される。

ユーザは、テキスト表示に予め存在していない新しい単語又は言葉であっても挿入することができる。この場合に、新しい単語は、エディターによって適切な方法で識別される。音声改変ユニットは、それが、単語のライブラリ又はデータベースにこの言葉を有するかどうか、又は、単語の構成音素が音声コンテンツに予め存在するかどうかを確認することができる。音声改変ユニットは、正確な順序で構成音素とともに置くことによって言葉を組み立てても良い。

テキスト表示においてテキスト要素を単に移動したり、又は再配置したりすることに加えて、ユーザは、対応する音声要素で行われるべきある種の変更を指示するよう、マークアップをテキストに挿入しても良い。例えば、感嘆符のような特別な文字は、単語の前後に挿入され、この単語が音声コンテンツにおいて、より大きな音にされるべきことを示しうる。代替的に、ユーザは、例えば、イタリック体にテキスト表示において変更された単語又は言葉が音声コンテンツにおいて、より小さな音にされるように、単語の書体を変更しても良い。他の種類の変更は、例えば、話者の声を男性から女性へ若しくはその逆に変更するといった、話者の声質の変更、又は、異なった話者特性を声へ適用することを有する。その場合に、これらのマークアップは、音声改変ユニットによる解釈に適した形でテキスト表示において命令又はコメントとして符号化されても良い。

音声改変ユニットは、テキスト表示における変更を解釈し、関連する音声要素において所要の変更を行う。音声要素は、例えば、単語をより大きな若しくはより小さな音にするよう、又は、別な方法で単語に対する強調を変更するよう、変更されうる。これは、適切なフィルタ又は関数を音声要素へ適用することによって、例えばピッチのような、音声要素の適切な特性を変更することによって達成可能である。

これらの改変の全ては、音声処理関数又はアルゴリズムのコレクション又はデータベースに保存され、又はコンピュータプログラムに組み込まれうる既知の音声処理技術を提供することにより実行可能である。変更されたテキスト表示におけるマークアップは、適切なアルゴリズム又は関数を自動的に取り出す又は作動させるために使用されても良い。

本発明の好ましい実施例において、ユーザは、例えば、システムへ適切な命令を入力することによって、分割の精度を特定することができる。粗い精度は、音声品質が非常に高いレベルを有することを必要としないところのチャットグループでやり取りされるメッセージでは十分であり得る。例えば、高品質音声で伝えられるべきレポート、スピーチ又はアナウンスを準備するような他の用途では、細かい精度が、詳細な補正が音声コンテンツで実行されることを可能にする特定されうる。より高い値の精度は、関連するより高い努力とともに、より良い音声処理品質を与えうる。

本発明の特に好ましい実施例では、音声平滑化技術は、音声コンテンツの音声要素の、それらを再配置する又はそれらの特性を変更することによる改変が、一様でない又は耳障りな発声（ｓｏｕｎｄｉｎｇ）音声コンテンツを生じることがあるので、隣接する音声要素の間での滑らかな遷移を確実にするように、改変された音声コンテンツへ適用される。

本発明は、また、映像コンテンツを有するメッセージの処理を可能にする。この場合に、入力メッセージを変更する方法は、また、前記入力メッセージの映像コンテンツを、前記テキスト表示に関連する対応するフレームセグメント又はフレームのシーケンスに分割するステップと、出力メッセージの変更された映像コンテンツを与えるように、必要に応じて、前記編集されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するステップを有する。

フレームセグメントは対応するテキスト表示に関連する多数の連続したフレームであると理解される。上記と同様に、時間順に経過時間をマークする値は、また、フレームシーケンスがその時間的価値を基に位置付けられ、あるいは識別されうるように、映像分割処理の間に、フレームシーケンスへ割り当てられる。フレームシーケンスは、その対応するテキスト表示、又は、同様に、対応する音声セグメントに整合されても良い。このようにして、相関関係又は等価は、映像コンテンツのフレームシーケンスと、テキスト表示及び／又は音声セグメントとの間で容易に確立される。フレームシーケンスの長さは、また、分割処理の精度によって決定されても良い。

テキスト表示で実行される編集は、適切な改変を実行することにより映像コンテンツで反映される。ユーザがテキスト表示の幾つかの要素を削除又は再配置したならば、対応する映像フレームシーケンスは、時間的価値を用いて位置付けられ、必要に応じて、削除又は再配置をなされる。テキスト表示に挿入されたあるマークアップは、映像コンテンツでは効果を有さなくても良い。即ち、例えば、話者の声の発声特性における変更は、映像コンテンツの如何なる変更をも必ずしも必要としない。しかし、ある種のマークアップは、例えば、ストロボ（ｓｔｒｏｂｅｓ）、フラッシング（ｆｌａｓｈｉｎｇ）又は色反転のような特別な効果を導入するように、映像コンテンツを改変するよう解釈されても良い。例えば、テキスト表示における語又は多数の語が、例えば、下線を引くこと又はそれを感嘆符の間に入れることにより、何らかの方法でマークされているならば、対応する音声要素は、音を大きくされても良く、対応する映像フレームシーケンスは、フラッシング又はストロボ効果を有するよう変更されても良い。

映像コンテンツを有する入力メッセージを変更するための適切なシステムは、入力メッセージの映像コンテンツを記録するための、例えば、ウェブカメラ、内蔵カメラ付き携帯電話、ビデオカメラ、などの映像入力部を有する。メッセージの映像コンテンツは、映像分割ユニットにおいて、テキスト表示の要素に関連するフレームセグメントに分解又は分割され、映像改変ユニットにおいて、出力メッセージの変更された映像コンテンツを与えるように、テキスト表示の変更に従って改変される。次に、メッセージの音声及び映像コンテンツは、出力メッセージを与えるように、音声／映像再結合ユニットにおいて再結合される。

望ましくは、例えば表示装置又はテレビスクリーンのような映像出力部は、出力メッセージの前記変更された映像コンテンツを再生するために使用可能である。

本発明の特に好ましい実施例では、例えばフィルタリング又はモーフィングのような映像平滑化技術は、変更された映像コンテンツにおいて連続するフレームセグメントの間の滑らかな遷移を与えるように、変更された映像コンテンツへ適用される。

当該方法は、留守番電話機のメッセージ、拡声装置での中継のためのメッセージ、音声・映像アナウンスなど、オリジナルの改善がしばしば必要とされるところの如何なる種類のメッセージの発生及び編集にも適用可能である。記載される方法は、インターネット又は電気通信網を介して、上述したような音声・映像チャットグループなどのメッセージ送信するためのメッセージングシステムにおいて、特に有利である。

メッセージを組み立てて、送信する適切な方法は、入力メッセージの音声及び随意的な映像コンテンツを捕捉するステップと、出力メッセージを与えるように、上述したような方法を用いることにより、前記入力メッセージの前記音声及び／又は随意的な映像コンテンツを改変するステップと、正確性の確認のためにユーザへ前記出力メッセージを再生するステップと、前記ユーザがその正確性を確認した後に前記出力メッセージを送信するステップとを有する。

従って、この方法に従ってメッセージを組み立てて、送信するためのメッセージングシステムは、入力メッセージの音声コンテンツを記録するための音声入力部及び、随意的に、前記入力メッセージの映像コンテンツを記録するための映像入力部と、変更された出力メッセージを与えるように、上述したような方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するための改変ユニットと、正確性の確認のためにユーザへ前記出力メッセージの前記変更されたコンテンツを再生するための音声出力部及び、随意的に、映像出力部と、前記ユーザがその正確性を確認した後に前記出力メッセージを送信するための送信ユニットとを有する。

本発明の好ましい特徴は、入力メッセージの改変に含まれる全てのステップを実行するためのコンピュータプログラムプロダクトを有する。即ち、音声・テキスト変換器、音声分割、映像分割、音声改変、映像改変、再結合などの、メッセージを変更するためのシステム（メッセージ変更システム）の構成要素のほとんど又は全ては、ソフトウェア及び／又はハードウェアモジュールの形で実現される。如何なる所要のソフトウェアも、既存のメッセージ変更システムが、本発明の特徴から恩恵を受けるよう適合されうるように、メッセージ変更システムの処理装置での符号化又は別の処理装置での符号化をなされても良い。メッセージ変更システムは、例えば、メッセージングシステムや留守番電話などの、メッセージを組み立てる又は処理する働きをする如何なるシステム又は装置へ接続されても良く、あるいはその一部であっても良い。

本発明の他の目的及び特徴は、添付の図面に関して考えられた以下の詳細な記載から明らかとなるであろう。しかし、当然のことながら、図面は、専ら説明の目的のために設計されているのであって、本発明の限定の定義として用いられているわけではない。

以下の図面の説明において、これらの図面は、本発明の他の可能な実現を除外するわけではないが、入力メッセージを変更するためのシステムは、メッセージングシステムの一部として示されている。このメッセージングシステムは、如何なる適切な通信ネットワークへの適切なインターフェースも有する、例えば、ホームエンターテイメントシステム、ＰＣ、ＴＶ、携帯電話、マルチメディア装置、などの、如何なる適切な音声映像装置にも組み込むことができる。システムは、キーボード２２又はキーパッド、マウス２３、スクリーン８、及びラウドスピーカ２０を有する、ユーザにより発せられた命令を機械言語に翻訳処理するためのユーザインターフェース１４を有する。音波及びフレームセグメントのグラフィック表示は、正確な翻訳として表されるわけではなく、単に説明目的を果たす。

図１に表されたメッセージングシステムで、ユーザ（図示せず。）は、例えば「Ｈｉ，ｅｈｍ，ＩａｍＪｏｈｎ．（こんにちは、えー、私はジョンです。）」といったメッセージをマイクロホン２に向かって話す間に、ビデオカメラ３によって撮影される。ビデオカメラ３及びマイクロホン２は、映像コンテンツＶ及び音声コンテンツＡを夫々、捕捉ユニット４へ送る。捕捉ユニット４では、如何なる必要な処理も、音声コンテンツＡ及び映像コンテンツＶを、例えばＭＰＥＧ２又はＭＰＥＧ４のようなデジタル形式で入力メッセージＩＭに記録して組み込むために実行される。音声コンテンツＡに対応する音声波形は、映像コンテンツＶに対応する一連のフレームシーケンスとともに、図２ａで簡単化された形でグラフとして示される。

デジタル化された入力メッセージＩＭは、変換器ユニット５へ、音声分割ユニット６へ及び映像分割ユニット７へ送られる。それらのユニットの夫々は、関連する入力ストリームＡ又はＶを夫々抽出する。３つのブロック５、６、７の全ては、図示されていない、通常の方法で接続される同期ブロック１５、１６、１７を有する。夫々の同期ブロック１５、１６、１７は、例えば、デジタルクロック又はカウンタにより、時間を測定する能力を有する。この実施例では、捕捉ユニット４は、適切な零マーカ又は開始時間によりメッセージＩＭの開始をマークする。零マーカ又は開始時間を参照して、同期ブロック１５、１６、１７は、時間の経過を測定する。更に、変換器５の同期ブロック１５は、他の同期ブロック１６、１７へ適切な信号を送信する能力を有する。

変換器５で、発話認識アルゴリズムが、テキスト表示ＴＲを得るよう、入力メッセージＩＭの音声コンテンツへ適用される。従って、このブロックは、以下では、発話処理ユニットと呼ばれる。テキスト表示ＴＲは、例えばＡＳＣＩＩのような形式で符号化され、その構成テキスト要素に分割される。要素、即ち、語のグループ、個々の語、音節又は音素のサイズ又は複雑性は、ユーザインターフェースを介して適切な入力によりユーザによって特定される。夫々のテキスト表示は、開始時間に関して測定された時間の値によりマークされるので、夫々のテキスト表示は、このようにして、テキスト表示ＴＲにおけるその時間的位置によって一意的に定められる。テキスト表示のマーク動作は、発話処理ユニット５の同期ユニット１５によって音声分割ユニット６及び映像分割ユニット７の同期ブロック１６、１７へ夫々記録される事象である。

音声分割ユニット６は、図２ｂでグラフとして示される、音声要素Ａｓから成る分割された音声コンテンツを与えるように、音声コンテンツＡの適切な位置にマーカＭを置くことにより、記録された事象に反応する。このようにして、発話処理ユニット５で識別された、入力メッセージＩＭの夫々のテキスト要素は、入力メッセージＩＭの分割された音声コンテンツでの音素Ａｓ又は音声要素Ａｓに整合されうる。同様に、映像分割ユニット７は、発話処理ユニット５の同期ブロック１５によってその同期ブロック１７へ記録された事象に応答して、同じく図２ｂに示されるフレームセグメントＶｓから成る分割された映像コンテンツを与えるように、映像コンテンツＶにマーカを置き、テキスト表示のテキスト要素又は音声コンテンツのセグメントＡｓが、分割された映像コンテンツにおける対応するフレームセグメントＶｓに整合されることを可能にする。

メッセージングシステム１は、ユーザが、メッセージが送信される前にそのメッセージを変更することを可能にする。この目的のために、テキスト表示ＴＲは、エディター９による編集に適した形式で表示される。本例では、ユーザは、例えば、パーソナルコンピュータのスクリーンなどの表示ユニット８で、メッセージＩＭのテキスト「ＨｉｅｈｍＩａｍＪｏｈｎ（こんにちはえー私ジョンです）」を見ること可能であり、ユーザは、所望の変更を得るようにテキスト表示ＴＲを編集することができる。本例では、ユーザは、「ｅｈｍ（えー）」を削除し、語を再配置し、語「Ｊｏｈｎ（ジョン）」における強調を、その語を感嘆符の間に入れることにより変更し、このようにして「Ｈｉ！Ｊｏｈｎ！Ｉａｍ（こんにちは！ジョン！私です）」を得る。この編集入力は、感嘆符のような特別な文字が、適切な位置でテキスト表示ＴＲに挿入されて、テキスト表示ＴＲの要素が、ユーザによって為された変更に従って再配置又は変更をなされるように、例えば命令又はコメントの形で、テキスト表示においてエディター９によって符号化される。

変更されたテキスト表示ＴＲ’は、音声改変ブロック１０へ送られる。音声改変ブロック１０では、図２ｃにグラフとして示されるように、変更が挿入され、分割された音声コンテンツの音声要素Ａｓの如何なる必要な再配置も計算される。例えば、要素、例えば、本例では「ｅｈｍ（えー）」が、テキスト表示から取り除かれる場合に、変更されたテキスト表示ＴＲ’で符号化された如何なる命令又はコメント及び時間的価値をも用いて位置付けられた、対応する音声要素は、分割された音声コンテンツＡｓから取り除かれる。例えば、本例では「Ｊｏｈｎ（ジョン）」のような、その元の位置から新しい位置へと動かされた要素に対応する音声要素は、分割された音声コンテンツＡｓにおいてその元の位置から動かされて、適切な位置に挿入されることが可能である。要素「Ｊｏｈｎ（ジョン）」を囲む特別な文字、この場合には感嘆符は、対応する音声要素のボリュームが増大されるべきことを意味するよう翻訳される。これは、例えば、適切なフィルタ又は増幅器をこの音声セグメントへ適用することによって、達成される。

音声コンテンツの変更された信号は、図２ｄに示される。音声セグメントは、変更されたテキスト表示ＴＲ’に対応するよう再配置される場合に、目下、変更処理により生ずる急激な遷移又はアーティファクトを特徴とする。変更された音声コンテンツＡ’が聴き心地の良いことを確実にするよう、音声平滑化技術が、音声平滑化ユニット１８において、再配置された音声セグメントへ必須なものとして適用される。

映像改変ブロック１１で、変更されたテキスト表示ＴＲ’における変更は、音声改変に類似する方法で、分割された映像コンテンツへ伝えられる。即ち、要素、例えば、本例では「ｅｈｍ（えー）」が、テキスト表示から取り除かれる場合に、変更されたテキスト表示ＴＲ’で符号化された如何なる命令又はコメント及び時間的価値をも用いて位置付けられた、対応する映像フレームシーケンスＶｓは、分割された映像コンテンツＶｓから取り除かれる。例えば、本例では「Ｊｏｈｎ（ジョン）」のような、その元の位置から新しい位置へと動かされた要素に対応する映像フレームシーケンスは、分割された音声コンテンツＶｓにおいてその元の位置から動かされて、適切な位置に再び挿入されることが可能である。映像フレームシーケンスを再配置した結果は、同じく、図２ｄにグラフとして示される。要素「Ｊｏｈｎ（ジョン）」の音の大きさを変更することは、例えばストロボ効果又はフラッシングのような、特別な映像効果に付随して生じても良い。これが望まれる場合に、映像改変は、分割された映像コンテンツＶｓでの対応するフレームシーケンスの存続期間の間に生ずる。映像フレームシーケンスは、変更されたテキスト表示ＴＲ’に対応するよう再配置又は別なふうに改変をなされる場合に、目下、突然且つ不自然な遷移を特徴としうる。この効果を無効にするよう、映像平滑化技術は、変更された映像コンテンツＶ’を与えるように、映像平滑ブロック１９において、映像フレームシーケンスへ必須なものとして適用されうる。

望ましくは、映像改変ユニットは、また、テキスト表示での変更に従って映像コンテンツにおいて人間の表情を変化させるよう、適切なアルゴリズム及び処理技術を備えられても良い。このように、例えば＜笑顔＞又は＜渋面＞などの表情を表すマークアップは、話者の顔が、マークアップに依存して、笑顔や不愉快そうな顔にされるよう変更されることをもたらす。

再結合ブロック１２では、変更された音声及び映像コンテンツＡ’、Ｖ’は、出力メッセージＯＭを与えるように再結合される。ユーザが、変更されたメッセージを見ることができるようにするために、出力メッセージＯＭは、映像コンテンツをスクリーン８に表示することにより視覚的に、且つ、音声コンテンツをユーザインターフェース１４のラウドスピーカ２０で再生することによって聴覚的に表される。同時に、対応するテキストは、望まれるならば、ユーザが出力メッセージＯＭのテキストにおいて如何なる更なる変更も行うことができるように、エディター９によって表示される。

例えば、ユーザは、メッセージが「ＨｉＪｏｈｎＩａｍｄｏｎｅ（こんにちはジョン私は為されました）」と書かれているように、新しい語をテキストに挿入することを望んでも良い。整合する音声要素に随伴していない新しい要素がテキスト表示に導入されるところの、このような変更の場合に、音声改変ユニット１０は、データベース２１から適切な音声要素を取り出すことができる。このようなデータベース２１は、以前のメッセージから複製された音声要素のサンプルにより長い間に作られても良い。代替的に、発話処理ユニットは、テキストから音声信号を発生させるために音声合成装置を特徴としても良い。映像コンテンツの場合には、映像改変ユニット１１は、映像コンテンツの適切なフレームを単純に複製し、これらを既存の映像フレームシーケンスＶｓに変形させても良い。先と同じく、音声改変ユニット１０及び映像改変ユニット１１の出力は、再結合ユニット１２で再結合されて、確認のためにユーザにもう一度提示される。

ユーザが、出力メッセージＯＭが満足であると確認すると、メッセージＯＭは、送信ユニット１３によってその目的地へ送られる。このユニットは、例えば、チャットアプリケーション又は電子メールアプリケーションであっても良い。

本発明は、好ましい実施例及びその様々な変形例の形で開示されてきたが、当然のことながら、多数の更なる変更及び変形は、本発明の適用範囲を損なうことなくなされうる。例えば、音声／映像改変ユニットによって適用されるデータベース又はアルゴリズムは、インターネットから新しい情報又はアルゴリズムをダウンロードすることによって、望ましく更新又は置換されうる。このようにして、メッセージングシステムは、ほとんどの現在の音声及び映像処理技術を使用することができる。

メッセージングシステムは、実際に話者を撮影することなく、音声メッセージに付随する映像を提供するよう、アバター・シミュレーション技術の発展を使用しても良い。アバターは、ユーザに似ていても良く、又は、異なる外見を有しても良く、且つ、特定の背景の前に現れても良い。あるいは、ユーザは、カメラによって撮られた画像又は外部ソースからダウンロードされた画像によって背景を提供しても良い。明瞭さのために、当然のことながら、この明細書全体を通しての冠詞「１つの」の使用は、複数のステップ又は要素を除外しているわけではなく、動詞「有する」及びその活用形の使用は、他のステップ又は要素を除外しているわけでない。語「ユニット」の使用は、単一のユニット又はモジュールに実現を制限しているわけではない。

本発明の実施例に従う、入力メッセージを変更するためのシステムのブロック図である。ａ〜ｄは、本発明の実施例に従う、メッセージの記録された音波及びフレームセグメントのグラフ表示である。

Claims

音声コンテンツを有する入力メッセージの変更方法であって：
前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するステップ；
前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するステップ；
前記テキスト表示を編集に適した形式にレンダリングするステップ；
前記テキスト表示を編集入力に従って変更するステップ；及び
出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記音声コンテンツの前記関連する音声要素を改変するステップ；
を有する方法。
前記テキスト表示を編集するステップは、前記変更されたテキスト表示を与えるように、前記テキスト表示における要素の挿入、複製、削除又は再配置を有する、ことを特徴とする請求項１記載の方法。
前記音声コンテンツの前記音声要素の改変は、前記音声コンテンツのセグメントの複製、削除若しくは再配置及び／又は前記音声コンテンツへの音声要素の挿入を有する、ことを特徴とする請求項２記載の方法。
前記テキスト表示を編集するステップは、前記変更されたテキスト表示を与えるように、前記テキスト表示における特定部分でのマークアップの挿入を有する、ことを特徴とする請求項１又は２記載の方法。
前記音声コンテンツの前記音声要素の改変は、前記音声要素の特性の改変を有する、ことを特徴とする請求項１乃至４のうちいずれか一項記載の方法。
音声平滑化技術は、隣接する音声要素の間での滑らかな遷移を与えるように、前記改変された音声要素へ適用される、ことを特徴とする請求項１乃至５のうちいずれか一項記載の方法。
前記入力メッセージが、対応する映像コンテンツを有する場合に：
前記入力メッセージの映像コンテンツを前記テキスト表示に関連する対応するフレームセグメントに分割するステップ；及び
出力メッセージの変更された映像コンテンツを与えるように、前記編集されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するステップ；
を有する請求項１乃至６のうちいずれか一項記載の方法。
映像平滑化技術は、前記変更された映像コンテンツにおいて連続するフレームセグメントの間での滑らかな遷移を与えるように、前記変更された映像コンテンツへ適用される、ことを特徴とする請求項７記載の方法。
メッセージを組み立てて、送信する方法であって：
入力メッセージの音声及び随意的な映像コンテンツを捕捉するステップ；
出力メッセージを与えるように、請求項１乃至８のうちいずれか一項記載の方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するステップ；
正確性の確認のためにユーザへ前記出力メッセージを再生するステップ；及び
前記ユーザがその正確性を確認した後に前記出力メッセージを送信するステップ；
を有する方法。
入力メッセージを変更するためのシステムであって：
前記入力メッセージの音声コンテンツを記録するための音声入力部；
前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するための変換器；
前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するための音声分割ユニット；
前記テキスト表示を編集に適した形式にレンダリングするためのレンダリングユニット；
前記テキスト表示の編集を可能にするためのエディター；及び
出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記関連する音声要素を改変するための音声改変ユニット；
を有するシステム。
前記入力メッセージの映像コンテンツを記録するための映像入力部；
前記入力メッセージの映像コンテンツを前記テキスト表示に関連する対応するフレームセグメントに分割するための映像分割ユニット；
出力メッセージの変更された映像コンテンツを与えるように、前記変更されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するための映像改変ユニット；及び
出力メッセージを与えるように、前記音声及び映像コンテンツを再結合するための音声／映像再結合ユニット；
を有する請求項１０記載のシステム。
メッセージを組み立てて、送信するためのメッセージングシステムであって：
入力メッセージの音声コンテンツを記録するための音声入力部及び、随意的に、前記入力メッセージの映像コンテンツを記録するための映像入力部；
変更された出力メッセージを与えるように、請求項１乃至８のうちいずれか一項記載の方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するための改変ユニット；
正確性の確認のためにユーザへ前記出力メッセージの前記変更されたコンテンツを再生するための音声出力部及び、随意的に、映像出力部；及び
前記ユーザがその正確性を確認した後に前記出力メッセージを送信するための送信ユニット；
を有するメッセージングシステム。
プログラム可能なメッセージ変更システムで実行される場合に、請求項１乃至９のうちいずれか一項記載の方法のステップを実行するためのソフトウェアコード部分を有する、前記メッセージ変更システムのメモリに直接的にロード可能なコンピュータプログラム。