JP2008500573A - メッセージを変更するための方法及びシステム - Google Patents

メッセージを変更するための方法及びシステム Download PDF

Info

Publication number
JP2008500573A
JP2008500573A JP2007514234A JP2007514234A JP2008500573A JP 2008500573 A JP2008500573 A JP 2008500573A JP 2007514234 A JP2007514234 A JP 2007514234A JP 2007514234 A JP2007514234 A JP 2007514234A JP 2008500573 A JP2008500573 A JP 2008500573A
Authority
JP
Japan
Prior art keywords
audio
message
text display
content
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007514234A
Other languages
English (en)
Inventor
ビングリー,ペーテル
ボドラーンデル,マールテン
スヘリンヘルハウト,ニコラース
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008500573A publication Critical patent/JP2008500573A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本発明は、音声コンテンツを有する入力メッセージ(IM)を変更するための方法及びシステムについて記載する。当該方法は、入力メッセージ(IM)の音声コンテンツ(A)をテキスト表示(TR)の要素に変換するステップと、入力メッセージ(IM)の音声コンテンツ(A)をテキスト表示(TR)に関連する構成音声要素(As)に分割するステップと、編集入力に従って、テキスト表示(TR)を編集するのに適した形式でテキスト表示(TR)をレンダリングするステップと、出力メッセージ(OM)の変更された音声コンテンツ(A’)を与えるように、編集されたテキスト表示(TR’)に従って、音声コンテンツ(A)の関連する音声要素(As)を改変するステップとを有する。

Description

本発明は、音声及び、随意的に映像のコンテンツを有するメッセージを変更するための方法及びシステムと、メッセージングシステムとに関する。
数十年前のオンラインユーザグループ及びチャットルームの発展以来、ユーザがメッセージをやり取りすることにより通信することを可能にするメッセージングシステムは、特にワールド・ワイド・ウェブ及びインターネットの急速な拡大とともに、ユーザ受容の連続的な成長に恵まれてきた。他のメッセージングシステムは、ユーザが、例えば携帯電話によりメッセージを送ることを可能にする。
ユーザがキーボードにより自らのメッセージをタイプし、その後に、メッセージが、目的地のユーザのPCにおいて、書かれた形式で現れることを含む初期のメッセージングシナリオは、メッセージングシステムが、音声メッセージコンテンツとともに映像を送ることができる増大した回線容量を使用するにつれて、急速に時代遅れとなりつつある。タイプされたメッセージの1つの利点は、タイプされたテキストが、メッセージがユーザにとって満足いくまで、適切なエディターを用いて、その瞬間に容易に編集又は変更されうる点であり、一方、通常はあるデジタル形式で符合化されている音声及び映像は、ユーザが変更することが決して容易ではない。しかし、音声又は映像メッセージを記録した後に、音声は、好ましくないイントネーション又は意図されない意味を持った言葉を含み、あるいは、映像は、ユーザが結局送ることを望まない要素を含みうる。音声及び映像の編集に含まれる努力は法外に高いので、1つの小さな望まない要素でさえも含む音声又は映像メッセージは、そのまま送られるか、あるいは、その全体で捨てられるかのいずれかであるべきであり、強制的にユーザにメッセージを再記録させる。音声及び映像の両処理は、複雑であり、ユーザがたとえ基本でも理解するためには平均的なユーザの一部に専門の高度なレベルを要求し、一方、職業的な編集及び混合の品質は、大部分のユーザには達成できない。
従って、本発明は、音声コンテンツを含むメッセージを、最終的にそれを受信者に提示する前に、容易に且つ直感的に変更する方法を提供することを目的とする。
この目的のために、本発明は:
入力メッセージの音声コンテンツをテキスト表示の要素に変換するステップと、
前記メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するステップと、
前記テキスト表示を編集に適した形式にレンダリングするステップと、
前記テキスト表示を編集入力に従って変更するステップと、
出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記音声コンテンツの前記関連する音声要素を改変するステップと、を有する方法を提供する。
入力メッセージを変更するための適切なシステムは、前記入力メッセージの音声コンテンツを記録するための音声入力部と、前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するための音声・テキスト変換器と、前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するための音声分割ユニットと、前記テキスト表示を編集に適した形式にレンダリングするためのレンダリングユニットと、前記テキスト表示の編集を可能にするためのエディターと、出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記関連する音声要素を改変するための音声改変ユニットと、を有する。
このようにして、本発明は、音声処理技術で熟練していることを必要とせずに、音声メッセージを発生させ、この音声メッセージに対して、それが受信者に提示される前に、如何なる必要な変更をも導入するための、ユーザにとって容易な方法を提供する。ユーザは、ユーザが、メッセージが正確であって、提示に適していることに満足するまで、元のメッセージに如何なる多数の変更をも行うことができる。
従属請求項及び以下の記載は、本発明の有利な実施例及び特徴を具体的に開示する。
音声入力メッセージは、変換器に接続された、例えばマイクロホンのような、ユーザが話しかける適切な記録装置を用いることによって、記録又は捕捉をなされうる。変換器において、自動発話認識ユニットは、入力されたメッセージの音声コンテンツを識別し、これをデジタルのテキスト表示に変換する。テキスト表示の要素は、例えば、カウンタ又は一種のクロックを用いて、音声コンテンツにおいてテキスト表示要素の相対的な位置を一意的に識別することによって、時間順に経過時間をマークする値を与えられても良い。
音声コンテンツの構成音声要素は、言葉全体、単語のグループ、及び文節、音節又は音素のフラグメントであっても良い。音声分割ユニットは、例えば、適切なアルゴリズム及び/又はフィルタを適用することによって、音声コンテンツをその構成音声要素へと限定する。
相関関係又は等価は、同様に分割処理の間に個々の音声要素へ時間順に経過時間をマークするよう値を割り当てることによって、音声コンテンツの音声要素とテキスト表示要素との間に容易に確立されうる。このようにして、音声要素及びその対応するテキスト表示要素は、それらの整合又は対応する時間的価値に基づいて位置付けられ、あるいは識別されうる。時間的価値は、ある種類のマーカ又は指示を直接的にテキスト表示又は音声コンテンツに挿入しても良く、あるいは、テキスト表示又は音声コンテンツの適切な点を参照してリストに集められても良い。
音声コンテンツが満足なものであるかどうかをユーザが確認することを可能にするよう、それは、編集のために適した形でユーザに提示される。この目的のために、音声コンテンツのテキスト表示は、音声合成装置により音にレンダリングし直され、ラウドスピーカやヘッドホンなどによりユーザに対して再生されても良い。望ましくは、ユーザは、テキスト表示が、例えば、パーソナルコンピュータのスクリーン、携帯電話のスクリーン、TVのスクリーンなどの表示ユニットに表示されうるように、音声コンテンツがテキスト形式にレンダリングされた後に、表示ユニットで音声コンテンツを見ても良い。ユーザは、例えば、編集命令をマイクロホンに話しかけることにより、言語でテキスト表示への変更を指示しても良い。話された編集命令は、その後、適切な発話解釈ユニットによって、対応する編集命令に変換されても良い。代替的に、変更は、例えば、キーボード又はキーパッドによりそれらをタイプすることによって、テキスト表示において実行されても良い。望ましくは、発話解釈ユニット及び/又は表示ユニットは、ユーザが編集の間にテキスト表示のテキストを観測することができるように、何らかの方法でエディターへ接続される。音声コンテンツの音声要素は、その後、テキスト表示での変更に従って、音声改変ユニットで変更される。
望ましくは、変更された音声コンテンツは、例えば、ラウドスピーカ又はヘッドホンのような適切な音声出力部により、メッセージを提示する前に、ユーザに対して再生される。ユーザは、変更された音声コンテンツを聴いて、それが満足できるかどうか、又は、テキスト表示における更なる変更が、最終的にメッセージを送る前に行われる必要があるかどうかを決定する。
テキスト表示を編集するためのエディターは、当該装置の表示ユニットを用いるパーソナルコンピュータ、携帯電話、ホームエンターテイメント装置などに組み込まれても良い。ユーザは、テキスト表示の要素を再配置、削除又は複製することによってテキスト表示のテキストを変更しても良い。これらの変更は、その場合に、対応する方法で音声コンテンツの音声要素で行われる。例えば、テキスト要素がテキスト表示から削除された場合には、その時間マーカにより識別される、対応する音声要素も削除されうる。テキスト要素がテキスト表示の異なる位置に動かされた場合には、対応する音声要素は、音声コンテンツのその元の位置から動かされ、テキスト表示における変更に対応する異なった位置に挿入される。
ユーザは、テキスト表示に予め存在していない新しい単語又は言葉であっても挿入することができる。この場合に、新しい単語は、エディターによって適切な方法で識別される。音声改変ユニットは、それが、単語のライブラリ又はデータベースにこの言葉を有するかどうか、又は、単語の構成音素が音声コンテンツに予め存在するかどうかを確認することができる。音声改変ユニットは、正確な順序で構成音素とともに置くことによって言葉を組み立てても良い。
テキスト表示においてテキスト要素を単に移動したり、又は再配置したりすることに加えて、ユーザは、対応する音声要素で行われるべきある種の変更を指示するよう、マークアップをテキストに挿入しても良い。例えば、感嘆符のような特別な文字は、単語の前後に挿入され、この単語が音声コンテンツにおいて、より大きな音にされるべきことを示しうる。代替的に、ユーザは、例えば、イタリック体にテキスト表示において変更された単語又は言葉が音声コンテンツにおいて、より小さな音にされるように、単語の書体を変更しても良い。他の種類の変更は、例えば、話者の声を男性から女性へ若しくはその逆に変更するといった、話者の声質の変更、又は、異なった話者特性を声へ適用することを有する。その場合に、これらのマークアップは、音声改変ユニットによる解釈に適した形でテキスト表示において命令又はコメントとして符号化されても良い。
音声改変ユニットは、テキスト表示における変更を解釈し、関連する音声要素において所要の変更を行う。音声要素は、例えば、単語をより大きな若しくはより小さな音にするよう、又は、別な方法で単語に対する強調を変更するよう、変更されうる。これは、適切なフィルタ又は関数を音声要素へ適用することによって、例えばピッチのような、音声要素の適切な特性を変更することによって達成可能である。
これらの改変の全ては、音声処理関数又はアルゴリズムのコレクション又はデータベースに保存され、又はコンピュータプログラムに組み込まれうる既知の音声処理技術を提供することにより実行可能である。変更されたテキスト表示におけるマークアップは、適切なアルゴリズム又は関数を自動的に取り出す又は作動させるために使用されても良い。
本発明の好ましい実施例において、ユーザは、例えば、システムへ適切な命令を入力することによって、分割の精度を特定することができる。粗い精度は、音声品質が非常に高いレベルを有することを必要としないところのチャットグループでやり取りされるメッセージでは十分であり得る。例えば、高品質音声で伝えられるべきレポート、スピーチ又はアナウンスを準備するような他の用途では、細かい精度が、詳細な補正が音声コンテンツで実行されることを可能にする特定されうる。より高い値の精度は、関連するより高い努力とともに、より良い音声処理品質を与えうる。
本発明の特に好ましい実施例では、音声平滑化技術は、音声コンテンツの音声要素の、それらを再配置する又はそれらの特性を変更することによる改変が、一様でない又は耳障りな発声(sounding)音声コンテンツを生じることがあるので、隣接する音声要素の間での滑らかな遷移を確実にするように、改変された音声コンテンツへ適用される。
本発明は、また、映像コンテンツを有するメッセージの処理を可能にする。この場合に、入力メッセージを変更する方法は、また、前記入力メッセージの映像コンテンツを、前記テキスト表示に関連する対応するフレームセグメント又はフレームのシーケンスに分割するステップと、出力メッセージの変更された映像コンテンツを与えるように、必要に応じて、前記編集されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するステップを有する。
フレームセグメントは対応するテキスト表示に関連する多数の連続したフレームであると理解される。上記と同様に、時間順に経過時間をマークする値は、また、フレームシーケンスがその時間的価値を基に位置付けられ、あるいは識別されうるように、映像分割処理の間に、フレームシーケンスへ割り当てられる。フレームシーケンスは、その対応するテキスト表示、又は、同様に、対応する音声セグメントに整合されても良い。このようにして、相関関係又は等価は、映像コンテンツのフレームシーケンスと、テキスト表示及び/又は音声セグメントとの間で容易に確立される。フレームシーケンスの長さは、また、分割処理の精度によって決定されても良い。
テキスト表示で実行される編集は、適切な改変を実行することにより映像コンテンツで反映される。ユーザがテキスト表示の幾つかの要素を削除又は再配置したならば、対応する映像フレームシーケンスは、時間的価値を用いて位置付けられ、必要に応じて、削除又は再配置をなされる。テキスト表示に挿入されたあるマークアップは、映像コンテンツでは効果を有さなくても良い。即ち、例えば、話者の声の発声特性における変更は、映像コンテンツの如何なる変更をも必ずしも必要としない。しかし、ある種のマークアップは、例えば、ストロボ(strobes)、フラッシング(flashing)又は色反転のような特別な効果を導入するように、映像コンテンツを改変するよう解釈されても良い。例えば、テキスト表示における語又は多数の語が、例えば、下線を引くこと又はそれを感嘆符の間に入れることにより、何らかの方法でマークされているならば、対応する音声要素は、音を大きくされても良く、対応する映像フレームシーケンスは、フラッシング又はストロボ効果を有するよう変更されても良い。
映像コンテンツを有する入力メッセージを変更するための適切なシステムは、入力メッセージの映像コンテンツを記録するための、例えば、ウェブカメラ、内蔵カメラ付き携帯電話、ビデオカメラ、などの映像入力部を有する。メッセージの映像コンテンツは、映像分割ユニットにおいて、テキスト表示の要素に関連するフレームセグメントに分解又は分割され、映像改変ユニットにおいて、出力メッセージの変更された映像コンテンツを与えるように、テキスト表示の変更に従って改変される。次に、メッセージの音声及び映像コンテンツは、出力メッセージを与えるように、音声/映像再結合ユニットにおいて再結合される。
望ましくは、例えば表示装置又はテレビスクリーンのような映像出力部は、出力メッセージの前記変更された映像コンテンツを再生するために使用可能である。
本発明の特に好ましい実施例では、例えばフィルタリング又はモーフィングのような映像平滑化技術は、変更された映像コンテンツにおいて連続するフレームセグメントの間の滑らかな遷移を与えるように、変更された映像コンテンツへ適用される。
当該方法は、留守番電話機のメッセージ、拡声装置での中継のためのメッセージ、音声・映像アナウンスなど、オリジナルの改善がしばしば必要とされるところの如何なる種類のメッセージの発生及び編集にも適用可能である。記載される方法は、インターネット又は電気通信網を介して、上述したような音声・映像チャットグループなどのメッセージ送信するためのメッセージングシステムにおいて、特に有利である。
メッセージを組み立てて、送信する適切な方法は、入力メッセージの音声及び随意的な映像コンテンツを捕捉するステップと、出力メッセージを与えるように、上述したような方法を用いることにより、前記入力メッセージの前記音声及び/又は随意的な映像コンテンツを改変するステップと、正確性の確認のためにユーザへ前記出力メッセージを再生するステップと、前記ユーザがその正確性を確認した後に前記出力メッセージを送信するステップとを有する。
従って、この方法に従ってメッセージを組み立てて、送信するためのメッセージングシステムは、入力メッセージの音声コンテンツを記録するための音声入力部及び、随意的に、前記入力メッセージの映像コンテンツを記録するための映像入力部と、変更された出力メッセージを与えるように、上述したような方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するための改変ユニットと、正確性の確認のためにユーザへ前記出力メッセージの前記変更されたコンテンツを再生するための音声出力部及び、随意的に、映像出力部と、前記ユーザがその正確性を確認した後に前記出力メッセージを送信するための送信ユニットとを有する。
本発明の好ましい特徴は、入力メッセージの改変に含まれる全てのステップを実行するためのコンピュータプログラムプロダクトを有する。即ち、音声・テキスト変換器、音声分割、映像分割、音声改変、映像改変、再結合などの、メッセージを変更するためのシステム(メッセージ変更システム)の構成要素のほとんど又は全ては、ソフトウェア及び/又はハードウェアモジュールの形で実現される。如何なる所要のソフトウェアも、既存のメッセージ変更システムが、本発明の特徴から恩恵を受けるよう適合されうるように、メッセージ変更システムの処理装置での符号化又は別の処理装置での符号化をなされても良い。メッセージ変更システムは、例えば、メッセージングシステムや留守番電話などの、メッセージを組み立てる又は処理する働きをする如何なるシステム又は装置へ接続されても良く、あるいはその一部であっても良い。
本発明の他の目的及び特徴は、添付の図面に関して考えられた以下の詳細な記載から明らかとなるであろう。しかし、当然のことながら、図面は、専ら説明の目的のために設計されているのであって、本発明の限定の定義として用いられているわけではない。
以下の図面の説明において、これらの図面は、本発明の他の可能な実現を除外するわけではないが、入力メッセージを変更するためのシステムは、メッセージングシステムの一部として示されている。このメッセージングシステムは、如何なる適切な通信ネットワークへの適切なインターフェースも有する、例えば、ホームエンターテイメントシステム、PC、TV、携帯電話、マルチメディア装置、などの、如何なる適切な音声映像装置にも組み込むことができる。システムは、キーボード22又はキーパッド、マウス23、スクリーン8、及びラウドスピーカ20を有する、ユーザにより発せられた命令を機械言語に翻訳処理するためのユーザインターフェース14を有する。音波及びフレームセグメントのグラフィック表示は、正確な翻訳として表されるわけではなく、単に説明目的を果たす。
図1に表されたメッセージングシステムで、ユーザ(図示せず。)は、例えば「Hi,ehm,I am John.(こんにちは、えー、私はジョンです。)」といったメッセージをマイクロホン2に向かって話す間に、ビデオカメラ3によって撮影される。ビデオカメラ3及びマイクロホン2は、映像コンテンツV及び音声コンテンツAを夫々、捕捉ユニット4へ送る。捕捉ユニット4では、如何なる必要な処理も、音声コンテンツA及び映像コンテンツVを、例えばMPEG2又はMPEG4のようなデジタル形式で入力メッセージIMに記録して組み込むために実行される。音声コンテンツAに対応する音声波形は、映像コンテンツVに対応する一連のフレームシーケンスとともに、図2aで簡単化された形でグラフとして示される。
デジタル化された入力メッセージIMは、変換器ユニット5へ、音声分割ユニット6へ及び映像分割ユニット7へ送られる。それらのユニットの夫々は、関連する入力ストリームA又はVを夫々抽出する。3つのブロック5、6、7の全ては、図示されていない、通常の方法で接続される同期ブロック15、16、17を有する。夫々の同期ブロック15、16、17は、例えば、デジタルクロック又はカウンタにより、時間を測定する能力を有する。この実施例では、捕捉ユニット4は、適切な零マーカ又は開始時間によりメッセージIMの開始をマークする。零マーカ又は開始時間を参照して、同期ブロック15、16、17は、時間の経過を測定する。更に、変換器5の同期ブロック15は、他の同期ブロック16、17へ適切な信号を送信する能力を有する。
変換器5で、発話認識アルゴリズムが、テキスト表示TRを得るよう、入力メッセージIMの音声コンテンツへ適用される。従って、このブロックは、以下では、発話処理ユニットと呼ばれる。テキスト表示TRは、例えばASCIIのような形式で符号化され、その構成テキスト要素に分割される。要素、即ち、語のグループ、個々の語、音節又は音素のサイズ又は複雑性は、ユーザインターフェースを介して適切な入力によりユーザによって特定される。夫々のテキスト表示は、開始時間に関して測定された時間の値によりマークされるので、夫々のテキスト表示は、このようにして、テキスト表示TRにおけるその時間的位置によって一意的に定められる。テキスト表示のマーク動作は、発話処理ユニット5の同期ユニット15によって音声分割ユニット6及び映像分割ユニット7の同期ブロック16、17へ夫々記録される事象である。
音声分割ユニット6は、図2bでグラフとして示される、音声要素Asから成る分割された音声コンテンツを与えるように、音声コンテンツAの適切な位置にマーカMを置くことにより、記録された事象に反応する。このようにして、発話処理ユニット5で識別された、入力メッセージIMの夫々のテキスト要素は、入力メッセージIMの分割された音声コンテンツでの音素As又は音声要素Asに整合されうる。同様に、映像分割ユニット7は、発話処理ユニット5の同期ブロック15によってその同期ブロック17へ記録された事象に応答して、同じく図2bに示されるフレームセグメントVsから成る分割された映像コンテンツを与えるように、映像コンテンツVにマーカを置き、テキスト表示のテキスト要素又は音声コンテンツのセグメントAsが、分割された映像コンテンツにおける対応するフレームセグメントVsに整合されることを可能にする。
メッセージングシステム1は、ユーザが、メッセージが送信される前にそのメッセージを変更することを可能にする。この目的のために、テキスト表示TRは、エディター9による編集に適した形式で表示される。本例では、ユーザは、例えば、パーソナルコンピュータのスクリーンなどの表示ユニット8で、メッセージIMのテキスト「Hi ehm I am John(こんにちは えー 私 ジョン です)」を見ること可能であり、ユーザは、所望の変更を得るようにテキスト表示TRを編集することができる。本例では、ユーザは、「ehm(えー)」を削除し、語を再配置し、語「John(ジョン)」における強調を、その語を感嘆符の間に入れることにより変更し、このようにして「Hi!John!I am(こんにちは!ジョン!私です)」を得る。この編集入力は、感嘆符のような特別な文字が、適切な位置でテキスト表示TRに挿入されて、テキスト表示TRの要素が、ユーザによって為された変更に従って再配置又は変更をなされるように、例えば命令又はコメントの形で、テキスト表示においてエディター9によって符号化される。
変更されたテキスト表示TR’は、音声改変ブロック10へ送られる。音声改変ブロック10では、図2cにグラフとして示されるように、変更が挿入され、分割された音声コンテンツの音声要素Asの如何なる必要な再配置も計算される。例えば、要素、例えば、本例では「ehm(えー)」が、テキスト表示から取り除かれる場合に、変更されたテキスト表示TR’で符号化された如何なる命令又はコメント及び時間的価値をも用いて位置付けられた、対応する音声要素は、分割された音声コンテンツAsから取り除かれる。例えば、本例では「John(ジョン)」のような、その元の位置から新しい位置へと動かされた要素に対応する音声要素は、分割された音声コンテンツAsにおいてその元の位置から動かされて、適切な位置に挿入されることが可能である。要素「John(ジョン)」を囲む特別な文字、この場合には感嘆符は、対応する音声要素のボリュームが増大されるべきことを意味するよう翻訳される。これは、例えば、適切なフィルタ又は増幅器をこの音声セグメントへ適用することによって、達成される。
音声コンテンツの変更された信号は、図2dに示される。音声セグメントは、変更されたテキスト表示TR’に対応するよう再配置される場合に、目下、変更処理により生ずる急激な遷移又はアーティファクトを特徴とする。変更された音声コンテンツA’が聴き心地の良いことを確実にするよう、音声平滑化技術が、音声平滑化ユニット18において、再配置された音声セグメントへ必須なものとして適用される。
映像改変ブロック11で、変更されたテキスト表示TR’における変更は、音声改変に類似する方法で、分割された映像コンテンツへ伝えられる。即ち、要素、例えば、本例では「ehm(えー)」が、テキスト表示から取り除かれる場合に、変更されたテキスト表示TR’で符号化された如何なる命令又はコメント及び時間的価値をも用いて位置付けられた、対応する映像フレームシーケンスVsは、分割された映像コンテンツVsから取り除かれる。例えば、本例では「John(ジョン)」のような、その元の位置から新しい位置へと動かされた要素に対応する映像フレームシーケンスは、分割された音声コンテンツVsにおいてその元の位置から動かされて、適切な位置に再び挿入されることが可能である。映像フレームシーケンスを再配置した結果は、同じく、図2dにグラフとして示される。要素「John(ジョン)」の音の大きさを変更することは、例えばストロボ効果又はフラッシングのような、特別な映像効果に付随して生じても良い。これが望まれる場合に、映像改変は、分割された映像コンテンツVsでの対応するフレームシーケンスの存続期間の間に生ずる。映像フレームシーケンスは、変更されたテキスト表示TR’に対応するよう再配置又は別なふうに改変をなされる場合に、目下、突然且つ不自然な遷移を特徴としうる。この効果を無効にするよう、映像平滑化技術は、変更された映像コンテンツV’を与えるように、映像平滑ブロック19において、映像フレームシーケンスへ必須なものとして適用されうる。
望ましくは、映像改変ユニットは、また、テキスト表示での変更に従って映像コンテンツにおいて人間の表情を変化させるよう、適切なアルゴリズム及び処理技術を備えられても良い。このように、例えば<笑顔>又は<渋面>などの表情を表すマークアップは、話者の顔が、マークアップに依存して、笑顔や不愉快そうな顔にされるよう変更されることをもたらす。
再結合ブロック12では、変更された音声及び映像コンテンツA’、V’は、出力メッセージOMを与えるように再結合される。ユーザが、変更されたメッセージを見ることができるようにするために、出力メッセージOMは、映像コンテンツをスクリーン8に表示することにより視覚的に、且つ、音声コンテンツをユーザインターフェース14のラウドスピーカ20で再生することによって聴覚的に表される。同時に、対応するテキストは、望まれるならば、ユーザが出力メッセージOMのテキストにおいて如何なる更なる変更も行うことができるように、エディター9によって表示される。
例えば、ユーザは、メッセージが「Hi John I am done(こんにちは ジョン 私は為されました)」と書かれているように、新しい語をテキストに挿入することを望んでも良い。整合する音声要素に随伴していない新しい要素がテキスト表示に導入されるところの、このような変更の場合に、音声改変ユニット10は、データベース21から適切な音声要素を取り出すことができる。このようなデータベース21は、以前のメッセージから複製された音声要素のサンプルにより長い間に作られても良い。代替的に、発話処理ユニットは、テキストから音声信号を発生させるために音声合成装置を特徴としても良い。映像コンテンツの場合には、映像改変ユニット11は、映像コンテンツの適切なフレームを単純に複製し、これらを既存の映像フレームシーケンスVsに変形させても良い。先と同じく、音声改変ユニット10及び映像改変ユニット11の出力は、再結合ユニット12で再結合されて、確認のためにユーザにもう一度提示される。
ユーザが、出力メッセージOMが満足であると確認すると、メッセージOMは、送信ユニット13によってその目的地へ送られる。このユニットは、例えば、チャットアプリケーション又は電子メールアプリケーションであっても良い。
本発明は、好ましい実施例及びその様々な変形例の形で開示されてきたが、当然のことながら、多数の更なる変更及び変形は、本発明の適用範囲を損なうことなくなされうる。例えば、音声/映像改変ユニットによって適用されるデータベース又はアルゴリズムは、インターネットから新しい情報又はアルゴリズムをダウンロードすることによって、望ましく更新又は置換されうる。このようにして、メッセージングシステムは、ほとんどの現在の音声及び映像処理技術を使用することができる。
メッセージングシステムは、実際に話者を撮影することなく、音声メッセージに付随する映像を提供するよう、アバター・シミュレーション技術の発展を使用しても良い。アバターは、ユーザに似ていても良く、又は、異なる外見を有しても良く、且つ、特定の背景の前に現れても良い。あるいは、ユーザは、カメラによって撮られた画像又は外部ソースからダウンロードされた画像によって背景を提供しても良い。明瞭さのために、当然のことながら、この明細書全体を通しての冠詞「1つの」の使用は、複数のステップ又は要素を除外しているわけではなく、動詞「有する」及びその活用形の使用は、他のステップ又は要素を除外しているわけでない。語「ユニット」の使用は、単一のユニット又はモジュールに実現を制限しているわけではない。
本発明の実施例に従う、入力メッセージを変更するためのシステムのブロック図である。 a〜dは、本発明の実施例に従う、メッセージの記録された音波及びフレームセグメントのグラフ表示である。

Claims (13)

  1. 音声コンテンツを有する入力メッセージの変更方法であって:
    前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するステップ;
    前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するステップ;
    前記テキスト表示を編集に適した形式にレンダリングするステップ;
    前記テキスト表示を編集入力に従って変更するステップ;及び
    出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記音声コンテンツの前記関連する音声要素を改変するステップ;
    を有する方法。
  2. 前記テキスト表示を編集するステップは、前記変更されたテキスト表示を与えるように、前記テキスト表示における要素の挿入、複製、削除又は再配置を有する、ことを特徴とする請求項1記載の方法。
  3. 前記音声コンテンツの前記音声要素の改変は、前記音声コンテンツのセグメントの複製、削除若しくは再配置及び/又は前記音声コンテンツへの音声要素の挿入を有する、ことを特徴とする請求項2記載の方法。
  4. 前記テキスト表示を編集するステップは、前記変更されたテキスト表示を与えるように、前記テキスト表示における特定部分でのマークアップの挿入を有する、ことを特徴とする請求項1又は2記載の方法。
  5. 前記音声コンテンツの前記音声要素の改変は、前記音声要素の特性の改変を有する、ことを特徴とする請求項1乃至4のうちいずれか一項記載の方法。
  6. 音声平滑化技術は、隣接する音声要素の間での滑らかな遷移を与えるように、前記改変された音声要素へ適用される、ことを特徴とする請求項1乃至5のうちいずれか一項記載の方法。
  7. 前記入力メッセージが、対応する映像コンテンツを有する場合に:
    前記入力メッセージの映像コンテンツを前記テキスト表示に関連する対応するフレームセグメントに分割するステップ;及び
    出力メッセージの変更された映像コンテンツを与えるように、前記編集されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するステップ;
    を有する請求項1乃至6のうちいずれか一項記載の方法。
  8. 映像平滑化技術は、前記変更された映像コンテンツにおいて連続するフレームセグメントの間での滑らかな遷移を与えるように、前記変更された映像コンテンツへ適用される、ことを特徴とする請求項7記載の方法。
  9. メッセージを組み立てて、送信する方法であって:
    入力メッセージの音声及び随意的な映像コンテンツを捕捉するステップ;
    出力メッセージを与えるように、請求項1乃至8のうちいずれか一項記載の方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するステップ;
    正確性の確認のためにユーザへ前記出力メッセージを再生するステップ;及び
    前記ユーザがその正確性を確認した後に前記出力メッセージを送信するステップ;
    を有する方法。
  10. 入力メッセージを変更するためのシステムであって:
    前記入力メッセージの音声コンテンツを記録するための音声入力部;
    前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するための変換器;
    前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するための音声分割ユニット;
    前記テキスト表示を編集に適した形式にレンダリングするためのレンダリングユニット;
    前記テキスト表示の編集を可能にするためのエディター;及び
    出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記関連する音声要素を改変するための音声改変ユニット;
    を有するシステム。
  11. 前記入力メッセージの映像コンテンツを記録するための映像入力部;
    前記入力メッセージの映像コンテンツを前記テキスト表示に関連する対応するフレームセグメントに分割するための映像分割ユニット;
    出力メッセージの変更された映像コンテンツを与えるように、前記変更されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するための映像改変ユニット;及び
    出力メッセージを与えるように、前記音声及び映像コンテンツを再結合するための音声/映像再結合ユニット;
    を有する請求項10記載のシステム。
  12. メッセージを組み立てて、送信するためのメッセージングシステムであって:
    入力メッセージの音声コンテンツを記録するための音声入力部及び、随意的に、前記入力メッセージの映像コンテンツを記録するための映像入力部;
    変更された出力メッセージを与えるように、請求項1乃至8のうちいずれか一項記載の方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するための改変ユニット;
    正確性の確認のためにユーザへ前記出力メッセージの前記変更されたコンテンツを再生するための音声出力部及び、随意的に、映像出力部;及び
    前記ユーザがその正確性を確認した後に前記出力メッセージを送信するための送信ユニット;
    を有するメッセージングシステム。
  13. プログラム可能なメッセージ変更システムで実行される場合に、請求項1乃至9のうちいずれか一項記載の方法のステップを実行するためのソフトウェアコード部分を有する、前記メッセージ変更システムのメモリに直接的にロード可能なコンピュータプログラム。
JP2007514234A 2004-05-27 2005-05-17 メッセージを変更するための方法及びシステム Pending JP2008500573A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04102366 2004-05-27
PCT/IB2005/051596 WO2005116992A1 (en) 2004-05-27 2005-05-17 Method of and system for modifying messages

Publications (1)

Publication Number Publication Date
JP2008500573A true JP2008500573A (ja) 2008-01-10

Family

ID=34967057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007514234A Pending JP2008500573A (ja) 2004-05-27 2005-05-17 メッセージを変更するための方法及びシステム

Country Status (6)

Country Link
US (1) US20080275700A1 (ja)
EP (1) EP1754221A1 (ja)
JP (1) JP2008500573A (ja)
KR (1) KR20070020252A (ja)
CN (1) CN1961350A (ja)
WO (1) WO2005116992A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039293A (ja) * 2008-08-06 2010-02-18 Nec Infrontia Corp 音声合成装置及び方法
US10691319B2 (en) 2017-07-11 2020-06-23 Alibaba Group Holding Limited Instant-messaging-based picture sending method and device

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9240179B2 (en) * 2005-08-05 2016-01-19 Invention Science Fund I, Llc Voice controllable interactive communication display system and method
KR100703705B1 (ko) * 2005-11-18 2007-04-06 삼성전자주식회사 동영상을 위한 멀티 미디어 코멘트 처리 장치 및 방법
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US20090112695A1 (en) * 2007-10-24 2009-04-30 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Physiological response based targeted advertising
US8112407B2 (en) * 2007-10-24 2012-02-07 The Invention Science Fund I, Llc Selecting a second content based on a user's reaction to a first content
US8234262B2 (en) 2007-10-24 2012-07-31 The Invention Science Fund I, Llc Method of selecting a second content based on a user's reaction to a first content of at least two instances of displayed content
US9582805B2 (en) 2007-10-24 2017-02-28 Invention Science Fund I, Llc Returning a personalized advertisement
US8001108B2 (en) * 2007-10-24 2011-08-16 The Invention Science Fund I, Llc Returning a new content based on a person's reaction to at least two instances of previously displayed content
US8126867B2 (en) * 2007-10-24 2012-02-28 The Invention Science Fund I, Llc Returning a second content based on a user's reaction to a first content
US20090112697A1 (en) * 2007-10-30 2009-04-30 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Providing personalized advertising
US8570375B1 (en) * 2007-12-04 2013-10-29 Stoplift, Inc. Method and apparatus for random-access review of point of sale transactional video
ITMI20080794A1 (it) * 2008-04-30 2009-11-01 Colby S R L Metodo e sistema per convertire parlato in testo
CN101304391A (zh) * 2008-06-30 2008-11-12 腾讯科技(深圳)有限公司 一种基于即时通讯系统的语音通话方法及系统
US8972269B2 (en) * 2008-12-01 2015-03-03 Adobe Systems Incorporated Methods and systems for interfaces allowing limited edits to transcripts
US8457688B2 (en) * 2009-02-26 2013-06-04 Research In Motion Limited Mobile wireless communications device with voice alteration and related methods
US11295069B2 (en) * 2016-04-22 2022-04-05 Sony Group Corporation Speech to text enhanced media editing
CN106971749A (zh) * 2017-03-30 2017-07-21 联想(北京)有限公司 音频处理方法及电子设备
CN109428805A (zh) * 2017-08-29 2019-03-05 阿里巴巴集团控股有限公司 即时通讯中的音频消息处理方法与设备
CN107978310B (zh) * 2017-11-30 2022-11-25 腾讯科技(深圳)有限公司 音频处理方法和装置
CN109787880B (zh) * 2018-12-11 2022-09-20 平安科技(深圳)有限公司 快捷界面的语音传输方法、装置、计算机设备及存储介质
CN110061910B (zh) * 2019-04-30 2021-11-30 上海掌门科技有限公司 一种语音短消息的处理方法、设备及介质
CN112331194B (zh) * 2019-07-31 2024-06-18 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
CN110767209B (zh) * 2019-10-31 2022-03-15 标贝(北京)科技有限公司 语音合成方法、装置、系统和存储介质
CN111445927B (zh) * 2020-03-11 2022-04-26 维沃软件技术有限公司 一种音频处理方法及电子设备
CN111885416B (zh) * 2020-07-17 2022-04-12 北京来也网络科技有限公司 一种音视频的修正方法、装置、介质及计算设备
CN111885313A (zh) * 2020-07-17 2020-11-03 北京来也网络科技有限公司 一种音视频的修正方法、装置、介质及计算设备
CN112102841A (zh) * 2020-09-14 2020-12-18 北京搜狗科技发展有限公司 一种音频编辑方法、装置和用于音频编辑的装置
US11587591B2 (en) * 2021-04-06 2023-02-21 Ebay Inc. Identifying and removing restricted information from videos

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
EP1456780A4 (en) * 1997-04-01 2007-04-25 Medic Interactive Inc SYSTEM FOR THE AUTOMATIC GENERATION OF MEDIA PROGRAMS FROM A MEDIA ELEMENTS DATABASE
GB9709341D0 (en) * 1997-05-08 1997-06-25 British Broadcasting Corp Method of and apparatus for editing audio or audio-visual recordings
US6064965A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Combined audio playback in speech recognition proofreader
US6161087A (en) * 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6446041B1 (en) * 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document
CA2502412A1 (en) * 2002-06-26 2004-01-08 Custom Speech Usa, Inc. A method for comparing a transcribed text file with a previously created file
FI113995B (fi) * 2002-12-11 2004-07-15 Nokia Corp Menetelmä ja laitteisto parannellun ääniviestin toteuttamiseksi
US7394969B2 (en) * 2002-12-11 2008-07-01 Eastman Kodak Company System and method to compose a slide show

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039293A (ja) * 2008-08-06 2010-02-18 Nec Infrontia Corp 音声合成装置及び方法
US10691319B2 (en) 2017-07-11 2020-06-23 Alibaba Group Holding Limited Instant-messaging-based picture sending method and device
US11042276B2 (en) 2017-07-11 2021-06-22 Advanced New Technologies Co., Ltd. Instant-messaging-based picture sending method and device

Also Published As

Publication number Publication date
EP1754221A1 (en) 2007-02-21
CN1961350A (zh) 2007-05-09
WO2005116992A1 (en) 2005-12-08
US20080275700A1 (en) 2008-11-06
KR20070020252A (ko) 2007-02-20

Similar Documents

Publication Publication Date Title
JP2008500573A (ja) メッセージを変更するための方法及びシステム
US11699456B2 (en) Automated transcript generation from multi-channel audio
US6181351B1 (en) Synchronizing the moveable mouths of animated characters with recorded speech
US10360716B1 (en) Enhanced avatar animation
CN104732593B (zh) 一种基于移动终端的3d动画编辑方法
JP4344658B2 (ja) 音声合成機
US6766299B1 (en) Speech-controlled animation system
US20150287403A1 (en) Device, system, and method of automatically generating an animated content-item
JP2003521750A (ja) スピーチシステム
JP2000123191A (ja) 情報処理装置及び方法及び情報伝送システム
US7613613B2 (en) Method and system for converting text to lip-synchronized speech in real time
WO2017006766A1 (ja) 音声対話方法および音声対話装置
CN112512649B (zh) 用于提供音频和视频效果的技术
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
CN111415651A (zh) 一种音频信息提取方法、终端及计算机可读存储介质
JP2014167517A (ja) 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム
JP4077656B2 (ja) 発言者特定映像装置
JPH11109991A (ja) マンマシンインターフェースシステム
WO2022041192A1 (zh) 语音消息处理方法、设备及即时通信客户端
JP2005215888A (ja) テキスト文の表示装置
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质
WO2022041177A1 (zh) 通信消息处理方法、设备及即时通信客户端
WO2023167212A1 (ja) コンピュータプログラム、情報処理方法及び情報処理装置
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
KR102463283B1 (ko) 청각 장애인 및 비장애인 겸용 영상 콘텐츠 자동 번역 시스템