JP6663444B2 - 視覚情報と聴覚情報の同期方法および情報処理装置 - Google Patents
視覚情報と聴覚情報の同期方法および情報処理装置 Download PDFInfo
- Publication number
- JP6663444B2 JP6663444B2 JP2017547279A JP2017547279A JP6663444B2 JP 6663444 B2 JP6663444 B2 JP 6663444B2 JP 2017547279 A JP2017547279 A JP 2017547279A JP 2017547279 A JP2017547279 A JP 2017547279A JP 6663444 B2 JP6663444 B2 JP 6663444B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- language
- visual
- editing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims description 118
- 238000000034 method Methods 0.000 title claims description 51
- 230000010365 information processing Effects 0.000 title claims description 11
- 238000013519 translation Methods 0.000 claims description 44
- 230000033001 locomotion Effects 0.000 claims description 43
- 238000011156 evaluation Methods 0.000 claims description 26
- 238000005457 optimization Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011867 re-evaluation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1692—Calibration of manipulator
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234336—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40531—Ann for voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
図1Aは、本実施例の音声翻訳装置100の全体構成を説明する図である。
以下ではまず本実施例を構成する各処理部で行われる処理について、図1を参照しつつ説明する。以下の説明では、入力した音声は、「この缶に、この缶を入れてください。」(日本語)や「Put this can into this can.」(英語)などの単文としているが、複数の文を結合した長い音声も処理可能である。
時間的ずれ1=|開始時刻1(ジェスチャ1)− 開始時刻2(第2言語音声)|+|終了時刻1(ジェスチャ1)− 終了時刻2(第2言語音声)|
時間的ずれ2=|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|+|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、100ms、300ms、400ms、600msとし、第2言語の開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ1 = |100ms − 200ms|+|300ms − 400ms|= 200ms
時間的ずれ2 = |400ms − 0ms |+|600ms − 200ms|= 800ms
となる。事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ1の「時間的ずれ」(=200ms)と、ジェスチャ2の「時間的ずれ」(=800ms)とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール1064に出力する。
図8Aは、本実施例の音声翻訳装置の全体構成を説明する図である。
ロボットの動きと音声(第2言語)との情報同期の最適化部806では、第2言語音声とジェスチャとの時間ずれ評価モジュール8062によって、音声合成による第2言語音声と、ロボット動作指定によるロボットの身体動作(ジェスチャ)との、時間ずれを評価することができる。
時間的ずれ2=|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|+|開始時刻2(ジェスチャ2)− 開始時刻1(第2言語音声)|
「|※|」は、※の絶対値を意味する。ここで、ジェスチャの開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、100ms、300ms、400ms、600msとし、第2言語の開始時刻1、終了時刻1、開始時刻2、終了時刻2は、それぞれ、0ms、200ms、200ms、400msだとする場合、
時間的ずれ1 = |100ms − 200ms|+|300ms − 400ms|= 200ms
時間的ずれ2 = |400ms − 0ms |+|600ms − 200ms|= 800ms
となる。実施例1と同じように、事前に定義した「時間的ずれ」の閾値が50msとした場合、上記式で計算したジェスチャ1の「時間的ずれ」(=200ms)と、ジェスチャ2の「時間的ずれ」(=800ms)とのいずれも、閾値より大きいので、編集する必要があると判断し、編集モジュール8064に出力する。
図14は、実施例3の使用形態を説明する図である。ここでは、話者2名(話者A, 話者B)がおり、異なる言語で発話しているものと想定する。それぞれの話者が発話している言語を、言語A, 言語Bとする。
端末Aに第1の言語による第1の音声を入力するステップ、
前記端末Aに前記第1の音声を(音声認識などにより)第1のテキストとして表示するステップ、
前記端末Aから前記第1のテキストを(ネットワークなどを介して)端末Bに転送するステップ、
前記端末Bに前記第1のテキストを(機械翻訳などにより)第2の言語による第2のテキストとして表示するステップ(なお、機械翻訳はネットワーク中のサーバが行ってもよいし、端末AまたはBが行ってもよい)、
前記端末Aに表示された前記第1のテキストの任意の個所を指定するステップ、
前記端末Aから前記任意の個所の指定を前記端末Bに通知するステップ、
前記端末Bに表示された前記第2のテキストにおいて、指定された前記第1のテキストの任意の個所に対応する部分の表示を変更するステップ、
をサーバまたはタブレットが実行することにより、スムーズなコミュニケーションが可能となる。
Claims (15)
- 視覚情報と聴覚情報の同期方法において、
映像に含まれ、映像中の第1の映像タイミングに対応する前記視覚情報を抽出し、
第1言語の音声に含まれ、音声中の第1の音声タイミングに対応する第1言語の聴覚情報を認識し、
前記視覚情報と、前記第1言語の聴覚情報とを対応付け、
前記第1言語の音声を第2言語の音声に変換して、前記第1言語の聴覚情報を前記第2言語の音声中の第2言語の聴覚情報に翻訳し、
前記第2言語の聴覚情報は、前記第2言語の音声中の第2の音声タイミングに対応し、
前記視覚情報の第1の映像タイミングと前記第2言語の聴覚情報の第2の音声タイミングとを対応付けるよう、前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集し、
前記視覚情報の第1の映像タイミングと前記第2言語の聴覚情報の第2の音声タイミングとを対応付ける編集は、前記視覚情報の第1の映像タイミングと前記第2言語の聴覚情報の第2の音声タイミングとの時間的ずれを評価し、該時間的ずれを縮小する編集であり、
前記時間的ずれを縮小する編集は、
前記映像に含まれる前記視覚情報の発生タイミングおよび前記第2言語の音声中の前記第2言語の聴覚情報の発生タイミングの少なくとも一つを移動させる、
ことを特徴とする視覚情報と聴覚情報の同期方法。 - 請求項1において、
前記時間的ずれを縮小する編集は、
前記映像を早くする、前記映像を遅くする、前記映像のシーン順番を入れ替える、前記第2言語の音声の語順を変える、前記第2言語の音声の単語を同義語に置き換える、前記第2言語の音声の発話速度を早くする、前記第2言語の音声の発話速度を遅くする、及び、前記第2言語の音声にポーズを挿入する、の操作のうちの少なくとも一つを含む、
視覚情報と聴覚情報の同期方法。 - 請求項1において、
前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 視覚情報と聴覚情報の同期方法において、
映像に含まれる前記視覚情報を抽出し、
第1言語の音声に含まれる第1言語の聴覚情報を認識し、
前記視覚情報と、前記第1言語の聴覚情報とを対応付け、
前記第1言語の音声を第2言語の音声に変換して、前記第1言語の聴覚情報を前記第2言語の音声中の第2言語の聴覚情報に翻訳し、
前記視覚情報と前記第2言語の聴覚情報とを対応付けるよう、前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集し、
前記編集は、前記映像中の視覚情報の発生タイミングと前記第2言語の音声中の前記第2言語の聴覚情報の発生タイミングとの時間的ずれを縮小する編集であり、
前記時間的ずれを縮小する編集は、
前記視覚情報の発生タイミングおよび前記第2言語の聴覚情報の発生タイミングの少なくとも一つを移動させるものであり、
前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択するものであり、
前記最適な編集手法を選択する手法には、それぞれの前記編集手法による前記視覚情報及び前記第2言語の聴覚情報を予め定めた基準により評価した結果を用いることを特徴とする、
視覚情報と聴覚情報の同期方法。 - 視覚情報と聴覚情報の同期方法において、
映像に含まれる前記視覚情報を抽出し、
第1言語の音声に含まれる第1言語の聴覚情報を認識し、
前記視覚情報と、前記第1言語の聴覚情報とを対応付け、
前記第1言語の音声を第2言語の音声に変換して、前記第1言語の聴覚情報を前記第2言語の音声中の第2言語の聴覚情報に翻訳し、
前記視覚情報と前記第2言語の聴覚情報とを対応付けるよう、前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集し、
前記編集は、前記映像中の視覚情報の発生タイミングと前記第2言語の音声中の前記第2言語の聴覚情報の発生タイミングとの時間的ずれを縮小する編集であり、
前記時間的ずれを縮小する編集は、
前記視覚情報の発生タイミングおよび前記第2言語の聴覚情報の発生タイミングの少なくとも一つを移動させるものであり、
前記視覚情報及び前記第2言語の聴覚情報の少なくとも一つを編集する編集手法は、複数ある編集手法から、一つ以上の最適な編集手法を選択するものであり、
前記最適な編集手法を選択する手法では、前記視覚情報及び前記第2言語の聴覚情報の編集による視覚情報及び第2言語の聴覚情報を予め定めた基準により評価した結果に基づいて選択することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項3において、
前記視覚情報を編集する編集手法は、前記映像の再生の一時的な静止、前記映像の再生順序の変更の少なくとも一つを用いて、前記視覚情報のタイミングを変更することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項3において、
前記第2言語の聴覚情報を編集する編集手法は、前記第2言語の聴覚情報を含む第2言語の音声の再生の一時的な静止、前記第2言語の音声の発話語順の変更、前記第2言語の音声の中の単語の長さの異なる同意語への変更、の少なくとも一つを用いて、前記聴覚情報のタイミングを変更することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項4において、
前記予め定めた基準による評価は、前記視覚情報については、時空間連続性と時空間変化率のなめらかさを評価することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 請求項4において、
前記予め定めた基準による評価は、前記第2言語の聴覚情報については、前記第2言語の聴覚情報を含む第2言語の音声の連続性を評価することを特徴とする、
視覚情報と聴覚情報の同期方法。 - 第1の視覚情報を含む入力映像データと、第1の聴覚情報を含む第1の言語による入力音声データを入力し、前記第1の視覚情報は前記入力映像データ中の第1の視覚タイミングに対応するものであり、前記第1の聴覚情報は前記第1の言語による入力音声データ中の第1の音声タイミングに対応するものであり、
前記第1の視覚情報と同一の情報または前記第1の視覚情報である人間の動きに対応するロボットの動作である第2の視覚情報を含む出力視覚データと、前記第1の聴覚情報に対応する第2の聴覚情報を含む第2の言語による出力音声データを出力し、前記第2の視覚情報は出力視覚データ中の第2の視覚タイミングに対応するものであり、前記第2の聴覚情報は第2の言語による出力音声データ中の第2の音声タイミングに対応するものである情報処理装置であって、
前記入力映像データから前記第1の視覚情報を検出する検出部と、
前記入力音声データから前記第1の聴覚情報を認識する認識部と、
前記第1の視覚情報と前記第1の聴覚情報の対応付けを行う対応付け部と、
前記第1の言語による入力音声データを、前記第2の言語による出力音声データに変換する翻訳部と、
前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれが小さくなるように、前記第2の視覚情報および前記第2の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
を有する情報処理装置。 - 前記最適化部は、
前記出力視覚データである出力映像データを編集する映像編集部、
前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
の少なくとも一つを有する請求項10記載の情報処理装置。 - 前記最適化部は、
前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれを閾値と比較する、時間ずれ評価部を備え、
前記評価部により前記出力タイミングずれが前記閾値より大きいと判定された場合に、
前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、
の少なくとも一つを動作させる請求項11記載の情報処理装置。 - 前記映像編集部は、
前記入力映像データに対して、該入力映像データに含まれる前記第1の視覚情報の時間的な前後関係を入れ替える編集を行うことで、前記第2の視覚情報を含む前記出力映像データを生成する、
請求項11記載の情報処理装置。 - 第1の視覚情報を含む入力映像データと、第1の聴覚情報を含む第1の言語による入力音声データを入力し、
前記第1の視覚情報と同一の情報または前記第1の視覚情報である人間の動きに対応するロボットの動作である第2の視覚情報を含む出力視覚データと、前記第1の聴覚情報に対応する第2の聴覚情報を含む第2の言語による出力音声データを出力する情報処理装置であって、
前記入力映像データから前記第1の視覚情報を検出する検出部と、
前記入力音声データから前記第1の聴覚情報を認識する認識部と、
前記第1の視覚情報と前記第1の聴覚情報の対応付けを行う対応付け部と、
前記第1の言語による入力音声データを、前記第2の言語による出力音声データに変換する翻訳部と、
前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれが小さくなるように、前記第2の視覚情報および前記第2の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
を有し、
前記最適化部は、
前記出力視覚データである出力映像データを編集する映像編集部、
前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
の少なくとも一つを有し、
前記テキスト編集部は、
前記翻訳部における翻訳結果の候補を変更することにより、前記出力音声データを生成するテキストデータを変更するか、あるいは、前記テキストデータ内の語順を変更することで、前記出力音声データを生成する、
情報処理装置。 - 第1の視覚情報を含む入力映像データと、第1の聴覚情報を含む第1の言語による入力音声データを入力し、
前記第1の視覚情報と同一の情報または前記第1の視覚情報である人間の動きに対応するロボットの動作である第2の視覚情報を含む出力視覚データと、前記第1の聴覚情報に対応する第2の聴覚情報を含む第2の言語による出力音声データを出力する情報処理装置であって、
前記入力映像データから前記第1の視覚情報を検出する検出部と、
前記入力音声データから前記第1の聴覚情報を認識する認識部と、
前記第1の視覚情報と前記第1の聴覚情報の対応付けを行う対応付け部と、
前記第1の言語による入力音声データを、前記第2の言語による出力音声データに変換する翻訳部と、
前記対応付けられた前記第1の視覚情報と前記第1の聴覚情報に対応する、前記第2の視覚情報と前記第2の聴覚情報の出力タイミングずれが小さくなるように、前記第2の視覚情報および前記第2の聴覚情報の少なくとも一方の出力タイミングを制御する最適化部と、
を有し、
前記最適化部は、
前記出力視覚データである出力映像データを編集する映像編集部、
前記出力視覚データであるロボットの動作指令データを編集する動作指令編集部、前記出力音声データを生成するためのテキストデータを編集するテキスト編集部、および、前記出力音声データを編集する音声編集部、
の少なくとも一つを有し、
前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、の少なくとも一つを動作させた結果の、前記出力視覚データおよび前記出力音声データの少なくとも一つを予め定めた基準により評価する評価部を備え、
前記評価部の評価結果に基づいて、前記映像編集部、前記動作指令編集部、前記テキスト編集部、および、前記音声編集部、のいずれを動作させるかを変更する、
情報処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/080574 WO2017072915A1 (ja) | 2015-10-29 | 2015-10-29 | 視覚情報と聴覚情報の同期方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017072915A1 JPWO2017072915A1 (ja) | 2018-07-12 |
JP6663444B2 true JP6663444B2 (ja) | 2020-03-11 |
Family
ID=58630010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017547279A Active JP6663444B2 (ja) | 2015-10-29 | 2015-10-29 | 視覚情報と聴覚情報の同期方法および情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10691898B2 (ja) |
JP (1) | JP6663444B2 (ja) |
WO (1) | WO2017072915A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11237635B2 (en) | 2017-04-26 | 2022-02-01 | Cognixion | Nonverbal multi-input and feedback devices for user intended computer control and communication of text, graphics and audio |
US11402909B2 (en) | 2017-04-26 | 2022-08-02 | Cognixion | Brain computer interface for augmented reality |
US11900072B1 (en) * | 2017-07-18 | 2024-02-13 | Amazon Technologies, Inc. | Quick lookup for speech translation |
JP7157340B2 (ja) * | 2018-02-16 | 2022-10-20 | 日本電信電話株式会社 | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム |
US11989976B2 (en) * | 2018-02-16 | 2024-05-21 | Nippon Telegraph And Telephone Corporation | Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs |
WO2019203795A1 (en) * | 2018-04-16 | 2019-10-24 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
JP7035765B2 (ja) * | 2018-04-25 | 2022-03-15 | 富士通株式会社 | 制御プログラム、制御方法及び制御装置 |
JP7225654B2 (ja) * | 2018-10-04 | 2023-02-21 | 富士通株式会社 | コミュニケーション装置、コミュニケーション方法、及びコミュニケーションプログラム |
KR102116315B1 (ko) * | 2018-12-17 | 2020-05-28 | 주식회사 인공지능연구원 | 캐릭터의 음성과 모션 동기화 시스템 |
US11275889B2 (en) * | 2019-04-04 | 2022-03-15 | International Business Machines Corporation | Artificial intelligence for interactive preparation of electronic documents |
CN110232194B (zh) * | 2019-06-17 | 2024-04-09 | 安徽听见科技有限公司 | 翻译显示方法、装置、设备及可读存储介质 |
KR20210032809A (ko) * | 2019-09-17 | 2021-03-25 | 삼성전자주식회사 | 동시 통역 방법 및 장치 |
CN110704683A (zh) * | 2019-09-27 | 2020-01-17 | 深圳市商汤科技有限公司 | 音视频信息处理方法及装置、电子设备和存储介质 |
WO2021210098A1 (ja) * | 2020-04-15 | 2021-10-21 | 日本電信電話株式会社 | 変換方法、変換装置及びプログラム |
CN113721704A (zh) * | 2021-08-30 | 2021-11-30 | 成都华栖云科技有限公司 | 一种视频流的同声传译系统及其实现方法 |
WO2023166527A1 (en) * | 2022-03-01 | 2023-09-07 | Gan Studio Inc. | Voiced-over multimedia track generation |
CN115497499A (zh) * | 2022-08-30 | 2022-12-20 | 阿里巴巴(中国)有限公司 | 语音和动作时间同步的方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3213105B2 (ja) | 1993-02-23 | 2001-10-02 | 日本電信電話株式会社 | 映像の構図自動決定処理方法 |
JPH08220985A (ja) * | 1995-02-15 | 1996-08-30 | Mitsuyuki Masaji | 英語の学習指導方法およびこれを実施する学習 教材 |
US7109993B2 (en) * | 1995-10-08 | 2006-09-19 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method and system for the automatic computerized audio visual dubbing of movies |
JP2993872B2 (ja) * | 1995-10-16 | 1999-12-27 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | マルチモーダル情報統合解析装置 |
US20070165022A1 (en) * | 1998-07-15 | 2007-07-19 | Shmuel Peleg | Method and system for the automatic computerized audio visual dubbing of movies |
JP2001224002A (ja) * | 2000-02-08 | 2001-08-17 | Atr Interpreting Telecommunications Res Lab | 音声・映像同期方法および音声・映像処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4011844B2 (ja) * | 2000-09-22 | 2007-11-21 | 株式会社国際電気通信基礎技術研究所 | 翻訳装置、翻訳方法および媒体 |
JP2002123282A (ja) * | 2000-10-17 | 2002-04-26 | Brother Ind Ltd | 翻訳装置および記録媒体 |
US20040111272A1 (en) * | 2002-12-10 | 2004-06-10 | International Business Machines Corporation | Multimodal speech-to-speech language translation and display |
JP4014044B2 (ja) | 2003-01-28 | 2007-11-28 | 株式会社国際電気通信基礎技術研究所 | コミュニケーションロボットおよびそれを用いたコミュニケーションシステム |
EP2267697A3 (en) * | 2003-12-12 | 2011-04-06 | Nec Corporation | Information processing system, method of processing information, and program for processing information |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
JP2008306691A (ja) * | 2007-06-05 | 2008-12-18 | Takeshi Sumida | バイリンガル二重字幕 |
US9060193B2 (en) * | 2009-12-07 | 2015-06-16 | Centurylink Intellectual Property Llc | System and method for broadcasting video with a secondary audio source |
US20120105719A1 (en) * | 2010-10-29 | 2012-05-03 | Lsi Corporation | Speech substitution of a real-time multimedia presentation |
US20120276504A1 (en) * | 2011-04-29 | 2012-11-01 | Microsoft Corporation | Talking Teacher Visualization for Language Learning |
WO2013032354A1 (ru) * | 2011-08-31 | 2013-03-07 | Общество С Ограниченной Ответственностью "Базелевс Инновации" | Визуализация текста на естественном языке |
US8874429B1 (en) * | 2012-05-18 | 2014-10-28 | Amazon Technologies, Inc. | Delay in video for language translation |
KR20140146965A (ko) * | 2013-06-18 | 2014-12-29 | 삼성전자주식회사 | 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 |
US9584871B2 (en) * | 2013-12-19 | 2017-02-28 | Echostar Technologies L.L.C. | Smartphone bluetooth headset receiver |
US9324340B2 (en) * | 2014-01-10 | 2016-04-26 | Sony Corporation | Methods and apparatuses for use in animating video content to correspond with audio content |
US20160042766A1 (en) * | 2014-08-06 | 2016-02-11 | Echostar Technologies L.L.C. | Custom video content |
-
2015
- 2015-10-29 JP JP2017547279A patent/JP6663444B2/ja active Active
- 2015-10-29 WO PCT/JP2015/080574 patent/WO2017072915A1/ja active Application Filing
- 2015-10-29 US US15/771,460 patent/US10691898B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20180336891A1 (en) | 2018-11-22 |
WO2017072915A1 (ja) | 2017-05-04 |
US10691898B2 (en) | 2020-06-23 |
JPWO2017072915A1 (ja) | 2018-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6663444B2 (ja) | 視覚情報と聴覚情報の同期方法および情報処理装置 | |
US10991380B2 (en) | Generating visual closed caption for sign language | |
KR100948600B1 (ko) | 제스처/음성 융합 인식 시스템 및 방법 | |
CN107657947A (zh) | 基于人工智能的语音处理方法及其装置 | |
GB2601162A (en) | Methods and systems for video translation | |
US6943794B2 (en) | Communication system and communication method using animation and server as well as terminal device used therefor | |
US20140372100A1 (en) | Translation system comprising display apparatus and server and display apparatus controlling method | |
US20100082345A1 (en) | Speech and text driven hmm-based body animation synthesis | |
US11942093B2 (en) | System and method for simultaneous multilingual dubbing of video-audio programs | |
US20220327309A1 (en) | METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA | |
CN103309855A (zh) | 汉语与外语自动实时语音翻译并标注字幕的音像录播设备 | |
US10388325B1 (en) | Non-disruptive NUI command | |
JP2011504624A (ja) | 自動同時通訳システム | |
CN115511994A (zh) | 一种快速将真人克隆为二维虚拟数字人的方法 | |
JP6624476B2 (ja) | 翻訳装置および翻訳システム | |
JP2008021058A (ja) | 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体 | |
Taylor et al. | A mouth full of words: Visually consistent acoustic redubbing | |
CN112764549B (zh) | 翻译方法、装置、介质和近眼显示设备 | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
JP2021179689A (ja) | 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末 | |
Tsioustas et al. | Innovative applications of natural language processing and digital media in theatre and performing arts | |
CN117769739A (zh) | 用于配音的辅助翻译和嘴唇匹配的系统和方法 | |
KR102138132B1 (ko) | 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 | |
WO2020116001A1 (ja) | 情報処理装置および情報処理方法 | |
JP6802264B2 (ja) | 表示装置、出力装置、および情報表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6663444 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |