CN112001189A - 实时外语沟通系统 - Google Patents
实时外语沟通系统 Download PDFInfo
- Publication number
- CN112001189A CN112001189A CN202010380143.5A CN202010380143A CN112001189A CN 112001189 A CN112001189 A CN 112001189A CN 202010380143 A CN202010380143 A CN 202010380143A CN 112001189 A CN112001189 A CN 112001189A
- Authority
- CN
- China
- Prior art keywords
- translation
- foreign language
- module
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 75
- 238000013519 translation Methods 0.000 claims abstract description 118
- 238000012545 processing Methods 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 12
- 210000003128 head Anatomy 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种实时外语沟通系统,包含用以供配戴在用户头部的穿戴式翻译装置。所述穿戴式翻译装置包括输出单元、声音撷取单元与翻译控制处理器。所述翻译控制处理器可控制所述声音撷取单元的多个第一麦克风以麦克风阵列方式朝用户前方对讲话对象进行指向性收音,并翻译收音得到的待译语音以得到翻译数据,并控制输出单元输出翻译数据。通过供配戴于用户头部之所述穿戴式翻译装置可直接对外国人讲话内容进行收音并实时翻译输出的设计,能提供更符合一般生活型态的面对面讲话沟通方式,而不需再于两者间交换持用翻译机讲话。
Description
技术领域
本发明涉及一种翻译系统,特别是涉及一种实时外语沟通系统。
背景技术
为了帮助国外旅行者可更方便地与当地商家或人民沟通,目前有许多业者开发出方便携带且可翻译各种语言的翻译机。这类翻译机的使用方式,是用户先设定自己的语言种类,及要沟通对象的外语种类,然后将翻译机靠近自己的嘴巴并讲话,该翻译机会进行语音撷取并分析语音语意,然后转换成预设的外语种类的译文,然后将该翻译机拿给沟通对象观看译文内容,另一种方式,是进一步将译文转换成对应的待译语音,然后播放给沟通对象听。紧接着,再将该翻译机交给沟通对象,该沟通对象再将翻译机靠近嘴巴并讲话,然后再由该翻译机翻译显示译文或播放译文语音,让对方了解其讲话意思。就这样一来一往反复互换该翻译机并讲话进行翻译作业。
虽然这种翻译机确实可用于协助和外国人进行沟通,但是使用上却相当不人性化。由于生活周遭充斥着许多的人声与杂音,为了要能够清楚收音,避免被周围杂音或语音干扰而影响翻译结果,所以这种翻译机是设计成需靠近嘴巴才能讲话收音,而且必须在两位交谈对象间反复拿持讲话进行翻译,这种使用方式完全不符人与人平常面对面讲话的习惯,也明显存在卫生疑虑。
发明内容
本发明的目的在于提供一种可改善背景技术的至少一个缺点的实时外语沟通系统。
本发明实时外语沟通系统,适用于供用户用于翻译其前方讲话对象的外语,并包含穿戴式翻译装置。所述穿戴式翻译装置包括用于供配戴在所述用户头部的载具,及安装在所述载具的输出单元、声音撷取单元与翻译控制处理器。所述声音撷取单元具有多个间隔安装在所述载具,且可被控制启动以进行收音的第一麦克风。所述翻译控制处理器讯号连接所述输出单元与所述声音撷取单元,包括语音撷取控制模块、外语翻译处理模块,及输出控制模块,所述语音撷取控制模块可控制启动多个第一麦克风以构成麦克风阵列,并朝所述载具前方对所述讲话对象进行指向性收音以得到待译语音,所述外语翻译处理模块可接收翻译所述待译语音以得到翻译数据,所述输出控制模块可控制所述输出单元输出所述翻译数据。
本发明所述的实时外语沟通系统,所述翻译数据包括文字类型的译文,所述输出单元包括可供透视地安装于所述载具且位于所述用户眼前,并可被所述输出控制模块驱动显示所述译文以供所述用户观看的显示模块。
本发明所述的实时外语沟通系统,所述显示模块具有位于所述用户眼前而可供透视的透明膜片,及可被所述输出控制模块控制而将所述译文投射成像于所述透明膜片的影像投射器。
本发明所述的实时外语沟通系统,所述显示模块为可被驱动显示所述译文的透明显示器。
本发明所述的实时外语沟通系统,所述翻译数据报括译文语音,所述输出单元还包括用于供设置在所述用户耳部,且可被所述输出控制模块控制输出所述译文语音的耳机模块。
本发明所述的实时外语沟通系统,所述外语翻译处理模块具有外语种类设定接口与译后语文设定接口,所述外语种类设定接口内建有多个可供选择设定的外语种类,所述译后语文设定接口内建有多个可供选择设定的译后语文种类,所述外语翻译处理模块可根据被设定的所述外语种类分析所述待译语音,而将所述待译语音翻译为被设定的所述译后语文种类对应的所述翻译数据。
本发明所述的实时外语沟通系统,所述声音撷取单元还包括可用于对所述用户嘴部进行收音以得到本人语音的第二麦克风,所述输出单元还包括喇叭模块,所述外语翻译处理模块会根据被设定的所述译后语文种类分析所述本人语音,并将所述本人语音翻译成被设定的所述外语种类的对话外语,所述输出控制模块会控制所述喇叭模块扩音输出所述对话外语。
本发明所述的实时外语沟通系统,所述穿戴式翻译装置还包括安装在所述载具且可朝所述用户前方进行影像撷取以得到视野影像的影像撷取单元,所述翻译控制处理器讯号连接所述影像撷取单元,且还包括人物影像撷取模块、沟通对象判断模块,及收音方位控制模块,所述人物影像撷取模块可分析撷取出所述视野影像中所有面向所述用户的人脸影像,所述沟通对象判断模块会分析所述人脸影像的嘴唇变化,并将有嘴唇开合变化的其中一个人脸影像设定为收音对象,所述收音方位控制模块会分析被设定为所述收音对象的所述人脸影像相对于所述用户的方位以得到自动收音方位数据,所述语音撷取控制模块会根据自动收音方位数据控制启动对应数量与位置的多个麦克风以构成麦克风阵列,而朝对应的方位进行指向性收音。
本发明所述的实时外语沟通系统,所述翻译控制处理器还包括沟通对象标示模块,所述沟通对象标示模块可根据所述自动收音方位数据,于所述显示模块的对应位置显示出会在所述用户透视视角中指向被设定为所述收音对象的人物的指针影像。
本发明所述的实时外语沟通系统,所述沟通对象判断模块会将嘴唇有变化的每一个人脸影像判断为沟通对象,并将其中一个沟通对象设定为所述收音对象,所述翻译控制处理器还包括外露于所述载具的按键模块,所述沟通对象判断模块可于所述按键模块被操作时,将另一个沟通对象切换设定为所述收音对象。
本发明所述的实时外语沟通系统,所述实时外语沟通系统还包含可供所述用户持用且与所述穿戴式翻译装置讯号连接的手控装置,所述手控装置具有用于显示所述视野影像以供触碰操作的触控显示屏,及收音方位设定单元,所述收音方位设定单元可分析所述触控显示屏的所述视野影像被触碰位置相对于所述用户的方位,以得到手控收音方位数据,所述语音撷取控制模块会优先根据所述手控收音方位数据,控制启动对应数量与位置的多个麦克风以构成麦克风阵列而朝对应的方位进行指向性收音。
本发明的有益效果在于:通过供配戴于该用户头部的该穿戴式翻译装置,可直接对要沟通的外国人讲话内容进行收音并实时翻译输出的设计,使得双方可通过平常面对面讲话方式直接沟通,而不需再于两者间交换持用翻译机讲话,所以本发明的穿戴式翻译装置能提供更符合一般生活型态的语言沟通方式。
附图说明
本发明的其他的特征及功效,将于参照图式的实施方式中清楚地呈现,其中:
图1是本发明实时外语沟通系统的一个实施例的立体图;
图2是该实施例的供用户配戴使用的示意图;及
图3是该实施例的功能方块图。
具体实施方式
在本发明被详细描述前,应当注意在以下的说明内容中,类似的组件是以相同的编号来表示。
参阅图1、2、3,本发明实时外语沟通系统100的实施例,适用于供一位用户900配戴在头部,而能供该用户900用于和其前方一位讲述外语的讲话对象进行沟通对话,所述外语是指该用户900所属国家通用语言以外的他国语言,就中国台湾用户900而言,日语、韩语、英语与德语等都是外语。
该实时外语沟通系统100包含一个用于供配戴在该用户900头部的穿戴式翻译装置2,及一个用于供该用户900持用且与该穿戴式翻译装置2讯号连接的手控装置8。在本实施例中,该穿戴式翻译装置2与该手控装置8间是通过目前已知的无线通信技术进行讯号连接,例如但是不限于wifi或蓝牙等,但是实施时,在本发明的另一实施态样中,该穿戴式翻译装置2与该手控装置8间也可通过讯号线彼此讯号连接。
该穿戴式翻译装置2包括一个用于供该用户900配戴于头部的载具3,及安装于该载具3的一个输出单元4、一个声音撷取单元5、一个影像撷取单元6,及一个翻译控制处理器7。在本实施例中,该载具3是设计成眼镜镜框样式,具有一个前框部31,及两个左右间隔且前后延伸的脚杆部32。
该输出单元4包括一个位于该用户900眼前的显示模块41、两个用于设置在该用户900耳部的耳机模块42,及一个喇叭模块43。在本实施例中,该显示模块41具有一个位于该用户900眼前而可供透视观看的透明膜片411,及一个可在该透明膜片411投射出能供该用户900观看的影像的影像投射器412。但是实施时,在本发明的另一实施态样中,该显示模块41也可以是架设在该前框部31且可被驱动显示影像的透明显示器,例如但是不限于透明液晶显示器。所述耳机模块42可用于输出声音以供该用户900聆听,实施时,每一耳机模块42可以是气导式耳机或者是骨导式耳机。
该声音撷取单元5包括多个间隔设置在该前框部31与所述脚杆部32的第一麦克风51,及一个自该载具3往下延伸且用于设置在该用户900嘴前的第二麦克风52。所述第一麦克风51可被控制启动而相配合通过波束成型技术对特定方向进行指向性收音,也就是用于对该沟通对象讲话内容进行收音,以得到一个待译语音。该第二麦克风52可朝该用户900嘴巴方向进行指向性收音,以得到一个本人语音。
该影像撷取单元6是安装在该前框部31中心部位,而相对位于该用户900鼻子上方,可用于朝该用户900正前方进行影像撷取以得到一个视野影像。
该翻译控制处理器7讯号连接该输出单元4、该声音撷取单元5与该影像撷取单元6,包括一个设置外露于所述脚杆部32其中之一的按键模块71、一个人物影像撷取模块72、一个沟通对象判断模块73、一个收音方位控制模块74、一个沟通对象标示模块75、一个外语翻译处理模块77,及一个输出控制模块78。
该人物影像撷取模块72可通过现有已知各种影像分析处理技术进行该视野影像中的人脸影像部位的识别,而可分析撷取出该视野影像中所存在的人脸影像。该沟通对象判断模块73会进一步分析所述人脸影像的嘴唇部位是否出现开合变化,并将嘴唇部位有变化的所述人脸影像判断为沟通对象,且将其中一个沟通对象设定为收音对象。此外,当该沟通对象判断模块73判断该视野影像存在多个沟通对象时,用户900可通过操作该按键模块71的方式,控制该沟通对象判断模块73将另外一个沟通对象切换设定为该收音对象。
该收音方位控制模块74会根据被设定为该收音对象的该人脸影像相对于该视野影像中的一个基准点的左右夹角与距离等方位数据,而得到该收音对象对应的人物实际上相对于该用户900的方位,而得到一个自动收音方位数据。该沟通对象标示模块75会根据该自动收音方位数据,于该显示模块41的对应方位位置显示出一个会在该用户900透视视角中,对准被设定为收音对象的指针影像751,例如但是不限于箭头,借以让用户900知道目前是朝哪一位人物进行收音。
该语音撷取控制模块76会根据该自动收音方位数据,控制启动特定位置与特定数量的第一麦克风51,使被启动的所述第一麦克风51构成一个麦克风阵列,并驱使所述第一麦克风51以波束成型(beamforming)技术朝该用户900前方的对应方向进行指向性收音,也就是朝被设定为该收音对象的人物方向进行收音,以得到一个待译语音。
该外语翻译处理模块77内建有多种语言间的翻译数据,例如但是不限于各种外语的语音对应字词、译文数据、语法与文法数据等,且具有会显示于该显示模块41以供观看的一个外语种类设定接口771与一个译后语文设定接口772,该外语种类设定接口771内建有多个可供选择设定的外语种类,例如但是不限于华语、英语、日语、韩语及德语等,该译后语文设定接口772内建有多个可供选择设定的译后语文种类,例如但是不限于华语、英语、日语、韩语及德语等,用户900可通过操作该按键模块71来进行外语种类和译后语文种类的选择设定。该外语翻译处理模块77会根据被设定的该外语种类、该译后语文种类与该翻译数据,对该待译语音进行翻译处理,以得到一个翻译数据,该翻译数据包括译文与译文语音。
所述翻译处理内容大致包括以下步骤:(1)根据被设定的外语种类,通过语音分析技术,将该待译语音转换成相同语言的文字数据。(2)根据被设定的该译后语文种类,将该文字数据翻译成对应的译文。(3)将该译文转换成相同语言的译文语音。
该输出控制模块78会控制该显示模块41显示出该译文,且会控制所述耳机模块42输出该译文语音,借以供该用户900观看与聆听翻译结果。
此外,该语音撷取控制模块76也会控制启动该第二麦克风52,使该第二麦克风52撷取该用户900讲话内容以得到该本人语音。该外语翻译处理模块77会根据被设定的该译后语文种类分析该本人语音,而将该本人语音转换成相同语言的文字数据,然后再根据被设定的该外语种类,将该文字数据翻译处理成语音形式的对话外语,并控制该喇叭模块43扩音输出该对话外语,让沟通对象聆听。
由于语音翻译技术众多,且非本发明改良重点,因此实施时,对于该待译语音与该本人语音的翻译方式不以此为限,且不再详述。
该手控装置8可同步接收显示该翻译控制处理器7传送的该视野影像。该手控装置8可以是该用户900持用的手机或平板计算机等行动装置,但是实施时不以此为限。
该手控装置8具有一个用于显示该视野影像且可供触控操作的触控显示屏81,及一个收音方位设定单元82。该收音方位设定单元82会分析显示有该视野影像的该触控显示屏81被触控位置相对于该用户900的方位,以得到一个手控收音方位数据,且会将该手控收音方位数据传送至该翻译控制处理器7。该语音撷取控制模块76会优先根据该手控收音方位数据,控制启动对应数量与位置的多个第一麦克风51以构成麦克风阵列,并使所述第一麦克风51通过波束成型技术朝对应方向进行指向性收音,以得到该待译语音。
本发明实时外语沟通系统100使用时,用户900可将该穿戴式翻译装置2配戴于头部,最佳情况是,讲话对象也可同样配戴一个穿戴式翻译装置2。进行翻译沟通前,每一用户900需先操作设定该外语种类与该译后语文种类,启动翻译功能后,该影像撷取单元6会开始撷取得到该视野影像,该手控装置8会同步显示该视野影像。
该翻译控制处理器7于分析该视野影像,而将其中一个沟通对象设定为收音对象时,用户900若觉得该收音对象非为实际要对话的讲话对象时,可操作该按键模块71来切换该收音对象。该翻译控制处理器7会控制启动对应数量与位置的多个第一麦克风51,以相配合朝该收音对象实际对应的该讲话对象方位进行收音以得到该待译语音,然后将该待译语音翻译成被设定的该译后语文种类的译文与译文语音,并经由该显示模块41与所述耳机模块42分别输出该译文与该译文语音,让该用户900了解该沟通对象的讲话内容。
当该用户900要对该讲话对象讲话时,可直接对该第二麦克风52讲话,该翻译控制处理器7会将该本人语音转换成被设定的外语种类的对话外语,并扩音播出该对话外语,让沟通对象了解你的讲话内容。
使用时,该手控装置8也会同步显示该视野影像,用户900可通过触控该触控显示屏81显示的该视野影像的特定部位的方式,来手动设定该手动收音方位数据,借以驱使该翻译控制处理器7根据该手动收音方位数据,控制所述第一麦克风51朝该用户900前方对应方向进行指向性收音。借此设计,用户900可根据需求自行选择翻译特定对象的讲话内容。
在本实施例中,该穿戴式翻译装置2是通过分析该视野影像的方式来决定该收音对象,然后朝该用户900前方对应方位进行指向性收音,但是实施时,不以通过分析该视野影像来决定该收音对象为必要,也就是说,在本发明的另一实施态样中,该实时外语沟通系统100可不设置该手控装置8,且该穿戴式翻译装置2可不设置该影像撷取单元6,该翻译控制处理器7可不设置该人物影像撷取模块72与该沟通对象判断模块73,并将所述第一麦克风51设计成会被启动而直接通过波束成型技术朝该载具3正前方特定方位进行指向性收音,也就是直接朝该用户900正前方特定角度范围内进行指向性收音。借此设计,配戴该穿戴式翻译装置2的用户900可通过将头转向所要沟通的外国人的方式,来控制该穿戴式翻译装置2直接朝该外国人方向进行收音与执行翻译作业。
此外,实施时,在本发明的另一实施态样中,该第二麦克风52与该喇叭模块43非为必要,在此情况下,当要沟通双方都各自配戴一副本发明的穿戴式翻译装置2时,双方可各自讲话,并经由对方的穿戴式翻译装置2实时进行讲话内容的收音与翻译。
综上所述,通过该穿戴式翻译装置2可供配戴于该用户900头部,而能够直接对要沟通的外国人讲话内容进行收音并实时翻译输出,以及可将本身讲话内容翻译给该外国人聆听的设计,使得双方可通过平常面对面讲话方式直接沟通,而不需再于两者间交换持用翻译机讲话,所以本发明的穿戴式翻译装置2能提供更符合一般生活型态的语言沟通方式,也可进一步配合该手控装置8的设计,方便用户900根据现场环境需求自行选择设定收音方向,而能更准确地取得特定对象的讲话内容。且当要沟通的双方都有配戴该穿戴式翻译装置2时,两位外国人间的沟通会更加方便。因此,本发明实时外语翻译系统确实可改善现有翻译机使用上的缺点,可让讲话双方以一般日常生活讲话模式更自然地进行沟通,是一种相当创新实用的实时外语沟通系统100设计,因此确实能达成本发明的目的。
惟以上所述者,只为本发明的实施例而已,当不能以此限定本发明实施的范围,凡是依本发明权利要求书及说明书内容所作的简单的等效变化与修饰,都仍属本发明涵盖的范围内。
Claims (11)
1.一种实时外语沟通系统,适用于供用户用于翻译其前方讲话对象的外语,并包含穿戴式翻译装置,所述穿戴式翻译装置包括用于输出数据的输出单元及声音撷取单元,其特征在于:所述穿戴式翻译装置还包括供所述输出单元安装且用于供配戴在所述用户头部的载具,及安装于所述载具且讯号连接所述输出单元与所述声音撷取单元的翻译控制处理器,所述声音撷取单元具有多个间隔安装在所述载具,且可被控制启动以进行收音的第一麦克风,所述翻译控制处理器包括语音撷取控制模块、外语翻译处理模块,及输出控制模块,所述语音撷取控制模块可控制启动多个第一麦克风以构成麦克风阵列,并朝所述载具前方对所述讲话对象进行指向性收音以得到待译语音,所述外语翻译处理模块可接收翻译所述待译语音以得到翻译数据,所述输出控制模块可控制所述输出单元输出所述翻译数据。
2.根据权利要求1所述的实时外语沟通系统,其特征在于:所述翻译数据包括文字类型的译文,所述输出单元包括可供透视地安装于所述载具且位于所述用户眼前,并可被所述输出控制模块驱动显示所述译文以供所述用户观看的显示模块。
3.根据权利要求2所述的实时外语沟通系统,其特征在于:所述显示模块具有位于所述用户眼前而可供透视的透明膜片,及可被所述输出控制模块控制而将所述译文投射成像于所述透明膜片的影像投射器。
4.根据权利要求2所述的实时外语沟通系统,其特征在于:所述显示模块为可被驱动显示所述译文的透明显示器。
5.根据权利要求1所述的实时外语沟通系统,其特征在于:所述翻译数据报括译文语音,所述输出单元还包括用于供设置在所述用户耳部,且可被所述输出控制模块控制输出所述译文语音的耳机模块。
6.根据权利要求2或5所述的实时外语沟通系统,其特征在于:所述外语翻译处理模块具有外语种类设定接口与译后语文设定接口,所述外语种类设定接口内建有多个可供选择设定的外语种类,所述译后语文设定接口内建有多个可供选择设定的译后语文种类,所述外语翻译处理模块可根据被设定的所述外语种类分析所述待译语音,而将所述待译语音翻译为被设定的所述译后语文种类对应的所述翻译数据。
7.根据权利要求6所述的实时外语沟通系统,其特征在于:所述声音撷取单元还包括可用于对所述用户嘴部进行收音以得到本人语音的第二麦克风,所述输出单元还包括喇叭模块,所述外语翻译处理模块会根据被设定的所述译后语文种类分析所述本人语音,并将所述本人语音翻译成被设定的所述外语种类的对话外语,所述输出控制模块会控制所述喇叭模块扩音输出所述对话外语。
8.根据权利要求2所述的实时外语沟通系统,其特征在于:所述穿戴式翻译装置还包括安装在所述载具且可朝所述用户前方进行影像撷取以得到视野影像的影像撷取单元,所述翻译控制处理器讯号连接所述影像撷取单元,且还包括人物影像撷取模块、沟通对象判断模块,及收音方位控制模块,所述人物影像撷取模块可分析撷取出所述视野影像中所有面向所述用户的人脸影像,所述沟通对象判断模块会分析所述人脸影像的嘴唇变化,并将有嘴唇开合变化的其中一个人脸影像设定为收音对象,所述收音方位控制模块会分析被设定为所述收音对象的所述人脸影像相对于所述用户的方位以得到自动收音方位数据,所述语音撷取控制模块会根据自动收音方位数据控制启动对应数量与位置的多个麦克风以构成麦克风阵列,而朝对应的方位进行指向性收音。
9.根据权利要求8所述的实时外语沟通系统,其特征在于:所述翻译控制处理器还包括沟通对象标示模块,所述沟通对象标示模块可根据所述自动收音方位数据,于所述显示模块的对应位置显示出会在所述用户透视视角中指向被设定为所述收音对象的人物的指针影像。
10.根据权利要求8或9所述的实时外语沟通系统,其特征在于:所述沟通对象判断模块会将嘴唇有变化的每一个人脸影像判断为沟通对象,并将其中一个沟通对象设定为所述收音对象,所述翻译控制处理器还包括外露于所述载具的按键模块,所述沟通对象判断模块可于所述按键模块被操作时,将另一个沟通对象切换设定为所述收音对象。
11.根据权利要求8或9所述的实时外语沟通系统,其特征在于:所述实时外语沟通系统还包含可供所述用户持用且与所述穿戴式翻译装置讯号连接的手控装置,所述手控装置具有用于显示所述视野影像以供触碰操作的触控显示屏,及收音方位设定单元,所述收音方位设定单元可分析所述触控显示屏的所述视野影像被触碰位置相对于所述用户的方位,以得到手控收音方位数据,所述语音撷取控制模块会优先根据所述手控收音方位数据,控制启动对应数量与位置的多个麦克风以构成麦克风阵列而朝对应的方位进行指向性收音。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108118259 | 2019-05-27 | ||
TW108118259A TWI716885B (zh) | 2019-05-27 | 2019-05-27 | 即時外語溝通系統 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001189A true CN112001189A (zh) | 2020-11-27 |
Family
ID=73461457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010380143.5A Pending CN112001189A (zh) | 2019-05-27 | 2020-05-08 | 实时外语沟通系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200380959A1 (zh) |
CN (1) | CN112001189A (zh) |
TW (1) | TWI716885B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087778B2 (en) * | 2019-02-15 | 2021-08-10 | Qualcomm Incorporated | Speech-to-text conversion based on quality metric |
CN112751582A (zh) * | 2020-12-28 | 2021-05-04 | 杭州光粒科技有限公司 | 用于交互的可穿戴装置、交互方法及设备、存储介质 |
US20220330848A1 (en) * | 2021-04-16 | 2022-10-20 | Bayerische Motoren Werke Aktiengesellschaft | Method, Computer Program, and Device for Determining Vehicle Occupant Respiration |
US11908446B1 (en) * | 2023-10-05 | 2024-02-20 | Eunice Jia Min Yong | Wearable audiovisual translation system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140362253A1 (en) * | 2013-06-11 | 2014-12-11 | Samsung Electronics Co., Ltd. | Beamforming method and apparatus for sound signal |
US20150088500A1 (en) * | 2013-09-24 | 2015-03-26 | Nuance Communications, Inc. | Wearable communication enhancement device |
WO2018176036A2 (en) * | 2017-03-24 | 2018-09-27 | Gutierrez Jose Rito | Mobile translation system and method |
US20190028817A1 (en) * | 2017-07-20 | 2019-01-24 | Wizedsp Ltd. | System and method for a directional speaker selection |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
CN106600903A (zh) * | 2015-10-20 | 2017-04-26 | 阿里巴巴集团控股有限公司 | 一种基于图像识别的预警方法及装置 |
CN108268452A (zh) * | 2018-01-15 | 2018-07-10 | 东北大学 | 一种基于深度学习的专业领域机器同步翻译装置及方法 |
-
2019
- 2019-05-27 TW TW108118259A patent/TWI716885B/zh active
-
2020
- 2020-05-08 CN CN202010380143.5A patent/CN112001189A/zh active Pending
- 2020-05-26 US US16/883,272 patent/US20200380959A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140362253A1 (en) * | 2013-06-11 | 2014-12-11 | Samsung Electronics Co., Ltd. | Beamforming method and apparatus for sound signal |
US20150088500A1 (en) * | 2013-09-24 | 2015-03-26 | Nuance Communications, Inc. | Wearable communication enhancement device |
WO2018176036A2 (en) * | 2017-03-24 | 2018-09-27 | Gutierrez Jose Rito | Mobile translation system and method |
US20190028817A1 (en) * | 2017-07-20 | 2019-01-24 | Wizedsp Ltd. | System and method for a directional speaker selection |
Also Published As
Publication number | Publication date |
---|---|
TWI716885B (zh) | 2021-01-21 |
US20200380959A1 (en) | 2020-12-03 |
TW202044102A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI716885B (zh) | 即時外語溝通系統 | |
KR102069237B1 (ko) | 핸즈프리 자동 통역 서비스를 위한 단말 장치 및 핸즈프리 장치와, 핸즈프리 자동 통역 서비스 방법 | |
US9507772B2 (en) | Instant translation system | |
US20140129207A1 (en) | Augmented Reality Language Translation | |
US10872605B2 (en) | Translation device | |
JPWO2013077110A1 (ja) | 翻訳装置、翻訳システム、翻訳方法およびプログラム | |
CN109360549B (zh) | 一种数据处理方法、穿戴设备和用于数据处理的装置 | |
KR20160093529A (ko) | 청각 장애인을 위한 착용형 장치 | |
JP2021150946A (ja) | ワイヤレスイヤホンデバイスとその使用方法 | |
CN111428515B (zh) | 一种同声传译的设备及方法 | |
CN205788180U (zh) | 一种用于同声传译系统的翻译阅读器 | |
WO2019150996A1 (ja) | 言語提示装置、言語提示方法、及び言語提示プログラム | |
CN112951236A (zh) | 一种语音翻译设备及方法 | |
CN111081120A (zh) | 一种协助听说障碍人士交流的智能穿戴设备 | |
US20230238001A1 (en) | Eyeglass augmented reality speech to text device and method | |
TWM565821U (zh) | 智慧即時翻譯裝置 | |
RU198673U1 (ru) | Портативное устройство распознавания речи и звуковых сигналов | |
JPH08116352A (ja) | 情報処理装置 | |
JP2011150657A (ja) | 翻訳音声再生装置およびその再生方法 | |
CN106125922A (zh) | 一种哑语与口语语音图像信息交流系统 | |
CN210606226U (zh) | 一种双模式聋哑人交流设备 | |
US20050129250A1 (en) | Virtual assistant and method for providing audible information to a user | |
KR101906549B1 (ko) | 청각 장애인을 위한 착용형 장치 | |
CN111326175A (zh) | 一种对话者的提示方法及穿戴设备 | |
CN111343420A (zh) | 一种语音增强方法及穿戴设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |