CN108877407A - 用于辅助交流的方法、装置和系统及增强现实眼镜 - Google Patents
用于辅助交流的方法、装置和系统及增强现实眼镜 Download PDFInfo
- Publication number
- CN108877407A CN108877407A CN201810597337.3A CN201810597337A CN108877407A CN 108877407 A CN108877407 A CN 108877407A CN 201810597337 A CN201810597337 A CN 201810597337A CN 108877407 A CN108877407 A CN 108877407A
- Authority
- CN
- China
- Prior art keywords
- sound source
- voice
- text
- hearing
- orientation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000003190 augmentative effect Effects 0.000 title claims abstract description 18
- 239000011521 glass Substances 0.000 title claims abstract description 14
- 208000032041 Hearing impaired Diseases 0.000 claims abstract description 111
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 239000003086 colorant Substances 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 8
- 230000004888 barrier function Effects 0.000 description 6
- 230000008447 perception Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/014—Head-up displays characterised by optical features comprising information/image processing systems
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0141—Head-up displays characterised by optical features characterised by the informative content of the display
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Optics & Photonics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
本发明实施例提供一种用于辅助交流的方法、装置和系统及增强现实眼镜,属于增强现实技术领域。该方法包括:接收至少一个声源的语音;基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;识别所述至少一个声源中的每一声源的语音,以将所述至少一个声源中的每一声源的语音转化成文字;以及显示所述至少一个声源中的每一声源的方位及语音所转化的文字。该装置包括语音接收模块、确定模块、语音识别模块及显示模块。该系统包括上述装置和客户端。该增强现实眼镜包括上述装置。藉此,实现了使得听障人士准确把握声源发出的语音的内容及声源的方位,便于听障人士的沟通和交流。
Description
技术领域
本发明涉及增强现实技术领域,具体地涉及一种用于辅助交流的方法、装置和系统及增强现实眼镜。
背景技术
增强现实(Augmented Reality,AR)技术,是一种通过实时计算影像的位置及角度,在影像上叠加相应的图像、视频、3D模型,进而对虚拟世界与现实世界进行融合的技术。AR客户端可以结合直接存储在其本地的图片识别物料,对用户的线下环境进行实时的图像识别,并在识别出的特定的线下目标在真实场景中的位置上,按照预配置的展示效果增强显示相应的展示数据。随着技术的发展,增强现实技术的应用很广泛,但对于听障人士而言,增强现实技术却没有很好的帮助到他们。
当前,听障人士与健听人沟通主要通过以下两种途径:手语翻译员或佩戴助听器。但是,这两中沟通途径,对听障人士而言都存在一定的问题,尤其是在多人交流的环境条件下。
发明内容
本发明的目的是提供一种用于辅助交流的方法、装置和系统及增强现实眼镜,其可实现使得听障人士准确把握声源发出的语音的内容及声源的方位。
为了实现上述目的,本发明的一个方面提供一种用于辅助听障人士进行交流的方法,该方法包括:接收至少一个声源的语音;基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;识别所述至少一个声源中的每一声源的语音,以将所述至少一个声源中的每一声源的语音转化成文字;以及显示所述至少一个声源中的每一声源的方位及语音所转化的文字。
可选地,该方法还包括:接收文字;将所接收的文字转化为语音;以及播放所转化的语音。
可选地,显示所述至少一个声源中的每一声源的方位及语音所转化的文字的形式为以下任一者:采用预设前景色和预设背景色进行显示及采用预设前景色和预设背景色交替变换颜色的方式显示不同声源对应的方位和文字,其中所述预设前景色与所述预设背景色为不同种颜色。
可选地,所述预设前景色为白色,所述预设背景色为绿色;或所述预设前景色为绿色,所述预设背景色为白色。
可选地,该方法还包括:确定所述听障人士的位置信息;以及向移动终端和/或客户端发送所述位置信息,以使得所述移动终端和/或客户端实时获取所述位置信息。
可选地,在向移动终端和/或客户端发送所述位置信息之前,该方法还包括:接收对联系人的设定,其中所述移动终端和/或客户端为与所选定的联系人对应的移动终端和/或客户端。
相应地,本发明的另一方面提供一种用于辅助听障人士进行交流的装置,该装置包括:语音接收模块,用于接收至少一个声源的语音;确定模块,用于基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;语音识别模块,用于识别所述至少一个声源中的每一声源的语音,以将所述至少一个声源中的每一声源的语音转化成文字;以及显示模块,用于显示所述至少一个声源中的每一声源的方位及语音所转化的文字。
可选地,该装置还包括:文字接收模块,用于接收文字;文字转化模块,用于将所接收的文字转化为语音;以及语音播放模块,用于播放所转化的语音。
可选地,所述显示模块为近眼显示器。
可选地,所述近眼显示器为透视式近眼显示器。
可选地,显示所述至少一个声源中的每一声源的方位及语音所转化的文字的形式为以下任一者:采用预设前景色和预设背景色进行显示及采用预设前景色和预设背景色交替变换颜色的方式显示不同声源对应的方位和文字,其中所述预设前景色与所述预设背景色为不同种颜色。
可选地,所述预设前景色为白色,所述预设背景色为绿色;或所述预设前景色为绿色,所述预设背景色为白色。
可选地,该装置还包括:定位模块,用于确定所述听障人士的位置信息;以及通信模块,用于向移动终端和/或客户端发送所述位置信息,以使得所述移动终端和/或客户端实时获取所述位置信息。
可选地,该装置还包括:联系人设定模块,用于在所述通信模块向移动终端和/或客户端发送所述位置信息之前,接收对联系人的设定,其中所述移动终端和/或客户端为与所选定的联系人对应的移动终端和/或客户端。
此外,本发明的另一方面还提供一种增强现实眼镜,该增强现实眼镜包括上述的装置。
另外,本发明的另一方面还提供一种用于辅助听障人士进行交流的系统,该系统包括:上述的装置;以及客户端。
此外,本发明的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器上述的方法。
通过上述技术方案,显示至少一个声源中的每一声源的语音转化的文字使得听障人士可以明白每一声源的语音的内容;显示至少一个声源中的每一声源的方位,实现了以简单、直观的方式提示听障人士语音的发声位置。如此,使得听障人士在观看“字幕”以理解收听到的语音信息的同时获取类似于常人的对位置的感知,实现了使得听障人士可以明白每个声源发出的语音的内容的同时能够清楚、直观的了解每个声源的方位,如此,使得听障人士准确把握每个声源发出的语音的内容及声源的方位,便于听障人士与他人的沟通和交流。特别地,在存在多个声源的环境下,准确把握每个声源发出的语音的内容及声源的方位,非常有助于听障人士与他人的交流。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的用于辅助听障人士进行交流的方法的流程图;
图2是本发明另一实施例提供的使用箭头表示方向的示例图;
图3是本发明另一实施例提供的方位的示例图;
图4是本发明另一实施例提供的显示一声源的方位及语音转化的文字的示例图;
图5是本发明另一实施例提供的显示多个声源的方位及语音转化的文字的示例图;
图6是本发明另一实施例提供的用于辅助听障人士进行交流的方法的流程图;以及
图7是本发明另一实施例提供的用于辅助听障人士进行交流的装置的结构框图。
附图标记说明
1语音接收模块2确定模块
3语音识别模块4显示模块
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例的一个方面提供一种用于辅助听障人士进行交流的方法。图1是本发明一实施例提供的用于辅助听障人士进行交流的方法的流程图。如图1所示,该方法包括以下步骤。
在步骤S10中,接收至少一个声源的语音。
在步骤S11中,基于接收的至少一个声源中的每一声源的语音,确定至少一个声源中的每一声源的方位。
其中,确定声源的方位可以是基于接收到从声源发出的语音的时间。例如,用于接收至少一个声源的语音的语音接收模块包括多个语音采集模块,该多个语音采集模块被设置在不同的位置,多个语音采集模块接收到从同一声源发出的语音的时间不同。针对至少一个声源中的每一声源,根据语音到达多个语音采集模块的时间的不同,即,根据语音到达多个语音采集模块的时间差,确定声源的方位。可选地,在本发明实施例中,语音采集模块可以是麦克风,该语音接收模块可以是麦克风阵列。例如,麦克风阵列可以包括2、4、6、7或8个麦克风。
可选地,在本发明实施例中,方位的基准点可以根据实际情况进行设置,例如,可以是语音接收模块所在的位置。具体地,可以是多个语音采集模块中的任一语音采集模块,或者还可以是多个语音采集模块的中间位置。另外,当语音接收模块被听障人士佩戴或者距离听障人士的距离不远时,以语音接收模块为基准点,实际即以听障人士为基准点,如此,听障人士可以基于确定出的方位了解声源相对于自己的位置。
可选地,在本发明实施例中,方位可以包括方向和/或距离。可选地,在本发明实施例中,可以采用箭头表示方向,箭头位于一圆周划定的区域内,箭头的起点为该圆周的原点,其中,该原点相当于听障人士所在位置,箭头偏离穿过该圆周的纵轴一角度,如图2所示,图中竖向虚线为穿过圆周的纵轴。此外,以圆周的横轴为基准,如图2所示的横向虚线所示,当箭头位于横轴以上的部分时,表示声源在听障人士的前方;当箭头位于横轴以下的部分时,表示声源在听障人士的后方。例如,以如2所示的方向示例为例,该箭头表示的声源在听障人士的前方。另外,该以箭头表示声源的方向的方式还可以解读为采用时钟来表示方向。其中圆周代表表盘,位于圆周的横轴的上半部分的纵轴表示12点钟方向,根据箭头偏离12点钟的角度确定声源大概在几点钟方向。以图2所示的方向示例为例,箭头表示的声源大概在10点钟方向。另外,在方位包括方向和距离的情况下,可以采用如图3所示的示例表示方位。需要说明的是,显示距离的位置可以根据实际情况进行设定,对此,不进行限制。此外,在方位仅包括距离的情况下,可以仅显示距离。特别地,当基于接收到的语音确定声源来自于听障人士本人时,采用箭头表示声源的方向时,在圆周中心显示“O”或者“●”来表示声源的方向。另外,在本发明实施例中,还可以采用文字描述方位,例如,以图3所示的方位为例,可以显示文字“方向为十点钟方向,距离为50cm”。
在步骤S12中,识别至少一个声源中的每一声源的语音,以将至少一个声源中的每一声源的语音转化成文字。例如,通过语音识别技术来实现将语音转化成文字。
在步骤S13中,显示至少一个声源中的每一声源的方位及语音所转化的文字。其中,显示每一声源的方位及语音转化的文字的示例可以如图4所示。此外,在显示某一声源的语音转化的文字时,若一行不能显示完全所有文字,则可以自动换行显示,或者可以滚动显示。
另外,需要说明的是,图4仅以示例的方式展示了显示方位及语音转化的文字的区域的位置,该两者的显示区域的位置可以根据实际情况进行选择,对于该两者的显示区域的位置不进行限定。此外,显示至少一个声源中的每一声源的方位及语音转化的文字时均可以采用图4所示的示例进行显示。另外,显示多个声源的方位及语音转化的文字时,可以按照声源上下依次排列的方式进行显示,如图5所示。此外,也可以按照声源左右依次排列的方式进行显示,或者采用其他的排列方式进行显示,对此,不进行限制。
可选地,在本发明实施例中,显示方位和文字的方式可以有很多种。例如,采用预设前景色与预设背景色进行显示,其中预设前景色与预设背景色为不同种颜色。比如,预设前景色为白色,预设背景色为黑色,显示黑底白字;或者预设前景色为黑色,预设背景色为白色,显示白底黑字。再比如,预设前景色为白色,预设背景色为绿色,显示绿底白字;或者预设前景色为绿色,预设背景色为白色,显示白底绿字。如此,使得用户可以更加清楚的区分出文字。例如,显示方位和文字的方式还可以是采用预设前景色与预设背景色交替变换颜色的方式显示不同声源对应的方位和文字,即,预设前景色和预设背景色为不同种颜色,根据接收语音的顺序,当所接收的相邻语音所对应的声源为不同声源时,交替变化预设前景色和预设背景色;当所接收的相邻语音所对应的声源为同一声源时,预设前景色和预设背景色不变化颜色。其中,对于预设前景色和预设背景色的颜色,可以根据实际情况进行限定,例如,预设前景色为白色,预设背景色为黑色,显示黑底白字;或者预设前景色为黑色,预设背景色为白色,显示白底黑字;再比如,预设前景色为白色,预设背景色为绿色,显示绿底白字;或者预设前景色为绿色,预设背景色为白色,显示白底绿字。下面示例性地以预设前景色为白色、预设背景色为绿色介绍交替变换预设前景色与预设背景色显示不同声源对应的方位和文字。若某一语音(命名为第一语音,该命名仅为便于叙述,无限定作用)对应于第一声源,显示第一语音转化的文字和第一声源的方位时采用绿底白字;根据接收语音的顺序,第一语音的下一条语音(命名为第二语音)对应的声源与第一声源为不同声源(命名第二语音对应的声源为第二声源),显示第二语音转化的文字和第二声源的方位时采用白底绿字;根据接收语音的顺序,第二语音的下一条语音(命名为第三语音)对应的声源为第二声源,则在显示第三语音转化的文字及第二声源的方位时依旧采用白底绿字;根据接收语音的顺序,第三语音的下一条语音(命名为第四语音)对应的声源与第二声源为不同声源(命名第四语音对应的声源为第三声源,其中第三声源可以是第一声源,也可以是其他声源,只要不是第二声源即可),则在显示第四语音转化的文字及第三声源的方位时采用绿底白字,如此,循环下去,直到所接收到的语音对应的信息全部显示完毕,其中语音对应的信息包括语音转换的文字及语音对应的声源的方位。
显示至少一个声源中的每一声源的语音转化的文字使得听障人士可以明白每一声源的语音的内容;显示至少一个声源中的每一声源的方位,实现了以简单、直观的方式提示听障人士语音的发声位置。如此,使得听障人士在观看“字幕”以理解收听到的语音信息的同时获取类似于常人的对位置的感知,实现了使得听障人士可以明白每个声源发出的语音的内容的同时能够清楚、直观的了解每个声源的方位,如此,使得听障人士准确把握每个声源发出的语音的内容及声源的方位,便于听障人士与他人的沟通和交流。特别地,在存在多个声源的环境下,准确把握每个声源发出的语音的内容及声源的方位,非常有助于听障人士与他人的交流。此外,采用本发明实施例中所述的方法,用户操作体验极轻,完全无需操作技术系统就能够“听”到其能力所不及的信息。另外,需要说明的是,本发明实施例提供的用于辅助听障人士进行交流的方法不仅可以适用于听障人士,也适用于普通人士。
图6是本发明另一实施例提供的用于辅助听障人士进行交流的方法的流程图。与图1所示的方法的不同之处在于,图6所示的方法还包括以下内容。
在步骤S64中,接收文字。其中,听障人士输入文字的方式有很多。例如,连接键盘,使得听障人士通过键盘输入文字。例如,连接交互界面,听障人士可以通过交互界面输入文字。此外,还可以连接客户端,听障人士通过客户端输入文字。可选地,该客户端可以是手机APP。
在步骤S65中,将所接收的文字转化为语音,例如,通过TTS技术实现文字到语音的转化。
在步骤S66中,播放所转化的语音。
如此,当听障人士没有发音能力或者发音能力受限时,使得听障人士可以通过输入文字来表达其意思,与他人进行交流。
需要说明的是,步骤S64-步骤S66也可以在步骤S60-步骤S63之前,对此,不进行限制。
可选地,在本发明实施例中,在接收到至少一个声源的语音和/或接收文字之前,该用于辅助听障人士进行交流的方法还可以包括以下内容:接收对语音所转化成的文字的语言和/或文字所转化成的语音的语言的设定。在该实施例中,“听障人士”可能并非是真正的听力能力受限制的人士,可以是不懂与之交流的他人的语言的“第一视同听障人士”,或者是与之交流的他人不同其语言的“第二视同听障人士”。设定“第一视同听障人士”使用的第一语言,将接收到至少一个声源的语音转化成采用第一语言表达的文字,“第一视同听障人士”通过看转化后的文字明白与之交流的他人讲话的内容。设定与“第二视同听障人士”进行交流的他人使用的第二语言,将“第二视同听障人士”输入的文字转化为采用第二语言进行表达的语音,他人可以通过听语音明白“视同第二听障人士”所要表达的意思。如此,实现了“视同听障人士”与他人之间的交流。
可选地,在本发明实施例中,该用于辅助听障人士进行交流的方法还可以包括以下内容:确定听障人士的位置信息;以及向移动终端和/或客户端发送位置信息,以使得移动终端和/或客户端实时获取位置信息。如此,使得与听障人士的相关的联系人可以通过实时获取听障人士的位置信息,以确认其是否安全,并且可以在出现状况时尽快找到他。其中,在本发明实施例中,可以通过GPS定位技术实时确定听障人士的位置信息。
可选地,在本发明实施例中,在向移动终端和/或客户端发送位置信息之前,该方法还包括:接收对联系人的设定,其中移动终端和/或客户端为与所选定的联系人对应的移动终端和/或客户端。当与听障人士相关的联系人有很多时,在不同的情况下,有的联系人可以在听障人士出现困难时,及时出现在听障人士的身边,以帮助其解决困难,由此,在发送听障人士的位置信息时,可以直接向能及时出现的联系人发送听障人士的位置信息,以使得在听障人士出现困难时,尽快到达听障人士所在地,帮助听障人士解决困难。此外,可以预先设定好与听障人士相关的联系人及其所使用的移动终端和/或客户端的对应关系。
此外,在本发明实施例中,该用于辅助听障人士进行交流的方法还可以包括以下内容:根据接收语音的顺序,记录各个声源对应的方位和文字,将各个声源对应的方位和文字存储在本地端或云端,以进一步帮助听障人士的记忆及事后分享。
相应地,本发明实施例的另一方面提供一种用于辅助听障人士进行交流的装置。图7是本发明另一实施例提供的用于辅助听障人士进行交流的装置。如图7所示,该装置包括语音接收模块1、确定模块2、语音识别模块3和显示模块4。其中,语音接收模块1用于接收至少一个声源的语音。确定模块2用于基于接收的至少一个声源中的每一声源的语音,确定至少一个声源中的每一声源的方位。语音识别模块3用于识别至少一个声源中的每一声源的语音,以将至少一个声源中的每一声源的语音转化成文字。显示模块4用于显示至少一个声源中的每一声源的方位及语音所转化的文字。
显示至少一个声源中的每一声源的语音转化的文字使得听障人士可以明白每一声源的语音的内容;显示至少一个声源中的每一声源的方位,实现了以简单、直观的方式提示听障人士语音的发声位置。如此,使得听障人士在观看“字幕”以理解收听到的语音信息的同时获取类似于常人的对位置的感知,实现了使得听障人士可以明白每个声源发出的语音的内容的同时能够清楚、直观的了解每个声源的方位,如此,使得听障人士准确把握每个声源发出的语音的内容及声源的方位,便于听障人士与他人的沟通和交流。特别地,在存在多个声源的环境下,准确把握每个声源发出的语音的内容及声源的方位,非常有助于听障人士与他人的交流。另外,需要说明的是,本发明实施例提供的用于辅助听障人士进行交流的方法不仅可以适用于听障人士,也适用于普通人士。
可选地,在本发明实施例中,该用于辅助听障人士进行交流的装置还包括文字接收模块,用于接收文字;文字转化模块,用于将所接收的文字转化为语音;以及语音播放模块,用于播放所转化的语音。
可选地,在本发明实施例中,显示模块可以是近眼显示器。其中,该近眼显示器距离眼球的距离可以小于2cm。此外,近眼显示器可以包括可透视的近眼显示器或不可透视的近眼显示器。如此,实现了将每一声源的方位和发出的语音转化的文字呈现在眼前。优选地,在本发明实施例中,显示模块可以是透视式近眼显示器。如此,实现了在不影响听障人士观察其他事物的同时,使得听障人士可以通过观看“字幕”了解每一声源的方位和发出的语音转化的文字。
可选地,在本发明实施例中,该装置还包括:定位模块,用于确定听障人士的位置信息;以及通信模块,用于向移动终端和/或客户端发送位置信息,以使得移动终端和/或客户端实时获取所述位置信息。
可选地,在本发明实施例中,该装置还包括:联系人设定模块,用于在通信模块向移动终端和/或客户端发送所述位置信息之前,接收对联系人的设定,其中移动终端和/或客户端为与所选定的联系人对应的移动终端和/或客户端。
此外,在本发明实施例中,该用于辅助听障人士进行交流的装置还包括存储模块。该存储模块用于根据接收语音的顺序,记录各个声源对应的方位和文字,以进一步帮助听障人士的记忆及事后分享。其中,该存储模块记录各个声源对应的方位和文字可以是将各个声源对应的方位和文字存储在本地端或云端。
本发明实施例提供的用于辅助听障人士进行交流的装置的具体工作原理及益处与本发明实施例提供的用于辅助听障人士进行交流的方法的具体工作原理及益处相似,这里将不再赘述。
另外,本发明实施例的另一方面提供一种用于辅助听障人士进行交流的系统,该系统包括:上述实施例中所述的装置以及客户端。其中,该客户端可以接收用户输入的文字;和/或可以接收听障人士的位置信息。
此外,本发明实施例的另一方面提供一种增强现实眼镜。该增强现实眼镜包括上述实施例中所述的装置。
其中,该增强现实眼镜包括支持上述实施例中所述的装置运行的电子电路系统,该电子电路系统包括电源、处理器、网络连接等模块以及语音接收模块、文字接收模块和语音播放模块。此外,该电子电路系统还可以包括外部可见的人-机界面模块以及按钮和/或触摸控制板。其中,处理器包括上述实施例中所述的确定模块、语音识别模块和文字转化模块。人-机界面模块包括显示模块。处理器还可以实现在本地进行离线语音识别,也可以实现经由网络连接在云端进行在线语音识别。
可选地,在本发明实施例中,触摸控制板、按钮和/或语音接收模块可以被设置在增强现实眼镜的眼镜或者眼镜附件上,例如,设置在镜腿、镜框或者镜片上。可选地,在本发明实施例中,语音接收模块可以被设置在镜框上、同一镜腿上或者不同镜腿上,或者是接近于耳部(双耳或单耳)的位置上,达到极尽拟合耳部的效果。例如,在语音接收模块为麦克风阵列且麦克分阵列包括两个麦克风的情况下,该两个麦克风分别设置两个镜框上,或者被设置在同一镜腿的不同位置上,或者被分别设置在两个镜腿上。当麦克风阵列包括的麦克风的数量大于2时,也可以根据实际情况将多个麦克风分别设置在镜框和/或镜腿上等。另外,使用麦克风阵列时,语音到达麦克风阵列中的每个麦克风的时间和强度均存在差异,通过对差异进行计算可以得到更加便于处理的清晰声音。此外,相比于采用单体麦克风或者降噪麦克风,使用麦克风阵列具有十分重要的意义,使用麦克风阵列可以不要求声源距离语音接收模块的距离。并且,使用麦克风阵列可以适应各种距离,能够满足多数交流场景下的要求,其中,该距离指的是声源距离麦克风阵列的距离。例如可以满足以下交流场景的要求:两人单独对话,声源距离语音接收模块的距离在50cm与1m之间;多人小组对话,声源距离语音接收模块的距离在1m与2m之间;会议,声源距离语音接收模块的距离为3m;上课,声源距离语音接收模块的距离在3m到5m,等等。
此外,在显示模块为近眼显示器的情况下,实现了将每一声源的方位和发出的语音转化的文字呈现在眼前。其中,近眼显示器可以是可透视的,也可以是不可透视的。进一步地,在近眼显示器为透视式近眼显示器的情况下,实现了在不影响听障人士观察显示场景的同时,透过叠加于现实场景的图示化指示,使得听障人士可以实时看到每一声源的方位和发出的语音转化的文字,使得听障人士在观看“字幕”以理解收听到的语音信息的并获取类似于常人的对位置的感知。此外,考虑到避免听障人士注意力分散,近眼显示器可以是单色显示器,采用预设背景色和预设前景色显示声源对应的方位及文字。另外,近眼显示器也可以是彩色显示器,采用背景色和前景色交替变换的形式显示不同声源对应的方位和文字,具体变换方式可以参见上述实施例中所述的内容,如此,也可以充分避免听障人士注意力分散,使得听障人士专注于内容本身;同时使得听障人士可以进行正常的实景交流,而不会产生被打断及需要转换注意力焦点的不适。
另外,本发明实施例的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述实施例中所述的方法。
综上所述,显示至少一个声源中的每一声源的语音转化的文字使得听障人士可以明白每一声源的语音的内容;显示至少一个声源中的每一声源的方位,实现了以简单、直观的方式提示听障人士语音的发声位置。如此,使得听障人士在观看“字幕”以理解收听到的语音信息的同时获取类似于常人的对位置的感知,实现了使得听障人士可以明白每个声源发出的语音的内容的同时能够清楚、直观的了解每个声源的方位,如此,使得听障人士准确把握每个声源发出的语音的内容及声源的方位,便于听障人士与他人的沟通和交流。特别地,在存在多个声源的环境下,准确把握每个声源发出的语音的内容及声源的方位,非常有助于听障人士与他人的交流。将听障人士输入的文字转化成语音并播放转化的语音,如此,当听障人士没有发音能力或者发音能力受限时,使得听障人士可以通过输入文字来表达其意思,与他人进行交流。此外,将接收的语音转化成使用“视同听障人士”使用的语言表达的文字和/或将“视同听障人士”输入的文字转化成使用与“视同听障人士”沟通的他人使用的语言表达的语音,如此,实现了“视同听障人士”与他人之间的交流。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (17)
1.一种用于辅助听障人士进行交流的方法,其特征在于,该方法包括:
接收至少一个声源的语音;
基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;
识别所述至少一个声源中的每一声源的语音,以将所述至少一个声源中的每一声源的语音转化成文字;以及
显示所述至少一个声源中的每一声源的方位及语音所转化的文字。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
接收文字;
将所接收的文字转化为语音;以及
播放所转化的语音。
3.根据权利要求1或2所述的方法,其特征在于,显示所述至少一个声源中的每一声源的方位及语音所转化的文字的形式为以下任一者:采用预设前景色和预设背景色进行显示及采用预设前景色和预设背景色交替变换颜色的方式显示不同声源对应的方位和文字,其中所述预设前景色与所述预设背景色为不同种颜色。
4.根据权利要求3所述的方法,其特征在于,
所述预设前景色为白色,所述预设背景色为绿色;或
所述预设前景色为绿色,所述预设背景色为白色。
5.根据权利要求1或2所述的方法,其特征在于,该方法还包括:
确定所述听障人士的位置信息;以及
向移动终端和/或客户端发送所述位置信息,以使得所述移动终端和/或客户端实时获取所述位置信息。
6.根据权利要求5所述的方法,其特征在于,在向移动终端和/或客户端发送所述位置信息之前,该方法还包括:接收对联系人的设定,其中所述移动终端和/或客户端为与所选定的联系人对应的移动终端和/或客户端。
7.一种用于辅助听障人士进行交流的装置,其特征在于,该装置包括:
语音接收模块,用于接收至少一个声源的语音;
确定模块,用于基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;
语音识别模块,用于识别所述至少一个声源中的每一声源的语音,以将所述至少一个声源中的每一声源的语音转化成文字;以及
显示模块,用于显示所述至少一个声源中的每一声源的方位及语音所转化的文字。
8.根据权利要求7所述的装置,其特征在于,该装置还包括:
文字接收模块,用于接收文字;
文字转化模块,用于将所接收的文字转化为语音;以及
语音播放模块,用于播放所转化的语音。
9.根据权利要求7所述的装置,其特征在于,所述显示模块为近眼显示器。
10.根据权利要求9所述的装置,其特征在于,所述近眼显示器为透视式近眼显示器。
11.根据权利要求7-10中任一项所述的装置,其特征在于,显示所述至少一个声源中的每一声源的方位及语音所转化的文字的形式为以下任一者:采用预设前景色和预设背景色进行显示及采用预设前景色和预设背景色交替变换颜色的方式显示不同声源对应的方位和文字,其中所述预设前景色与所述预设背景色为不同种颜色。
12.根据权利要求11所述的装置,其特征在于,
所述预设前景色为白色,所述预设背景色为绿色;或
所述预设前景色为绿色,所述预设背景色为白色。
13.根据权利要求7-10中任一项所述的装置,其特征在于,该装置还包括:
定位模块,用于确定所述听障人士的位置信息;以及
通信模块,用于向移动终端和/或客户端发送所述位置信息,以使得所述移动终端和/或客户端实时获取所述位置信息。
14.根据权利要求13所述的装置,其特征在于,该装置还包括:
联系人设定模块,用于在所述通信模块向移动终端和/或客户端发送所述位置信息之前,接收对联系人的设定,其中所述移动终端和/或客户端为与所选定的联系人对应的移动终端和/或客户端。
15.一种增强现实眼镜,其特征在于,该增强现实眼镜包括权利要求7-14中任一项所述的装置。
16.一种用于辅助听障人士进行交流的系统,其特征在于,该系统包括:
权利要求7-14中任一项所述的装置;以及
客户端。
17.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-6中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810597337.3A CN108877407A (zh) | 2018-06-11 | 2018-06-11 | 用于辅助交流的方法、装置和系统及增强现实眼镜 |
PCT/CN2018/092815 WO2019237429A1 (zh) | 2018-06-11 | 2018-06-26 | 用于辅助交流的方法、装置和系统及增强现实眼镜 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810597337.3A CN108877407A (zh) | 2018-06-11 | 2018-06-11 | 用于辅助交流的方法、装置和系统及增强现实眼镜 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108877407A true CN108877407A (zh) | 2018-11-23 |
Family
ID=64337787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810597337.3A Pending CN108877407A (zh) | 2018-06-11 | 2018-06-11 | 用于辅助交流的方法、装置和系统及增强现实眼镜 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108877407A (zh) |
WO (1) | WO2019237429A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111343554A (zh) * | 2020-03-02 | 2020-06-26 | 开放智能机器(上海)有限公司 | 一种视觉与语音结合的助听方法及系统 |
WO2023071155A1 (zh) * | 2021-10-25 | 2023-05-04 | 北京亮亮视野科技有限公司 | 助听控制方法、装置、助听设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049077A (zh) * | 2011-10-14 | 2013-04-17 | 鸿富锦精密工业(深圳)有限公司 | 声音反馈装置及其工作方法 |
CN103869470A (zh) * | 2012-12-18 | 2014-06-18 | 精工爱普生株式会社 | 显示装置及其控制方法、头戴式显示装置及其控制方法 |
CN105554662A (zh) * | 2015-06-30 | 2016-05-04 | 宇龙计算机通信科技(深圳)有限公司 | 一种助听眼镜及助听方法 |
CN206178272U (zh) * | 2016-10-12 | 2017-05-17 | 语联网(武汉)信息技术有限公司 | 一种眼镜外接多语智能设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5286667B2 (ja) * | 2006-02-22 | 2013-09-11 | コニカミノルタ株式会社 | 映像表示装置、及び映像表示方法 |
US8183997B1 (en) * | 2011-11-14 | 2012-05-22 | Google Inc. | Displaying sound indications on a wearable computing system |
CN106092118A (zh) * | 2016-08-18 | 2016-11-09 | 安玉 | 基于北斗卫星导航系统的老人安全助行监测器 |
CN107223277A (zh) * | 2016-12-16 | 2017-09-29 | 深圳前海达闼云端智能科技有限公司 | 一种聋哑人辅助方法、装置以及电子设备 |
CN106686223A (zh) * | 2016-12-19 | 2017-05-17 | 中国科学院计算技术研究所 | 聋哑人与正常人的辅助对话系统、方法及智能手机 |
-
2018
- 2018-06-11 CN CN201810597337.3A patent/CN108877407A/zh active Pending
- 2018-06-26 WO PCT/CN2018/092815 patent/WO2019237429A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049077A (zh) * | 2011-10-14 | 2013-04-17 | 鸿富锦精密工业(深圳)有限公司 | 声音反馈装置及其工作方法 |
CN103869470A (zh) * | 2012-12-18 | 2014-06-18 | 精工爱普生株式会社 | 显示装置及其控制方法、头戴式显示装置及其控制方法 |
CN105554662A (zh) * | 2015-06-30 | 2016-05-04 | 宇龙计算机通信科技(深圳)有限公司 | 一种助听眼镜及助听方法 |
CN206178272U (zh) * | 2016-10-12 | 2017-05-17 | 语联网(武汉)信息技术有限公司 | 一种眼镜外接多语智能设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111343554A (zh) * | 2020-03-02 | 2020-06-26 | 开放智能机器(上海)有限公司 | 一种视觉与语音结合的助听方法及系统 |
WO2023071155A1 (zh) * | 2021-10-25 | 2023-05-04 | 北京亮亮视野科技有限公司 | 助听控制方法、装置、助听设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019237429A1 (zh) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962254A (zh) | 用于辅助听障人士的方法、装置和系统及增强现实眼镜 | |
US9128520B2 (en) | Service provision using personal audio/visual system | |
US9519640B2 (en) | Intelligent translations in personal see through display | |
CN109032545A (zh) | 用于提供声源信息的方法和装置及增强现实眼镜 | |
US20200134026A1 (en) | Natural language translation in ar | |
US20200058302A1 (en) | Lip-language identification method and apparatus, and augmented reality device and storage medium | |
CN112764549B (zh) | 翻译方法、装置、介质和近眼显示设备 | |
CN111654715A (zh) | 直播的视频处理方法、装置、电子设备及存储介质 | |
US20240249482A1 (en) | Non-uniform stereo rendering | |
TW202205176A (zh) | 用於在現實場景中疊加直播人物影像的方法和電子設備 | |
CN109061903A (zh) | 数据显示方法、装置、智能眼镜及存储介质 | |
JP2020136921A (ja) | ビデオ通話システム、およびコンピュータプログラム | |
KR101912083B1 (ko) | 음성인식 인공지능 스마트 미러 tv 시스템 | |
CN112887654A (zh) | 一种会议设备、会议系统及数据处理方法 | |
CN108877407A (zh) | 用于辅助交流的方法、装置和系统及增强现实眼镜 | |
JPWO2019155735A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN116433810A (zh) | 服务器、显示设备以及虚拟数字人交互方法 | |
JP2019057047A (ja) | 表示制御システム、表示制御方法及びプログラム | |
CN213876195U (zh) | 一种眼镜框架及智能导航眼镜 | |
CN210402777U (zh) | 一种虚拟现实教学设备 | |
CN107608513B (zh) | 一种穿戴式设备及数据处理方法 | |
CN109254418A (zh) | 一种用于失聪人群的眼镜 | |
CN108899029A (zh) | 专注于单一声源的语音的方法、装置和系统 | |
JP6467922B2 (ja) | 頭部装着型表示装置、頭部装着型表示装置の制御方法、情報システム、および、コンピュータープログラム | |
CN114630085A (zh) | 图像投影方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |