CN108899029A - 专注于单一声源的语音的方法、装置和系统 - Google Patents
专注于单一声源的语音的方法、装置和系统 Download PDFInfo
- Publication number
- CN108899029A CN108899029A CN201810597338.8A CN201810597338A CN108899029A CN 108899029 A CN108899029 A CN 108899029A CN 201810597338 A CN201810597338 A CN 201810597338A CN 108899029 A CN108899029 A CN 108899029A
- Authority
- CN
- China
- Prior art keywords
- sound source
- orientation
- voice
- absorbed
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000003190 augmentative effect Effects 0.000 claims abstract description 11
- 239000011521 glass Substances 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 208000032041 Hearing impaired Diseases 0.000 abstract description 50
- 238000004891 communication Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004888 barrier function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 206010011891 Deafness neurosensory Diseases 0.000 description 1
- 235000013290 Sagittaria latifolia Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 235000015246 common arrowhead Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 208000025301 tympanitis Diseases 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例提供一种专注于单一声源的语音的方法、装置和系统,属于增强现实技术领域。该方法包括:接收至少一个声源的语音;基于接收的至少一个声源中的每一声源的语音,确定至少一个声源中的每一声源的方位;接收基于至少一个声源的方位而对至少一个声源中的一者的选定;以及显示与选定的该一者对应的信息,其中与选定的该一者对应的信息包括从选定的该一者发出的语音转化的文字。该装置包括语音接收模块、确定模块、声源选定模块及显示模块。该系统包括上述的装置。藉此,实现了使得听障人士及时明白他人讲话内容,并且可以使得听障人士专注于某一声源,提高了听障人士的沟通效率及生活便利性。
Description
技术领域
本发明涉及增强现实技术领域,具体地涉及一种专注于单一声源的语音的方法、装置和系统。
背景技术
增强现实(Augmented Reality,AR)技术,是一种通过实时计算影像的位置及角度,在影像上叠加相应的图像、视频、3D模型,进而对虚拟世界与现实世界进行融合的技术。AR客户端可以结合直接存储在其本地的图片识别物料,对用户的线下环境进行实时的图像识别,并在识别出的特定的线下目标在真实场景中的位置上,按照预配置的展示效果增强显示相应的展示数据。随着技术的发展,增强现实技术的应用很广泛,但对于听障人士而言,增强现实技术却没有很好的帮助到他们。
当前,听障人士与健听人沟通主要通过以下两种途径:手语翻译员或佩戴助听器。但是,目前手语翻译员人才十分稀缺,聘用专职手语翻译员花费较大,一般听障人士很难承担。而且,大多数交流场景都是随机出现的,很难保证手语翻译员及时出现在听障人士身边。另外,对于不同的听障人士,助听器的效果不尽相同,佩戴助听器对于神经性耳聋患者效果甚微。并且,长久佩戴助听器会导致耳朵很不舒服,还有可能引发中耳炎等不良后果。因此,这两种沟通途径,对于听障人士而言,都存在一定的问题。
发明内容
本发明的目的是提供一种专注于单一声源的语音的方法、装置和系统,其可实现使得听障人士可以及时明白他人讲话内容并专注于某一声源,提高听障人士的沟通效率及生活便利性。
为了实现上述目的,本发明的一个方面提供一种用于专注于单一声源的语音的方法,该方法包括:接收至少一个声源的语音;基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定;以及显示与选定的该一者对应的信息,其中所述与选定的该一者对应的信息包括从选定的该一者发出的语音转化的文字。
可选地,在接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定之前,该方法还包括:显示与所述至少一个声源中的每一声源的方位相关的信息。
可选地,所述与所述至少一个声源中的每一声源的方位相关的信息包括以下一者或多者:所述至少一个声源中的每一声源的方位以及序号。
可选地,在显示与选定的该一者对应的信息之后,该方法还包括:接收切换指令,该切换指令指示切换至另一选定声源;以及执行切换,并显示与所述另一选定声源对应的信息,该信息包括从该另一选定声源发出的语音转化的文字。
可选地,所述与选定的该一者对应的信息还包括以下一者或多者:选定的该一者的方位以及专注标识。
可选地,所述方位包括方向和/或距离。
相应地,本发明的另一方面提供一种用于专注于单一声源的语音的装置,该装置包括:语音接收模块,用于接收至少一个声源的语音;确定模块,用于基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;声源选定模块,用于接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定;以及显示模块,用于显示与选定的该一者对应的信息,其中所述与选定的该一者对应的信息包括从选定的该一者发出的语音转化的文字。
可选地,所述显示模块还用于在接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定之前,显示与所述至少一个声源中的每一声源的方位相关的信息。
可选地,所述与所述至少一个声源中的每一声源的方位相关的信息包括以下一者或多者:所述至少一个声源中的每一声源的方位以及序号。
可选地,该装置还包括:切换指令接收模块,用于所述显示模块显示与选定的该一者对应的信息之后,接收切换指令,该切换指令指示切换至另一选定声源;以及切换模块,用于在所述切换指令接收模块接收到切换指令的情况下,执行切换;所述显示模块还用于在所述切换模块执行切换的情况下,显示与所述另一选定声源对应的信息,该信息包括从该另一选定声源发出的语音转化的文字。
可选地,所述与选定的该一者对应的信息还包括以下一者或多者:选定的该一者的方位以及专注标识。
可选地,所述方位包括方向和/或距离。
此外,本发明的另一方面还提供一种用于专注于单一声源的语音的系统,该系统包括上述的装置。
可选地,所述系统为增强现实眼镜或智能音箱。
另外,本发明的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的方法。
通过上述技术方案,将从至少一个声源中选定的一者中发出的语音转化的文字显示出来,使得听障人士看到,如此,使得听障人士通过视觉了解其想要了解的讲话内容,实现了使得听障人士及时明白他人讲话内容,并且可以使得听障人士专注于某一声源,提高了听障人士的沟通效率及生活便利性。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的用于专注于单一声源的语音的方法的流程图;
图2是本发明另一实施例提供的使用箭头表示方向的示例图;
图3是本发明另一实施例提供的方位的示例图;
图4是本发明另一实施例提供的显示与选定的一者对应的信息的示例图;
图5是本发明另一实施例提供的用于专注于单一声源的语音的方法的流程图;
图6是本发明另一实施例提供的显示与至少一个声源中的每一声源的方位相关的信息的示例图;
图7是本发明另一实施例提供的显示信息的示例图;
图8是本发明另一实施例提供的用于专注于单一声源的语音的方法的流程图;以及
图9是本发明另一实施例提供的用于专注于单一声源的语音的装置的结构框图。
附图标记说明
1 语音接收模块 2 确定模块
3 声源选定模块 4 显示模块
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例的一个方面提供一种用于专注于单一声源的语音的方法。图1是本发明一实施例提供的用于专注于单一声源的语音的方法的流程图。如图1所示,该方法包括以下步骤。
在步骤S10中,接收至少一个声源的语音。
在步骤S11中,基于接收的至少一个声源中的每一声源的语音,确定至少一个声源中的每一声源的方位。其中,确定声源的方位可以是基于接收到从声源发出的语音的时间。例如,用于接收至少一个声源的语音的语音接收模块包括多个语音采集模块,该多个语音采集模块被设置在不同的位置,多个语音采集模块接收到从同一声源发出的语音的时间不同。针对至少一个声源中的每一声源,根据语音到达多个语音采集模块的时间的不同,即,根据语音到达多个语音采集模块的时间差,确定声源的方位。可选地,在本发明实施例中,语音采集模块可以是麦克风,该语音接收模块可以是麦克风阵列。例如,麦克风阵列可以包括2、4、6、7或8个麦克风。可选地,在本发明实施例中,方位的基准点可以根据实际情况进行设置,例如,可以是语音接收模块所在的位置。具体地,可以是多个语音采集模块中的任一语音采集模块,或者还可以是多个语音采集模块的中间位置。另外,当语音接收模块被听障人士佩戴或者距离听障人士的距离不远时,以语音接收模块为基准点,实际即以听障人士为基准点,如此,听障人士可以基于确定出的方位了解声源相对于自己的位置。可选地,在本发明实施例中,方位可以包括方向和/或距离。
在步骤S12中,接收基于至少一个声源的方位而对至少一个声源中的一者的选定,进入专注于单一声源的专注模式。在确定出至少一个声源中的每一声源的方位后,听障人士可根据所确定出的方位,选择至少一个声源中的一者。
在步骤S13中,显示与选定的一者对应的信息,其中与选定的该一者对应的信息包括从选定的一者发出的语音转化的文字。其中,将从声源发出的语音转化为文字可以通过语音识别技术来实现。可选地,在本发明实施例中,可以采用预设前景色与预设背景色显示文字,其中预设前景色与预设背景色为不同种颜色。比如,预设前景色为白色,预设背景色为黑色,显示黑底白字;或者预设前景色为黑色,预设背景色为白色,显示白底黑字。再比如,预设前景色为白色,预设背景色为绿色,显示绿底白字;或者预设前景色为绿色,预设背景色为白色,显示白底绿字。如此,使得听障人士可以更加清楚的区分出文字。此外,在显示文字时,若一行不能显示完全部文字则可以自动换行显示,或者可以滚动显示。
可选地,在本发明实施例中,与选定的该一者对应的信息还可以包括以下一者或多者:选定的该一者的方位及专注标识。其中,该专注标识标明选定的该一者的序号及至少一个声源的总数。可选地,在本发明实施例中,方位可以包括方向和/或距离,方位的基准点可以根据实际情况进行设定,如上述中所述。另外,在本发明实施例中可以采用箭头表示方向,箭头位于一圆周划定的区域内,箭头的起点为该圆周的原点,其中,该原点相当于听障人士所在位置,箭头偏离穿过该圆周的纵轴一角度,如图2所示,图中虚线为穿过圆周的纵轴。此外,以圆周的横轴为基准,如图2所示的横向虚线所示,当箭头位于横轴以上的部分时,表示声源在听障人士的前方;当箭头位于横轴以下的部分时,表示声源在听障人士的后方。例如,以如2所示的方向示例为例,该箭头表示的声源在听障人士的前方。另外,该以箭头表示声源的方向的方式还可以解读为采用时钟来表示方向。其中圆周代表表盘,位于圆周的横轴的上半部分的纵轴表示12点钟方向,根据箭头偏离12点钟的角度确定声源大概在几点钟方向。以图2所示的方向示例为例,箭头表示的声源大概在10点钟方向。另外,在方位包括方向和距离的情况下,可以采用如图3所示的示例表示方位。需要说明的是,显示距离的位置可以根据实际情况进行设定,对此,不进行限制。此外,在方位仅包括距离的情况下,可以仅显示距离。另外,在本发明实施例中,还可以采用文字描述方位,例如,以图3所示的方位为例,可以显示文字“方向为十点钟方向,距离为50cm”。
在与选定的该一者对应的信息包括从选定的该一者发出的语音转化的文字、选定的该一者的方位及专注标识且总共包括3个声源的情况下,显示示例可以如图4所示。其中,如图4所示,“1/3”为专注标识。另外,需要说明的是,图4仅以示例的方式显示方位、专注标识及从选定的一者发出的语音转化的文字的区域的位置,该三者的显示区域的位置可以根据实际情况进行选择,对于该三者的显示区域的位置不进行限定。
将从至少一个声源中选定的一者中发出的语音转化的文字显示出来,使得听障人士看到,如此,使得听障人士通过视觉了解其想要了解的讲话内容,实现了使得听障人士及时明白他人讲话内容,并且可以使得听障人士专注于某一声源,提高了听障人士的沟通效率及生活便利性。另外,需要说明的是,本发明实施例提供的用于专注于单一声源的语音的方法不仅可以适用于听障人士,也适用于普通人士。
图5是本发明另一实施例提供的用于专注于单一声源的语音的方法的流程图。与图1所示的方法的不同之处在于,该方法还包括以下步骤。
在步骤S52中,显示与至少一个声源中的每一声源的方位相关的信息。其中,该步骤在步骤S53之前,即在接收基于至少一个声源的方位而对至少一个声源中的一者的断定之前。可选地,在本发明实施例中,与至少一个声源中的每一声源的方位相关的信息可以包括以下一者或多者:至少一个声源中的每一声源的方位及序号。其中,方位可以包括方向和/或距离,序号代表了接收至少一个声源中的每一声源发出的语音的顺序。以至少一个声源包括3个声源、方位包括方向和距离、采用箭头表示方向为例,显示与至少一个声源中的每一声源的方位相关的信息的示例可以如图6所示。
另外,当在显示模块上显示了与至少一个声源中的每一声源的方位相关的信息后,听障人士看到了与每一声源的方位相关的信息后,选择至少一个声源中的一者,以期望进一步了解所选择的该一者的相关信息。具体地,听障人士选择至少一个声源中的一者的方式可以包括以下内容:设置一触摸控制板,该触摸控制板用于控制显示模块上的显示与声源方位相关的信息的区域(如图6中的每一虚线框内的区域)移动,听障人士通过在触摸控制板上述左右滑动或者上下滑动来控制显示模块上的区域的移动;在显示模块上设置一个预设区域,当通过在触摸控制板左右滑动或者上下滑动,将显示与想选择的声源的方位相关的信息的区域移动至该预设区域时,即为选了该想选择的声源。其中,该预设区域的颜色与显示模块上的其他区域的颜色不同。例如,该预设区域的前景色与背景色与显示与至少一个声源中的每一声源的方位相关的信息的区域的前景色与背景色的颜色相反,比如,显示与至少一个声源中的每一声源的方位相关的信息的区域采用白底绿字,则预设区域采用绿底白字。
此外,在显示模块上,除显示与至少一个声源中的每一声源的方位相关的信息以外,还可以显示解除专注模式符号,例如,该解除专注模式符号可以是“X”、“*”、“#”,如图7所示,在图7中采用“X”为解除专注模式。当显示解除专注模式符号的区域被选中时,则退出专注模式。例如,结合图7来说明退出专注模式的情况。例如,序号为1的声源被选中,显示与序号为1的声源的方位相关的信息的区域被反色显示,即该区域和显示与序号为2的声源的方位相关的信息的区域及显示与序号为3的声源的方位相关的信息的区域的背景色和前景色相反。选中显示“X”的区域后,显示与序号为1的声源的方位相关的信息的区域不再被反色显示,即,该区域和和显示与序号为2的声源的方位相关的信息的区域及显示与序号为3的声源的方位相关的信息的区域的背景色和前景色相同。其中,选中显示解除专注模式符号区域的方式可以采用上述中的滑动触摸控制板的方式来实现。
另外,在本发明实施例中,在某一区域被选定后,可以直接进入下一操作。例如,在接收到对至少一个声源中的一者的选定后,就显示与选定的该一者的对应的信息。此外,还可以是,在某一区域被选定后,在接收到确定指令的情况下,进入下一操作。例如,在接收到对至少一个声源中的一者的选定后,在接收到确定指令的情况下,显示与选定的该一者对应的信息。其中,对于输入确定指令,可以设置一个按钮,听障人士通过按下按钮输入确定指令;还可以是听障人士通过单击或者双击上述实施例中所述的触摸控制板来输入确定指令。
图8是本发明另一实施例提供的用于专注于单一声源的语音的方法的流程图。与图1所示的方法的不同之处在于,图8所示的方法还包括以下内容。
在步骤S84中,接收切换指令,该切换指令指示切换至另一选定声源。其中对于输入切换指令,可以设置一个按钮,听障人士通过按下按钮输入切换指令;还可以是设置一触摸控制板,听障人士通过单击或者双击该触摸控制板来输入确定指令。
在步骤S85中,执行切换,并显示与另一选定声源对应的信息,其中与另一选定声源对应的信息包括从该另一选定声源发出的语音转化的文字。可选地,与另一选定声源对应的信息还可以包括该另一选定声源的方位及专注标识。关于与另一选定声源对应的信息的解释可以参见上述实施例中所述的与选定的一者对应的信息的解释。可选地,在本发明实施例中,执行切换包括以下内容:接收基于至少一个声源的方位而对至少一个声源中的另一声源的选定。可选地,在本发明实施例中,执行切换还可以包括以下内容:在接收基于至少一个声源的方位而对至少一个声源中的另一声源的选定之前,显示与至少一个声源中的每一声源的方位相关的信息。其中,该处所述的显示与至少一个声源中的每一声源的方位相关的信息与依据图3解释的显示与至少一个声源中的每一声源的方位相关的信息相同,具体解释可参见依据图3进行的解释。此外,对于至少一个声源中的另一声源的选定也可以参见上述中的对于至少一个声源中的一者的选定,这里将不再赘述。另外,在另一声源被选定后,可以直接进入下一操作,也可以是在接收到确定指令的情况下,进入下一操作,这部分内容与上述的至少一个声源中的一者被选定后的内容相同,可以参见上述解释,这里将不再赘述。
此外,在本发明实施例中,听障人士可以通过同一按钮或者同一触摸控制板来输入确定指令或者切换指令,即,设置一个按钮或者触摸控制板,既可以实现输入切换指令也可以实现输入确定指令,只不过是根据按钮被按下或者触摸控制板被单击或者双击前的步骤不同,将要进入的操作不同。例如,在接收到对至少一个声源中的一声源的选定的情况下,按钮被按下或者触摸控制板被单击或双击,此时表示输入的是确定指令,接下来执行的操作是显示与选定的该一者对应的信息;在显示与选定的一者对应的信息后,按钮被按下或者触摸控制板被单击或者被双击,此时表示输入的是切换指令,接下来执行的操作是执行切换并显示与另一选定声源对应的信息。
另外,需要说明的是,在显示与另一选定声源对应的信息后,当听障人士想要了解至少一个声源中的再一选定声源对应的信息时,可以继续通过输入切换指令的方式进行,对于该用于专注于单一声源的方法所执行的操作可以参见上述实施例中所述的从显示与选定的该一者对应的信息至显示与另一选定声源对应的信息的相关操作,这里将不再赘述。
相应地,本发明实施例的另一方面提供一种用于专注于单一声源的语音的装置。图9是本发明另一实施例提供的用于专注于单一声源的语音的装置的结构框图。如图9所示,该装置包括语音接收模块1、确定模块2、声源选定模块3和显示模块4。其中,语音接收模块1用于接收至少一个声源的语音。确定模块2用于基于接收的至少一个声源中的每一声源的语音,确定至少一个声源中的每一声源的方位。声源选定模块3用于接收基于至少一个声源的方位而对至少一个声源中的一者的选定。显示模块4用于显示与选定的该一者对应的信息,其中与选定的该一者对应的信息包括从选定的该一者发出的语音转化的文字。可选地,在本发明实施例中,显示模块可以是近眼显示器,如此,实现了将从选定的该一者发出的语音转化的文字呈现在眼前。优选地,在本发明实施例中,该近眼显示器是透视式近眼显示器,如此,实现了在不影响听障人士观察其他事物的同时,使得听障人士可以通过观看“字幕”理解收听到的语音信息。
将从至少一个声源中选定的一者中发出的语音转化的文字显示出来,使得听障人士看到,如此,使得听障人士通过视觉了解其想要了解的讲话内容,实现了使得听障人士及时明白他人讲话内容,并且可以使得听障人士专注于某一声源,提高了听障人士的沟通效率及生活便利性。另外,需要说明的是,本发明实施例提供的用于专注于单一声源的语音的方法不仅可以适用于听障人士,也适用于普通人士。
本发明实施例中所述的用于专注于单一声源的语音的装置的具体工作原理及益处与上述实施例中所述的用于专注于单一声源的语音的方法的具体工作原理及益处相似,这里将不再赘述。
另外,本发明实施例的另一方面还提供一种用于专注于单一声源的语音的系统,该系统包括上述实施例中所述的装置。
可选地,在本发明实施例中,该系统可以是增强现实眼镜。其中,该增强现实眼镜包括支持上述实施例中所述的装置运行的电子电路系统,该电子电路系统包括电源、处理器、网络连接等模块、外部可见的人-机界面模块、语音接收模块以及上述实施例中所述的按钮和/或触摸控制板。其中,处理器包括确定模块、声源选定模块及语音识别模块。人-机界面模块包括显示模块。处理器可以在本地进行离线语音识别,也可以经由网络连接在云端进行在线语音识别。
可选地,在本发明实施例中,上述实施例中所述的触摸控制板、按钮和/或语音接收模块可以被设置在增强现实眼镜的眼镜或者眼镜附件上,例如,设置在镜腿、镜框或者镜片上。可选地,在本发明实施例中,语音接收模块可以被设置在镜框上、同一镜腿上或者不同镜腿上。例如,在语音接收模块为麦克风阵列且麦克分阵列包括两个麦克风的情况下,该两个麦克风分别设置两个镜框上,或者被设置在同一镜腿的不同位置上,或者被分别设置在两个镜腿上。此外,在显示模块为近眼显示器的情况下,实现了将从声源发出的语音转化的文字呈现在眼前。其中,近眼显示器可以是可透视的,也可以是不可透视的。进一步地,在近眼显示器为透视式近眼显示器的情况下,实现了在不影响听障人士观察显示场景的同时,使得听障人士可以通过观看“字幕”理解收听到的语音信息。
可选地,在本发明实施例中,该系统可以是智能音箱。
可选地,在本发明实施例中,该系统还可以包括移动终端和可以与移动终端进行连接以被移动终端控制的设备。其中,该移动终端与设备之间通过通信模块进行连接。此外,该移动终端可以是手机或平板电脑。该可以被移动终端控制的设备包括语音接收模块、确定模块及声源选定模块。移动终端包括显示模块及触摸控制板。另外,上述实施例中所述的按钮可以被设置在该可以被移动终端控制的设备上。
此外,本发明实施例的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述实施例中所述的方法。
综上所述,将从至少一个声源中选定的一者中发出的语音转化的文字显示出来,使得听障人士看到,如此,使得听障人士通过视觉了解其想要了解的讲话内容,实现了使得听障人士及时明白他人讲话内容,并且可以使得听障人士专注于某一声源,提高了听障人士的沟通效率及生活便利性。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (15)
1.一种用于专注于单一声源的语音的方法,其特征在于,该方法包括:
接收至少一个声源的语音;
基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;
接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定;以及
显示与选定的该一者对应的信息,其中所述与选定的该一者对应的信息包括从选定的该一者发出的语音转化的文字。
2.根据权利要求1所述的方法,其特征在于,在接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定之前,该方法还包括:显示与所述至少一个声源中的每一声源的方位相关的信息。
3.根据权利要求2所述的方法,其特征在于,所述与所述至少一个声源中的每一声源的方位相关的信息包括以下一者或多者:所述至少一个声源中的每一声源的方位以及序号。
4.根据权利要求1所述的方法,其特征在于,在显示与选定的该一者对应的信息之后,该方法还包括:
接收切换指令,该切换指令指示切换至另一选定声源;以及
执行切换,并显示与所述另一选定声源对应的信息,该信息包括从该另一选定声源发出的语音转化的文字。
5.根据权利要求1所述的方法,其特征在于,所述与选定的该一者对应的信息还包括以下一者或多者:选定的该一者的方位以及专注标识。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方位包括方向和/或距离。
7.一种用于专注于单一声源的语音的装置,其特征在于,该装置包括:
语音接收模块,用于接收至少一个声源的语音;
确定模块,用于基于接收的所述至少一个声源中的每一声源的语音,确定所述至少一个声源中的每一声源的方位;
声源选定模块,用于接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定;以及
显示模块,用于显示与选定的该一者对应的信息,其中所述与选定的该一者对应的信息包括从选定的该一者发出的语音转化的文字。
8.根据权利要求7所述的装置,其特征在于,所述显示模块还用于在接收基于所述至少一个声源的方位而对所述至少一个声源中的一者的选定之前,显示与所述至少一个声源中的每一声源的方位相关的信息。
9.根据权利要求8所述的装置,其特征在于,所述与所述至少一个声源中的每一声源的方位相关的信息包括以下一者或多者:所述至少一个声源中的每一声源的方位以及序号。
10.根据权利要求7所述的装置,其特征在于,该装置还包括:
切换指令接收模块,用于所述显示模块显示与选定的该一者对应的信息之后,接收切换指令,该切换指令指示切换至另一选定声源;以及
切换模块,用于在所述切换指令接收模块接收到切换指令的情况下,执行切换;
所述显示模块还用于在所述切换模块执行切换的情况下,显示与所述另一选定声源对应的信息,该信息包括从该另一选定声源发出的语音转化的文字。
11.根据权利要求7所述的装置,其特征在于,所述与选定的该一者对应的信息还包括以下一者或多者:选定的该一者的方位以及专注标识。
12.根据权利要求7-11所述的装置,其特征在于,所述方位包括方向和/或距离。
13.一种用于专注于单一声源的语音的系统,其特征在于,该系统包括权利要求7-12中任一项所述的装置。
14.根据权利要求13所述的系统,其特征在于,所述系统为增强现实眼镜或智能音箱。
15.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-6中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810597338.8A CN108899029A (zh) | 2018-06-11 | 2018-06-11 | 专注于单一声源的语音的方法、装置和系统 |
PCT/CN2019/090608 WO2019238018A1 (zh) | 2018-06-11 | 2019-06-11 | 专注于单一声源的语音的方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810597338.8A CN108899029A (zh) | 2018-06-11 | 2018-06-11 | 专注于单一声源的语音的方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108899029A true CN108899029A (zh) | 2018-11-27 |
Family
ID=64344422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810597338.8A Pending CN108899029A (zh) | 2018-06-11 | 2018-06-11 | 专注于单一声源的语音的方法、装置和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108899029A (zh) |
WO (1) | WO2019238018A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019238018A1 (zh) * | 2018-06-11 | 2019-12-19 | 北京佳珥医学科技有限公司 | 专注于单一声源的语音的方法、装置和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049077A (zh) * | 2011-10-14 | 2013-04-17 | 鸿富锦精密工业(深圳)有限公司 | 声音反馈装置及其工作方法 |
CN103869470A (zh) * | 2012-12-18 | 2014-06-18 | 精工爱普生株式会社 | 显示装置及其控制方法、头戴式显示装置及其控制方法 |
CN105103457A (zh) * | 2013-03-28 | 2015-11-25 | 三星电子株式会社 | 便携式终端、助听器以及在便携式终端中指示声源的位置的方法 |
CN105554662A (zh) * | 2015-06-30 | 2016-05-04 | 宇龙计算机通信科技(深圳)有限公司 | 一种助听眼镜及助听方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130190041A1 (en) * | 2012-01-25 | 2013-07-25 | Carlton Andrews | Smartphone Speakerphone Mode With Beam Steering Isolation |
CN108899029A (zh) * | 2018-06-11 | 2018-11-27 | 北京佳珥医学科技有限公司 | 专注于单一声源的语音的方法、装置和系统 |
-
2018
- 2018-06-11 CN CN201810597338.8A patent/CN108899029A/zh active Pending
-
2019
- 2019-06-11 WO PCT/CN2019/090608 patent/WO2019238018A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049077A (zh) * | 2011-10-14 | 2013-04-17 | 鸿富锦精密工业(深圳)有限公司 | 声音反馈装置及其工作方法 |
CN103869470A (zh) * | 2012-12-18 | 2014-06-18 | 精工爱普生株式会社 | 显示装置及其控制方法、头戴式显示装置及其控制方法 |
CN105103457A (zh) * | 2013-03-28 | 2015-11-25 | 三星电子株式会社 | 便携式终端、助听器以及在便携式终端中指示声源的位置的方法 |
CN105554662A (zh) * | 2015-06-30 | 2016-05-04 | 宇龙计算机通信科技(深圳)有限公司 | 一种助听眼镜及助听方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019238018A1 (zh) * | 2018-06-11 | 2019-12-19 | 北京佳珥医学科技有限公司 | 专注于单一声源的语音的方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2019238018A1 (zh) | 2019-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019237427A1 (zh) | 用于辅助听障人士的方法、装置和系统及增强现实眼镜 | |
US20140101608A1 (en) | User Interfaces for Head-Mountable Devices | |
US9076345B2 (en) | Apparatus and method for tutoring in convergence space of real and virtual environment | |
KR20150009053A (ko) | 이동 단말기 및 그것의 제어 방법 | |
WO2019237428A1 (zh) | 用于提供声源信息的方法和装置及增强现实眼镜 | |
CN112764549B (zh) | 翻译方法、装置、介质和近眼显示设备 | |
US20200209951A1 (en) | Information processing system, information processing method, and program | |
CN105843390A (zh) | 一种图像缩放的方法与基于该方法的ar眼镜 | |
CN203858414U (zh) | 头戴式语音识别投影装置及系统 | |
CN103869471A (zh) | 头戴式语音识别投影装置及系统 | |
CN105657407A (zh) | 头戴显示器及其双目3d视频显示方法和装置 | |
US10154364B1 (en) | Moving an emoji to move a location of binaural sound | |
CN105334955B (zh) | 一种信息处理方法及电子设备 | |
CN109068122A (zh) | 图像显示方法、装置、设备及存储介质 | |
CN108899029A (zh) | 专注于单一声源的语音的方法、装置和系统 | |
CN108877407A (zh) | 用于辅助交流的方法、装置和系统及增强现实眼镜 | |
CN108983965A (zh) | 用于告警异常声源的方法和装置及增强现实眼镜 | |
US10558858B2 (en) | Augmented reality system and kit | |
CN106843677A (zh) | 一种虚拟现实vr眼镜的图像显示方法、设备和终端 | |
CN113079383B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN111625089B (zh) | 智能眼镜控制方法、装置、存储介质及智能眼镜 | |
JP6980150B1 (ja) | 3次元仮想現実空間提供サーバ、3次元仮想現実空間提供方法、3次元仮想現実空間提供プログラム、3次元仮想現実空間表示制御装置、3次元仮想現実空間表示制御方法、3次元仮想現実空間表示制御プログラムおよび3次元仮想現実空間提供システム | |
US20200265839A1 (en) | Glasses with subtitles | |
US20240171728A1 (en) | Image display method, device, and apparatus | |
US12002435B1 (en) | Electronic devices and corresponding methods for identifying a companion device type |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181127 |