CN113220912A

CN113220912A - 一种交互辅助方法、装置及计算机可读存储介质

Info

Publication number: CN113220912A
Application number: CN202110373417.2A
Authority: CN
Inventors: 陈东明; 熊斌; 蔡礼森
Original assignee: Power Idea Technology Shenzhen Co Ltd
Current assignee: Power Idea Technology Shenzhen Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-08-06

Abstract

本发明公开了一种交互辅助方法、装置及计算机可读存储介质，实时获取语言障碍用户的手语数据，并通过手语数据匹配目标音频数据；将目标音频数据通过音频输出单元进行输出；实时获取普通用户的语音数据，并通过语音数据匹配目标手语图像；将目标手语图像通过显示单元进行输出。通过本发明的实施，监测识别人工手语，数字建模解析后翻译转化为音频信号输出，并同步采样语音信号，通过语音数据库对比后反编译为手语图像输出，实现了语言和听力障碍人士与普通人之间的无障碍交流，拉近了人与人之间的距离。

Description

一种交互辅助方法、装置及计算机可读存储介质

技术领域

本发明涉及智能交互技术领域，尤其涉及一种交互辅助方法、装置及计算机可读存储介质。

背景技术

在实际应用中，具有语言和听力障碍的用户(聋哑人士)通常是通过手语来进行交互，但是手语仅限于部分经过专门学习的用户群体才能识别，而并无法与大多普通人进行交流，隔阂了聋哑人士与普通人的交流，由此可见，如何提供一种有效的交互辅助方式来促进聋哑人士与普通人的交流至关重要。

发明内容

本发明实施例的主要目的在于提供一种交互辅助方法、装置及计算机可读存储介质，至少能够解决相关技术中语言和听力障碍人士与普通人的交流较为困难的问题。

为实现上述目的，本发明实施例第一方面提供了一种交互辅助方法，该方法包括：

实时获取语言障碍用户的手语数据，并通过所述手语数据匹配目标音频数据；

将所述目标音频数据通过音频输出单元进行输出；

实时获取普通用户的语音数据，并通过所述语音数据匹配目标手语图像；

将所述目标手语图像通过显示单元进行输出。

为实现上述目的，本发明实施例第二方面提供了一种交互辅助装置，该装置包括：

第一匹配模块，用于实时获取语言障碍用户的手语数据，并通过所述手语数据匹配目标音频数据；

第一输出模块，用于将所述目标音频数据通过音频输出单元进行输出；

第二匹配模块，用于实时获取普通用户的语音数据，并通过所述语音数据匹配目标手语图像；

第二输出模块，用于将所述目标手语图像通过显示单元进行输出。

为实现上述目的，本发明实施例第三方面提供了一种电子装置，该电子装置包括：处理器、存储器和通信总线；

所述通信总线用于实现所述处理器和存储器之间的连接通信；

所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现上述任意一种交互辅助方法的步骤。

为实现上述目的，本发明实施例第四方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任意一种交互辅助方法的步骤。

根据本发明实施例提供的交互辅助方法、装置及计算机可读存储介质，实时获取语言障碍用户的手语数据，并通过手语数据匹配目标音频数据；将目标音频数据通过音频输出单元进行输出；实时获取普通用户的语音数据，并通过语音数据匹配目标手语图像；将目标手语图像通过显示单元进行输出。通过本发明的实施，监测识别人工手语，数字建模解析后翻译转化为音频信号输出，并同步采样语音信号，通过语音数据库对比后反编译为手语图像输出，实现了语言和听力障碍人士与普通人之间的无障碍交流，拉近了人与人之间的距离。

本发明其他特征和相应的效果在说明书的后面部分进行阐述说明，且应当理解，至少部分效果从本发明说明书中的记载变的显而易见。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的交互辅助方法的基本流程示意图；

图2为本发明第一实施例提供的手语数据生成方法的流程示意图；

图3为本发明第一实施例提供的音频数据匹配方法的流程示意图；

图4为本发明第二实施例提供的交互辅助装置的程序模块示意图；

图5为本发明第三实施例提供的电子装置的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例：

为了解决相关技术中语言和听力障碍人士与普通人的交流较为困难的问题，本实施例提出了一种交互辅助方法，应用于智能交互终端，该智能交互终端包括但不限于手机、平板电脑、个人PC等。如图1所示为本实施例提供的交互辅助方法的基本流程示意图，本实施例提出的交互辅助方法包括以下的步骤：

步骤101、实时获取语言障碍用户的手语数据，并通过手语数据匹配目标音频数据。

具体的，本实施例在语言障碍用户作为交流发起者与其它用户进行交互的过程中，实时获取语言障碍用户的手语数据，并对手语进行识别翻译，转换为可被非手语掌握者无障碍理解的音频数据。

在本实施例中，上述实时获取语言障碍用户的手语数据的步骤的具体实现方式，包括但不限于以下两种：

方式一，通过自身的手势追踪传感器实时获取语言障碍用户的手语数据。

具体的，在本实施例一种可选实现方式中，智能交互终端自身配置有手势追踪传感器，例如摄像头、红外热成像传感器等，在语言障碍用户使用手语时，对手语进行动态采样扫描，然后对成像数据进行识别来得到手语数据。

方式二，基于与语言障碍用户手部佩戴的手势感应传感器的通信连接，接收手势感应传感器发送的手语数据。

具体的，在本实施例另一种可选实现方式中，语言障碍用户手部佩戴有手势感应传感器，以手环或者戒指等形态佩戴于语言障碍用户手上，在用户使用手语时，通过角速度多轴传感、重力加速度传感等技术，检测语言障碍用户手势的动态变化，然后转换为相应的手语数据，继而再通过蓝牙等无线传输技术将所采集的手语数据传输至智能交互终端。

在本实施例优选的实施方式中，上述通过手语数据匹配目标音频数据的步骤，包括：获取与语言障碍用户进行交互的目标用户的语种信息；通过手语数据匹配对应于语种信息的目标音频数据。

具体的，在实际应用中，考虑到不同用户所掌握的语言类型有所不同，而为了满足不同用户群体的交互需求，本实施例根据用户所掌握的语种来根据手语数据适应性匹配音频数据，例如与语言障碍用户交互的用户的国籍为中国，则目标音频数据的语言形式采用普通话。应当理解的是，对于目标用户的语种信息的获取，可以由智能交互终端提供语种选择列表，由用户手动选定来确定以期的语种，当然，还可以由智能交互终端采集目标用户的面部图像，然后通过图像识别算法对面部图像进行分析，识别目标用户，最后再对应确定语种信息。

步骤102、将目标音频数据通过音频输出单元进行输出。

具体的，本实施例的智能交互终端上设置有喇叭等音频输出单元，用于对手语翻译转化后的音频数据进行输出，能够让未掌握手语的用户快速理解手语含义，克服了该用户群体与语言障碍人士的沟通障碍。

应当理解的是，在实际应用中，根据与语言障碍用户进行交互的目标用户的音频收听需求的不同，还可以采用其它方式对目标音频数据进行输出，例如可以由智能交互终端将目标音频数据发送至目标用户所佩戴的无线耳机进行输出，而若目标用户为听力障碍人士，则可以将目标音频数据发送至其助听器进行输出。

步骤103、实时获取普通用户的语音数据，并通过语音数据匹配目标手语图像。

具体的，在实际应用中，在普通用户作为交流发起者与听力障碍用户进行交互的过程中，实时获取普通用户输出的语音数据，并对语音数据进行反翻译，转换为可被听力障碍者无障碍理解的动态手语图像。

应当理解的是，本实施例设置有后台服务器，服务器上预置有数据库，该数库中设置有手语转换模型和语音转换模型，当智能交互终端将手语数据或语音数据传输至后台服务器后，后台服务器将所接收的数据输入相应的转换模型，以匹配对应的目标转换数据，并将其反馈至智能交互终端。以语音转换模型为例，该模型中包括不同语音片段对应的标准手势图像，本实施例可以将语音数据拆分为不同语音片段，然后针对各语音片段分别索引其标准手势图像，然后再将所有标准手势图像按照语音片段顺序组合为以期的目标手语图像。

步骤104、将目标手语图像通过显示单元进行输出。

具体的，本实施例的智能交互终端上设置有显示屏等显示单元，用于对语音翻译转化后的手语图像进行输出，能够让听力障碍用户快速理解语音含义，克服了该用户群体与听力正常的普通用户的沟通障碍。

应当理解的是，在实际应用中，根据与普通用户进行交互的听力障碍用户的手语收看需求的不同，还可以采用其它方式对目标手语图像进行输出，例如可以由智能交互终端将目标手语图像发送至听力障碍用户所佩戴的智能眼镜，然后由智能眼镜对目标手语图像进行显示。

如图2所示为本实施例提供的一种手语数据生成方法的流程示意图，进一步地，在本实施例一种可选的实施方式中，上述通过自身的手势追踪传感器实时获取语言障碍用户的手语数据的步骤，具体包括如下流程：

步骤201、通过自身的手势追踪传感器实时获取语言障碍用户的手语成像数据；

步骤202、基于手语成像数据获取手势特征量；

步骤203、根据手势特征量生成手语数据。

具体的，在本实施例中，手势特征量包括：手指指式、掌心朝向、指关节方向、手指间距离中至少一种。本实施例在对手语成像之后，从多个不同维度对手语图像进行特征分解，然后再将所获取的所有手势特征组合为手语数据，由此以提高手语数据获取的准确性和有效性。

如图3所示为本实施例提供的一种音频数据匹配方法的流程示意图，在本实施例一种可选的实施方式中，上述通过手语数据匹配目标音频数据的步骤，具体包括如下流程：

步骤301、将通过自身的手势追踪传感器所获取的手语数据，与从语言障碍用户手部佩戴的手势感应传感器接收的手语数据进行叠加；

步骤302、将其中一个手语数据中的第一手语数据片段采用另一手语数据中相应的第二手语数据片段进行置换，得到校准后的手语数据；

步骤303、通过校准后的手语数据匹配目标音频数据。

具体的，本实施例的第二手语数据片段的有效性高于第一手语数据片段。在本实施例中，采用复合方式进行手语数据获取，也即在智能交互终端侧以及语言障碍用户侧同时进行手语数据获取，由于两侧的数据获取方式的不同，两者所最终采集的数据也有所不同，本实施例将两者所采集的数据互为补充，将其中一数据作为待校准数据，而另一数据则作为参考数据，然后将待校准数据中有效性相对较差的数据片段采用参考数据中有效性相对较好的数据片段进行替换，由此可提高手语数据的准确性。

在本实施例一种可选的实施方式中，上述实时获取普通用户的语音数据的步骤之后，还包括：将语音数据进行放大处理；基于与听力障碍用户所佩戴的助听设备的通信连接，将放大处理后的语音数据发送至助听设备。

具体的，本实施例的智能交互终端还可以应用于普通用户与听力障碍用户如听力弱化用户的交互场景，对于通过助听设备辅助可以交流的人群，普通人通过向智能交互终端的定向语音采样麦克风说话后，经过智能交互终端音频解码放大单元放大后传输至听力弱化用户所佩戴的助听设备，使听力弱化用户可清晰听到放大后的语音信号，由此可提升两者的交流效率，降低了两者的交流障碍。

根据本发明实施例提供的交互辅助方法，实时获取语言障碍用户的手语数据，并通过手语数据匹配目标音频数据；将目标音频数据通过音频输出单元进行输出；实时获取普通用户的语音数据，并通过语音数据匹配目标手语图像；将目标手语图像通过显示单元进行输出。通过本发明的实施，监测识别人工手语，数字建模解析后翻译转化为音频信号输出，并同步采样语音信号，通过语音数据库对比后反编译为手语图像输出，实现了语言和听力障碍人士与普通人之间的无障碍交流，拉近了人与人之间的距离。

第二实施例：

为了解决相关技术中语言和听力障碍人士与普通人的交流较为困难的问题，本实施例示出了一种交互辅助装置，具体请参见图4，本实施例的交互辅助装置包括：

第一匹配模块401，用于实时获取语言障碍用户的手语数据，并通过手语数据匹配目标音频数据；

第一输出模块402，用于将目标音频数据通过音频输出单元进行输出；

第二匹配模块403，用于实时获取普通用户的语音数据，并通过语音数据匹配目标手语图像；

第二输出模块404，用于将目标手语图像通过显示单元进行输出。

在本实施例的一些实施方式中，第一匹配模块在执行实时获取语言障碍用户的手语数据的功能时，具体用于：通过自身的手势追踪传感器实时获取语言障碍用户的手语数据；和/或，基于与语言障碍用户手部佩戴的手势感应传感器的通信连接，接收手势感应传感器发送的手语数据。

进一步地，在本实施例的一些实施方式中，第一匹配模块在执行通过自身的手势追踪传感器实时获取语言障碍用户的手语数据的功能时，具体用于：通过自身的手势追踪传感器实时获取语言障碍用户的手语成像数据；基于手语成像数据获取手势特征量，其中，手势特征量包括：手指指式、掌心朝向、指关节方向、手指间距离中至少一种；根据手势特征量生成手语数据。

在本实施例的一些实施方式中，第一匹配模块在执行通过手语数据匹配目标音频数据的功能时，具体用于：将通过自身的手势追踪传感器所获取的手语数据，与从语言障碍用户手部佩戴的手势感应传感器接收的手语数据进行叠加；将其中一个手语数据中的第一手语数据片段采用另一手语数据中相应的第二手语数据片段进行置换，得到校准后的手语数据，其中，第二手语数据片段的有效性高于第一手语数据片段；通过校准后的手语数据匹配目标音频数据。

在本实施例的另一些实施方式中，第一匹配模块在执行通过手语数据匹配目标音频数据的功能时，具体用于：获取与语言障碍用户进行交互的目标用户的语种信息；通过手语数据匹配对应于语种信息的目标音频数据。

在本实施例的一些实施方式中，交互辅助装置还包括：放大模块和发送模块。其中，放大模块，用于在第二匹配模块执行实时获取普通用户的语音数据的功能之后，将语音数据进行放大处理；发送模块，用于基于与听力障碍用户所佩戴的助听设备的通信连接，将放大处理后的语音数据发送至助听设备。

应当说明的是，前述实施例中的交互辅助方法均可基于本实施例提供的交互辅助装置实现，所属领域的普通技术人员可以清楚的了解到，为描述的方便和简洁，本实施例中所描述的交互辅助装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

采用本实施例提供的交互辅助装置，实时获取语言障碍用户的手语数据，并通过手语数据匹配目标音频数据；将目标音频数据通过音频输出单元进行输出；实时获取普通用户的语音数据，并通过语音数据匹配目标手语图像；将目标手语图像通过显示单元进行输出。通过本发明的实施，监测识别人工手语，数字建模解析后翻译转化为音频信号输出，并同步采样语音信号，通过语音数据库对比后反编译为手语图像输出，实现了语言和听力障碍人士与普通人之间的无障碍交流，拉近了人与人之间的距离。

第三实施例：

本实施例提供了一种电子装置，参见图5所示，其包括处理器 501、存储器502及通信总线503，其中：通信总线503用于实现处理器501和存储器502之间的连接通信；处理器501用于执行存储器 502中存储的一个或者多个计算机程序，以实现上述实施例一中的交互辅助方法中的至少一个步骤。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM (Random Access Memory，随机存取存储器),ROM(Read-Only Memory，只读存储器),EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例中的计算机可读存储介质可用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述实施例一中的方法的至少一个步骤。

本实施例还提供了一种计算机程序，该计算机程序可以分布在计算机可读介质上，由可计算装置来执行，以实现上述实施例一中的方法的至少一个步骤；并且在某些情况下，可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。

本实施例还提供了一种计算机程序产品，包括计算机可读装置，该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种交互辅助方法，其特征在于，包括：

将所述目标音频数据通过音频输出单元进行输出；

将所述目标手语图像通过显示单元进行输出。

2.如权利要求1所述的交互辅助方法，其特征在于，所述实时获取语言障碍用户的手语数据的步骤，包括：

通过自身的手势追踪传感器实时获取语言障碍用户的手语数据；

和/或，基于与语言障碍用户手部佩戴的手势感应传感器的通信连接，接收所述手势感应传感器发送的手语数据。

3.如权利要求2所述的交互辅助方法，其特征在于，所述通过自身的手势追踪传感器实时获取语言障碍用户的手语数据的步骤，包括：

通过自身的手势追踪传感器实时获取语言障碍用户的手语成像数据；

基于所述手语成像数据获取手势特征量；其中，所述手势特征量包括：手指指式、掌心朝向、指关节方向、手指间距离中至少一种；

根据所述手势特征量生成手语数据。

4.如权利要求1所述的交互辅助方法，其特征在于，所述通过所述手语数据匹配目标音频数据的步骤，包括：

将通过自身的手势追踪传感器所获取的手语数据，与从语言障碍用户手部佩戴的手势感应传感器接收的手语数据进行叠加；

将其中一个手语数据中的第一手语数据片段采用另一手语数据中相应的第二手语数据片段进行置换，得到校准后的手语数据；其中，所述第二手语数据片段的有效性高于所述第一手语数据片段；

通过所述校准后的手语数据匹配目标音频数据。

5.如权利要求1所述的交互辅助方法，其特征在于，所述通过所述手语数据匹配目标音频数据的步骤，包括：

获取与所述语言障碍用户进行交互的目标用户的语种信息；

通过所述手语数据匹配对应于所述语种信息的目标音频数据。

6.如权利要求1至5中任意一项所述的交互辅助方法，其特征在于，所述实时获取普通用户的语音数据的步骤之后，还包括：

将所述语音数据进行放大处理；

基于与听力障碍用户所佩戴的助听设备的通信连接，将放大处理后的所述语音数据发送至所述助听设备。

7.一种交互辅助装置，其特征在于，包括：

8.如权利要求7所述的交互辅助装置，其特征在于，还包括：

放大模块，用于将所述语音数据进行放大处理；

发送模块，用于基于与听力障碍用户所佩戴的助听设备的通信连接，将放大处理后的所述语音数据发送至所述助听设备。

9.一种电子装置，其特征在于，包括：处理器、存储器和通信总线；

所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现如权利要求1至6中任意一项所述的交互辅助方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至6中任意一项所述的交互辅助方法的步骤。