CN113194203A

CN113194203A - 一种用于听障人士的沟通系统、接听拨打方法及通讯系统

Info

Publication number: CN113194203A
Application number: CN202110354400.2A
Authority: CN
Inventors: 彭黔平; 闵楠
Original assignee: Found Intelligence Technology Co ltd
Current assignee: Found Intelligence Technology Co ltd
Priority date: 2020-09-30
Filing date: 2021-04-01
Publication date: 2021-07-30

Abstract

本发明提供了一种用于听障人士的沟通系统，其特征在于，由下至上依次包括：接入层：用于对接语音中继接口以及服务接口；数据层：用于保存用户数据，用户数据包括通话信息和用户个性化配置信息；服务层：包括AI服务和业务系统服务，所述AI服务采用流式决策引擎，所述业务系统服务包括语音处理模块和信息推送模块；应用层：应用以不同形式集成在前端应用中。利用人工智能技术提供一种适合于聋哑身障人士进行无障碍沟通的通信方式，解决接听电话、拨打电话、对话沟通的问题；针对聋哑人交流沟通时遇到的手语不普及、专业设备较贵等问题，在现有的即时通信方式下，利用智能语音技术来解决聋哑人的听和说的难题。

Description

一种用于听障人士的沟通系统、接听拨打方法及通讯系统

技术领域

本发明涉及一种用于听障人士的沟通系统、接听拨打方法及通讯系统。

背景技术

对聋哑人来说，手语是他们母语，能够使用手语无障碍地即时远程通讯一直都是聋人的梦想。视频电话技术的发展使聋人之间的远程通信成为可能。

2010年，苹果公司在iphone4上推出了免费的Face Time功能，为了宣传Face Time强大的视频通话技术，苹果公司在中国专门拍摄了聋人使用iPhone4的Face Time打视频电话的广告。后来，这一功能在不同品牌的智能手机上都得到了实现。

2006年，南京残联推出了一款专门为聋人开发的“无障碍信息电话机”，在现有的固定电话线上使用，不改变号码，也不影响原来电话的所有功能，唯一的区别就是，在电话机最下方多了一块区域，上面有一块小屏幕以及几个按键，使其具有发短信的功能。

2011年，黑龙江大兴安岭地区一所小学的退休教师张林茂对上述仅支持发送短信的电话机进行了升级，发明出一种名为“龙人通”的电话机，聋人在电话机键盘上输入文字，电话机可以自动将其转化成语音，如果接电话的一方使用“龙人通”，对方传来的语音可以被转化成文字显示在屏幕上，从而实现了聋人之间、聋听之间的即时沟通。

智能语音技术背景。

1、聋哑人的听（语音转文本）

自动语音识别(ASR)是一种将口语转换为文本的过程。该技术正在不断应用于即时通讯应用程序、搜索引擎、车载系统和家庭自动化中。尽管所有这些系统都依赖于略有不同的技术流程，但这些所有系统的第一步都是相同的：捕获语音数据并将其转换为机器可读的文本。

从基础层面来看，自动语音识别看起来如下：音频数据输入，文本数据输出。

但是，从输入到输出，音频数据需要变成机器可读的数据。这意味着数据通过声学模型和语言模型进行发送。这两个过程是这样的：声学模型确定了语言中音频信号和语音单位之间的关系，而语言模型将声音与单词及单词序列进行匹配。这两个模型允许 ASR 系统对音频输入进行概率检查，以预测其中的单词和句子。然后，系统会选出具有最高置信度等级的预测。

ASR 技术已融身于社会。虚拟助手、车载系统和家庭自动化都让日常生活更加便利，应用范围也可能扩大。随着越来越多的人接纳这些服务，技术将进一步发展。

2、聋哑人的说（文本转语音）

TTS 技术本质上解决的是「从文本转化为语音的问题」，通过这种方式让机器开口说话。

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备（系统）有着本质的区别。传统的声音回放设备（系统），如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。

语音合成技术经历了一个逐步发展的过程，从参数合成到拼接合成，再到两者的逐步结合，其不断发展的动力是人们认知水平和需求的提高。它们各有优缺点，人们在应用过程中往往将多种技术有机地结合在一起，或将一种技术的优点运用到另一种技术上，以克服另一种技术的不足。

而上述传统方式存在一定缺陷，具体如下所示。

1、手语识别困难，且受众面较窄。

由于手语需要连续的运动图像，所以哪怕是最先进的可视电话所显示的快速变换的图像，也无法满足聋哑人交流的需要。手语识别的新发明经常见诸报端，它可以分为两个大类。第一类是基于可穿戴设备的手语识别技术。使用者佩戴具有特定功能的手套、手环或指环等可穿戴设备，打手势时，设备上的传感器可以采集手势运动的三维数据并传送至计算机进行分析解码，输出为文字。第二类被称为“基于视觉的手语识别技术”。使用者徒手拍摄出手语视频，计算机通过识别肤色、运动、手形等特征识别视频中的手语，进行数据采集和分析，这种方法的技术难度较大。手语识别技术目前仍在探索阶段，成形的产品尚未面市。

2、专用沟通设备不够便利，且造价较贵。

适用于聋哑人的通话设备通常需要专业定制的设计和制造,有些甚至需要接插摄像机。这样的设备设计制造成本较高，售卖价格不菲。

语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。

3、接听时主要是沟通时的实时性不够强，类似微信增加的“语音转文字”功能，虽然为聋哑人与常人的沟通提供了很大的便利，不过，这种转码需要等待对方说完整句话，同时还有选择转码之后才能看到对方说话的文本，况且这种转码还常常存在误差，准确性有待提高。

4、说话风格不够丰富当前语音合成出来的声音的不够丰富，而且通常还带有比较浓的系统合成音的感觉，没有提供丰富的说话风格。

5、文字输入较慢,不够快速响应。

借助于语音合成技术，可以让文字变成声音播放出来。但是实际在交流的时候，逐字将文字输入进来，速度比较慢的，会对交流过程产生割裂感。

发明内容

为了解决上述问题，本发明提供了一种用于听障人士的沟通系统、接听拨打方法及通讯系统，利用人工智能技术提供一种适合于聋哑身障人士进行无障碍沟通的通信方式，解决接听电话、拨打电话、对话沟通的问题；针对聋哑人交流沟通时遇到的手语不普及、专业设备较贵等问题，在现有的即时通信方式下，利用智能语音技术来解决聋哑人的听和说的难题。

本发明的技术方案如下所示：

一种用于听障人士的沟通系统，由下至上依次包括：

接入层：用于对接语音中继接口以及服务接口；

数据层：用于保存用户数据，用户数据包括通话信息和用户个性化配置信息；

服务层：包括AI服务和业务系统服务，所述AI服务采用流式决策引擎，所述业务系统服务包括语音处理模块和信息推送模块；

应用层：应用以不同形式集成在前端应用中。

优选的，所述接入层的服务接口包括ASR/TTS接口，所述接入层还包括业务数据接口、业务管理接口。

优选的，所述数据层包括用于存储用户数据的对象存储、Redis和MySQl，所述用户个性化配置信息包括开场白、场景自定义回复、自定义录音，所述通话信息包括通话时长、主被叫人。

优选的，所述流式决策引擎的功能动作管理、连续对话策略、语义理解、命名实体识别和主题分析，所述业务系统服务中还包括号码管理模块、业务统计模块、用户设置模块、话术优化模块、事件感知模块。

优选的，所述动作管理的功能为呼转来电事件的处理和通话会话的管理，所述连续对话策略服务通过AI模型智能决策对话动作。

优选的，所述前端应用为微信公众号页面、微信小程序中的一种，所述应用层还包括电话接听、对话技能卡法和数据报表。

本发明提供了一种用于听障人士的接听电话的方法，基于所述的用于听障人士的沟通系统，包括以下步骤：

S1：用户接收到电话呼入，利用沟通系统配置、启用呼叫转移功能；

S2：将呼入电话转移至预先设置的特殊服务号码中，由自然语言引擎；

S3：由接入层从特殊服务号码的通信线路中接收呼入信息并转发至服务层；

S4：由服务层中的流式决策引擎对是否接听呼入电话进行判断，若判断为接听则建立通话，确定开场白内容并将该内容合成为语言进行播放，反之则结束通话；

S5：主叫方的语音信息通过流式决策引擎以及自动语音识别技术转化为文字显示于用户的通讯设备中；

S6：由自然语言对话引擎结合被叫方通讯设备中的上下文分析推理完当前文本后，将生成回复主叫方的文本或者由被叫方选择推荐文本进行回复，并输入到文本转语音服务中并在主叫方的通讯设备上进行播放；

S7：通话结束挂断电话，存储通话记录便于查看。

本发明提供了一种用于听障人士的拨打电话的方法，基于所述的用于听障人士的沟通系统，包括以下步骤：

S1：用户登录沟通系统选择需要呼叫的号码；

S2：由服务层将呼叫请求发送至接入层，接入层利用预先设置的特殊外呼号码发起通话；

S3：由被叫方决定是否接听电话，确认接听则建立通话，由服务层确定开场白内容并将该内容合成为语言进行播放，反之则结束通话；

S4：用户根据自然语言对话引擎生成的推荐语或进行手动输入文本，文本通过并输入到文本转语音服务中转化为语音并在被叫方的通讯设备上进行播放；

S5：被叫方的语音信息通过流式决策引擎以及自动语音识别技术转化为文字显示于用户的通讯设备中，由自然语言对话引擎结合被叫方通讯设备中的上下文分析推理完当前文本后，将生成回复主叫方的文本或者由被叫方选择推荐文本进行回复，并输入到文本转语音服务中并在主叫方的通讯设备上进行播放；

S6：通话结束挂断电话，存储通话记录便于查看。

本发明提供了一种用于听障人士的近场识声的方法，基于所述的用于听障人士的沟通系统，包括以下步骤：

S1：用户利用沟通系统短间隔录制他人声音并转为音频文件；

S2：通过流式决策引擎以及自动语音识别技术转化为文字显示于用户的通讯设备中；

S3：用户输入文本，由文本转语音服务中转化为语音并播放；

S4：结束对话，关闭系统。

本发明提供了一种用于听障人士的进场识声的通信系统，包括主叫设备、被叫设备、运营商电话网络、云端服务器、运营商IDC，所述主叫设备和被叫设备为通讯设备，所述运营商电话网络包括电话网络和CTD平台，所述运营商IDC包括对象存储和应用服务器，所述云端服务器中部署有ASR、TTS、自然语言对话引擎；所述主叫设备和被叫设备与电话网络通讯连接，所述电话网络通过CTD平台利用SIP协议连接至应用服务器，所述应用服务器分别与对象存储、服务器通讯连接。

本发明的有益效果为：

1、帮助听障人士正常沟通。

生活中的需求或者交流的限制状况促使听力言语障碍群体主动去寻找解决问题的办法。例如听力言语障碍群体远距离的快速交流有障碍，所以选择依赖手机短信功能完成彼此间的交流过程；在面对面讲述不明的时候，借助于手语和肢体语言表达指示信息。听力言语障碍群体自身的这种努力或许能取得一定的成果，但并不意味着他们不缺乏更广泛的关注。正因为听力言语障碍群体自身寻求解决方式的这种局限性，更提示人们对他们的生存方式加以关注。

让听障人士听懂话语，并发出声音，能帮助不少生活不方便的人，解决信息交流的难题，也要为所有的使用者提供方便的使用方式，避免隔离和歧视现象的发生。从产品的精神功能出发，为使用者提供更愉悦的使用体验。

2、增强听障人士生存工作能力。

当交流沟通的障碍减少时，听障人士就能更好地与他人进行情感上的表达，为他们的生活带来色彩。同时，当交流不再成为阻隔听障人士的主要问题，那么他们也可以如正常人一样去工作。例如参与快递、外卖等行业，增强他们的生存能力，提高生活品质。

3.产生社会效益

如今，传统的媒介方式受到网络、移动媒体等等新兴的信息来源的挑战，也给广大的残障人士造成了信息获取的不便。所以，大力发展信息无障碍产业、让听障人士和健康人同样体验到新的信息来源的方便和快捷是当务之急，这不仅仅是一项单纯为听障人士提供服务的公益事业，其中更是蕴藏着巨大商机的一个产业。

从对社会的贡献这一层面而言，信息无障碍事业的实施更称得上是一项公益事业，但从市场方面来看，无障碍沟通的特殊性决定了它是一个“一本万利”的领域。要知道，多数针对听障人士的需求出发的产品研发，其投资大都是由政府支付，而企业需要做的就是开发出相关的信息无障碍的各类技术、方案、产品，再以此出售获取利润，从利益层面来说算是有利可图。

促使各类商家生产研发各种产品，使得这种服务落到实处，由此产生的社会效益，包括舆论效益和经济效益。

附图说明

图1为本发明的系统架构图。

图2为本发明中接听电话的流程示意图。

图3为本发明中拨打电话的流程示意图。

图4为本发明中近场识声的流程示意图。

图5为本发明中通讯系统的连接示意图。

具体实施方式

下面将结合说明书附图对本发明的实施例进行详细说明。

本发明实施例提供了一种用于听障人士的沟通系统，如图1所示，其架构如下所示，包括：

接入层：用于对接语音中继接口以及服务接口；

应用层：应用以不同形式集成在前端应用中。

作为本发明一种实施方式，

应用层：应用以不同形式集成在前端应用中，比如微信公众号页面、微信小程序等，可以通过相关应用配置个性化开场白和个人信息等功能。

服务层：服务层由AI服务和业务系统服务两大部分组成。

AI服务层由流式决策引擎为核心打造，主要包括动作管理、连续对话策略、语义理解、命名实体识别、主题分析等。动作管理服务主要功能是呼转来电事件的处理和通话会话的管理。连续对话策略服务，通过AI模型智能决策助理的对话动作。业务系统服务中包含了语音处理模块、信息推送模块等。

数据层：本系统用户数据保存在用户中心服务的数据库中，主要包含通话信息和用户个性化配置信息。配置信息主要是对于助理的个性化属性的设置，比如开场白、场景自定义回复、自定义录音等。通话信息包含各种通话属性，比如通话时长、主被叫人等。

接入层：接入主要对接了语音中继、ASR服务、TTS服务等的外部接口。

比如接听电话时用户产生的来电触发呼叫转移条件后，会呼转到预设的专属号码，系统中的呼叫中心服务通过线路会接收到来自运营商的通话，并将通话封装为呼转来电事件，事件包括来电主叫号码、原始被叫号码、呼转号码，呼转类型等基本信息。

本发明实施例还提供了一种用于听障人士的接听电话的方法，利用上述架构的沟通系统，通过来电呼叫转移功能来实现帮助用户代接电话的能力。如果被叫设置了无应答、占线或者无法接通等情况呼转到统一服务号码，当主叫呼叫被叫时发生以上情况，来电将被呼转至统一服务号码。此时由自然语言对话引擎服务与主叫建立通信连接，实现通话。

建立通信后，主叫的语音将被云端的自动语音识别服务转换成文本，然后输入到自然语言对话引擎服务。自然语言对话引擎服务结合用户的上下文分析推理完当前文本后，将生成回复主叫的文本，或者选择推荐出来的回复文本，并输入到文本转语音服务中。最后文本转语音服务将语音内容通过软交换播放给主叫。

作为本发明的一种实施方式，如图2所示，接听电话的具体步骤为：

1、用户在小程序上开通本系统，并配置和启用呼叫转移功能。

2、有电话打过来的时候会通过呼叫转移到特定的服务号码。

3、接入层可以从特定服务号码的通信线路上接收到呼入信息，并把呼入信息发给服务层。

4、服务层决定是否要接通该电话，如果拒接该通电话，该通电话就会被挂断并结束通话。

5、确定接听后，通话建立，服务层会将确定开场白内容，并将开场白文字合成语音。

6、在通话里播放开场白。

7、主叫方说的语音会识别为文字。

8、根据主叫的输入智能生成推荐回复语。

9、在小程序的通话对话流界面中展示主叫的语音内容以及生成的推荐回复语。

10、用户可以手动输入回复内容或者直接选择推荐回复或者选择推荐回复并修改部分内容。

11、系统将回复内容合成为回复语音并播放。

12、主叫或被叫挂断通话。

13、结束通话，并保存通话记录。

本发明实施例还提供了一种用于听障人士的拨打电话的方法，利用上述架构的沟通系统，利用电话外呼功能来实现帮助用户拨打电话的能力。用户在小程序拨打页面输入要拨打的电话号码，或者直接从小程序的通讯录中选择号码，确认拨打之后，通过统一的外呼号码拨打出去。

被叫接听后，双方建立通信，后面的过程类似于接听电话的流程。主叫输入文本或者选择系统推荐的文本经过语音合成后播放给被叫，被叫回复的语音被识别为文本展示。

作为本发明的一种实施方式，如图3所示，拨打电话的具体步骤为：

1、在小程序拨打页面输入呼叫号码或者从通讯录中选择号码。

2、服务层把呼叫请求发送给接入层。

3、接入层将利用特定外呼号码发起通话。

4、被叫方决定是否接听电话。

6、在通话里播放开场白。

7、服务生成推荐语供用户选择。

8、在小程序上展示推荐语。

9、用户输入文字或者选择推荐的文字。

10、将文字合成为语音并播放。

11、被叫方语音识别为文字。

12、根据被叫输入生成推荐语。

13、主叫或被叫挂断通话。

14、结束通话，并保存通话记录。

本发明实施例还提供了一种用于听障人士的近场识声的方法，利用智能语音技术来识别和合成语音，通过对话流展示实现面对面对话沟通的效果。

借助小程序录音功能，可以把对方说的话实时录成音频，并通过语音识别实时转为文字。在用户输入回复后，可以选择不同风格的播放角色把文字合成为不同风格的语音进行播放。

作为本发明的一种实施方式，如图4所示，具体步骤如下：

1、点击开始畅聊按钮，开始对话。

2、对方开始说话。

3、小程序会在对方说话时按很短间隔录成音频。

4、将音频识别为文字并实时展示在对话界面。

5、用户可以输入文字。

6、选择不同风格的声音。

7、将用户输入文字合成为语音并播放。

8、点击结束对话按钮。

9、结束对话。

本发明实施例还提供了一种用于听障人士的进场识声的通信系统，包括主叫设备、被叫设备、运营商电话网络、云端服务器、运营商IDC，所述主叫设备和被叫设备为通讯设备，所述运营商电话网络包括电话网络和CTD平台，所述运营商IDC包括对象存储和应用服务器，所述云端服务器中部署有ASR、TTS、自然语言对话引擎；所述主叫设备和被叫设备与电话网络通讯连接，所述电话网络通过CTD平台利用SIP协议连接至应用服务器，所述应用服务器分别与对象存储、服务器通讯连接。

本通信系统用于辅助实现上述方法，为上述沟通系统提供通信上的支持。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于听障人士的沟通系统，其特征在于，由下至上依次包括：

接入层：用于对接语音中继接口以及服务接口；

应用层：应用以不同形式集成在前端应用中。

2.根据权利要求1所述的用于听障人士的沟通系统，其特征在于，所述接入层的服务接口包括ASR/TTS接口，所述接入层还包括业务数据接口、业务管理接口。

3.根据权利要求1所述的用于听障人士的沟通系统，其特征在于，所述数据层包括用于存储用户数据的对象存储、Redis和MySQl，所述用户个性化配置信息包括开场白、场景自定义回复、自定义录音，所述通话信息包括通话时长、主被叫人。

4.根据权利要求1所述的用于听障人士的沟通系统，其特征在于，所述流式决策引擎的功能动作管理、连续对话策略、语义理解、命名实体识别和主题分析，所述业务系统服务中还包括号码管理模块、业务统计模块、用户设置模块、话术优化模块、事件感知模块。

5.根据权利要求4所述的用于听障人士的沟通系统，其特征在于，所述动作管理的功能为呼转来电事件的处理和通话会话的管理，所述连续对话策略服务通过AI模型智能决策对话动作。

6.根据权利要求4所述的用于听障人士的沟通系统，其特征在于，所述前端应用为微信公众号页面、微信小程序中的一种，所述应用层还包括电话接听、对话技能卡法和数据报表。

7.一种用于听障人士的接听电话的方法，基于权利要求1-6中所述的用于听障人士的沟通系统，其特征在于，包括以下步骤：

S7：通话结束挂断电话，存储通话记录便于查看。

8.一种用于听障人士的拨打电话的方法，基于权利要求1-6中所述的用于听障人士的沟通系统，其特征在于，包括以下步骤：

S1：用户登录沟通系统选择需要呼叫的号码；

S6：通话结束挂断电话，存储通话记录便于查看。

9.一种用于听障人士的进场识声的方法，基于权利要求1-6中所述的用于听障人士的沟通系统，其特征在于，包括以下步骤：

S4：结束对话，关闭系统。

10.一种用于听障人士的进场识声的通信系统，其特征在于，包括主叫设备、被叫设备、运营商电话网络、云端服务器、运营商IDC，所述主叫设备和被叫设备为通讯设备，所述运营商电话网络包括电话网络和CTD平台，所述运营商IDC包括对象存储和应用服务器，所述云端服务器中部署有ASR、TTS、自然语言对话引擎；所述主叫设备和被叫设备与电话网络通讯连接，所述电话网络通过CTD平台利用SIP协议连接至应用服务器，所述应用服务器分别与对象存储、服务器通讯连接。