CN106713633A

CN106713633A - 一种聋人提示系统、方法及智能手机

Info

Publication number: CN106713633A
Application number: CN201611179001.2A
Authority: CN
Inventors: 钱跃良; 王向东
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2016-12-19
Filing date: 2016-12-19
Publication date: 2017-05-24

Abstract

本发明涉及一种聋人提示系统、方法及智能手机，该系统包括用户交互模块，用于聋人与系统之间的交互；场景感知模块，用于感知并确定聋人的运用场景；数据采集及预处理模块，用于采集并生成广播语音数据；语音识别模块，用于接收识别该广播语音数据，加载对应该运用场景的语音识别模型，并根据该语音识别模型将该广播语音数据转换成文字信息；关键词匹配模块，用于将该文字信息与关键词进行匹配，如果该文字信息包含该关键词，则向用户交互模块发送一个匹配成功的标记；总控模块用于控制整个系统按流程运行。本发明通过确定运用场景，进行针对性的广播语音增强，提升了广播语音识别的准确性及聋哑人生活的便捷性。

Description

一种聋人提示系统、方法及智能手机

技术领域

本发明涉及面向聋人的提示技术领域，尤其涉及一种聋人提示系统、方法及智能手机。

背景技术

随着信息技术的发展，语音技术的应用越来越广，例如在银行、医院、餐厅等地，普遍使用排号机，并通过语音的方式进行叫号；在公交车、高铁等场合，也采用语音报站的方式提醒旅客。这种语音提示的方式，在极大地方便了普通大众的同时，却给聋人带来了很多不便，经常会发生错过排号或坐过站等情况。

为了给聋人提供便利，出现了一些技术方案，例如：

一种具有蓝牙提醒功能的聋人用公交报站器(申请号：201520256936.0)

这个方案是在目前公交车报站系统上安装蓝牙模块，将报站的文字内容通过蓝牙模块向外发送，然后聋人通过自己的手机接收文字信息，并在手机上显示，同时也可以通过振动提醒聋人。

这个方案存在的不足：首先要改装公交车的报站系统，而且还要加装蓝牙等模块，工程量很大，实施成本也很高。其次是用户使用起来也不方便，因为蓝牙设备是需要配对后才能使用的，即使公交车都安装了蓝牙系统，那聋人要得到这样的提醒服务，必须在上车后要将自己的手机与公交车的系统进行蓝牙的配对并绑定，如果一个聋人要转三次车，就需要在三个车上分别配对才能使用；此外这个方案是每个站都报，不能做到用户定制(当到达用户指定的那一站才提醒)，会带来不必要的干扰。

聋哑人轨道交通到站提醒设备(申请号：201310268098.4)

这个方案是为聋哑人提供一种轨道交通到站提醒设备，这个设备包括GPS定位模块，用于从卫星获取GPS定位数据；存储模块，用于存储轨道交通各站点的经纬度数据；振动模块，用于到站提醒；参数设置模块，用于聋哑人设置提醒站点以及提醒持续时间；控制模块，用于检测GPS定位数据是否与提醒站点的经纬度数据相同，若相同，则指令振动模块按照设定的提醒持续时间进行振动提醒。

这个方案存在的不足：首先是它依赖于GPS定位，而GPS在轨道交通工具中，特别是在地铁中，往往接收不到卫星导航信号，这样提醒设备就无法获取到定位数据，也就无法正确提醒聋人到站；其次是这个设备必须存储所有站点的经纬度数据，而这些站点的数据获取，其工作量也是不小，而且还要后期维护的问题(新增的线路等)。如果要推广到所有公交车上，其站点数据就更加庞大。

发明内容

为了解决上述问题，本发明提出了一种聋人提示系统、方法及智能手机，以解决聋人经常会发生错过排号或坐过站等问题。

具体地说，本发明公开了一种基于智能终端的聋人提示系统，其中该提示系统基于智能手机且包括总控模块、用户交互模块、场景感知模块、数据采集及预处理模块、语音识别模块、关键词匹配模块，其中：

用户交互模块，用于聋人与系统之间的交互；

场景感知模块，用于感知并确定聋人的运用场景；

数据采集及预处理模块，用于采集广播声音，生成声音数据，并对该声音数据进行预处理，生成广播语音数据；

语音识别模块，用于接收识别该广播语音数据，加载对应该运用场景的语音识别模型，并根据该语音识别模型将该广播语音数据转换成文字信息，在总控模块的控制下，将该文字信息发送到关键词匹配模块；

关键词匹配模块，用于将该文字信息与关键词进行匹配，如果该文字信息包含该关键词，则向用户交互模块发送一个匹配成功的标记；

总控模块用于控制整个系统按流程运行。

该基于智能终端的聋人提示系统，其中该用户交互模块，包括：

关键词输入模块，用于聋人在触摸屏上输入提醒内容的关键词；

提醒模块，用于接收匹配成功的该标记，控制智能终端上的振动部件来提醒聋人，并在智能手机上显示提醒信息。

该基于智能终端的聋人提示系统，其中该数据采集及预处理模块，包括根据该运用场景对该声音数据进行起始点和结束点检测，去除噪音。

该基于智能终端的聋人提示系统，其中该场景感知模块，包括：

位置分析模块，通过定位部件，获取用户当时所处的位置数据，并根据该位置数据，通过调用地图软件确定聋哑人位置属性；

运动分析模块，通过运动传感器,获取聋人当时的运动属性；

语义分析模块，通过分析该关键词得到其语义属性；

场景确定模块，根据该位置属性、该运动属性以及该语义属性，通过加权融合的算法确定运用场景。

该基于智能终端的聋人提示系统，其中该数据采集及预处理模块，包括：

数据采集子模块，用于持续实时采集声音数据并存入缓冲池；

数据预处理子模块，用于从该缓冲池中取出该声音数据，并从该声音数据中提取该广播语音数据，对该广播语音数据进行语音增强处理后发送给该语音识别模块。

本发明还提出了一种基于智能终端的聋人提示方法，其中该数据采集及预处理方法，包括以下步骤：

场景感知步骤，感知并确定聋人的运用场景；

数据采集及预处理步骤，采集广播声音，生成声音数据，并对该声音数据进行预处理，生成广播语音数据；

语音识别步骤，接收识别该广播语音数据，加载对应该运用场景的语音识别模型，并根据该语音识别模型将该广播语音数据转换成文字信息，在总控步骤的控制下，将该文字信息发送到关键词匹配步骤；

关键词匹配步骤，将该文字信息与关键词进行匹配，如果该文字信息包含该关键词，则向用户交互步骤发送一个匹配成功的标记；

用户交互步骤，实现聋人与系统之间的交互。

该基于智能终端的聋人提示方法，其中该用户交互步骤，包括：

关键词输入步骤，聋人在触摸屏上输入提醒内容的关键词；

提醒步骤，接收匹配成功的该标记，控制智能终端上的振动部件来提醒聋人，并在智能手机上显示提醒信息。

该基于智能终端的聋人提示方法，其中该数据采集及预处理步骤，包括：

数据采集步骤，持续实时采集声音数据并存入缓冲池；

数据预处理步骤，从该缓冲池中取出该声音数据，并从该声音数据中提取该广播语音数据，对该广播语音数据进行语音增强处理后发送给该语音识别步骤。

该基于智能终端的聋人提示方法，其中该数据预处理步骤，包括：

每次从该缓冲池中取一段固定时长的该声音数据；

判断该声音数据中是否包含有广播语音，采用的判断方法为基于预先训练的分类器的方法：预先为每种场景训练一个语音分类器，该分类器为混合高斯模型、支持向量机、人工神经网络模型中的一种；

若判断包含有广播语音，则进行记录后，继续取后续该声音数据进行处理；

若判断未包含有广播语音，则查询是否有广播语音记录，若没有，则继续取后续声音处理，若有，则计算累计间隔时间，若该累计间隔时间小于预先规定的阈值，则继续取后续该声音数据进行处理，若该累计间隔时间大于预先规定的该阈值，则根据广播语音记录，截取从第一次记录到最后一次记录时间内所包含的全部该声音数据作为该广播语音数据，并对该广播语音数据进行语音增强处理后发送给该语音识别步骤。

本发明还包括一种采用该提示系统的智能手机，其包括外置远讲拾音器，采用直接插入或者无线方式与智能手机连接。

本发明技术效果在于基于常用的智能终端(手机)，采用其自带的麦克风(或可方便外接的远讲拾音器)、运动传感器、定位模块等，通过智能语音识别和关键词匹配，为聋人提供适用于排队叫号、公交到站提醒等场景的智能提示服务。与现有技术相比，该技术主要依赖于多传感器融合的智能场景感知和音频感知广播语音，无需对相应的环境或场景进行改造，在地铁、室内等GPS模块失效的场合也可正常使用，可大大提高聋人生活的便利性。

附图说明

图1、为系统环境组成图；

图2、为系统框图组成图；

图3、为提示方法的操作与运行过程图；

图4、为总控模块流程图；

图5、为用户交互模块流程图；

图6、为场景感知模块流程图；

图7、为数据采集及预处理模块流程图；

图8、为关键词匹配模块流程图。

具体实施方式

如图1所示，本发明包括智能终端(手机)及外置远讲拾音器。智能终端(手机)应具有CPU、存储器、触摸屏、无线通信、振动部件、麦克风(MIC)、定位部件(GPS)、音频接口等模块和器件，还具加速度和陀螺仪等运动传感器模块。智能手机上内置的MIC适合近距离拾音，如果聋人离广播源比较远的话，采集声音的效果就会降低，从而影响语音识别的准确性，通过外置远讲拾音器，就可以避免这种情况。外置远讲拾音器可以是直接插在智能手机的MIC插孔中，也可以是通过蓝牙无线连接。

如图2所示，本发明还包括运行在智能终端(手机)的一种应用系统(app)，包括总控模块，用户交互模块、场景感知模块、数据采集及预处理模块、语音识别模块、关键词匹配模块。

总控模块用于控制整个系统按流程运行。

用户交互模块用于用户与系统之间的交互，包括两个子模块：关键词输入模块，用于用户(聋人)在触摸屏上输入提醒内容的关键词(文字)，如银行排号中的号码；提醒模块，用于该关键词匹配成功后，控制智能终端上的振动部件来提醒用户，并在智能终端上显示提示信息。

场景感知模块用于感知并确定用户的运用场景，利用智能终端上的定位、加速度、陀螺仪等多个传感器，分别获取位置属性和运动属性，通过分析用户输入的关键词得到其语义属性，再通过加权融合算法，可以自动判断用户在使用提示功能时的运用场景，为后续的处理提供有效的依据(噪音背景及广播语音的句式)，该场景感知模块包括以下4个模块：

位置分析模块，通过智能终端(手机)上的定位部件，获取用户当时所处的位置数据，并根据该位置数据，通过调用第三方地图软件确定聋哑人位置属性；

运动分析模块，通过智能终端(手机)上的运动传感器,获取聋人当时的运动属性；

语义分析模块，通过分析该关键词得到其语义属性；

场景确定模块，根据该位置属性、该运动属性以及该语义属性，通过加权融合的算法确定用户的运用场景。

数据采集及预处理模块用于采集广播声音，生成声音数据，对该声音数据进行预处理，生成广播语音数据，包括根据预先判断的该运用场景特征对该声音数据进行起始点和结束点检测，去除噪音等，并将采集到的一段完整的广播语音数据发送给语音识别模块。采集声音时可采用智能终端内置的麦克风，也可采用外置远讲拾音器。数据采集及预处理的好处是，根据不同运用场景的特点，可以更加准确地确定一段广播语音的起始点和结束点，有针对性地去除声音采集过程中的噪音(如汽车上的喇叭声、场景中的人声等等)，从而获取这段完整的广播语音数据，送到后续的语音识别模块进行识别。

语音识别模块，用于接收识别该广播语音数据，加载对应该运用场景的语音识别模型，并根据该语音识别模型将该广播语音数据转换成文字信息，在总控模块的控制下，将该文字信息发送到关键词匹配模块。

关键词匹配模块用于接收该文字信息，并将该文字信息与该关键词进行匹配，如果该文字信息包含该关键词，则向用户交互模块发送一个匹配成功的标记。

图3为本发明的提示方法的操作与运行过程图，首先启动系统，聋人通过关键词输入模块输入关键词，之后场景感知模块通过感知分析聋人的位置、运动信息以及该关键词信息，确定运用场景，数据采集及预处理模块根据该运用场景采集对方输入语音，对其进行预处理，并判断采集到的广播语音是否完整，若不完整，则继续采集广播语音，若完整，则将处理后的广播语音发送给语音识别模块，总控制模块调用语音识别模块，将处理后的该广播语音转换成文字信息，并将该文字信息发送给关键词匹配模块，该关键词匹配模块判断该文字信息是否与该关键词相符，若相符则向用户交互模块发送一个匹配成功的标记，用户交互模块收到该标记，便控制智能终端上的振动部件来提醒用户，并在智能终端上显示提示信息。

下面用一个实施例来进一步说明本发明。

本实施例包括智能终端及外置远讲拾音器。其中：

智能终端采用某品牌的智能手机，其主要性能指标如下：

CPU：4核1.6GHz；

操作系统：Android 6.0；

数据无线网络：支持2G/3G/4G移动网络；

存储器：32G ROM/4G RAM；

触摸屏：5.5英寸2560×1440分辨率；

音频接口类型：3.5mm 4极耳机插头；

无线接口：WIFI、NFC、蓝牙；

麦克风：MEMS麦克风；

主要传感器：GPS、加速度计、陀螺仪。

外置远讲拾音器采用某品牌的全指向麦克风，其主要性能指标如下：

输入声压：110db；

频率响应：20Hz～20kHz；

灵敏度：-43dB；

阻抗：2.2Ω；

接口类型：3.5mm 4极耳机插头；

指向性：全指向。

外置远讲拾音器采用直接插入的方式与智能手机连接。

本实施例是在上述智能手机的Android 6.0操作系统环境上开发的一种应用系统(app)，包括总控模块，用户交互模块、场景感知模块、数据采集及预处理模块、语音识别模块、关键词匹配模块。其中：

总控模块用于控制整个系统按流程运行,其控制流程见图4。

用户交互模块用于用户与系统之间的交互，其流程见图5。该模块包括两个子模块，由总控模块根据需要来调用，其中：图5左侧虚线部分为关键词输入模块，用于用户在触摸屏上输入提醒内容的关键词，如银行排号中的号码或公交站的站名；图5右侧虚线部分为提醒模块，用于该关键词匹配成功后，控制智能终端上的振动部件来提醒用户，并在智能终端上显示提醒信息。两个模块在运行中调用了智能终端系统对外提供的触摸屏输入、振动、显示输出等模块。

场景感知模块用于感知并确定用户的运用场景，其流程见图6。该模块由总控模块来调用，其包含四个子模块：

位置分析模块，通过智能终端(手机)上的定位部件，获取用户当时所处的位置数据，然后调用第三方的地图软件，根据该位置数据，获得用户当时所处的位置属性，本实施例中，位置属性定义为下述四个类别之一：银行、医院、马路、其它；

运动分析模块，通过智能终端(手机)上的运动传感器,获取聋人当时的运动属性，本实施例中，具体实施方式为：调用智能终端上的加速度计模块，获取加速度数据，将加速度数据积分得到速度数据，计算一段时长(参考值5-60秒，本实施例中为30秒)内的平均速度，利用预设的阈值，根据平均速度确定其运动属性。在本实施例中，将运动属性定义为下述三个类别之一：静止、步行、交通工具；

语义分析模块，用于分析该关键词得到其语义属性，本实施例中，具体实施方式为：定义语义属性为下述两个类别之一：号码、站名，对该关键词进行分析，若该关键词为数字号码则判定为“号码”，从该位置数据提供的信息中可得到用户所处的城市信息，利用预存的全国各城市的公交/地铁站名与用户输入的关键词进行匹配，若匹配成功则将语义属性判定为“站名”；

场景确定模块，根据该位置属性、该运动属性以及该语义属性，通过加权融合的算法确定用户的运用场景，在本实施例中，将场景定义为如下两个类别之一：室内叫号、公交报站。所述加权融合算法的具体过程为：首先，建立位置属性、运动属性、关键词语义属性的取值与场景信息的取值之间的对应关系。本实施例中，定义的对应关系为：

位置属性：{银行、医院}->室内叫号，{马路、其它}->公交报站

运动属性：{静止、步行}->室内叫号，交通工具->公交报站

关键词语义属性：号码->室内叫号，站名->公交报站

接照该对应关系，可得到每种属性下每种运用场景的得分：设p₁，m₁,s₁分别表示位置属性、运动属性、关键词语义属性下“室内叫号”场景的得分，p₂，m₂,s₂分别表示位置属性、运动属性、关键词语义属性下“公交报站”场景的得分，若每种属性的取值对应相应的运用场景，则该得分为1，否则为0。定义

S_i＝c_p*p_i+c_m*m_i+c_s*s_i,i＝1,2

其中，S₁和S₂分别表示最终确定的场景为“室内叫号”和“公交报站”的得分，c_p,c_m,c_s分别为各属性对应的权重，在本实施例中，取值分别为：0.3,0.3,0.4。根据S₁，S₂，选取得分最高的运用场景为最终确定的运用场景。

数据采集及预处理模块用于采集广播声音，生成声音数据，并对该声音数据进行预处理，生成广播语音数据。在本实施例中，采用连接至智能终端(手机)MIC口的外置远讲拾音器采集广播声音。在另一个实施例中，采用与智能终端(手机)通过蓝牙进行无线连接的外置远讲拾音器采集广播声音。在另一个实施例中，采用智能终端(手机)内置的麦克风采集广播声音。在本实施例中，采集的广播声音数据为16KHz采样、16位量化的单声道PCM编码数据。数据采集及预处理模块的流程图见图7。该模块包括两个子模块：图7左侧虚线部分为数据采集子模块，用于持续实时采集声音数据并存入缓冲池。图7右侧虚线部分为数据预处理子模块，用于从该缓冲池中取出该声音数据，并从该声音数据中提取广播语音数据，对该广播语音数据进行语音增强处理后发送给该语音识别模块。其具体过程包括：

(1)每次从缓冲池中取一段固定时长的声音数据。本实施例中，设定取1秒的声音数据；

(2)对该固定时长的声音数据，进行基于运用场景的广播语音检测，即判断该声音数据中是否包含有广播语音。采用的方法为基于预先训练的分类器的方法：预先为每种场景训练一个广播语音分类器。分类器可采用混合高斯模型(GMM)、支持向量机(SVM)、人工神经网络(ANN)等已有模型。在本实施例中，采用SVM模型。预先在每种场景下采集大量包含和不包含广播语音的声音数据并进行相应的标记，形成训练数据集。然后用训练数据集训练分类器模型。训练方法采用当前已有的方法和工具，如libSVM工具。在数据预处理时，根据场景感知模块所得到的运用场景，采用该运用场景对应的分类器，对当前声音数据进行分类，判断其是否包含有广播语音；

(3)若判定包含有广播语音，则进行记录后继续取后续声音数据进行处理；若判定未包含有广播语音，则查询是否有广播语音的记录，如没有则继续取后续声音处理。如果有，则计算累计间隔时间，即最后一次记录到广播语音数据的时间与当前数据的时间差，若累计间隔时间小于预先规定的阈值，则认为可能仍存在连续的广播语音，继续取后续声音处理；若累计间隔时间大于预先规定的阈值，则认为广播语音已经结束，进行下一步处理；

(4)根据广播语音记录，截取从第一次记录到最后一次记录时间所包含的全部声音数据作为广播语音数据，对其进行语音增强操作后返回。语音增强用于去除背景噪音，可采用当前常用的各种语音增强方法，如背景谱减、维纳滤波等。本实施例中采用维纳滤波方法。

语音识别模块，用于接收识别该广播语音数据，加载对应该运用场景的语音识别模型，并根据该语音识别模型将该广播语音数据转换成文字信息，在总控模块的控制下，将该文字信息发送到关键词匹配模块，其中该语音识别模型包括针对特别运用场景的声学模型和语言模型,从而提高语音识别的正确率，更加适应多种运用场景。本实施例中使用第三方提供的语音识别引擎。

关键词匹配模块用于接收该文字信息，并将该文字信息与该关键词进行匹配，如果该文字信息包含该关键词，则向用户交互模块发送一个匹配成功的标记，其流程图见图8。

此外，本发明还提供一种基于智能终端的聋人提示方法，该数据采集及预处理方法，包括以下步骤：

场景感知步骤，感知并确定聋人的运用场景；

用户交互步骤，实现聋人与系统之间的交互。

其中该用户交互步骤，包括：

关键词输入步骤，聋人在触摸屏上输入提醒内容的关键词；

该数据采集及预处理步骤，包括：

数据采集步骤，持续实时采集声音数据并存入缓冲池；

该数据预处理步骤，包括：

每次从该缓冲池中取一段固定时长的该声音数据；

本发明还提供一种智能手机，包括外置远讲拾音器，该拾音器采用直接插入或者无线方式与智能手机连接。

虽然本发明以上述实施例公开，但具体实施例仅用以解释本发明，并不用于限定本发明，任何本技术领域技术人员，在不脱离本发明的构思和范围内，可作一些的变更和完善，故本发明的权利保护范围以权利要求书为准。

Claims

1.一种基于智能终端的聋人提示系统，其特征在于，该提示系统基于智能手机且包括总控模块、用户交互模块、场景感知模块、数据采集及预处理模块、语音识别模块、关键词匹配模块，其中：

用户交互模块，用于聋人与系统之间的交互；

场景感知模块，用于感知并确定聋人的运用场景；

总控模块用于控制整个系统按流程运行。

2.如权利要求1所述的基于智能终端的聋人提示系统，其特征在于，该用户交互模块，包括：

3.如权利要求1所述的基于智能终端的聋人提示系统，其特征在于，该数据采集及预处理模块，包括根据该运用场景对该声音数据进行起始点和结束点检测，去除噪音。

4.如权利要求1所述的基于智能终端的聋人提示系统，其特征在于，该场景感知模块，包括：

运动分析模块，通过运动传感器,获取聋人当时的运动属性；

语义分析模块，通过分析该关键词得到其语义属性；

5.如权利要求1所述的基于智能终端的聋人提示系统，其特征在于，该数据采集及预处理模块，包括：

6.一种基于智能终端的聋人提示方法，其特征在于，该数据采集及预处理方法，包括以下步骤：

场景感知步骤，感知并确定聋人的运用场景；

用户交互步骤，实现聋人与系统之间的交互。

7.如权利要求6所述的基于智能终端的聋人提示方法，其特征在于，该用户交互步骤，包括：

关键词输入步骤，聋人在触摸屏上输入提醒内容的关键词；

8.如权利要求6所述的基于智能终端的聋人提示方法，其特征在于，该数据采集及预处理步骤，包括：

数据采集步骤，持续实时采集声音数据并存入缓冲池；

9.如权利要求8所述的基于智能终端的聋人提示方法，其特征在于，该数据预处理步骤，包括：

每次从该缓冲池中取一段固定时长的该声音数据；

10.一种如权利要求1所述的智能手机，其特征在于，包括外置远讲拾音器，采用直接插入或者无线方式与智能手机连接。