CN108648758A

CN108648758A - 医疗场景中分离无效语音的方法及系统

Info

Publication number: CN108648758A
Application number: CN201810201962.1A
Authority: CN
Inventors: 赵东阳
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2018-10-12
Anticipated expiration: 2038-03-12
Also published as: CN108648758B

Abstract

本发明涉及一种医疗场景中分离无效语音的方法，包括：步骤1，获取唤醒语音，在所述唤醒语音正确时启动在线识别；步骤2，识别所述唤醒语音，得到第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征，是，执行步骤3，否，执行步骤4；步骤3，识别后续获取的语音数据，得到第二语音特征，并输出所述语音数据的文字识别结果；且在所述第二语音特征不为有效录入人的预存的语音特征时，继续步骤4；步骤4，停止在线识别。本发明提供的医疗场景中分离无效语音的方法，可减少医护人员记录病人病情时对混乱的文字整理的难度，减少了医护人员对病情记录的难度。

Description

医疗场景中分离无效语音的方法及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种医疗场景中分离无效语音的方法及系统。

背景技术

随着信息技术的飞速发展，语音识别技术应用也不断扩大，在医疗场景中，体现为通过麦克风或其它装置采集医护人员的语音数据，通过识别引擎获取识别结果并输出文字识别结果，医护人员可通过简单的复制修改即可对病人的病情进行记录；

在实际应用中，由于医疗场景中环境复杂，麦克风或其它装置采集的语音数据中容易参杂非本人发出的语音数据，此处可定义为无效语音数据，从而使识别结果中参杂无效语音，使输出的文字内容混乱，增加了医护人员对病情记录的难度。

发明内容

因此，本发明提供了一种医疗场景中分离无效语音的方法，以解决上述的问题。

本发明的技术方案是：一种医疗场景中分离无效语音的方法，包括：步骤1，获取唤醒语音，在所述唤醒语音正确时启动在线识别；

步骤2，识别所述唤醒语音，得到第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征，

是，执行步骤3，

否，执行步骤4；

步骤3，识别后续获取的语音数据，得到第二语音特征，并输出所述语音数据的文字识别结果；且在所述第二语音特征不为有效录入人的预存的语音特征时，继续步骤4；

步骤4，停止在线识别。

作为一种可选的方案，在步骤2之前还包括：

步骤a，获取输入的登录账号；

所述步骤2中，判断所述第一语音特征是否为有效录入人的预存的语音特征之后，还包括：

步骤21，若所述第一语音特征为有效录入人的预存的语音特征，确定所述有效录入人的预存账号，并判断所述登录账号与所述预存账号是否一致。

作为一种可选的方案，在步骤2中，识别所述唤醒语音，得到第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征，包括，

步骤2a，确定所述唤醒语音的语音波形，并判断所述语音波形是否含有多个源信号；

若所述语音波形含有多个源信号，将所述语音波形分离成多个单一的波形，并逐一判断分离的多个单一波形的语音特征是否为有效录入人的预存的语音特征；

当分离的多个单一波形中，存在语音特征为有效录入人的预存的语音特征的单一波形时，确定所述第一语音特征是有效录入人的预存的语音特征，并在此步骤之后，步骤3中，在识别后续获取的语音数据之前，还包括，判断后续获取的语音数据是否含有多个源数据；

若后续获取的语音数据含有多个源数据，将所述语音数据分离成多个单一语音数据，并筛选出包含有效录入人的预存的语音特征的单一数据；

若后续获取的语音数据不含有多个源数据，则直接识别后续获取的语音数据；

当分离的多个单一波形中，不存在语音特征为有效录入人的预存的语音特征的单一波形时，确定所述第一语音特征不是有效录入人的预存的语音特征；

若所述语音波形不含有多个源信号，则直接识别所述唤醒语音的第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征。

作为一种可选的方案，该方法还包括：

采集语音采集装置周围的气体特征信息，所述气体特征信息包括气体流速V、气体密度ρ和气体温度T，所述语音采集装置为采集所述语音数据的装置；

以单位时间段为基准，确定单位时间段的起始时间时的第一气体特征信息和所述单位时间段的终止时间时的第二气体特征信息，所述第一气体特征信息包括在所述单位时间段的起始时间时的气体流速V1、气体密度ρ1和气体温度T1，所述第二气体特征信息包括在所述单位时间段的终止时间时的气体流速V2、气体密度ρ2和气体温度T2；

根据单位时间段内的所述第一气体特征信息和所述第二气体特征信息生成当前单位时间段内的气体特征变化曲线，所述气体变化特征曲线包括当前单位时间段内气体流速变化曲线、气体密度变化曲线和气体温度变化曲线；

依次对所有单位时间段内的气体特征变化曲线拼合形成气体特征变化总曲线，所述气体特征变化总曲线包括气体流速变化总曲线、气体密度变化总曲线和气体温度变化总曲线；

确定所述气体特征变化总曲线与预存的与有效录入人相关的气体特征变化预存曲线之间的相似度，当所述相似度小于预设阈值时，执行步骤4。

本发明提供的医疗场景中分离无效语音的方法，通过识别唤醒语音，得到第一语音特征，并通过判断所述第一语音特征是否为有效录入人的预存的语音特征，进而控制输出后续语音数据的文字识别结果还是停止在线识别，从而可防止识别结果中掺杂无效语音，使输出的文字内容混乱的情况发生，从而可减少医护人员记录病人病情时对混乱的文字整理的难度，减少了医护人员对病情记录的难度。

本发明的另一种技术方案是：一种医疗场景中分离无效语音的系统，包括：

唤醒模块，用于获取唤醒语音，在所述唤醒语音正确时启动在线识别；

第一识别模块，用于识别所述唤醒语音，得到第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征；

处理模块，用于在所述第一语音特征是有效录入人的预存的语音特征时，识别后续获取的语音数据，得到第二语音特征，并输出所述语音数据的文字识别结果；且在所述第二语音特征不为有效录入人的预存的语音特征时，停止在线识别；

所述处理模块还用于在所述第一语音特征不为有效录入人的预存的语音特征时，停止在线识别。

作为一种可选的方案，该系统还包括：获取模块；

在所述第一识别模块识别所述唤醒语音的第一语音特征之前，所述获取模块用于获取输入的登录账号；

所述第一识别模块在判断所述第一语音特征是否为有效录入人的预存的语音特征之后，还用于：

若所述第一语音特征为有效录入人的预存的语音特征，确定所述有效录入人的预存账号，并判断所述登录账号与所述预存账号是否一致；

在所述登录账号与所述预存账号一致时，所述处理模块用于识别后续获取的语音数据，确定所述语音数据的第二语音特征，并输出所述语音数据的文字识别结果；

在所述登录账号与所述预存账号不一致时，所述处理模块用于停止在线识别。

作为一种可选的方案，所述第一识别模块还用于，

确定所述唤醒语音的语音波形，并判断所述语音波形是否含有多个源信号；

当分离的多个单一波形中，存在语音特征为有效录入人的预存的语音特征的单一波形时，确定所述第一语音特征是有效录入人的预存的语音特征；

在所述第一识别模块确定分离的多个单一波形中存在语音特征为有效录入人的预存的语音特征的单一波形时之后，所述处理模块在识别后续获取的语音数据之前，还用于，判断后续获取的语音数据是否含有多个源数据；

若后续获取的语音数据不含有多个源数据，则所述处理模块直接识别后续获取的语音数据；

作为一种可选的方案，该系统还包括：

采集模块，用于采集语音采集装置周围的气体特征信息，所述气体特征信息包括气体流速V、气体密度ρ和气体温度T，所述语音采集装置为采集所述语音数据的装置；

确定模块，用于以单位时间段为基准，确定单位时间段的起始时间时的第一气体特征信息和所述单位时间段的终止时间时的第二气体特征信息，所述第一气体特征信息包括在所述单位时间段的起始时间时的气体流速V1、气体密度ρ1和气体温度T1，所述第二气体特征信息包括在所述单位时间段的终止时间时的气体流速V2、气体密度ρ2和气体温度T2；

第一生成模块，用于根据单位时间段内的所述第一气体特征信息和所述第二气体特征信息生成当前单位时间段内的气体特征变化曲线，所述气体变化特征曲线包括当前单位时间段内气体流速变化曲线、气体密度变化曲线和气体温度变化曲线；

第二生成模块，用于依次对所有单位时间段内的气体特征变化曲线拼合形成气体特征变化总曲线，所述气体特征变化总曲线包括气体流速变化总曲线、气体密度变化总曲线和气体温度变化总曲线；

比较模块，用于确定所述气体特征变化总曲线与预存的与有效录入人相关的气体特征变化预存曲线之间的相似度，当所述相似度小于预设阈值时，停止在线识别。

本发明提供的医疗场景中分离无效语音的系统，通过第一识别模块识别唤醒语音，得到第一语音特征，并通过判断所述第一语音特征是否为有效录入人的预存的语音特征，进而通过处理模块控制输出文字识别结果还是停止在线识别，从而可防止识别结果中掺杂无效语音，使输出的文字内容混乱的情况发生，从而可减少医护人员记录病人病情时对混乱的文字整理的难度，减少了医护人员对病情记录的难度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种医疗场景中分离无效语音的方法的结构示意图；

图2为本发明的一种医疗场景中分离无效语音的系统的原理图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1，本发明提供了一种医疗场景中分离无效语音的方法，包括：

步骤1，获取唤醒语音，在所述唤醒语音正确时启动在线识别。

本发明实施例中，根据用户输入的唤醒语音启动在线识别功能。具体的，在线识别的启动可以通过关键词唤醒的方式启动，比如，关键词为“开始”；当获取到唤醒语音时，对该唤醒语音进行文字识别，判断该唤醒语音是否含有关键词或唤醒词，当该唤醒语音包含“开始”词语时，即可启动在线识别。当然，也可以通过“结束”等词语停止在线识别。

步骤2，识别所述唤醒语音，得到第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征，是，执行步骤3，否，执行步骤4。

本发明实施例中，语音特征至少包括声纹特征，还可以包含其他特征，本申请对此不做限定；有效录入人指的是具有相应权限的预设用户，比如具有利用该方法实现语音分离功能的用户。预先存储有效录入人的语音特征，即至少预存有效录入人的声纹特征，当获取到唤醒语音时，对该唤醒语音进行识别处理，进而确定与该唤醒语音相对应的第一语音特征；当该第一语音特征与有效录入人的语音特征一致时，说明采集的唤醒语音是有效录入人发出的声音，故此时可以执行后续的处理过程，即步骤3；若第一语音特征与有效录入人的语音特征不一致，则说明发出唤醒语音的用户并不是有效录入人，此时可以禁止该用户继续相应的操作，可以停止在线识别。

步骤3，识别后续获取的语音数据，得到第二语音特征，并输出所述语音数据的文字识别结果；且在所述第二语音特征不为有效录入人的预存的语音特征时，继续步骤4。

本发明实施例中，在启动在线识别后，继续采集用户的语音，即语音数据，之后对该语音数据进行识别处理，进而输出与该语音数据相对应的文字。同时，该第二语音特征也至少包括声纹特征；当语音数据的第二语音特征不为有效录入人的预存的语音特征时，说明此时采集到其他无效用户的语音，故此时停止在线识别以避免文字识别结果中掺杂无效信息。例如，医生为有效录入人，当医生通过唤醒语音启动在线识别后，医生通过口述病人病例将与病人病例相关的语音数据输入至执行该方法的执行主体(比如智能手机、电脑等)，此时该执行主体对该语音数据进行识别，从而生成文字形式的病例，方便医生快速记录病人病例。若医生口述病人病例时，病人有插话行为，此时该执行主体所采集到的语音数据既包含医生发出的语音，也包含病人发出的语音(或者只包含病人发出的声音)，此时该语音数据的第二语音特征并不是有效录入人的语音特征，故停止在线识别以防止识别的病例中掺杂无效语音输出。

步骤4，停止在线识别。

需要说明的是，本申请在有无效语音时即可停止在线识别，使输出的语音数据的文字识别结果仅仅是有效语音对应的文字识别结果，达到将无效语音分离出去的目的。

在实际使用中，有效录入人可能为多个，为了防止混淆，申请人做了如下设计，在步骤2之前还包括步骤a，

步骤a：获取输入的登录账号。

本发明实施例中，在执行在线识别之前需要用户输入登录账号，之后判断该登录账号是否合法，在该登录账号合法时(比如登录账号与有效录入人的预存账号一致时)执行在线识别。

步骤21，若所述第一语音特征为有效录入人的预存的语音特征，确定所述有效录入人的预存账号，并判断所述登录账号与所述预存账号是否一致，进而执行不同的步骤：是，执行步骤3，否，执行步骤4；

当然，第一语音特征不是有效录入人的预存的语音特征时，执行步骤4。

本发明实施例中，有效录入人为多个，以3个为例，分别为有效录入人A，有效录入人B和有效录入人C，3个有效录入人预存的相应账号为A账号，B账号和C账号，假设执行在线识别之前用户输入的登录账号为A账号，该账号是合法的，则判断所述第一语音特征是否为有效录入人的预存的语音特征，此时，有效录入人的预存的语音特征包括3种情况：有效录入人A的预存的语音特征、有效录入人B的预存的语音特征和有效录入人C的预存的语音特征，所述第一语音特征不是有效录入人A的预存的语音特征，也不是有效录入人B的预存的语音特征，还不是有效录入人C的预存的语音特征，则停止在线识别；若第一语音特征是有效录入人A的预存的语音特征，则确定其绑定的账号为有效录入人A预存账号(即A账号)，判断与登录账号一致，执行步骤3；若第一语音特征是有效录入人B的预存的语音特征，则确定其绑定的账号为有效录入人B预存账号(即B账号)，判断与登录账号不一致，执行步骤4，可防止在有效录入人A使用在线识别时有效录入人B与其产生混淆，同理，若第一语音特征是有效录入人C的预存的语音特征，则执行步骤4。

由于每个有效录入人的账号是不同的，因此，每个有效录入人对应唯一的登录账号，可防止混淆。

在实际使用中，由于医疗场景中环境复杂，比如经常会有病人过去询问自己病情，或者是急救车启动产生噪音等，因此，通过一次采集医护人员的语音数据并识别最后输出的文字识别结果可能不完整，可通过人工录入或者从缺失的部分开始再次启动在线识别，采集医护人员的相应部分的语音数据并识别最后输出相应的文字识别结果，从而使医护人员对病人的病情记录完整。这种情况，操作比较麻烦，为此申请人做了如下设计，识别所述唤醒语音，得到第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征，包括，

步骤2a，确定所述唤醒语音的语音波形，并判断所述语音波形是否含有多个源信号，该判断技术可以使用现有的技术，比如盲源分离技术；

若所述语音波形含有多个源信号，将所述语音波形分离成多个单一的波形，该语音分离的方法可以使用现有的语音分离方法，比如盲源分离方法，并逐一判断分离的多个单一波形的语音特征是否为有效录入人的预存的语音特征；

当分离的多个单一波形中，存在语音特征为有效录入人的预存的语音特征的单一波形时，确定所述第一语音特征是有效录入人的预存的语音特征，并在此步骤之后，步骤3中，在识别后续获取的语音数据之前，还包括，判断后续获取的语音数据是否含有多个源数据，需要说明的是，此处的源数据也可以是源信号的的形式，当然下述的语音数据、单一数据也可以是语音信号、单一信号等；

若后续获取的语音数据含有多个源数据，将所述语音数据分离成多个单一语音数据，并筛选出包含有效录入人的预存的语音特征的单一数据，这样，后续获取的语音数据即为该单一数据，也就是有效录入人后续的语音数据，保证得到第二语音特征为有效录入人的预存的语音特征，滤除了不含有有效录入人的预存的语音特征的语音数据，从而通过一次采集医护人员的语音数据并识别最后输出的文字识别结果更完整；

当然，若后续获取的语音数据不含有多个源数据，则直接识别后续获取的语音数据；

当分离的多个单一波形中，不存在语音特征为有效录入人的预存的语音特征的单一波形时，确定所述第一语音特征不是有效录入人的预存的语音特征，执行步骤4；

若所述语音波形不含有多个源信号，则直接识别所述唤醒语音的第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征，是执行步骤3，不是执行步骤4。

通过该设计，可以将采集的语音数据中参杂非有效录入人发出的语音数据部分滤除，从而使在线识别输出的文字结果更全面，该方法在实现在线识别输出的文字结果更全面的同时，步骤简单，处理迅速，使用方便。

在实际应用中，为了防止非有效录入人仿造有效录入人操作，比如通过录音的手段获取了有效录入人的预存的语音特征，申请人还做了如下设计：

该方法还包括：

根据单位时间段内的所述第一气体特征信息和所述第二气体特征信息生成当前单位时间段内的气体特征变化曲线，可以通过现有的方式生成，比如通过微积分的方式，所述气体变化特征曲线包括当前单位时间段内气体流速变化曲线、气体密度变化曲线和气体温度变化曲线；

该设计依据：由于本人发声时，口腔内的温度会被气体带出一部分使语音采集装置或采集模块附近的气体温度发声变化，而通过录音的手段获取了有效录入人的预存的语音特征是达不到该效果的、并且人们发声时呼入或呼出气体使周围气体产生振动，使语音采集装置或采集模块附近的气体的密度和流动速度发生变化，将有效录入人的这些变化的波形叠加后形成唯一的波形从而将这种波形预存后，用来与有效录入人使用执行该方法的系统时发出的声音信号的上述的变化生成的波形比较，可方便的防止非本人仿造有效录入人操作的情况发生，尤其将使用时唤醒在线识别的语音信号的上述的变化产生的波形与预存的唤醒在线识别的语音上述的变化产生的波形比较，效果更好，判断更准确。

实施例2，本发明还提供了一种医疗场景中分离无效语音的系统，包括：

在实际使用中，有效录入人可能为多个，为了防止混淆，申请人做了如下设计，该系统还包括：获取模块；

在实际使用中，由于医疗场景中环境复杂，比如经常会有病人过去询问自己病情，或者是急救车启动产生噪音等，因此，通过一次采集医护人员的语音数据并识别最后输出的文字识别结果可能不完整，可通过人工录入或者从缺失的部分开始再次启动在线识别，采集医护人员的相应部分的语音数据并识别最后输出相应的文字识别结果，从而使医护人员对病人的病情记录完整。这种情况，操作比较麻烦，为此申请人做了如下设计，所述第一识别模块还用于，

若后续获取的语音数据不含有多个源数据，则所述处理模块直接识别后续获取的语音数据，本申请中，语音数据也可为语音信号；

通过该设计，可以将采集的语音数据中掺杂非本人发出的语音数据部分滤除，从而使在线识别输出的文字结果更全面，该方法在实现在线识别输出的文字结果更全面的同时，步骤简单，处理迅速，使用方便。

在实际应用中，为了防止非本人仿造有效录入人操作，比如通过录音的手段获取了有效录入人的预存的语音特征，申请人还做了如下设计：

该系统还包括：

该设计依据：由于本人发声时，口腔内的温度会被气体带出一部分使采集装置或采集模块附近的气体温度发声变化，而通过录音的手段获取了有效录入人的预存的语音特征是达不到该效果的、并且人们发声时使气体产生振动，使采集装置或采集模块附近的气体的密度和流动速度发生变化，将有效录入人的这些变化的波形叠加后形成唯一的波形从而将这种波形预存后，用来与有效录入人使用该系统时发出的声音信号的上述的变化生成的波形比较，可方便的防止非本人仿造有效录入人操作的情况发生，尤其将使用时唤醒在线识别的语音信号的上述的变化产生的波形与预存的唤醒在线识别的语音上述的变化产生的波形比较，效果更好，判断更准确。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种医疗场景中分离无效语音的方法，其特征在于，包括：

步骤1，获取唤醒语音，在所述唤醒语音正确时启动在线识别；

是，执行步骤3，

否，执行步骤4；

步骤4，停止在线识别。

2.根据权利要求1所述的医疗场景中分离无效语音的方法，其特征在于，在步骤2之前还包括：

步骤a，获取输入的登录账号；

3.根据权利要求1或2所述的医疗场景中分离无效语音的方法，其特征在于，在步骤2中，识别所述唤醒语音，得到第一语音特征，判断所述第一语音特征是否为有效录入人的预存的语音特征，包括，

4.根据权利要求1或2所述的医疗场景中分离无效语音的方法，其特征在于，还包括：

5.一种医疗场景中分离无效语音的系统，其特征在于，包括：

6.根据权利要求5所述的医疗场景中分离无效语音的系统，其特征在于，还包括：获取模块；

7.根据权利要求5或6所述的医疗场景中分离无效语音的系统，其特征在于，所述第一识别模块还用于，

8.根据权利要求5或6所述的医疗场景中分离无效语音的系统，其特征在于，还包括：