CN110874879A

CN110874879A - 基于语音识别的老人挂号方法、装置、设备及存储介质

Info

Publication number: CN110874879A
Application number: CN201910991653.3A
Authority: CN
Inventors: 洪振厚; 王健宗; 朱星华
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-03-10
Also published as: WO2021073161A1

Abstract

本发明涉及人工智能技术领域，公开了一种基于语音识别的老人挂号方法、装置、设备及存储介质，用于帮助老人准确进行预约挂号，提高了老人通过自助服务预约挂号成功的概率；本发明方法包括：通过专用通道获取纯净语音信号，专用通道使用小波变换增强语音信号；通过预置语音模型识别纯净语音信号，得到单元数据；通过预置解析模型解析单元数据，得到语音文本；根据语音文本按照预置规则获取匹配结果；根据匹配结果按照预置显示规则显示预约结果。

Description

基于语音识别的老人挂号方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音识别的老人挂号方法、装置、设备及存储介质。

背景技术

语音识别是人工智能领域重要的领域，语音识别对于人类来说是一种天生的能力，而对于人工智能来说，却代表了科技的高水平发展，中国平安、微软、苹果等巨头都在布局人工智能中的语音识别。人类能够通过语音与机器交互实现操作的便捷，通过语音提取出当中的信息，机器能够快速准确的做出人们需要的结果或者操作。语音识别在各行各业有广泛的应用，特别是医疗方面，语音识别能够改善服务质量，提高病人满意度。

在医疗方面，采用现场排队挂号会浪费病人的时间，为了节省挂号时间，医疗行业推出了一种预约挂号系统，病人可以通过医院终端或客户端软件来预约挂号，方便病人挂号，节省挂号时间。

这种预约挂号系统的操作界面对老人不友好，预约挂号时要面对复杂、冗长、繁琐的导航菜单，老人需要逐层听取菜单提示，根据引导一步步进行按键操作才能得到预定病号，这样会使老人花大量时间去学习操作，并且由于科目类别相对复杂，很大概率会选错，甚至无法通过这种便捷的挂号系统获得号码。

发明内容

本发明的提供一种基于语音识别的老人挂号方法、装置、设备及存储介质，用于增强老人语音信号，帮助老人准确进行预约挂号，提高了老人通过自助服务预约挂号成功的概率。

为本发明实施例的第一方面提供一种基于语音识别的老人挂号方法，包括：通过专用通道获取纯净语音信号，所述专用通道使用小波变换增强语音信号；通过预置语音模型识别所述纯净语音信号，得到单元数据；通过预置解析模型解析所述单元数据，得到语音文本；根据所述语音文本按照预置规则获取匹配结果；根据所述匹配结果按照预置显示规则显示预约结果。

可选的，在本发明实施例第一方面的第一种实现方式中，所述通过所述专用通道获取纯净语音信号，所述专用通道使用小波变换增强语音信号包括：通过专用通道获取语音信号；将所述语音信号转换为语音波形；根据预置函数与分解层数对所述语音波形进行分解，得到多个语音尺度系数，所述语音尺度系数的数量与所述分解层数相对应；根据阈值与阈值去噪函数对所述语音尺度系数进行压缩，得到高频语音尺度系数；采用预置算法根据所述语音尺度系数与所述高频语音尺度系数对所述语音信号进行重组，得到所述纯净语音信号。

可选的，在本发明实施例第一方面的第二种实现方式中，所述根据阈值与阈值去噪函数对所述语音尺度系数进行压缩，得到高频语音尺度系数包括：根据极大极小准则与所述尺度系数选取阈值；根据所述阈值选取阈值去噪函数；根据所述阈值去噪函数对所述语音尺度系数进行过滤，得到所述高频语音尺度系数。

可选的，在本发明实施例第一方面的第三种实现方式中，所述通过预置语音模型识别所述纯净语音信号，得到单元数据包括：将所述纯净语音信号处理为帧数据；从所述帧数据中获取语音特征；将所述语音特征输入预置语音模型进行处理，得到单元数据，所述预置语音模型为训练后的模型。

可选的，在本发明实施例第一方面的第四种实现方式中，所述通过预置解析模型解析单元数据，得到语音文本包括：通过概率模型处理所述单元数据，得到概率序列，所述概率序列为多个分类概率的集合；采用预置解析模型搜寻所述概率序列中的最大分类概率；根据所述最大分类概率搜寻与最大分类概率相对应的所述单元数据；将所述单元数据转换为语音文本。

可选的，在本发明实施例第一方面的第五种实现方式中，所述根据语音文本按照预置规则获取匹配结果包括：判断所述语音文本与预置科目类别是否匹配，所述预置科目类别包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科；若所述语音文本与所述预置科目类别相匹配，则获取数字号码，所述数字号码属于所述匹配结果，所述数字号码为相匹配的预置科目类别的预约号码；若语音文本与所述预置科目类别不匹配，则获取错误结果，所述错误结果属于所述匹配结果，所述错误结果为文字提示消息。

可选的，在本发明实施例第一方面的第六种实现方式中，所述根据匹配结果按照预置显示规则显示预约结果包括：判断所述匹配预约结果是否为所述数字号码；若所述匹配结果为所述数字号码，则显示成功结果，所述成功结果属于所述预约结果，所述成功结果包括预约成功字样和所述数字号码相匹配的号码文本；若所述匹配结果不为数字号码，则显示失败结果，所述失败结果属于所述预约结果，所述失败结果为预约失败字样。

本发明实施例的第二方面提供一种基于语音识别的老人挂号装置，包括：第一获取单元，用于通过专用通道获取纯净语音信号，所述专用通道使用小波变换增强语音信号；识别单元，用于通过预置语音模型识别所述纯净语音信号，得到单元数据；解析单元，用于通过预置解析模型解析单元数据，得到语音文本；第二获取单元，用于根据语音文本按照预置规则获取匹配结果；显示单元，用于根据匹配结果按照预置显示规则显示预约结果。

可选的，在本发明实施例第二方面的第一种实现方式中，第一获取单元具体包括：获取子单元，用于通过专用通道获取语音信号；转换子单元，用于将所述语音信号转换为语音波形；分解子单元，用于根据预置函数与分解层数对所述语音波形进行分解，得到多个语音尺度系数，所述语音尺度系数的数量与分解层数相对应；第一处理子单元，用于根据阈值与阈值去噪函数对所述语音尺度系数进行压缩，得到高频语音尺度系数；第二处理子单元，用于采用预置算法根据所述语音尺度系数与所述高频语音尺度系数对所述语音信号进行重组，得到所述纯净语音信号。

可选的，在本发明实施例第二方面的第二种实现方式中，第一处理子单元具体用于：根据极大极小准则与所述尺度系数，选取阈值；根据所述阈值选取阈值去噪函数；根据所述阈值去噪函数对所述语音尺度系数进行过滤，得到所述高频语音尺度系数。

可选的，在本发明实施例第二方面的第三种实现方式中，识别单元具体用于：将所述纯净语音信号处理为帧数据；从所述帧数据中获取语音特征；将所述语音特征输入预置语音模型进行处理，得到单元数据，所述预置语音模型为训练后的模型。

可选的，在本发明实施例第二方面的第四种实现方式中，解析单元具体用于：通过概率模型处理所述单元数据，得到概率序列，所述概率序列为多个分类概率的集合；采用预置解析模型搜寻所述概率序列中的最大分类概率；根据所述最大分类概率搜寻与最大分类概率相对应的所述单元数据；将所述单元数据转换为语音文本。

可选的，在本发明实施例第二方面的第五种实现方式中，第二获取单元具体用于：判断所述语音文本与预置科目类别是否匹配，所述预置科目类别包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科；若所述语音文本与所述预置科目类别相匹配，则获取数字号码，所述数字号码属于所述匹配结果，所述数字号码为相匹配的预置科目类别的预约号码；若语音文本与所述预置科目类别不匹配，则获取错误结果，所述错误结果属于所述匹配结果，所述错误结果为文字提示消息。

可选的，在本发明实施例第二方面的第六种实现方式中，显示单元具体用于：判断所述匹配结果是否为所述数字号码；若所述匹配结果为所述数字号码，则显示成功结果，所述成功结果属于所述预约结果，所述成功结果包括预约成功字样和所述数字号码相匹配的号码文本；若所述匹配结果不为所述数字号码，则显示失败结果，所述失败结果属于所述预约结果，所述失败结果为预约失败字样。

本发明实施例的第三方面提供了一种基于语音识别的老人挂号设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述的基于语音识别的老人挂号的方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明的提供一种基于语音识别的老人挂号方法、装置、设备及存储介质，通过专用通道获取纯净语音信号，所述专用通道使用小波变换增强语音信号；通过预置语音模型识别所述纯净语音信号，得到单元数据；通过预置解析模型解析单元数据，得到语音文本；根据语音文本按照预置规则获取匹配结果；根据匹配结果按照预置显示规则显示预约结果。本发明实施例帮助老人准确进行预约挂号，提高了老人通过自助服务预约挂号成功的概率。

附图说明

图1为本发明中基于语音识别的老人挂号方法的一个实施例示意图；

图2为本发明中基于语音识别的老人挂号方法的另一个实施例示意图；

图3为本发明中基于语音识别的老人挂号装置的一个实施例示意图；

图4为本发明中基于语音识别的老人挂号装置的另一个实施例示意图；

图5为本发明中基于语音识别的老人挂号设备的一个实施例示意图。

具体实施方式

本发明的提供一种基于语音识别的老人挂号方法，用于增强老人语音信号，帮助老人准确进行预约挂号，提高了老人通过自助服务预约挂号成功的概率。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例中基于语音识别的老人挂号方法一个实施例包括：

101、通过专用通道获取纯净语音信号，专用通道使用小波变换增强语音信号。

服务器通过专用通道获取纯净语音信号，专用通道使用小波变换增强语音信号。

需要说明的是，由于老人的声音在音量上相对较小、说话速度相对缓慢及发音比较含糊等问题，服务器需要通过专用通道对老人的语音信号进行语音增强，从而更好的识别老人的需求。

为了便于理解，下面结合举例场景进行说明：

老人用手触碰显示屏上的控制按钮，从而激活专用通道，在触碰控制按钮之后，老人通过麦克风讲话，例如：挂内科号、我的胃痛、头痛或者测量血压等语言，通过专用通道获取这些语音信号，并将在专用通道中对含糊不清的语音信号进行增强，得到语音纯净信号。

102、通过预置语音模型识别纯净语音信号，得到单元数据。

服务器通过预置语音模型识别纯净语音信号，得到单元数据。

本实施例中的预置语音模型为LSTM模型，LSTM模型为长短时期记忆网络模型，是一种时间递归神经网络模型，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型通过“门”来控制丢弃信息或者增加信息，从而实现遗忘或者记忆的功能。LSTM模型中包括多个LSTM单元，每个LSTM单元包括输入门、遗忘门与输出门，输入门控制新语音特征的加入，遗忘门控制上一个LSTM单元所得到的单元数据的遗忘程度，输出门控制单元数据被过滤的程度。

例如，“我的胃痛”的纯净语音信号，在不同时刻有不同的语音特征，对这些不同时刻的语音特征一一进行识别，需要用到多个LSTM单元，将不同时序的语音特征输入不同的LSTM单元，经过输入门、遗忘门和输出门得到每个不同时序的单元数据。

需要说明的是，在进行将语音特征输入LSTM模型中之前，需要通过大量的训练数据对LSTM模型进行训练，经过大量训练来提高LSTM模型处理数据的准确性。在提取语音特征之后，服务器判断当前语音特征的历史记录是否存在数据库中，如果当前语音特征的历史记录存在数据库中，则直接调用数据库中的历史记录作为训练数据对LSTM模型进行训练，这样的训练方式能够有效的提高LSTM模型处理数据的准确性，以便后续为老人提供更好的服务。

103、通过预置解析模型解析单元数据，得到语音文本。

服务器通过预置解析模型解析单元数据，得到语音文本。

本实施例中的预置解析模型为CTC模型，CTC的全称为Connectionist TemporalClassification，CTC主要解决输入序列和输出序列对应的问题，被广泛应用于文本识别和语音识别中。

本实施例中采用CTC模型搜索最大分类概率，得到与最大分类概率相对应的单元数据，最后通过单元数据得到与其相匹配的语音文本。

例如，[wo de weitong]的概率序列为[0.2 0.1 0.7]，那么最大分类概率为0.7，单元数据为weitong的数据，根据“weitong”的单元数据得到“胃痛”的语音文本。

104、根据语音文本按照预置规则获取匹配结果。

服务器根据语音文本按照预置规则获取匹配结果。

需要说明的是，由于本方案的服务器专用于老人的预约挂号，所以儿科、产科等科目类别都被排除在外，适用于老人的预置科目类别大致包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科等；是否住院则根据医生的建议，不包括在预订病号系统。

例如，语音文本为“胃痛”，将“胃痛”与预置科目类别进行匹配，语音文本“胃痛”与预置科目类别中的消化内科相匹配，则获取消化内科的数字号码，比如3；如果语音文本为“产科”之类的词语，将“产科”与预置科目类别进行匹配，“产科”无法与预置科目类别进行匹配，则获得错误结果。

105、根据匹配结果按照预置显示规则显示预约结果。

服务器根据匹配结果按照预置显示规则显示预约结果。

如果服务器获得的匹配结果为数字号码，说明语音文本与预置科目类别相匹配，则显示成功结果，成功结果包括预约成功字样和数字号码对应的文本，比如3号；若匹配结果为错误结果，说明语音文本无法与预置科目类别相匹配，则显示预约失败字样。

例如，服务器判断获得3的数字号码，则服务器显示预约成功，并显示3号使老人知道自己预约成功和代表自己的号码；如果服务器没有获得号码，则显示预约失败，通知老人知道自己预约失败，需要重新进行预约。

本发明实施例帮助老人准确进行预约挂号，提高了老人通过自助服务预约挂号成功的概率。

请参阅图2，本发明实施例中基于语音识别的老人挂号方法另一个实施例包括：

201、通过专用通道获取语音信号。

服务器通过专用通道获取语音信号。

服务器通过已经激活的专用通道，获取老人发出的语音信号，语音信号可以为挂内科号、我的胃痛、头痛或者测量血压等语音信号。

202、将语音信号转换为语音波形。

服务器将语音信号转换为语音波形。

203、根据预置函数与分解层数对语音波形进行分解，得到多个语音尺度系数，语音尺度系数的数量与分解层数相对应。

服务器根据预置函数与分解层数对语音波形进行分解，得到多个语音尺度系数，语音尺度系数的数量与分解层数相对应。

服务器在分解语音波形时，需要参照以下标准来选取分解语音波形的预置函数：

(1)支撑长度；支撑长度较较短的预置函数比较好；

(2)对称性：具有对称性的预置函数，在波形处理中可以有效的避免相位畸变；

(3)消失炬：消失炬对于数据压缩和特征提取是非常有用的，消失炬越大，就有更多为零的小波尺度系数；

(4)正则性：正则性好的预置函数，能在信号或图像的重构中获得较好的平滑效果，减小量化或减小涉入误差的影响；

(5)相似性：选择和信号波形相似的预置函数，这对于压缩和消噪是有参考价值的。

综上，在本实施例中选取Symlets小波函数处理语音波形，Symlets小波函数去噪性能强且在工程实践中最具价值。

服务器根据分解层数与Symlets小波函数对语音波形进行分解，以下为Symlets小波函数的公式：

式中，

为基本小波形，j决定缩放程度，k决定平移幅度，n＝2^j+k，j为满足2^j≤n的最大整数，比如n＝3时，对应j＝1且k＝1；语音波形经过Symlets小波函数，就能够得到多个语音尺度系数，例如，假设将分解层数设置为15层，那么语音波形经过Symlets小波函数能够得到15个语音尺度系数。

204、根据阈值与阈值去噪函数对语音尺度系数进行压缩，得到高频语音尺度系数。

服务器根据阈值与阈值去噪函数对语音尺度系数进行压缩，得到高频语音尺度系数。

具体的，根据极大极小准则与尺度系数，选取阈值；根据阈值选取阈值去噪函数；根据阈值去噪函数对语音尺度系数进行过滤，得到高频语音尺度系数。

服务器采用极大极小准则选取阈值，以下为极大极小准则的公式：

式中，N为每一层的语音尺度系数，如果语音尺度系数N大于或等于32，则使用σ(0.3936+0.1829log₂ N)这一公式计算阈值，其中σ为噪声标准方差，阈值具体为多少，需要根据尺度系数N来决定；如果语音尺度系数N小于32，则阈值为0。

服务器采用阈值去噪函数计算高频语音尺度系数，阈值去噪函数的公式如下：

式中，TH为阈值，WT为语音尺度系数，WT_TH为每层语音尺度系数相对应的高频语音尺度系数，如果语音尺度系数的绝对值大于阈值，则使用sgn(N)(|WT|-TH)这一公式计算高频语音尺度系数，如果语音尺度系数的绝对值小于或等于阈值，则高频语音尺度系数为0。

205、采用预置算法根据语音尺度系数与高频语音尺度系数对语音信号进行重组，得到纯净语音信号。

服务器采用预置算法根据语音尺度系数与高频语音尺度系数对语音信号进行重组，得到纯净语音信号。

本实施例中的预置算法为Mallat算法，如果随着语音尺度系数的增大，高频语音尺度系数锐减，则判断该层语音尺度系数对应的语音波形是由噪声生成的语音波形；如果随着语音尺度系数的增大，高频语音尺度系数也逐渐增大，则判断该层语音尺度系数对应的语音波形是由语音信号产生的语音波形；服务器采用Mallat算法去除由噪声生成的语音波形，保留由声音信号生成的语音波形，从而实现语音信号的重组，得到重组后的语音信号，纯净语音信号。

206、通过预置语音模型识别纯净语音信号，得到单元数据。

具体的，服务器将纯净语音信号处理为帧数据；服务器从帧数据中获取语音特征；服务器将语音特征输入预置语音模型进行处理，得到单元数据，预置语音模型为训练后的模型。

服务器将纯净语音信号处理为一帧一帧的帧数据，在从这些帧数据中提取语音特征，根据语音特征进行语音识别；服务器将语音特征输入至LSTM模型中，经过LSTM模型的的多个LSTM单元，得到多个单元数据。

为了便于理解，下面结合具体场景进行说明：

将纯净语音信号处理为帧数据，在这些帧数据中提取t-1时刻、t时刻和t+1时刻的语音特征，将t-1时刻的语音特征从输入门中输入到第一LSTM单元中，得到t-1时刻的第一待遗忘数据，第一待遗忘数据可以为“wwwooo”的数据，并且在遗忘门将第一待遗忘数据与遗忘因子相乘，从而遗忘一些不必要的数据，得到第一单元数据，第一单元数据可以为“wo”的数据；再将t时刻的语音特征输入到第二LSTM单元中，得到t时刻的第二待遗忘数据，第二待遗忘数据可以为“ddddeeeeeee”的数据，并将第二待遗忘数据与遗忘因子相乘，得到第二单元数据，第二单元数据可以为“de”的单元数据；将t+1时刻的语音特征输入到第三LSTM单元中，得到第三待遗忘数据，第三单元待遗忘数据可以为“wwweeeiiiitttooonngggg”的数据，将第三待遗忘数据与遗忘因子相乘，得到第三单元数据，第三单元数据可以为“weitong”的数据。

需要说明的是，在进行将语音特征输入LSTM模型中之前，需要通过大量的训练数据对LSTM模型进行训练，经过大量训练来提高LSTM模型处理数据的准确性。在提取语音特征之后，服务器判断当前语音特征的历史记录是否存在数据库中，如果当前语音特征的历史记录存在数据库中，则直接调用数据库中的历史记录作为训练数据对LSTM模型进行训练，这样训练方式能够有效的提高LSTM模型处理数据的准确性，以便后续为老人提供更好的服务。

207、通过预置解析模型解析单元数据，得到语音文本。

服务器通过预置解析模型解析单元数据，得到语音文本。

具体的，服务器通过概率模型处理单元数据，得到概率序列，概率序列为多个分类概率的集合；服务器采用预置解析模型搜寻概率序列中的最大分类概率；服务器根据最大分类概率搜寻与最大分类概率相对应的单元数据；服务器将单元数据转换为语音文本。

通过LSTM模型的多个LSTM单元，服务器得到多个单元数据，服务器将这些单元数据输入概率模型中，得到分类概率并形成概率序列，CTC模型在概率序列中搜寻最大的分类概率，服务器根据最大分类概率搜寻与其相对应的单元数据，服务器根据单元数据得到与单元数据相匹配的语音文本。

为了便于理解，下面结合具体场景进行说明：

将第一单元数据“wo”、第二单元数据“de”和第三单元数据“weitong”输入softmax函数，得到概率序列[0.2 0.1 0.7]，采用CTC模型搜寻与预置科目类别相匹配的分类概率最大的单元数据，在本实施例中，分类概率最大的单元数据是概率为0.7的第三单元数据“weitong”，根据第三单元数据得到相对应“胃痛”的语音文本。

需要说明的是，本方案识别语音的过程为端到端的过程，即输入端(语音特征)—输出端(语音文本)的过程，在这一过程中，无需使用声学模型和语音模型，只采用LSTM模型识别语音内容，由CTC模型识别语音文本的识别过程避免了采用其他模型带来的误差率，提高语音识别的准确率。

208、根据语音文本按照预置规则获取匹配结果。

服务器根据语音文本按照预置规则获取匹配结果。

具体的，服务器判断语音文本与预置科目类别是否匹配，预置科目类别包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科；若语音文本与预置科目类别相匹配，服务器则获取数字号码，数字号码属于匹配结果，数字号码为相匹配的预置科目类别的预约号码；若语音文本与预置科目类别不匹配，服务器则获取错误结果，错误结果属于匹配结果，错误结果为文字提示消息。

需要说明的是，由于本方案的服务器专用于老人的预约挂号，所以儿科、产科等科目类别都被排除在外，适用于老人的科目类别大致包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科等；是否住院则根据医生的建议，不包括在预订病号系统。

例如，服务器获得“胃痛”的语音文本，服务器判断“胃痛”的语音文本与预置科目类别是否相匹配，从医学角度上讲，胃痛属于消化内科的疾病，如果“胃痛”的语音文本与预置科目类别相匹配，则获取消化内科的数字号码，比如3；如果服务器获得的语音文本为“产科”之类的文本，将“产科”的语音文本与预置科目类别相匹配，但是由于产科不是适用于老人的科目类别，所以“产科”的语音文本无法得到预置科目类别的数字号码，服务器则获得错误结果，错误结果可以为匹配错误或者无法匹配的文字提示消息。

209、根据匹配结果按照预置显示规则显示预约结果。

服务器根据匹配结果按照预置显示规则显示预约结果。

具体的，服务器判断匹配结果是否为数字号码；若匹配结果为数字号码，服务器则显示成功结果，成功结果属于预约结果，成功结果包括预约成功字样和数字号码相匹配的号码文本；若匹配结果不为数字号码，服务器则显示失败结果，失败结果属于预约结果，失败结果为预约失败字样。

如果服务器获得的匹配结果为数字号码，说明语音文本与预置科目类别相匹配，则显示预约成功字样和号码文本；若预约结果为错误结果，说明语音文本无法与预置科目类别相匹配，则显示预约失败字样。

例如，服务器判断获得3的数字号码，则显示成功结果为预约结果，成功结果为预约成功字样和3号的号码文本；如果服务器没有获得数字号码，则显示失败结果为预约结果，失败结果为预约失败字样，服务器通过显示预约失败字样通知老人预约挂号失败需要重新进行预约挂号。

上面对本发明实施例中基于语音识别的老人挂号方法进行了描述，下面对本发明实施例中基于语音识别的老人挂号装置进行描述，请参阅图3，本发明实施例中基于语音识别的老人挂号装置一个实施例包括：

第一获取单元301，用于通过专用通道获取纯净语音信号，专用通道使用小波变换增强语音信号；

识别单元302，用于通过预置语音模型识别纯净语音信号，得到单元数据；

解析单元303，用于通过预置解析模型解析单元数据，得到语音文本；

第二获取单元304，用于根据语音文本按照预置规则获取匹配结果；

显示单元305，用于根据匹配结果按照预置显示规则显示预约结果。

请参阅图4，本发明实施例中基于语音识别的老人挂号装置另一个实施例包括：

可选的，第一获取单元301具体包括：

获取子单元3011，用于通过专用通道获取语音信号；

转换子单元3012，用于将语音信号转换为语音波形；

分解子单元3013，用于根据预置函数与分解层数对语音波形进行分解，得到多个语音尺度系数，语音尺度系数的数量与分解层数相对应；

第一处理子单元3014，用于根据阈值与阈值去噪函数对语音尺度系数进行压缩，得到高频语音尺度系数；

第二处理子单元3015，用于采用预置算法根据语音尺度系数与高频语音尺度系数对语音信号进行重组，得到纯净语音信号。

可选的，第一处理子单元3014具体用于：

根据极大极小准则与尺度系数，选取阈值；

根据阈值选取阈值去噪函数；

根据阈值去噪函数对语音尺度系数进行过滤，得到高频语音尺度系数。

可选的，识别单元302具体用于：

将纯净语音信号处理为帧数据；

从帧数据中获取语音特征；

将语音特征输入预置语音模型进行处理，得到单元数据，预置语音模型为训练后的模型。

可选的，解析单元303具体用于：

通过概率模型处理单元数据，得到概率序列，概率序列为多个分类概率的集合；

采用预置解析模型搜寻概率序列中的最大分类概率；

根据最大分类概率搜寻与最大分类概率相对应的单元数据；将单元数据转换为语音文本。

可选的，第二获取单元304具体用于：

判断语音文本与预置科目类别是否匹配，预置科目类别为老人常患病的科室类别；

若语音文本与预置科目类别相匹配，则获取数字号码，数字号码属于匹配结果，数字号码为相匹配的预置科目类别的预约号码；

若语音文本与预置科目类别不匹配，则获取错误结果，错误结果属于匹配结果，错误结果为文字提示消息。

可选的，显示单元305具体用于：

判断匹配结果是否为数字号码；

若匹配结果为数字号码，则显示成功结果，成功结果属于预约结果，成功结果包括预约成功字样和所述数字号码相匹配的号码文本；

若预约结果不为数字号码，则显示失败结果，失败结果属于预约结果，所述失败结果为预约失败字样。

本发明实施例用于帮助老人准确进行预约挂号，提高了老人通过自助服务预约挂号成功的概率。

上面图3至图4从模块化功能实体的角度对本发明实施例中的基于语音识别的老人挂号装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于语音识别的老人挂号设备进行详细描述。

下面结合图5对基于语音识别的老人挂号设备的各个构成部件进行具体的介绍：

图5是本发明实施例提供的一种基于语音识别的老人挂号设备的结构示意图，该基于语音识别的老人挂号的设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)501(例如，一个或一个以上处理器)和存储器509，一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中，存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地，处理器501可以设置为与存储介质508通信，在基于语音识别的老人挂号设备500上执行存储介质508中的一系列指令操作。

基于语音识别的老人挂号设备500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统505，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5中示出的基于语音识别的老人挂号设备结构并不构成对基于语音识别的老人挂号设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器501是基于语音识别的老人挂号设备的控制中心，可以按照基于语音识别的老人挂号方法进行处理。处理器501利用各种接口和线路连接整个基于语音识别的老人挂号设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，利用纯净语音信号实现端到端的语音识别，提高老人挂号成功的概率。存储介质508和存储器509都是存储数据的载体，本发明实施例中，存储介质508可以是指储存容量较小，但速度快的内存储器，而存储器509可以是储存容量大，但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块，处理器501通过运行存储在存储器509的软件程序以及模块，从而执行基于语音识别的老人挂号设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据基于语音识别的老人挂号设备的使用所创建的数据等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的基于语音识别的老人挂号程序和接收到的数据流存储在存储器中，当需要使用时，处理器501从存储器509中调用。

在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语音识别的老人挂号方法，其特征在于，包括：

通过专用通道获取纯净语音信号，所述专用通道使用小波变换增强语音信号；

通过预置语音模型识别所述纯净语音信号，得到单元数据；

通过预置解析模型解析所述单元数据，得到语音文本；

根据所述语音文本按照预置规则获取匹配结果；

根据所述匹配结果按照预置显示规则显示预约结果。

2.根据权利要求1所述的基于语音识别的老人挂号方法，其特征在于，所述通过专用通道获取纯净语音信号，所述专用通道使用小波变换增强语音信号包括：

通过所述专用通道获取语音信号；

将所述语音信号转换为语音波形；

根据预置函数与分解层数对所述语音波形进行分解，得到多个语音尺度系数，所述语音尺度系数的数量与所述分解层数相对应；

根据阈值与阈值去噪函数对所述语音尺度系数进行压缩，得到高频语音尺度系数；

采用预置算法根据所述语音尺度系数与所述高频语音尺度系数对所述语音信号进行重组，得到所述纯净语音信号。

3.根据权利要求2所述基于语音识别的老人挂号方法，其特征在于，所述根据阈值与阈值去噪函数对所述语音尺度系数进行压缩，得到高频语音尺度系数包括：

根据极大极小准则与所述尺度系数选取阈值；

根据所述阈值选取阈值去噪函数；

根据所述阈值去噪函数对所述语音尺度系数进行过滤，得到所述高频语音尺度系数。

4.根据权利要求1所述基于语音识别的老人挂号方法，其特征在于，所述通过预置语音模型识别所述纯净语音信号，得到单元数据包括：

将所述纯净语音信号处理为帧数据；

从所述帧数据中获取语音特征；

将所述语音特征输入预置语音模型进行处理，得到单元数据，所述预置语音模型为训练后的模型。

5.根据权利要求1所述基于语音识别的老人挂号方法，其特征在于，所述通过预置解析模型解析单元数据，得到语音文本包括：

通过概率模型处理所述单元数据，得到概率序列，所述概率序列为多个分类概率的集合；

采用预置解析模型搜寻所述概率序列中的最大分类概率；

根据所述最大分类概率搜寻与最大分类概率相对应的所述单元数据；

将所述单元数据转换为语音文本。

6.根据权利要求1-5中任一项所述基于语音识别的老人挂号方法，其特征在于，所述根据语音文本按照预置规则获取匹配结果包括：

判断所述语音文本与预置科目类别是否匹配，所述预置科目类别包括内科、消化内科、外科、眼科、耳鼻喉科和口腔科；

若所述语音文本与所述预置科目类别相匹配，则获取数字号码，所述数字号码属于所述匹配结果，所述数字号码为相匹配的预置科目类别的预约号码；

若语音文本与所述预置科目类别不匹配，则获取错误结果，所述错误结果属于所述匹配结果，所述错误结果为文字提示消息。

7.根据权利要求6所述基于语音识别的老人挂号方法，其特征在于，所述根据匹配结果按照预置显示规则显示预约结果包括：

判断所述匹配结果是否为所述数字号码；

若所述匹配结果为所述数字号码，则显示成功结果，所述成功结果属于所述预约结果，所述成功结果包括预约成功字样和所述数字号码相匹配的号码文本；

若所述匹配结果不为所述数字号码，则显示失败结果，所述失败结果属于所述预约结果，所述失败结果为预约失败字样。

8.一种基于语音识别的老人挂号装置，其特征在于，包括：

第一获取单元，用于通过专用通道获取纯净语音信号，所述专用通道使用小波变换增强语音信号；

识别单元，用于通过预置语音模型识别所述纯净语音信号，得到单元数据；

解析单元，用于通过预置解析模型解析单元数据，得到语音文本；

第二获取单元，用于根据语音文本按照预置规则获取匹配结果；

显示单元，用于根据匹配结果按照预置显示规则显示预约结果。

9.一种基于语音识别的老人挂号设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于语音识别的老人挂号方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的基于语音识别的老人挂号方法的步骤。