CN109036419A

CN109036419A - 一种语音识别匹配方法、终端及计算机可读存储介质

Info

Publication number: CN109036419A
Application number: CN201810813088.7A
Authority: CN
Inventors: 杜宏伟
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-18

Abstract

本发明公开了一种语音识别匹配方法、终端及计算机可读存储介质，该语音识别匹配方法包括对获取的语音信息进行转换得到拼音信息，对拼音信息与终端上的目标拼音信息分别进行模糊化处理，得到第一模糊拼音信息与第二模糊目标拼音信息，计算第一模糊拼音信息与第二模糊目标拼音信息的相似度，当相似度大于预设阈值时，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果；解决了现有技术中语音识别匹配率低，导致用户的体验满意度不高的问题；本发明还公开了一种终端及计算机可读存储介质，通过实施上述方案，提高了提高语音匹配的全面性、准确可靠性，保证用户的体验感和满意度。

Description

一种语音识别匹配方法、终端及计算机可读存储介质

技术领域

本发明涉及语音识别技术领域，更具体地说，涉及一种语音识别匹配方法、终端及计算机可读存储介质。

背景技术

随着智能设备的普及和自然语言处理技术的发展，语音识别的应用领域越来越广泛，相对于其他的文本输入方式，语音识别所实现的语音输入方式更为符合人们的日常习惯，也使得输入过程更为高效。但是在语音识别的实际应用中，由于同音字、方言等因素的影响，语音识别的识别结果往往与用户的输入不一致，当用户的语音为“打电话给小明”，而移动终端对语音的识别结果可能为“打电话给小萌”，从而导致移动终端无法在终端应用上匹配到“小萌”的电话，从而无法执行相关的操作；语音识别匹配率低，导致用户的体验满意度不高的问题。

发明内容

本发明要解决的技术问题在于现有技术中语音识别匹配率低，导致用户的体验满意度不高的问题。针对该技术问题，提供一种语音识别匹配方法、终端及计算机可读存储介质。

为解决上述技术问题，本发明提供一种语音识别匹配方法，语音识别匹配方法包括：

对获取的语音信息进行转换得到拼音信息；

对拼音信息与终端上的目标拼音信息分别进行模糊化处理，得到第一模糊拼音信息与第二模糊目标拼音信息；

计算第一模糊拼音信息与第二模糊目标拼音信息的相似度；

当相似度大于预设阈值时，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果。

可选的，对获取的语音信息进行转换得到拼音信息之后，对拼音信息与终端上的目标拼音信息分别进行模糊化处理之前包括：

判断拼音信息是否包括终端上预设应用的特性；

如是，根据拼音信息确定终端上的目标拼音信息为预设应用中的拼写信息。

可选的，对拼音信息与终端上的目标拼音信息分别进行模糊化处理包括：

对拼音信息与终端上的目标拼音信息中的预设拼音字符分别进行模糊化处理；

预设拼音字符包括平舌音字符、翘舌音字符、前鼻音字符、后鼻音字符、鼻音字符、边音字符中的至少一种。

可选的，计算第一模糊拼音信息与第二模糊目标拼音信息的相似度包括：

计算第一模糊拼音信息与第二模糊目标拼音信息的最小编辑距离；

根据预设最小编辑距离与相似度的对应关系，确定与最小编辑距离对应的相似度。

可选的，计算第一模糊拼音信息与第二模糊目标拼音信息的相似度，还包括：

分别设置拼音信息中声母和韵母的权重值；

当相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的声母相同，韵母不同时，根据韵母的权重值和相似度计算得到第一相似度；

或，当相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的韵母相同，声母不同时，根据声母的权重值和相似度计算得到第一相似度；

或，当相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的韵母声母均不同时；根据声母和韵母的权重值和相似度计算得到第一相似度。

当相似度大于预设阈值时，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果包括：

当第一相似度大于第一预设阈值时，将与第二相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果。

设置拼音信息中音调的权重值；

判断第一相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的音调是否相同；

如否，根据音调的权重值与第一相似度进行计算得到第二相似度；

当第二相似度大于第二预设阈值时，将与第二相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果。

计算第一模糊拼音信息与第二模糊目标拼音信息中各字母和/或音调的匹配率，将匹配度作为相似度。

可选的，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果之后，包括：

根据相似度的大小依次将对应的文本信息进行显示；

或，

根据相似度对应的文本信息所属应用的应用优先级依次显示文本信息。

进一步地，本发明还提供了一种终端，其特征在于，终端包括处理器、存储器、及通信总线；

通信总线用于实现处理器和存储器之间的连接通信；

处理器用于执行存储器中存储的一个或者多个程序，以实现如上述的语音识别匹配方法的步骤。

进一步地，本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述的语音识别匹配方法的步骤。

有益效果

本发明提供一种语音识别匹配方法、终端及计算机可读存储介质，针对现有技术中语音识别匹配率低，导致用户的体验满意度不高的问题，该语音识别匹配方法通过对获取的语音信息进行转换得到拼音信息；对拼音信息与终端上的目标拼音信息分别进行模糊化处理，得到第一模糊拼音信息与第二模糊目标拼音信息；计算第一模糊拼音信息与第二模糊目标拼音信息的相似度；当相似度大于预设阈值时，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果；即本发明提供的语音识别匹配方法将语音信息转换为拼音信息，并对拼音信息和目标拼音信息均进行模糊化处理，提高对终端上信息匹配的全面性，在拼音信息和目标拼音信息的相似度大于阈值时，才确定该语音信息对应的匹配结果，提高匹配的准确性和可靠性，本实施例的语音识别匹配方法为用户带来更多的便利，保证了用户的体验满意度。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图；

图2为如图1所示的移动终端的无线通信系统示意图；

图3为本发明第一实施例提供的语音识别匹配方法的基本流程示意图；

图4为本发明第一实施例提供的匹配结果显示示意图；

图5为本发明第二实施例提供的一种具体的语音识别匹配方法的基本流程示意图；

图6为本发明第三实施例提供的终端的结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，射频单元101可以将上行信息发送给基站，另外也可以将基站发送的下行信息接收后，发送给移动终端的处理器110处理，基站向射频单元101发送的下行信息可以是根据射频单元101发送的上行信息生成的，也可以是在检测到移动终端的信息更新后主动向射频单元101推送的，例如，在检测到移动终端所处的地理位置发生变化后，基站可以向移动终端的射频单元101发送地理位置变化的消息通知，射频单元101在接收到该消息通知后，可以将该消息通知发送给移动终端的处理器110处理，移动终端的处理器110可以控制该消息通知显示在移动终端的显示面板1061上；通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信，具体的可以包括：通过无线通信与网络系统中的服务器通信，例如，移动终端可以通过无线通信从服务器中下载文件资源，比如可以从服务器中下载应用程序，在移动终端将某一应用程序下载完成之后，若服务器中该应用程序对应的文件资源更新，则该服务器可以通过无线通信向移动终端推送资源更新的消息通知，以提醒用户对该应用程序进行更新。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System ofMobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(Code Division Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous Code Division Multiple Access，时分同步码分多址)、FDD-LTE(FrequencyDivision Duplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(TimeDivision Duplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，应当说明的是，显示面板1061具有可弯曲的特性，也即是显示面板1061为柔性屏幕，具体的，可以采用有源矩阵有机发光二极管(Active Matrix/Organic Light-Emitting Diode，AMOLED)、无源有机电激发光二极管(Passive matrix OLED)等形式来配置显示面板1061。需要进一步说明的是，本发明中的柔性屏与现有技术相同，因此不做过多赘述。此外，本发明中对于柔性屏的具体形状、材质及具体结构等并不限定。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。比如，当通过射频单元101接收到某一应用程序的消息通知时，处理器110可以控制将该消息通知显示在显示面板1061的某一预设区域内，该预设区域与触控面板1071的某一区域对应，通过对触控面板1071某一区域进行触控操作，可以对显示面板1061上对应区域内显示的消息通知进行控制。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

应当理解的是，图1的具有柔性屏的柔性终端可以整体或部分弯曲，且具体的弯曲结构和弯曲控制方式可以采用现有任何结构和控制方式，由于其并非本发明的讨论的重点，在此不再赘述。

为了便于理解本发明实施例，下面对本发明的移动终端所基于的通信网络系统进行描述。

请参阅图2，图2为本发明实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

具体地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，UE201与eNodeB2021连接后，可以接收到由eNodeB2021发送的推送消息通知，eNodeB2021可以连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。其中，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本发明不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等，此处不做限定。

基于上述移动终端硬件结构以及通信网络系统，提出本发明各个实施例。

第一实施例

为了解决现有技术中语音识别匹配率低，导致用户的体验满意度不高的问题。本实施例提供一种语音识别匹配方法，该语音识别匹配方法通过在语音识别匹配过程中，终端采集用户当前的语音信息，对采集到的语音信息进行语言识别处理得到识别文本信息，进而将识别文本信息转换为拼音信息，对该拼音信息和终端上待匹配的目标拼音信息分别进行模糊化处理，计算模糊化处理后的拼音信息和目标拼音信息的相似度，进而根据相似度对应的第二模糊目标拼音信息所对应的文本信息确定最终匹配结果，具体可以参见图3所示，图3为本实施例提供的语音识别匹配方法的基本流程图，该语音识别匹配方法包括：

S301：对获取的语音信息进行转换得到拼音信息。

在本实施例中，语音信息可以是终端实时获取的；该语音信息也可以是预先存储在终端上的语音信息，还可以是从其他终端接收到的语音信息，当然本实施例的语音信息是由人的发音器官发出的，带有用户想要表达的特定语言意义的语音信息。可以理解的是，本发明适用于通过连接/内置有麦克风、支持语音识别的任意终端，例如可穿戴设备、智能手机、笔记本电脑、平板电脑等等。

应当明确的是，将语音信息转换为拼音信息可以是终端在获取到语音信息时，可以自身对该语音信息进行语言识别处理，初步确定该语音信息的识别文本信息，再将该识别文本信息转换为拼音形式的字符信息，该字符信息为拼音信息；其中语音识别处理可以采用现有的任意语言识别处理技术，得到识别文本信息，在此不在一一赘述，例如语音初步识别的识别文本信息为“小明”，将该识别文本信息转换为“xiao ming”。当语音信息转换为拼音信息也可以是终端在获取到该语音信息时，可以自身对该语音信息进行语言识别处理，直接确定该语音信息转化得到的拼音形式的字符信息。

S302：对拼音信息与终端上的目标拼音信息分别进行模糊化处理，得到第一模糊拼音信息与第二模糊目标拼音信息。

在本实施例中，得到语音信息对应的拼音信息时，可以对该拼音信息进行解析，确定该拼音信息对应的终端上的目标拼音信息，该目标拼音信息包括存储在终端上的预设文本信息所对应的拼音信息。具体的，判断该语音信息是否包括终端上预设应用的特性，如是，根据拼音信息确定终端上的预设拼写信息为预设应用中的拼写信息，其中预设应用的特性指的是该预设应用能够实现的功能。例如拼音信息为“gei li jia da dian hua”，通过对该拼音信息“gei li jia da dian hua”的语义进行分析，确定出该拼音信息“gei lijia da dian hua”包括“打电话”，即对应的应用为“通讯录”、“微信”等可以打电话的应用，此时将应用“通讯录”、“微信”上对应的拼音信息作为目标拼音信息。当然该语音信息不包括终端上某些应用的特性时，此时终端上的目标拼音信息可以是包括终端上所有应用的拼音信息。

值得注意的是，对拼音信息与终端上的目标拼音信息分别进行模糊化处理具体包括对拼音信息与终端上的目标拼音信息中的预设拼音字符分别进行模糊化处理，其中预设拼音字符包括平舌音字符、翘舌音字符(如zh，ch，sh z，c，s)、前鼻音字符、后鼻音字符(如ang，eng，ing，an，en，in)、鼻音字符、边音字符(如l，n)中的至少一种。例如先判断拼音信息与目标拼音信息的第一个字母是不是z、c、s、l、n中的一个，若有，则进行相应相似判断后进行替换(将z替换为zh……l替换为n)；然后判断拼音信息是否存在ang，eng，ing，若有，替换为an、en、in，或判断拼音信息是否存在an、en、in，若有，替换为ang，eng，ing。当然对拼音信息与目标拼音信息进行模糊化处理还可以是对对拼音信息与目标拼音信息的所有拼音字符进行模糊化处理。例如“hui”和“fei”的发音相似，当判定拼音信息存在“hui”、“fei”中的一个时，进行相应替换。在本实施例中，当对拼音信息进行模糊化处理后得到第一模糊拼音信息，该第一模糊拼音信息包括原始拼音信息、和模糊化处理后拼写信息；例如拼音信息为“ning”，则第一模糊拼音信息包括“ning”、“ling”、“nin”、“lin”。同理，第二模糊目标拼音信息包括原始目标拼音信息、和模糊化处理后预设拼写信息。

当然本实施例中，为了提高匹配速率，还可以对拼写信息中的关键拼音的预设拼音字符进行模糊化处理，根据该关键拼音确定终端上的目标拼音信息中的预设关键拼音，进而对该预设关键拼音的预设拼音字符进行模糊化处理。

S303：计算第一模糊拼音信息与第二模糊目标拼音信息的相似度。

在本实施例中，计算第一模糊拼音信息与第二模糊目标拼音信息的相似度至少包括以下几种方式：

方式一：基于编辑距离技术计算第一模糊拼音信息与第二模糊目标拼音信息的相似度。具体的，计算第一模糊拼音信息与第二模糊目标拼音信息的最小编辑距离，根据预设最小编辑距离与相似度的对应关系，确定与最小编辑距离对应的相似度。可以理解的是，其中编辑距离(Edit Distance)是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。而且编辑距离越小，两个拼音信息的相似度越大。在本实施例中，预设最小编辑距离与相似度的对应关系可以是由开发人员进行灵活设置，当然也可以由用户根据自己的习惯和喜好进行灵活设置。例如如表1所示，表1为本实施例提供的最小编辑距离与相似度的对应关系。假设第一模糊拼音信息为“ming”，第一模糊目标拼音信息为“mian”，则其的最小编辑距离为2，根据表1所示，其对应的相似度为70％。

最小编辑距离	相似度
		1	90％
2	70％
		3	60％
4	50％

在其他实施例中，还可以基于距离编辑技术计算拼音信息中声母和韵母对应的最小编辑距离，根据各最小编辑距离计算相似度。具体的，计算第一模糊拼音信息与第二模糊目标拼音信息中声母和韵母对应的最小编辑距离；根据声母的最小编辑距离与声母的权重值得到第一编辑距离；根据韵母的最小编辑距离与韵母的权重值得到第二编辑距离；根据第一编辑距离和第二编辑距离相加计算得到相似度。即对第一模糊拼音信息与第一模糊目标拼音信息进行拆分，分别得到声母、韵母，声母、韵母对应的编辑距离再相加得到最终的最小编辑距离。

方式二：在方式一的基础上引入了声母和韵母设置不同权值的匹配技术，对相似度进行调整得到第一相似度。具体的分别设置拼音信息中声母和韵母的权重值，判断相似度对应的第一模糊拼音信息与第二模糊目标拼音信息中的声母和韵母是否相同，当相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的声母相同，韵母不同时，根据韵母的权重值和相似度计算得到第一相似度；当相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的韵母相同，声母不同时，根据声母的权重值和相似度计算得到第一相似度；当相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的韵母声母均不同时；根据声母和韵母的权重值和相似度计算得到第一相似度，当然当声母，韵母均相同时，第一相似度与相似度相同。其中声母和韵母的权重值不同，声母的权重值小于韵母的权重值，其具体的权重值可以根据由开发人员设置，也可以由用户灵活设置。在本实施例中，根据韵母(和/或声母)的权重值和相似度计算得到第一相似度可以是将韵母(和/或声母)的权重值和相似度相乘或相加得到第一相似度。例如第一模糊拼音信息为“long”，第一模糊目标拼音信息为“lun”、“dong”、“tang”，其相似度分别为70％、90％、70％，但“long”与“lun”韵母不同，则对应的第一相似度为70％*0.8＝56％；“long”与“dong”声母不同，则对应的第一相似度为90％*0.7＝63％；“long”与“tang”声母、韵母均不同，则对应的第一相似度为70％*0.8*0.7＝39.2％。

方式三：在方式二的基础上引入了音调权值的匹配技术，对第一相似度进行调整得到第二相似度。具体的，设置拼音信息中音调的权重值；判断第一相似度对应的第一模糊拼音信息与第二模糊目标拼音信息的音调是否相同；如否，根据音调的权重值与第一相似度进行计算得到第二相似度，当然音调的权重值可以根据由开发人员设置，也可以由用户灵活设置。在本实施例中，根据音调的权重值和第一相似度计算得到第二相似度可以是将音调的权重值和第一相似度相乘得到第二相似度；例如第一模糊拼音信息为“lóng”，第一模糊目标拼音信息为“lún”、“dòng”，且第一相似度分别为56％、63％，则对应的第二相似度为56％、63％*0.75＝47.25％。

方式四：计算第一模糊拼音信息与第二模糊目标拼音信息中各字母和/或的匹配率，将匹配度作为相似度。即将第一模糊拼音信息与第二模糊目标拼音信息中的每个字母进行匹配，根据各字母的匹配结果确定匹配率。例如第一模糊拼音信息为“lóng”，第一模糊目标拼音信息为“lún”，其第一模糊拼音信息的字符和音调最多为5个，第一模糊目标拼音信息的字符和音调最多为4个，第一模糊拼音信息与第一模糊目标拼音信息的成功匹配的字符和音调为3个，则对应的匹配率为3/5＝60％。

S304：当相似度大于预设阈值时，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果。

在本实施例中，根据相似度的计算方式不同，预设阈值也不同。计算相似度的计算方式为方式一、方式四：当相似度大于预设阈值时，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果。计算方式为方式二：当第一相似度大于第一预设阈值时，将与第一相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果；计算方式为方式三：当第二相似度大于第二预设阈值时，将与第二相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果。其中第二预设阈值可以小于第一预设阈值，第一预设阈值小于预设阈值。当然计算方式为方式三时，可以是计算得到相似度，若相似度大于预设相似阈值1(该预设相似阈值1小于预设阈值)，则才计算第一相似度；当第一相似度大于预设相似阈值2时(该预设相似阈值2小于第一预设阈值)，才进一步计算第二相似度；也可以是无论相似度为多少，都计算得到第一相似度，无论第一相似度为多少，都计算得到第二相似度。可以理解的是，本实施例的第一预设阈值，第二预设阈值都可以由开发人员设置，也可以由用户自定义设置。

在本实施例中，当相似度大于预设阈值时，得到的相似度对应的第二模糊目标拼音信息所对应的文本信息可能是一个，也可能是多个。当为多个时，为了更好的方便用户查看匹配结果，将与相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果之后，还可以根据相似度的大小依次将对应的文本信息进行显示，例如相似度越高的文本信息，显示位置越靠前，或显示区域越大，。在本实施例中，当相似度一致时，还可以根据相似度对应的文本信息所属应用的应用优先级依次显示；当然当相似度不同时，也根据应用优先级依次显示，如图4所示，用户设置电话的优先级最高，则匹配结果所属应用包括电话时，电话的显示位置最靠前，且显示区域最大。

本实施例提供的语音识别匹配方法，对获取的语音信息进行转换得到拼音信息，且对识别的拼音信息进行模糊化处理，同时对终端上的目标拼音信息进行模糊化处理，进而基于编辑距离技术对模糊拼音信息和预设模糊拼音信息的相似度，还可以对该相似度进行调整，当相似度大于预设阈值时，即表明该相似度对应的模糊目标拼音信息所对应的文本信息的匹配成功越高。也即在本实施例中，通过语音识别匹配方法提高了语音识别结果的准确性，全面性，为用户带来更多的便利，大大提高了用户的体验满意度。

第二实施例

本实施例是在第一实施例的基础上，以一种具体的语音识别匹配方法为例对本发明作进一步的示例说明，具体可以参见图5所示。

S501：对获取的语音信息进行转换得到拼音信息。

假设用户根据自我需求，通过“语音助手”输入了语音数据，此时，智能手机采集用户当前输入的语音数据，终端在获取到语音信息时，可以自身对该语音信息进行语言识别处理，初步确定该语音信息的识别文本信息，再将该识别文本信息转换为拼音信息。

S502：根据拼音信息确定终端上的预设拼写信息为预设应用中的拼音信息。

进一步的，设对采集到的用户输入的语音数据进行语言识别处理，得到拼音信息为“gei li jia da dian hua”，对该拼写信息的语义进行分析，根据该语义判断该拼音信息是否包括终端上预设应用的特性。在本实施例中“打电话”是“通讯录”、“微信”的特性，因此将应用终端上“通讯录”上对应的拼音信息作为目标拼音信息。

S503：对拼音信息与终端上的目标拼音信息中的预设拼音字符分别进行模糊化处理。

对拼写信息中的关键拼音的预设拼音字符进行模糊化处理，根据该关键拼音确定终端上的目标拼音信息中的预设关键拼音，进而对该预设关键拼音的预设拼音字符进行模糊化处理。其中预设拼音字符包括平舌音字符、翘舌音字符、前鼻音字符、后鼻音字符、鼻音字符、边音字符中的至少一种。本实施例的拼音信息的关键拼音为“li jia”，对该关键拼音信息进行模糊化处理的到第一模糊拼音信息“ni jia”、“li jian”、“ni jian”，假设通信录中的预设拼音包括“宁静、李键”，“宁静”对应的第二模糊拼音信息为“ling jing”、“lingjin”；“李建”对应的第二模糊拼音信息为“ni jian”，“ni jia”。

S504：基于编辑距离计算第一模糊拼音信息与第二模糊目标拼音信息的相似度。

为了便于理解，本实施例以计算第一组“li jia”与“ling jing”，第二组“li jia”与“ni jian”；第三组“ni jia”与“ling jin”，第四组“ni jia”与ni jia”为例进行说明。计算得到最小编辑距离分别为4、2、4、1；根据第一实施例中表1可以确定第一组对应的相似度50％、70％、50％、90％、。

S505：根据声母、韵母的权重值对相似度进行调整得到第一相似度。

在本实施例中，假设声母的权重值为0.7，韵母的权重值为0.8；其中第一组中的两个拼音信息声母相同，韵母不同，则第一相似度为50％*0.8*0.8＝32％；第二组中的两个拼音信息声母不同，韵母不同，则第一相似度为70*0.7*0.8＝39.2％，第三组中的两个拼音信息生母不同，韵母不同，则第一相似度50％*0.7*0.8＝28％，第四组中的两个拼音信息韵母不同，则第一相似度90％*0.8＝72％。

S506：判断第一相似度是否大于第一预设阈值，如是，转S507，如否，结束；

假设本实施例中的第一预设阈值为35％。

S507：将与第一相似度对应的第二模糊目标拼音信息所对应的文本信息作为匹配结果。

则将第二组的“ni jian”所对应的“宁静”，第四组的“ni jia”所对应的“李健”的作为匹配结果。

S508：根据第一相似度的大小依次将对应的文本信息进行显示。

由于“李健”对应的第一相似度大于“宁静”的相似度，则将“李健”显示在“宁静”的上方，且“李健”的显示区域大于“宁静”的显示区域。

为了便于理解，本实施例以一个较为具体的例子对语音识别匹配方法进行说明，在对获取到的语音信息进行语音识别，初步得到识别文本信息，将该识别文本信息转换为拼音信息，根据该拼音信息的语音确定对应的目标拼音信息为预设应用的拼音信息，并对拼音信息和目标拼音信息的关键拼音进行模糊化处理，基于编辑距离技术和声母、韵母权重值计算模糊处理后拼音信息和目标拼音信息的相似度，在相似度大于阈值后，根据相似度的大小依次将对应的文本信息进行显示。本实施例通过对拼音信息和终端上的拼音信息模糊处理有效解决了语音识别结果直接匹配存在的缺陷，通过基于编辑距离技术和声母、韵母权重值计算模糊处理后拼音信息和目标拼音信息的相似度使得匹配更加准确可靠，保证了用户的体验感。

第三实施例

本实施例提供一种终端，请参见图6所示，本实施例提供的终端包括处理器601、存储器602及通信总线603。

其中，本实施例中的通信总线603用于实现处理器601和存储器602之间的连接通信，处理器601则用于执行存储器602中存储的一个或者多个第一程序，以实现以下步骤：

对获取的语音信息进行转换得到拼音信息；

计算第一模糊拼音信息与第二模糊目标拼音信息的相似度；

值得注意的是，为了不累赘说明，在本实施例中并未完全阐述第一实施例、第二实施例中的所有示例，应当明确的是，第一实施例、第二实施例中的所有示例均适用于本实施例。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如上述语音识别匹配方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种语音识别匹配方法，其特征在于，所述语音识别匹配方法包括：

对获取的语音信息进行转换得到拼音信息；

对所述拼音信息与终端上的目标拼音信息分别进行模糊化处理，得到第一模糊拼音信息与第二模糊目标拼音信息；

计算所述第一模糊拼音信息与所述第二模糊目标拼音信息的相似度；

当相似度大于预设阈值时，将与所述相似度对应的所述第二模糊目标拼音信息所对应的文本信息作为匹配结果。

2.如权利要求1所述的语音识别匹配方法，其特征在于，所述对获取的语音信息进行转换得到拼音信息之后，对所述拼音信息与终端上的目标拼音信息分别进行模糊化处理之前包括：

判断所述拼音信息是否包括终端上预设应用的特性；

如是，根据所述拼音信息确定终端上的目标拼音信息为预设应用中的拼写信息。

3.如权利要求2所述的语音识别匹配方法，其特征在于，所述对所述拼音信息与终端上的目标拼音信息分别进行模糊化处理包括：

对所述拼音信息与终端上的目标拼音信息中的预设拼音字符分别进行模糊化处理；

所述预设拼音字符包括平舌音字符、翘舌音字符、前鼻音字符、后鼻音字符、鼻音字符、边音字符中的至少一种。

4.如权利要求3所述的语音识别匹配方法，其特征在于，所述计算所述第一模糊拼音信息与所述第二模糊目标拼音信息的相似度包括：

计算所述第一模糊拼音信息与所述第二模糊目标拼音信息的最小编辑距离；

根据预设最小编辑距离与相似度的对应关系，确定与所述最小编辑距离对应的相似度。

5.如权利要求4所述的语音识别匹配方法，其特征在于，所述计算所述第一模糊拼音信息与所述第二模糊目标拼音信息的相似度，还包括：

分别设置拼音信息中声母和韵母的权重值；

当所述相似度对应的第一模糊拼音信息与所述第二模糊目标拼音信息的声母相同，韵母不同时，根据所述韵母的权重值和所述相似度计算得到第一相似度；

或，当所述相似度对应的第一模糊拼音信息与所述第二模糊目标拼音信息的韵母相同，声母不同时，根据所述声母的权重值和所述相似度计算得到第一相似度；

或，当所述相似度对应的第一模糊拼音信息与所述第二模糊目标拼音信息的韵母声母均不同时；根据所述声母和韵母的权重值和所述相似度计算得到第一相似度。

所述当相似度大于预设阈值时，将与所述相似度对应的所述第二模糊目标拼音信息所对应的文本信息作为匹配结果包括：

当所述第一相似度大于第一预设阈值时，将与所述第一相似度对应的所述第二模糊目标拼音信息所对应的文本信息作为匹配结果。

6.如权利要求5所述的语音识别匹配方法，其特征在于，所述计算所述第一模糊拼音信息与所述第二模糊目标拼音信息的相似度，还包括：

设置拼音信息中音调的权重值；

判断所述第一相似度对应的第一模糊拼音信息与所述第二模糊目标拼音信息的音调是否相同；

如否，根据所述音调的权重值与所述第一相似度进行计算得到第二相似度；

当所述第二相似度大于第二预设阈值时，将与所述第二相似度对应的所述第二模糊目标拼音信息所对应的文本信息作为匹配结果。

7.如权利要求2所述的语音识别匹配方法，其特征在于，所述计算所述第一模糊拼音信息与所述第二模糊目标拼音信息的相似度包括：

计算所述第一模糊拼音信息与所述第二模糊目标拼音信息中各字母和/或音调的匹配率，将所述匹配度作为相似度。

8.如权利要求1-7任一项所述的语音识别匹配方法，其特征在于，所述将与所述相似度对应的所述第二模糊目标拼音信息所对应的文本信息作为匹配结果之后，包括：

根据所述相似度的大小依次将对应的文本信息进行显示；

或，

根据所述相似度对应的文本信息所属应用的应用优先级依次显示所述文本信息。

9.一种终端，其特征在于，所述终端包括处理器、存储器及通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的一个或者多个程序，以实现如权利要求1至8中任一项所述的语音识别匹配方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至8中任一项所述的语音识别匹配方法的步骤。