CN108831479A - 一种语音识别方法、终端及计算机可读存储介质 - Google Patents

一种语音识别方法、终端及计算机可读存储介质 Download PDF

Info

Publication number
CN108831479A
CN108831479A CN201810682599.XA CN201810682599A CN108831479A CN 108831479 A CN108831479 A CN 108831479A CN 201810682599 A CN201810682599 A CN 201810682599A CN 108831479 A CN108831479 A CN 108831479A
Authority
CN
China
Prior art keywords
text information
original text
speech recognition
target
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810682599.XA
Other languages
English (en)
Inventor
王秀琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nubia Technology Co Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201810682599.XA priority Critical patent/CN108831479A/zh
Publication of CN108831479A publication Critical patent/CN108831479A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音识别方法、终端及计算机可读存储介质,该语音识别方法通过在语音识别过程中,采集用户当前的语音数据,对采集到的语音数据进行语言识别处理得到初始文本信息,进而基于初始文本信息确定与初始文本信息对应的目标应用,从该目标应用中提取与初始文本信息对应的目标文本信息,进而利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。解决了现有技术中语音识别的识别结果准确性低,造成用户体验度差的问题。本发明还公开了一种终端及计算机可读存储介质,通过实施上述方案,提高了语音识别的准确性,大大提升了用户的体验满意度。

Description

一种语音识别方法、终端及计算机可读存储介质
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及一种语音识别方法、终端及计算机可读存储介质。
背景技术
随着智能设备的普及和自然语言处理技术的发展,语音识别的应用领域越来越广泛,相对于其他的文本输入方式,语音识别所实现的语音输入方式更为符合人们的日常习惯,也使得输入过程更为高效。但是在语音识别的实际应用中,由于同音字、方言等因素的影响,语音识别的识别结果往往与用户的输入不一致,语音识别的识别错误较为普遍,为了得到正确的识别结果,用户需多次进行输入,给用户带来了诸多不便,降低了用户的体验满意度。
发明内容
本发明要解决的技术问题在于现有技术中语音识别的识别结果准确性低,造成用户体验度差的问题。针对该技术问题,提供一种语音识别方法、终端及计算机可读存储介质。
为解决上述技术问题,本发明提供一种语音识别方法,所述语音识别方法包括:
在语音识别过程中,采集用户当前的语音数据;
对所述语音数据进行语言识别处理得到初始文本信息;
基于所述初始文本信息确定与所述初始文本信息对应的目标应用;
从所述目标应用中提取与所述初始文本信息对应的目标文本信息;
利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,将所述最终的文本信息作为语音识别结果。
可选的,所述基于所述初始文本信息确定与所述初始文本信息对应的目标应用,包括:
对所述初始文本信息的语义进行分析,根据所述语义确定出与所述初始文本信息对应的目标应用。
可选的,所述基于所述初始文本信息确定与所述初始文本信息对应的目标应用,包括:
从所述初始文本信息中提取出第一关键字,根据所述第一关键字确定出与所述初始文本信息对应的目标应用。
可选的,所述利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,包括:
从所述初始文本信息中提取出与所述目标文本信息拼音相同的第二关键字;
将所述目标文本信息和所述第二关键字进行匹配;
若匹配成功,根据所述第二关键字得到最终的文本信息。
可选的,所述利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,包括:
判断所述初始文本信息中是否存在与所述目标文本信息文字相同的第三关键字;
若是,提取出所述第三关键字;
根据所述第三关键字得到最终的文本信息。
可选的,当将所述目标文本信息和所述第二关键字进行匹配失败时,根据所述目标文本信息得到最终的文本信息。
可选的,所述利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,将所述最终的文本信息作为语音识别结果之后,还包括:
直接将所述语音识别结果进行显示;
或,
将所述初始文本信息和所述语音识别结果分别进行显示。
可选的,所述将所述初始文本信息和所述语音识别结果分别进行显示之后,还包括:
判断是否接收到选择指令;
若是,根据所述选择指令确定此次语音识别的最终结果。
进一步地,本发明还提供了一种终端,其特征在于,所述终端包括处理器、存储器、及通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现如上述的语音识别方法的步骤。
进一步地,本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述的语音识别方法的步骤。
有益效果
本发明提供一种语音识别方法、终端及计算机可读存储介质,该语音识别方法通过在语音识别过程中,采集用户当前的语音数据,对采集到的语音数据进行语言识别处理得到初始文本信息,进而基于初始文本信息确定与初始文本信息对应的目标应用,从该目标应用中提取与初始文本信息对应的目标文本信息,进而利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。解决了现有技术中语音识别的识别结果准确性低,造成用户体验度差的问题。也即在本发明中,通过语音识别方法提高了语音识别结果的准确性,无需用户执行多次重复输入操作,才能得到正确的识别结果,为用户带来更多的便利,大大提高了用户的体验满意度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图;
图2为如图1所示的移动终端的无线通信系统示意图;
图3为本发明第一实施例提供的语音识别方法的基本流程示意图;
图4为本发明第一实施例提供的一种可行的利用目标文本信息对初始文本信息进行校验得到最终的文本信息的基本流程示意图;
图5为本发明第一实施例提供的另一种可行的利用目标文本信息对初始文本信息进行校验得到最终的文本信息的基本流程示意图;
图6为本发明第一实施例提供的一种可行的将语音识别结果进行显示的界面示意图;
图7为本发明第一实施例提供的一种可行的将初始文本信息和语音识别结果进行显示的界面示意图;
图8为本发明第二实施例提供的一种具体的语音识别方法的基本流程示意图;
图9为本发明第三实施例提供的终端的结构示意图;
图10为本发明第三实施例提供的另一种具体的语音识别方法的基本流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以移动终端为例进行说明,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
请参阅图1,其为实现本发明各个实施例的一种移动终端的硬件结构示意图,该移动终端100可以包括:RF(Radio Frequency,射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对移动终端的各个部件进行具体的介绍:
射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,射频单元101可以将上行信息发送给基站,另外也可以将基站发送的下行信息接收后,发送给移动终端的处理器110处理,基站向射频单元101发送的下行信息可以是根据射频单元101发送的上行信息生成的,也可以是在检测到移动终端的信息更新后主动向射频单元101推送的,例如,在检测到移动终端所处的地理位置发生变化后,基站可以向移动终端的射频单元101发送地理位置变化的消息通知,射频单元101在接收到该消息通知后,可以将该消息通知发送给移动终端的处理器110处理,移动终端的处理器110可以控制该消息通知显示在移动终端的显示面板1061上;通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信与网络和其他设备通信,具体的可以包括:通过无线通信与网络系统中的服务器通信,例如,移动终端可以通过无线通信从服务器中下载文件资源,比如可以从服务器中下载应用程序,在移动终端将某一应用程序下载完成之后,若服务器中该应用程序对应的文件资源更新,则该服务器可以通过无线通信向移动终端推送资源更新的消息通知,以提醒用户对该应用程序进行更新。上述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System ofMobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA2000(Code Division Multiple Access 2000,码分多址2000)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous Code Division Multiple Access,时分同步码分多址)、FDD-LTE(FrequencyDivision Duplexing-Long Term Evolution,频分双工长期演进)和TDD-LTE(TimeDivision Duplexing-Long Term Evolution,分时双工长期演进)等。
WiFi属于短距离无线传输技术,移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102,但是可以理解的是,其并不属于移动终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。
A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
移动终端100还包括至少一种传感器105,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,接近传感器可在移动终端100移动到耳边时,关闭显示面板1061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,应当说明的是,显示面板1061具有可弯曲的特性,也即是显示面板1061为柔性屏幕,具体的,可以采用有源矩阵有机发光二极管(Active Matrix/Organic Light-Emitting Diode,AMOLED)、无源有机电激发光二极管(Passive matrix OLED)等形式来配置显示面板1061。需要进一步说明的是,本发明中的柔性屏与现有技术相同,因此不做过多赘述。此外,本发明中对于柔性屏的具体形状、材质及具体结构等并不限定。
用户输入单元107可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。比如,当通过射频单元101接收到某一应用程序的消息通知时,处理器110可以控制将该消息通知显示在显示面板1061的某一预设区域内,该预设区域与触控面板1071的某一区域对应,通过对触控面板1071某一区域进行触控操作,可以对显示面板1061上对应区域内显示的消息通知进行控制。
接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器110是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
移动终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管图1未示出,移动终端100还可以包括蓝牙模块等,在此不再赘述。
应当理解的是,图1所述的具有柔性屏的柔性终端可以整体或部分弯曲,且具体的弯曲结构和弯曲控制方式可以采用现有任何结构和控制方式,由于其并非本发明的讨论的重点,在此不再赘述。
为了便于理解本发明实施例,下面对本发明的移动终端所基于的通信网络系统进行描述。
请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的LTE系统,该LTE系统包括依次通讯连接的UE(User Equipment,用户设备)201,E-UTRAN(Evolved UMTS Terrestrial Radio Access Network,演进式UMTS陆地无线接入网)202,EPC(Evolved Packet Core,演进式分组核心网)203和运营商的IP业务204。
具体地,UE201可以是上述终端100,此处不再赘述。
E-UTRAN202包括eNodeB2021和其它eNodeB2022等。其中,eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接,UE201与eNodeB2021连接后,可以接收到由eNodeB2021发送的推送消息通知,eNodeB2021可以连接到EPC203,eNodeB2021可以提供UE201到EPC203的接入。
EPC203可以包括MME(Mobility Management Entity,移动性管理实体)2031,HSS(Home Subscriber Server,归属用户服务器)2032,其它MME2033,SGW(Serving Gate Way,服务网关)2034,PGW(PDN Gate Way,分组数据网络网关)2035和PCRF(Policy andCharging Rules Function,政策和资费功能实体)2036等。其中,MME2031是处理UE201和EPC203之间信令的控制节点,提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送,PGW2035可以提供UE 201的IP地址分配以及其它功能,PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。
IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem,IP多媒体子系统)或其它IP业务等。
虽然上述以LTE系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于LTE系统,也可以适用于其他无线通信系统,例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统等,此处不做限定。
基于上述移动终端硬件结构以及通信网络系统,提出本发明各个实施例。
第一实施例
为了解决现有技术中语音识别的识别结果准确性低,造成用户体验度差的问题。本实施例提供一种语音识别方法,该语音识别方法通过在语音识别过程中,采集用户当前的语音数据,对采集到的语音数据进行语言识别处理得到初始文本信息,进而基于初始文本信息确定与初始文本信息对应的目标应用,从该目标应用中提取与初始文本信息对应的目标文本信息,进而利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。具体可以参见图3所示,图3为本实施例提供的语音识别方法的基本流程图,该语音识别方法包括:
S301:在语音识别过程中,采集用户当前的语音数据。
首先,需要说明的是,本发明适用于通过连接/内置有麦克风、支持语音识别的任意终端,例如可穿戴设备、智能手机、笔记本电脑、平板电脑等等,可以理解的是,语音数据是指由人的发音器官发出的,带有用户想要表达的特定语言意义的语音数据。
S302:对语音数据进行语言识别处理得到初始文本信息。
应当明确的是,在采集到用户当前的语音数据后,需要对语音数据进行语言识别处理,得到初始文本信息。可以理解的是,语音识别处理可以采用现有的任意语言识别处理技术,得到初始文本信息,语言识别处理非本发明的重点,在此不过多说明。在本实施例中,初始文本信息包括但不局限于拼音信息和文字信息,例如,拼音信息为“gei li jia dadian hua”,文字信息为“给李佳/李嘉/丽佳/李葭/礼嘉打电话”。
S303:基于初始文本信息确定与初始文本信息对应的目标应用。
在本实施例中,基于初始文本信息确定与初始文本信息对应的目标应用至少包括以下两种方式:
方式一:对初始文本信息的语义进行分析,根据语义确定出与初始文本信息对应的目标应用。为了更好的理解,这里以示例进行说明。例如,设初始文本信息为“gei li jiada dian hua”,通过对该初始文本信息“gei li jia da dian hua”的语义进行分析,确定出该初始文本信息“gei li jia da dian hua”对应的应用为“通讯录”,此时将应用“通讯录”作为目标应用。
方式二:从初始文本信息中提取出第一关键字,根据第一关键字确定出与所述初始文本信息对应的目标应用。同样的,为了更好的理解,这里仍以示例进行说明。例如,承接上例,设初始文本信息为“gei li jia da dian hua”,此时先将初始文本信息“gei li jiada dian hua”转换为中文“给李佳/李嘉/丽佳/李葭/礼嘉打电话”,从文字信息“给李佳/李嘉/丽佳/李葭/礼嘉打电话”中提取出第一关键字“打电话”,进而根据第一关键字“打电话”确定出对应的应用为“通讯录”,此时将应用“通讯录”作为目标应用。
在其他一些实施例中,还可以从初始文本信息中提取出第一关键字,根据第一关键字和关键字-应用关系映射表确定出与所述初始文本信息对应的目标应用。例如,设提取出的第一关键字为“打电话”,预先存储的关键字-应用关系映射表中记录有“打电话-通讯录”,则确定出对应的应用为“通讯录”,此时将应用“通讯录”作为目标应用。可以理解的是,在实际应用中,关键字-应用关系映射表由开发人员进行灵活设置,当然也可以由用户根据自己的习惯和喜好进行灵活设置。
值得注意的是,这里仅是以两种常见的基于初始文本信息确定与初始文本信息对应的目标应用的方式进行的说明,本发明并不局限于这两种方式,事实上,只要基于初始文本信息能确定与初始文本信息对应的目标应用的方式均在本发明的保护范围内。
S304:从目标应用中提取与初始文本信息对应的目标文本信息。
在本实施例中,为了更好的理解“从目标应用中提取与初始文本信息对应的目标文本信息”,这里以示例进行说明。例如,设确定的目标应用为“通讯录”,通讯录里的联系人有“李佳、张强、李明、沈慧、谭莹、徐毅、周婷”等等,同时设初始文本信息为“gei li jia dadian hua”,此时提取出通讯录中的“李佳”,将“李佳”作为目标文本信息。
S305:利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。
在本实施例中,利用目标文本信息对初始文本信息进行校验得到最终的文本信息至少包括以下两种方式:
方式一,具体参见图4:
S401:从初始文本信息中提取出与目标文本信息拼音相同的第二关键字。
承接上例,因为目标文本信息为“李佳”,此时从初始文本信息“gei li jia dadian hua”中提取出“li jia”,进而将“li jia”转换为中文为“李佳/李嘉/丽佳/李葭/礼嘉”,此时“李佳/李嘉/丽佳/李葭/礼嘉”均作为第二关键字。
S402:将目标文本信息和第二关键字进行匹配;
若匹配成功,执行S403,若匹配失败,执行S404。
承接上例,进一步的,将目标文本信息“李佳”和第二关键字“李佳/李嘉/丽佳/李葭/礼嘉”进行匹配,明显的,此时匹配成功,执行S403。
S403:根据第二关键字得到最终的文本信息。
承接上例,进一步的,将第二关键字“李佳”更新到初始文本信息中,得到“给李佳打电话”,此时将“给李佳打电话”作为最终的文本信息。
S404:根据目标文本信息得到最终的文本信息。
可以理解的是,当第二关键字为“李嘉/丽佳/李葭/礼嘉”时,目标文本信息“李佳”和第二关键字“李佳/李嘉/丽佳/李葭/礼嘉”匹配失败,此时直接将目标文本信息“李佳”更新到初始文本信息中,得到“给李佳打电话”,此时将“给李佳打电话”作为最终的文本信息。
方式二,具体参见图5:
S501:判断初始文本信息中是否存在与目标文本信息文字相同的第三关键字;
若是,执行S502,若否,执行S504。
为了更好的理解,这里仍以示例进行说明。例如,设初始文本信息为“给李佳/李嘉/丽佳/李葭/礼嘉打电话”,目标文本信息为“李佳”,此时判断初始文本信息中存在和目标文本信息文字相同的第三关键字,则执行S502。
S502:提取出第三关键字。
承接上例,进一步的,从初始文本信息“给李佳/李嘉/丽佳/李葭/礼嘉打电话”中提取出第三关键字“李佳”。
S503:根据第三关键字得到最终的文本信息。
承接上例,进一步的,将第三关键字“李佳”更新到初始文本信息中,得到“给李佳打电话”,此时将“给李佳打电话”作为最终的文本信息。
S504:根据目标文本信息得到最终的文本信息。
可以理解的是,当第三关键字为“李嘉/丽佳/李葭/礼嘉”时,判断初始文本信息中不存在和目标文本信息文字相同的第三关键字,此时直接将目标文本信息“李佳”更新到初始文本信息中,得到“给李佳打电话”,此时将“给李佳打电话”作为最终的文本信息。
值得注意的是,本实施例中的第一关键字、第二关键字、第三关键字可以相同也可以不同,需根据具体情况而定,同时第二关键字、第三关键字的个数可以为任意多个,也需根据具体情况而定。
在本实施例中,利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果之后,可以直接将语音识别结果进行显示。例如,参见图6所示,设语音识别结果为“给李佳打电话”,将其进行显示。在其他一些实施例中,也可以将初始文本信息和语音识别结果分别进行显示。例如,参见图7所示,设初始文本信息为“给李佳/李嘉/丽佳/李葭/礼嘉打电话”,语音识别结果为“给李佳打电话”,同时将初始文本信息“给李佳/李嘉/丽佳/李葭/礼嘉打电话”和语音识别结果为“给李佳打电话”分别进行显示。
可以理解的是,在将初始文本信息和语音识别结果分别进行显示之后,还可以判断是否接收到用户下发的选择指令,若接收到选择指令,此时根据该选择指令确定此次语音识别的最终结果。例如,承接上例,用户选择了“给李佳打电话”,则此次语音识别的最终结果为“给李佳打电话”,此时终端直接跳转到给李佳打电话的界面。
值得注意的是,上述均是以具体的示例进行的说明,在实际应用中,需根据具体场景做灵活调整。
本实施例提供的语音识别方法,该语音识别方法通过在语音识别过程中,采集用户当前的语音数据,对采集到的语音数据进行语言识别处理得到初始文本信息,进而基于初始文本信息确定与初始文本信息对应的目标应用,从该目标应用中提取与初始文本信息对应的目标文本信息,进而利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。解决了现有技术中语音识别的识别结果准确性低,造成用户体验度差的问题。也即在本实施例中,通过语音识别方法提高了语音识别结果的准确性,无需用户执行多次重复输入操作,才能得到正确的识别结果,为用户带来更多的便利,大大提高了用户的体验满意度。
第二实施例
本实施例是在第一实施例的基础上,以一种具体的语音识别方法为例对本发明作进一步的示例说明,具体可以参见图8。
S801:在语音识别过程中,采集用户当前的语音数据。
设用户根据自我需求,通过“语音助手”输入了语音数据,此时,智能手机采集用户当前输入的语音数据。
S802:对语音数据进行语言识别处理得到初始文本信息。
承接上例,进一步的,设对采集到的用户输入的语音数据进行语言识别处理,得到初始文本信息为“gei wei xin hao you zhang yue fa xiao xi”。
S803:对初始文本信息的语义进行分析,根据语义确定出与初始文本信息对应的目标应用。
承接上例,进一步的,对初始文本信息“gei wei xin hao you zhang yue faxiao xi”的语义进行分析,根据该语义确定出与初始文本信息对应的目标应用为“微信”。
S804:从目标应用中提取与初始文本信息对应的目标文本信息。
承接上例,进一步的,从微信中提取出与初始文本信息“hao you zhang yue”对应的目标文本信息,设提取出的目标文本信息为“张悦”。
S805:从初始文本信息中提取出与目标文本信息拼音相同的第二关键字。
承接上例,进一步的,从初始文本信息“hao you zhang yue”提取出与目标文本信息“张悦”拼音相同的第二关键字,设提取出的第二关键字为“张悦/张月/张越/张乐”。
S806:将目标文本信息和第二关键字进行匹配;
若匹配成功,执行S807,若匹配失败,执行S808。
承接上例,进一步的,将目标文本信息“张悦”和第二关键字“张悦/张月/张越/张乐”进行匹配,明显的,此时匹配成功。
S807:根据第二关键字得到最终的文本信息。
承接上例,进一步的,根据第二关键字中的“张悦”更新到初始文本信息中,得到“给微信好友张悦发消息”,此时将“给微信好友张悦发消息”作为最终的文本信息。
S808:根据目标文本信息得到最终的文本信息。
可以理解的是,当目标文本信息和第二关键字匹配失败时,则根据目标文本信息得到最终的文本信息。
S809:将最终的文本信息作为语音识别结果进行显示。
承接上例,进一步的,将最终的文本信息“给微信好友张悦发消息”作为语音识别结果,显示在“语音助手”的界面上,进而跳转至应用微信和张悦的聊天界面。
本实施例提供的语音识别方法,该语音识别方法通过在语音识别过程中,采集用户当前的语音数据,对采集到的语音数据进行语言识别处理得到初始文本信息,进而基于初始文本信息确定与初始文本信息对应的目标应用,从该目标应用中提取与初始文本信息对应的目标文本信息,进而利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。解决了现有技术中语音识别的识别结果准确性低,造成用户体验度差的问题。也即在本实施例中,通过语音识别方法提高了语音识别结果的准确性,无需用户执行多次重复输入操作,才能得到正确的识别结果,为用户带来更多的便利,大大提高了用户的体验满意度。
第三实施例
本实施例提供一种终端,请参见图9所示,本实施例提供的终端包括处理器901、存储器902及通信总线903。
其中,本实施例中的通信总线903用于实现处理器901和存储器902之间的连接通信,处理器901则用于执行存储器902中存储的一个或者多个第一程序,以实现以下步骤:
在语音识别过程中,采集用户当前的语音数据;
对语音数据进行语言识别处理得到初始文本信息;
基于初始文本信息确定与初始文本信息对应的目标应用;
从目标应用中提取与初始文本信息对应的目标文本信息;
利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。
值得注意的是,为了不累赘说明,在本实施例中并未完全阐述实施例一、二中的所有示例,应当明确的是,实施例一、二中的所有示例均适用于本实施例。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如上述语音识别方法的步骤。
本实施例提供的终端和计算机可读存储介质还可以实现一种具体的语音识别方法,具体可参见图10所示:
S1001:在语音识别过程中,采集用户当前的语音数据。
设用户根据自我需求,通过“语音助手”输入了语音数据,此时,智能手机采集用户当前输入的语音数据。
S1002:对语音数据进行语言识别处理得到初始文本信息。
承接上例,进一步的,设对采集到的用户输入的语音数据进行语言识别处理,得到初始文本信息为“给联系人张浩/张豪/张昊/张皓发短信”。
S1003:从初始文本信息中提取出第一关键字,根据第一关键字确定出与初始文本信息对应的目标应用。
承接上例,进一步的,对初始文本信息“给联系人张浩/张豪/张昊/张皓发短信”的语义进行分析,根据该语义确定出与初始文本信息对应的目标应用为“短信”。
S1004:从目标应用中提取与初始文本信息对应的目标文本信息。
承接上例,进一步的,从短信中提取出与初始文本信息“给联系人张浩/张豪/张昊/张皓发短信”对应的目标文本信息,设提取出的目标文本信息为“张浩”。
S1005:判断初始文本信息中是否存在与目标文本信息文字相同的第三关键字;
若是,执行S1006,若否,执行S1008。
承接上例,进一步的,判断初始文本信息“给联系人张浩/张豪/张昊/张皓发短信”中是否存在与目标文本信息“张浩”文字相同的第三关键字,明显的,此时存在第三关键字“张浩”。
S1006:提取出第三关键字。
承接上例,进一步的,从初始文本信息“给联系人张浩/张豪/张昊/张皓发短信”提取出第三关键字“张浩”。
S1007:根据第三关键字得到最终的文本信息,将最终的文本信息作为语音识别结果。
承接上例,进一步的,将第三关键字“张浩”更新到初始文本信息中,得到“给联系人张浩发短信”,此时将“给联系人张浩发短信”作为最终的文本信息。
S1008:根据目标文本信息得到最终的文本信息,将最终的文本信息作为语音识别结果。
可以理解的是,当判断初始文本信息中不存在和目标文本信息文字相同的第三关键字时,此时根据目标文本信息得到最终的文本信息,将最终的文本信息作为语音识别结果。
S1009:将初始文本信息和语音识别结果分别进行显示。
承接上例,进一步的,将初文始本信息“给联系人张浩/张豪/张昊/张皓发短信”和语音识别结果“给联系人张浩发短信”分别显示在“语音助手”的界面上。
S1010:判断是否接收到选择指令;
若是,执行S1011,若否,继续执行S1010。
承接上例,进一步的,设用户在初文始本信息“给联系人张浩/张豪/张昊/张皓发短信”和语音识别结果“给联系人张浩发短信”中选择了语音识别结果“给联系人张浩发短信”,即此时接收到了选择指令,执行S1011。
S1011:根据选择指令确定此次语音识别的最终结果。
承接上例,进一步的,此次语音识别的最终结果为“给联系人张浩发短信”,进而跳转至应用短信和张浩的短信界面。
本实施例提供的终端和计算机可读存储介质,通过在语音识别过程中,采集用户当前的语音数据,对采集到的语音数据进行语言识别处理得到初始文本信息,进而基于初始文本信息确定与初始文本信息对应的目标应用,从该目标应用中提取与初始文本信息对应的目标文本信息,进而利用目标文本信息对初始文本信息进行校验得到最终的文本信息,将最终的文本信息作为语音识别结果。解决了现有技术中语音识别的识别结果准确性低,造成用户体验度差的问题。也即本实施提供的终端提高了语音识别结果的准确性,无需用户执行多次重复输入操作,才能得到正确的识别结果,为用户带来更多的便利,大大提高了用户的体验满意度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种语音识别方法,其特征在于,所述语音识别方法包括:
在语音识别过程中,采集用户当前的语音数据;
对所述语音数据进行语言识别处理得到初始文本信息;
基于所述初始文本信息确定与所述初始文本信息对应的目标应用;
从所述目标应用中提取与所述初始文本信息对应的目标文本信息;
利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,将所述最终的文本信息作为语音识别结果。
2.如权利要求1所述的语音识别方法,其特征在于,所述基于所述初始文本信息确定与所述初始文本信息对应的目标应用,包括:
对所述初始文本信息的语义进行分析,根据所述语义确定出与所述初始文本信息对应的目标应用。
3.如权利要求1所述的语音识别方法,其特征在于,所述基于所述初始文本信息确定与所述初始文本信息对应的目标应用,包括:
从所述初始文本信息中提取出第一关键字,根据所述第一关键字确定出与所述初始文本信息对应的目标应用。
4.如权利要求1-3任一项所述的语音识别方法,其特征在于,所述利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,包括:
从所述初始文本信息中提取出与所述目标文本信息拼音相同的第二关键字;
将所述目标文本信息和所述第二关键字进行匹配;
若匹配成功,根据所述第二关键字得到最终的文本信息。
5.如权利要求1-3任一项所述的语音识别方法,其特征在于,所述利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,包括:
判断所述初始文本信息中是否存在与所述目标文本信息文字相同的第三关键字;
若是,提取出所述第三关键字;
根据所述第三关键字得到最终的文本信息。
6.如权利要求4所述的语音识别方法,其特征在于,当将所述目标文本信息和所述第二关键字进行匹配失败时,根据所述目标文本信息得到最终的文本信息。
7.如权利要求4所述的语音识别方法,其特征在于,所述利用所述目标文本信息对所述初始文本信息进行校验得到最终的文本信息,将所述最终的文本信息作为语音识别结果之后,还包括:
直接将所述语音识别结果进行显示;
或,
将所述初始文本信息和所述语音识别结果分别进行显示。
8.如权利要求7所述的语音识别方法,其特征在于,所述将所述初始文本信息和所述语音识别结果分别进行显示之后,还包括:
判断是否接收到选择指令;
若是,根据所述选择指令确定此次语音识别的最终结果。
9.一种终端,其特征在于,所述终端包括处理器、存储器及通信总线;
所述通信总线用于实现所述处理器和所述存储器之间的连接通信;
所述处理器用于执行所述存储器中存储的一个或者多个程序,以实现如权利要求1-8任一项所述的语音识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任一项所述的语音识别方法的步骤。
CN201810682599.XA 2018-06-27 2018-06-27 一种语音识别方法、终端及计算机可读存储介质 Pending CN108831479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810682599.XA CN108831479A (zh) 2018-06-27 2018-06-27 一种语音识别方法、终端及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810682599.XA CN108831479A (zh) 2018-06-27 2018-06-27 一种语音识别方法、终端及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108831479A true CN108831479A (zh) 2018-11-16

Family

ID=64139158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810682599.XA Pending CN108831479A (zh) 2018-06-27 2018-06-27 一种语音识别方法、终端及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108831479A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817210A (zh) * 2019-02-12 2019-05-28 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质
CN110334330A (zh) * 2019-05-27 2019-10-15 努比亚技术有限公司 一种信息编辑方法、可穿戴设备及计算机可读存储介质
CN111309857A (zh) * 2020-01-20 2020-06-19 联想(北京)有限公司 一种处理方法及处理装置
CN112329457A (zh) * 2019-07-17 2021-02-05 北京声智科技有限公司 输入语音的识别方法及相关设备
CN112581964A (zh) * 2020-12-04 2021-03-30 浙江大有实业有限公司杭州科技发展分公司 一种面向多领域的智能语音交互方法
CN112599129A (zh) * 2021-03-01 2021-04-02 北京世纪好未来教育科技有限公司 语音识别方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886284A (zh) * 2014-03-03 2014-06-25 小米科技有限责任公司 人物属性信息识别方法、装置及电子设备
CN105895103A (zh) * 2015-12-03 2016-08-24 乐视致新电子科技(天津)有限公司 一种语音识别方法及装置
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107329843A (zh) * 2017-06-30 2017-11-07 百度在线网络技术(北京)有限公司 应用程序语音控制方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886284A (zh) * 2014-03-03 2014-06-25 小米科技有限责任公司 人物属性信息识别方法、装置及电子设备
CN105895103A (zh) * 2015-12-03 2016-08-24 乐视致新电子科技(天津)有限公司 一种语音识别方法及装置
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107329843A (zh) * 2017-06-30 2017-11-07 百度在线网络技术(北京)有限公司 应用程序语音控制方法、装置、设备以及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817210A (zh) * 2019-02-12 2019-05-28 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质
CN109817210B (zh) * 2019-02-12 2021-08-17 百度在线网络技术(北京)有限公司 语音写作方法、装置、终端和存储介质
CN110334330A (zh) * 2019-05-27 2019-10-15 努比亚技术有限公司 一种信息编辑方法、可穿戴设备及计算机可读存储介质
CN112329457A (zh) * 2019-07-17 2021-02-05 北京声智科技有限公司 输入语音的识别方法及相关设备
CN111309857A (zh) * 2020-01-20 2020-06-19 联想(北京)有限公司 一种处理方法及处理装置
CN112581964A (zh) * 2020-12-04 2021-03-30 浙江大有实业有限公司杭州科技发展分公司 一种面向多领域的智能语音交互方法
CN112599129A (zh) * 2021-03-01 2021-04-02 北京世纪好未来教育科技有限公司 语音识别方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN109036419A (zh) 一种语音识别匹配方法、终端及计算机可读存储介质
CN108831479A (zh) 一种语音识别方法、终端及计算机可读存储介质
CN109036420A (zh) 一种语音识别控制方法、终端及计算机可读存储介质
CN109032466A (zh) 基于双屏幕的长截图方法、移动终端及存储介质
CN108881606A (zh) 终端的游戏界面显示方法、终端及计算机可读存储介质
CN109947248A (zh) 振动控制方法、移动终端及计算机可读存储介质
CN110314375A (zh) 一种游戏场景的录制方法、终端及计算机可读存储介质
CN110007992A (zh) 一种页面显示方法、终端及计算机可读存储介质
CN109922078A (zh) 升级控制方法、移动终端及计算机可读存储介质
CN109819096A (zh) 通知消息的推送显示控制方法、终端及计算机存储介质
CN109766119A (zh) 恢复分区升级方法、终端和计算机可读存储介质
CN109218531A (zh) 屏幕内容显示效果控制方法、终端及计算机可读存储介质
CN109783370A (zh) 一种日志抓取方法、终端及计算机可读存储介质
CN109584897A (zh) 视频降噪方法、移动终端及计算机可读存储介质
CN109151558A (zh) 一种视频处理方法、终端及计算机可读存储介质
CN110020386A (zh) 应用页面分享方法、移动终端及计算机可读存储介质
CN110064196A (zh) 移动终端控制方法、移动终端及计算机可读存储介质
CN109710050A (zh) 一种显示控制方法、可穿戴设备及计算机可读存储介质
CN109408185A (zh) 图片显示方法、移动终端及计算机可读存储介质
CN110362367A (zh) 一种页面消除控制方法、终端及计算机可读存储介质
CN108322592A (zh) 柔性屏终端控制方法、柔性屏终端及计算机可读存储介质
CN108195394A (zh) 柔性屏幕的导航方法、移动终端及计算机可读存储介质
CN107645588A (zh) 一种消息通知处理方法、终端及计算机可读存储介质
CN109471664A (zh) 智能助手管理方法、终端及计算机可读存储介质
CN110175052A (zh) 一种开启文件的方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116

RJ01 Rejection of invention patent application after publication