CN111755026A - 一种语音识别方法及系统 - Google Patents

一种语音识别方法及系统 Download PDF

Info

Publication number
CN111755026A
CN111755026A CN201910426946.7A CN201910426946A CN111755026A CN 111755026 A CN111755026 A CN 111755026A CN 201910426946 A CN201910426946 A CN 201910426946A CN 111755026 A CN111755026 A CN 111755026A
Authority
CN
China
Prior art keywords
user
voice
pinyin
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910426946.7A
Other languages
English (en)
Other versions
CN111755026B (zh
Inventor
方思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910426946.7A priority Critical patent/CN111755026B/zh
Publication of CN111755026A publication Critical patent/CN111755026A/zh
Application granted granted Critical
Publication of CN111755026B publication Critical patent/CN111755026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例公开一种语音识别方法及系统,该方法包括:当收到用户语音时,检测用户语音是否为可识别语音;若不为可识别语音,获取用户信息,该用户信息至少包括用户年龄、性别以及所处区域;以及依据用户信息,校正用户语音;对校正后的用户语音进行识别,以得到识别结果。通过实施本发明实施例,能够准确识别用户语音。

Description

一种语音识别方法及系统
技术领域
本发明涉及教育技术领域,具体涉及一种语音识别方法及系统。
背景技术
目前,市面上的具有语音搜题功能的家教设备其所运行的语音识别系统通常仅可以对标准的普通话进行识别,而受学生自身的发音器官发育程度、地域方言环境以及语音表达能力等影响,学生的输入的用户语音可能不是标准的普通话,在这种情况下,现有的语音识别系统通常无法对用户输入的语音进行准确识别,影响用户的学习效果。
发明内容
本发明实施例公开一种语音识别方法及系统,能够准确识别用户语音。
本发明实施例第一方面公开一种语音识别方法,包括:
当收到用户语音时,检测所述用户语音是否为可识别语音;
若不为所述可识别语音,获取用户信息;其中,所述用户信息至少包括用户年龄、性别以及所处区域;
依据所述用户信息,校正所述用户语音;
对校正后的所述用户语音进行识别,以得到识别结果。
作为一种可选的实施方式,在本发明实施例第一方面中,所述当收到用户语音时,检测所述用户语音是否为可识别语音,包括:
当收到用户语音时,依据所述用户语音得到初始拼音;
在标准字词库中查找所述初始拼音对应的字词;
当在所述标准字词库中查找到所述初始拼音对应的字词时,确定所述用户语音为可识别语音;
当在所述标准字词库中未查找到所述初始拼音对应的字词时,确定所述用户语音不为所述可识别语音。
作为一种可选的实施方式,在本发明实施例第一方面中,所述依据所述用户信息,校正所述用户语音,包括:
依据所述用户信息,对所述初始拼音进行校正,以得到校正拼音;
所述对校正后的所述用户语音进行识别,以得到识别结果,包括:
在所述标准字词库中查找所述校正拼音对应的字词,并将查找到的所述校正拼音对应的字词作为识别结果。
作为一种可选的实施方式,在本发明实施例第一方面中,所述获取用户信息之后,以及所述依据所述用户信息,校正所述用户语音之前,所述方法还包括:
获取所述用户信息对应的个性化字词库;
判断在所述个性化字词库中是否查找所述初始拼音对应的字词;
当在所述个性化字词库中未查找到所述初始拼音对应的字词时,执行所述的依据所述用户信息,校正所述用户语音。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对校正后的所述用户语音进行识别,以得到识别结果之后,所述方法还包括:
将所述初始拼音和所述识别结果关联存储至所述个性化字词库。
本发明实施例第二方面公开一种语音识别系统,包括:
检测单元,用于当收到用户语音时,检测所述用户语音是否为可识别语音;
获取单元,用于当所述用户语音不为所述可识别语音时,获取用户信息;其中,所述用户信息至少包括用户年龄、性别以及所处区域;
校正单元,用于依据所述用户信息,校正所述用户语音;
识别单元,用于对校正后的所述用户语音进行识别,以得到识别结果。
作为一种可选的实施方式,在本发明实施例第二方面中,所述检测单元包括:
获取子单元,用于当收到用户语音时,依据所述用户语音得到初始拼音;
查找子单元,用于在标准字词库中查找所述初始拼音对应的字词;
确定子单元,用于当在所述标准字词库中查找到所述初始拼音对应的字词时,确定所述用户语音为可识别语音;以及当在所述标准字词库中未查找到所述初始拼音对应的字词时,确定所述用户语音不为所述可识别语音。
作为一种可选的实施方式,在本发明实施例第二方面中,所述校正单元用于依据所述用户信息,校正所述用户语音的方式具体为:
所述校正单元,用于依据所述用户信息,对所述初始拼音进行校正,以得到校正拼音;
所述识别单元用于对校正后的所述用户语音进行识别,以得到识别结果的方式具体为:
所述识别单元,用于在所述标准字词库中查找所述校正拼音对应的字词,并将查找到的所述校正拼音对应的字词作为识别结果。
作为一种可选的实施方式,在本发明实施例第二方面中,所述获取单元,还用于获取用户信息之后,以及所述校正单元依据所述用户信息,校正所述用户语音之前,获取所述用户信息对应的个性化字词库;
所述语音识别系统还包括:
判断单元,用于判断在所述个性化字词库中是否查找所述初始拼音对应的字词,以及当在所述个性化字词库中未查找到所述初始拼音对应的字词时,触发所述校正单元执行所述的依据所述用户信息,校正所述用户语音的操作。
作为一种可选的实施方式,在本发明实施例第二方面中,所述语音识别系统还包括:
存储单元,用于所述识别单元对校正后的所述用户语音进行识别,以得到识别结果之后,将所述初始拼音和所述识别结果关联存储至所述个性化字词库。
本发明实施例第三方面公开一种计算机可读存储介质,其存储计算机程序,所述计算机程序包括用于执行本发明第一方面的任意一种方法的部分或全部步骤。
本发明实施例第四面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
本发明实施例第五方面公开一种应用发布系统,所述应用发布系统用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,当收到用户语音时,检测用户语音是否为可识别语音;若不为可识别语音,获取用户信息,该用户信息至少包括用户年龄、性别以及所处区域;以及依据用户信息,校正用户语音;对校正后的用户语音进行识别,以得到识别结果。通过实施本发明实施例,可以在用户语音不为标准的普通话的情况下,依据用户信息,将用户语音校正为标准的普通话,实现用户语音的准确识别,提高用户的学习效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造率劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音识别方法的流程示意图;
图2是本发明实施例公开的另一种语音识别方法的流程示意图;
图3是本发明实施例公开的又一种语音识别方法的流程示意图;
图4是本发明实施例公开的一种语音识别系统的结构示意图;
图5是本发明实施例公开的另一种语音识别系统的结构示意图;
图6是本发明实施例公开的又一种语音识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开一种语音识别方法及系统,能够准确识别用户语音。在本发明实施例中,语音识别系统可以运行于智能手机、智能手表以及平板等各类电子设备上,本发明实施例不做限定。其中,各类电子设备的操作系统可包括但不限于Android操作系统、IOS操作系统、Symbian(塞班)操作系统、Black Berry(黑莓)操作系统、Windows Phone8操作系统等等,本发明实施例不做限定。
实施例一
请参阅图1,图1是本发明实施例公开的一种语音识别方法的流程示意图。如图1所示的语音识别方法具体可以包括以下步骤:
101、当收到用户语音时,检测用户语音是否为可识别语音,如果是,结束本流程;如果否,执行步骤102~步骤104。
在本发明实施例中,步骤101收到的用户语音可以通过运行语音识别系统的电子设备在处于语音搜题模式时接收,关于步骤101的具体实现方式,将在下述方法实施例中进行描述,本发明实施例不再赘述。其中,上述可识别语音可以为能被传统语音识别系统识别的标准的普通话,若用户语音为可识别语音,可利用传统语音识别系统识别用户语音。可选的,在本发明实施例中,运行语音识别系统的电子设备接收用户语音时可以为黑屏状态,也可以为亮屏状态,这可以由用户预先设定,也可以自主设定。可选的,在本发明实施例中,自主设定上述电子设备的显示屏幕的状态类型的方式可以是:实时获取上述电子设备的剩余电量,以及当上述电子设备的剩余电量小于预设电量值时,获取上述电子设备的显示屏幕的当前状态类型,若当前状态类型为亮屏状态,则将上述电子设备的显示屏幕设置为黑屏状态。通过实施该方法,可以节省上述电子设备的电量。
102、获取用户信息,该用户信息至少包括用户年龄、性别以及所处区域。
在本发明实施例中,步骤102提及的所处区域可以为用户籍贯,获取用户信息可以包括:利用图像采集装置采集用户的标识信息,即面部信息、指纹信息或者虹膜信息,并在预设的用户数据库中查找该标识信息匹配的用户信息。通过实施该方法,可以提供多种获取用户信息的方法,提高设备交互性,有利于提升用户体验。
103、依据用户信息,校正上述用户语音。
作为一种可选的实施方式,在本发明实施例中,步骤103执行完毕之后,还可以将校正后的用户语音输出,以供用户参考。进一步可选的,将校正后的用户语音输出之后,还可以依据上述用户语音和校正后的用户语音,得到用于指示用户口语问题的指示信息,以及依据该指示信息在口语练习库中查找目标口语练习题,以及将目标口语练习题输出,以供用户进行练习。进一步可选的,依据指示信息在口语练习库中查找目标口语练习题之后,还可以检测用户设置的针对口语练习题的练习时段,并在到达练习时段的起始时间点时,输出练习提示信息。基于该描述,上述将目标口语练习题输出可以包括:以练习提示信息的输出时间点为起始时间点,检测在预设时长之内是否收到用户输入的练习指令,若收到,则响应该练习指令,输出目标口语练习题。通过实施该方法,可以将校正后的用户语音输出,起到纠正用户口音的作用,还可以通过目标口语练习题的练习,有效提高用户的口语水平。
104、对校正后的用户语音进行识别,以得到识别结果。
关于步骤103和步骤104的具体实现方式,请参照下述方法实施例,本发明实施例不再赘述。
通过实施上述方法,可以实现用户语音的准确识别,提高用户的学习效果,还可以节省电量,还可以提高设备交互性,有利于提升用户体验,还可以起到纠正用户口音的作用,还可以有效提高用户的口语水平。
实施例二
请参阅图2,图2是本发明实施例公开的另一种语音识别方法的流程示意图。如图2所示的语音识别方法具体可以包括以下步骤:
201、当收到用户语音时,依据该用户语音得到初始拼音。
202、在标准字词库中查找初始拼音对应的字词。
203、当在标准字词库中查找到初始拼音对应的字词时,确定上述用户语音为可识别语音。
204、当在标准字词库中未查找到初始拼音对应的字词时,确定上述用户语音不为可识别语音。
在本发明实施例中,标准字词库可以为传统语音识别系统的语音识别工具,标准字词库中可以记录有若干字词和每一字词的准确拼音,其中,标准字词库可以与用户的年级信息匹配,可以提高初始拼音对应的字词的查找效率,进一步提高用户语音的识别效率。
205、获取用户信息,该用户信息至少包括用户年龄、性别以及所处区域。
其中,关于步骤205的实现方式的详细介绍,请参照实施例一中的描述,本发明实施例不再赘述。在本发明实施例中,需要说明的是,步骤203执行完毕之后,可以利用传统语音识别系统识别用户语音,步骤204执行完毕之后,继续执行步骤205。
206、依据用户信息,对初始拼音进行校正,以得到校正拼音。
207、在标准字词库中查找校正拼音对应的字词,并将查找到的校正拼音对应的字词作为识别结果。
若运行语音识别系统的电子设备当前处于语音搜题模式,作为一种可选的实施方式,在本发明实施例中,在步骤207执行完毕之后,还可以获取用户的课标要求,以及依据课标要求和上述识别结果,得到目标学习内容,以及将目标学习内容按照预设的输出方式进行输出。通过实施该方法,基于用户的课标要求反馈学习内容,可以提高语音搜题的准确率。需要说明的是,预设的输出方式可以为显示屏输出和\或语音输出。
通过实施上述方法,可以实现用户语音的准确识别,提高用户的学习效果,还可以节省电量,还可以提高设备交互性,有利于提升用户体验,还可以起到纠正用户口音的作用,还可以有效提高用户的口语水平,还可以通过初始拼音对应的字词的查找效率的提高,进一步提高用户语音的识别效率,还可以提高语音搜题的准确率。
实施例三
请参阅图3,图3是本发明实施例公开的另一种语音识别方法的流程示意图。如图3所示的语音识别方法具体可以包括以下步骤:
其中,关于步骤301~步骤305的详细描述,请参照实施例二中针对步骤201~步骤205的描述,本发明实施例不再赘述。
306、获取用户信息对应的个性化字词库。
307、判断在个性化字词库中是否查找初始拼音对应的字词,如果是,结束本流程;如果否,执行步骤308~步骤310。
在本发明实施例中,上述个性化字词库中存储有若干字词和每一字词对应的因用户口音所导致的错误拼音,且上述个性化字词库与用户信息是关联的,在步骤307的判断结果为是时,还可以将在个性化字词库中查找到的初始拼音对应的字词作为识别结果。通过执行步骤306~步骤307,在上述用户语音不为可识别语音的情况下,可以直接利用个性化字词库对用户语音进行识别,极大地提高用户语音识别效率。
308、依据用户信息,对初始拼音进行校正,以得到校正拼音。
309、在标准字词库中查找校正拼音对应的字词,并将查找到的校正拼音对应的字词作为识别结果。
310、将初始拼音和识别结果关联存储至个性化字词库。
通过执行步骤310,当通过个性化字词库未成功识别上述用户语音时,可以将初始拼音和识别结果关联存储至个性化字词库,以实现个性化字词库的自动优化。
通过实施上述方法,可以实现用户语音的准确识别,提高用户的学习效果,还可以节省电量,还可以提高设备交互性,有利于提升用户体验,还可以起到纠正用户口音的作用,还可以有效提高用户的口语水平,还可以通过初始拼音对应的字词的查找效率的提高,进一步提高用户语音的识别效率,还可以提高语音搜题的准确率,还可以实现个性化字词库的自动优化。
实施例四
请参阅图4,图4是本发明实施例公开的一种语音识别系统的结构示意图。如图4所示,该语音识别系统可以包括:
检测单元401,用于当收到用户语音时,检测用户语音是否为可识别语音。
在本发明实施例中,检测单元401收到的用户语音可以通过运行语音识别系统的电子设备在处于语音搜题模式时收到,关于检测单元401用于检测用户语音是否为可识别语音的具体实现方式,将在下述实施例中进行描述,本发明实施例不再赘述。其中,上述可识别语音可以为能被传统语音识别系统识别的标准的普通话,若用户语音为可识别语音,可利用传统语音识别系统识别用户语音。可选的,在本发明实施例中,运行语音识别系统的电子设备接收用户语音时可以为黑屏状态,也可以为亮屏状态,这可以由用户预先设定,也可以自主设定。可选的,在本发明实施例中,检测单元401自主设定上述电子设备的显示屏幕的状态类型的方式具体可以为:检测单元401,还可以用于实时获取上述电子设备的剩余电量,以及当上述电子设备的剩余电量小于预设电量值时,获取上述电子设备的显示屏幕的当前状态类型,以及在当前状态类型为亮屏状态时,则将上述电子设备的显示屏幕设置为黑屏状态。通过实施该方式,可以节省电子设备的电量。
获取单元402,用于当用户语音不为可识别语音时,获取用户信息;其中,该用户信息至少包括用户年龄、性别以及所处区域。
在本发明实施例中,获取单元402用于获取用户信息的方式具体可以为:获取单元402,用于利用图像采集装置采集用户的标识信息,即面部信息、指纹信息或者虹膜信息,并在预设的用户数据库中查找该标识信息匹配的用户信息。通过实施该方式,可以提供多种获取用户信息的方法,提高设备交互性,有利于提升用户体验。
校正单元403,用于依据用户信息,校正上述用户语音。
作为一种可选的实施方式,在本发明实施例中,校正单元403,还可以用于依据用户信息,校正上述用户语音之后,将校正后的用户语音输出,以供用户参考。进一步可选的,校正单元403,还可以用于将校正后的用户语音输出之后,依据上述用户语音和校正后的用户语音,得到用于指示用户口语问题的指示信息,以及依据该指示信息在口语练习库中查找目标口语练习题,以及将目标口语练习题输出,以供用户进行练习。进一步可选的,校正单元403,还可以用于依据指示信息在口语练习库中查找目标口语练习题之后,检测用户设置的针对口语练习题的练习时段,并在到达练习时段的起始时间点时,输出练习提示信息。基于该描述,校正单元403用于将目标口语练习题输出的方式具体可以为:校正单元403,用于以练习提示信息的输出时间点为起始时间点,检测在预设时长之内是否收到用户输入的练习指令,若收到,则响应该练习指令,输出目标口语练习题。通过实施该方式,可以将校正后的用户语音输出,起到纠正用户口音的作用,还可以通过目标口语练习题的练习,有效提高用户的口语水平。
识别单元404,用于对校正后的用户语音进行识别,以得到识别结果。
通过实施上述系统,可以实现用户语音的准确识别,提高用户的学习效果,还可以节省电量,还可以提高设备交互性,有利于提升用户体验,还可以起到纠正用户口音的作用,还可以有效提高用户的口语水平。
实施例五
请参阅图5,图5是本发明实施例公开的另一种语音识别系统的结构示意图。图5所示的语音识别系统是由图4所示的语音识别系统优化得到的,如图5所示,该语音识别系统中的检测单元包401可以包括:
获取子单元4011,用于当收到用户语音时,依据用户语音得到初始拼音。
查找子单元4012,用于在标准字词库中查找初始拼音对应的字词。
确定子单元4013,用于当在标准字词库中查找到初始拼音对应的字词时,确定上述用户语音为可识别语音;以及当在标准字词库中未查找到初始拼音对应的字词时,确定上述用户语音不为可识别语音。
在本发明实施例中,关于标准字词库的详细描述,请参照实施例二中的描述,本发明实施例不再赘述。
作为一种可选的实施方式,在本发明实施例中,校正单元403用于依据用户信息,校正上述用户语音的方式具体可以为:校正单元403,用于依据用户信息,对初始拼音进行校正,以得到校正拼音;基于该描述,那么,识别单元404用于对校正后的上述用户语音进行识别,以得到识别结果的方式具体可以为:识别单元404,用于在标准字词库中查找校正拼音对应的字词,并将查找到的校正拼音对应的字词作为识别结果。
若运行语音识别系统的电子设备当前处于语音搜题模式,作为一种可选的实施方式,在本发明实施例中,识别单元404,还可以用于获取用户的课标要求,以及依据课标要求和上述识别结果,得到目标学习内容,以及将目标学习内容按照预设的输出方式进行输出。通过实施该方式,基于用户的课标要求反馈学习内容,可以提高语音搜题的准确率。
通过实施上述系统,可以实现用户语音的准确识别,提高用户的学习效果,还可以节省电量,还可以提高设备交互性,有利于提升用户体验,还可以起到纠正用户口音的作用,还可以有效提高用户的口语水平,还可以通过初始拼音对应的字词的查找效率的提高,进一步提高用户语音的识别效率,还可以提高语音搜题的准确率。
实施例六
请参阅图6,图6是本发明实施例公开的又一种语音识别系统的结构示意图。图6所示的语音识别系统是由图5所示的语音识别系统优化得到的,如图6所示,该语音识别系统中的获取单元402,还可以用于获取用户信息之后,以及校正单元403依据用户信息,校正用户语音之前,获取用户信息对应的个性化字词库:
该语音识别系统还可以包括:
判断单元405,用于判断在个性化字词库中是否查找初始拼音对应的字词,以及当在个性化字词库中未查找到初始拼音对应的字词时,触发校正单元403执行上述的依据用户信息,校正上述用户语音的操作。
在本发明实施例中,关于个性化字词库的详细描述,请参照实施例三中的描述,本发明实施例不再赘述。在判断单元405的判断结果为是时,判断单元405,还可以用于将在个性化字词库中查找到的初始拼音对应的字词作为识别结果。基于判断单元405,在上述用户语音不为可识别语音的情况下,可以直接利用个性化字词库对用户语音进行识别,极大地提高用户语音识别效率。
作为一种可选的实施方式,在本发明实施例中,该语音识别系统还可以包括:
存储单元406,用于识别单元404对校正后的上述用户语音进行识别,以得到识别结果之后,将初始拼音和识别结果关联存储至个性化字词库。
在本发明实施例中,当通过个性化字词库未成功识别上述用户语音时,存储单元406可以将初始拼音和识别结果关联存储至个性化字词库,以实现个性化字词库的自动优化。
通过实施上述系统,可以实现用户语音的准确识别,提高用户的学习效果,还可以节省电量,还可以提高设备交互性,有利于提升用户体验,还可以起到纠正用户口音的作用,还可以有效提高用户的口语水平,还可以通过初始拼音对应的字词的查找效率的提高,进一步提高用户语音的识别效率,还可以提高语音搜题的准确率,还可以实现个性化字词库的自动优化。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1~图3任意一种语音识别方法。
本发明实施例公开一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行图1~图3任意一种语音识别方法。
本发明实施例公开一种应用发布系统,该应用发布系统用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行图1~图3任意一种语音识别方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种语音识别方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,且上述具体个例中步骤序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
本文中字符“/”,一般表示前后关联对象是一种“或”的关系。在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。若上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
当收到用户语音时,检测所述用户语音是否为可识别语音;
若不为所述可识别语音,获取用户信息;其中,所述用户信息至少包括用户年龄、性别以及所处区域;
依据所述用户信息,校正所述用户语音;
对校正后的所述用户语音进行识别,以得到识别结果。
2.根据权利要求1所述的方法,其特征在于,所述当收到用户语音时,检测所述用户语音是否为可识别语音,包括:
当收到用户语音时,依据所述用户语音得到初始拼音;
在标准字词库中查找所述初始拼音对应的字词;
当在所述标准字词库中查找到所述初始拼音对应的字词时,确定所述用户语音为可识别语音;
当在所述标准字词库中未查找到所述初始拼音对应的字词时,确定所述用户语音不为所述可识别语音。
3.根据权利要求2所述的方法,其特征在于,所述依据所述用户信息,校正所述用户语音,包括:
依据所述用户信息,对所述初始拼音进行校正,以得到校正拼音;
所述对校正后的所述用户语音进行识别,以得到识别结果,包括:
在所述标准字词库中查找所述校正拼音对应的字词,并将查找到的所述校正拼音对应的字词作为识别结果。
4.根据权利要求2所述的方法,其特征在于,所述获取用户信息之后,以及所述依据所述用户信息,校正所述用户语音之前,所述方法还包括:
获取所述用户信息对应的个性化字词库;
判断在所述个性化字词库中是否查找所述初始拼音对应的字词;
当在所述个性化字词库中未查找到所述初始拼音对应的字词时,执行所述的依据所述用户信息,校正所述用户语音。
5.根据权利要求4所述的方法,其特征在于,所述对校正后的所述用户语音进行识别,以得到识别结果之后,所述方法还包括:
将所述初始拼音和所述识别结果关联存储至所述个性化字词库。
6.一种语音识别系统,其特征在于,包括:
检测单元,用于当收到用户语音时,检测所述用户语音是否为可识别语音;
获取单元,用于当所述用户语音不为所述可识别语音时,获取用户信息;其中,所述用户信息至少包括用户年龄、性别以及所处区域;
校正单元,用于依据所述用户信息,校正所述用户语音;
识别单元,用于对校正后的所述用户语音进行识别,以得到识别结果。
7.根据权利要求6所述的语音识别系统,其特征在于,所述检测单元包括:
获取子单元,用于当收到用户语音时,依据所述用户语音得到初始拼音;
查找子单元,用于在标准字词库中查找所述初始拼音对应的字词;
确定子单元,用于当在所述标准字词库中查找到所述初始拼音对应的字词时,确定所述用户语音为可识别语音;以及当在所述标准字词库中未查找到所述初始拼音对应的字词时,确定所述用户语音不为所述可识别语音。
8.根据权利要求7所述的语音识别系统,其特征在于,所述校正单元用于依据所述用户信息,校正所述用户语音的方式具体为:
所述校正单元,用于依据所述用户信息,对所述初始拼音进行校正,以得到校正拼音;
所述识别单元用于对校正后的所述用户语音进行识别,以得到识别结果的方式具体为:
所述识别单元,用于在所述标准字词库中查找所述校正拼音对应的字词,并将查找到的所述校正拼音对应的字词作为识别结果。
9.根据权利要求7所述的语音识别系统,其特征在于,所述获取单元,还用于获取用户信息之后,以及所述校正单元依据所述用户信息,校正所述用户语音之前,获取所述用户信息对应的个性化字词库;
所述语音识别系统还包括:
判断单元,用于判断在所述个性化字词库中是否查找所述初始拼音对应的字词,以及当在所述个性化字词库中未查找到所述初始拼音对应的字词时,触发所述校正单元执行所述的依据所述用户信息,校正所述用户语音的操作。
10.根据权利要求9所述的语音识别系统,其特征在于,所述语音识别系统还包括:
存储单元,用于所述识别单元对校正后的所述用户语音进行识别,以得到识别结果之后,将所述初始拼音和所述识别结果关联存储至所述个性化字词库。
CN201910426946.7A 2019-05-22 2019-05-22 一种语音识别方法及系统 Active CN111755026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910426946.7A CN111755026B (zh) 2019-05-22 2019-05-22 一种语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910426946.7A CN111755026B (zh) 2019-05-22 2019-05-22 一种语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN111755026A true CN111755026A (zh) 2020-10-09
CN111755026B CN111755026B (zh) 2023-02-28

Family

ID=72672900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910426946.7A Active CN111755026B (zh) 2019-05-22 2019-05-22 一种语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN111755026B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143037B1 (en) * 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
CN102867512A (zh) * 2011-07-04 2013-01-09 余喆 自然语音识别方法和装置
US9318105B1 (en) * 2004-10-06 2016-04-19 West Interactive Corporation Ii Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition
CN108053823A (zh) * 2017-11-28 2018-05-18 广西职业技术学院 一种语音识别系统及方法
CN109545218A (zh) * 2019-01-08 2019-03-29 广东小天才科技有限公司 一种语音识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143037B1 (en) * 2002-06-12 2006-11-28 Cisco Technology, Inc. Spelling words using an arbitrary phonetic alphabet
US9318105B1 (en) * 2004-10-06 2016-04-19 West Interactive Corporation Ii Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition
CN102867512A (zh) * 2011-07-04 2013-01-09 余喆 自然语音识别方法和装置
CN108053823A (zh) * 2017-11-28 2018-05-18 广西职业技术学院 一种语音识别系统及方法
CN109545218A (zh) * 2019-01-08 2019-03-29 广东小天才科技有限公司 一种语音识别方法及系统

Also Published As

Publication number Publication date
CN111755026B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN109460209B (zh) 一种听写报读进度的控制方法及电子设备
CN109635772B (zh) 一种听写内容的批改方法及电子设备
CN109346059B (zh) 一种方言语音的识别方法及电子设备
CN109410664B (zh) 一种发音纠正方法及电子设备
CN109446315B (zh) 一种解题辅助方法及解题辅助客户端
CN108986564B (zh) 一种基于智能交互的报读控制方法及电子设备
CN109545184B (zh) 一种基于语音校准的背诵检测方法及电子设备
CN109656465B (zh) 一种应用于家教设备的内容获取方法及家教设备
CN111081080B (zh) 一种语音检测方法及学习设备
CN109165336B (zh) 一种信息输出控制方法及家教设备
CN108920450B (zh) 一种基于电子设备的知识点复习方法及电子设备
CN108766431B (zh) 一种基于语音识别的自动唤醒方法及电子设备
CN109615009B (zh) 一种学习内容推荐方法及电子设备
CN109086431B (zh) 一种知识点巩固学习方法及电子设备
CN109582780B (zh) 一种基于用户情绪的智能问答方法及装置
CN111026786A (zh) 一种听写列表生成方法及家教设备
CN111079726B (zh) 一种图像处理方法及电子设备
CN111755026B (zh) 一种语音识别方法及系统
CN108877773B (zh) 一种语音识别方法及电子设备
CN111027353A (zh) 一种搜索内容的提取方法及电子设备
CN109783679B (zh) 一种学习辅助方法及学习设备
CN108922278B (zh) 一种人机交互方法及学习设备
CN111077989B (zh) 一种基于电子设备的屏幕控制方法及电子设备
CN111079486A (zh) 一种开启听写检测的方法及电子设备
CN111091821B (zh) 一种基于语音识别的控制方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant