CN111739527A - 语音识别方法及电子设备、计算机可读存储介质 - Google Patents
语音识别方法及电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN111739527A CN111739527A CN202010484431.5A CN202010484431A CN111739527A CN 111739527 A CN111739527 A CN 111739527A CN 202010484431 A CN202010484431 A CN 202010484431A CN 111739527 A CN111739527 A CN 111739527A
- Authority
- CN
- China
- Prior art keywords
- intonation
- sequence
- standard
- determining
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000011156 evaluation Methods 0.000 claims abstract description 102
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000001174 ascending effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 230000000630 rising effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000009940 knitting Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例涉及电子设备技术领域,公开了一种语音识别方法及电子设备、计算机可读存储介质,该方法包括:获取通过音频模块采集的用户跟读测评内容的语音信息;识别出语音信息中每一个语音单元对应的语调,得到语音信息对应的语调序列;判断语调序列与标准语调序列是否相匹配,该标准语调序列根据测评内容对应的表述场景确定出;若不匹配,输出标准语调序列供用户参考。实施本申请实施例,能够提高用户的口语能力。
Description
技术领域
本发明涉及电子设备技术领域,具体涉及一种语音识别方法及电子设备、计算机可读存储介质。
背景技术
随着学习类电子设备技术的快速发展,现如今的学习类电子设备已能够在辅助用户进行口语练习的过程中,对用户的词语跟读语音进行准确度、流利度和完整度三个纬度上的测评。而在实践中发现,如果用户仅在上述三个纬度上进行口语练习,而缺乏对词语语调方面的训练,则不利于用户对不同语境场景下的词语进行理解,从而不利于提高用户的口语能力。
发明内容
本申请实施例公开了一种语音识别方法及电子设备、计算机可读存储介质,能够提高用户的口语能力。
本申请实施例第一方面公开一种语音识别方法,包括:
获取通过音频模块采集的用户跟读测评内容的语音信息;
识别出所述语音信息中每一个语音单元对应的语调,得到所述语音信息对应的语调序列;
判断所述语调序列与标准语调序列是否相匹配,所述标准语调序列根据所述测评内容对应的表述场景确定出;
若不匹配,输出所述标准语调序列,以供所述用户参考。
作为一种可选的实施方式,在本申请实施例第一方面中,在判断所述语调序列与标准语调序列是否相匹配之前,所述方法还包括:
根据所述测评内容的上下文信息确定出所述测评内容对应的表述场景;
根据所述测评内容对应的表述场景确定出所述测评内容的语调波峰;
根据所述语调波峰确定出所述测评内容对应的标准语调序列。
作为一种可选的实施方式,在本申请实施例第一方面中,所述语音信息对应的语调序列表示所述语音信息的语调变化趋势,所述判断所述语调序列与标准语调序列是否相匹配,包括:
判断所述语音信息的语调变化趋势与所述标准语调序列表示的标准语调变化趋势是否相匹配;
若相匹配,确定所述语调序列与标准语调序列相匹配;
若不相匹配,确定所述语调序列与标准语调序列不匹配。
作为一种可选的实施方式,在本申请实施例第一方面中,在所述识别出所述语音信息中每一个语音单元对应的语调之后,所述方法还包括:
根据所述语音单元对应的目标单词在所述测评内容对应的表述场景下表达的意思或者情绪,确定出所述目标单词的标准语调;
判断所述语音单元对应的语调与所述目标单词的标准语调是否相匹配;
若不匹配,输出所述目标单词的标准语调。
作为一种可选的实施方式,在本申请实施例第一方面中,在判断出所述语调序列与标准语调序列不匹配之后,所述方法还包括:
确定出所述语调序列中与所述标准语调序列不匹配的语调子序列;
以预设的标记方式对所述语调子序列进行标记以提醒所述用户。
本申请实施例第二方面公开一种电子设备,包括:
获取单元,用于获取通过音频模块采集的用户跟读测评内容的语音信息;
识别单元,用于识别出所述语音信息中每一个语音单元对应的语调,得到所述语音信息对应的语调序列;
判断单元,用于判断所述语调序列与标准语调序列是否相匹配,所述标准语调序列根据所述测评内容对应的表述场景确定出;
输出单元,用于在所述判断单元判断出所述语调序列与标准语调序列不匹配时,输出所述标准语调序列,以供所述用户参考。
作为一种可选的实施方式,在本申请实施例第二方面中,所述电子设备还包括:
第一确定单元,用于在所述判断单元判断所述语调序列与标准语调序列是否相匹配之前,根据所述测评内容的上下文信息确定出所述测评内容对应的表述场景;
第二确定单元,用于根据所述测评内容对应的表述场景确定出所述测评内容的语调波峰;
第三确定单元,用于根据所述语调波峰确定出所述测评内容对应的标准语调序列。
作为一种可选的实施方式,在本申请实施例第二方面中,所述语音信息对应的语调序列表示所述语音信息的语调变化趋势,所述判断单元用于判断所述语调序列与标准语调序列是否相匹配的方式具体为:
判断单元,用于判断所述语音信息的语调变化趋势与所述标准语调序列表示的标准语调变化趋势是否相匹配;以及,若相匹配,确定所述语调序列与标准语调序列相匹配;以及,若不相匹配,确定所述语调序列与标准语调序列不匹配。
本申请实施例第三方面公开一种电子设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本申请实施例第一方面公开的一种语音识别方法。
本申请实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本申请实施例第一方面公开的一种语音识别方法。
本申请实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本申请实施例第一方面的任意一种方法的部分或全部步骤。
本申请实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本申请实施例第一方面的任意一种方法的部分或全部步骤。
与现有技术相比,本申请实施例具有以下有益效果:
本申请实施例中,电子设备可以获取通过音频模块采集的用户跟读测评内容的语音信息;并识别出语音信息中每一个语音单元对应的语调,以得到语音信息对应的语调序列;进而判断语调序列与标准语调序列是否相匹配,其中,标准语调序列可以是电子设备根据测评内容对应的表述场景确定出的;后续若电子设备判断出两者不匹配,电子设备可以输出标准语调序列,供用户参考,以让用户掌握在该表述场景下测评内容的朗读语调。可见,与传统的电子设备只能准确度、流利度和完整度三个纬度上对用户的口语能力进行训练相比较,本申请实施例中,电子设备还能对用户的朗读语调进行训练,以规范用户的朗读语调,从而提高用户的口语能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例公开的一种语音识别方法的流程示意图;
图2是本申请实施例公开的另一种语音识别方法的流程示意图;
图3是本申请实施例公开的一种电子设备的结构示意图;
图4是本申请实施例公开的另一种电子设备的结构示意图;
图5是本申请实施例公开的又一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本申请实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例公开了一种语音识别方法及电子设备、计算机可读存储介质,能够提高用户的口语能力。
下面将结合具体实施例对本发明技术方案进行详细说明。
实施例一
请参阅图1,图1是本申请实施例公开的一种语音识别方法的流程示意图。该语音识别方法可以应用于本申请实施例公开的一种电子设备(例如:学习机、点读机、平板电脑或者手机等),在此不作限定。该语音识别方法可以包括以下步骤:
102、获取通过音频模块采集的用户跟读测评内容的语音信息。
本申请实施例中,音频模块可以是内置与电子设备中的声音采集装置,例如麦克风,其可以用于采集用户输入的语音信息。
本申请实施例中,用户跟读的测评内容可以包括:某一篇文章、某一段话或者某一个单词,在此不作限定。
可选的,该语音识别方法可以应用于电子设备的中文或者英文等语言的口语训练功能中,电子设备可以在口语训练功能启动时,输出测评内容供用户跟读,并通过音频模块采集的用户跟读测评内容的语音信息。
可选的,在获取通过音频模块采集的用户跟读测评内容的语音信息之前,电子设备还可以获取用户的身份信息,用户的身份信息至少包括用户就读的年级信息(例如小学3年级、初中1年级等),进而电子设备可以根据用户就读的年级信息确定出用户的学习进度(例如:学习到小学英语3年级下册第二单元、又或者是学习到初中英语1年级下册第一单元等),最后电子设备可以根据用户的学习进度确定出适合用户进行口语测评的测评内容。
实施上述方法,电子设备可以自动匹配出适合用户进行口语测评的测评内容,以使得口语训练更具针对性,即提高了电子设备的智能化程度,还提高了用户的使用体验度。
104、识别出语音信息中每一个语音单元对应的语调,得到语音信息对应的语调序列。
本申请实施例中,电子设备可以通过自动语音识别技术(Automatic SpeechRecognition,ASR)识别用户的语音信息,并识别出语音信息中每一个语言单元对应的语调,以得到用户的语音信息对应的语调序列。
举例来说,用户的语言信息包括“can you bring me the sugar?”,其中每一个单词就是一个语音单元(当然,在其他的实施方式中,语音单元也可以是多个单词、一句话或者一段文字等),具体地,“can”的语调为平调,“you”、“bring”、“me”、“the”和“sugar”的语调都为升调,则用户的语言信息对应的语调序列为“平调、升调、升调、升调、升调、升调”。
106、判断语调序列与标准语调序列是否相匹配,该标准语调序列根据测评内容对应的表述场景确定出;若相匹配,结束本流程;若不匹配,执行步骤108。
本申请实施例中,类似于上述的“平调、升调、升调、升调、升调、升调”的语调序列,电子设备可以判断用户的语音信息对应的语调序列与标准语调序列是否相匹配;若不匹配,电子设备可以执行步骤108。
作为一种可选的实施方式,用户的语言信息对应的语调序列可以表示所述语言信息的语调变化趋势。例如:“平调、升调、升调、升调、升调、升调”的语调序列可以表示的语调变化趋势为“从平调转为升调”。
可选的,电子设备判断用户的语音信息对应的语调序列与标准语调序列是否相匹配的方式可以是:电子设备判断用户的语音信息的语调变化趋势与标准语调序列表示的标准语调变化趋势是否相匹配;若相匹配,确定用户语音信息对应的语调序列与标准语调序列相匹配;若不相匹配,确定用户语音信息对应的语调序列与标准语调序列不匹配。
实施上述方法,电子设备可以针对测评内容为一句话的情况,通过对整句话的语调变化趋势来判断用户的跟读语音是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度。
作为一种可选的实施方式,电子设备在判断用户的语音信息对应的语调序列与标准语调序列是否相匹配之前,可以根据测评内容的上下文信息确定出测评内容对应的表述场景;并根据测评内容对应的表述场景确定出测评内容的语调波峰;进而根据语调波峰确定出测评内容对应的标准语调序列。
举例来说,测评内容为“can you bring me the sugar?”,而根据上下文信息录确定出测评内容对应的表述场景为向某人借东西的场景,电子设备可以根据借东西的场景确定出测评内容为一个反问句,语调波峰是“you”这个单词且是升调的,进而电子设备可以根据语调波峰确定出测评内容对应的标准语调序列为:“平调、升调、升调、升调、升调、升调”。
实施上述方法,可以根据测评内容的上下文信息准确地确定出所述测评内容对应的表述场景,进而确定出更加准确的标准语调序列作为测评标准供用户参考,提高了用户的使用体验度。
108、输出标准语调序列,以供用户参考。
本申请实施例中,电子设备输出标准语调序列的方式可以包括但不限于:语音方式输出或者文字方式输出,其中文字输出的方式又可以包括弹窗方式输出或者弹幕方式输出等,在此不作限定。
作为一种可选的实施方式,电子设备可以根据测评内容对应的表述场景和标准语调序列确定出测评内容所表达的解释意思,并输出标准语调序列和对应的解释意思供用户参考。
举例来说,测评内容为“Allen问:Bob,can you bring me the sugar?而Bob回答:Sorry?”其中,测评内容对应的表述场景为Allen向Bob借东西,但是Bob没有听清楚Allen的提问,则Bob会用升调回答“Sorry”,表示没听清楚,希望Allen再说一遍。则电子设备可以将“Sorry”为升调表示没听清楚,希望Allen再说一遍的解释意思和标准语调序列一同输出给用户,以供用户参考。
实施上述方法,电子设备还可以将测评内容所表达的解释意思和标准语调序列一同输出给用户,以让用户理解在何种表述场景下才使用该标准语调序列,有利于提高用户的口语能力。
可见,实施上述各实施公开的方法,电子设备可以获取通过音频模块采集的用户跟读测评内容的语音信息;并识别出语音信息中每一个语音单元对应的语调,以得到语音信息对应的语调序列;进而判断语调序列与标准语调序列是否相匹配,其中,标准语调序列可以是电子设备根据测评内容对应的表述场景确定出的;后续若电子设备判断出两者不匹配,电子设备可以输出标准语调序列,供用户参考,以让用户掌握在该表述场景下测评内容的朗读语调。可见,与传统的电子设备只能准确度、流利度和完整度三个纬度上对用户的口语能力进行训练相比较,本申请实施例中,电子设备还能对用户的朗读语调进行训练,以规范用户的朗读语调,从而提高用户的口语能力。
此外,电子设备还可以针对测评内容为一句话的情况,通过对整句话的语调变化趋势来判断用户的跟读语音是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度。
此外,电子设备还可以根据测评内容的上下文信息准确地确定出所述测评内容对应的表述场景,进而确定出更加准确的标准语调序列作为测评标准供用户参考,提高了用户的使用体验度。
实施例二
请参阅图2,图2是本申请实施例公开的另一种语音识别方法的流程示意图。该语音识别方法可以应用于本申请实施例公开的一种电子设备(例如:学习机、点读机、平板电脑或者手机等),在此不作限定。该语音识别方法可以包括以下步骤:
202、获取通过音频模块采集的用户跟读测评内容的语音信息。
作为一种可选的实施方式,电子设备可以获取所述电子设备的即时位置信息,并查询所述即时位置信息对应的位置的天气情况信息;若即时位置信息对应的位置的天气情况信息表示电子设备的即时位置附近正在下雨,则电子设备启用降噪模式,以在降噪模式下通过音频模块采集的用户跟读测评内容的语音信息,其中,降噪模式时电子设备的一种运行模式,处于降噪模式时,电子设备可以通过降噪算法处理音频模块采集的声音信息,从而避免下雨的声音影响到音频模块采集的语音信息的清晰度。
作为另一种可选的实施方式,电子设备在根据电子设备的即时位置信息对应的位置的天气情况信息判断出电子设备的即时位置附近正在下雨时,电子设备可以与话筒建立通信连接,并通过话筒的人体感应器件判断用户是否正在使用话筒,若用户未在使用话筒,则输出提示用户使用话筒输入语言信息,以提高音频模块采集到的语音信息的清晰度。
204、识别出语音信息中每一个语音单元对应的语调,得到语音信息对应的语调序列。
作为一种可选的实施方式,电子设备在识别出语音信息中每一个语音单元对应的语调之后,可以根据语音单元对应的目标单词在测评内容对应的表述场景下表达的意思或者情绪,确定出目标单词的标准语调;并判断用户的语音信息中语音单元对应的语调与目标单词的标准语调是否相匹配;若不匹配,输出目标单词的标准语调供用户参考。
举例来说,假设用户的语言信息中的一个语音单元为“Sorry”,且是在基于“Allen问:Bob,can you bring me the sugar?而Bob回答:Sorry?”的表述场景中出现的,则Bob可以用升调回答“Sorry”,表示没听清楚,希望Allen再说一遍;用降调回答“Sorry”,表示拒绝帮助或者无能为力。
则电子设备可以在Bob表示没听清楚,希望Allen再说一遍的表述场景下,将“Sorry”的标准语调定为升调;而在Bob表示拒绝帮助或者无能为力的表述场景下,将“Sorry”的标准语调定为降调,从而电子设备可以依据该标准去判断用户的语音信息中语音单元对应的语调与目标单词的标准语调是否相匹配。
实施上述方法,电子设备针对测评内容为一个单词的情况,通过目标单词的标准语调来判断用户的跟读单词的语调是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度。
206、判断语调序列与标准语调序列是否相匹配,该标准语调序列根据测评内容对应的表述场景确定出;若相匹配,结束本流程;若不匹配,执行步骤208。
作为一种可选的实施方式,电子设备在判断出所述语调序列与标准语调序列不匹配之后,可以确定出以用户跟读的语调序列朗读测评内容时,测评内容表达的目标解释意思;并根据测评内容表达的目标解释意思匹配出包括测评内容的目标文章,其中,测评内容在目标文章中表达目标解释意思;进而电子设备可以输出目标文章供用户跟读练习。
实施上述方法,电子设备还可以在用户未能正确跟读出测评内容的正确语调时,输出相应的练习资料供用户练习,提高了用户的使用体验度。
208、输出标准语调序列,以供用户参考。
210、确定出语调序列中与标准语调序列不匹配的语调子序列。
本申请实施例中,电子设备可以对用户的语音信息中的每一个语言单元进行测评,以确定出语调与标准语调不相同的语音单元组成不匹配的语调子序列。
其中,不匹配的语调子序列可以包括一个或多个(包括两个及两个以上)语音单元,在此不作限定。
212、以预设的标记方式对语调子序列进行标记以提醒用户。
本申请实施例中,电子设备可以在测评内容中对语调子序列对应的内容进行高亮标记、突出颜色(例如红色)标记等方式进行标记以提醒用户,提高了用户的使用体验度。
可见,实施上述各实施例公开的方法,电子设备还可以针对测评内容为一个单词的情况,通过目标单词的标准语调来判断用户的跟读单词的语调是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度;以及,在用户未能正确跟读出测评内容的正确语调时,输出相应的练习资料供用户练习,提高了用户的使用体验度;以及,在测评内容中对语调子序列对应的内容进行高亮标记、突出颜色(例如红色)标记等方式进行标记以提醒用户,提高了用户的使用体验度。
实施例三
请参阅图3,图3是本申请实施例公开的一种电子设备的结构示意图。如图3所示,该电子设备可以包括:
获取单元301,用于获取通过音频模块采集的用户跟读测评内容的语音信息;
识别单元302,用于识别出语音信息中每一个语音单元对应的语调,得到语音信息对应的语调序列;
判断单元303,用于判断语调序列与标准语调序列是否相匹配,标准语调序列根据测评内容对应的表述场景确定出;
输出单元304,用于在判断单元303判断出语调序列与标准语调序列不匹配时,输出标准语调序列,以供用户参考。
可见,上述电子设备可以获取通过音频模块采集的用户跟读测评内容的语音信息;并识别出语音信息中每一个语音单元对应的语调,以得到语音信息对应的语调序列;进而判断语调序列与标准语调序列是否相匹配,其中,标准语调序列可以是电子设备根据测评内容对应的表述场景确定出的;后续若电子设备判断出两者不匹配,电子设备可以输出标准语调序列,供用户参考,以让用户掌握在该表述场景下测评内容的朗读语调。可见,与传统的电子设备只能准确度、流利度和完整度三个纬度上对用户的口语能力进行训练相比较,本申请实施例中,电子设备还能对用户的朗读语调进行训练,以规范用户的朗读语调,从而提高用户的口语能力。
实施例四
请参阅图4,图4是本申请实施例公开的另一种电子设备的结构示意图,图4所示的电子设备可以是由图3所示的电子设备优化得到的,与图3所示的电子设备相比较,图4所示的电子设备还可以包括:第一确定单元305、第二确定单元306和第三确定单元307,其中:
第一确定单元305,用于在判断单元303判断语调序列与标准语调序列是否相匹配之前,根据测评内容的上下文信息确定出测评内容对应的表述场景;
第二确定单元306,用于根据测评内容对应的表述场景确定出测评内容的语调波峰;
第三确定单元307,用于根据语调波峰确定出测评内容对应的标准语调序列。
作为一种可选的实施方式,语音信息对应的语调序列可以表示语音信息的语调变化趋势,判断单元303用于判断语调序列与标准语调序列是否相匹配的方式具体为:
判断单元303,用于判断语音信息的语调变化趋势与标准语调序列表示的标准语调变化趋势是否相匹配;以及,若相匹配,确定语调序列与标准语调序列相匹配;以及,若不相匹配,确定语调序列与标准语调序列不匹配。
实施上述电子设备,可以针对测评内容为一句话的情况,通过对整句话的语调变化趋势来判断用户的跟读语音是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度。
作为一种可选的实施方式,图4所示的电子设备还可以包括:第四确定单元308、第二判断单元309和第二输出单元310,其中:
第四确定单元308,用于根据语音单元对应的目标单词在测评内容对应的表述场景下表达的意思或者情绪,确定出目标单词的标准语调;
第二判断单元309,用于判断语音单元对应的语调与目标单词的标准语调是否相匹配;
第二输出单元310,用于在第二判断单元309判断出语音单元对应的语调与目标单词的标准语调不匹配时,输出目标单词的标准语调。
实施上述电子设备,可以针对测评内容为一个单词的情况,通过目标单词的标准语调来判断用户的跟读单词的语调是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度。
作为一种可选的实施方式,图4所示的电子设备还可以包括:第五确定单元311和标记单元312,其中:
第五确定单元311,用于在判断单元303判断出语调序列与标准语调序列是不匹配之后,确定出语调序列中与标准语调序列不匹配的语调子序列;
标记单元312,用于以预设的标记方式对所述语调子序列进行标记以提醒所述用户。
实施上述电子设备,能够在测评内容中对语调子序列对应的内容进行高亮标记、突出颜色(例如红色)标记等方式进行标记以提醒用户,提高了用户的使用体验度。
可见,实施上述各实施例公开的电子设备,可以根据测评内容的上下文信息准确地确定出所述测评内容对应的表述场景,进而确定出更加准确的标准语调序列作为测评标准供用户参考,提高了用户的使用体验度;以及,可以针对测评内容为一句话的情况,通过对整句话的语调变化趋势来判断用户的跟读语音是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度;以及,可以针对测评内容为一个单词的情况,通过目标单词的标准语调来判断用户的跟读单词的语调是否标准,从而能够得到更加准确的测评结构,提高了用户的使用体验度;以及,能够在测评内容中对语调子序列对应的内容进行高亮标记、突出颜色(例如红色)标记等方式进行标记以提醒用户,提高了用户的使用体验度。
实施例五
请参阅图5,图5是本申请实施例公开的又一种电子设备的结构示意图。如图5所示,该电子设备可以包括:
存储有可执行程序代码的存储器501;
与存储器501耦合的处理器502;
其中,处理器502调用存储器501中存储的可执行程序代码,执行上述各实施例公开的语音识别方法。
其中,处理器502可以包括一个或者多个处理核。处理器502利用各种接口和线路连接整个移动终端内的各个部分,通过运行或执行存储在存储器501内的指令、程序、代码集或指令集,以及调用存储在存储器501内的数据,执行移动终端的各种功能和处理数据。可选地,处理器502可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器502可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器502中,单独通过一块通信芯片进行实现。
存储器501可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器501可用于存储指令、程序、代码、代码集或指令集。存储器501可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储移动终端在使用中所创建的数据等。
本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例公开的语音识别方法。
本申请实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本申请实施例公开的一种语音识别方法及电子设备、计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
获取通过音频模块采集的用户跟读测评内容的语音信息;
识别出所述语音信息中每一个语音单元对应的语调,得到所述语音信息对应的语调序列;
判断所述语调序列与标准语调序列是否相匹配,所述标准语调序列根据所述测评内容对应的表述场景确定出;
若不匹配,输出所述标准语调序列,以供所述用户参考。
2.根据权利要求1所述的方法,其特征在于,在判断所述语调序列与标准语调序列是否相匹配之前,所述方法还包括:
根据所述测评内容的上下文信息确定出所述测评内容对应的表述场景;
根据所述测评内容对应的表述场景确定出所述测评内容的语调波峰;
根据所述语调波峰确定出所述测评内容对应的标准语调序列。
3.根据权利要求1所述的方法,其特征在于,所述语音信息对应的语调序列表示所述语音信息的语调变化趋势,所述判断所述语调序列与标准语调序列是否相匹配,包括:
判断所述语音信息的语调变化趋势与所述标准语调序列表示的标准语调变化趋势是否相匹配;
若相匹配,确定所述语调序列与标准语调序列相匹配;
若不相匹配,确定所述语调序列与标准语调序列不匹配。
4.根据权利要求1所述的方法,其特征在于,在所述识别出所述语音信息中每一个语音单元对应的语调之后,所述方法还包括:
根据所述语音单元对应的目标单词在所述测评内容对应的表述场景下表达的意思或者情绪,确定出所述目标单词的标准语调;
判断所述语音单元对应的语调与所述目标单词的标准语调是否相匹配;
若不匹配,输出所述目标单词的标准语调。
5.根据权利要求1所述的方法,其特征在于,在判断出所述语调序列与标准语调序列不匹配之后,所述方法还包括:
确定出所述语调序列中与所述标准语调序列不匹配的语调子序列;
以预设的标记方式对所述语调子序列进行标记以提醒所述用户。
6.一种电子设备,其特征在于,所述电子设备包括:
获取单元,用于获取通过音频模块采集的用户跟读测评内容的语音信息;
识别单元,用于识别出所述语音信息中每一个语音单元对应的语调,得到所述语音信息对应的语调序列;
判断单元,用于判断所述语调序列与标准语调序列是否相匹配,所述标准语调序列根据所述测评内容对应的表述场景确定出;
输出单元,用于在所述判断单元判断出所述语调序列与标准语调序列不匹配时,输出所述标准语调序列,以供所述用户参考。
7.根据权利要求6所述的电子设备,其特征在于,所述电子设备还包括:
第一确定单元,用于在所述判断单元判断所述语调序列与标准语调序列是否相匹配之前,根据所述测评内容的上下文信息确定出所述测评内容对应的表述场景;
第二确定单元,用于根据所述测评内容对应的表述场景确定出所述测评内容的语调波峰;
第三确定单元,用于根据所述语调波峰确定出所述测评内容对应的标准语调序列。
8.根据权利要求6所述的电子设备,其特征在于,所述语音信息对应的语调序列表示所述语音信息的语调变化趋势,所述判断单元用于判断所述语调序列与标准语调序列是否相匹配的方式具体为:
判断单元,用于判断所述语音信息的语调变化趋势与所述标准语调序列表示的标准语调变化趋势是否相匹配;以及,若相匹配,确定所述语调序列与标准语调序列相匹配;以及,若不相匹配,确定所述语调序列与标准语调序列不匹配。
9.一种电子设备,其特征在于,所述电子设备包括存储有可执行程序代码的存储器,以及与所述存储器耦合的处理器;其中,所述处理器调用所述存储器中存储的所述可执行程序代码,执行权利要求1~5任一项所述的语音识别方法。
10.一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1~5任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010484431.5A CN111739527B (zh) | 2020-06-01 | 2020-06-01 | 语音识别方法及电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010484431.5A CN111739527B (zh) | 2020-06-01 | 2020-06-01 | 语音识别方法及电子设备、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739527A true CN111739527A (zh) | 2020-10-02 |
CN111739527B CN111739527B (zh) | 2023-06-27 |
Family
ID=72648094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010484431.5A Active CN111739527B (zh) | 2020-06-01 | 2020-06-01 | 语音识别方法及电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739527B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002050799A2 (en) * | 2000-12-18 | 2002-06-27 | Digispeech Marketing Ltd. | Context-responsive spoken language instruction |
JP2006227564A (ja) * | 2005-01-20 | 2006-08-31 | Advanced Telecommunication Research Institute International | 音響評定装置、およびプログラム |
CN101739870A (zh) * | 2009-12-03 | 2010-06-16 | 深圳先进技术研究院 | 交互式语言学习系统及交互式语言学习方法 |
CN104050965A (zh) * | 2013-09-02 | 2014-09-17 | 广东外语外贸大学 | 具有情感识别功能的英语语音发音质量评价系统及方法 |
US20160284354A1 (en) * | 2015-03-23 | 2016-09-29 | International Business Machines Corporation | Speech summarization program |
CN108766574A (zh) * | 2018-06-06 | 2018-11-06 | 姜涵予 | 一种评测定向力状态的方法及装置 |
CN108877841A (zh) * | 2018-06-06 | 2018-11-23 | 姜涵予 | 一种评测语言状态的方法及装置 |
CN109086387A (zh) * | 2018-07-26 | 2018-12-25 | 上海慧子视听科技有限公司 | 一种音频流评分方法、装置、设备及存储介质 |
CN109326162A (zh) * | 2018-11-16 | 2019-02-12 | 深圳信息职业技术学院 | 一种口语练习自动评测方法及装置 |
CN110047466A (zh) * | 2019-04-16 | 2019-07-23 | 深圳市数字星河科技有限公司 | 一种开放性创建语音朗读标准参考模型的方法 |
CN110136748A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种节奏识别校正方法、装置、设备及存储介质 |
CN114333838A (zh) * | 2022-01-06 | 2022-04-12 | 上海幻电信息科技有限公司 | 语音识别文本的修正方法及系统 |
-
2020
- 2020-06-01 CN CN202010484431.5A patent/CN111739527B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002050799A2 (en) * | 2000-12-18 | 2002-06-27 | Digispeech Marketing Ltd. | Context-responsive spoken language instruction |
JP2006227564A (ja) * | 2005-01-20 | 2006-08-31 | Advanced Telecommunication Research Institute International | 音響評定装置、およびプログラム |
CN101739870A (zh) * | 2009-12-03 | 2010-06-16 | 深圳先进技术研究院 | 交互式语言学习系统及交互式语言学习方法 |
CN104050965A (zh) * | 2013-09-02 | 2014-09-17 | 广东外语外贸大学 | 具有情感识别功能的英语语音发音质量评价系统及方法 |
US20160284354A1 (en) * | 2015-03-23 | 2016-09-29 | International Business Machines Corporation | Speech summarization program |
CN108766574A (zh) * | 2018-06-06 | 2018-11-06 | 姜涵予 | 一种评测定向力状态的方法及装置 |
CN108877841A (zh) * | 2018-06-06 | 2018-11-23 | 姜涵予 | 一种评测语言状态的方法及装置 |
CN109086387A (zh) * | 2018-07-26 | 2018-12-25 | 上海慧子视听科技有限公司 | 一种音频流评分方法、装置、设备及存储介质 |
CN109326162A (zh) * | 2018-11-16 | 2019-02-12 | 深圳信息职业技术学院 | 一种口语练习自动评测方法及装置 |
CN110047466A (zh) * | 2019-04-16 | 2019-07-23 | 深圳市数字星河科技有限公司 | 一种开放性创建语音朗读标准参考模型的方法 |
CN110136748A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种节奏识别校正方法、装置、设备及存储介质 |
CN114333838A (zh) * | 2022-01-06 | 2022-04-12 | 上海幻电信息科技有限公司 | 语音识别文本的修正方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111739527B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109346059B (zh) | 一种方言语音的识别方法及电子设备 | |
Kumar et al. | Improving literacy in developing countries using speech recognition-supported games on mobile devices | |
CN109410664B (zh) | 一种发音纠正方法及电子设备 | |
CN108431883B (zh) | 语言学习系统以及语言学习程序 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN109545184B (zh) | 一种基于语音校准的背诵检测方法及电子设备 | |
CN107909995B (zh) | 语音交互方法和装置 | |
KR20190061191A (ko) | 아동언어학습을 위한 음성인식 기반 학습 시스템 및 학습방법 | |
CN112927674A (zh) | 语音风格的迁移方法、装置、可读介质和电子设备 | |
CN110503941B (zh) | 语言能力评测方法、装置、系统、计算机设备及存储介质 | |
CN108831503B (zh) | 一种口语评测方法及装置 | |
JP2006208644A (ja) | 語学会話力測定サーバシステム及び語学会話力測定方法 | |
CN117037796A (zh) | 基于多元特征的aigc语音欺诈风控方法、介质及设备 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN116597809A (zh) | 多音字消歧方法、装置、电子设备及可读存储介质 | |
CN113724693B (zh) | 语音判别方法、装置、电子设备及存储介质 | |
CN111739527B (zh) | 语音识别方法及电子设备、计算机可读存储介质 | |
CN113053409B (zh) | 音频测评方法及装置 | |
KR102389153B1 (ko) | 음성 반응형 전자책 제공 방법 및 디바이스 | |
CN112185186B (zh) | 一种发音纠正方法、装置、电子设备及存储介质 | |
CN112820281B (zh) | 一种语音识别方法、装置及设备 | |
CN115206342A (zh) | 一种数据处理方法、装置、计算机设备及可读存储介质 | |
CN109035896B (zh) | 一种口语训练方法及学习设备 | |
CN108922278B (zh) | 一种人机交互方法及学习设备 | |
CN111640447B (zh) | 一种降低音频信号噪音的方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |