CN112786027B - 一种语音输入矫正处理方法、装置、电子设备及存储介质 - Google Patents

一种语音输入矫正处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112786027B
CN112786027B CN202110014882.7A CN202110014882A CN112786027B CN 112786027 B CN112786027 B CN 112786027B CN 202110014882 A CN202110014882 A CN 202110014882A CN 112786027 B CN112786027 B CN 112786027B
Authority
CN
China
Prior art keywords
voice
text
user
speech
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110014882.7A
Other languages
English (en)
Other versions
CN112786027A (zh
Inventor
胡志鹏
杨天格
卜佳俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Netease Hangzhou Network Co Ltd
Original Assignee
Zhejiang University ZJU
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Netease Hangzhou Network Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202110014882.7A priority Critical patent/CN112786027B/zh
Publication of CN112786027A publication Critical patent/CN112786027A/zh
Application granted granted Critical
Publication of CN112786027B publication Critical patent/CN112786027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种语音输入矫正处理方法、装置、电子设备及存储介质,涉及语音识别技术领域。该方法包括:获取用户输入的待识别语音;对第一待识别语音进行特征提取,得到待识别语音特征;采用用户对应的语音矫正模型,对待识别语音特征进行识别,得到待识别语音对应的识别文本,语音矫正模型根据训练语音特征和指定文本进行模型训练得到,训练语音特征根据用户朗读指定文本的训练语音进行特征提取得到,指定文本为满足预设音节组合条件的指定文本;获取用户输入的针对识别文本的更新文本;根据更新文本,以及待识别语音特征,对语音矫正模型进行更新。本申请可减小对于发音不标准用户基于语音识别技术的语音沟通障碍,提高用户的使用体验。

Description

一种语音输入矫正处理方法、装置、电子设备及存储介质
技术领域
本申请涉及语音识别技术领域,具体而言,涉及一种语音输入矫正处理方法、装置、电子设备及存储介质。
背景技术
随着语音识别技术的发展,语音识别功能在越来越多的应用场景中被使用。
目前的语音识别功能大多是采用语音识别模型实现,而语音识别模型的训练是采用基于标准语音的训练库进行训练。然而,在实际应用场景,用户的语言生长环境或者身体生理原因等多方面原因,都可能导致用户的发音可能不是很标准。
对于这一部分发音不标准的用户,采用通用的语音识别可能存在识别无效如识别不准确、甚至无法识别等问题,使得这一部分用户使用语音识别技术的语音沟通存在很大的阻碍,严重影响用户的使用体验。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种语音输入矫正处理方法、装置、电子设备及存储介质,以减小对于发音不标准用户基于语音识别技术的语音沟通障碍,提高用户的使用体验。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种语音输入矫正处理方法,包括:
获取用户输入的第一待识别语音;
对所述第一待识别语音进行特征提取,得到第一待识别语音特征;
采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;
获取所述用户输入的针对所述第一识别文本的更新文本;
根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。
可选的,所述方法还包括:
获取所述用户输入的第二待识别语音;
对所述第二待识别语音进行特征提取,得到第二待识别语音特征;
采用更新后的所述语音矫正模型,对所述第二待识别语音特征进行识别,得到所述第二待识别语音对应的第二识别文本。
可选的,所述采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本之前,所述方法还包括:
获取针对所述用户的评价语音以及所述评价语音对应的文本;
对所述评价语音进行特征提取,得到所述用户的评价语音特征;
根据所述评价语音特征和所述评价语音对应的文本对所述用户对应的所述语音矫正模型进行矫正。
可选的,所述获取针对所述用户的评价语音以及所述评价语音对应的文本,包括:
获取所述用户朗读第二指定文本的语音,其中,所述第二指定文本和所述第一指定文本为不同的指定文本;
根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,所述评价语音包括:所述目标语音,所述评价语音对应的文本还包括:所述第二指定文本。
可选的,所述根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,包括:
对所述第二指定文本的语音进行特征提取,得到所述用户的指定语音特征;
采用所述语音矫正模型,对所述指定语音特征进行识别,得到所述用户的第三识别文本;
检测所述第三识别文本和所述第二指定文本中是否存在不匹配的异常文本;
若存在不匹配的异常文本,则提示并获取所述用户重新朗读所述异常文本对应的语音,直至基于重新朗读的所述异常文本对应的语音所识别的文本与所述异常文本匹配;
所述目标语音包括:所述第二指定文本的语音中匹配文本对应的语音,以及匹配时重新朗读的所述异常文本对应的语音。
可选的,所述获取针对所述用户的评价语音以及所述评价语音对应的文本,包括:
获取所述用户朗读的日常语音以及所述用户输入的所述日常语音对应的文本,所述评价语音包括:所述日常语音,所述评价语音对应的文本包括:所述日常语音对应的文本。
可选的,所述方法还包括:
采用矫正后的所述语音矫正模型,对所述评价语音特征进行识别,得到第四识别文本;
根据所述第四识别文本和所述评价语音对应的文本,确定矫正后的所述语音矫正模型的识别误差;
若所述识别误差大于或等于预设的误差阈值,则重新获取所述用户的评价语音以及评价语音对应的文本,直至基于重新获取的评价语音和文本所矫正后的所述语音矫正模型的识别误差小于所述误差阈值。
可选的,所述预设音节组合条件为:音节组合的使用频率大于或等于预设使用频率,或者,音节组合的数量大于或等于预设数量阈值,或者,所有音节组合。
第二方面,本申请实施例还提供一种模型获取装置,包括:
第一获取模块,用于获取用户输入的第一待识别语音;
特征提取模块,用于对所述第一待识别语音进行特征提取,得到第一待识别语音特征;
识别模块,用于采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;
第二获取模块,用于获取所述用户输入的针对所述第一识别文本的更新文本;
更新模块,用于根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。
第三方面,本申请实施例还提供一种电子设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所提供的任一语音输入矫正处理方法。
第四方面,本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面所提供的任一所述的语音输入矫正处理方法。
本申请的有益效果是:
本申请所提供的一种语音输入矫正处理方法、装置、电子设备及存储介质中,可通过获取用户输入的第一待识别语音,对第一待识别语音进行特征提取得到第一待识别语音特征,采用用户对应的语音矫正模型,对第一待识别语音特征进行识别,得到第一待识别语音对应的第一识别文本,还可获取用户输入的针对第一识别文本的更新文本;根据更新文本以及第一待识别语音特征,对语音矫正模型进行更新。由于该方法中所采用的用户对应的语音矫正模型是根据训练语音特征和第一指定文本进行模型训练得到,该训练语音特征根据用户朗读第一指定文本的训练语音进行特征提取得到的,第一指定文本为满足预设音节组合条件的指定文本,并非随意指定的文本以及语音或者通用的文本和语音进行训练得到的模型,那么基于训练语音特征和第一指定文本的模型训练过程,可准确高效的学习到针对该用户的语言习惯,使得基于模型训练得到语音矫正模型针对该用户的语音识别准确度更高,并且,该方法中还可在识别之后,基于用户输入的针对识别文本的更新文本以及待识别语音特征对语音矫正模型进行更新,实现了模型在应用过程中的迭代更新,可有效减少发音不标准用户基于语音识别技术的语音沟通障碍,实现更好更流畅的语音交流,提高用户的语音识别使用体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的语音输入矫正处理方法的流程示意图;
图2为本申请实施例提供一种语音输入矫正处理方法中训练语音矫正模型的方法流程图;
图3为本申请实施例提供的一种语音输入矫正处理方法流程图;
图4为本申请实施例提供的一种训练语音矫正模型过程中模型矫正的方法流程图;
图5为本申请实施例提供的一种获取评价语音的方法流程图;
图6为本申请实施例提供的一种获取评价语音及对应文本的方法流程图;
图7为本申请实施例提供的一种语音输入矫正处理装置的示意图;
图8为本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
本申请下述各实施例所提供的语音输入矫正处理方法,可应用于任一具有语音识别需求的场景中,例如可应用于电子设备的操作系统中集成的语音辅助工具、即时通信应用中的语音转文字工具、预设语音输入工具、预设语音解锁工具等场景中实现语音到文字的转换,又或者,可与其他的语音合成工具配合,实现预设应用中的语音通信场景中实现语音的转换等。上述仅为一些可能的应用示例,本申请实施例所提供的方法的实际应用场景不以上述示例为限制。
本申请下述各实施例所提供的语音输入矫正处理方法所采用的用户对应的语音矫正模型,可通过建立用户专属的个性训练集,采用该用户的个性训练集,而不是通用的训练集进行模型训练,以准确学习该用户的语言习惯,得到针对该用户的语音矫正模型,可有效提高针对用户的语音识别成功率,提减小基于语音识别技术的语音沟通的障碍,提高用户体验。
需要说明的是,本申请所提供的语音输入矫正处理方法的实际应用场景中,所针对的用户可以为满足预设发音条件的用户,并不局限于发音不标准的用户,也可以为其它发音标准的用户,只是针对发音不标准的用户,采用本申请的方法得到的语音矫正模型其语音识别的准确率会更高,效果更显著。无论是哪种类型的用户,采用本申请实施例提供的语音输入矫正方法中所提及的模型训练过程,均可得到针对该用户对应的语音矫正模型。而在模型应用过程,也就是语音识别过程中,其主要用于对该语音矫正模型所针对的用户进行语音识别,即若语音矫正模型是针对用户A的,那么后续识别过程中,针对用户A的识别准确度便是最高的。
如上提及的发音不标准的用户可以为发音模糊的发音缺陷用户、老年用户、方言用户或者其他不满足预设发音标准的用户。例如,发音标准的用户例如可以为发音满足普通话或者其他标准语言的发音标准的用户。
如下通过多个实例对本申请所提供的模型获取方法进行示例说明。
图1为本申请实施例提供的语音输入矫正处理方法的流程示意图,该语音输入矫正处理方法可由具有语音识别应用的电子设备实现。该语音识别应用可以为独立的软件应用或者其他应用中嵌入的子应用,例如可以为操作系统中集成的语音辅助工具、即时通信应用中的语音转文字工具、预设语音输入工具、预设语音解锁工具等场景中实现语音到文字的转换,又或者,可与预设应用中的语音通信场景的语音识别功能等。
如图1所示,该方法可包括:
S101、获取用户输入的第一待识别语音。
在可能的实现方式中,可通过电子设备内置的语音输入设备,或者,与该电子设备连接的语音输入设备获取该用户输入的第一待识别语音。
S102、对该第一待识别语音进行特征提取,得到第一待识别语音特征。
例如,可采用预设的语音特征提取工具,对该第一待识别语音进行特征提取,得到第一待识别语音特征。
S103、采用该用户对应的语音矫正模型,对该第一待识别语音特征进行识别,得到该第一待识别语音对应的第一识别文本。
其中,该用户对应的该语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,该训练语音特征根据训练语音进行特征提取得到,该训练语音为获取的该用户朗读第一指定文本的训练语音,该第一指定文本为满足预设音节组合条件的指定文本。
在得到该用户的第一待识别语音特征后,便可将该第一待识别语音特征,输入至预先创建的该用户对应的语音矫正模型,由该语音矫正模型进行识别,得到该第一待识别语音对应的第一识别文本。该第一识别文本可以为该第一待识别语音对应的标准化文本,即对应的预设语言的标准文本。
本申请实施例提供的语音输入矫正处理方法可在语音矫正模型的应用过程中,还可实现迭代更新。
S104、获取用户输入的针对该第一识别文本的更新文本。
该更新文本可以为用户针对该第一识别文本的反馈,该更新文本为该用户实际输入的待识别语音对应的真实文本。例如,在得到第一识别文本的情况下,可对第一识别文本进行展示,以使得用户获取识别得到的文本,继而输入对该第一识别文本的反馈,即该更新文本。
S105、根据该更新文本,以及该第一待识别语音特征,对该语音矫正模型进行更新。
该方法,可通过获取用户输入针对第一识别文本的更新文本,基于根据该更新文本以及第一待识别语音特征,对该语音矫正模型进行更新,实现了模型使用过程中基于识别结果和用户输入的识别反馈,即更新文本的更新,实现了模型使用过程中的不断迭代优化,保证了语音矫正模型的识别准确度。
如下先结合附图对本申请实施例所涉及的语音矫正模型的训练过程进行示例说明。本实施例所提供的语音矫正模型的训练方法可在用户首次使用该语音识别应用的时候、增加新用户的语音识别功能的情况下或者其他需要训练模型的场景下执行。该语音矫正模型的训练方法可集成为该语音识别应用中的人工智能(Artificial Intelligence,AI)模块,实现自动的模型训练。图2为本申请实施例提供一种语音输入矫正处理方法中训练语音矫正模型的方法流程图,如图2所示,该训练语音矫正模型的方法可包括:
S201、获取用户朗读第一指定文本的训练语音,该第一指定文本为满足预设音节组合条件的指定文本。
该电子设备上可显示有该语音识别应用的语音输入提示界面上,语音输入提示上可显示有该第一指定文本,以指示该用户基于该第一指定文本输入语音。该显示界面例如可在检测到预设的模型获取触发操作的情况下显示的界面。该模型获取触发操作例如可以为用户首次使用该语音识别应用的操作,也可以为在该预设识别应用的配置界面中输入的增加新用户的触发操作等。
该电子设备在显示该第一指定文本的情况下,可通过该电子设备内置的语音输入设备,或者,与该电子设备连接的语音输入设备获取该用户朗读该第一指定文本所输入的训练语音。
该第一指定文本可以为预先设计的可获取用户语音特征的指定文本,该第一指定文本所包括的音节组合满足预设音节组合条件。在一种示例中,该第一指定文本所包括的音节组合例如可以为预设语言的基础音节组合,该基础音节组合可以为使用频率大于或等于预设使用频率阈值的音节组合,即该示例中,预设音节组合条件为:音节组合的使用频率大于或等于预设使用频率。在另一种示例中,该第一指定文本所包括的音节组合例如可以为该预设语言的所有音节组合,即该另一种示例中,该预设音节组合条件可以为所有音节组合。在又一种示例中,该第一指定文本所包括的音节组合还可以为针对预设语言的预设数量的音节组合,该预设数量可大于或等于预设数量阈值,即该又一种示例中,该预设音节组合条件可以为音节组合的数量大于或等于预设数量阈值。
S202、对该训练语音进行特征提取,得到该用户的训练语音特征。
电子设备在获取该训练语音的情况下,可采用预设的语音特征提取工具,对该训练语音进行特征提取,得到该用户的训练语音特征,生成针对该用户的训练特征集,该训练特征集包括:从该训练语音提取到的该训练语音特征。
S203、根据该训练语音特征和该第一指定文本进行模型训练,得到该用户对应的语音矫正模型。
上述S201和S202为模型获取方法中数据收集阶段的操作,通过数据收集阶段,可得到针对该用户的训练语音特征以及该第一指定文本。在模型建立的过程中,可由该电子设备的预设语音识别应用中的AI模块采用该训练语音特征和该第一指定文本进行模型训练,通过模型训练,可使得AI模块准确学习到该用户的语言习惯,从而生成该用户对应的语音矫正模型。
本实施例所提供的语音输入矫正处理方法,可通过获取用户输入的第一待识别语音,对第一待识别语音进行特征提取得到第一待识别语音特征,采用用户对应的语音矫正模型,对第一待识别语音特征进行识别,得到第一待识别语音对应的第一识别文本,还可获取用户输入的针对第一识别文本的更新文本;根据更新文本以及第一待识别语音特征,对语音矫正模型进行更新。由于该方法中所采用的用户对应的语音矫正模型是根据训练语音特征和第一指定文本进行模型训练得到,该训练语音特征根据用户朗读第一指定文本的训练语音进行特征提取得到的,第一指定文本为满足预设音节组合条件的指定文本,并非随意指定的文本以及语音或者通用的文本和语音进行训练得到的模型,那么基于训练语音特征和第一指定文本的模型训练过程,可准确高效的学习到针对该用户的语言习惯,使得基于模型训练得到语音矫正模型针对该用户的语音识别准确度更高,并且,该方法中还可在识别之后,基于用户输入的针对识别文本的更新文本以及待识别语音特征对语音矫正模型进行更新,实现了模型在应用过程中的迭代更新,可对输入的语音进行校准识别,有效减少发音不标准用户基于语音识别技术的语音沟通障碍,实现更好更流畅的语音交流,提高用户的语音识别使用体验。
可选的,在上述方法的基础上,本申请实施例还可提供一种语音输入矫正处理方法的实现示例。图3为本申请实施例提供的一种语音输入矫正处理方法流程图。如图3所示,该方法在上述实施例的基础上,还可包括:
S301、获取该用户输入的第二待识别语音。
S302、对该第二待识别语音进行特征提取,得到第二待识别语音特征。
S303、采用更新后的该语音矫正模型,对该第二待识别语音特征进行识别,得到该第二待识别语音对应的第二识别文本。
该实施例提供的方法,可采用更新后的语音矫正模型继续进行语音识别,实现模型使用过程中的不断迭代更新,有效提高了语音矫正模型的语音识别准确度。
在上述任一所示的方法的基础上,本申请实施例还提供一种语音输入矫正处理方法中训练语音矫正模型的方法的可能示例。图4为本申请实施例提供的一种训练语音矫正模型过程中模型矫正的方法流程图。如图4所示,在上述S103中采用该用户对应的语音矫正模型,对该第一待识别语音特征进行识别,得到该第一待识别语音对应的第一识别文本之前,该方法还包括:
S401、获取针对该用户的评价语音以及该评价语音对应的文本。
该评价语音可以为该用户输入的语音,该评价语音对应的文本可以为用户输入的文本,也可以为预先设定的文本。因此,在一种实现示例中,可由用户主动输入一段语音作为该评价语音,并输入该一段语音对应的文本;在另一种示例中,可由用户朗读预先指定的文本,如第二指定文本,将第二指定文本的语音作为评价语音,在该示例中,用户朗读的语音所针对的文本是预先确定的,无需用户输入,该评价语音对应的文本即为该第二指定文本。
如下分别对该两种实现示例进行解释说明。
示例的,在一种实现示例的具体实现方式中,可获取该用户朗读的日常语音以及该用户输入的日常语音对应的文本,该评价语音包括:该日常语音,该评价语音对应的文本包括:该日常语音对应的文本。
在该实现方式中,可由用户先输入日常语音,再输入该日常语音对应的文本;也可由用户先输入日常文本,再输入该日常文本对应的语音,即为该日常语音。如上提及的日常语音为用户主动输入的预设使用场景中的日常语音,即在该实现方式中,用户输入的评价语音是由用户决定的,而并非是由机器预先设定的。
在另一种实现示例的具体实现方式中,获取该用户朗读第二指定文本的语音,其中,该第二指定文本和该第一指定文本为不同的指定文本;根据该第二指定文本的语音和该第二指定文本,生成该第二指定文本的目标语音,该评价语音包括:该目标语音,该评价语音对应的文本还包括:该第二指定文本。
在该实现方式中,第一指定文本可以为与上述第一指定文本具有相同或不同的音节组合条件,但文本内容不同的文本。获取该第二指定文本的语音的方式与上述第一指定文本的语音的方式类似,在此不再赘述。与上述一种实现方式不同的是,在该实现方式中,语音的文本是预先指定的,即第一指定文本。对于采用该方式得到的第二指定文本的语音,还可采用语音矫正模型,配合第二指定文本进行模型匹配识别,以生成针对该用户的第二指定文本的目标语音。
S402、对该评价语音进行特征提取,得到该用户的评价语音特征。
在该实施例中,可通过对该评价语音进行特征提取,得到该用户的评价语音特征,从而生成针对该用户的评价特征集,该评价特征集包括从该评价语音中提取的评价语音特征。
S403、根据该评价语音特征和该评价语音对应的文本对该用户对应的该语音矫正模型进行矫正。
该实施例中,通过提供两种不同的方式获取针对该用户的评价语音以及该评价语音对应的文本,并采用基于该评价语音得到的评价语音特征以及该评价语音对应的文本对该语音矫正模型进行矫正,可保证语音矫正模型可进一步学习到的用户的更多的语言习惯,对语音矫正模型的识别误差进行矫正,提高了语音矫正模型的识别准确度。
在上述图4所示的方法的基础上,本申请实施例还可提供一种获取评价语音的实现示例。图5为本申请实施例提供的一种获取评价语音的方法流程图。如图5所示,如上所示的根据该第二指定文本的语音和该第二指定文本,生成该第二指定文本的目标语音,包括:
S501、对该第二指定文本的语音进行特征提取,得到该用户的指定语音特征。
S502、采用该语音矫正模型,对该指定语音特征进行识别,得到该用户的第三识别文本。
将采用上述S501得到的指定语音特征输入至该语音矫正模型,由该语音矫正模型进行语音识别,得到该用户的第三识别文本。
S503、检测该第三识别文本和该第二指定文本中是否存在不匹配的异常文本。
在具体实现中,可对第三识别文本和第二指定文本进行比对,确定该第二指定文本中是否存在与第三识别文本不匹配的异常文本。
S504、若存在不匹配的异常文本,则提示并获取该用户重新朗读该异常文本对应的语音,直至基于重新朗读的该异常文本对应的语音所识别的文本与该异常文本匹配。
若检测存在异常文本,即表征用户输入的该第二指定文本对应的语音中存在异常语音,也就是存在识别歧义的语音,需要重新获取用户针对该异常文本的语音,因此,可在预设语音识别应用的界面上显示该异常文本的提示信息,以指示用户重新输入该异常文本的语音。用户在获知该异常文本的情况下,便可重新朗读该异常文本,并输入该重新朗读该异常文本对应的语音。
在获取到重新朗读的该异常文本对应的语音的情况下,可对该重新朗读的该异常文本对应的语音继续执行上述S401、S402直至基于重新朗读的该异常文本对应的语音所识别的文本与该异常文本匹配。
该目标语音包括:该第二指定文本的语音中匹配文本对应的语音,以及匹配时重新朗读的该异常文本对应的语音。
可选的,如上所示的根据该第二指定文本的语音和该第二指定文本,生成该第二指定文本的目标语音,还可包括:
若不存在该异常文本,则确定该第二指定文本的语音为该目标语音。
该实施例提供的方法,可通过采用语音矫正模型,对从第二指定文本的语音中提取的该用户的指定语音特征进行识别,得到用户的第三识别文本,并根据识别结果进行异常文本的检测,在检测到存在异常文本的情况下,若存在不匹配的异常文本,则提示并获取用户重新朗读所述异常文本对应的语音,直至基于重新朗读的异常文本对应的语音所识别的文本与异常文本匹配,可实现该语音矫正模型对基于识别歧义的异常文本的语音识别矫正,提高语音矫正模型的语音识别准确度,尽可能地减少了识别误差。
可选的,在上述任一所示的方法基础上,本申请实施例还提供一种获取评价语音的实现示例。图6为本申请实施例提供的一种获取评价语音及对应文本的方法流程图。如图6所示,该方法还可包括:
S601、采用语音矫正模型,对该评价语音特征进行识别,得到第四识别文本。
S602、根据该第四识别文本和该评价语音对应的文本,确定该语音矫正模型的识别误差。
在可能的实现中,可根据该评价语音对应的文本和该第四识别文本,确定识别错误文本;根据该识别错误文本和评价语音对应的文本的数量,确定该识别误差,如该识别错误文本在评价语音对应的文本的数量中的比重。
S603、若该识别误差大于或等于预设的误差阈值,则重新获取该用户的评价语音以及评价语音对应的文本,直至基于重新获取的评价语音和文本矫正后的语音矫正模型的识别误差小于该误差阈值。
该误差阈值例如可以为0.05%,也可以为其他的预设误差阈值,在此处仅为示例。
若该识别误差大于或等于预设的误差阈值,则表明语音矫正模型还不满足预设的识别条件,即模型的识别准确度较差,重新获取评价语音以及评价语音对应的文本,以继续进行模型矫正,直至矫正后的模型的识别误差小于该误差阈值,在此情况下,便可停止模型矫正。
在通过模型矫正得到的语音矫正模型的识别误差小于该误差阈值时的语音矫正模型的情况下,可对该语音矫正模型进行保存,以便于对输入语音进行矫正识别。
该实施例提供的方法,可通过模型的识别误差对语音矫正模型进行至少一次的矫正,保证得到的语音矫正模型的识别误差满足预设条件,提高了语音矫正模型的语音识别准确度,有效减少发音不标准用户基于语音识别技术的语音沟通障碍,实现更好更流畅的语音交流,提高用户的语音识别使用体验。
下述对用以执行的本申请所提供的语音输入矫正处理方法的装置、语音识别方法的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图7为本申请实施例提供的一种语音输入矫正处理装置的示意图,如图7所示,该语音输入矫正处理装置700可包括:
第一获取模块701,用于获取用户输入的第一待识别语音;
第一特征提取模块702,用于对第一待识别语音进行特征提取,得到第一待识别语音特征;
识别模块703,用于采用用户对应的语音矫正模型,对第一待识别语音特征进行识别,得到第一待识别语音对应的第一识别文本,其中,用户对应的语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,训练语音特征根据训练语音进行特征提取得到,训练语音为获取的用户朗读第一指定文本的训练语音,第一指定文本为满足预设音节组合条件的指定文本。
第二获取模块704,用于获取用户输入的针对第一识别文本的更新文本;
更新模块705,用于根据更新文本,以及第一待识别语音特征,对语音矫正模型进行更新。
可选的,第一获取模块701,还用于获取用户输入的第二待识别语音。
第一特征提取模块702,还用于对所述第二待识别语音进行特征提取,得到第二待识别语音特征;
识别模块703,还用于采用更新后的语音矫正模型,对第二待识别语音特征进行识别,得到第二待识别语音对应的第二识别文本。
可选的,语音输入矫正处理装置700还可包括:
第三获取模块,用于获取针对用户的评价语音以及评价语音对应的文本;
第二特征提取模块,用于对评价语音进行特征提取,得到用户的评价语音特征;
矫正模块,用于根据评价语音特征和评价语音对应的文本对用户对应的语音矫正模型进行矫正。
可选的,第三获取模块,具体用于获取用户朗读第二指定文本的语音,其中,第二指定文本和第一指定文本为不同的指定文本;根据第二指定文本的语音和第二指定文本,生成第二指定文本的目标语音,评价语音包括:目标语音,评价语音对应的文本还包括:第二指定文本。
可选的,第二特征提取模块,还用于对第二指定文本的语音进行特征提取,得到用户的指定语音特征;
识别模块,还用于采用语音矫正模型,对指定语音特征进行识别,得到用户的第三识别文本;
检测模块,用于检测第三识别文本和第二指定文本中是否存在不匹配的异常文本;
提示获取模块,用于若存在不匹配的异常文本,则提示并获取用户重新朗读异常文本对应的语音,直至基于重新朗读的异常文本对应的语音所识别的文本与异常文本匹配;
目标语音包括:第二指定文本的语音中匹配文本对应的语音,以及匹配时重新朗读的异常文本对应的语音。
可选的,第三获取模块,具体用于获取用户朗读的日常语音以及用户输入的日常语音对应的文本,评价语音包括:日常语音,评价语音对应的文本包括:日常语音对应的文本。
可选的,识别模块,还用于采用矫正后的语音矫正模型,对评价语音特征进行识别,得到第四识别文本;
语音输入矫正处理装置700还可包括:
确定模块,用于根据第四识别文本和评价语音对应的文本,确定矫正后的语音矫正模型的识别误差;
第三获取模块,还用于若识别误差大于或等于预设的误差阈值,则重新获取用户的评价语音以及评价语音对应的文本,直至基于重新获取的评价语音和文本所矫正后的语音矫正模型的识别误差小于误差阈值。
可选的,预设音节组合条件为如下任一条件:
音节组合的使用频率大于或等于预设使用频率、音节组合的数量大于或等于预设数量阈值、所有音节组合。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图8为本申请实施例提供的一种电子设备的示意图,该电子设备可以是具备语音识别功能的计算终端或服务器。
该电子设备800包括:存储器801、处理器802。存储器801和处理器802通过总线连接。
存储器801用于存储程序,处理器802调用存储器901存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种语音输入矫正处理方法,其特征在于,包括:
获取用户输入的第一待识别语音;
对所述第一待识别语音进行特征提取,得到第一待识别语音特征;
采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;
获取所述用户输入的针对所述第一识别文本的更新文本;
根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述用户输入的第二待识别语音;
对所述第二待识别语音进行特征提取,得到第二待识别语音特征;
采用更新后的所述语音矫正模型,对所述第二待识别语音特征进行识别,得到所述第二待识别语音对应的第二识别文本。
3.根据权利要求1所述的方法,其特征在于,所述采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本之前,所述方法还包括:
获取针对所述用户的评价语音以及所述评价语音对应的文本;
对所述评价语音进行特征提取,得到所述用户的评价语音特征;
根据所述评价语音特征和所述评价语音对应的文本对所述用户对应的所述语音矫正模型进行矫正;
其中,所述获取针对所述用户的评价语音以及所述评价语音对应的文本,包括:
获取所述用户朗读第二指定文本的语音,其中,所述第二指定文本和所述第一指定文本为不同的指定文本;
根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,所述评价语音包括:所述目标语音,所述评价语音对应的文本还包括:所述第二指定文本;
或者,
所述获取针对所述用户的评价语音以及所述评价语音对应的文本,包括:
获取所述用户朗读的日常语音以及所述用户输入的所述日常语音对应的文本,所述评价语音包括:所述日常语音,所述评价语音对应的文本包括:所述日常语音对应的文本。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二指定文本的语音和所述第二指定文本,生成所述第二指定文本的目标语音,包括:
对所述第二指定文本的语音进行特征提取,得到所述用户的指定语音特征;
采用所述语音矫正模型,对所述指定语音特征进行识别,得到所述用户的第三识别文本;
检测所述第三识别文本和所述第二指定文本中是否存在不匹配的异常文本;
若存在不匹配的异常文本,则提示并获取所述用户重新朗读所述异常文本对应的语音,直至基于重新朗读的所述异常文本对应的语音所识别的文本与所述异常文本匹配;
所述目标语音包括:所述第二指定文本的语音中匹配文本对应的语音,以及匹配时重新朗读的所述异常文本对应的语音。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
采用矫正后的所述语音矫正模型,对所述评价语音特征进行识别,得到第四识别文本;
根据所述第四识别文本和所述评价语音对应的文本,确定矫正后的所述语音矫正模型的识别误差;
若所述识别误差大于或等于预设的误差阈值,则重新获取所述用户的评价语音以及评价语音对应的文本,直至基于重新获取的评价语音和文本所矫正后的所述语音矫正模型的识别误差小于所述误差阈值。
6.根据权利要求1-4中任一所述的方法,其特征在于,所述预设音节组合条件为:音节组合的使用频率大于或等于预设使用频率,或者,音节组合的数量大于或等于预设数量阈值,或者,所有音节组合。
7.一种语音输入矫正处理装置,其特征在于,包括:
第一获取模块,用于获取用户输入的第一待识别语音;
特征提取模块,用于对所述第一待识别语音进行特征提取,得到第一待识别语音特征;
识别模块,用于采用所述用户对应的语音矫正模型,对所述第一待识别语音特征进行识别,得到所述第一待识别语音对应的第一识别文本,其中,所述用户对应的所述语音矫正模型根据训练语音特征和第一指定文本进行模型训练得到,所述训练语音特征根据训练语音进行特征提取得到,所述训练语音为获取的所述用户朗读第一指定文本的训练语音,所述第一指定文本为满足预设音节组合条件的指定文本;
第二获取模块,用于获取所述用户输入的针对所述第一识别文本的更新文本;
更新模块,用于根据所述更新文本,以及所述第一待识别语音特征,对所述语音矫正模型进行更新。
8.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-6任一项所述的语音输入矫正处理方法。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-6任一项所述的语音输入矫正处理方法。
CN202110014882.7A 2021-01-06 2021-01-06 一种语音输入矫正处理方法、装置、电子设备及存储介质 Active CN112786027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110014882.7A CN112786027B (zh) 2021-01-06 2021-01-06 一种语音输入矫正处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110014882.7A CN112786027B (zh) 2021-01-06 2021-01-06 一种语音输入矫正处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112786027A CN112786027A (zh) 2021-05-11
CN112786027B true CN112786027B (zh) 2022-02-22

Family

ID=75755906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110014882.7A Active CN112786027B (zh) 2021-01-06 2021-01-06 一种语音输入矫正处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112786027B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110389A (zh) * 2023-01-06 2023-05-12 黄冈师范学院 基于自学习技术的互联网电器控制方法及系统
CN117292672B (zh) * 2023-11-27 2024-01-30 厦门大学 一种基于矫正流模型的高质量语音合成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
JP2017198922A (ja) * 2016-04-28 2017-11-02 株式会社第一興商 カラオケ装置
CN110473523A (zh) * 2019-08-30 2019-11-19 北京大米科技有限公司 一种语音识别方法、装置、存储介质及终端
CN111508479A (zh) * 2020-04-16 2020-08-07 重庆农村商业银行股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111508480A (zh) * 2020-04-20 2020-08-07 网易(杭州)网络有限公司 音频识别模型的训练方法、音频识别方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
CN104538032A (zh) * 2014-12-19 2015-04-22 中国科学院计算技术研究所 一种融合用户反馈的汉语语音识别方法及系统
JP2017198922A (ja) * 2016-04-28 2017-11-02 株式会社第一興商 カラオケ装置
CN110473523A (zh) * 2019-08-30 2019-11-19 北京大米科技有限公司 一种语音识别方法、装置、存储介质及终端
CN111508479A (zh) * 2020-04-16 2020-08-07 重庆农村商业银行股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111508480A (zh) * 2020-04-20 2020-08-07 网易(杭州)网络有限公司 音频识别模型的训练方法、音频识别方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"家庭数字娱乐系统的智能语音服务设计研究";吴晓静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180815;全文 *
"情感说话人识别的人机性能对比研究";汪燊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140215;全文 *

Also Published As

Publication number Publication date
CN112786027A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
US11734319B2 (en) Question answering method and apparatus
US10438586B2 (en) Voice dialog device and voice dialog method
CN111046152B (zh) Faq问答对自动构建方法、装置、计算机设备及存储介质
EP4068280A1 (en) Speech recognition error correction method, related devices, and readable storage medium
CN112786027B (zh) 一种语音输入矫正处理方法、装置、电子设备及存储介质
CN111177359A (zh) 多轮对话方法和装置
CN109522550B (zh) 文本信息纠错方法、装置、计算机设备和存储介质
EP3979098A1 (en) Data processing method and apparatus, storage medium, and electronic apparatus
CN111984766A (zh) 缺失语义补全方法及装置
CN110689881B (zh) 语音识别方法、装置、计算机设备和存储介质
CN109256125B (zh) 语音的离线识别方法、装置与存储介质
WO2018153316A1 (zh) 获取文本提取模型的方法及装置
KR101836996B1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
CN114970560A (zh) 对话意图识别方法、装置、存储介质和智能设备
CN112614489A (zh) 用户发音准确度评估方法、装置和电子设备
KR20190024148A (ko) 음성 인식 장치 및 음성 인식 방법
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN105373527B (zh) 一种省略恢复方法及问答系统
CN112256827A (zh) 一种手语翻译方法、装置、计算机设备及存储介质
CN109582775B (zh) 信息录入方法、装置、计算机设备及存储介质
CN113221681B (zh) 模型训练方法、动作姿态生成方法、装置、设备及介质
CN112447172A (zh) 一种语音识别文本的质量提升方法和装置
KR101374900B1 (ko) 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN111883261A (zh) 疫情自查方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant