CN109473093B - 语音识别方法、装置、计算机设备及存储介质 - Google Patents

语音识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109473093B
CN109473093B CN201811527515.1A CN201811527515A CN109473093B CN 109473093 B CN109473093 B CN 109473093B CN 201811527515 A CN201811527515 A CN 201811527515A CN 109473093 B CN109473093 B CN 109473093B
Authority
CN
China
Prior art keywords
text
sample
corrected
markov model
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811527515.1A
Other languages
English (en)
Other versions
CN109473093A (zh
Inventor
谭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811527515.1A priority Critical patent/CN109473093B/zh
Publication of CN109473093A publication Critical patent/CN109473093A/zh
Application granted granted Critical
Publication of CN109473093B publication Critical patent/CN109473093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种语音识别方法、装置、计算机设备及存储介质,所述方法包括:获取测试产品缺陷过程中录入的测试语音数据;通过语音识别模型对测试语音数据进行语音识别,获取测试语音数据的识别文本;获取经过训练的马尔可夫模型;将识别文本输入马尔可夫模型,并通过马尔可夫模型识别识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;根据各修正文本的输出概率确认与识别文本对应的修正文本。本提案通过引入马尔可夫模型,修正对测试语音数据进行普通语音识别后获得的识别文本,进而获取契合测试语音数据的修正文本,提高测试人员提交测试缺陷数据的效率,增强用户体验。

Description

语音识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音处理领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
现今在提交软件测试缺陷数据至服务器时,需通过人工上传文本、图片或日志等信息的方式,此人工提交的方法效率低,而将测试缺陷数据以音频的形式上传时,因为测试领域的专业词汇并不能被普通的语音识别模型所识别,会导致将该音频转化为识别文本后,该识别文本与测试缺陷数据不契合,故需要一种语音识别方法,可以准确识别带有测试领域专业词汇的测使语音数据,使用户在提交软件测试缺陷数据时可以通过语音的方式进行提交,提升提交软件测试缺陷数据的效率,增强用户体验。
发明内容
基于此,本发明提供一种语音识别方法、装置、计算机设备及存储介质,用于准确识别带有测试领域专业词汇的测使语音数据,使用户在提交软件测试缺陷数据时可以通过语音的方式进行提交,提升提交软件测试缺陷数据的效率,增强用户体验。
一种语音识别方法,包括:
获取测试产品缺陷过程中录入的测试语音数据;
将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本;
获取预设的马尔可夫模型;
将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;
根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
一种语音识别装置,包括:
数据获取模块,用于获取测试产品缺陷过程中录入的测试语音数据;
识别模块,用于将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本;
模型获取模块,用于获取预设的马尔可夫模型;
修正模块,用于将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;
确认模块,用于根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别方法的步骤。
上述语音识别方法、装置、计算机设备及存储介质,通过引入马尔可夫模型,使用所述马尔可夫模型修正对测试语音数据进行普通语音识别后获得的识别文本,进而获取契合所述测试语音数据的修正文本,以便将所述修正文本提交并存储至服务器的数据库中,以供给第三方进行查阅,提升了语音识别的准确性,并提高测试人员提交测试缺陷数据的效率,增强用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音识别方法的应用环境示意图;
图2是本发明一实施例中语音识别方法的流程图;
图3是本发明一实施例中语音识别方法的步骤S30的流程图;
图4是本发明一实施例中语音识别方法的步骤S302的流程图;
图5是本发明另一实施例中语音识别方法的流程图;
图6是本发明一实施例中语音识别装置的示意图;
图7是本发明一实施例中语音识别装置的模型检测模块的示意图;
图8是本发明一实施例中语音识别装置的修正单元的示意图;
图9是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的语音识别方法,可应用在如图1的应用环境中,其中,客户端(计算机设备/终端设备)通过网络与服务器(服务端)进行通信。首先获取测试语音数据,并对所述测试语音数据根据语音识别模型进行第一次语音识别,获取所述测试语音数据的识别文本,进一步地,通过训练后的马尔可夫模型识别所述识别文本,进而输出各修正文本及其输出概率,并根据各修正文本的输出概率确认与所述识别文本对应的修正文本。其中,客户端(计算机设备/终端设备)包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种语音识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取测试产品缺陷过程中录入的测试语音数据。
所述测试缺陷过程,是指测试人员在对产品(比如已经上线运行的软件)的缺陷进行测试的过程,也即检测产品是否具有缺陷,如若具有缺陷,所述缺陷发生的位置,以及发生的原因等。比如,测试已上线运行的软件的功能完整性(即所述软件预设的功能是否均能完整且无瑕疵的实现),若该软件预设的功能不能完整且无瑕疵的实现,则检测导致该软件功能不完整的原因,以及出现所述原因的位置(即错误代码或指令的位置)。
所述测试语音数据为与缺陷数据对应的音频,所述缺陷数据为测试人员在测试产品过程中发现的缺陷、测试所述缺陷的测试环境、以及所述缺陷出现的原因等。在测试的产品为已上线运行的软件时,所述缺陷数据还包含测试所述软件的机型、测试所述软件的网络环境、所测试出的缺陷的类型、所测试出的缺陷的内容描述、所测试出的缺陷的所述模块、测试版本、步长、复现率、项目和项目文档名称等数据。
具体地,所述测试语音数据是测试人员在测试产品的缺陷过程中,为了方便后续进行存储并上传至预设的管理方(比如负责运营和维护所述产品的运维中心),通过录音的终端设备将所述缺陷数据以音频的形式录入至服务器,并存储在所述服务器的数据库中,以供在步骤S20中对其进行语音识别,从而将其从音频数据转化为文本数据(也即识别文本)。
S20:将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本。
其中,所述识别文本是指在预设时长之内识别出的所有文本或在检测到所述识别文本出现预设标点符号之后,所获取的该预设标点符号之前的所有文本,所述识别文本为对应于所述测试语音数据被所述语音识别模型识别之后输出的文本数据。
所述预设时长是指预设的时间长度,如10秒,1分钟等;也即,在一实施例中,所述步骤S20中可以在直接获取所述语音识别模型在预设时长之内识别的识别文本之后,即进入后续步骤中对其进行修正,而无需等待所述测试语音数据中的一句话或一段话被识别完毕(识别为所述识别文本并输出之后)之后再进入后续步骤中对其进行修正。
所述预设标点符号可以根据需求设定,比如设定为逗号、分号、句号等一句话结尾时所需要用到的标点符号。也即,在另一实施例中,所述步骤S20中可以在等待一句话或者一段话被识别完毕之后,再获取所述语音识别模型对上述的一句话或者一段话识别之后的识别文本,并进入后续步骤中对其进行修正。
具体地,对所述测试语音数据进行语音识别,进而将所述测试语音数据转化为所述识别文本,也即将所述测试语音数据由音频数据转化为文本数据,以供在步骤S30-S40中,根据预设的马尔可夫模型对所述识别文本进行修正。在一实施例中,所述对所述测试语音数据进行语音识别,可以通过将所述测试语音数据输入至语音识别模型中,进而获取所述语音识别模型输出的识别文本,所述文本即为与所述测试语音数据对应的识别文本。
S30:获取预设的马尔可夫模型。
其中,所述马尔可夫模型可以根据需求预先设定,在一实施例中,所述马尔可夫模型为根据缺陷样本文本训练后生成的马尔可夫模型,具体地,通过语音识别模型对此前测试产品缺陷过程中录入的历史测试语音数据进行语音识别,从而获取所述历史测试语音数据所对应的历史识别文本,也即所述缺陷样本文本,并根据所述缺陷样本文本迭代训练所述马尔可夫模型,直至所述马尔可夫模型满足用户需求。可理解地,将所述缺陷样本文本作为训练集训练所述马尔可夫模型,可以提高所述马尔可夫模型识别所述测试语音数据的准确度。
在本实施例中,获取所述马尔可夫模型,以便在步骤S40中通过所述马尔可夫模型识别输入的所述识别文本。
S40:将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率。
其中,所述输出概率为所述修正文本可能契合所述测试语音数据的概率,也即所述修正文本的内容与所述测试语音数据的内容相一致的概率。可理解地,普通的语音识别所能识别的仅仅是普通的生活用语,亦或常见的字词,而所述测试语音数据中包含许多测试领域内的专有名词以及专业术语,因此,若仅对所述测试语音数据进行普通的语音识别,所获得的所述测试语音数据的识别文本,会因识别的准确度低,从而导致所述识别文本与所述测试语音数据的匹配程度低,进而影响后续将所述识别文本进行存储或上传至预设的管理方。故在本实施例中,需要对所述识别文本进行修正,输出修正后的修正文本。
具体地,所述修正过程如下,将所述识别文本输入至经过训练的马尔可夫模型,所述马尔可夫模型通过计算出所述识别文本中序列相连的各字词、各句和各段落之间的关联程度,进而判定在所述识别文本中,序列相连的各字词、各句和各段落之间的关联程度是否大于预设的关联阈值,当检测到序列相连的所述字词、所述句子和所述段落之间的关联程度大于预设的关联阈值时,代表所述字词、所述句子和所述段落与测试语音数据相匹配,此时,即对下一所述字词、所述句子和所述段落进行检测;当检测到序列相连的所述字词、所述句子以及所述段落之间的关联程度小于或等于所述关联阈值时,此时,所述马尔可夫模型根据预设的词库(所述词库是在训练所述马尔可夫模型的过程中预设),生成与序列相连的所述字词、所述句子以及所述段落的关联程度大于所述关联阈值的字词、句子和段落,进一步地,用所述生成的字词、句子和段落替换掉上述原来的序列相连却不存在关联关系的所述字词、句子和段落文字,进而生成修正文本,可理解地,用于进行上述替换的的字词(即在预设的所述词库中与所述字词、所述句子和所述段落关联程度大于所述关联阈值的字词、句子和段落)可能有多个,可理解地,此时生成的所述修正文本亦有多个,进一步地,根据用于进行上述替换的字词、句子和段落与所述识别文本的关联程度高低,根据字词、句子和段落的权重关系计算生成的各所述修正文本的输出概率,所述计算过程如下:字词的关联程度乘于第一权重,句子的关联程度乘于第二权重,句子的关联程度乘于第三权重,将上述每一乘式的结果相加,所获得的结果即为所述输出概率,所述第一权重、所述第二权重和所述第三权重可以根据需求预先设定,计算各所述修正文本的输出概率,以供在步骤S50中根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本,也即与所述测试语音数据相契合的修正文本。
S50:根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
可理解地,所述修正文本的输出概率越大,代表该修正文本契合所述测试语音数据的可能性越高,在一实施例中,可以确认各所述修正文本中所述输出概率最高的修正文本为与所述识别文本对应的修正文本,以供用户将该修正文本上传至服务器的数据库中,供第三方查阅。
在一实施例中,可以将各所述修正文本以及获取的各所述修正文本的输出概率,按所述输出概率的大小(所述输出概率越大,其显示的优先级别越高,也即排序越前)显示在当前的显示界面上,用户可以在查阅各所述修正文本后手动点击确认按钮确认与所述识别文本对应的修正文本,由用户进行筛选,提高了确认的与所述识别文本对应的修正文本契合所述测试语音数据的概率,增强用户体验。
本实施例通过引入马尔可夫模型,使用所述马尔可夫模型修正对测试语音数据进行普通语音识别后获得的识别文本,进而获取契合所述测试语音数据的修正文本,以便将所述修正文本提交并存储至服务器的数据库中,以供给第三方进行查阅,提升了语音识别的准确性,并提高测试人员提交测试缺陷数据的效率,增强用户体验。
在一实施例中,如图3所示,所述步骤S30,包括步骤:
S301,获取缺陷样本文本;所述缺陷样本文本为语音识别此前测试产品缺陷过程中录入的历史测试语音数据之后,所获取的历史识别文本。
可理解地,所述缺陷样本文本为语音识别此前的测试产品缺陷过程中录入的历史测试语音数据之后,所获取的历史识别文本。且每一个所述缺陷样本文本都对应一个正确文本,所述正确文本是指在马尔可夫模型被训练好之后,将所述缺陷样本文本输入训练好的该马尔可夫模型中之后,其应当输出的修正文本。
S302,通过包含初始参数的马尔可夫模型对所有所述缺陷样本文本进行修正,获取修正后的样本修正文本,并获取所有所述样本修正文本与所有所述缺陷样本文本的正确文本之间的整体相似度。
其中,所述样本修正文本是指对所述缺陷样本文本进行修正后的文本,在本实施例中,首先生成包含初始参数的马尔可夫模型,所述初始参数可以随机设置,也可以根据用户的需求设置,并通过所述包含初始参数的马尔可夫模型对所有所述缺陷样本文本进行修正,获取修正后的样本修正文本,进一步地,获取所有所述样本修正文本与所有所述缺陷样本之间的整体相似度,以供在步骤S303中检测所述整体相似度是否大于或等于预设的相似阈值。
S303,检测所述整体相似度是否大于或等于预设的相似阈值。
可理解地,使用所述包含初始参数的马尔可夫模型对所述缺陷样本文本进行修正,通过判定获取的所述整体相似度是否大于或等于预设的相似阈值,进而判定所述初始参数是否符合用户需求,也即使用所述包含初始参数的马尔可夫模型能否准确修正所述缺陷样本文本,以供在后续步骤中根据所述整体相似度调整所述马尔可夫模型的初始参数。
S304,当所述整体相似度小于所述相似阈值时,调整所述马尔可夫模型的初始参数,并返回执行获取所述整体相似度,直至所述整体相似度大于或等于所述相似阈值。
当所述整体相似度小于所述相似阈值时,代表所述马尔可夫模型的初始参数不符合用户的需求,也即使用所述马尔可夫模型不能准确的修正所述缺陷样本文本,此时,调整所述马尔可夫模型的初始参数,并返回执行S302及其后续步骤,直至检测到所述整体相似度大于或等与所述相似阈值。
S305,当所述整体相似度大于或等于所述相似阈值时,确认所述马尔可夫模型训练完成。
当时是整体相似度大于或等于所述相似阈值时,代表使用所述马尔可夫模型,可以准确修正包含大量测试领域专业术语的缺陷样本文本,代表所述马尔可夫模型亦可准确修正上述识别文本,此时,确认所述马尔可夫模型训练完成,并使用训练后的所述马尔可夫模型对所述识别文本进行修正,提升对所述测试语音数据进行语音识别的准确度,增强用户体验。
在一实施例中,如图4所示,所述步骤S302包括以下步骤:
S3021,从所有所述缺陷样本文本中选取一个尚未被修正的缺陷样本文本作为当前识别文本。
S3022,使用所述马尔可夫模型对所述当前识别文本进行修正,获得样本修正文本。
S3023,将所述样本修正文本与所述样本修正文本对应的缺陷样本的正确文本之间的相似程度设定为样本相似度,计算所述样本相似度。
其中,所述正确文本是指与所述缺陷样本的内容契合的文本,可理解地,每一所述历史测试语音数据均对应于一缺陷样本的正确文本,故每一所述缺陷样本文本均有其唯一对应的缺陷样本的正确文本,故所述样本修正文本亦对应一缺陷样本的正确文本,计算所述样本修正文本与所述样本修正文本对应的正确文本之间的相似程度,具体地,计算二者之间字词的相似程度,以供在步骤S3025中,将所有所述样本相似度之和的算术平均值确定为所述整体相似度。
S3024,判断所有所述缺陷样本文本中是否存在尚未被修正的所述缺陷样本文本,若存在尚未被修正的所述缺陷样本文本,则返回执行选取一个尚未被修正的缺陷样本作为当前识别文本及其后续步骤。
S3025,若不存在尚未被修正的缺陷样本文本,将所有所述样本相似度之和的算术平均值确定为所述整体相似度。
在一实施例中,如图5所示,所述步骤S50之后,还包括步骤:
S60,对所述修正文本进行分词处理,并将分词后的所述修正文本按预设的位置规则重新编排,生成提交文本。
其中,所述提交文本是指用于提交并存储至服务器的数据库中,并供第三方查看的文本;所述位置规则根据用户的需求预先进行设定,每一条所述位置规则均包含文本的行数,以及该行数中应该放置的字词类型。比如,一条位置规则如下:文本第一行为缺陷类型,文本第二行为测试机型,文本第三行为测试版本。具体地,首先对所述修正文本进行分词处理,进一步地,对分词后的修正文本中的字词进行检测,当检测到符合所述位置规则的字词类型时的字词时,将该字词放置在位置规则中该字词类型应该放置的行数,比如,当检测到分词后的所述修正文本的一字词类型为测试机型,在位置规则中所述测试机型应放置在文本中的第二行,此时,将该字词放置在所述修正文本中的第二行。将分词后的所述修正文本进行重新编排后,生成所述提交文本,并提交存储至所述服务器的数据库中,以供方便第三方(如运维人员)更直观且快速的查阅所述测试库语音数据的各项内容,提升用户体验。
在一实施例中,所述步骤S20之前,还包括:
获取测试语音样本,并根据所述测试语音样本训练语音识别模型,并获取训练后能够根据测试语音数据输出识别文本的语音识别模型;所述测试语音样本即为历史测试语音数据,各所述历史测试语音样本包含同一识别文本。
所述语音识别模型的训练过程为:获取多个(比如一万个)测试语音样本(所述测试语音样本即为历史测试语音数据,各所述历史测试语音样本包含同一识别文本),并根据所述测试语音样本训练获取所述语音识别模型,以得到可以根据测试语音数据输出识别文本的语音识别模型。
本发明通过引入马尔可夫模型,使用所述马尔可夫模型修正对测试语音数据进行普通语音识别后获得的识别文本,进而获取契合所述测试语音数据的修正文本,以便将所述修正文本提交并存储至服务器的数据库中,以供给第三方进行查阅,提高测试人员提交测试缺陷数据的效率,且还能将所述修正文本中的字词根据位置规则进行重现编排,更方便查阅,大大提升了用户体验。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音识别装置,该语音识别装置与上述实施例中语音识别方法一一对应。如图6所示,该语音识别装置包括数据获取模块11、识别模块12、模型获取模块13、修正模块14和确认模块15。
所述数据获取模块11,用于获取测试产品缺陷过程中录入的测试语音数据;
所述识别模块12,用于将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本;
所述模型获取模块13,用于获取预设的马尔可夫模型;
所述修正模块14,用于将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;
所述确认模块15,用于根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
在一实施例中,如图7所示,所述模型获取模块13,还包括:
样本获取单元131,用于获取缺陷样本文本;所述缺陷样本文本为语音识别此前测试产品缺陷过程中录入的历史测试语音数据之后,所获取的历史识别文本;
样本修正单元132,用于通过包含初始参数的马尔可夫模型对所有所述缺陷样本文本进行修正,获取修正后的样本修正文本,并获取所有所述样本修正文本与所有所述缺陷样本文本的正确文本之间的整体相似度;
检测单元133,用于检测所述整体相似度是否大于或等于预设的相似阈值;
调整单元134,用于当所述整体相似度小于所述相似阈值时,调整所述马尔可夫模型的初始参数,并返回执行获取所述整体相似度及其后续步骤,直至所述整体相似度大于或等于所述相似阈值;
训练单元135,用于当所述整体相似度大于或等于所述相似阈值时,确认所述马尔可夫模型训练完成,并获取训练完成后的所述马尔可夫模型。
在一实施例中,如图8所示,所述样本修正模块132,包括:
选取子单元1321,用于从所有所述缺陷样本文本中选取一个尚未被修正的缺陷样本文本作为当前识别文本;
修正子单元1322,用于使用所述马尔可夫模型对所述当前识别文本进行修正,获得样本修正文本;
计算子单元1323,用于将所述样本修正文本与所述样本修正文本对应的缺陷样本的正确文本之间的相似程度设定为样本相似度,计算所述样本相似度;
判断子单元1324,用于判断所有所述缺陷样本文本中是否存在尚未被修正的所述缺陷样本文本,若存在尚未被修正的所述缺陷样本文本,则返回执行选取一个尚未被修正的缺陷样本作为当前识别文本及其后续步骤;
确定子单元1325,用于若不存在尚未被修正的缺陷样本文本,将所有所述样本相似度之和的算术平均值确定为所述整体相似度。
关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定,在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取测试产品缺陷过程中录入的测试语音数据;
将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本;
获取预设的马尔可夫模型;
将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;
根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取测试产品缺陷过程中录入的测试语音数据;
将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本;
获取预设的马尔可夫模型;
将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;
根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取测试产品缺陷过程中录入的测试语音数据;
将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本;
获取预设的马尔可夫模型;
将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;其中,根据字词的关联程度和第一权重、句子的关联程度和第二权重、段落的关联程度和第三权重,确定输出概率;所述输出概率为所述修正文本契合所述测试语音数据的概率;
根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
2.如权利要求1所述的语音识别方法,其特征在于,所述获取预设的马尔可夫模型,包括:
获取缺陷样本文本;所述缺陷样本文本为语音识别此前测试产品缺陷过程中录入的历史测试语音数据之后,所获取的历史识别文本;
通过包含初始参数的马尔可夫模型对所有所述缺陷样本文本进行修正,获取修正后的样本修正文本,并获取所有所述样本修正文本与所有所述缺陷样本文本的正确文本之间的整体相似度;
检测所述整体相似度是否大于或等于预设的相似阈值;
当所述整体相似度小于所述相似阈值时,调整所述马尔可夫模型的初始参数,并返回执行获取所述整体相似度及其后续步骤,直至所述整体相似度大于或等于所述相似阈值;
当所述整体相似度大于或等于所述相似阈值时,确认所述马尔可夫模型训练完成,并获取训练完成后的所述马尔可夫模型。
3.如权利要求2所述的语音识别方法,其特征在于,所述通过包含初始参数的马尔可夫模型对所有所述缺陷样本文本进行修正,获取修正后的样本修正文本,并获取所有所述样本修正文本与所有所述缺陷样本文本的正确文本之间的整体相似度,包括:
从所有所述缺陷样本文本中选取一个尚未被修正的缺陷样本文本作为当前识别文本;
使用所述马尔可夫模型对所述当前识别文本进行修正,获得样本修正文本;
将所述样本修正文本与所述样本修正文本对应的缺陷样本的正确文本之间的相似程度设定为样本相似度,计算所述样本相似度;
判断所有所述缺陷样本文本中是否存在尚未被修正的所述缺陷样本文本,若存在尚未被修正的所述缺陷样本文本,则返回执行选取一个尚未被修正的缺陷样本作为当前识别文本及其后续步骤;
若不存在尚未被修正的缺陷样本文本,将所有所述样本相似度之和的算术平均值确定为所述整体相似度。
4.如权利要求1所述的语音识别方法,其特征在于,所述根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本之后,还包括:
对所述修正文本进行分词处理,并将分词后的所述修正文本按预设的位置规则重新编排,生成提交文本。
5.如权利要求1所述的语音识别方法,其特征在于,所述将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本之前,还包括:
获取测试语音样本,并根据所述测试语音样本训练语音识别模型,并获取训练后能够根据测试语音数据输出识别文本的语音识别模型;所述测试语音样本即为历史测试语音数据,各所述历史测试语音数据包含同一识别文本。
6.一种语音识别装置,其特征在于,包括:
数据获取模块,用于获取测试产品缺陷过程中录入的测试语音数据;
识别模块,用于将所述测试语音数据输入语音识别模型,并通过所述语音识别模型进行语音识别,获取所述测试语音数据的识别文本;
模型获取模块,用于获取预设的马尔可夫模型;
修正模块,用于将所述识别文本输入所述马尔可夫模型,并通过所述马尔可夫模型识别所述识别文本,获取所述马尔可夫模型中输出的各修正文本的输出概率;其中,根据字词的关联程度和第一权重、句子的关联程度和第二权重、段落的关联程度和第三权重,确定输出概率;所述输出概率为所述修正文本契合所述测试语音数据的概率;
确认模块,用于根据各所述修正文本的输出概率确认与所述识别文本对应的修正文本。
7.如权利要求6所述的语音识别装置,其特征在于,所述语音识别装置还包括:
样本获取模块,用于获取缺陷样本文本;所述缺陷样本文本为语音识别此前测试产品缺陷过程中录入的历史测试语音数据之后,所获取的历史识别文本;
样本修正模块,用于通过包含初始参数的马尔可夫模型对所有所述缺陷样本文本进行修正,获取修正后的样本修正文本,并获取所有所述样本修正文本与所有所述缺陷样本文本的正确文本之间的整体相似度;
检测模块,用于检测所述整体相似度是否大于或等于预设的相似阈值;
调整模块,用于当所述整体相似度小于所述相似阈值时,调整所述马尔可夫模型的初始参数,并返回执行获取所述整体相似度及其后续步骤,直至所述整体相似度大于或等于所述相似阈值;
训练模块,用于当所述整体相似度大于或等于所述相似阈值时,确认所述马尔可夫模型训练完成,并获取训练完成后的所述马尔可夫模型。
8.如权利要求7所述的语音识别装置,其特征在于,所述样本修正模块,包括:
选取单元,用于从所有所述缺陷样本文本中选取一个尚未被修正的缺陷样本文本作为当前识别文本;
修正单元,用于使用所述马尔可夫模型对所述当前识别文本进行修正,获得样本修正文本;
计算单元,用于将所述样本修正文本与所述样本修正文本对应的缺陷样本的正确文本之间的相似程度设定为样本相似度,计算所述样本相似度;
判断单元,用于判断所有所述缺陷样本文本中是否存在尚未被修正的所述缺陷样本文本,若存在尚未被修正的所述缺陷样本文本,则返回执行选取一个尚未被修正的缺陷样本作为当前识别文本及其后续步骤;
确定子单元,用于若不存在尚未被修正的缺陷样本文本,将所有所述样本相似度之和的算术平均值确定为所述整体相似度。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音识别方法的步骤。
CN201811527515.1A 2018-12-13 2018-12-13 语音识别方法、装置、计算机设备及存储介质 Active CN109473093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811527515.1A CN109473093B (zh) 2018-12-13 2018-12-13 语音识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811527515.1A CN109473093B (zh) 2018-12-13 2018-12-13 语音识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109473093A CN109473093A (zh) 2019-03-15
CN109473093B true CN109473093B (zh) 2023-08-04

Family

ID=65675471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811527515.1A Active CN109473093B (zh) 2018-12-13 2018-12-13 语音识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109473093B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797631A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110399294A (zh) * 2019-06-26 2019-11-01 平安科技(深圳)有限公司 测试用例生成方法、装置、计算机设备和存储介质
CN110473523A (zh) * 2019-08-30 2019-11-19 北京大米科技有限公司 一种语音识别方法、装置、存储介质及终端
CN112086108B (zh) * 2020-08-04 2023-04-04 科大讯飞股份有限公司 认知障碍预测方法及电子设备、存储装置
CN113257227B (zh) * 2021-04-25 2024-03-01 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质
CN113391975A (zh) * 2021-06-10 2021-09-14 Oppo广东移动通信有限公司 终端设备的测试方法和装置、存储介质、电子设备
CN113744724A (zh) * 2021-08-30 2021-12-03 苏州浪潮智能科技有限公司 一种语音转换方法、装置、设备及存储介质
CN114495938B (zh) * 2021-12-04 2024-03-08 腾讯科技(深圳)有限公司 音频识别方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
JP2010164780A (ja) * 2009-01-15 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、音響モデル作成プログラム
CN105260974A (zh) * 2015-09-10 2016-01-20 济南市儿童医院 一种生成具有告签功能的电子病历方法及系统
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN106486126A (zh) * 2016-12-19 2017-03-08 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
JP2010164780A (ja) * 2009-01-15 2010-07-29 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、音響モデル作成プログラム
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN105260974A (zh) * 2015-09-10 2016-01-20 济南市儿童医院 一种生成具有告签功能的电子病历方法及系统
CN105869642A (zh) * 2016-03-25 2016-08-17 海信集团有限公司 一种语音文本的纠错方法及装置
CN106486126A (zh) * 2016-12-19 2017-03-08 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BP模型用于潮汐预报研究;何立居 等;《海洋预报》;20090831;第30-37页 *

Also Published As

Publication number Publication date
CN109473093A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109473093B (zh) 语音识别方法、装置、计算机设备及存储介质
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN110245716B (zh) 样本标注审核方法及装置
CN111046152B (zh) Faq问答对自动构建方法、装置、计算机设备及存储介质
US20120330662A1 (en) Input supporting system, method and program
CN111310440B (zh) 文本的纠错方法、装置和系统
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
US20170364506A1 (en) System and method for generating phrase based categories of interactions
CN112416778A (zh) 测试用例推荐方法、装置和电子设备
CN109324956B (zh) 系统测试方法、设备及计算机可读存储介质
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
CN113836885A (zh) 文本匹配模型训练方法、文本匹配方法、装置和电子设备
US11049409B1 (en) Systems and methods for treatment of aberrant responses
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN109448717B (zh) 一种语音单词拼写识别方法、设备及存储介质
CN111325031A (zh) 简历解析方法及装置
CN112119410A (zh) 用于用覆盖引导模糊测试调试神经网络的系统和方法
CN112447167A (zh) 语音识别模型验证方法、装置、计算机设备和存储介质
CN112434953A (zh) 一种基于计算机数据处理的客服人员考核方法和装置
CN109670040B (zh) 写作辅助方法、装置及存储介质、计算机设备
CN113645357B (zh) 通话质检方法、装置、计算机设备和计算机可读存储介质
US11880798B2 (en) Determining section conformity and providing recommendations
CN114547087A (zh) 提案自动识别并生成报告的方法、装置、设备和介质
US20220237063A1 (en) Root cause pattern recognition based model training
US11520831B2 (en) Accuracy metric for regular expression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant