CN115579000A - 一种用于语音识别芯片的智能修正方法及系统 - Google Patents
一种用于语音识别芯片的智能修正方法及系统 Download PDFInfo
- Publication number
- CN115579000A CN115579000A CN202211565405.0A CN202211565405A CN115579000A CN 115579000 A CN115579000 A CN 115579000A CN 202211565405 A CN202211565405 A CN 202211565405A CN 115579000 A CN115579000 A CN 115579000A
- Authority
- CN
- China
- Prior art keywords
- text
- correction
- voice
- difference
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 195
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 85
- 230000005236 sound signal Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 9
- 239000012634 fragment Substances 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种用于语音识别芯片的智能修正方法及系统,涉及语音识别技术领域,其方法包括:将第一文本与标准文本进行相似度分析,得到第一相似结果;当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;当第一相似结果小于预设值时,获取目标语音的语音场景,并根据场景特征以及两个文本之间的文本差异特征,构建每个文本差异特征的修正特征;预测修正特征对两个文本差异的修正级别,对修正特征进行调整,实现对语音识别芯片的识别构架的修正。通过建立目标语音的场景特征和文本差异特征之间的修正特征以及预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音识别芯片的更新,进而有效保证识别精度。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种用于语音识别芯片的智能修正方法及系统。
背景技术
随着科技的不断快速发展,计算机处理能力迅速提高,语音识别技术方面的发展也获得了巨大的飞跃,基于语音识别芯片来进行智能语音识别工作的新型产业不断涌现,促进了社会经济发展。
然而现有的芯片识别流程比较复杂且识别结果准确度不够高,在不够安静的环境下对语音不能清晰识别,且得到的识别结果往往与真正的语音含义存在偏差或歧义,从而导致一系列的负面影响,所以,修正语音识别芯片,以提高识别语音的精确度就显得尤其重要。
因此,本发明提出一种用于语音识别芯片的智能修正方法及系统。
发明内容
本发明提供一种用于语音识别芯片的智能修正方法及系统,用以通过建立目标语音的场景特征和文本差异特征之间的修正特征以及预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音芯片的更新,进而有效保证了识别精度。
本发明提供一种用于语音识别芯片的智能修正方法,包括:
步骤1:获取目标语音以及目标语音的标准文本;
步骤2:采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
步骤3:当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
步骤4:当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;步骤5:预测修正特征对两个文本差异的修正级别,根据修正级别对修正特征进行调整,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
优选的,所述目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频;
所述标准文本是通过人为预先识别获取的。
优选的,采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果,包括:
通过语音识别芯片接收目标语音,对所述目标语音进行频谱分析和降噪处理,得到第一处理结果;
对所述第一处理结果进行特征提取,获取得到目标语音特征;
调取语音识别芯片中的历史关键词语列表中的关键词语特征与所述目标语音特征进行对比匹配,得到对比结果;
分析所述对比结果,确定匹配度最高的关键词语为第一识别结果;
按照第一识别结果的识别顺序进行有序组合,构成第一文本;
对所述第一文本与标准文本进行相似度对比,得出第一相似结果。
优选的,对所述第一文本与标准文本进行相似度对比,得出第一相似结果,包括;
获取所述标准文本的标准特征向量;
获取所述第一文本的第一特征向量;
分别对所述标准特征向量和第一特征向量归一化处理,得到标准文本向量和第一文本向量;
根据所述相似度集合D,筛选出满足标准距离条件的第一距离;
基于所有第一距离,确定出第一相似结果。
优选的,基于所有第一距离,确定出第一相似结果,包括:
优选的,获取目标语音的语音场景之后,还包括:
提取所述目标语音中非语音片段,并依次对每个非语音片段进行第一位置标注;
对每个非语音片段进行特征提取,获取对应子场景特征;
基于标注结果,集合所有子场景特征,确定所述语音场景的场景特征。
优选的,确定第一文本与标准文本之间的文本差异特征,并基于所述场景特征、文本差异特征,构建每个文本差异特征对应的修正特征,包括:
将所述标准文本和第一文本输入文本匹配模型中进行匹配预测,得到匹配概率值;
当所述匹配概率值小于预设匹配阈值时,确定当前存在的文本差异,并获取得到第一文本差异特征;
确定所述标准文本中第一目标差异字词所处的第一位置以及所述第一文本中第二目标差异字词所处的第二位置,根据所述第一位置以及第二位置,确定所述第一文本与标准文本的差异位置特征,其中,所述第二目标差异字词是由语音识别芯片对第一标记片段识别得到的;
从场景特征中提取与所述第一文本与标准文本的差异位置特征存在对应关系的第一位置标注,此时,将第一位置标注对应的非语音片段进行第一标记,得到第一标记片段;
提取所述第一标记片段对应的第一子场景特征;
获取第一子场景特征包含的第一标记片段的音频信号内每个频点对应的第一幅值和第一相位;
基于所述第一标记片段的第一位置标注,从所述目标语音中,提取第一目标语音片段,并确定所述第一目标语音片段的音频信号的每个频点对应的第二幅值和第二相位;
根据第一相位与第二相位的相位差,对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,得到每个第一文本差异特征对应的修正特征。
优选的,将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测,得到匹配概率值,包括:
获取所述标准文本的标准语义特征向量和第一文本的第一语义特征向量;
将所述标准语义特征向量和第一语义特征向量输入到文本匹配模型中进行相减操作,得到文本语义差异特征向量;
将所述文本语义差异特征向量输入到差异分析模块中进行语义特征分析,得到若干差异结果值;
对若干差异结果值分别进行公式运算,获取得到匹配概率值P,公式如下:
其中,表示为第j个差异结果值对应的匹配概率值,取值范围为;表示为第j个差异结果值;M为差异结果值个数;N表示为差异结果值中的最大值;表示为计算的误差系数,取值范围为(0,0.001);e的取值为2.7。
优选的,预测所述修正特征的修正级别,并根据预测结果进行修正,包括:
调取每个修正特征对应的第一文本差异特征对应的匹配概率值,结合预设标准,对每个修正特征的修正级别进行判断;
根据所述损失值,对修正参数进行更新,并基于更新后修正参数,对修正特征进行优化,并按照优化后修正特征进行修正;
当修正级别为一级时,对此时匹配概率值对应的修正特征设置第一调整参数,对修正特征进行调整,得到第一修正特征;
当修正级别为二级时,对此时匹配概率值对应的修正特征设置第二调整参数,对修正特征进行调整,得到第二修正特征。
本发明提供了一种用于语音识别芯片的智能修正系统,包括:
标准文本获取模块:用于获取目标语音以及目标语音的标准文本;
相似度分析模块:用于通过采用语音识别芯片来识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
预设修正模块:用于当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
修正特征构建模块:用于当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征; 修正模块:用于预测修正特征对两个文本差异的修正级别,若满足预设标准,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于语音识别芯片的智能修正方法的流程图;
图2为本发明实施例中一种用于语音识别芯片的智能修正系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种用于语音识别芯片的智能修正方法,如图1所示,包括:
步骤1:获取目标语音以及目标语音的标准文本;
步骤2:采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
步骤3:当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
步骤4:当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;步骤5:预测修正特征对两个文本差异的修正级别,根据修正级别对修正特征进行调整,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
该实施例中,目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频;标准文本是通过人为预先识别获取的。
该实施例中,第一文本是通过语音识别芯片进行识别得到的。
该实施例中,预设方法主要是指在语音识别芯片识别架构中的提取语音特征模块部分,结合损失函数对目标语音的特征值进一步有效优化,以确保尽量减小误差。
该实施例中,语音识别芯片的识别架构包括语音采集模块、语音预处理模块、提取语音特征模块、匹配对比模块以及输出模块。
该实施例中,语音场景是指目标对象发出语音的实时背景声音信息,场景特征则是指可以描述背景声音信息的特征,比如,基音周期、信噪比、过零率、谐噪比和短时平均幅度;文本差异特征是指标准文本与第一文本之间存在的差异的特征,比如,字向量、词向量、句向量以及语义向量。
该实施例中,修正级别是根据两个文本之间差异特征对应的匹配概率值进行确定的;预设标准具体是提前设定好的;预设值一般取值为0.6。
上述技术方案的有益效果是:通过建立目标语音的场景特征和标准文本和第一文本之间文本差异特征,来构建得到修正特征;通过预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音芯片的更新,进而有效保证了识别精度。
本发明实施例提供一种用于语音识别芯片的智能修正方法,采用语音识别芯片识别所述目标语音,获取第一文本,并与所述标准文本进行相似度分析,得到第一相似结果,包括:
通过语音识别芯片接收目标语音,对所述目标语音进行频谱分析和降噪处理,得到第一处理结果;
对所述第一处理结果进行特征提取,获取得到目标语音特征;
调取语音识别芯片中的历史关键词语列表中的关键词语特征与所述目标语音特征进行对比匹配,得到对比结果;
分析所述对比结果,确定匹配度最高的关键词语为第一识别结果;
按照第一识别结果的识别顺序进行有序组合,构成第一文本;
对所述第一文本与标准文本进行相似度对比,得出第一相似结果。
该实施例中,目标语音特征包括有过零率、基音周期、信噪比、谐噪比和短时平均幅度。
该实施例中,历史关键词语列表是内置于语音识别芯片中的词语数据列表,包含有关键词语以及关键词语特征。
该实施例中,比如,存在关键词语1、2、3,对应关键词语特征分别是,和以及目标语音特征A;将目标语音特征A依次与关键词语特征,和进行对比,得出对比结果0.6、0.9、0.7;此时,确定对比结果最高的关键词语特征对应的关键词语2为匹配度最高的关键词语,作为第一识别结果输出。
该实施例中,获取第一相似结果是为了得到标准文本和第一文本的相似度,为确定修正语音识别芯片的方法,保证不同情况下有效实现修正语音识别芯片提供基础。
上述技术方案的有益效果是:通过采用语音识别芯片对目标语音进行识别,基于目标语音特征和历史关键词语对比,得到第一文本;将所述第一文本与标准文本进行相似度操作,并根据得到的相似度结果,便于确定修正语音识别芯片的方法,分情况考虑修正语音识别芯片的方法,确保能够实现识别的精度提高。
本发明实施例提供一种用于语音识别芯片的智能修正方法,对所述第一文本与标准文本进行相似度对比,得出第一相似结果,包括;
获取所述标准文本的标准特征向量;
获取所述第一文本的第一特征向量;
分别对所述标准特征向量和第一特征向量归一化处理,得到标准文本向量和第一文本向量;
根据所述相似度集合D,筛选出满足标准距离条件的第一距离;
基于所有第一距离,确定出第一相似结果。
该实施例中,标准特征向量指的是标准文本的字向量和词级别的句向量;第一特征向量是指第一文本的字向量和词级别的句向量。
该实施例中,归一化处理是指对标准特征向量和第一特征向量进行约束,将其向量中的每个元素限定在0-1之间,从而得到对应的标准文本向量和第一文本向量,其目的主要是为了减少计算时间,避免过拟合的同时,尽可能多地保留原始文本的主要特征。
该实施例中,比如,存在标准距离条件A和相似度集合D中存在的距离1、2、3,将距离1、2、3与标准距离条件A依次进行分析,得到距离1满足标准距离条件A,距离2和3均不满足标准距离条件A,此时,确定距离1为第一距离。
该实施例中,基于获取的第一相似结果,来确定标准文本与第一文本的相似度。
上述技术方案的有益效果是:通过对标准文本和第一文本的特征向量归一化处理,得到标准文本向量和第一文本向量;将所述标准文本向量和第一文本向量通过公式进行相似度操作,得到相似度集合;对所述相似度结合进行分析,得到第一相似结果;基于所述第一相似结果,可确保修正语音识别芯片的方法,有利于实现提高识别的精确度。
本发明实施例提供一种用于语音识别芯片的智能修正方法,基于所有第一距离,确定出第一相似结果,包括:
上述技术方案的有益效果是:通过计算从相似度集合D中筛选出的第一距离的累计和、第一距离的总个数以及两者结合的式子,与第一常数1、第二常数2进行比较,来有效获取第一相似结果,为确定标准文本和第一文本相似度提供基础。
本发明实施例提供一种用于语音识别芯片的智能修正方法,获取目标语音的语音场景之后,还包括:
提取所述目标语音中非语音片段,并依次对每个非语音片段进行第一位置标注;
对每个非语音片段进行特征提取,获取对应子场景特征;
基于标注结果,集合所有子场景特征,确定所述语音场景的场景特征。
该实施例中,非语音片段是指目标语音中剔除目标对象发出的声音以外的语音片段;第一位置标注是为了保证非语音片段的有序性,便于后续调取使用。
该实施例中,子场景特征是指每个非语音片段的特征;场景特征是按照位置标注顺序,对每个子场景特征进行有序集合构建而成的。
上述技术方案的有益效果是:通过对获取的目标语音中的非语音片段进行位置标注和特征提取,得到若干子场景特征;将所有子场景特征有序结合,可以有效得到目标语音的语音场景的场景特征,为确定语音识别芯片的修正特征提供基础。
本发明实施例提供一种用于语音识别芯片的智能修正方法,确定第一文本与标准文本之间的文本差异特征,并基于所述场景特征、文本差异特征,构建每个文本差异特征对应的修正特征,包括:
将所述标准文本和第一文本输入文本匹配模型中进行匹配预测,得到匹配概率值;
当所述匹配概率值小于预设匹配阈值时,确定当前存在的文本差异,并获取得到第一文本差异特征;
确定所述标准文本中第一目标差异字词所处的第一位置以及所述第一文本中第二目标差异字词所处的第二位置,根据所述第一位置以及第二位置,确定所述第一文本与标准文本的差异位置特征,其中,所述第二目标差异字词是由语音识别芯片对第一标记片段识别得到的;
从场景特征中提取与所述第一文本与标准文本的差异位置特征存在对应关系的第一位置标注,此时,将第一位置标注对应的非语音片段进行第一标记,得到第一标记片段;
提取所述第一标记片段对应的第一子场景特征;
获取第一子场景特征包含的第一标记片段的音频信号内每个频点对应的第一幅值和第一相位;
基于所述第一标记片段的第一位置标注,从所述目标语音中,提取第一目标语音片段,并确定所述第一目标语音片段的音频信号的每个频点对应的第二幅值和第二相位;
根据第一相位与第二相位的相位差,对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,得到每个第一文本差异特征对应的修正特征。
该实施例中,预设匹配阈值是提前设置好的,一般为0.85。
该实施例中,比如,存在匹配概率值0.6,因为0.6小于预设匹配阈值0.85,故确定当前存在文本差异,并获取当前文本差异的特征,确定为第一文本差异特征。
该实施例中,第一目标差异字词是指文本差异处标准文本对应文本差异处的字词,第一位置是指第一目标差异字词在标准文本的位置;第二目标差异字词是指文本差异处第一文本对应文本差异处的字词,第二位置是指第二目标差异字词在第一文本的位置。
该实施例中,差异位置特征的获取主要是为了得到每个第一文本差异特征对应的子场景特征,进而为确定每个第一文本差异特征对应的修正特征奠定基础。
该实施例中,第一位置标注是为了从非语音片段中筛选得到每个文本差异对应的片段,并将得到的片段进行第一标记,得到第一标记片段。
该实施例中,第一子场景特征是基于第一标记片段,从场景特征中选取的,将第一子场景特征与位置相对应的文本差异特征进行结合分析,可得到每个文本差异特征对应的修正特征,来实现对语音识别芯片的识别架构的修正。
该实施例中,第一目标语音片段是根据第一标记片段的位置标注从目标语音中筛选得到的。
该实施例中,修正特征是基于第一标记片段的音频信号内每个频点对应的第一相位和第一目标语音片段的音频信号的每个频点对应的第二相位的相位差,来对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理得到的。
上述技术方案的有益效果是:通过将标准文本和第一文本输入文本匹配模型中进行匹配对比操作,得到文本差异特征;根据文本差异特征的差异位置特征从目标语音中筛选得到第一标记片段;确定与第一标记片段位置对应的第一目标语音片段;基于第一标记片段对应的第一子场景特征,获取第一标记片段与第一目标语音内的音频信号内的每个频点对应的相位差;通过相位差可对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,从而得到每个第一文本差异特征对应的修正特征。
本发明实施例提供一种用于语音识别芯片的智能修正方法,将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测,得到匹配概率值,包括:
获取所述标准文本的标准语义特征向量和第一文本的第一语义特征向量;
将所述标准语义特征向量和第一语义特征向量输入到文本匹配模型中进行相减操作,得到文本语义差异特征向量;
将所述文本语义差异特征向量输入到差异分析模块中进行语义特征分析,得到若干差异结果值;
对若干差异结果值分别进行公式运算,获取得到匹配概率值P,公式如下:
其中,表示为第j个差异结果值对应的匹配概率值,取值范围为;表示为第j个差异结果值;M为差异结果值个数;N表示为差异结果值中的最大值;表示为计算的误差系数,取值范围为(0,0.001);e的取值为2.7。
该实施例中,标准语义特征向量包括有标准文本的语义信息,第一语义特征向量包含有第一文本的语义信息;实际就是分别将标准文本特征和第一文本特征映射到语义空间中获取得到的。
该实施例中,文本语义差异特征向量包含有标准文本与第一文本之间的语义差异信息,是由标准语义特征向量和第一语义特征向量相减得到的。
上述技术方案的有益效果是:通过将标准文本与第一文本输入到文本匹配模型中进行语义向量匹配分析,根据公式运算得到匹配概率值;便于基于预设匹配阈值,对匹配概率值进行判断,来确定当前两文本之间是否存在文本差异,实现了对标准文本与第一文本之间的文本差异的确定,从而得到文本差异特征。
本发明实施例提供一种用于语音识别芯片的智能修正方法,预测所述修正特征的修正级别,并根据预测结果进行修正,包括:
调取每个修正特征对应的第一文本差异特征对应的匹配概率值,结合预设标准,对每个修正特征的修正级别进行判断;
根据所述损失值,对修正参数进行更新,并基于更新后修正参数,对修正特征进行优化,并按照优化后修正特征进行修正;
当修正级别为一级时,对此时匹配概率值对应的修正特征设置第一调整参数,对修正特征进行调整,得到第一修正特征;
当修正级别为二级时,对此时匹配概率值对应的修正特征设置第二调整参数,对修正特征进行调整,得到第二修正特征。
该实施例中,比如,确定b、c的取值分别为0.45和0.85,且存在匹配概率值0.3、0.6和0.7,由于匹配概率值0.3处于取值范围内,确定该匹配概率值对应的文本差异特征的修正特征的修正级别为二级;此时设置第二参数对修正特征调整得到第二修正特征,并按照第二修正特征来对语音识别芯片的识别架构进行修正;匹配概率值0.6和0.7均处于取值范围内,确定匹配概率值0.6和0.7对应的文本差异特征的修正特征的修正级别为一级,此时设置第一参数对修正特征调整得到第一修正特征,并按照第一修正特征来对语音识别芯片的识别架构进行修正。
上述技术方案的有益效果是:通过结合匹配概率值和预设标准确定每个修正特征的修正级别;根据修正级别来对修正特征进行调整得到第一修正特征和第二修正特征;当匹配概率值小于0.2时,对当前的修正特征进行持续优化;基于第一修正特征、第二修正特征和优化后修正特征,对语音识别芯片的识别架构进行修正,以提高识别的精确度。
本发明实施例提供一种用于语音识别芯片的智能修正系统,如图2所示,包括:
标准文本获取模块:用于获取目标语音以及目标语音的标准文本;
相似度分析模块:用于通过采用语音识别芯片来识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
预设修正模块:用于当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
修正特征构建模块:用于当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征; 修正模块:用于预测修正特征对两个文本差异的修正级别,若满足预设标准,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
上述技术方案的有益效果是:通过建立目标语音的场景特征和标准文本和第一文本之间文本差异特征,来构建得到修正特征;通过预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音芯片的更新,进而有效保证了识别精度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种用于语音识别芯片的智能修正方法,其特征在于,包括:
步骤1:获取目标语音以及目标语音的标准文本;
步骤2:采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
步骤3:当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
步骤4:当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;
步骤5:预测修正特征对两个文本差异的修正级别,根据修正级别对修正特征进行调整,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
2.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,
所述目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频;
所述标准文本是通过人为预先识别获取的。
3.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,所述步骤2具体包括:
通过语音识别芯片接收目标语音,对所述目标语音进行频谱分析和降噪处理,得到第一处理结果;
对所述第一处理结果进行特征提取,获取得到目标语音特征;
调取语音识别芯片中的历史关键词语列表中的关键词语特征与所述目标语音特征进行对比匹配,得到对比结果;
分析所述对比结果,确定匹配度最高的关键词语为第一识别结果;
按照第一识别结果的识别顺序进行有序组合,构成第一文本;
对所述第一文本与标准文本进行相似度对比,得出第一相似结果。
4.如权利要求3所述的用于语音识别芯片的智能修正方法,其特征在于,对所述第一文本与标准文本进行相似度对比,得出第一相似结果,包括;
获取所述标准文本的标准特征向量;
获取所述第一文本的第一特征向量;
分别对所述标准特征向量和第一特征向量归一化处理,得到标准文本向量和第一文本向量;
根据所述相似度集合D,筛选出满足标准距离条件的第一距离;
基于所有第一距离,确定出第一相似结果。
6.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,
获取目标语音的语音场景之后,还包括:
提取所述目标语音中非语音片段,并依次对每个非语音片段进行第一位置标注;
对每个非语音片段进行特征提取,获取对应子场景特征;
基于标注结果,集合所有子场景特征,确定所述语音场景的场景特征。
7.如权利要求6所述的用于语音识别芯片的智能修正方法,其特征在于,确定第一文本与标准文本之间的文本差异特征,并基于所述场景特征、文本差异特征,构建每个文本差异特征对应的修正特征,包括:
将所述标准文本和第一文本输入文本匹配模型中进行匹配预测,得到匹配概率值;
当所述匹配概率值小于预设匹配阈值时,确定当前存在的文本差异,并获取得到第一文本差异特征;
确定所述标准文本中第一目标差异字词所处的第一位置以及所述第一文本中第二目标差异字词所处的第二位置,根据所述第一位置以及第二位置,确定所述第一文本与标准文本的差异位置特征,其中,所述第二目标差异字词是由语音识别芯片对第一标记片段识别得到的;
从场景特征中提取与所述第一文本与标准文本的差异位置特征存在对应关系的第一位置标注,此时,将第一位置标注对应的非语音片段进行第一标记,得到第一标记片段;
提取所述第一标记片段对应的第一子场景特征;
获取第一子场景特征包含的第一标记片段的音频信号内每个频点对应的第一幅值和第一相位;
基于所述第一标记片段的第一位置标注,从所述目标语音中,提取第一目标语音片段,并确定所述第一目标语音片段的音频信号的每个频点对应的第二幅值和第二相位;
根据第一相位与第二相位的相位差,对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,得到每个第一文本差异特征对应的修正特征。
8.如权利要求7所述的用于语音识别芯片的智能修正方法,其特征在于,将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测,得到匹配概率值,包括:
获取所述标准文本的标准语义特征向量和第一文本的第一语义特征向量;
将所述标准语义特征向量和第一语义特征向量输入到文本匹配模型中进行相减操作,得到文本语义差异特征向量;
将所述文本语义差异特征向量输入到差异分析模块中进行语义特征分析,得到若干差异结果值;
对若干差异结果值分别进行公式运算,获取得到匹配概率值P,公式如下:
9.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,预测所述修正特征的修正级别,并根据预测结果进行修正,包括:
调取每个修正特征对应的第一文本差异特征对应的匹配概率值,结合预设标准,对每个修正特征的修正级别进行判断;
根据所述损失值,对修正参数进行更新,并基于更新后修正参数,对修正特征进行优化,并按照优化后修正特征进行修正;
当修正级别为一级时,对此时匹配概率值对应的修正特征设置第一调整参数,对修正特征进行调整,得到第一修正特征;
当修正级别为二级时,对此时匹配概率值对应的修正特征设置第二调整参数,对修正特征进行调整,得到第二修正特征。
10.一种用于语音识别芯片的智能修正系统,其特征在于,包括:
标准文本获取模块:用于获取目标语音以及目标语音的标准文本;
相似度分析模块:用于通过采用语音识别芯片来识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
预设修正模块:用于当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
修正特征构建模块:用于当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;
修正模块:用于预测修正特征对两个文本差异的修正级别,若满足预设标准,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211565405.0A CN115579000B (zh) | 2022-12-07 | 2022-12-07 | 一种用于语音识别芯片的智能修正方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211565405.0A CN115579000B (zh) | 2022-12-07 | 2022-12-07 | 一种用于语音识别芯片的智能修正方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115579000A true CN115579000A (zh) | 2023-01-06 |
CN115579000B CN115579000B (zh) | 2023-03-03 |
Family
ID=84590501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211565405.0A Active CN115579000B (zh) | 2022-12-07 | 2022-12-07 | 一种用于语音识别芯片的智能修正方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115579000B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200135211A1 (en) * | 2018-10-24 | 2020-04-30 | Panasonic Intellectual Property Corporation Of America | Information processing method, information processing device, and recording medium |
CN112259081A (zh) * | 2020-12-21 | 2021-01-22 | 北京爱数智慧科技有限公司 | 语音的处理方法和装置 |
CN112735431A (zh) * | 2020-12-29 | 2021-04-30 | 三星电子(中国)研发中心 | 模型训练方法和装置及人工智能对话的识别方法和装置 |
CN113539241A (zh) * | 2021-07-28 | 2021-10-22 | 广州华多网络科技有限公司 | 语音识别校正方法及其相应的装置、设备、介质 |
CN114678014A (zh) * | 2022-03-23 | 2022-06-28 | 平安普惠企业管理有限公司 | 意图识别方法、装置、计算机设备及计算机可读存储介质 |
CN114882873A (zh) * | 2022-07-12 | 2022-08-09 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
US20220277732A1 (en) * | 2021-09-28 | 2022-09-01 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for training speech recognition model, electronic device and storage medium |
CN115359799A (zh) * | 2022-08-18 | 2022-11-18 | 北京字跳网络技术有限公司 | 语音识别方法、训练方法、装置、电子设备及存储介质 |
-
2022
- 2022-12-07 CN CN202211565405.0A patent/CN115579000B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200135211A1 (en) * | 2018-10-24 | 2020-04-30 | Panasonic Intellectual Property Corporation Of America | Information processing method, information processing device, and recording medium |
CN112259081A (zh) * | 2020-12-21 | 2021-01-22 | 北京爱数智慧科技有限公司 | 语音的处理方法和装置 |
CN112735431A (zh) * | 2020-12-29 | 2021-04-30 | 三星电子(中国)研发中心 | 模型训练方法和装置及人工智能对话的识别方法和装置 |
CN113539241A (zh) * | 2021-07-28 | 2021-10-22 | 广州华多网络科技有限公司 | 语音识别校正方法及其相应的装置、设备、介质 |
US20220277732A1 (en) * | 2021-09-28 | 2022-09-01 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for training speech recognition model, electronic device and storage medium |
CN114678014A (zh) * | 2022-03-23 | 2022-06-28 | 平安普惠企业管理有限公司 | 意图识别方法、装置、计算机设备及计算机可读存储介质 |
CN114882873A (zh) * | 2022-07-12 | 2022-08-09 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
CN115359799A (zh) * | 2022-08-18 | 2022-11-18 | 北京字跳网络技术有限公司 | 语音识别方法、训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
李娜等: "语音关键词识别系统的模型训练及性能评价", 《信息通信》 * |
王姣等: "改进的基于半监督稀疏自编码IM流量识别模型的研究与比较", 《电子设计工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115579000B (zh) | 2023-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3948848B1 (en) | Speaker diarization with early-stop clustering | |
US11823658B2 (en) | Trial-based calibration for audio-based identification, recognition, and detection system | |
US9600231B1 (en) | Model shrinking for embedded keyword spotting | |
US7693713B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US8990084B2 (en) | Method of active learning for automatic speech recognition | |
US7509259B2 (en) | Method of refining statistical pattern recognition models and statistical pattern recognizers | |
CN1120470C (zh) | 利用快速和精细匹配在人群中识别讲话者的方法和装置 | |
US10535000B2 (en) | System and method for speaker change detection | |
US20040260550A1 (en) | Audio processing system and method for classifying speakers in audio data | |
EP2216775A1 (en) | Speaker recognition | |
Cai et al. | Analysis of length normalization in end-to-end speaker verification system | |
US7324941B2 (en) | Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these | |
Muscariello et al. | Audio keyword extraction by unsupervised word discovery | |
US20070185714A1 (en) | Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons | |
CN112732871B (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
EP3336714A1 (en) | Language dialog system with acquisition of replys from user input | |
JPH07261784A (ja) | パターン認識方法、音声認識方法および音声認識装置 | |
CN116955699B (zh) | 一种视频跨模态搜索模型训练方法、搜索方法及装置 | |
CN115457966B (zh) | 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法 | |
Woodward et al. | Confidence Measures in Encoder-Decoder Models for Speech Recognition. | |
Rao | A novel approach to unsupervised pattern discovery in speech using Convolutional Neural Network | |
CN111508505A (zh) | 一种说话人识别方法、装置、设备及存储介质 | |
Wu et al. | UBM-based real-time speaker segmentation for broadcasting news | |
CN112700766B (zh) | 语音识别模型的训练方法及装置、语音识别方法及装置 | |
US20210287682A1 (en) | Information processing apparatus, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |