CN115579000A - 一种用于语音识别芯片的智能修正方法及系统 - Google Patents

一种用于语音识别芯片的智能修正方法及系统 Download PDF

Info

Publication number
CN115579000A
CN115579000A CN202211565405.0A CN202211565405A CN115579000A CN 115579000 A CN115579000 A CN 115579000A CN 202211565405 A CN202211565405 A CN 202211565405A CN 115579000 A CN115579000 A CN 115579000A
Authority
CN
China
Prior art keywords
text
correction
voice
difference
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211565405.0A
Other languages
English (en)
Other versions
CN115579000B (zh
Inventor
王嘉诚
张少仲
张栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202211565405.0A priority Critical patent/CN115579000B/zh
Publication of CN115579000A publication Critical patent/CN115579000A/zh
Application granted granted Critical
Publication of CN115579000B publication Critical patent/CN115579000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于语音识别芯片的智能修正方法及系统,涉及语音识别技术领域,其方法包括:将第一文本与标准文本进行相似度分析,得到第一相似结果;当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;当第一相似结果小于预设值时,获取目标语音的语音场景,并根据场景特征以及两个文本之间的文本差异特征,构建每个文本差异特征的修正特征;预测修正特征对两个文本差异的修正级别,对修正特征进行调整,实现对语音识别芯片的识别构架的修正。通过建立目标语音的场景特征和文本差异特征之间的修正特征以及预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音识别芯片的更新,进而有效保证识别精度。

Description

一种用于语音识别芯片的智能修正方法及系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种用于语音识别芯片的智能修正方法及系统。
背景技术
随着科技的不断快速发展,计算机处理能力迅速提高,语音识别技术方面的发展也获得了巨大的飞跃,基于语音识别芯片来进行智能语音识别工作的新型产业不断涌现,促进了社会经济发展。
然而现有的芯片识别流程比较复杂且识别结果准确度不够高,在不够安静的环境下对语音不能清晰识别,且得到的识别结果往往与真正的语音含义存在偏差或歧义,从而导致一系列的负面影响,所以,修正语音识别芯片,以提高识别语音的精确度就显得尤其重要。
因此,本发明提出一种用于语音识别芯片的智能修正方法及系统。
发明内容
本发明提供一种用于语音识别芯片的智能修正方法及系统,用以通过建立目标语音的场景特征和文本差异特征之间的修正特征以及预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音芯片的更新,进而有效保证了识别精度。
本发明提供一种用于语音识别芯片的智能修正方法,包括:
步骤1:获取目标语音以及目标语音的标准文本;
步骤2:采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
步骤3:当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
步骤4:当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;步骤5:预测修正特征对两个文本差异的修正级别,根据修正级别对修正特征进行调整,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
优选的,所述目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频;
所述标准文本是通过人为预先识别获取的。
优选的,采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果,包括:
通过语音识别芯片接收目标语音,对所述目标语音进行频谱分析和降噪处理,得到第一处理结果;
对所述第一处理结果进行特征提取,获取得到目标语音特征;
调取语音识别芯片中的历史关键词语列表中的关键词语特征与所述目标语音特征进行对比匹配,得到对比结果;
分析所述对比结果,确定匹配度最高的关键词语为第一识别结果;
按照第一识别结果的识别顺序进行有序组合,构成第一文本;
对所述第一文本与标准文本进行相似度对比,得出第一相似结果。
优选的,对所述第一文本与标准文本进行相似度对比,得出第一相似结果,包括;
获取所述标准文本的标准特征向量;
获取所述第一文本的第一特征向量;
分别对所述标准特征向量和第一特征向量归一化处理,得到标准文本向量和第一文本向量;
对所述标准文本向量和第一文本向量进行相似度集合
Figure 379849DEST_PATH_IMAGE001
,其中,
Figure 454246DEST_PATH_IMAGE002
表示所述标准文本向量和第一文本向量中第i个元素之间的距离;
Figure 889776DEST_PATH_IMAGE003
表示所述标准文本向量和第一文本向量中的元素个数;
Figure 957089DEST_PATH_IMAGE004
其中,
Figure 725456DEST_PATH_IMAGE005
的取值范围[0,
Figure 751181DEST_PATH_IMAGE006
];
Figure 955897DEST_PATH_IMAGE007
表示第i个元素的元素类型;
Figure 607327DEST_PATH_IMAGE008
表示正向影响的元素集合;
Figure 479468DEST_PATH_IMAGE009
的取值范围[0,
Figure 426827DEST_PATH_IMAGE010
];
Figure 384418DEST_PATH_IMAGE011
表示负向影响的元素集合;
Figure 324692DEST_PATH_IMAGE012
为标准文本向量中第i个元素的坐标点;
Figure 300608DEST_PATH_IMAGE013
表示第一文本向量中第i个元素的坐标点;
根据所述相似度集合D,筛选出满足标准距离条件的第一距离;
基于所有第一距离,确定出第一相似结果。
优选的,基于所有第一距离,确定出第一相似结果,包括:
计算所有第一距离的累计和
Figure 933714DEST_PATH_IMAGE014
Figure 378602DEST_PATH_IMAGE015
其中,
Figure 607720DEST_PATH_IMAGE016
表示
Figure 454454DEST_PATH_IMAGE017
距离;m1表示从相似度集合
Figure 242150DEST_PATH_IMAGE001
中筛选出来满足标准距离条件的第一距离的总个数;
Figure 174334DEST_PATH_IMAGE018
以及
Figure 456411DEST_PATH_IMAGE019
时,将
Figure 920102DEST_PATH_IMAGE020
作为第一相似结果;
其中,
Figure 895011DEST_PATH_IMAGE021
表示相似度集合
Figure 314491DEST_PATH_IMAGE022
中所有
Figure 383947DEST_PATH_IMAGE002
的累加和;
Figure 939693DEST_PATH_IMAGE023
1表示第一常数;
Figure 836236DEST_PATH_IMAGE023
2表示第二常数。
优选的,获取目标语音的语音场景之后,还包括:
提取所述目标语音中非语音片段,并依次对每个非语音片段进行第一位置标注;
对每个非语音片段进行特征提取,获取对应子场景特征;
基于标注结果,集合所有子场景特征,确定所述语音场景的场景特征。
优选的,确定第一文本与标准文本之间的文本差异特征,并基于所述场景特征、文本差异特征,构建每个文本差异特征对应的修正特征,包括:
将所述标准文本和第一文本输入文本匹配模型中进行匹配预测,得到匹配概率值;
当所述匹配概率值小于预设匹配阈值时,确定当前存在的文本差异,并获取得到第一文本差异特征;
确定所述标准文本中第一目标差异字词所处的第一位置以及所述第一文本中第二目标差异字词所处的第二位置,根据所述第一位置以及第二位置,确定所述第一文本与标准文本的差异位置特征,其中,所述第二目标差异字词是由语音识别芯片对第一标记片段识别得到的;
从场景特征中提取与所述第一文本与标准文本的差异位置特征存在对应关系的第一位置标注,此时,将第一位置标注对应的非语音片段进行第一标记,得到第一标记片段;
提取所述第一标记片段对应的第一子场景特征;
获取第一子场景特征包含的第一标记片段的音频信号内每个频点对应的第一幅值和第一相位;
基于所述第一标记片段的第一位置标注,从所述目标语音中,提取第一目标语音片段,并确定所述第一目标语音片段的音频信号的每个频点对应的第二幅值和第二相位;
根据第一相位与第二相位的相位差,对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,得到每个第一文本差异特征对应的修正特征。
优选的,将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测,得到匹配概率值,包括:
获取所述标准文本的标准语义特征向量和第一文本的第一语义特征向量;
将所述标准语义特征向量和第一语义特征向量输入到文本匹配模型中进行相减操作,得到文本语义差异特征向量;
将所述文本语义差异特征向量输入到差异分析模块中进行语义特征分析,得到若干差异结果值;
对若干差异结果值分别进行公式运算,获取得到匹配概率值P,公式如下:
Figure 477433DEST_PATH_IMAGE024
Figure 101312DEST_PATH_IMAGE025
其中,
Figure 291991DEST_PATH_IMAGE026
表示为第j个差异结果值对应的匹配概率值,取值范围为
Figure 608703DEST_PATH_IMAGE027
Figure 737196DEST_PATH_IMAGE028
表示为第j个差异结果值;M为差异结果值个数;N表示为差异结果值中的最大值;
Figure 649920DEST_PATH_IMAGE029
表示为计算的误差系数,取值范围为(0,0.001);e的取值为2.7。
优选的,预测所述修正特征的修正级别,并根据预测结果进行修正,包括:
调取每个修正特征对应的第一文本差异特征对应的匹配概率值,结合预设标准,对每个修正特征的修正级别进行判断;
若匹配概率值处于
Figure 914679DEST_PATH_IMAGE030
取值范围内时,确定修正级别为三级,此时,基于每个频点对应的第二幅值以及修正后第一幅值,确定损失值;
根据所述损失值,对修正参数进行更新,并基于更新后修正参数,对修正特征进行优化,并按照优化后修正特征进行修正;
若匹配概率值处于
Figure 667871DEST_PATH_IMAGE031
取值范围内时,确定修正级别为二级;
若匹配概率值处于取值范围
Figure 532928DEST_PATH_IMAGE032
内时,确定修正级别为一级,
当修正级别为一级时,对此时匹配概率值对应的修正特征设置第一调整参数,对修正特征进行调整,得到第一修正特征;
当修正级别为二级时,对此时匹配概率值对应的修正特征设置第二调整参数,对修正特征进行调整,得到第二修正特征。
本发明提供了一种用于语音识别芯片的智能修正系统,包括:
标准文本获取模块:用于获取目标语音以及目标语音的标准文本;
相似度分析模块:用于通过采用语音识别芯片来识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
预设修正模块:用于当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
修正特征构建模块:用于当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征; 修正模块:用于预测修正特征对两个文本差异的修正级别,若满足预设标准,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于语音识别芯片的智能修正方法的流程图;
图2为本发明实施例中一种用于语音识别芯片的智能修正系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种用于语音识别芯片的智能修正方法,如图1所示,包括:
步骤1:获取目标语音以及目标语音的标准文本;
步骤2:采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
步骤3:当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
步骤4:当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;步骤5:预测修正特征对两个文本差异的修正级别,根据修正级别对修正特征进行调整,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
该实施例中,目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频;标准文本是通过人为预先识别获取的。
该实施例中,第一文本是通过语音识别芯片进行识别得到的。
该实施例中,预设方法主要是指在语音识别芯片识别架构中的提取语音特征模块部分,结合损失函数对目标语音的特征值进一步有效优化,以确保尽量减小误差。
该实施例中,语音识别芯片的识别架构包括语音采集模块、语音预处理模块、提取语音特征模块、匹配对比模块以及输出模块。
该实施例中,语音场景是指目标对象发出语音的实时背景声音信息,场景特征则是指可以描述背景声音信息的特征,比如,基音周期、信噪比、过零率、谐噪比和短时平均幅度;文本差异特征是指标准文本与第一文本之间存在的差异的特征,比如,字向量、词向量、句向量以及语义向量。
该实施例中,修正级别是根据两个文本之间差异特征对应的匹配概率值进行确定的;预设标准具体是提前设定好的;预设值一般取值为0.6。
上述技术方案的有益效果是:通过建立目标语音的场景特征和标准文本和第一文本之间文本差异特征,来构建得到修正特征;通过预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音芯片的更新,进而有效保证了识别精度。
本发明实施例提供一种用于语音识别芯片的智能修正方法,采用语音识别芯片识别所述目标语音,获取第一文本,并与所述标准文本进行相似度分析,得到第一相似结果,包括:
通过语音识别芯片接收目标语音,对所述目标语音进行频谱分析和降噪处理,得到第一处理结果;
对所述第一处理结果进行特征提取,获取得到目标语音特征;
调取语音识别芯片中的历史关键词语列表中的关键词语特征与所述目标语音特征进行对比匹配,得到对比结果;
分析所述对比结果,确定匹配度最高的关键词语为第一识别结果;
按照第一识别结果的识别顺序进行有序组合,构成第一文本;
对所述第一文本与标准文本进行相似度对比,得出第一相似结果。
该实施例中,目标语音特征包括有过零率、基音周期、信噪比、谐噪比和短时平均幅度。
该实施例中,历史关键词语列表是内置于语音识别芯片中的词语数据列表,包含有关键词语以及关键词语特征。
该实施例中,比如,存在关键词语1、2、3,对应关键词语特征分别是
Figure 498610DEST_PATH_IMAGE033
Figure 899766DEST_PATH_IMAGE034
Figure 292702DEST_PATH_IMAGE035
以及目标语音特征A;将目标语音特征A依次与关键词语特征
Figure 395787DEST_PATH_IMAGE033
Figure 414427DEST_PATH_IMAGE034
Figure 919358DEST_PATH_IMAGE035
进行对比,得出对比结果0.6、0.9、0.7;此时,确定对比结果最高的关键词语特征
Figure 483194DEST_PATH_IMAGE034
对应的关键词语2为匹配度最高的关键词语,作为第一识别结果输出。
该实施例中,获取第一相似结果是为了得到标准文本和第一文本的相似度,为确定修正语音识别芯片的方法,保证不同情况下有效实现修正语音识别芯片提供基础。
上述技术方案的有益效果是:通过采用语音识别芯片对目标语音进行识别,基于目标语音特征和历史关键词语对比,得到第一文本;将所述第一文本与标准文本进行相似度操作,并根据得到的相似度结果,便于确定修正语音识别芯片的方法,分情况考虑修正语音识别芯片的方法,确保能够实现识别的精度提高。
本发明实施例提供一种用于语音识别芯片的智能修正方法,对所述第一文本与标准文本进行相似度对比,得出第一相似结果,包括;
获取所述标准文本的标准特征向量;
获取所述第一文本的第一特征向量;
分别对所述标准特征向量和第一特征向量归一化处理,得到标准文本向量和第一文本向量;
对所述标准文本向量和第一文本向量进行相似度集合
Figure 824308DEST_PATH_IMAGE001
,其中,
Figure 397372DEST_PATH_IMAGE002
表示所述标准文本向量和第一文本向量中第i个元素之间的距离;
Figure 740498DEST_PATH_IMAGE003
表示所述标准文本向量和第一文本向量中的元素个数;
Figure 740815DEST_PATH_IMAGE036
其中,
Figure 552913DEST_PATH_IMAGE005
的取值范围[0,
Figure 680400DEST_PATH_IMAGE006
];
Figure 894344DEST_PATH_IMAGE007
表示第i个元素的元素类型;
Figure 65562DEST_PATH_IMAGE008
表示正向影响的元素集合;
Figure 614224DEST_PATH_IMAGE009
的取值范围[0,
Figure 529090DEST_PATH_IMAGE010
];
Figure 348273DEST_PATH_IMAGE011
表示负向影响的元素集合;
Figure 690392DEST_PATH_IMAGE012
为标准文本向量中第i个元素的坐标点;
Figure 211504DEST_PATH_IMAGE013
表示第一文本向量中第i个元素的坐标点;
根据所述相似度集合D,筛选出满足标准距离条件的第一距离;
基于所有第一距离,确定出第一相似结果。
该实施例中,标准特征向量指的是标准文本的字向量和词级别的句向量;第一特征向量是指第一文本的字向量和词级别的句向量。
该实施例中,归一化处理是指对标准特征向量和第一特征向量进行约束,将其向量中的每个元素限定在0-1之间,从而得到对应的标准文本向量和第一文本向量,其目的主要是为了减少计算时间,避免过拟合的同时,尽可能多地保留原始文本的主要特征。
该实施例中,比如,存在标准距离条件A和相似度集合D中存在的距离1、2、3,将距离1、2、3与标准距离条件A依次进行分析,得到距离1满足标准距离条件A,距离2和3均不满足标准距离条件A,此时,确定距离1为第一距离。
该实施例中,基于获取的第一相似结果,来确定标准文本与第一文本的相似度。
上述技术方案的有益效果是:通过对标准文本和第一文本的特征向量归一化处理,得到标准文本向量和第一文本向量;将所述标准文本向量和第一文本向量通过公式进行相似度操作,得到相似度集合;对所述相似度结合进行分析,得到第一相似结果;基于所述第一相似结果,可确保修正语音识别芯片的方法,有利于实现提高识别的精确度。
本发明实施例提供一种用于语音识别芯片的智能修正方法,基于所有第一距离,确定出第一相似结果,包括:
计算所有第一距离的累计和
Figure 913749DEST_PATH_IMAGE014
Figure 102285DEST_PATH_IMAGE015
其中,
Figure 366038DEST_PATH_IMAGE016
表示
Figure 640025DEST_PATH_IMAGE017
距离;m1表示从相似度集合
Figure 631115DEST_PATH_IMAGE001
中筛选出来满足标准距离条件的第一距离的总个数;
Figure 923425DEST_PATH_IMAGE018
以及
Figure 872926DEST_PATH_IMAGE019
时,将
Figure 368630DEST_PATH_IMAGE020
作为第一相似结果;
其中,
Figure 168003DEST_PATH_IMAGE021
表示相似度集合
Figure 65552DEST_PATH_IMAGE022
中所有
Figure 169643DEST_PATH_IMAGE002
的累加和;
Figure 152643DEST_PATH_IMAGE023
1表示第一常数;
Figure 751114DEST_PATH_IMAGE023
2表示第二常数。
该实施例中,
Figure 253902DEST_PATH_IMAGE023
1取值一般为1,
Figure 545206DEST_PATH_IMAGE023
2取值一般为1。
上述技术方案的有益效果是:通过计算从相似度集合D中筛选出的第一距离的累计和、第一距离的总个数以及两者结合的式子,与第一常数
Figure 264769DEST_PATH_IMAGE023
1、第二常数
Figure 666932DEST_PATH_IMAGE023
2进行比较,来有效获取第一相似结果,为确定标准文本和第一文本相似度提供基础。
本发明实施例提供一种用于语音识别芯片的智能修正方法,获取目标语音的语音场景之后,还包括:
提取所述目标语音中非语音片段,并依次对每个非语音片段进行第一位置标注;
对每个非语音片段进行特征提取,获取对应子场景特征;
基于标注结果,集合所有子场景特征,确定所述语音场景的场景特征。
该实施例中,非语音片段是指目标语音中剔除目标对象发出的声音以外的语音片段;第一位置标注是为了保证非语音片段的有序性,便于后续调取使用。
该实施例中,子场景特征是指每个非语音片段的特征;场景特征是按照位置标注顺序,对每个子场景特征进行有序集合构建而成的。
上述技术方案的有益效果是:通过对获取的目标语音中的非语音片段进行位置标注和特征提取,得到若干子场景特征;将所有子场景特征有序结合,可以有效得到目标语音的语音场景的场景特征,为确定语音识别芯片的修正特征提供基础。
本发明实施例提供一种用于语音识别芯片的智能修正方法,确定第一文本与标准文本之间的文本差异特征,并基于所述场景特征、文本差异特征,构建每个文本差异特征对应的修正特征,包括:
将所述标准文本和第一文本输入文本匹配模型中进行匹配预测,得到匹配概率值;
当所述匹配概率值小于预设匹配阈值时,确定当前存在的文本差异,并获取得到第一文本差异特征;
确定所述标准文本中第一目标差异字词所处的第一位置以及所述第一文本中第二目标差异字词所处的第二位置,根据所述第一位置以及第二位置,确定所述第一文本与标准文本的差异位置特征,其中,所述第二目标差异字词是由语音识别芯片对第一标记片段识别得到的;
从场景特征中提取与所述第一文本与标准文本的差异位置特征存在对应关系的第一位置标注,此时,将第一位置标注对应的非语音片段进行第一标记,得到第一标记片段;
提取所述第一标记片段对应的第一子场景特征;
获取第一子场景特征包含的第一标记片段的音频信号内每个频点对应的第一幅值和第一相位;
基于所述第一标记片段的第一位置标注,从所述目标语音中,提取第一目标语音片段,并确定所述第一目标语音片段的音频信号的每个频点对应的第二幅值和第二相位;
根据第一相位与第二相位的相位差,对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,得到每个第一文本差异特征对应的修正特征。
该实施例中,预设匹配阈值是提前设置好的,一般为0.85。
该实施例中,比如,存在匹配概率值0.6,因为0.6小于预设匹配阈值0.85,故确定当前存在文本差异,并获取当前文本差异的特征,确定为第一文本差异特征。
该实施例中,第一目标差异字词是指文本差异处标准文本对应文本差异处的字词,第一位置是指第一目标差异字词在标准文本的位置;第二目标差异字词是指文本差异处第一文本对应文本差异处的字词,第二位置是指第二目标差异字词在第一文本的位置。
该实施例中,差异位置特征的获取主要是为了得到每个第一文本差异特征对应的子场景特征,进而为确定每个第一文本差异特征对应的修正特征奠定基础。
该实施例中,第一位置标注是为了从非语音片段中筛选得到每个文本差异对应的片段,并将得到的片段进行第一标记,得到第一标记片段。
该实施例中,第一子场景特征是基于第一标记片段,从场景特征中选取的,将第一子场景特征与位置相对应的文本差异特征进行结合分析,可得到每个文本差异特征对应的修正特征,来实现对语音识别芯片的识别架构的修正。
该实施例中,第一目标语音片段是根据第一标记片段的位置标注从目标语音中筛选得到的。
该实施例中,修正特征是基于第一标记片段的音频信号内每个频点对应的第一相位和第一目标语音片段的音频信号的每个频点对应的第二相位的相位差,来对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理得到的。
上述技术方案的有益效果是:通过将标准文本和第一文本输入文本匹配模型中进行匹配对比操作,得到文本差异特征;根据文本差异特征的差异位置特征从目标语音中筛选得到第一标记片段;确定与第一标记片段位置对应的第一目标语音片段;基于第一标记片段对应的第一子场景特征,获取第一标记片段与第一目标语音内的音频信号内的每个频点对应的相位差;通过相位差可对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,从而得到每个第一文本差异特征对应的修正特征。
本发明实施例提供一种用于语音识别芯片的智能修正方法,将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测,得到匹配概率值,包括:
获取所述标准文本的标准语义特征向量和第一文本的第一语义特征向量;
将所述标准语义特征向量和第一语义特征向量输入到文本匹配模型中进行相减操作,得到文本语义差异特征向量;
将所述文本语义差异特征向量输入到差异分析模块中进行语义特征分析,得到若干差异结果值;
对若干差异结果值分别进行公式运算,获取得到匹配概率值P,公式如下:
Figure 273493DEST_PATH_IMAGE037
Figure 486431DEST_PATH_IMAGE038
其中,
Figure 444023DEST_PATH_IMAGE026
表示为第j个差异结果值对应的匹配概率值,取值范围为
Figure 384297DEST_PATH_IMAGE027
Figure 360212DEST_PATH_IMAGE028
表示为第j个差异结果值;M为差异结果值个数;N表示为差异结果值中的最大值;
Figure 993319DEST_PATH_IMAGE029
表示为计算的误差系数,取值范围为(0,0.001);e的取值为2.7。
该实施例中,标准语义特征向量包括有标准文本的语义信息,第一语义特征向量包含有第一文本的语义信息;实际就是分别将标准文本特征和第一文本特征映射到语义空间中获取得到的。
该实施例中,文本语义差异特征向量包含有标准文本与第一文本之间的语义差异信息,是由标准语义特征向量和第一语义特征向量相减得到的。
上述技术方案的有益效果是:通过将标准文本与第一文本输入到文本匹配模型中进行语义向量匹配分析,根据公式运算得到匹配概率值;便于基于预设匹配阈值,对匹配概率值进行判断,来确定当前两文本之间是否存在文本差异,实现了对标准文本与第一文本之间的文本差异的确定,从而得到文本差异特征。
本发明实施例提供一种用于语音识别芯片的智能修正方法,预测所述修正特征的修正级别,并根据预测结果进行修正,包括:
调取每个修正特征对应的第一文本差异特征对应的匹配概率值,结合预设标准,对每个修正特征的修正级别进行判断;
若匹配概率值处于
Figure 923360DEST_PATH_IMAGE030
取值范围内时,确定修正级别为三级,此时,基于每个频点对应的第二幅值以及修正后第一幅值,确定损失值;
根据所述损失值,对修正参数进行更新,并基于更新后修正参数,对修正特征进行优化,并按照优化后修正特征进行修正;
若匹配概率值处于
Figure 667325DEST_PATH_IMAGE031
取值范围内时,确定修正级别为二级;
若匹配概率值处于取值范围
Figure 514058DEST_PATH_IMAGE032
内时,确定修正级别为一级,
当修正级别为一级时,对此时匹配概率值对应的修正特征设置第一调整参数,对修正特征进行调整,得到第一修正特征;
当修正级别为二级时,对此时匹配概率值对应的修正特征设置第二调整参数,对修正特征进行调整,得到第二修正特征。
该实施例中,预设标准是提前设定好的,是指当匹配概率值不小于0.2时,可按照修正特征进行修正,也就是说当匹配概率值处于
Figure 567334DEST_PATH_IMAGE039
取值范围内时,确定修正级别为三级,此时,需要对修正特征进行优化。
该实施例中,
Figure 499518DEST_PATH_IMAGE023
取值为0.2。
该实施例中,比如,确定b、c的取值分别为0.45和0.85,且存在匹配概率值0.3、0.6和0.7,由于匹配概率值0.3处于
Figure 781595DEST_PATH_IMAGE040
取值范围内,确定该匹配概率值对应的文本差异特征的修正特征的修正级别为二级;此时设置第二参数对修正特征调整得到第二修正特征,并按照第二修正特征来对语音识别芯片的识别架构进行修正;匹配概率值0.6和0.7均处于
Figure 233567DEST_PATH_IMAGE041
取值范围内,确定匹配概率值0.6和0.7对应的文本差异特征的修正特征的修正级别为一级,此时设置第一参数对修正特征调整得到第一修正特征,并按照第一修正特征来对语音识别芯片的识别架构进行修正。
上述技术方案的有益效果是:通过结合匹配概率值和预设标准确定每个修正特征的修正级别;根据修正级别来对修正特征进行调整得到第一修正特征和第二修正特征;当匹配概率值小于0.2时,对当前的修正特征进行持续优化;基于第一修正特征、第二修正特征和优化后修正特征,对语音识别芯片的识别架构进行修正,以提高识别的精确度。
本发明实施例提供一种用于语音识别芯片的智能修正系统,如图2所示,包括:
标准文本获取模块:用于获取目标语音以及目标语音的标准文本;
相似度分析模块:用于通过采用语音识别芯片来识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
预设修正模块:用于当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
修正特征构建模块:用于当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征; 修正模块:用于预测修正特征对两个文本差异的修正级别,若满足预设标准,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
上述技术方案的有益效果是:通过建立目标语音的场景特征和标准文本和第一文本之间文本差异特征,来构建得到修正特征;通过预测修正特征的修正级别来修正语音识别芯片的识别构架,实现对语音芯片的更新,进而有效保证了识别精度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种用于语音识别芯片的智能修正方法,其特征在于,包括:
步骤1:获取目标语音以及目标语音的标准文本;
步骤2:采用语音识别芯片识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
步骤3:当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
步骤4:当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;
步骤5:预测修正特征对两个文本差异的修正级别,根据修正级别对修正特征进行调整,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
2.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,
所述目标语音是指目标对象在特定环境中发出的语音并由指定录音装置进行存储得到的音频;
所述标准文本是通过人为预先识别获取的。
3.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,所述步骤2具体包括:
通过语音识别芯片接收目标语音,对所述目标语音进行频谱分析和降噪处理,得到第一处理结果;
对所述第一处理结果进行特征提取,获取得到目标语音特征;
调取语音识别芯片中的历史关键词语列表中的关键词语特征与所述目标语音特征进行对比匹配,得到对比结果;
分析所述对比结果,确定匹配度最高的关键词语为第一识别结果;
按照第一识别结果的识别顺序进行有序组合,构成第一文本;
对所述第一文本与标准文本进行相似度对比,得出第一相似结果。
4.如权利要求3所述的用于语音识别芯片的智能修正方法,其特征在于,对所述第一文本与标准文本进行相似度对比,得出第一相似结果,包括;
获取所述标准文本的标准特征向量;
获取所述第一文本的第一特征向量;
分别对所述标准特征向量和第一特征向量归一化处理,得到标准文本向量和第一文本向量;
对所述标准文本向量和第一文本向量进行相似度集合
Figure 722773DEST_PATH_IMAGE001
,其中,
Figure 657100DEST_PATH_IMAGE002
表示所述标准文本向量和第一文本向量中第i个元素之间的距离;
Figure 477289DEST_PATH_IMAGE003
表示所述标准文本向量和第一文本向量中的元素个数;
Figure 298614DEST_PATH_IMAGE004
其中,
Figure 195157DEST_PATH_IMAGE005
的取值范围[0,
Figure 836354DEST_PATH_IMAGE006
];
Figure 460233DEST_PATH_IMAGE007
表示第i个元素的元素类型;
Figure 385333DEST_PATH_IMAGE008
表示正向影响的元素集合;
Figure 436466DEST_PATH_IMAGE009
的取值范围[0,
Figure 315691DEST_PATH_IMAGE010
];
Figure 743261DEST_PATH_IMAGE011
表示负向影响的元素集合;
Figure 273600DEST_PATH_IMAGE012
为标准文本向量中第i个元素的坐标点;
Figure 10481DEST_PATH_IMAGE013
表示第一文本向量中第i个元素的坐标点;
根据所述相似度集合D,筛选出满足标准距离条件的第一距离;
基于所有第一距离,确定出第一相似结果。
5.如权利要求4所述的用于语音识别芯片的智能修正方法,其特征在于,基于所有第一距离,确定出第一相似结果,包括:
计算所有第一距离的累计和
Figure 360690DEST_PATH_IMAGE014
Figure 77105DEST_PATH_IMAGE015
其中,
Figure 461950DEST_PATH_IMAGE016
表示第j1个第一距离;m1表示从相似度集合
Figure 120464DEST_PATH_IMAGE001
中筛选出来满足标准距离条件的第一距离的总个数;
Figure 472817DEST_PATH_IMAGE017
以及
Figure 242190DEST_PATH_IMAGE018
时,将
Figure 481541DEST_PATH_IMAGE019
作为第一相似结果;
其中,
Figure 61689DEST_PATH_IMAGE020
表示相似度集合
Figure 917650DEST_PATH_IMAGE021
中所有
Figure 225135DEST_PATH_IMAGE002
的累加和;
Figure 833839DEST_PATH_IMAGE022
1表示第一常数;
Figure 834156DEST_PATH_IMAGE022
2表示第二常数。
6.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,
获取目标语音的语音场景之后,还包括:
提取所述目标语音中非语音片段,并依次对每个非语音片段进行第一位置标注;
对每个非语音片段进行特征提取,获取对应子场景特征;
基于标注结果,集合所有子场景特征,确定所述语音场景的场景特征。
7.如权利要求6所述的用于语音识别芯片的智能修正方法,其特征在于,确定第一文本与标准文本之间的文本差异特征,并基于所述场景特征、文本差异特征,构建每个文本差异特征对应的修正特征,包括:
将所述标准文本和第一文本输入文本匹配模型中进行匹配预测,得到匹配概率值;
当所述匹配概率值小于预设匹配阈值时,确定当前存在的文本差异,并获取得到第一文本差异特征;
确定所述标准文本中第一目标差异字词所处的第一位置以及所述第一文本中第二目标差异字词所处的第二位置,根据所述第一位置以及第二位置,确定所述第一文本与标准文本的差异位置特征,其中,所述第二目标差异字词是由语音识别芯片对第一标记片段识别得到的;
从场景特征中提取与所述第一文本与标准文本的差异位置特征存在对应关系的第一位置标注,此时,将第一位置标注对应的非语音片段进行第一标记,得到第一标记片段;
提取所述第一标记片段对应的第一子场景特征;
获取第一子场景特征包含的第一标记片段的音频信号内每个频点对应的第一幅值和第一相位;
基于所述第一标记片段的第一位置标注,从所述目标语音中,提取第一目标语音片段,并确定所述第一目标语音片段的音频信号的每个频点对应的第二幅值和第二相位;
根据第一相位与第二相位的相位差,对第一标记片段的音频信号内每个频点对应的第一幅值进行修正处理,得到每个第一文本差异特征对应的修正特征。
8.如权利要求7所述的用于语音识别芯片的智能修正方法,其特征在于,将所述标准文本和第一文本输入文本匹配模型中进行匹配程度预测,得到匹配概率值,包括:
获取所述标准文本的标准语义特征向量和第一文本的第一语义特征向量;
将所述标准语义特征向量和第一语义特征向量输入到文本匹配模型中进行相减操作,得到文本语义差异特征向量;
将所述文本语义差异特征向量输入到差异分析模块中进行语义特征分析,得到若干差异结果值;
对若干差异结果值分别进行公式运算,获取得到匹配概率值P,公式如下:
Figure 396987DEST_PATH_IMAGE023
Figure 773742DEST_PATH_IMAGE024
其中,
Figure 987685DEST_PATH_IMAGE025
表示为第j个差异结果值对应的匹配概率值,取值范围为
Figure 673751DEST_PATH_IMAGE026
Figure 973145DEST_PATH_IMAGE027
表示为第j个差异结果值;M为差异结果值个数;N表示为差异结果值中的最大值;
Figure 888011DEST_PATH_IMAGE028
表示为计算的误差系数,取值范围为(0,0.001);e的取值为2.7。
9.如权利要求1所述的用于语音识别芯片的智能修正方法,其特征在于,预测所述修正特征的修正级别,并根据预测结果进行修正,包括:
调取每个修正特征对应的第一文本差异特征对应的匹配概率值,结合预设标准,对每个修正特征的修正级别进行判断;
若匹配概率值处于
Figure 984492DEST_PATH_IMAGE029
取值范围内时,确定修正级别为三级,此时,基于每个频点对应的第二幅值以及修正后第一幅值,确定损失值;
根据所述损失值,对修正参数进行更新,并基于更新后修正参数,对修正特征进行优化,并按照优化后修正特征进行修正;
若匹配概率值处于
Figure 326611DEST_PATH_IMAGE030
取值范围内时,确定修正级别为二级;
若匹配概率值处于取值范围
Figure 113302DEST_PATH_IMAGE031
内时,确定修正级别为一级,
当修正级别为一级时,对此时匹配概率值对应的修正特征设置第一调整参数,对修正特征进行调整,得到第一修正特征;
当修正级别为二级时,对此时匹配概率值对应的修正特征设置第二调整参数,对修正特征进行调整,得到第二修正特征。
10.一种用于语音识别芯片的智能修正系统,其特征在于,包括:
标准文本获取模块:用于获取目标语音以及目标语音的标准文本;
相似度分析模块:用于通过采用语音识别芯片来识别所述目标语音,获取第一文本,与所述标准文本进行相似度分析,得到第一相似结果;
预设修正模块:用于当第一相似结果大于或等于预设值时,按照预设方式修正语音识别芯片的识别构架;
修正特征构建模块:用于当第一相似结果小于预设值时,获取目标语音的语音场景,并根据语音场景的场景特征以及两个文本之间的文本差异特征,来构建每个文本差异特征的修正特征;
修正模块:用于预测修正特征对两个文本差异的修正级别,若满足预设标准,按照所述修正特征对所述语音识别芯片的识别构架进行修正;
否则,按照预设标准对修正特征进行持续优化。
CN202211565405.0A 2022-12-07 2022-12-07 一种用于语音识别芯片的智能修正方法及系统 Active CN115579000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211565405.0A CN115579000B (zh) 2022-12-07 2022-12-07 一种用于语音识别芯片的智能修正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211565405.0A CN115579000B (zh) 2022-12-07 2022-12-07 一种用于语音识别芯片的智能修正方法及系统

Publications (2)

Publication Number Publication Date
CN115579000A true CN115579000A (zh) 2023-01-06
CN115579000B CN115579000B (zh) 2023-03-03

Family

ID=84590501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211565405.0A Active CN115579000B (zh) 2022-12-07 2022-12-07 一种用于语音识别芯片的智能修正方法及系统

Country Status (1)

Country Link
CN (1) CN115579000B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200135211A1 (en) * 2018-10-24 2020-04-30 Panasonic Intellectual Property Corporation Of America Information processing method, information processing device, and recording medium
CN112259081A (zh) * 2020-12-21 2021-01-22 北京爱数智慧科技有限公司 语音的处理方法和装置
CN112735431A (zh) * 2020-12-29 2021-04-30 三星电子(中国)研发中心 模型训练方法和装置及人工智能对话的识别方法和装置
CN113539241A (zh) * 2021-07-28 2021-10-22 广州华多网络科技有限公司 语音识别校正方法及其相应的装置、设备、介质
CN114678014A (zh) * 2022-03-23 2022-06-28 平安普惠企业管理有限公司 意图识别方法、装置、计算机设备及计算机可读存储介质
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
US20220277732A1 (en) * 2021-09-28 2022-09-01 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for training speech recognition model, electronic device and storage medium
CN115359799A (zh) * 2022-08-18 2022-11-18 北京字跳网络技术有限公司 语音识别方法、训练方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200135211A1 (en) * 2018-10-24 2020-04-30 Panasonic Intellectual Property Corporation Of America Information processing method, information processing device, and recording medium
CN112259081A (zh) * 2020-12-21 2021-01-22 北京爱数智慧科技有限公司 语音的处理方法和装置
CN112735431A (zh) * 2020-12-29 2021-04-30 三星电子(中国)研发中心 模型训练方法和装置及人工智能对话的识别方法和装置
CN113539241A (zh) * 2021-07-28 2021-10-22 广州华多网络科技有限公司 语音识别校正方法及其相应的装置、设备、介质
US20220277732A1 (en) * 2021-09-28 2022-09-01 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for training speech recognition model, electronic device and storage medium
CN114678014A (zh) * 2022-03-23 2022-06-28 平安普惠企业管理有限公司 意图识别方法、装置、计算机设备及计算机可读存储介质
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN115359799A (zh) * 2022-08-18 2022-11-18 北京字跳网络技术有限公司 语音识别方法、训练方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李娜等: "语音关键词识别系统的模型训练及性能评价", 《信息通信》 *
王姣等: "改进的基于半监督稀疏自编码IM流量识别模型的研究与比较", 《电子设计工程》 *

Also Published As

Publication number Publication date
CN115579000B (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
EP3948848B1 (en) Speaker diarization with early-stop clustering
US11823658B2 (en) Trial-based calibration for audio-based identification, recognition, and detection system
US9600231B1 (en) Model shrinking for embedded keyword spotting
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US8990084B2 (en) Method of active learning for automatic speech recognition
US7509259B2 (en) Method of refining statistical pattern recognition models and statistical pattern recognizers
CN1120470C (zh) 利用快速和精细匹配在人群中识别讲话者的方法和装置
US10535000B2 (en) System and method for speaker change detection
US20040260550A1 (en) Audio processing system and method for classifying speakers in audio data
EP2216775A1 (en) Speaker recognition
Cai et al. Analysis of length normalization in end-to-end speaker verification system
US7324941B2 (en) Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these
Muscariello et al. Audio keyword extraction by unsupervised word discovery
US20070185714A1 (en) Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
EP3336714A1 (en) Language dialog system with acquisition of replys from user input
JPH07261784A (ja) パターン認識方法、音声認識方法および音声認識装置
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
CN115457966B (zh) 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法
Woodward et al. Confidence Measures in Encoder-Decoder Models for Speech Recognition.
Rao A novel approach to unsupervised pattern discovery in speech using Convolutional Neural Network
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
Wu et al. UBM-based real-time speaker segmentation for broadcasting news
CN112700766B (zh) 语音识别模型的训练方法及装置、语音识别方法及装置
US20210287682A1 (en) Information processing apparatus, control method, and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant