CN112700764B - 热词语音识别方法、装置、电子设备及存储介质 - Google Patents
热词语音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112700764B CN112700764B CN202110293484.3A CN202110293484A CN112700764B CN 112700764 B CN112700764 B CN 112700764B CN 202110293484 A CN202110293484 A CN 202110293484A CN 112700764 B CN112700764 B CN 112700764B
- Authority
- CN
- China
- Prior art keywords
- word
- voice
- hot word
- hot
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000005284 excitation Effects 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种热词语音识别方法、装置、电子设备及存储介质,其中方法包括:获取多条待处理语音;多条待处理语音包括热词语音,以及将热词语音中的热词替换为混淆词的混淆语音;其中混淆词为热词的同音词或相似音词;基于语音识别系统对多条待处理语音进行语音识别处理,根据热词语音的语音识别结果与混淆语音的语音识别结果计算分值差,获取热词语音中的热词的激励值;确认热词的激励值大于预设阈值时,无需对热词所在路径的分值进行激励。本发明提供的热词语音识别方法,通过获取多条待处理语音,基于语音识别系统对多条待处理语音进行语音识别处理,自动获取热词的激励值,提高了语音识别的准确率和识别效率,同时避免了误激励情况的发生。
Description
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及热词语音识别方法、装置、电子设备及存储介质。
背景技术
随着人工智能产品在日常生活中的渗透率越来越高,语音识别技术作为人机自然交互的基本途径,在智能家居、智能汽车、智能客服等场景下有着广泛的应用。
目前,语音识别技术在通用场景中已达到较高的识别效果,特别是在客服领域实际应用中,用户会经常根据实际情况需要进行自定义解码。这种自定义解码的需求往往具有一定的特殊性与时效性,会出现一些具有时效性和个性化的词语,这些词语称之为热词。如电商根据活动需求,设置“一元”购物活动,而与此同时,其他用户可能会进行“亿元补贴”活动,其中,亿元补贴为热词短语,亿元为热词等。
现有技术中,解决这些热词识别的方法主要是采用热词激励的方式,对于任意的一个热词短语,可以根据词典对其进行分词处理,此时其变成一个词序列。当热词语音在语音识别处理过程中,遇到预先设置的热词序列时,对热词所在路径的得分直接进行激励,增大热词的输出概率,以使预设热词出现在最优输出路径中。但是,这种热词激励的方法具有一定的缺陷,热词短词会存在误激励问题,导致语音识别的准确率不高;另外对于不同的模型及不同热词,激励值也不同,目前激励值的获取需要靠经验设置,这种设置方式会影响语音识别的效率。
发明内容
本发明提供热词语音识别方法、装置、电子设备及存储介质,用以解决现有技术中热词短词存在误激励和激励值靠经验获取的技术问题,以实现提高系统语音识别准确率和识别效率的目的。
第一方面,本发明提供一种热词语音识别方法,包括:获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似音词;基于语音识别系统对所述多条待处理语音进行语音识别处理,根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值;确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励。
根据本发明提供的一种热词语音识别方法,还包括:确认所述热词的激励值小于或等于预设阈值时,对所述热词所在路径的分值进行正向激励。
根据本发明提供的一种热词语音识别方法,还包括:确认所述热词的激励值小于或等于预设阈值时,对所述混淆词所在路径的分值进行反向激励。
根据本发明提供的一种热词语音识别方法,所述获取多条待处理语音,包括:获取所述热词语音的文本数据;从所述文本数据中提取热词,基于语音字典,确定所述热词的混淆词;根据所述热词语音的文本数据以及所述混淆词,得到所述混淆语音的文本数据;根据所述混淆语音的文本数据以及所述热词语音的文本数据,得到多条语音。
根据本发明提供的一种热词语音识别方法,所述根据所述混淆语音的文本数据以及所述热词语音的文本数据,得到多条语音,包括:基于所述混淆语音的文本数据以及所述热词语音的文本数据,通过模拟多个说话人和多个音色的方式实现语音合成,得到与所述热词语音相关的多条语音。
根据本发明提供的一种热词语音识别方法,在所述从所述文本数据中提取热词,基于语音字典,确定所述热词的混淆词的步骤之前,包括:对所述热词语音的文本数据进行清洗。
根据本发明提供的一种热词语音识别方法,所述根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值,包括:根据所述热词语音的语音识别结果,得到所述热词语音中的热词的分值;根据所述混淆语音的语音识别结果,得到所述混淆语音中的混淆词的分值;根据所述热词的分值与所述混淆词的分值,得到所述热词与所述混淆词的分值差;根据所述热词与所述混淆词的分值差,确定所述热词语音中的热词的激励值。
第二方面,本发明提供一种热词语音识别的装置,包括:第一获取模块,用于获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似音词;处理模块,用于基于语音识别系统对所述多条待处理语音进行语音识别处理;计算模块,用于根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差;第二获取模块,用于获取所述热词语音中的热词的激励值;激励模块,用于当确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励。
第三方面,本发明提供一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上任一所述的方法。
第四方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上任一所述的方法。
本发明提供的热词语音识别方法、装置、电子设备及存储介质,其中,通过对获取的多条语音进行语音识别处理,根据获取的热词语音的语音识别处理结果和混淆语音的语音识别结果,计算获取分值差,作为热词语音中的热词的激励值,当确认激励值大于预设阈值时,无需对热词所在路径的分值进行激励处理。本发明提供的热词语音识别方法,自动获取热词的激励值,提高了语音识别的准确率和识别效率,避免了误激励情况的发生。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的热词语音识别方法的流程示意图;
图2为本发明提供的热词语音识别装置的结构示意图;
图3为本发明提供的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
为了使本发明实施例的方案更容易理解,并且更好地体现与现有语音识别方案的区别,下面首先对现有技术中基本的语音识别方法做简单说明。
热词(Hot Words),是指热门词汇,作为一种词汇现象,反映了一个国家、一个地区在一个时期内人们普遍关注的问题和事物。
在现有技术中,热词语音识别采用热词激励的方式,对于任意的一个热词短语,根据词典对其进行分词,此时其变成一个词序列。当热词语音在语音识别处理过程中,遇到预先设置的热词序列时,对热词所在路径的得分直接进行激励,以增大预设热词序列的输出概率,而且激励值的大小是根据经验进行设置的。
针对现有技术中热词激励方案常常存在短词误激励和激励值不准确需要靠经验设置的技术问题,本发明实施例提供的热词语音识别方法、装置、电子设备及存储介质,通过计算分析自动获取热词的激励值,而且可以采用不激励或激励两种方式解决现有技术中存在的技术问题,实现了提高识别效率和准确率的目的。
图1为本发明实施例热词语音识别方法的流程示意图,如图1所示,本发明提供的一种热词语音识别方法,包括以下步骤:
步骤S101:获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似音词;
步骤S102:基于语音识别系统对所述多条待处理语音进行语音识别处理,根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值;
步骤S103:确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励。
在一个实施例中,在接收到多条待处理语音时,通过语音识别系统中的声学模型提取语音中的声学特征,并将声学特征转换成音素,将获取的音素通过语言模型和解码器解码处理,获取文本数据和热词及混淆词对应的分值。在本实施例中,根据输出的热词和混淆词的分值,计算热词与混淆词的分值差,自动获取所述热词的激励值大小。当获取的激励值大于预设阈值时,说明热词所在路径已经处于最优路径中,不需要对该热词所在路径的分值进行激励处理。
具体地,语音识别系统是由声学模型和语言模型等构成。声学模型主要用于模拟字符音特点,具体可以采用语音识别领域常用的基于转移概率和传输概率的HMM(HiddenMarkov Model,隐马尔可夫)模型。考虑到在大词汇量连续语音识别中,词汇量的数量过于庞大,若是对每个字符都建立一个HMM模型,则模型数量太多,不利于数据存储及计算。因此在实际应用中,可以仅对基本的发音单元,如音节或音素单元建立HMM模型。声学模型还可以采用其他的技术手段,比如神经网络等。
语言模型使用的目的是根据声学模型输出的结果,给出概率最大的文字序列。无论是统计语言模型还是神经语言模型都是计算语言模型,将句子看作一个词序列,来计算句子的概率。
在本实施例中优选的是统计n-gram模型构建语言模型,具体实现方式采用现有技术中的技术手段进行操作,具体表示公式如下:
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
其中,p(S)被称为语言模型,即用来计算一个句子概率的模型。
在本实施例中,多条待处理语音不仅包括热词语音,还包括混淆语音,混淆语音是指将所述热词语音中的热词替换为混淆词的语音,其中混淆词为所述热词的同音词或相似音词。
其中,激励值的大小是通过统计的方法来分析计算获取的,另外激励值大小的确定方式有多种,具体根据获取的热词和混淆词的分值差进行分析确认。假如当所有的分值差都大于零时,选择最小分值差作为该热词的激励值。该热词的激励值大于零值,表明该热词所在路径处于最优状态,此时无需对热词所在路径的分值进行激励。针对不同的得分情况激励值大小的确定方式不同,可以参考下述其它实施例。
下面通过具体的例子进行详细说明。假设所述热词短语为“亿元补贴”,其中热词为亿元,混淆词为一元和医院,通过语音识别系统获取到分值情况如下述表1所示。
表1
路径 | 1 | 2 | 3 |
词语 | 亿元 | 一元 | 医院 |
分值 | 110 | 90 | 80 |
分值差 | 20 | 30 |
根据获取的分值差可知,最小分值差20为该热词的激励值,即激励值大于预设阈值零,此时表明该热词所在路径为最优路径,该热词处于优先输出的状态,此时无需对热词所在路径的分值进行激励。
本发明实施例提供的热词语音识别方法,通过对获取的多条语音进行语音识别处理,根据获取的热词语音的语音识别处理结果和混淆语音的语音识别结果,计算获取分值差,作为热词语音中的热词的激励值,当确认激励值大于预设阈值时,无需对热词所在路径的分值进行激励处理。本发明提供的热词语音识别方法,自动获取热词的激励值,提高了语音识别的准确率和识别效率,避免了误激励情况的发生。
在本发明的一个实施例中,确认所述热词的激励值小于或等于预设阈值时,对所述热词所在路径的分值进行正向激励。
具体地,预设阈值可以为零值,也可以为其它数值;激励方式可以为正向激励和反向激励。在本实施例中优选的预设阈值为零,激励方式为正向激励。当所述热词的激励值小于或等于零时,通过对热词所在路径的分值进行正向激励处理,使热词所在路径为最优路径。为了方便理解,可以通过下面具体例子进行详细论述。
假设所述热词短语为“亿元补贴”,其中热词为亿元,混淆词为一元和医院,通过语音识别系统获取到分值情况如下述表2所示。
表2
路径 | 1 | 2 | 3 |
词语 | 亿元 | 一元 | 医院 |
分值 | 80 | 90 | 110 |
分值差 | -20 | -30 |
根据获取的分值差可知,最小分值差为-30,选取最小分值差为热词的激励值,可见,该热词的激励值小于预设阈值零。在本实施例中选取热词激励值的绝对值30再加上一个固定值,对热词所在路径1的分值进行正向激励,若固定值选为10,那么激励结果为120,对热词所在路径1进行正向激励后的具体分值情况如下述表3所示。其中固定值的选择可以根据用户实际需要进行设计。
表3
路径 | 1 | 2 | 3 |
词语 | 亿元 | 一元 | 医院 |
分值 | 120 | 90 | 110 |
由上表可见,通过正向激励处理后,热词所在路径1的分值明显高于混淆词所在路径的分值,使该热词所在路径处于最优路径中,增大了该热词的输出概率。其中激励值和预设阈值的选取用户可以根据自身需要进行设置,在此不作具体限定。
本实施例通过正向激励的方式拉大所述热词和混淆词所在路径的分值差距,使热词所在路径处于最优路径,提高热词的输出概率,同时提高了语音识别的效率。
在本发明的另一个实施例中,确认所述热词的激励值小于或等于预设阈值时,对所述热词所在路径的分值进行正向激励;确认所述热词的激励值小于或等于预设阈值时,对所述混淆词所在路径的分值进行反向激励。
具体地,预设阈值可以为零值,也可以为其它数值;激励方式可以为正向激励和反向激励。在本实施例中,将预设阈值设为零值,当计算获取的所有的分值差都小于或等于零时,可以选择获取的最小分值差作为该热词的激励值,也就是说此时热词的激励值小于或等于零,表明该热词所在路径目前不处于最优状态,需要对热词所在路径的得分和混淆词所在路径的分值分别进行激励处理,使热词所在路径处于最优路径中。选取所述热词的激励值的绝对值对热词所在路径的分值进行正向激励,实现正向加分的目的;选取所述热词的激励值对混淆词所在路径的分值进行反向激励,实现减分的目的。为了方便理解,可以通过下述具体例子进行详细论述。
假设所述热词短语为“亿元补贴”,其中热词为亿元,混淆词为一元和医院,通过语音识别系统获取到分值情况如下述表4所示。
表4
路径 | 1 | 2 | 3 |
词语 | 亿元 | 一元 | 医院 |
分值 | 80 | 90 | 110 |
分值差 | -20 | -30 |
根据获取的分值差可知,获取热词的激励值为-30,激励值小于预设阈值零时,需要选取激励值的绝对值30对热词所在路径1的分值进行正向激励,结果为110;选取激励值对混淆词所在路径2和3的得分进行反向激励,结果为60和80。激励后的具体分值情况如下述表5所示。
表5
路径 | 1 | 2 | 3 |
词语 | 亿元 | 一元 | 医院 |
分值 | 110 | 60 | 80 |
由上表可见,通过激励处理后,热词所在路径1的分值明显高于其他混淆词所在路径的分值,使该热词所在路径处于最优路径中,增大了该热词的输出概率。其中激励值和预设阈值的选取用户可以根据自身需要进行设置,在此不作具体限定。
在另一个具体的例子中,激励值的大小选择分值差中的中间值,预设阈值设为识别结果中最大的分值差。如还是选用热词短语为“亿元补贴”,混淆词为一元和医院,假设语音识别结果如下表6所示。
表6
路径 | 1 | 2 | 3 |
词语 | 亿元 | 一元 | 医院 |
分值 | 40 | 60 | 100 |
分值差 | -20 | -60 |
由上述表6所述的结果,最大分值差为-20,最小分值差为-60,在本实施例中选取中间值-40为该热词的激励值,预设阈值设为识别结果中最大的分值差-20。需要选取激励值的绝对值40对热词所在路径1的分值进行正向激励,结果为80;选取激励值对混淆词所在路径2和3的分值进行反向激励,结果为20和60。激励后的具体分值情况如下述表7所示。
表7
路径 | 1 | 2 | 3 |
词语 | 亿元 | 一元 | 医院 |
分值 | 80 | 20 | 60 |
由上表可见,通过正向激励和反向激励处理后,热词所在路径1的得分明显高于其他混淆词所在路径的分值,使该热词所在路径处于最优路径中,增大了该热词的输出概率。其中激励值和预设阈值的选取用户可以根据自身需要进行设置,在此不作具体限定。
本实施例通过正向激励和反向激励的方式拉大所述热词和混淆词所在路径的分值差距,使热词所在路径处于最优路径,提高热词的输出概率,同时提高了语音识别的效率。
在本发明的另一实施例中,获取所述热词语音的文本数据;从所述文本数据中提取热词,基于语音字典,确定所述热词的混淆词;根据所述热词语音的文本数据以及所述混淆词,得到所述混淆语音的文本数据;根据所述混淆语音的文本数据以及所述热词语音的文本数据,得到多条语音;基于所述混淆语音的文本数据以及所述热词语音的文本数据,通过模拟多个说话人和多个音色的方式实现语音合成,得到与所述热词语音相关的多条语音。
具体地,文本数据可以为客服领域的文本数据,也可以为其他领域的文本数据。文本数据的具体获取方式可以从租户文本机器人那获取,也可以从网上下载客服领域的文本数据。
热词可以是指某个时间段经常出现的一些实体词,实体词是指旧称名词与代词,如亿元、一元、医院等均为实体词,混淆词是指实体词的同音词或相似音词,若实体词为亿元,那么一元和医院则是实体词亿元的混淆词。其中混淆词的数量用户可以根据实际需求进行设定,在此不作具体限定。
在语音识别中,语音词典是指发音字典,在中文中指拼音与汉字的对应,英文中指音标与单词的对应,其目的是根据声学模型识别出来的音素,来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。
语音合成(Text To Speech),是将一段文本转化成语音信号。在人工智能的体系中衔接了自然语言处理与语音技术,在智能音箱、智能语音客服等语音相关场景中起着非常关键的作用。在本实施例中是采用现有技术中的深度神经网络语音合成模型,在此不再赘述。其中模拟多个的说话人和多个音色对获取的文本数据进行语音的合成,不同说话人可以分别指男人、女人、老人和小孩等,由于每个人的音色不同,当采用不同的说话人时,他们的音色也是不同的。其中说话人的人数、年龄层次和性别等,用户可以根据自身实际需要进行设置,在此不作具体限定。
在本实施例中,获取到热词语音的文本数据,提取出文本数据中的热词,即实体词,然后通过语音字典找出与该实体词对应的同音词或相似音词,即混淆词,然后将这些混淆词依次替换掉热词语音的文本数据中的热词,生成包含混淆词的文本数据,最后通过语音合成的方式将这些热词文本数据和混淆词的文本数据合成多条不同的语音。
举例说明,假设获取的热词语音的文本数据为短语S1亿元补贴,提取文本数据中的实体词为亿元,其中从语音字典中获取的混淆词可以为一元、医院,将所述混淆词替换掉实体词构成的文本数据分别为:短语S2一元补贴和短语S3医院补贴,这样总共构成了三个短语S1亿元补贴、S2一元补贴和S3医院补贴,然后基于语音合成模型,例如采用5个人进行语音合成,其中5个人分别为A、B、C、D和E,且五个人的音色不同,年龄层次不同,对构成的每个短语进行语音合成,对于短语S1亿元补贴形成的语音分别为:SA1、SB1、SC1、SD1和SE1;对于短语S2一元补贴形成语音分别为:SA2、SB2、SC2、SD2和SE2;对于短语S3医院补贴形成的语音分别是SA3、SB3、SC3、SD3和SE3,这样,经过语音合成总共合成了15条语音音频。
本实施例中通过获取热词语音的文本数据,基于语音字典找出热词的混淆词,将混淆词替换掉热词文本数据中的热词,形成混淆语音的文本数据,再根据热词的文本数据和混淆词的文本数据形成多条语音,扩充了热词短语,使热词覆盖更全面,能够提高语音识别的准确率。
在本发明的另一个实施例中,在所述从所述文本数据中提取热词,基于语音字典,确定所述热词的混淆词的步骤之前,包括:对所述热词语音的文本数据进行清洗。
具体地,数据清洗是指去除无效的数据或整理成规整的格式等。其中,文本数据的清洗方式有很多种,在本实施例中优选的是正则清洗文本数据,去除噪声的干扰,正则清洗文本数据是较为成熟的清洗方法,在此不再赘述。
本实施例通过对文本数据进行清洗和降噪,能够提高文本数据的质量,提高语音识别的准确性。
在本发明的又一个实施例中,所述根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值,包括:根据所述热词语音的语音识别结果,得到所述热词语音中的热词的分值;根据所述混淆语音的语音识别结果,得到所述混淆语音中的混淆词的分值;根据所述热词的分值与所述混淆词的分值,得到所述热词与所述混淆词的分值差;根据所述热词与所述混淆词的分值差,确定所述热词语音中的热词的激励值。
具体地,语音识别结果是基于语音识别系统输出的结果。其中热词语音的语音识别结果是指热词语音经过语音识别系统后得到的热词的分值;混淆语音的语音识别结果是指混淆语音经过语音识别系统语音识别处理后得到的混淆词的分值,其中语音识别具体步骤可以参见上述实施例。
本实施例中通过根据热词语音识别结果中热词的分值和混淆语音识别结果中混淆词的分值,计算获取得到热词的分值差来确定所述热词的激励值,解决了现有技术中根据经验设置激励值的问题,提高了语音识别的准确率。
图2为本发明实施例热词语音识别装置的结构示意图,如图2所示,本发明实施例中提供一种热词语音识别装置,包括:第一获取模块201,用于获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似音词;处理模块202,用于基于语音识别系统对所述多条待处理语音进行语音识别处理;计算模块203,用于根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差;第二获取模块204,用于获取所述热词语音中的热词的激励值;激励模块205,用于当确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励。
其中,所述激励模块包括第一激励模块和第二激励模块,其中:
第一激励模块,用于当确认所述热词的激励值小于或等于预设阈值时,对所述热词所在路径的分值进行正向激励;
第二激励模块,用于当确认所述热词的激励值小于或等于预设阈值时,对所述混淆词所在路径的分值进行反向激励。
本发明实施例提供的热词语音识别装置,通过第一获取模块用来获取多条待处理语音,处理模块对获取的多条语音进行语音识别处理,计算模块根据获取的热词语音的语音识别处理结果和混淆语音的语音识别结果,计算获取分值差,第二获取模块获取热词语音中的热词的激励值。本发明提供的热词语音识别装置提高了语音识别的准确率和识别效率,避免了误激励情况的发生。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,本发明提供一种电子设备,包括:处理器(processor)301、存储器(memory)302和总线303;
其中,处理器301、存储器302通过总线303完成相互间的通信;处理器301用于调用存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似音词;基于语音识别系统对所述多条待处理语音进行语音识别处理,根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值;确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似音词;基于语音识别系统对所述多条待处理语音进行语音识别处理,根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值;确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种热词语音识别方法,其特征在于,包括:
获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似音词;
基于语音识别系统对所述多条待处理语音进行语音识别处理,根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值;其中,所述激励值是根据获取的所述热词和混淆词的分值差进行确认的;
确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励;其中,所述激励是指对所述热词所在路径的分值进行加分和/或对所述混淆词所在路径的分值进行减分。
2.根据权利要求1所述的方法,其特征在于,还包括:
确认所述热词的激励值小于或等于预设阈值时,对所述热词所在路径的分值进行正向激励。
3.根据权利要求2所述的方法,其特征在于,还包括;
确认所述热词的激励值小于或等于预设阈值时,对所述混淆词所在路径的分值进行反向激励。
4.根据权利要求1或2所述的方法,其特征在于,所述获取多条待处理语音,包括:
获取所述热词语音的文本数据;
从所述文本数据中提取热词,基于语音字典,确定所述热词的混淆词;
根据所述热词语音的文本数据以及所述混淆词,得到所述混淆语音的文本数据;
根据所述混淆语音的文本数据以及所述热词语音的文本数据,得到多条语音。
5.根据权利要求4所述的方法,其特征在于,所述根据所述混淆语音的文本数据以及所述热词语音的文本数据,得到多条语音,包括:
基于所述混淆语音的文本数据以及所述热词语音的文本数据,通过模拟多个说话人和多个音色的方式实现语音合成,得到与所述热词语音相关的多条语音。
6.根据权利要求4所述的方法,其特征在于,在所述从所述文本数据中提取热词,基于语音字典,确定所述热词的混淆词的步骤之前,包括:
对所述热词语音的文本数据进行清洗。
7.根据权利要求1所述的方法,其特征在于,所述根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差,获取所述热词语音中的热词的激励值,包括:
根据所述热词语音的语音识别结果,得到所述热词语音中的热词的分值;
根据所述混淆语音的语音识别结果,得到所述混淆语音中的混淆词的分值;
根据所述热词的分值与所述混淆词的分值,得到所述热词与所述混淆词的分值差;
根据所述热词与所述混淆词的分值差,确定所述热词语音中的热词的激励值。
8.一种热词语音识别装置,其特征在于,包括:
第一获取模块,用于获取多条待处理语音;所述多条待处理语音包括热词语音,以及将所述热词语音中的热词替换为混淆词的混淆语音;其中所述混淆词为所述热词的同音词或相似词;
处理模块,用于基于语音识别系统对所述多条待处理语音进行语音识别处理;
计算模块,用于根据所述热词语音的语音识别结果与所述混淆语音的语音识别结果计算分值差;
第二获取模块,用于获取所述热词语音中的热词的激励值;其中,所述激励值是根据获取的所述热词和混淆词的分值差进行确认的;
激励模块,用于当确认所述热词的激励值大于预设阈值时,无需对所述热词所在路径的分值进行激励;其中,所述激励是指对所述热词所在路径的分值进行加分和/或对所述混淆词所在路径的分值进行减分。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7中任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110293484.3A CN112700764B (zh) | 2021-03-19 | 2021-03-19 | 热词语音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110293484.3A CN112700764B (zh) | 2021-03-19 | 2021-03-19 | 热词语音识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112700764A CN112700764A (zh) | 2021-04-23 |
CN112700764B true CN112700764B (zh) | 2021-06-08 |
Family
ID=75515269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110293484.3A Active CN112700764B (zh) | 2021-03-19 | 2021-03-19 | 热词语音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700764B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114512124B (zh) * | 2022-03-28 | 2022-07-26 | 北京沃丰时代数据科技有限公司 | 端到端语音识别方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049434B (zh) * | 2012-12-12 | 2016-08-17 | 北京海量融通软件技术有限公司 | 一种变形词证认系统及证认方法 |
JP6193736B2 (ja) * | 2013-11-15 | 2017-09-06 | 日本電信電話株式会社 | 同音異義語除去方法と複合語除去方法と同音異義語・複合語除去方法とそれらの装置とプログラム |
US9928840B2 (en) * | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
CN109740053B (zh) * | 2018-12-26 | 2021-03-05 | 广州灵聚信息科技有限公司 | 基于nlp技术的敏感词屏蔽方法和装置 |
CN111145756B (zh) * | 2019-12-26 | 2022-06-14 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
-
2021
- 2021-03-19 CN CN202110293484.3A patent/CN112700764B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112700764A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
EP2940684B1 (en) | Voice recognizing method and system for personalized user information | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
JPWO2007055181A1 (ja) | 対話支援装置 | |
CN105118501A (zh) | 语音识别的方法及系统 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
CN111883137A (zh) | 基于语音识别的文本处理方法及装置 | |
CN114360557A (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN112908317B (zh) | 一种针对认知障碍的语音识别系统 | |
CN112700764B (zh) | 热词语音识别方法、装置、电子设备及存储介质 | |
JP2000200273A (ja) | 発話意図認識装置 | |
JP2019101065A (ja) | 音声対話装置、音声対話方法及びプログラム | |
CN113793599A (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
JP2871557B2 (ja) | 音声認識装置 | |
CN111833869B (zh) | 一种应用于城市大脑的语音交互方法及系统 | |
JPH10247194A (ja) | 自動通訳装置 | |
CN113160828A (zh) | 智能辅助机器人交互方法、系统、电子设备及存储介质 | |
KR20200111595A (ko) | 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법 | |
EP1554864B1 (en) | Directory assistant method and apparatus | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP3009654B1 (ja) | 機械翻訳処理装置 | |
US8635071B2 (en) | Apparatus, medium, and method for generating record sentence for corpus and apparatus, medium, and method for building corpus using the same | |
Deng et al. | Recent Progress of Mandrain Spontaneous Speech Recognition on Mandrain Conversation Dialogue Corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |