CN112992151B - 语音识别方法、系统、设备和可读存储介质 - Google Patents
语音识别方法、系统、设备和可读存储介质 Download PDFInfo
- Publication number
- CN112992151B CN112992151B CN202110274630.8A CN202110274630A CN112992151B CN 112992151 B CN112992151 B CN 112992151B CN 202110274630 A CN202110274630 A CN 202110274630A CN 112992151 B CN112992151 B CN 112992151B
- Authority
- CN
- China
- Prior art keywords
- voice
- transcription
- target
- recognized
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013518 transcription Methods 0.000 claims abstract description 173
- 230000035897 transcription Effects 0.000 claims abstract description 173
- 238000004378 air conditioning Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 13
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001680 brushing effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音处理,提供了一种语音识别方法,所述方法包括:接收待识别语音;对所述待识别语音进行语音转写操作,以得到目标语音转写结果;根据所述待识别语音获取所述目标语音转写结果的转写置信度;判断所述转写置信度是否大于目标预设阈值;及如果所述目标语音转写结果的转写置信度大于所述目标预设阈值,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图。本发明解决了用户表达不清以及环境噪音干扰的问题;提高了语音识别的准确率和识别效率。
Description
技术领域
本发明实施例涉及语音处理领域,尤其涉及一种语音识别方法、系统、设备及可读存储介质。
背景技术
语音识别技术是一种综合性的技术,它涉及到多个学科领域,如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。目前,语音识别系统通常采用基于统计模型的识别技术,典型的基于统计模型的语音识别系统主要包括几个模块:信号处理及特征提取模块,统计声学模型模块,语言模型模块,解码器模块。
在智能客服的场景中,语音识别系统需要对客户的语音做文字转写,但是智能客服场景十分复杂,应用语音识别系统时会存在以下几个问题:第一,客户在通话时,客户往往会存在意思表达不清楚、口齿不清、普通话不标准会带口音等问题;第二,客户的通话环境存在嘈杂声、通话设备出现噪音等问题。这对于语音识别来说都是极大的挑战,将客户说的听不懂的语音转写成毫不相关的文字,或者将噪音转写成了不相关的文字。因此,如何在复杂的智能客服场景中提高语音识别的准确率,从而进一步的提高语音识别的效率,成为了当前急需解决的问题。
发明内容
有鉴于此,有必要提供一种语音识别方法、系统、设备及可读存储介质,以解决复杂的智能客服场景中语音识别的准确率低以及语音识别效率低的问题。
为实现上述目的,本发明实施例提供了一种语音识别方法,所述方法步骤包括:
接收待识别语音;
对所述待识别语音进行语音转写操作,以得到目标语音转写结果;
根据所述待识别语音获取所述目标语音转写结果的转写置信度;
判断所述转写置信度是否大于目标预设阈值;及
如果所述目标语音转写结果的转写置信度大于所述目标预设阈值,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图。
示例性的,所述对所述待识别语音进行语音转写操作,以得到目标语音转写结果的步骤,包括:
对所述待识别语音进行转写操作,以得到多个语音转写结果;及
从所述多个语音转写结果选择其中一个语音转写结果作为所述目标语音转写结果,以得到目标语音转写结果。
示例性的,所述从所述多个语音转写结果选择其中一个语音转写结果作为所述目标语音转写结果的步骤,包括:
计算每个语音转写结果与所述待识别语音之间匹配度;及
将所述多个语音转写结果中与所述待识别语音匹配度最高的语音转写结果作为所述目标语音转写结果。
示例性的,所述根据所述待识别语音获取所述目标语音转写结果的转写置信度的步骤,包括:
获取所述待识别语音的语音时长;
判断所述语音时长是否小于第一预设时长;
如果所述语音时长大于或等于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别;及
如果所述语音时长小于所述第一预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
示例性的,所述根据所述待识别语音获取所述目标语音转写结果的转写置信度的步骤,还包括:
判断所述语音时长是否小于第二预设时长,其中,所述第二预设时长小于所述第一预设时长;
如果所述语音时长小于所述第一预设时长且大于所述第二预设时长,则将所述转写置信度配置为目标置信度,其中,所述目标置信度小于目标预设阈值;及
如果所述语音时长小于或等于所述第二预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
示例性的,所述判断所述转写置信度是否大于目标预设阈值的步骤之后,还包括:
如果所述目标语音转写结果的转写置信度小于或等于所述目标预设阈值,则判断所述语音时长是否大于第三预设时长,其中,所述第三预设时长小于所述第一预设时长,且大于所述第二预设时长;
若所述语音时长大于或等于第三预设时长且小于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图,并为所述目标语音意图配置低置信度标签;及
若所述待识别语音小于第三预设时长,则显示所述目标语音转写结果,并将所述待识别语音作为空白语音处理。
示例性的,还包括:将所述转写置信度上传到区块链。
为实现上述目的,本发明实施例还提供了一种语音识别系统,包括:
接收模块,用于接收待识别语音;
识别模块,用于对所述待识别语音进行语音转写操作,以得到目标语音转写结果;
获取模块,用于根据所述待识别语音获取所述目标语音转写结果的转写置信度;
判断模块,用于判断所述转写置信度是否大于目标预设阈值;及
得到模块,用于如果所述目标语音转写结果的转写置信度大于所述目标预设阈值,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的语音识别方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的语音识别方法的步骤。
本发明实施例提供的语音识别方法、系统、计算机设备及计算机可读存储介质,通过对所述待识别语音的目标语音转写结果进行置信度识别,刷选出需要识别语音意图的待识别语音,解决了因用户表达不清或环境噪音干扰而导致语音识别效果差的问题,提高了语音识别的准确率和识别效率。
附图说明
图1为本发明实施例语音识别方法的流程示意图;
图2为本发明语音识别系统实施例二的程序模块示意图;
图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
参阅图1,示出了本发明实施例之语音识别方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。本实施例中的语音识别系统可以被执行在计算机设备2中,下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,接收待识别语音。
所述待识别语音可以是计算机设备2实时获取的。如在智能客服的场景中,语音识别系统可以实时获取所述智能客服所服务的服务对象(目标客户)的通话语音。所述待识别语音可以所述目标客户的第N句语音,所述待识别语音还可以一个语音片段。
步骤S102,对所述待识别语音进行语音转写操作,以得到目标语音转写结果。
所述语音识别系统可以是基于ASR(Automatic Speech Recognition,自动语音识别)技术构建的识别系统。所述语音识别系统可以用于将人类的语音中的词汇内容转换为计算机可读的文本(目标语音转写结果)。其中,语音识别技术是一种综合性的技术,它涉及到多个学科领域,如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等。主流的语音识别系统中通常采用基于统计模型的识别技术,典型的基于统计模型的语音识别系统通常有如下几个基本组成模块:信号处理及特征提取模块,统计声学模型,语言模型,解码器。
在示例性的实施例中,所述步骤S102还可以进一步的包括步骤S200~步骤S202,其中:步骤S200,对所述待识别语音进行转写操作,以得到多个语音转写结果;及步骤S202,从所述多个语音转写结果选择其中一个语音转写结果作为所述目标语音转写结果,以得到目标语音转写结果。
在示例性的实施例中,所述语音识别还包括转写操作,所述转写操作用于将语音数据转写为文本数据。所述步骤S200还可以进一步的包括:步骤S202a,计算每个语音转写结果与所述待识别语音之间匹配度;及步骤S202b,将所述多个语音转写结果中与所述待识别语音匹配度最高的语音转写结果作为所述目标语音转写结果。
对所述待识别语音进行语音识别时,所述计算机设备2可以对所述待识别语音进行转写,以得到多个语音转写结果,所述目标语音转写结果为所述多个语音转写结果中与所述待识别语音匹配度最高的转写结果(即ASR输出的最优结果)。
其中,根据计算每个语音转写结果w和所述待识别语音之间的匹配度,将与所述待识别语音匹配度最高的语音转写结果作为所述目标语音转写结果
通过贝叶斯公式可以将p(w|x)转换为p(x|w)p(w)进行计算其中,p(x|w)表示声学模型;p(w)表示语言模型;p(x)表示声学特征概率,对于不同的w该量是常值,在计算/>时可以忽略。本实施例通过从所述多个语音转写结果中获取与所述待识别语音匹配度最高的目标语音转写结果,提高了语音识别的转写正确率。
步骤S104,根据所述待识别语音获取所述目标语音转写结果的转写置信度。
在示例性的实施例中,所述步骤S104还可以进一步的包括步骤S300~步骤S304,其中:步骤S300,获取所述待识别语音的语音时长;步骤S302,判断所述语音时长是否小于第一预设时长;步骤S304,如果所述语音时长大于或等于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别;及步骤S306,如果所述语音时长小于所述第一预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
在一些实际应用场景中,如在智能客服的场景中,需要考虑到应用置信度算法的时延。可以理解,待识别语音的时间越长,计算机设备2将所述待识别语音的转写成对应的文字越长,(即,待识别语音的时间越长,时延越高)。
为了提高智能客服的反应速度,计算机设备2可以只对语音时长不超过于是值的待识别语音进行转写置信度的计算。例如,计算机设备2可以预先设定所述第一预设时长,以所述第一预设时长为X秒为例:
在计算机设备2获取到所述待识别语音的语音时长时,计算机设备2判断所述语音时长是否小于X秒;若所述语音时长不小于X秒,则将大于X秒的所述待识别语音对应的目标语音转写结果是置信度结果设置为填写为空,并将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别。若所述语音时长小于X秒,则可以对所述目标语音转写结果做置信度识别。其中,所述X秒可以是1秒。
示例性的,识别所述目标语音转写结果的置信度可以通过将代入到P(x|H)和P(H),以得到/>和/>其中,H代表任何假设。
对于p(x),其全概率公式可以如下:
其中,可以通过Nbest的极大似然方法,以得到p(x),进而得到p(w|x)的值(所述目标语音转写结果的置信度的数值)。
在示例性的实施例中,所述步骤S306还可以进一步的包括步骤S400~步骤S404,其中:步骤S400,判断所述语音时长是否小于第二预设时长,其中,所述第二预设时长小于所述第一预设时长;步骤S402,如果所述语音时长小于所述第一预设时长且大于所述第二预设时长,则将所述转写置信度配置为目标置信度,其中,所述目标置信度小于目标预设阈值;及步骤S404,如果所述语音时长小于或等于所述第二预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
在智能客服的场景中,为了进一步的提高智能客服的服务效率,本实施例在对所述语音时长小于X秒所对应的目标语音转写结果进行置信度识别之前,还可以根据所述目标语音转写结果的语音时长判断是否需要进行筛选。例如,计算机设备2可以预先设定第二预设时长,以所述第二预设时长是Y秒为例:如果所述语音时长大于Y秒,则不再继续计算置信度,直接输出目标语音转写结果,将置信度的结果填写为-1;如果所述语音时长不大于Y秒,则输出目标语音转写结果,将置信度的结果正常输出,置信度的结果在0到1之间。其中,Y秒可以是0.5秒。
步骤S106,判断所述转写置信度是否大于目标预设阈值。
计算机设备2还可以根据所述转写置信度判断对应的待识别语音是否需要进行意图识别,以进一步的提高智能客服的服务效率。
步骤S108,如果所述目标语音转写结果的转写置信度大于所述目标预设阈值,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图。
示例性的,预先设定目标预设阈值,以所述目标预设阈值是A为例:如果置信度结果大于A,则表示客户说的语音片段更加清晰,噪音更少,ASR的转写结果的准确率更高,可直接利用ASR的目标语音转写结果;如果置信度结果不大于A,则表示客户说的语音片段相较更加不清楚,噪音更多,ASR的转写结果的准确率更差,不能直接利用ASR的目标语音转写结果。其中,A可以是0.5。
在示例性的实施例中,所述步骤S108还可以进一步的包括步骤S500~步骤S504,其中:步骤S500,如果所述目标语音转写结果的转写置信度小于或等于所述目标预设阈值,则判断所述语音时长是否大于第三预设时长,其中,所述第三预设时长小于所述第一预设时长,且大于所述第二预设时长;步骤S502,若所述语音时长大于或等于第三预设时长且小于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图,并为所述目标语音意图配置低置信度标签;及步骤S504,若所述待识别语音小于第三预设时长,则显示所述目标语音转写结果,并将所述待识别语音作为空白语音处理。
当所述转写置信度不大于A的情况下,可以根据语音时长再去区分开客户说的听不懂和噪音情况。
示例性的,计算机设备2还可以预先设定第三预设时长,以所述第二预设时长是Z秒为例:如果语音时长大于Z秒,则打上“ASR置信度低”的客户意图,对客户的语音做回复处理:目的是让客户接下来的声音更清晰一些;如果语音时长不大于Z秒,则将目标语音转写结果当做空白处理。其中,Z秒可以选做0.6秒。
示例性的,本实施例通过对所述待识别语音的目标语音转写结果进行置信度识别,并根据所述待识别语音的语音时长,刷选出需要识别语音意图的待识别语音,解决了因用户表达不清或以及环境噪音干扰而导致语音识别效果差的问题,提高了语音识别的准确率和识别效率。在实际应用场景中,例如在智能客服场景中,本实施例通过对所述待识别语音的目标语音转写结果进行置信度识别,并根据所述待识别语音的语音时长,刷选出需要识别语音意图的待识别语音解决了智能客服“听不懂”客户语音的情形;通过对客户进行异议回复,使得客户的回复更加清晰,使得客户的满意度更高。
示例性的,所述语音识别方法还包括:将所述转写置信度上传到区块链。
示例性的,将所述目标表格结构和所述目标表格文档上传至区块链可保证其安全性和公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
图2为本发明语音识别系统实施例二的程序模块示意图。语音识别系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述语音识别方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述语音识别系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于接收待识别语音。
识别模块202,用于对所述待识别语音进行语音转写操作,以得到目标语音转写结果。
示例性的,所述识别模块202,还用于:对所述待识别语音进行转写操作,以得到多个语音转写结果;及从所述多个语音转写结果选择其中一个语音转写结果作为所述目标语音转写结果,以得到目标语音转写结果。
示例性的,所述识别模块202,还用于:计算每个语音转写结果与所述待识别语音之间匹配度;及将所述多个语音转写结果中与所述待识别语音匹配度最高的语音转写结果作为所述目标语音转写结果。
获取模块204,用于根据所述待识别语音获取所述目标语音转写结果的转写置信度。
示例性的,所述获取模块204,还用于:获取所述待识别语音的语音时长;判断所述语音时长是否小于第一预设时长;如果所述语音时长大于或等于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别;及如果所述语音时长小于所述第一预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
示例性的,所述获取模块204,还用于:判断所述语音时长是否小于第二预设时长,其中,所述第二预设时长小于所述第一预设时长;如果所述语音时长小于所述第一预设时长且大于所述第二预设时长,则将所述转写置信度配置为目标置信度,其中,所述目标置信度小于目标预设阈值;及如果所述语音时长小于或等于所述第二预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
判断模块206,用于判断所述转写置信度是否大于目标预设阈值。
示例性的,所述判断模块206,还用于:如果所述目标语音转写结果的转写置信度小于或等于所述目标预设阈值,则判断所述待识别语音是否大于第三预设时长,其中,所述第三预设时长小于所述第一预设时长,且大于所述第二预设时长;若所述语音时长大于或等于第三预设时长且小于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图,并为所述目标语音意图配置低置信度标签;及若所述语音时长小于第三预设时长,则显示所述目标语音转写结果,并将所述待识别语音作为空白语音处理。
得到模块208,用于如果所述目标语音转写结果的转写置信度大于所述目标预设阈值,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图。
示例性的,所述语音识别系统20还包括,上传模块,所述上传模块,用于将所述转写置信度上传到区块链中。
实施例三
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及语音识别系统20。
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的语音识别系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行语音识别系统20,以实现实施例一的语音识别方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将计算机设备2与外部终端相连,在计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communicatI/On,GSM)、宽带码分多址(Wideband CodeDivisI/On Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的语音识别系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图2示出了本发明实施例二之所述实现语音识别系统20的程序模块示意图,该实施例中,所述语音识别系统20可以被划分为接收模块200、识别模块202、获取模块204、判断模块206和填得到模块208。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述语音识别系统20在计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于语音识别系统20,被处理器执行时实现实施例一的语音识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种语音识别方法,其特征在于,所述方法包括:
接收待识别语音;
对所述待识别语音进行语音转写操作,以得到目标语音转写结果;
根据所述待识别语音获取所述目标语音转写结果的转写置信度;
判断所述转写置信度是否大于目标预设阈值;及
如果所述目标语音转写结果的转写置信度大于所述目标预设阈值,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图;
其中,所述根据所述待识别语音获取所述目标语音转写结果的转写置信度的步骤,包括:
获取所述待识别语音的语音时长;
判断所述语音时长是否小于第一预设时长;
如果所述语音时长大于或等于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别;及
如果所述语音时长小于所述第一预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
2.如权利要求1所述的语音识别方法,其特征在于,所述对所述待识别语音进行语音转写操作,以得到目标语音转写结果的步骤,包括:
对所述待识别语音进行转写操作,以得到多个语音转写结果;及
从所述多个语音转写结果选择其中一个语音转写结果作为所述目标语音转写结果,以得到目标语音转写结果。
3.如权利要求2所述的语音识别方法,其特征在于,所述从所述多个语音转写结果选择其中一个语音转写结果作为所述目标语音转写结果的步骤,包括:
计算每个语音转写结果与所述待识别语音之间匹配度;及
将所述多个语音转写结果中与所述待识别语音匹配度最高的语音转写结果作为所述目标语音转写结果。
4.如权利要求1所述的语音识别方法,其特征在于,还包括:将所述转写置信度上传到区块链。
5.一种语音识别系统,其特征在于,包括:
接收模块,用于接收待识别语音;
识别模块,用于对所述待识别语音进行语音转写操作,以得到目标语音转写结果;
获取模块,用于根据所述待识别语音获取所述目标语音转写结果的转写置信度;
判断模块,用于判断所述转写置信度是否大于目标预设阈值;及
得到模块,用于如果所述目标语音转写结果的转写置信度大于所述目标预设阈值,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别,以得到所述待识别语音对应的目标语音意图;
其中,所述获取模块,还用于:
获取所述待识别语音的语音时长;
判断所述语音时长是否小于第一预设时长;
如果所述语音时长大于或等于所述第一预设时长,则将所述目标语音转写结果输入到语音意图识别模型中进行语音意图识别;及
如果所述语音时长小于所述第一预设时长,则根据所述待识别语音获取所述目标语音转写结果的转写置信度。
6.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语音识别方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至4中任一项所述的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110274630.8A CN112992151B (zh) | 2021-03-15 | 2021-03-15 | 语音识别方法、系统、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110274630.8A CN112992151B (zh) | 2021-03-15 | 2021-03-15 | 语音识别方法、系统、设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112992151A CN112992151A (zh) | 2021-06-18 |
CN112992151B true CN112992151B (zh) | 2023-11-07 |
Family
ID=76335470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110274630.8A Active CN112992151B (zh) | 2021-03-15 | 2021-03-15 | 语音识别方法、系统、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992151B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707152A (zh) * | 2021-08-27 | 2021-11-26 | 上海哔哩哔哩科技有限公司 | 语音识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097886A (zh) * | 2019-04-29 | 2019-08-06 | 贵州小爱机器人科技有限公司 | 意图识别方法及装置、存储介质、终端 |
CN110162775A (zh) * | 2019-03-11 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 确定意图识别准确度的方法、装置及计算机设备 |
CN110491383A (zh) * | 2019-09-25 | 2019-11-22 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN112309372A (zh) * | 2020-10-28 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于语调的意图识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210026962A (ko) * | 2019-09-02 | 2021-03-10 | 삼성전자주식회사 | 보이스 어시스턴트 서비스를 제공하는 장치 및 방법 |
-
2021
- 2021-03-15 CN CN202110274630.8A patent/CN112992151B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162775A (zh) * | 2019-03-11 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 确定意图识别准确度的方法、装置及计算机设备 |
CN110097886A (zh) * | 2019-04-29 | 2019-08-06 | 贵州小爱机器人科技有限公司 | 意图识别方法及装置、存储介质、终端 |
CN110491383A (zh) * | 2019-09-25 | 2019-11-22 | 北京声智科技有限公司 | 一种语音交互方法、装置、系统、存储介质及处理器 |
CN112309372A (zh) * | 2020-10-28 | 2021-02-02 | 平安科技(深圳)有限公司 | 基于语调的意图识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112992151A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10438586B2 (en) | Voice dialog device and voice dialog method | |
EP3451328B1 (en) | Method and apparatus for verifying information | |
KR101963993B1 (ko) | 동적 패스워드 음성에 기반한 자체 학습 기능을 구비한 신분 인증 시스템 및 방법 | |
CN108447471B (zh) | 语音识别方法及语音识别装置 | |
US20180204562A1 (en) | Method and device for image recognition | |
CN109993150B (zh) | 用于识别年龄的方法和装置 | |
CN111858892B (zh) | 基于知识图谱的语音交互方法、装置、设备及介质 | |
CN112562691A (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
CN111694938B (zh) | 基于情绪识别的答复方法、装置、计算机设备及存储介质 | |
CN111276119B (zh) | 语音生成方法、系统和计算机设备 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN112699871B (zh) | 字段内容识别方法、系统、设备及计算机可读存储介质 | |
CN112992151B (zh) | 语音识别方法、系统、设备和可读存储介质 | |
CN112256827A (zh) | 一种手语翻译方法、装置、计算机设备及存储介质 | |
CN112951215B (zh) | 语音的智能客服回答方法、装置以及计算机设备 | |
CN113837075A (zh) | 基于人脸识别的业务办理方法、装置、电子设备及介质 | |
CN110750637B (zh) | 文本摘要提取方法、装置、计算机设备及存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN113743129B (zh) | 基于神经网络的信息推送方法、系统、设备及介质 | |
CN112071331B (zh) | 语音文件修复方法、装置、计算机设备及存储介质 | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 | |
CN112712793A (zh) | 语音交互下基于预训练模型的asr纠错方法及相关设备 | |
CN111968632A (zh) | 通话语音获取方法、装置、计算机设备和存储介质 | |
CN113158692B (zh) | 基于语义识别的多意图处理方法、系统、设备及存储介质 | |
CN113779237B (zh) | 构建社交行为序列图的方法、系统、移动终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |