CN115312059A - 基于自动机的前缀树处理语音信号的方法、装置和设备 - Google Patents
基于自动机的前缀树处理语音信号的方法、装置和设备 Download PDFInfo
- Publication number
- CN115312059A CN115312059A CN202210720359.0A CN202210720359A CN115312059A CN 115312059 A CN115312059 A CN 115312059A CN 202210720359 A CN202210720359 A CN 202210720359A CN 115312059 A CN115312059 A CN 115312059A
- Authority
- CN
- China
- Prior art keywords
- automaton
- characters
- prefix tree
- candidate
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000007704 transition Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000013136 deep learning model Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语音信号识别领域,提供一种基于自动机的前缀树处理语音信号的方法,包括:实时获取待识别的语音信号,对该语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树对多个候选字符的预测概率处理,得到多个候选字符的目标概率,以此方式可以优化候选字符的预测概率,这样根据多个候选字符的目标概率,可以快速准备的确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
Description
技术领域
本发明属于语音信号识别领域,更具体地涉及一种基于自动机的前缀树处理语音信号的方法、装置和计算机设备。
背景技术
随着互联网的快速发展,深度学习模型越来越受有用户喜爱,该深度学习模型可以用于识别用户的语音信号。目前,大规模数据下训练的深度学习模型可以在线上执行一些识别语音信号的任务。但是,随着深度学习模型效果的提升,随之带来了一些使用上的不便。通常情况下,深度学习模型需要基于大量语料、文本训练,导致迭代周期较长。且对于特定场景下词语在训练语料中出现次数不多,常常拟合不好。这样导致通过深度学习模型识别包含特定场景词语的语音信号时,得到的文本数据准备度较低,降低用户体验。
因此,有必要提供一种基于自动机的前缀树处理语音信号的方法,以解决上述问题。
发明内容
(一)要解决的技术问题
本发明旨在解决在识别语音信号的过程中对于特定场景下词语在训练语料中出现次数不多,常常拟合不好,导致通过深度学习模型识别包含特定场景词语的语音信号时,得到的文本数据准备度较低的问题。
(二)技术方案
为解决上述技术问题,本发明的一方面提出一种基于自动机的前缀树处理语音信号的方法,包括:实时获取待识别的语音信号;对所述语音信号进行识别,得到多个候选字符的预测概率;通过自动机的前缀树对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率;根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
根据本发明的优选实施方式,对所述语音信号进行识别,得到多个所述候选字符的预测概率包括:通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列;根据所述音素特征序列,确定多个所述候选字符的预测概率。
根据本发明的优选实施方式,通过自动机的前缀树对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率包括:基于各个所述候选字符,遍历所述自动机的前缀树中每个节点,获取各个所述候选字符的权重;根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率。
根据本发明的优选实施方式,根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率包括:基于各个所述候选字符的权重,对各个所述候选字符的预测概率进行加权处理,得到各个所述候选字符的目标概率。
根据本发明的优选实施方式,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据包括:基于各个所述候选字符的目标概率与预设阈值进行比较;当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符;根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
根据本发明的优选实施方式,该方法还包括:获取常规语料和特定语料;基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
根据本发明的优选实施方式,该方法还包括:实时获取新增语料;基于所述新增语料中的新增字符,遍历所述自动机的前缀树中每个节点的字符和转移状态,以添加新节点和新转移状态。
本发明第二方面提出了一种基于自动机的前缀树处理语音信号的装置,包括:第一获取模块,用于实时获取待识别的语音信号;识别模块,用于对所述语音信号进行识别,得到多个候选字符的预测概率;处理模块,用于通过自动机的前缀树对多个所述候选字符的预测概率进行处理,得到多个所述候选字符的目标概率;文本数据确定模块,用于根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
本发明第三方面提出一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行第一方面提供的方法。
本发明第四方面提出一种计算机程序产品,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现第一方面提供的方法。
(三)有益效果
与现有技术相比,本发明实时获取待识别的语音信号,对该语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树对多个候选字符的预测概率处理,得到多个候选字符的目标概率,以此方式可以优化候选字符的预测概率,这样根据多个候选字符的目标概率,可以快速准备的确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
附图说明
图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图;
图2是本发明的实施例的基于自动机的前缀树处理语音信号的方法的一示例的流程图;
图3是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图;
图4是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图;
图5是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图;
图6是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图;
图7是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图;
图8是本发明的实施例的基于自动机的前缀树处理语音信号的装置的一示例的示意图;
图9是本发明的实施例的基于自动机的前缀树处理语音信号的装置的一示例的示意图;
图10是本发明的实施例的基于自动机的前缀树处理语音信号的装置的一示例的示意图;
图11是本发明的一个实施例的计算机设备的结构示意图;
图12是本发明的一个实施例的计算机程序产品的示意图。
具体实施方式
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/ 步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括用户终端101、102、103中的一种或多种,网络104和服务器105。网络104用以在用户终端101、102、 103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的用户终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用用户终端101、102、103通过网络104与服务器105交互,以接收或发送消息等。用户终端101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如服务器105可以实时获取用户终端103(也可以是用户终端101或102)的获取待识别的语音信号,对该语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树对多个候选字符的预测概率处理,得到多个候选字符的目标概率,以此方式可以优化候选字符的预测概率,这样根据多个候选字符的目标概率,可以快速准备的确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
在一些实施例中,本发明实施例所提供的基于自动机的前缀树处理语音信号的方法一般由服务器105执行,相应地,基于自动机的前缀树处理语音信号的装置一般设置于服务器105中。在另一些实施例中,某些终端可以具有与服务器相似的功能从而执行本方法。因此,本发明实施例所提供的基于自动机的前缀树处理语音信号的方法不限定在服务器端执行。
图2是本发明的实施例的基于自动机的前缀树处理语音信号的方法的一示例的流程图。
如图2所示,基于自动机的前缀树处理语音信号的方法包括步骤 S210~步骤S240。
在步骤S210中,实时获取待识别的语音信号。
在步骤S220中,对所述语音信号进行识别,得到多个候选字符的预测概率。
在步骤S230中,通过自动机的前缀树对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率。
在步骤S240中,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
该方法可以实时获取待识别的语音信号,对该语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树对多个候选字符的预测概率处理,得到多个候选字符的目标概率,以此方式可以优化候选字符的预测概率,这样根据多个候选字符的目标概率,可以快速准备的确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
在本发明的一些实施例中,上述待识别的语音信号可以是实时线下录制的语音信号,也可以是实时线上录制的语音信号。例如,用户通过采集装置线下实时获取待识别的语音信号,并实时将获取的语音信号上传至后台服务器进行识别处理。再例如,用户通过直播软件的录制功能将直播时的语音信号实时录制,并实时将获取的语音信号上传至后台服务器进行识别处理。
在本发明的一些实施例中,对上述语音信号进行识别,得到多个候选字符的预测概率。例如,将实时获取的语音信号实时输入到端到端模型,通过该端到端模型中的特征提取算法,从语音信号的各帧语音数据中提取音素特征序列,对提取音素特征序列进行处理,得到多个候选字符的预测概率。
音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。比如,汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài) 有三个音素等。
音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定,用来统一标示各国语音的字母。也称为“国际语音学字母”、“万国语音学字母”)的音标符号与全人类语言的音素一一对应。
在本发明的一些实施例中,对提取音素特征序列进行处理,得到多个候选字符的预测概率。例如,根据音素特征序列中各音素特征,计算该音素特征对应候选字符的预测概率。
在本发明的一些实施例中,上述自动机的前缀树中包含多个节点和节点之间的转移状态。每个节点中存储有字符、字符的权重、以及转移状态。
在本发明的一些实施例中,基于常规语料和特定语料,构建自动机的前缀树中每个节点的字符和转移状态。其中,常规语料可以是业务场景中出现次数较多的字符,特定语料可以是特定业务场景中出现次数较少的字符。具体地,常规语料和特定语料可以根据实际需求确定两者字符的数量。另外,自动机的前缀树中节点的字符权重和转移状态可以根据实际情况进行设置。例如,节点的字符权重可以根据字符类型进行设置,如果该字符为常规字符,则该字符的权重可以设置空,空可以理解为常规字符的权重为零。如果该字符为特定字符,则该字符的权重可以根据业务需要进行设置,以便于后续基于该权重对预设概率进行加权,这样实现优化该字符的预测概率,进一步使得确定的文本数据更加准备。
在本发明的一些实施例中,上述多个候选字符的目标概率可以是基于自动机的前缀树中节点的字符的权重对该候选字符的预测概率进行加权处理后的得到的概率。
在本发明的一些实施例中,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。例如,基于各个所述候选字符的目标概率与预设阈值进行比较,当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符。根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。以此方式确定的文本数据更加准备,更与实际真实的文本数据更接近,这样可以提高用户体验。
图3是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图。
如图3所示,上述步骤S220具体可以包括步骤S310~步骤S320。
在步骤S310中,通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列。
在步骤S320中,根据所述音素特征序列,确定多个所述候选字符的预测概率。
该方法可以通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列,并根据所述音素特征序列,确定多个所述候选字符的预测概率,以此方式可以初步的确定出多个候选字符的预测概率,以便于后续基于自动机的前缀树优化多个候选字符的预测概率。
在本发明的一些实施例中,通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列。例如,以实时获取的语音信号为输入,将其输入到端到端模型,通过端到端模型中的特征提取算法,从语音信号中的各帧语音数据中提取音素特征,由多个音素特征组成该音素特征序列。
在本发明的一些实施例中,根据所述音素特征序列,确定多个所述候选字符的预测概率。例如,根据音素特征序列中各音素特征,计算该音素特征对应候选字符的预测概率。
图4是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图。
如图4所示,上述步骤S230具体可以包括步骤S410~步骤S420。
在步骤S410中,基于各个所述候选字符,遍历所述自动机的前缀树中每个节点,获取各个所述候选字符的权重。
在步骤S420中,根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率。
该方法可以基于各个所述候选字符,遍历所述自动机的前缀树中每个节点,获取各个所述候选字符的权重,根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率,以此方式可以对候选字符的预测概率进行优化,以使得后续基于候选字符的目标概率确定的文本数据更加准确,有效避免因端到端模型在处理语音信号时拟合不好导致文本数据准确度低的问题。
在本发明的一些实施例中,基于各个所述候选字符,遍历所述自动机的前缀树中每个节点,获取各个所述候选字符的权重。例如,针对每个候选字符,遍历自动机的前缀树的每个节点,根据每个节点中的字符和转移状态,获取基于候选字符命中节点中字符的权重。
在本发明的一些实施例中,根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率包括:基于各个所述候选字符的权重,对各个所述候选字符的预测概率进行加权处理,得到各个所述候选字符的目标概率。以此方式可以优化候选字符的预测概率,以使得后续基于候选字符的目标概率确定的文本数据更加准确。
图5是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图。
如图5所示,上述步骤S240具体可以包括步骤S510~步骤S530。
在步骤S510中,基于各个所述候选字符的目标概率与预设阈值进行比较。
在步骤S520中,当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符。
在步骤S530中,根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
该方法可以基于各个所述候选字符的目标概率与预设阈值进行比较,当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符,然后根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据,以此方式确定的文本数据更加准备,有效地避免因端到端模型在处理语音信号时拟合不好导致文本数据准确度低的问题。
在本发明的一些实施例中,上述预设阈值可以根据实际情况进行设置。例如,根据实际的业务需求设置预设阈值。
图6是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图。
如图6所示,上述方法还可以包括步骤S610~步骤S620。
在步骤S610中,获取常规语料和特定语料。
在步骤S620中,基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
该方法可以基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重,以使得后续基于候选字符可以快速准备的获取到该字符的权重,便于根据该权重优化候选字符的预测概率。
在本发明的一些实施例中,常规语料可以是业务场景中出现次数较多的字符,特定语料可以是特定业务场景中出现次数较少的字符。具体地,常规语料和特定语料可以根据实际需求确定两者字符的数量。另外,自动机的前缀树中节点的字符权重和转移状态可以根据实际情况进行设置。例如,节点的字符权重可以根据字符类型进行设置,如果该字符为常规字符,则该字符的权重可以设置空,空可以理解为常规字符的权重为零。如果该字符为特定字符,则该字符的权重可以根据业务需要进行设置,以便于后续基于该权重对预设概率进行加权,这样实现优化该字符的预测概率,进一步使得确定的文本数据更加准备。
图7是本发明的实施例的基于自动机的前缀树处理语音信号的方法的另一示例的流程图。
如图7所示,上述方法还可以包括步骤S710~步骤S720。
在步骤S710中,实时获取新增语料。
在步骤S720中,基于所述新增语料中的新增字符,遍历所述自动机的前缀树中每个节点的字符和转移状态,以添加新节点和新转移状态。
该方法可以基于所述新增语料中的新增字符,遍历所述自动机的前缀树中每个节点的字符和转移状态,以添加新节点和新转移状态,这样可以快速准备的将新增字符加入到自动机,这样可以及时基于新增字符的权重来优化候选字符的预测概率。
图8是本发明的实施例的基于自动机的前缀树处理语音信号的装置的一示例的示意图。
如图8所示,基于自动机的前缀树处理语音信号的装置800包括第一获取模块801、识别模块802、处理模块803和文本数据确定模块804。
具体地,第一获取模块801,用于实时获取待识别的语音信号。
识别模块802,用于对所述语音信号进行识别,得到多个候选字符的预测概率。
处理模块803,用于通过自动机的前缀树对多个所述候选字符的预测概率进行处理,得到多个所述候选字符的目标概率。
文本数据确定模块804,用于根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据
该基于自动机的前缀树处理语音信号的装置800可以实时获取待识别的语音信号,对该语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树对多个候选字符的预测概率处理,得到多个候选字符的目标概率,以此方式可以优化候选字符的预测概率,这样根据多个候选字符的目标概率,可以快速准备的确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
根据本发明的实施例,该基于自动机的前缀树处理语音信号的装置 800可以用于实现图2实施例描述的基于自动机的前缀树处理语音信号的方法。
根据本发明的优选实施方式,上述识别模块802被配置为:通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列;根据所述音素特征序列,确定多个所述候选字符的预测概率。
根据本发明的优选实施方式,上述处理模块803被配置为:基于各个所述候选字符,遍历所述自动机的前缀树中每个节点,获取各个所述候选字符的权重;根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率。
根据本发明的优选实施方式,上述文本数据确定模块804被配置为:基于各个所述候选字符的目标概率与预设阈值进行比较;当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符;根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
图9是本发明的实施例的基于自动机的前缀树处理语音信号的装置的一示例的示意图。
如图9所示,基于自动机的前缀树处理语音信号的装置800还可以包括第二获取模块805和构建模块806。
具体地,第二获取模块805,用于获取常规语料和特定语料。
构建模块806,用于基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
该基于自动机的前缀树处理语音信号的装置800可以基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重,以使得后续基于候选字符可以快速准备的获取到该字符的权重,便于根据该权重优化候选字符的预测概率。
根据本发明的实施例,该基于自动机的前缀树处理语音信号的装置 800可以用于实现图6实施例描述的基于自动机的前缀树处理语音信号的方法。
图10是本发明的实施例的基于自动机的前缀树处理语音信号的装置的一示例的示意图。
如图10所示,基于自动机的前缀树处理语音信号的装置800还可以包括第三获取模块807和添加模块808。
具体地,第三获取模块807。用于实时获取新增语料。
添加模块808,用于基于所述新增语料中的新增字符,遍历所述自动机的前缀树中每个节点的字符和转移状态,以添加新节点和新转移状态。
该基于自动机的前缀树处理语音信号的装置800可以基于所述新增语料中的新增字符,遍历所述自动机的前缀树中每个节点的字符和转移状态,以添加新节点和新转移状态,这样可以快速准备的将新增字符加入到自动机,这样可以及时基于新增字符的权重来优化候选字符的预测概率。
根据本发明的实施例,该基于自动机的前缀树处理语音信号的装置 800可以用于实现图7实施例描述的基于自动机的前缀树处理语音信号的方法。
由于本发明的示例实施例的基于自动机的前缀树处理语音信号的装置800的各个模块可以用于实现上述2~图7描述的基于自动机的前缀树处理语音信号的方法的示例实施例的步骤,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的基于自动机的前缀树处理语音信号的方法的实施例。
可以理解的是,基于自动机的前缀树处理语音信号的装置800包括第一获取模块801、识别模块802、处理模块803、文本数据确定模块804、第二获取模块805、构建模块806、第三获取模块807和添加模块808可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,基于自动机的前缀树处理语音信号的装置800包括第一获取模块801、识别模块802、处理模块803、文本数据确定模块804、第二获取模块805、构建模块806、第三获取模块807和添加模块808中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路 (ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,基于自动机的前缀树处理语音信号的装置800包括第一获取模块 801、识别模块802、处理模块803、文本数据确定模块804、第二获取模块805、构建模块806、第三获取模块807和添加模块808中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
下面描述本发明的计算机设备实施例,该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图11是本发明的一个实施例的计算机设备的结构示意图,该计算机设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行实施例中任一项所述的方法,包括但不限于图2的方法。
如图11所示,计算机设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得计算机设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/ 或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
可选地,该实施例中,计算机设备还包括有I/O接口,其用于计算机设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
应当理解,图11显示的计算机设备仅仅是本发明的一个示例,本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如,有些计算机设备中还包括有显示屏等显示单元,有些计算机设备还包括人机交互元件,例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的计算机设备。
图12是本发明的一个实施例的计算机程序产品的示意图。如图12所示,计算机程序产品中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述方法。所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。所述计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如 Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是 CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得计算机设备执行根据本发明的方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于自动机的前缀树处理语音信号的方法,其特征在于,包括:
实时获取待识别的语音信号;
对所述语音信号进行识别,得到多个候选字符的预测概率;
通过自动机的前缀树对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率;
根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
2.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,对所述语音信号进行识别,得到多个所述候选字符的预测概率包括:
通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列;
根据所述音素特征序列,确定多个所述候选字符的预测概率。
3.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,通过自动机的前缀树对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率包括:
基于各个所述候选字符,遍历所述自动机的前缀树中每个节点,获取各个所述候选字符的权重;
根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率。
4.根据权利要求3所述的基于自动机的前缀树处理语音信号的方法,其特征在于,根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率包括:
基于各个所述候选字符的权重,对各个所述候选字符的预测概率进行加权处理,得到各个所述候选字符的目标概率。
5.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据包括:
基于各个所述候选字符的目标概率与预设阈值进行比较;
当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符;
根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
6.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,该方法还包括:
获取常规语料和特定语料;
基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
7.根据权利要求6所述的基于自动机的前缀树处理语音信号的方法,其特征在于,该方法还包括:
实时获取新增语料;
基于所述新增语料中的新增字符,遍历所述自动机的前缀树中每个节点的字符和转移状态,以添加新节点和新转移状态。
8.一种基于自动机的前缀树处理语音信号的装置,其特征在于,包括:
第一获取模块,用于实时获取待识别的语音信号;
识别模块,用于对所述语音信号进行识别,得到多个候选字符的预测概率;
处理模块,用于通过自动机的前缀树对多个所述候选字符的预测概率进行处理,得到多个所述候选字符的目标概率;
文本数据确定模块,用于根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
9.一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于,当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-7中任一项所述的基于自动机的前缀树处理语音信号的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令当被处理器执行时,实现权利要求1-7中任一项所述的基于自动机的前缀树处理语音信号的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210720359.0A CN115312059A (zh) | 2022-06-23 | 2022-06-23 | 基于自动机的前缀树处理语音信号的方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210720359.0A CN115312059A (zh) | 2022-06-23 | 2022-06-23 | 基于自动机的前缀树处理语音信号的方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115312059A true CN115312059A (zh) | 2022-11-08 |
Family
ID=83855511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210720359.0A Pending CN115312059A (zh) | 2022-06-23 | 2022-06-23 | 基于自动机的前缀树处理语音信号的方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115312059A (zh) |
-
2022
- 2022-06-23 CN CN202210720359.0A patent/CN115312059A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210233521A1 (en) | Method for speech recognition based on language adaptivity and related apparatus | |
CN108170749B (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN110930980B (zh) | 一种中英文混合语音的声学识别方法及系统 | |
WO2021103712A1 (zh) | 一种基于神经网络的语音关键词检测方法、装置及系统 | |
JP2023535709A (ja) | 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体 | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN111090727A (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN112016275A (zh) | 一种语音识别文本的智能纠错方法、系统和电子设备 | |
CN111695338A (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN110808032A (zh) | 一种语音识别方法、装置、计算机设备及存储介质 | |
CN115312034A (zh) | 基于自动机和字典树处理语音信号的方法、装置和设备 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN115062718A (zh) | 语言模型训练方法、装置、电子设备及存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
KR20200095947A (ko) | 전자 장치 및 이의 제어 방법 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN109002498B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN114490967A (zh) | 对话模型的训练方法、对话机器人的对话方法、装置和电子设备 | |
CN115312059A (zh) | 基于自动机的前缀树处理语音信号的方法、装置和设备 | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |