CN115312034A - 基于自动机和字典树处理语音信号的方法、装置和设备 - Google Patents

基于自动机和字典树处理语音信号的方法、装置和设备 Download PDF

Info

Publication number
CN115312034A
CN115312034A CN202210718711.7A CN202210718711A CN115312034A CN 115312034 A CN115312034 A CN 115312034A CN 202210718711 A CN202210718711 A CN 202210718711A CN 115312034 A CN115312034 A CN 115312034A
Authority
CN
China
Prior art keywords
characters
automaton
candidate
target
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210718711.7A
Other languages
English (en)
Inventor
王伟戌
王强强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunsizhixue Technology Co ltd
Original Assignee
Beijing Yunsizhixue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunsizhixue Technology Co ltd filed Critical Beijing Yunsizhixue Technology Co ltd
Priority to CN202210718711.7A priority Critical patent/CN115312034A/zh
Publication of CN115312034A publication Critical patent/CN115312034A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发提供一种基于自动机和字典树处理语音信号的方法,包括实时获取待识别的语音信号,对语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树和字典树,分别对多个候选字符的预测概率处理,得到多个候选字符的目标概率,自动机的前缀树是基于历史语料中字符构建的,字典树是基于新增语料的字符构建的,以此方式可以基于新增字符构建的字典树和基于历史字符构建的自动机来分别优化候选字符的预测概率,有效避免因不能及时更新自动机带来的问题。然后根据多个候选字符的目标概率,确定待识别的语音信号对应的文本数据,以此方式可以快速准备确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。

Description

基于自动机和字典树处理语音信号的方法、装置和设备
技术领域
本发明属于语音信号识别领域,更具体地涉及一种基于自动机和字典树处理语音信号的方法、装置和计算机设备。
背景技术
随着互联网的快速发展,深度学习模型越来越受有用户喜爱,该深度学习模型可以用于识别用户的语音信号。但是,采用深度学习模型处理语音信号时,得到的识别结果准备度较低。针对该情况,可以结合自动机的机制来进一步对识别结果进行处理,其中,该自动机的前缀树是基于语料中字符构建的。
但是,发明人在实现本发明的发明构思时发现相关技术中至少存在一下技术问题:当有新字符出现时,需要将其加入到自动机。由于自动机的前缀树的特性,可以在字符长度的复杂度将该新增字符插入前缀树,但是构建新的转移状态需要遍历前缀树的所有节点,如果每次插入新字符需要重新访问整棵树的全部节点,这种复杂度是难以接受的,构建效率低,导致用于识别语音信号的自动机不能被及时更新,进而导致得到的文本数据准备度较低,降低用户体验。
因此,有必要提供一种基于自动机和字典树处理语音信号的方法,以解决上述问题。
发明内容
(一)要解决的技术问题
本发明旨在解决因基于新增字符不能及时更新自动机的前缀树,而导致识别语音信号获得的结果准备度低的问题。
(二)技术方案
为解决上述技术问题,本发明的一种基于自动机和字典树处理语音信号的方法,包括:实时获取待识别的语音信号;对所述语音信号进行识别,得到多个候选字符的预测概率;通过自动机的前缀树和字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率,所述自动机的前缀树是基于历史语料中字符构建的,所述字典树是基于新增语料的字符构建的;根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
根据本发明的优选实施方式,该方法还包括:获取新增语料,所述新增语料包括新增字符;基于所述新增字符,构建所述字典树,所述字典树中每个节点的新增字符设置有与其对应的权重。
根据本发明的优选实施方式,该方法还包括:当所述字典树中节点的新增字符的数量大于等于预设数量时,基于所述字典树中的所有新增字符,更新所述自动机的前缀树。
根据本发明的优选实施方式,基于所述字典树中的所有新增字符,更新所述自动机的前缀树包括:基于各个所述新增字符,遍历所述自动机的前缀树中每个节点的历史字符及历史字符的转移状态;根据所述新增字符和所述历史字符及历史字符的转移状态,构建各个新增字符在所述自动机的前缀树的位置和转移状态。
根据本发明的优选实施方式,通过所述自动机的前缀树和所述字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率包括:针对候选字符序列中第一个候选字符,遍历所述自动机的前缀树中所有的初始节点,当有初始节点被命中时,基于该初始节点的转移状态确定所述候选字符序列中的其他候选字符,并根据所有被命中的节点的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第一目标概率集合,所述第一目标概率集合中包含至少一个所述候选字符的目标概率;以及针对所述候选字符序列的各个所述候选字符,遍历所述字典树中节点的字符,并根据所有被命中的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第二目标概率集合,所述第二目标概率集合中包含至少一个所述候选字符的目标概率;根据所述第一目标集合概率和所述第二目标集合概率,确定多个所述候选字符的目标概率。
根据本发明的优选实施方式,对所述语音信号进行识别,得到多个所述候选字符的预测概率包括:通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列;根据所述音素特征序列,确定多个所述候选字符的预测概率。
根据本发明的优选实施方式,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据包括:基于各个所述候选字符的目标概率与预设阈值进行比较;当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符;根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
根据本发明的优选实施方式,该方法还包括:获取所述历史语料,所述历史语料包括常规语料和特定语料;基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
本发明第二方面提出了一种基于自动机和字典树处理语音信号的装置,包括:第一获取模块,用于实时获取待识别的语音信号;识别模块,用于对所述语音信号进行识别,得到多个候选字符的预测概率;处理模块,用于通过自动机的前缀树和字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率,所述自动机的前缀树是基于历史语料中字符构建的,所述字典树是基于新增语料的字符构建的;确定模块,用于根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
本发明第三方面提出一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行第一方面提供的方法。
本发明第四方面提出一种计算机程序产品,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现第一方面提供的方法。
(三)有益效果
与现有技术相比,本发明实时获取待识别的语音信号,对语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树和字典树,分别对多个候选字符的预测概率处理,得到多个候选字符的目标概率,自动机的前缀树是基于历史语料中字符构建的,字典树是基于新增语料的字符构建的,以此方式可以基于新增字符构建的字典树和基于历史字符构建的自动机来分别优化候选字符的预测概率,有效避免因不能及时更新自动机带来的问题。然后根据多个候选字符的目标概率,确定待识别的语音信号对应的文本数据,以此方式可以快速准备确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
附图说明
图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图;
图2是本发明的实施例的基于自动机和字典树处理语音信号的方法的一示例的流程图;
图3是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图;
图4是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图;
图5是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图;
图6是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图;
图7是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图;
图8是本发明的实施例的基于自动机和字典树处理语音信号的装置的一示例的示意图;
图9是本发明的实施例的基于自动机和字典树处理语音信号的装置的一示例的示意图;
图10是本发明的实施例的基于自动机和字典树处理语音信号的装置的一示例的示意图;
图11是本发明的一个实施例的计算机设备的结构示意图;
图12是本发明的一个实施例的计算机程序产品的示意图。
具体实施方式
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括用户终端101、102、103中的一种或多种,网络104和服务器105。网络104用以在用户终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的用户终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用用户终端101、102、103通过网络104与服务器105交互,以接收或发送消息等。用户终端101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如服务器105可以实时获取用户终端103(也可以是用户终端101或102)的待识别的语音信号,对语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树和字典树,分别对多个候选字符的预测概率处理,得到多个候选字符的目标概率,自动机的前缀树是基于历史语料中字符构建的,字典树是基于新增语料的字符构建的,以此方式可以基于新增字符构建的字典树和基于历史字符构建的自动机来分别优化候选字符的预测概率,有效避免因不能及时更新自动机带来的问题。然后根据多个候选字符的目标概率,确定待识别的语音信号对应的文本数据,以此方式可以快速准备确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
在一些实施例中,本发明实施例所提供的基于自动机和字典树处理语音信号的方法一般由服务器105执行,相应地,基于自动机和字典树处理语音信号的装置一般设置于服务器105中。在另一些实施例中,某些终端可以具有与服务器相似的功能从而执行本方法。因此,本发明实施例所提供的基于自动机和字典树处理语音信号的方法不限定在服务器端执行。
图2是本发明的实施例的基于自动机和字典树处理语音信号的方法的一示例的流程图。
如图2所示,基于自动机和字典树处理语音信号的方法包括步骤S210~步骤S240。
在步骤S210中,实时获取待识别的语音信号。
在步骤S220中,对所述语音信号进行识别,得到多个候选字符的预测概率。
在步骤S230中,通过自动机的前缀树和字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率,所述自动机的前缀树是基于历史语料中字符构建的,所述字典树是基于新增语料的字符构建。
在步骤S240中,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
该方法可以实时待识别的语音信号,对语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树和字典树,分别对多个候选字符的预测概率处理,得到多个候选字符的目标概率,自动机的前缀树是基于历史语料中字符构建的,字典树是基于新增语料的字符构建的,以此方式可以基于新增字符构建的字典树和基于历史字符构建的自动机来分别优化候选字符的预测概率,有效避免因不能及时更新自动机带来的问题。然后根据多个候选字符的目标概率,确定待识别的语音信号对应的文本数据,以此方式可以快速准备确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
在本发明的一些实施例中,上述待识别的语音信号可以是实时线下录制的语音信号,也可以是实时线上录制的语音信号。例如,用户通过采集装置线下实时获取待识别的语音信号,并实时将获取的语音信号上传至后台服务器进行识别处理。再例如,用户通过直播软件的录制功能将直播时的语音信号实时录制,并实时将获取的语音信号上传至后台服务器进行识别处理。
在本发明的一些实施例中,对上述语音信号进行识别,得到多个候选字符的预测概率。例如,将实时获取的语音信号实时输入到端到端模型,通过该端到端模型中的特征提取算法,从语音信号的各帧语音数据中提取音素特征序列,对提取音素特征序列进行处理,得到多个候选字符的预测概率。
音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。比如,汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。
音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定,用来统一标示各国语音的字母。也称为“国际语音学字母”、“万国语音学字母”)的音标符号与全人类语言的音素一一对应。
在本发明的一些实施例中,对提取音素特征序列进行处理,得到多个候选字符的预测概率。例如,根据音素特征序列中各音素特征,计算该音素特征对应候选字符的预测概率。
在本发明的一些实施例中,上述自动机的前缀树中包含多个节点和节点之间的转移状态。每个节点中存储有字符、字符的权重、以及转移状态。
在本发明的一些实施例中,基于历史语料可以构建自动机的前缀树中每个节点的字符和转移状态。例如,该历史语料中可以包括常规语料和特定语料,基于常规语料和特定语料可以构建自动机的前缀树中每个节点的字符和转移状态。其中,常规语料可以是业务场景中出现次数较多的字符,特定语料可以是特定业务场景中出现次数较少的字符。具体地,常规语料和特定语料可以根据实际需求确定两者字符的数量。另外,自动机的前缀树中节点的字符权重和转移状态可以根据实际情况进行设置。例如,节点的字符权重可以根据字符类型进行设置,如果该字符为常规字符,则该字符的权重可以设置空,空可以理解为常规字符的权重为零。如果该字符为特定字符,则该字符的权重可以根据业务需要进行设置,以便于后续基于该权重对预设概率进行加权,这样实现优化该字符的预测概率,进一步使得确定的文本数据更加准备。
在本发明的一些实施例中,上述字典树中可以包含多个节点,每个节点中包含一个新增字符。
在本发明的一些实施例中,基于新增语料可以构建该字典树。例如,基于该新增语料中的新增字符构建该字典树中的每个节点。
在本发明的一些实施例中,当上述字典树中节点的字符数量大于等于预设数量时,可以基于该字典树中的所有新增字符,更新上述自动机的前缀树的每个节点和转移状态。
在本发明的一些实施例中,上述多个候选字符的目标概率可以是基于自动机的前缀树中节点的字符的权重对该候选字符的预测概率进行加权处理后的得到的概率。上述多个候选字符的目标概率还可以是基于字典树中节点的字符的权重对该候选字符的预测概率进行加权处理后的得到的概率。
在本发明的一些实施例中,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。例如,基于各个所述候选字符的目标概率与预设阈值进行比较,当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符。根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。以此方式确定的文本数据更加准备,更与实际真实的文本数据更接近,这样可以提高用户体验。
图3是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图。
如图3所示,上述步骤S220具体可以包括步骤S310~步骤S320。
在步骤S310中,通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列。
在步骤S320中,根据所述音素特征序列,确定多个所述候选字符的预测概率。
该方法可以通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列,并根据所述音素特征序列,确定多个所述候选字符的预测概率,以此方式可以初步的确定出多个候选字符的预测概率,以便于后续基于自动机的前缀树优化多个候选字符的预测概率。
在本发明的一些实施例中,通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列。例如,以实时获取的语音信号为输入,将其输入到端到端模型,通过端到端模型中的特征提取算法,从语音信号中的各帧语音数据中提取音素特征,由多个音素特征组成该音素特征序列。
在本发明的一些实施例中,根据所述音素特征序列,确定多个所述候选字符的预测概率。例如,根据音素特征序列中各音素特征,计算该音素特征对应候选字符的预测概率。
图4是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图。
如图4所示,上述方法还可以包括步骤S410~步骤S420。
在步骤S410中,获取历史语料,该历史语料包括常规语料和特定语料。
在步骤S420中,基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
该方法可以基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重,以使得后续基于候选字符可以快速准备的获取到该字符的权重,便于根据该权重优化候选字符的预测概率。
在本发明的一些实施例中,常规语料可以是业务场景中出现次数较多的字符,特定语料可以是特定业务场景中出现次数较少的字符。具体地,常规语料和特定语料可以根据实际需求确定两者字符的数量。另外,自动机的前缀树中节点的字符权重和转移状态可以根据实际情况进行设置。例如,节点的字符权重可以根据字符类型进行设置,如果该字符为常规字符,则该字符的权重可以设置空,空可以理解为常规字符的权重为零。如果该字符为特定字符,则该字符的权重可以根据业务需要进行设置,以便于后续基于该权重对预设概率进行加权,这样实现优化该字符的预测概率,进一步使得确定的文本数据更加准备。
图5是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图。
如图5所示,上述方法还可以包括步骤S510~步骤S520。
在步骤S510中,获取新增语料,所述新增语料包括新增字符。
在步骤S520中,基于所述新增字符,构建所述字典树,所述字典树中每个节点的新增字符设置有与其对应的权重。
该方法可以基于所述新增字符,构建所述字典树,所述字典树中每个节点的新增字符设置有与其对应的权重,这样便于后续当字典树中新增字符达到一定数量时再对自动机进行更新,有效避免基于新增字符频繁更新自动机。
在本发明的一些实施例中,基于新增字符可以构建字典树,由于字典树中的节点没有转移状态,所以在构建过程中效率较高。
在本发明的一些实施例中,该方法还包括:当字典树中节点的新增字符的数量大于等于预设数量时,基于字典树中的所有新增字符,更新自动机的前缀树。例如,基于字典树中的所有新增字符,更新自动机的前缀树包括:基于各个新增字符,遍历自动机的前缀树中每个节点的历史字符及历史字符的转移状态,并根据新增字符和历史字符及历史字符的转移状态,构建各个新增字符在自动机的前缀树的位置和转移状态。以此方式有效地避免因频繁基于新增字符更新自动机导致的一系列问题。
图6是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图。
如图6所示,上述步骤S230具体可以包括步骤S610~步骤S630。
在步骤S610中,针对候选字符序列中第一个候选字符,遍历所述自动机的前缀树中所有的初始节点,当有初始节点被命中时,基于该初始节点的转移状态确定所述候选字符序列中的其他候选字符,并根据所有被命中的节点的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第一目标概率集合,所述第一目标概率集合中包含至少一个所述候选字符的目标概率。
在步骤S620中,针对所述候选字符序列的各个所述候选字符,遍历所述字典树中节点的字符,并根据所有被命中的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第二目标概率集合,所述第二目标概率集合中包含至少一个所述候选字符的目标概率。
在步骤S630中,根据所述第一目标集合概率和所述第二目标集合概率,确定多个所述候选字符的目标概率。
该方法可以基于新增字符构建的字典树和基于历史字符构建的自动机来分别优化候选字符的预测概率,有效避免因不能及时更新自动机带来的问题。
图7是本发明的实施例的基于自动机和字典树处理语音信号的方法的另一示例的流程图。
如图7所示,上述步骤S240具体可以包括步骤S710~步骤S730。
在步骤S710中,基于各个所述候选字符的目标概率与预设阈值进行比较。
在步骤S720中,当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符。
在步骤S730中,根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
该方法可以基于各个所述候选字符的目标概率与预设阈值进行比较,当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符,然后根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据,以此方式确定的文本数据更加准备,有效地避免因端到端模型在处理语音信号时拟合不好导致文本数据准确度低的问题。
在本发明的一些实施例中,上述预设阈值可以根据实际情况进行设置。例如,根据实际的业务需求设置预设阈值。
图8是本发明的实施例的基于自动机和字典树处理语音信号的装置的一示例的示意图。
如图8所示,基于自动机和字典树处理语音信号的装置800包括第一获取模块801、识别模块802、处理模块803和文本数据确定模块804。
具体地,第一获取模块801,用于实时获取待识别的语音信号。
识别模块802,用于对所述语音信号进行识别,得到多个候选字符的预测概率。
处理模块803,用于通过自动机的前缀树和字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率,所述自动机的前缀树是基于历史语料中字符构建的,所述字典树是基于新增语料的字符构建的。
文本数据确定模块804,用于根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据
该基于自动机和字典树处理语音信号的装置800可以实时获取待识别的语音信号,对语音信号进行识别,得到多个候选字符的预测概率,通过自动机的前缀树和字典树,分别对多个候选字符的预测概率处理,得到多个候选字符的目标概率,自动机的前缀树是基于历史语料中字符构建的,字典树是基于新增语料的字符构建的,以此方式可以基于新增字符构建的字典树和基于历史字符构建的自动机来分别优化候选字符的预测概率,有效避免因不能及时更新自动机带来的问题。然后根据多个候选字符的目标概率,确定待识别的语音信号对应的文本数据,以此方式可以快速准备确定待识别的语音信号对应的文本数据,通过该方式得到文本数据更加准备,从而体验用户体验。
根据本发明的实施例,该基于自动机和字典树处理语音信号的装置800可以用于实现图2实施例描述的基于自动机和字典树处理语音信号的方法。
根据本发明的优选实施方式,上述识别模块802被配置为:通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列;根据所述音素特征序列,确定多个所述候选字符的预测概率。
根据本发明的优选实施方式,上述处理模块803被配置为:针对候选字符序列中第一个候选字符,遍历所述自动机的前缀树中所有的初始节点,当有初始节点被命中时,基于该初始节点的转移状态确定所述候选字符序列中的其他候选字符,并根据所有被命中的节点的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第一目标概率集合,所述第一目标概率集合中包含至少一个所述候选字符的目标概率;以及针对所述候选字符序列的各个所述候选字符,遍历所述字典树中节点的字符,并根据所有被命中的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第二目标概率集合,所述第二目标概率集合中包含至少一个所述候选字符的目标概率;根据所述第一目标集合概率和所述第二目标集合概率,确定多个所述候选字符的目标概率。
根据本发明的优选实施方式,上述文本数据确定模块804被配置为:基于各个所述候选字符的目标概率与预设阈值进行比较;当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符;根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
图9是本发明的实施例的基于自动机和字典树处理语音信号的装置的一示例的示意图。
如图9所示,基于自动机和字典树处理语音信号的装置800还可以包括第二获取模块805和第一构建模块806。
具体地,第二获取模块805,用于获取历史语料,该历史语料包括常规语料和特定语料。
构建模块806,用于基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
该基于自动机和字典树处理语音信号的装置800可以基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重,以使得后续基于候选字符可以快速准备的获取到该字符的权重,便于根据该权重优化候选字符的预测概率。
根据本发明的实施例,该基于自动机和字典树处理语音信号的装置800可以用于实现图4实施例描述的基于自动机和字典树处理语音信号的方法。
图10是本发明的实施例的基于自动机和字典树处理语音信号的装置的一示例的示意图。
如图10所示,基于自动机和字典树处理语音信号的装置800还可以包括第三获取模块807和第二构建模块808。
具体地,第三获取模块807。用于获取新增语料,所述新增语料包括新增字符。
第二构建模块808,用于基于所述新增字符,构建所述字典树,所述字典树中每个节点的新增字符设置有与其对应的权重。
该基于自动机和字典树处理语音信号的装置800可以基于所述新增字符,构建所述字典树,所述字典树中每个节点的新增字符设置有与其对应的权重,这样便于后续当字典树中新增字符达到一定数量时再对自动机进行更新,有效避免基于新增字符频繁更新自动机。
根据本发明的实施例,该基于自动机和字典树处理语音信号的装置800可以用于实现图5实施例描述的基于自动机和字典树处理语音信号的方法。
由于本发明的示例实施例的基于自动机和字典树处理语音信号的装置800的各个模块可以用于实现上述2~图7描述的基于自动机和字典树处理语音信号的方法的示例实施例的步骤,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的基于自动机和字典树处理语音信号的方法的实施例。
可以理解的是,基于自动机和字典树处理语音信号的装置800包括第一获取模块801、识别模块802、处理模块803、文本数据确定模块804、第二获取模块805、第一构建模块806、第三获取模块807和第二构建模块808可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,基于自动机和字典树处理语音信号的装置800包括第一获取模块801、识别模块802、处理模块803、文本数据确定模块804、第二获取模块805、第一构建模块806、第三获取模块807和第二构建模块808中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,基于自动机和字典树处理语音信号的装置800包括第一获取模块801、识别模块802、处理模块803、文本数据确定模块804、第二获取模块805、第一构建模块806、第三获取模块807和第二构建模块808中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
下面描述本发明的计算机设备实施例,该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图11是本发明的一个实施例的计算机设备的结构示意图,该计算机设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行实施例中任一项所述的方法,包括但不限于图2的方法。
如图11所示,计算机设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得计算机设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
可选地,该实施例中,计算机设备还包括有I/O接口,其用于计算机设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
应当理解,图11显示的计算机设备仅仅是本发明的一个示例,本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如,有些计算机设备中还包括有显示屏等显示单元,有些计算机设备还包括人机交互元件,例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的计算机设备。
图12是本发明的一个实施例的计算机程序产品的示意图。如图12所示,计算机程序产品中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述方法。所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。所述计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得计算机设备执行根据本发明的方法。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种基于自动机和字典树处理语音信号的方法,其特征在于,包括:
实时获取待识别的语音信号;
对所述语音信号进行识别,得到多个候选字符的预测概率;
通过自动机的前缀树和字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率,所述自动机的前缀树是基于历史语料中字符构建的,所述字典树是基于新增语料的字符构建的;
根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
2.根据权利要求1所述的基于自动机和字典树处理语音信号的方法,其特征在于,该方法还包括:
获取新增语料,所述新增语料包括新增字符;
基于所述新增字符,构建所述字典树,所述字典树中每个节点的新增字符设置有与其对应的权重。
3.根据权利要求2所述的基于自动机和字典树处理语音信号的方法,其特征在于,该方法还包括:
当所述字典树中节点的新增字符的数量大于等于预设数量时,基于所述字典树中的所有新增字符,更新所述自动机的前缀树。
4.根据权利要求3所述的基于自动机和字典树处理语音信号的方法,其特征在于,基于所述字典树中的所有新增字符,更新所述自动机的前缀树包括:
基于各个所述新增字符,遍历所述自动机的前缀树中每个节点的历史字符及历史字符的转移状态;
根据所述新增字符和所述历史字符及历史字符的转移状态,构建各个新增字符在所述自动机的前缀树的位置和转移状态。
5.根据权利要求1所述的基于自动机和字典树处理语音信号的方法,其特征在于,通过所述自动机的前缀树和所述字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率包括:
针对候选字符序列中第一个候选字符,遍历所述自动机的前缀树中所有的初始节点,当有初始节点被命中时,基于该初始节点的转移状态确定所述候选字符序列中的其他候选字符,并根据所有被命中的节点的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第一目标概率集合,所述第一目标概率集合中包含至少一个所述候选字符的目标概率;以及
针对所述候选字符序列的各个所述候选字符,遍历所述字典树中节点的字符,并根据所有被命中的字符的权重,对与其对应的候选字符的预测概率进行加权处理,得到第二目标概率集合,所述第二目标概率集合中包含至少一个所述候选字符的目标概率;
根据所述第一目标集合概率和所述第二目标集合概率,确定多个所述候选字符的目标概率。
6.根据权利要求1所述的基于自动机和字典树处理语音信号的方法,其特征在于,对所述语音信号进行识别,得到多个所述候选字符的预测概率包括:
通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列;
根据所述音素特征序列,确定多个所述候选字符的预测概率。
7.根据权利要求1所述的基于自动机和字典树处理语音信号的方法,其特征在于,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据包括:
基于各个所述候选字符的目标概率与预设阈值进行比较;
当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符;
根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
8.根据权利要求1所述的基于自动机和字典树处理语音信号的方法,其特征在于,该方法还包括:
获取所述历史语料,所述历史语料包括常规语料和特定语料;
基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
9.一种基于自动机和字典树处理语音信号的装置,其特征在于,包括:
第一获取模块,用于实时获取待识别的语音信号;
识别模块,用于对所述语音信号进行识别,得到多个候选字符的预测概率;
处理模块,用于通过自动机的前缀树和字典树,分别对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率,所述自动机的前缀树是基于历史语料中字符构建的,所述字典树是基于新增语料的字符构建的;
文本数据确定模块,用于根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
10.一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于,当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-8中任一项所述的基于自动机和字典树处理语音信号的方法。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令当被处理器执行时,实现权利要求1-8中任一项所述的基于自动机和字典树处理语音信号的方法。
CN202210718711.7A 2022-06-23 2022-06-23 基于自动机和字典树处理语音信号的方法、装置和设备 Pending CN115312034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210718711.7A CN115312034A (zh) 2022-06-23 2022-06-23 基于自动机和字典树处理语音信号的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210718711.7A CN115312034A (zh) 2022-06-23 2022-06-23 基于自动机和字典树处理语音信号的方法、装置和设备

Publications (1)

Publication Number Publication Date
CN115312034A true CN115312034A (zh) 2022-11-08

Family

ID=83855096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210718711.7A Pending CN115312034A (zh) 2022-06-23 2022-06-23 基于自动机和字典树处理语音信号的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN115312034A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116137149A (zh) * 2023-04-18 2023-05-19 杰创智能科技股份有限公司 语音识别方法、装置和设备
CN116541784A (zh) * 2023-07-04 2023-08-04 乐山师范学院 一种基于字典树和覆盖度的时间序列分类方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116137149A (zh) * 2023-04-18 2023-05-19 杰创智能科技股份有限公司 语音识别方法、装置和设备
CN116541784A (zh) * 2023-07-04 2023-08-04 乐山师范学院 一种基于字典树和覆盖度的时间序列分类方法及装置
CN116541784B (zh) * 2023-07-04 2023-09-26 乐山师范学院 一种基于字典树和覆盖度的时间序列分类方法及装置

Similar Documents

Publication Publication Date Title
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN110534092B (zh) 语音音素识别方法和装置、存储介质及电子装置
CN110930980B (zh) 一种中英文混合语音的声学识别方法及系统
EP2869298A1 (en) Information identification method and apparatus
CN110335592B (zh) 语音音素识别方法和装置、存储介质及电子装置
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
CN115312034A (zh) 基于自动机和字典树处理语音信号的方法、装置和设备
CN112509552B (zh) 语音合成方法、装置、电子设备和存储介质
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN112016275A (zh) 一种语音识别文本的智能纠错方法、系统和电子设备
US20200311350A1 (en) Generating method, learning method, generating apparatus, and non-transitory computer-readable storage medium for storing generating program
CN109859747B (zh) 语音交互方法、设备以及存储介质
CN111508497A (zh) 语音识别方法、装置、电子设备及存储介质
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN112100339A (zh) 用于智能语音机器人的用户意图识别方法、装置和电子设备
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN114841471B (zh) 知识点预测方法、装置、电子设备和存储介质
CN112652311B (zh) 中英文混合语音识别方法、装置、电子设备和存储介质
CN114758649A (zh) 一种语音识别方法、装置、设备和介质
CN115312059A (zh) 基于自动机的前缀树处理语音信号的方法、装置和设备
CN113901841A (zh) 翻译方法、装置以及存储介质
CN114898754B (zh) 解码图生成、语音识别方法、装置、电子设备及存储介质
CN115033701B (zh) 文本向量生成模型训练方法、文本分类方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination