CN116013307A - 一种标点预测方法、装置、设备以及计算机存储介质 - Google Patents
一种标点预测方法、装置、设备以及计算机存储介质 Download PDFInfo
- Publication number
- CN116013307A CN116013307A CN202211736013.6A CN202211736013A CN116013307A CN 116013307 A CN116013307 A CN 116013307A CN 202211736013 A CN202211736013 A CN 202211736013A CN 116013307 A CN116013307 A CN 116013307A
- Authority
- CN
- China
- Prior art keywords
- information
- punctuation
- identified
- punctuation prediction
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种标点预测方法、装置、设备以及计算机存储介质,该方法包括:获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。这样,通过获取待识别信息对应的两种特征,并结合两种特征进行标点预测,避免出现大段文字没有标点的情况,提高了标点预测过程的准确性和效率。
Description
技术领域
本申请涉及语音识别技术领域,尤其涉及一种标点预测方法、装置、设备以及计算机存储介质。
背景技术
目前市面上绝大部分的智能语音设备都需要使用到语音识别文本标点预测功能,如智能音响、会议录音转文字设备、智能对话机器人、视频字幕生成软件等语音识别相关的产品或软件,标点符号的预测结果对于语音识别来讲十分关键,标点预测结果的不准确,可能增加用户阅读难度,甚至直接造成语义不清的问题,直接影响最终的语音识别结果。
相关技术中,由于训练模型的文本数据和自动语音识别技术识别出来的文本存在较大差异,而且通常情况下,模型只学习上下文内容和加标点的关系,没有从识别信息本身的特征出发,因此实际场景中常出现大段文字没有标点的情况,导致自动语音识别技术识别结果显示的文本可读性较差。
发明内容
本申请的目的在于提出一种标点预测方法、装置、设备以及计算机存储介质。
为达到上述目的,本申请的技术方案是这样实现的:
第一方面,本申请实施例提供了一种标点预测方法,包括:
获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;
基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;
对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。
在一些实施例中,所述基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,至少包括以下两种:
根据所述文本信息,确定所述文本信息的第一特征;
结合所述文本信息和所述语音信息,采用语气识别模型确定所述文本信息的第二特征;
根据所述语音信息,采用语音分割模型确定所述文本信息的第三特征。
在一些实施例中,所述第一特征至少包括字特征、分词特征和字数特征中的一种,所述第二特征至少包括语气特征,所述第三特征至少包括语音分割特征。
在一些实施例中,所述对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果,所述方法还包括:
对所述至少两种特征进行特征融合处理,得到融合特征矩阵;
对所述融合特征矩阵进行升维处理,得到具有高维潜在特征的目标矩阵;
采用标点预测模型对所述目标矩阵进行标点预测处理,得到所述待识别信息的标点预测结果。
在一些实施例中,在确定所述待识别信息的标点预测结果之后,所述方法还包括:
采用后处理模块对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
在一些实施例中,所述采用后处理模块对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息;包括:
将所述标点预测结果输入所述后处理模块;
根据预设规则对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
在一些实施例中,所述根据预设规则对所述标点预测结果进行检验和修正,包括:
在所述标点预测结果中句首存在标点的情况下,删除所述标点;
在所述标点预测结果中存在连续两个标点的情况下,删除所述两个标点的其中一个标点;
在所述标点预测结果中存在不完整标点的情况下,对所述不完整标点进行补全。
在一些实施例中,所述获取待识别信息,包括:
获取所述语音信息;
基于所述语音信息,采用语音识别系统确定对应的文本信息。
第二方面,本申请实施例提供了一种标点预测装置,所述标点预测装置包括:
获取单元,配置为获取待识别信息;其中,所述待识别信息包括语音信息和文本信息;
抽取单元,配置为基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;
确定单元,配置为对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括存储器和处理器;其中,
所述存储器,用于存储能够在所述处理器上运行的计算机程序;
所述处理器,用于在运行所述计算机程序时,执行如第一方面所述的图像处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该计算机程序被至少一个处理器执行时实现如第一方面所述的图像处理方法。
本申请实施例所提供的一种标点预测方法、装置、设备以及计算机存储介质,获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。这样,通过获取待识别信息对应的两种特征,并结合两种特征进行标点预测,避免出现大段文字没有标点的情况,提高了标点预测过程的准确性和效率。
附图说明
图1为本申请实施例提供的一种标点预测方法的流程示意图;
图2为本申请实施例提供的另一种标点预测方法的流程示意图;
图3为本申请实施例提供的又一种标点预测方法的流程示意图;
图4为本申请实施例提供的一种标点预测方法的详细流程示意图;
图5为本申请实施例提供的一种标点预测装置的组成结构示意图;
图6为本申请实施例提供的一种电子设备的具体硬件结构示意图;
图7为本申请实施例提供的一种电子设备的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。还需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
可以理解,目前市面上绝大部分的智能语音设备都需要使用到语音识别文本标点预测功能,如智能音响、会议录音转文字设备、智能对话机器人、视频字幕生成软件等语音识别相关的产品或软件,标点符号的预测结果对于语音识别来讲十分关键,标点预测结果的不准确,可能增加用户阅读难度,甚至直接造成语义不清的问题,直接影响最终的语音识别结果。
相关技术中,由于训练模型的文本数据和自动语音识别技术识别出来的文本存在较大差异,而且通常情况下,模型只学习上下文内容和加标点的关系,没有从识别信息本身的特征出发,因此实际场景中常出现大段文字没有标点的情况,导致自动语音识别技术识别结果显示的文本可读性较差。
由于训练模型的文本数据和ASR识别出来的文本存在较大差异,而且通常情况下,模型只学习上下文内容和加标点的关系,因此实际场景中常出现大段文字没有标点的情况,导致ASR识别文本的可读性较差,示例性的,“原告现在恢复一下法庭调查原告是否有补充证据需要提交必要补充证据被告呃,刚才那个补充一下原告体重新提交了一份版权证据就是把之前的替换一下就是一呃一份完整的。”和“这个内容是由呃黑龙江广电网络公司和优朋普乐之间提供了对就是实际上分公司整体它都不参与这个协议,还有这个就是平台的运营这一块他就负责就是安有线电视,然后就有线电视安装,安装完了以后用的都是这种统一的数字平台这个平台呢?”都出现了大段文字没有标点的情况
针对这个问题,本申请实施例提出结合文本内容、文本分词、文本统计字数、语气和VAD分割信息,来辅助标点模型的预测,提升加标点的性能。通过抽取训练文本的多维特征,使得模型学到更有效的加标点知识,避免出现大段文字没有标点的情况。实际上,各标点之间还存在着一些约束关系,比如冒号、书名号等等。为了保证系统的性能,本申请实施例增设后处理模块,对标点预测结果的合理性做进一步的检验,来保证ASR系统的标点预测性能。
基于此,本申请实施例提供了一种标点预测方法,该方法的基本思想是:获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。这样,通过获取待识别信息对应的两种特征,并结合两种特征进行标点预测,避免出现大段文字没有标点的情况,提高了标点预测过程的准确性和效率。
在本申请的一实施例中,参见图1,其示出了本申请实施例提供的一种标点预测方法的流程示意图。如图1所示,该方法可以包括:
S101:获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息。
需要说明的是,本申请实施例提供的标点预测方法可以应用于标点预测装置,或者集成有标点预测装置的电子设备。其中,电子设备可以是诸如计算机、智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、虚拟设备、智能音响、会议录音转文字设备、智能对话机器人、视频字幕生成软件等等。但是并不作具体限定。
还需要说明的是,在本申请实施例中,待识别信息可以包括语音信息和对应的文本信息,在获取待识别信息的过程中,如果同时获取到语音信息和对应的文本信息,则可以直接进行下一步的标点预测过程,如果仅仅获取到了语音信息,则需要先通过语音信息转换为对应的文本信息,再基于语音信息和对应的文本信息进行标点预测。
具体地,在一些实施例中,所述获取待识别信息,可以包括:
获取所述语音信息;
基于所述语音信息,采用语音识别系统确定对应的文本信息。
需要说明的是,在本申请实施例中,首先获取到了语音信息,先通过自动语音识别技术将语音信息转换为对应的文本信息,再基于语音信息和对应的文本信息进行标点预测。其中,语音信息和文本信息之间具有一一对应的关系。
这样,可以获取用于标点预测的待识别信息,并且分别确定待识别信息中的语音信息和对应的文本信息。
S102:基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关。
需要说明的是,在本申请实施例中,通过将待识别信息中的语音信息和文本信息进行特征抽取,其中,抽取到的至少两种特征与相互对应的语音信息和文本信息相关,在至少两种特征中,一部分特征为语音信息相关的特征,另一部分特征为文本信息相关的特征,还有一部分特征既与语音信息相关,又与文本信息相关。
在一些实施例中,所述基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,至少可以包括以下两种:
根据所述文本信息,确定所述文本信息的第一特征;
结合所述文本信息和所述语音信息,采用语气识别模型确定所述文本信息的第二特征;
根据所述语音信息,采用语音分割模型确定所述文本信息的第三特征。
需要说明的是,在本申请实施例中,抽取到的至少两种特征与相互对应的语音信息和文本信息相关,在至少两种特征中,一部分特征为语音信息相关的特征,另一部分特征为文本信息相关的特征,还有一部分特征既与语音信息相关,又与文本信息相关。具体地,可以根据所述文本信息,确定所述文本信息的第一特征;结合所述文本信息和所述语音信息,采用语气识别模型确定所述文本信息的第二特征;根据所述语音信息,采用语音分割模型确定所述文本信息的第三特征。
具体地,在一些实施例中,可以抽取5中特征,其中,所述第一特征至少包括字特征、分词特征和字数特征中的一种,所述第二特征至少包括语气特征,所述第三特征至少包括语音分割特征。
这样,能够基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关。
S103:对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。
需要说明的是,在本申请实施例中,对待识别信息对应的至少两种特征进行特征融合,并通过嵌入层对特征融合后的特征矩阵进行升维处理,得到高维潜在特征矩阵,基于高维潜在特征矩阵,对待识别信息进行标点预测处理,得到待识别信息的标点预测结果。
在一些实施例中,参见图2,其示出了本申请实施例提供的另一种标点预测方法的流程示意图,如图2所示,所述对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果,所述方法还可以包括:
S201:对所述至少两种特征进行特征融合处理,得到融合特征矩阵;
S202:对所述融合特征矩阵进行升维处理,得到具有高维潜在特征的目标矩阵;
S203:采用标点预测模型对所述目标矩阵进行标点预测处理,得到所述待识别信息的标点预测结果。
需要说明的是,在本申请实施例中,对待识别信息对应的至少两种特征进行特征融合,并通过嵌入层对特征融合后的特征矩阵进行升维处理,得到高维潜在特征的目标矩阵,基于目标矩阵,对待识别信息进行标点预测处理,得到待识别信息的标点预测结果。目标矩阵反映了待识别信息中抽取出的至少两种特征,示例性的,至少两种特征可以包括文本内容、文本分词、文本统计字数、语气和VAD分割信息。
在一些实施中,在确定所述待识别信息的标点预测结果之后,所述方法还可以包括:
采用后处理模块对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
需要说明的是,在本申请实施例中,后处理模块对初步进行标点预测之后的标点预测结果进行检验和修正,具体地,可以通过预设规则的方式,将容易发生标点预测失败或者错误的情况重新进行二次检测,以提高待识别信息进行标点预测后标点预测结果的准确性。
在一些实施例中,所述采用后处理模块对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息;可以包括:
将所述标点预测结果输入所述后处理模块;
根据预设规则对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
需要说明的是,在本申请实施例中,后处理模块对初步进行标点预测之后的标点预测结果进行检验和修正,具体地,可以通过预设规则的方式,将容易发生标点预测失败或者错误的情况重新进行二次检测,以提高待识别信息进行标点预测后标点预测结果的准确性。
具体地,在一些实施例中,所述根据预设规则对所述标点预测结果进行检验和修正,至少可以包括:
在所述标点预测结果中句首存在标点的情况下,删除所述标点;
在所述标点预测结果中存在连续两个标点的情况下,删除所述两个标点的其中一个标点;
在所述标点预测结果中存在不完整标点的情况下,对所述不完整标点进行补全。
需要说明的是,在本申请实施例中,在进行标点预测的过程中,在标点预测结果中句首存在标点的情况下,由于句首不适用标点符号,需要删除一段话句首标点;在标点预测结果中存在连续两个标点的情况下,由于标点符号不能连续使用,需要删除两个标点的其中一个标点;在标点预测结果中存在不完整标点的情况下,因为各标点之间还存在着一些约束关系,比如冒号、书名号等等,可以基于此对不完整标点进行补全。
本申请实施例提供了一种标点预测方法,获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。这样,通过获取待识别信息对应的两种特征,并结合两种特征进行标点预测,避免出现大段文字没有标点的情况,提高了标点预测过程的准确性和效率。
在本申请的另一实施例中,本申请实施例提出了一种标点预测方法,其核心思想包括:提出结合文本内容、文本分词、文本统计字数、语气和VAD分割的信息,基于多特征融合来进行标点预测,并增设后处理模块,来检验标点的合理性。
具体地,参见图4,其示出了本申请实施例提供的一种标点预测方法的详细流程示意图,如图4所示,结合文本统计概率的自动语音识别技术(automatic speechrecognition,ASR)标点预测方法可以包括:
步骤一:对自动语音识别技术ASR系统的识别文本分别提取文本序列特征、分词特征、统计字数特征,示例性的,将“我叫王小明来自中国”进行特征提取,得到如下特征:
Feature1:我叫王小明,来自中国。
Feature2:1 2 3 4 5 1 2 3 4
Feature3:我叫王小明,来自中国。
Tag:0 0 0 0 1 0 0 0 2
步骤二:将识别文本分别输入语气识别模块和语音端点检测(Voice ActivityDetection,VAD)分割模型,得到该文本的语气信息和-信息。其中语气识别模块可以识别该句子属于什么语气,比如疑问语气、感叹语气、陈述语气等,而VAD模块可以预测该文本是否是分割点,其中分割点一般加标点的概率较大。
步骤三:对五种特征进行融合,再输入到嵌入层Embedding层来获取高维潜在特征,其中Embedding层可以在大量文本上训练得到,相当于一个具有较强特征表达能力的矩阵;
步骤四:Embedding层的输出作为标点模型的输入,最终标点模型输出该句子每个字后加标点概率,对结果进行后处理,检验标点结果的合理性,最后输出加标点文本,方便用户阅读。
本申请实施例提供了一种标点预测方法,基于上述实施例对前述实施例的具体实现进行详细阐述,从中可以看出,根据前述实施例的技术方案,结合文本内容、文本分词、文本统计字数、语气和VAD分割信息,来辅助标点模型的预测,提升加标点的性能。通过抽取训练文本的多维特征,使得模型学到更有效的加标点知识,避免出现大段文字没有标点的情况。实际上,各标点之间还存在着一些约束关系,比如冒号、书名号等等。为了保证系统的性能,本申请实施例增设后处理模块,对标点预测结果的合理性做进一步的检验,来保证ASR系统的标点预测的准确性,传统的加标点模型中更多地考虑上下文内容和标点的关系,本申请实施例提出抽取训练文本的多维特征和增设后处理检验模块,来增强ASR识别文本的可读性。
在本申请的又一实施例中,参见图5,其示出了本申请实施例提供的一种标点预测装置的组成结构示意图。如图5所示,该标点预测装置50可以包括:
获取单元501,配置为获取待识别信息;其中,所述待识别信息包括语音信息和文本信息;
抽取单元502,配置为基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;
确定单元503,配置为对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。
在一些实施例中,抽取单元502,具体配置为根据所述文本信息,确定所述文本信息的第一特征;以及结合所述文本信息和所述语音信息,采用语气识别模型确定所述文本信息的第二特征;以及根据所述语音信息,采用语音分割模型确定所述文本信息的第三特征。
在一些实施例中,抽取单元502,具体配置为所述第一特征至少包括字特征、分词特征和字数特征中的一种,所述第二特征至少包括语气特征,所述第三特征至少包括语音分割特征。
在一些实施例中,确定单元503,具体配置为对所述至少两种特征进行特征融合处理,得到融合特征矩阵;以及对所述融合特征矩阵进行升维处理,得到具有高维潜在特征的目标矩阵;以及采用标点预测模型对所述目标矩阵进行标点预测处理,得到所述待识别信息的标点预测结果。
在一些实施例中,确定单元503,具体配置为采用后处理模块对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
在一些实施例中,确定单元503,具体配置为将所述标点预测结果输入所述后处理模块;以及根据预设规则对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
在一些实施例中,确定单元503,具体配置为在所述标点预测结果中句首存在标点的情况下,删除所述标点;以及在所述标点预测结果中存在连续两个标点的情况下,删除所述两个标点的其中一个标点;以及在所述标点预测结果中存在不完整标点的情况下,对所述不完整标点进行补全。
在一些实施例中,获取单元501,具体配置为获取所述语音信息;以及基于所述语音信息,采用语音识别系统确定对应的文本信息。
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
因此,本实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。
基于上述标点预测装置50的组成以及计算机存储介质,参见图6,其示出了本申请实施例提供的一种电子设备的具体硬件结构示意图。如图6所示,电子设备60可以包括:通信接口601、存储器602、处理器603;各个组件通过总线系统604耦合在一起。可理解,总线系统604用于实现这些组件之间的连接通信。总线系统604除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统604。其中,通信接口601,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
存储器602,用于存储能够在处理器603上运行的计算机程序;
处理器603,用于在运行所述计算机程序时,执行:
获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;
基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;
对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。
处理器603,用于根据所述第一参数和显示内容,对所述遮光罩606进行调节,以使所述显示内容达到目标显示效果。
可以理解,本申请实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的系统和方法的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
而处理器603可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器603可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器603读取存储器602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,作为另一个实施例,处理器603还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法的步骤。
在本申请的再一实施例中,参见图7,其示出了本申请实施例提供的一种电子设备60的组成结构示意图。如图7所示,该电子设备60至少包括前述实施例中任一项所述的标点预测装置50。
在本申请实施例中,对于电子设备60而言,获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。这样,通过获取待识别信息对应的两种特征,并结合两种特征进行标点预测,避免出现大段文字没有标点的情况,提高了标点预测过程的准确性和效率。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种标点预测方法,所述方法包括:
获取待识别信息;其中,所述待识别信息包括语音信息和对应的文本信息;
基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;
对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。
2.根据权利要求1所述的方法,所述基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,至少包括以下两种:
根据所述文本信息,确定所述文本信息的第一特征;
结合所述文本信息和所述语音信息,采用语气识别模型确定所述文本信息的第二特征;
根据所述语音信息,采用语音分割模型确定所述文本信息的第三特征。
3.根据权利要求2所述的方法,所述第一特征至少包括字特征、分词特征和字数特征中的一种,所述第二特征至少包括语气特征,所述第三特征至少包括语音分割特征。
4.根据权利要求1-3任一项所述的方法,所述对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果,所述方法还包括:
对所述至少两种特征进行特征融合处理,得到融合特征矩阵;
对所述融合特征矩阵进行升维处理,得到具有高维潜在特征的目标矩阵;
采用标点预测模型对所述目标矩阵进行标点预测处理,得到所述待识别信息的标点预测结果。
5.根据权利要求1所述方法,在确定所述待识别信息的标点预测结果之后,所述方法还包括:
采用后处理模块对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
6.根据权利要求5所述的方法,所述采用后处理模块对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息;包括:
将所述标点预测结果输入所述后处理模块;
根据预设规则对所述标点预测结果进行检验和修正,得到添加标点后的所述文本信息。
7.根据权利要求6所述的方法,所述根据预设规则对所述标点预测结果进行检验和修正,包括:
在所述标点预测结果中句首存在标点的情况下,删除所述标点;
在所述标点预测结果中存在连续两个标点的情况下,删除所述两个标点的其中一个标点;
在所述标点预测结果中存在不完整标点的情况下,对所述不完整标点进行补全。
8.根据权利要求1所述的方法,所述获取待识别信息,包括:
获取所述语音信息;
基于所述语音信息,采用语音识别系统确定对应的文本信息。
9.一种标点预测方法装置,所述标点预测方法装置包括:
获取单元,配置为获取待识别信息;其中,所述待识别信息包括语音信息和文本信息;
抽取单元,配置为基于所述语音信息和文本信息,获取所述待识别信息对应的至少两种特征,所述至少两种特征至少分别与所述语音信息和所述文本信息相关;
确定单元,配置为对所述至少两种特征进行融合处理,确定所述待识别信息的标点预测结果。
10.一种电子设备,所述电子设备包括:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211736013.6A CN116013307A (zh) | 2022-12-30 | 2022-12-30 | 一种标点预测方法、装置、设备以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211736013.6A CN116013307A (zh) | 2022-12-30 | 2022-12-30 | 一种标点预测方法、装置、设备以及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116013307A true CN116013307A (zh) | 2023-04-25 |
Family
ID=86033332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211736013.6A Pending CN116013307A (zh) | 2022-12-30 | 2022-12-30 | 一种标点预测方法、装置、设备以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116013307A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116956882A (zh) * | 2023-09-20 | 2023-10-27 | 北京蜜度信息技术有限公司 | 标点纠错方法、系统、模型训练方法、介质及电子设备 |
CN118098207A (zh) * | 2024-04-26 | 2024-05-28 | 上海蜜度科技股份有限公司 | 多模态标点符号添加方法、设备及计算机可读介质 |
-
2022
- 2022-12-30 CN CN202211736013.6A patent/CN116013307A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116956882A (zh) * | 2023-09-20 | 2023-10-27 | 北京蜜度信息技术有限公司 | 标点纠错方法、系统、模型训练方法、介质及电子设备 |
CN118098207A (zh) * | 2024-04-26 | 2024-05-28 | 上海蜜度科技股份有限公司 | 多模态标点符号添加方法、设备及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021068352A1 (zh) | Faq问答对自动构建方法、装置、计算机设备及存储介质 | |
KR101768509B1 (ko) | 온라인 음성 번역 방법 및 장치 | |
CN116013307A (zh) | 一种标点预测方法、装置、设备以及计算机存储介质 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN112699690A (zh) | 翻译模型的训练方法、翻译方法、电子设备、存储介质 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN115495553A (zh) | 查询文本排序方法、装置、计算机设备及存储介质 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN114492396A (zh) | 用于汽车专有名词的文本错误纠正方法及可读存储介质 | |
CN109545223B (zh) | 应用于用户终端的语音识别方法及终端设备 | |
CN110929514B (zh) | 文本校对方法、装置、计算机可读存储介质及电子设备 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN113128176A (zh) | 总结模型的训练方法和工单生成方法及相关设备、装置 | |
CN115455922B (zh) | 表单校验方法、装置、电子设备和存储介质 | |
CN114417834A (zh) | 文本的处理方法、装置、电子设备及可读存储介质 | |
US11947872B1 (en) | Natural language processing platform for automated event analysis, translation, and transcription verification | |
CN114242047A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN112380850A (zh) | 错别字识别方法、装置、介质及电子设备 | |
CN113627197A (zh) | 文本的意图识别方法、装置、设备及存储介质 | |
CN113011162A (zh) | 一种指代消解方法、装置、电子设备及介质 | |
CN113688625A (zh) | 一种语种识别方法及装置 | |
CN115455179B (zh) | 敏感词汇检测方法、装置、设备及存储介质 | |
CN108959238B (zh) | 输入流识别方法、装置与计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |