CN112541324A - 一种标点符号添加方法、装置及电子设备 - Google Patents

一种标点符号添加方法、装置及电子设备 Download PDF

Info

Publication number
CN112541324A
CN112541324A CN201910831741.7A CN201910831741A CN112541324A CN 112541324 A CN112541324 A CN 112541324A CN 201910831741 A CN201910831741 A CN 201910831741A CN 112541324 A CN112541324 A CN 112541324A
Authority
CN
China
Prior art keywords
preset
model
wfst
target data
punctuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910831741.7A
Other languages
English (en)
Inventor
陈孝良
王江
冯大航
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201910831741.7A priority Critical patent/CN112541324A/zh
Publication of CN112541324A publication Critical patent/CN112541324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种标点符号添加方法、装置及电子设备,获取待进行语音识别的语音数据,将所述语音数据转换成预设格式的目标数据,获取预设加权有限状态转换器WFST模型,基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。通过本发明,可以对文本添加标点符号,增加可读性。

Description

一种标点符号添加方法、装置及电子设备
技术领域
本发明涉及数据处理领域,更具体的说,涉及一种标点符号添加方法、装置及电子设备。
背景技术
中文标点符号添加为语音识别技术中的后处理部分。对应一段语音信号,通过语音识别技术得到对应的文本信息之后,为了提升文本的可读性和可理解性,需要对文本信息断句并添加标点符号,增加可读性。
发明内容
有鉴于此,本发明提供一种标点符号添加方法、装置及电子设备,以解决现有的标点符号添加方式不适应于非标准语音识别得到的文本信息的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种标点符号添加方法,包括:
获取待进行语音识别的语音数据;
将所述语音数据转换成预设格式的目标数据;
获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
可选地,所述预设格式包括文本格式;
相应的,所述将所述语音数据转换成预设格式的目标数据,包括:
对所述语音数据进行语音识别,得到所述目标数据。
可选地,所述基于所述预设WFST模型,为所述目标数据添加标点符号,包括:
将所述目标数据进行分词,得到分词后的结果;
在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径;
将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
可选地,所述预设WFST模型的生成过程包括:
获取带有标点符号的文本语料;
基于预设分词词典,对所述文本语料进行分词操作,得到分词结果;所述预设分词词典包括标点符号;
对所述分词结果进行训练得到N-gram语言模型;所述预设N-gram语言模型表征不同词语之间的相关性;
将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型。
可选地,所述在将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型之后,还包括:
将所述预设WFST模型中包括标点符号的输入边替换为空边。
可选地,所述预设格式包括语音格式;
相应的,所述基于所述预设WFST模型,为所述目标数据添加标点符号,包括:
将所述目标数据输入至所述预设WFST模型,搜索到代价最低的第二路径;所述预设WFST模型的输入边为声学模型的建模单元,输出边为文字或标点符号;所述预设WFST模型基于带标点的语言模型、发音词典和HMM声学模型构建得到,所述预设WFST模型的权重为所述语言模型的概率;在搜索过程中,声学模型得分通过预设的深度神经网络计算获得,并动态地添加到搜索路径中;
将所述第二路径上的输出作为所述目标数据添加标点符号之后的文本结果。
一种标点符号添加装置,包括:
数据获取模块,用于获取待进行语音识别的语音数据;
语音转换模块,用于将所述语音数据转换成预设格式的目标数据;
模型获取模块,用于获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
符号添加模块,用于基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
可选地,所述预设格式包括文本格式;
相应的,所述语音转换模块用于将所述语音数据转换成预设格式的目标数据时,具体用于:
对所述语音数据进行语音识别,得到所述目标数据。
可选地,所述符号添加模块包括:
分词子模块,用于将所述目标数据进行分词,得到分词后的结果;
路径搜索子模块,用于在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径;
结果输出子模块,用于将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取待进行语音识别的语音数据;
将所述语音数据转换成预设格式的目标数据;
获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种标点符号添加方法、装置及电子设备,获取待进行语音识别的语音数据,将所述语音数据转换成预设格式的目标数据,获取预设加权有限状态转换器WFST模型,基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。通过本发明,可以对文本添加标点符号,增加可读性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种标点符号添加方法的方法流程图;
图2为本发明实施例提供的另一种标点符号添加方法的方法流程图;
图3为本发明实施例提供的一种预设WFST模型的部分结构示意图;
图4为本发明实施例提供的再一种标点符号添加方法的方法流程图;
图5为本发明实施例提供的又一种标点符号添加方法的方法流程图;
图6为本发明实施例提供的一种标点符号添加装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的发明人在对文本的标点符号添加方法的研究过程中发现,可以通过语句间的停顿时长来添加标点符号,具体的,计算文本信息中的语句间的停顿时长,若时长较小,则添加逗号,若时长较长,则根据停顿位置前后的语气类型来添加相应的标点符号。
但是这种标点符号添加方式,仅适用于标准的语音文本识别得到的文本信息,对于一些非标准语音,如平常朋友间的聊天的语音,适用性较差。
在此基础上,发明人又做了进一步的研究,研究出一种可以对非标准语音进行标点符号添加的方法,提高了应用场景的普遍性。具体的,参照图1,标点符号添加方法可以包括:
S11、获取待进行语音识别的语音数据。
可以通过麦克风或其他语音采集器件接收讲话用户的语音信号,对收集用户的语音信号的场景不做限定,可以是朋友之间聊天的场景、会议场景、授课场景、看定影场景等。举例来说,在播放电影或电视剧时,可以需要将电影或电视中的音频转换成字幕并显示在显示屏上,或者视频会议中,视频会议系统录像的实时记录软件获取的音频内容转换成文本。
S12、将所述语音数据转换成预设格式的目标数据。
预设格式有两种情况,一种预设格式是文本格式,即对语音数据进行识别,得到对应的文本数据,语音识别是一个模型匹配的过程,在这个过程中,可以首先根据人的语音数据建立对应地声学模型,通过对输入的语音信号的分析,抽取所需的特征,来建立语音识别所需的模板;对用户所输入语音进行识别的过程即是将用户所输入语音的特征与所述模板比较的过程,最后确定与所述用户所输入语音匹配的最佳模板,从而获得语音识别的结果。具体的语音识别算法,可采用语音识别算法ASR中的基于统计的隐含马尔可夫模型和维特比解码算法、基于动态时间归整的动态规划算法、构建的WFST模型等等其他算法,本发明实施例对于具体的语音识别过程不加以限制。常用ASR获取的文本格式的目标数据一般是不带有标点符号的,事实上现阶段很容易获得大量的无标点的语音识别文本数据,本公开就有效的利用了这些已有数据。
另一种预设格式是语音格式,即将语音数据转换成语音数据,此时可以直接将采集的语音数据作为目标数据,即不对语音数据做更改,此外还可以将采集的语音数据进行滤波操作,滤除原有的语音数据的杂音,得到新的语音数据,即目标数据。
S13、获取预设加权有限状态转换器WFST模型。
所述预设WFST模型预先建立,并用于为目标数据添加标点符号。
本发明的另一实现方式中给出了预设WFST模型的构建过程,构建的当目标数据为文本时的标点符号添加的预设WFST模型,参照图2,具体包括:
S21、获取带有标点符号的文本语料。
具体的,从网页中通过爬虫爬取、通过人工收集等方式收集大量的文本语料。每一文本语料包括标点符号,举例来说,文本语料可以是“今天你吃饭了吗?”、“我去看电影了。”等等。为了保证本实施例中的标点符号添加的准确性,收集的文本语料应该都尽量涵盖感叹句、陈述句和疑问句等各种类型的语料,以保证逗号、句号、感叹号、问号等各种标点符号均出现过。
S22、基于预设分词词典,对所述文本语料进行分词操作,得到分词结果。
预先构建了一个预设分词词典,该预设分词词典包括各种词语和标点符号,如包括“你”、“吃饭”、“健身”、“逛街”、“骑马”、“吵架”、“,”、“。”、“?”、“!”等等。
预设分词词典构建完成后,使用预设分词词典对文本语料进行分析,举例来说,假设文本语料为“你好我是小明很高兴认识你””则可以拆分成你好、我是、小明、很高兴和认识你这几个词语。本发明实施例对分词过程不做限定,只要是能够进行分词的算法即可。
S23、对所述分词结果进行训练得到N-gram语言模型。
其中,N-gram语言模型基于这样一种假设,即第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。
由于N-gram语言模型利用有限的N-1个词(上文)来预测第N个词,故N-gram语言模型可以表征不同词语之间的相关性,并且可以具备长度为N的语义片段的语言模型得分的描述能力,例如,N可以为3、5等较为固定的且数值小于第一长度阈值的正整数。本实施例中,优选使用3元文法模型,既可以保证准确性,又不会有较大的工作量。
对分词结果进行训练得到N-gram语言模型的过程可以采用任何一种插值或回退方法,本实施例不做限定。
S24、将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型。
其中,参照图3,WFST是加权有限状态转换器,每一条转移均用输入A、输出B、权重w符号标记。因此,所构建的网络(WFST)用于生成从输入符号序列或字符串到输出字符串的映射。WFST除了输入和输出符号之外还有转移代价,即权重w。权重值可以是语言模型概率,持续时间或沿路径积累的任何其他数量,如图3中的0.5,以计算将输入字符串映射到输出字符串的总体权重。WFST用于语音识别通常是表示在语音处理中输入语音信号后输出识别结果的各种可能的路径选择及其相应的概率。本实施例中,使用WFST模型进行标点符号的添加。
将所述N-gram语言模型的格式转换成WFST格式时可以采用常规的格式转换方法,本实施例不做具体限定。训练N-gram语言模型,使得标点预测准确率提升较大。此外,转换为预设WFST形式并进行搜索,标点符号添加效率大大提升。
在实际应用中,在步骤S24中得到所述预设WFST模型之后,还包括:
将所述预设WFST模型中包括标点符号的输入边替换为空边。
将输入边为标点符号的边替换为空边是因为,在搜索过程中输入不会有标点,遇到输入为标点的边可以无条件转移,替换为空边判断更方便一些,在WFST中搜索过程中,默认空边作为无意义的边,可以无条件转移。实现在预设WFST模型的输入没有标点的情况下,也可以进行在WFST模型下的搜索比较并获得带标点的最优结果。
实际运行中,当在WFST模型中进行维特比或其他方式搜索时,遇到输入为空的边则跳过,继续搜索后面输入为文字或语音的边,直至全部文本或数据搜索结束,根据概率比较,确定最优路径,一般来说,概率最高的路径就是输入的文本或语音的最可能的语义。且由于该WFST模型中输出是含有标点的,故确认的最优路径中也含有标点符号。
上述介绍了在目标数据为文本数据时的预设WFST模型的构建过程,另外,当目标数据为语音数据时的预设WFST模型的构建过程与上述预设WFST模型的构建过程类似,区别点在于语音识别的语言模型直接使用带标点的N-gram语言模型,预设WFST模型的输入边为声学模型的建模单元,输出边为文字或标点符号;所述预设WFST模型基于带标点的语言模型、发音词典和HMM声学模型构建得到,所述预设WFST模型的权重为所述语言模型的概率;在搜索过程中,声学模型得分通过预设的深度神经网络计算获得,并动态地添加到搜索路径中。
S14、基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
将目标数据输入到预设WFST模型,即可得到添加标点符号的文本数据。
本实施例中,获取待进行语音识别的语音数据,将所述语音数据转换成预设格式的目标数据,获取预设加权有限状态转换器WFST模型,基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。通过本发明,可以对文本添加标点符号,增加可读性。
上述介绍了“基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据”,现对其具体实现方式进行介绍,具体的,该步骤跟预设格式有关,当预设格式为文本格式时,参照图4,基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据,可以包括:
S41、将所述目标数据进行分词,得到分词后的结果。
分词过程参照上述相应实施例,本实施例不再具体解释。
S42、在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径。
S43、将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
具体的,将分词后的结果逐词输入预设WFST模型,进行维特比搜索,如果遇到输入为空边,则跳过继续搜索,直至所有词输入结束。选取最后代价最低的路径为最终的路径,组合路径上的输出即为添加标点后的结果。
举例来说,以添加影视剧字幕为例,按照预设预置时间采集语音,预设预置时间周期为1s,假设通过预设WFST模型对语音识别结果进行标点添加处理,本实施例中,N等于3,则按照预置时间周期获取的经过标点添加处理的语音识别结果对应的文本可以包括:
第1秒:今天天气
第2秒:今天天气不错,我们
第3秒:今天天气不错,我们出去爬山
第4秒:今天天气不错,我们出去爬山你觉得怎么样?
其中,首先接收到“今天天气”,其可以对目标词序列“今天/天气”进行标点添加处理,假设预设WFST模型输出的“今天/空格/天气”对应的语言模型得分高于“今天/逗号、叹号、问号、句号等标点符号/天气”对应的语言模型得分,故可以得到最优标点添加结果“今天/天气”,并在第1秒输出“今天/天气”。本实施例中的“/”用于表示词之间的界限、和/或、词与标点符号之间的界限,在实际应用中,“/”可以不具备任何意义。
接着接收到“今天天气不错我们”,假设已确定最优标点添加结果“今天/天气”,故可以对目标词序列“天气/不错/我们”进行标点添加处理,假设预设WFST模型输出的“天气/空格/不错/,/我们”对应的语言模型得分高于其他标点添加结果对应的语言模型得分,故可以得到最优标点添加结果“天气/空格/不错/,/我们”,并在第2秒输出“今天/天气/空格/不错/,/我们”。
接着接收到“今天天气不错我们出去爬山”,假设已确定最优标点添加结果“今天/天气/空格/不错/,/我们”,故可以对目标词序列“我们/出去/爬山”进行标点添加处理,假设预设WFST模型输出的“我们/空格/出去/空格/爬山”对应的语言模型得分高于其他标点添加结果对应的语言模型得分,故可以得到最优标点添加结果“我们/空格/出去/空格/爬山”,并在第3秒输出“今天/天气/空格/不错/,我们/空格/出去/空格/爬山”。
接着接收到“今天天气不错我们出去爬山你觉得怎么样”,假设已确定最优标点添加结果“今天/天气/空格/不错/,我们/空格/出去/空格/爬山”,故可以对目标词序列“爬山/你/觉得”进行标点添加处理,假设预设WFST模型输出的“爬山/空格/你/空格/觉得”对应的语言模型得分高于其他标点添加结果对应的语言模型得分,故可以得到最优标点添加结果“爬山/空格/你/空格/觉得”;进一步,可以对目标词序列“觉得/怎么样”进行标点添加处理,假设预设WFST模型输出的“觉得/空格/怎么样/?”对应的语言模型得分高于其他标点添加结果对应的语言模型得分,则可以得到最优标点添加结果“爬山/空格/你/空格/觉得/空格/怎么样/?”,并在第4秒输出“今天/天气/空格/不错/,我们/空格/出去/空格/爬山/空格/你/空格/觉得/空格/怎么样/?”。
处理装置103可以从标点添加装置102获取经过标点添加处理的语音识别结果对应的文本;获取当前时刻的有效文本所包含的目标标点;判断所述目标标点是否符合预置的识别结果稳定条件,若是,则可以向机器翻译装置104发送目标文本,以使所述机器翻译装置将所述目标文本翻译为目标语种的文字;所述目标文本可以为所述当前时刻的有效文本中所述目标标点及所述目标标点之前的字符组成的文本。由于本发明实施例可以在语音信号出现停顿之前,输出目标文本,以使机器翻译装置对该目标文本进行翻译,故可以有效减少翻译结果滞相对于语音信号的滞后性,且可以提高翻译结果的实时性,有效提升用户体验。并且,本发明实施例的目标文本是依据目标标点截断得到的,且可以提高目标文本的完整性,进而可以提高语音识别结果对应的翻译质量。
机器翻译装置104可以对处理装置103发送的目标文本进行翻译,具体地,可以将所述目标文本翻译为目标语种的文字并输出。或者,可以将目标语种的文字转换为目标语种的语音,并输出。可选地,可以利用文本到语音的转换技术(如语音合成技术),将所述目标语种的文字转换为目标语种的语音,并通过耳机、扬声器等语音播放器件将目标语种的语音输出。
综上所述,在所述预设格式包括文本格式时,上述的标点符号添加方法可以概括为以下几个步骤:
1)获取待进行语音识别的语音数据。
2)对所述语音数据进行语音识别,得到所述目标数据。
3)将所述目标数据进行分词,得到分词后的结果;
4)在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径;
5)将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
需要说明的是,本实施例中的各个步骤的具体实现过程,请参照上述实施例中的相应说明。另外,预设WFST模型的生成过程,也参照上述实施例中的相应说明。
当预设格式为语音格式时,参照图5,基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据,可以包括:
S51、将所述目标数据输入至所述预设WFST模型,搜索到代价最低的第二路径;所述预设WFST模型的输入边为声学模型的建模单元,输出边为文字或标点符号;所述预设WFST模型基于带标点的语言模型、发音词典和HMM声学模型构建得到,所述预设WFST模型的权重为所述语言模型的概率;在搜索过程中,声学模型得分通过预设的深度神经网络计算获得,并动态地添加到搜索路径中。
S52、将所述第二路径上的输出作为所述目标数据添加标点符号之后的文本结果。
与上述实施例不同的是,本实施例中的输入为由声学建模单元,输出为文字或标点符号,举例来说,上述的“今天天气不错我们出去爬山你觉得怎么样”为语音数据,直接将语音数据对应的声学单元的概率分布作为声学分,动态搜索结合预设WFST模型,即可得到“今天天气不错,我们出去爬山你觉得怎么样?”的输出。
综上所述,在所述预设格式包括语音格式时,上述的标点符号添加方法可以概括为以下几个步骤:
1)获取待进行语音识别的语音数据;
2)将所述语音数据转换成预设格式的目标数据;
3)获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
4)将所述目标数据输入至所述预设WFST模型,搜索到代价最低的第二路径;所述预设WFST模型的输入边为声学模型的建模单元,输出边为文字或标点符号;所述预设WFST模型基于带标点的语言模型、发音词典和HMM声学模型构建得到,所述预设WFST模型的权重为所述语言模型的概率;在搜索过程中,声学模型得分通过预设的深度神经网络计算获得,并动态地添加到搜索路径中;
5)将所述第二路径上的输出作为所述目标数据添加标点符号之后的文本结果。
需要说明的是,本实施例中的各个步骤的具体实现过程,请参照上述实施例中的相应说明。
本实施例中,可以直接对语音进行标点符号添加,还可以将语音转换成文本后在进行标点符号的添加,方式多样,适用于不同的场景。
可选的,在上述标点符号添加方法的实施例的基础上,本发明的另一实施例提供了一种标点符号添加装置,参照图6,可以包括:
数据获取模块101,用于获取待进行语音识别的语音数据;
语音转换模块102,用于将所述语音数据转换成预设格式的目标数据;
模型获取模块103,用于获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
符号添加模块104,用于基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
进一步,所述预设格式包括文本格式;
相应的,所述语音转换模块用于将所述语音数据转换成预设格式的目标数据时,具体用于:
对所述语音数据进行语音识别,得到所述目标数据。
进一步,还包括模型生成模块;
所述模型生成模块包括:
语料获取子模块,用于获取带有标点符号的文本语料;
拆分子模块,用于基于预设分词词典,对所述文本语料进行分词操作,得到分词结果;所述预设分词词典包括标点符号;
训练子模块,用于对所述分词结果进行训练得到N-gram语言模型;所述预设N-gram语言模型表征不同词语之间的相关性;
格式转换子模块,用于将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型。
进一步,还包括:
符号替换子模块,用于将所述预设WFST模型中包括标点符号的输入边替换为空边。
本实施例中,获取待进行语音识别的语音数据,将所述语音数据转换成预设格式的目标数据,获取预设加权有限状态转换器WFST模型,基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。通过本发明,可以对文本添加标点符号,增加可读性。
需要说明的是,本实施例中的各个模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选的,在上述标点符号添加装置的实施例的基础上,所述符号添加模块包括:
分词子模块,用于将所述目标数据进行分词,得到分词后的结果;
路径搜索子模块,用于在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径;
结果输出子模块,用于将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
进一步,所述预设格式包括语音格式,所述符号添加模块还可以包括:
数据处理子模块,用于将所述目标数据输入至所述预设WFST模型,搜索到代价最低的第二路径;所述预设WFST模型的输入边为声学模型的建模单元,输出边为文字或标点符号;所述预设WFST模型基于带标点的语言模型、发音词典和HMM声学模型构建得到,所述预设WFST模型的权重为所述语言模型的概率;在搜索过程中,声学模型得分通过预设的深度神经网络计算获得,并动态地添加到搜索路径中;
符号添加子模块,用于将所述第二路径上的输出作为所述目标数据添加标点符号之后的文本结果。
本实施例中,可以直接对语音进行标点符号添加,还可以将语音转换成文本后在进行标点符号的添加,方式多样,适用于不同的场景。
需要说明的是,本实施例中的各个模块的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选的,在上述标点符号添加方法的实施例的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取待进行语音识别的语音数据;
将所述语音数据转换成预设格式的目标数据;
获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
进一步,所述预设格式包括文本格式;
相应的,所述将所述语音数据转换成预设格式的目标数据,包括:
对所述语音数据进行语音识别,得到所述目标数据。
进一步,所述基于所述预设WFST模型,为所述目标数据添加标点符号,包括:
将所述目标数据进行分词,得到分词后的结果;
在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径;
将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
进一步,所述预设WFST模型的生成过程包括:
获取带有标点符号的文本语料;
基于预设分词词典,对所述文本语料进行分词操作,得到分词结果;所述预设分词词典包括标点符号;
对所述分词结果进行训练得到N-gram语言模型;所述预设N-gram语言模型表征不同词语之间的相关性;
将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型。
进一步,所述在将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型之后,还包括:
将所述预设WFST模型中包括标点符号的输入边替换为空边。
进一步,所述预设格式包括语音格式;
相应的,所述基于所述预设WFST模型,为所述目标数据添加标点符号,包括:
将所述目标数据输入至所述预设WFST模型,搜索到代价最低的第二路径;所述预设WFST模型的输入边为声学模型的建模单元,输出边为文字或标点符号;所述预设WFST模型基于带标点的语言模型、发音词典和HMM声学模型构建得到,所述预设WFST模型的权重为所述语言模型的概率;在搜索过程中,声学模型得分通过预设的深度神经网络计算获得,并动态地添加到搜索路径中;
将所述第二路径上的输出作为所述目标数据添加标点符号之后的文本结果。
本实施例中,获取待进行语音识别的语音数据,将所述语音数据转换成预设格式的目标数据,获取预设加权有限状态转换器WFST模型,基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。通过本发明,可以对文本添加标点符号,增加可读性。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种标点符号添加方法,其特征在于,包括:
获取待进行语音识别的语音数据;
将所述语音数据转换成预设格式的目标数据;
获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
2.根据权利要求1所述的标点符号添加方法,其特征在于,所述预设格式包括文本格式;
相应的,所述将所述语音数据转换成预设格式的目标数据,包括:
对所述语音数据进行语音识别,得到所述目标数据。
3.根据权利要求2所述的标点符号添加方法,其特征在于,所述基于所述预设WFST模型,为所述目标数据添加标点符号,包括:
将所述目标数据进行分词,得到分词后的结果;
在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径;
将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
4.根据权利要求1所述的标点符号添加方法,其特征在于,所述预设WFST模型的生成过程包括:
获取带有标点符号的文本语料;
基于预设分词词典,对所述文本语料进行分词操作,得到分词结果;所述预设分词词典包括标点符号;
对所述分词结果进行训练得到N-gram语言模型;所述预设N-gram语言模型表征不同词语之间的相关性;
将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型。
5.根据权利要求4所述的标点符号添加方法,其特征在于,所述在将所述N-gram语言模型的格式转换成WFST格式,得到所述预设WFST模型之后,还包括:
将所述预设WFST模型中包括标点符号的输入边替换为空边。
6.根据权利要求1所述的标点符号添加方法,其特征在于,所述预设格式包括语音格式;
相应的,所述基于所述预设WFST模型,为所述目标数据添加标点符号,包括:
将所述目标数据输入至所述预设WFST模型,搜索到代价最低的第二路径;所述预设WFST模型的输入边为声学模型的建模单元,输出边为文字或标点符号;所述预设WFST模型基于带标点的语言模型、发音词典和HMM声学模型构建得到,所述预设WFST模型的权重为所述语言模型的概率;在搜索过程中,声学模型得分通过预设的深度神经网络计算获得,并动态地添加到搜索路径中;
将所述第二路径上的输出作为所述目标数据添加标点符号之后的文本结果。
7.一种标点符号添加装置,其特征在于,包括:
数据获取模块,用于获取待进行语音识别的语音数据;
语音转换模块,用于将所述语音数据转换成预设格式的目标数据;
模型获取模块,用于获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
符号添加模块,用于基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
8.根据权利要求7所述的标点符号添加装置,其特征在于,所述预设格式包括文本格式;
相应的,所述语音转换模块用于将所述语音数据转换成预设格式的目标数据时,具体用于:
对所述语音数据进行语音识别,得到所述目标数据。
9.根据权利要求8所述的标点符号添加装置,其特征在于,所述符号添加模块包括:
分词子模块,用于将所述目标数据进行分词,得到分词后的结果;
路径搜索子模块,用于在所述预设WFST模型中,基于分词后的结果搜索到代价最低的第一路径;
结果输出子模块,用于将所述第一路径上的输出作为所述目标数据添加标点符号之后的结果。
10.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取待进行语音识别的语音数据;
将所述语音数据转换成预设格式的目标数据;
获取预设加权有限状态转换器WFST模型;所述预设WFST模型用于为目标数据添加标点符号;
基于所述预设WFST模型,为所述目标数据添加标点符号,得到添加标点符号的文本数据。
CN201910831741.7A 2019-09-04 2019-09-04 一种标点符号添加方法、装置及电子设备 Pending CN112541324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910831741.7A CN112541324A (zh) 2019-09-04 2019-09-04 一种标点符号添加方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910831741.7A CN112541324A (zh) 2019-09-04 2019-09-04 一种标点符号添加方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112541324A true CN112541324A (zh) 2021-03-23

Family

ID=75012101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910831741.7A Pending CN112541324A (zh) 2019-09-04 2019-09-04 一种标点符号添加方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112541324A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017883A (zh) * 2021-12-20 2022-09-06 昆明理工大学 基于预训练融合语音特征的文本标点恢复方法
CN116828001A (zh) * 2023-08-28 2023-09-29 长春易加科技有限公司 一种基于大数据分析的智慧工厂生产效率优化系统及方法
CN117392985A (zh) * 2023-12-11 2024-01-12 飞狐信息技术(天津)有限公司 语音处理方法、装置、终端和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017883A (zh) * 2021-12-20 2022-09-06 昆明理工大学 基于预训练融合语音特征的文本标点恢复方法
CN115017883B (zh) * 2021-12-20 2023-03-07 昆明理工大学 基于预训练融合语音特征的文本标点恢复方法
CN116828001A (zh) * 2023-08-28 2023-09-29 长春易加科技有限公司 一种基于大数据分析的智慧工厂生产效率优化系统及方法
CN116828001B (zh) * 2023-08-28 2023-11-17 长春易加科技有限公司 一种基于大数据分析的智慧工厂生产效率优化系统及方法
CN117392985A (zh) * 2023-12-11 2024-01-12 飞狐信息技术(天津)有限公司 语音处理方法、装置、终端和存储介质

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
JP3696231B2 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
KR20170022445A (ko) 통합 모델 기반의 음성 인식 장치 및 방법
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
CN112541324A (zh) 一种标点符号添加方法、装置及电子设备
CN111986656B (zh) 教学视频自动字幕处理方法与系统
CN103730115A (zh) 一种语音中检测关键词的方法和装置
JP2001188558A (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
CN112017645A (zh) 一种语音识别方法及装置
CN112967713A (zh) 一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
CN112420050B (zh) 一种语音识别方法、装置和电子设备
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
JP4100243B2 (ja) 映像情報を用いた音声認識装置及び方法
CN114944149A (zh) 语音识别方法、语音识别设备及计算机可读存储介质
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN113393841A (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN116108176A (zh) 基于多模态深度学习的文本分类方法、设备及存储介质
CN116186258A (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
US11043212B2 (en) Speech signal processing and evaluation
CN114283493A (zh) 基于人工智能的识别系统
JP7352491B2 (ja) ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法
US20230386491A1 (en) Artificial intelligence device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination