CN113539241A - 语音识别校正方法及其相应的装置、设备、介质 - Google Patents

语音识别校正方法及其相应的装置、设备、介质 Download PDF

Info

Publication number
CN113539241A
CN113539241A CN202110857039.5A CN202110857039A CN113539241A CN 113539241 A CN113539241 A CN 113539241A CN 202110857039 A CN202110857039 A CN 202110857039A CN 113539241 A CN113539241 A CN 113539241A
Authority
CN
China
Prior art keywords
audio text
text
original
acoustic model
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110857039.5A
Other languages
English (en)
Other versions
CN113539241B (zh
Inventor
姜博怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202110857039.5A priority Critical patent/CN113539241B/zh
Publication of CN113539241A publication Critical patent/CN113539241A/zh
Application granted granted Critical
Publication of CN113539241B publication Critical patent/CN113539241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开一种语音识别校正方法及其相应的装置、设备、介质,该方法包括:获取选定的声学模型从原始音频数据中识别出的初步音频文本及置信度数据;将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;根据与原始音频数据的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。本申请能够对关联于相同语音内容的音频文本和音频数据所构成的脏数据进行高效地清洗,从而制备出声学模型训练所需的训练数据。

Description

语音识别校正方法及其相应的装置、设备、介质
技术领域
本申请实施例涉及语音识别技术领域,尤其涉及一种语音识别校正方法及其相应的装置、设备、介质。
背景技术
海量的训练数据恰恰是优秀的声学模型必不可少的素材,目前主流生产ASR(Automatic Speech Recognition,自动语音识别)训练数据的方法常通过直接采样来获取:借助人工准确阅读某段文字或对话,由此获得朗读所形成的音频数据及被阅读的音频文本,所述音频文件可以作为训练样本,而其音频文本可作为监督标签,故可产出高质量的训练语料,能够直接用于训练的数据。显而易见的,这种方法,采集效率非常低下,数据获取成本非常高昂。
一种可行的思路是利用音频文字对齐技术来生产声学模型训练所需的音频数据,让音频文字对齐技术在自动语音识别领域中扮演数据生产的角色,具体而言,借助音频文字对齐技术,利用与原始音频数据相对应的原始音频文本,将原始音频数据与从该原始音频数据中识别出来的音频文本在句子粒度下实现时序上的对齐,对齐结果实现了对语音识别出来的音频文本的校正,校正后的音频文本与所述的原始音频数据,便可用于训练ASR声学模型。
至于所述的原始音频数据及其原始音频文本,可以借助更丰富的手段进行采集,例如,互联网中存在着大量的内容互相对应的音频数据与音频文本,例如电影文件及其字幕文件之间便存在内容上的对应关系,有声书的音频文件与其文本文件之间也存在着内容上的对应关系,甚至一些短视频也同理存在着其视频文件及其中的字幕之间的对应关系,诸如此类,均蕴含着数据挖掘的巨大价值,因此,可以在实施音频文字对齐技术时被引用。然而,这些数据中的音频文本部分,往往丢失了其与音频数据之间的时序对应关系,一般将此类数据命名为“脏数据”,无法直接用于声学模型的训练,因此需要对其做进一步的加工处理,以便生产出有用的训练样本,于是问题的关键便是如何构造有效的技术方案来实现声学模型训练样本的高效生产。
发明内容
本申请的目的针对现有技术中存在的至少部分不足或为满足现有技术的至少部分需求而提供一种语音识别校正方法及其相应的装置、计算机设备及存储介质。
为解决上述技术问题,本申请采用的一个技术方案是:
本申请提供一种语音识别校正方法,包括如下步骤:
获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据;
将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;
根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;
将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。
扩展的实施例中,本申请的语音识别校正方法,包括如下前置步骤:
调用候选声学模型对多个原始音频数据实施语音识别,识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据;
计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率,作为空洞率;
统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分;
将空洞评分满足预设条件的候选声学模型确定为选定的声学模型。
具体化的实施例中,根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本,包括如下步骤:
根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐;
根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐;
根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记;
将完成空洞标记补全的标记音频文本确定为所述的订正音频文本。
进一步的实施例中,根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记,包括如下步骤:
获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达;
将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列;
将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词,以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记。
进一步的实施例中,将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列,包括如下步骤:
构造相似度矩阵,以过程表达中的字词为行坐标维度,以原始表达中的字词为列坐标维度,其每个元素用于存储该元素的行坐标维度与列坐标维度之间的相似度;
为该相似度矩阵计算所述行坐标维度与列坐标维度之间的相似度,其中:
——对于行坐标维度为非空洞标记的元素,其存储的相似度为其行坐标维度与其列坐标维度之间的相似度,加上其前一行坐标维度与其后一列坐标维度所指向的元素的相似度;
——对于行坐标维度为空洞标记的元素,其存储的相似度为如下相似度中的最大值:该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其后一列坐标维度所对应的元素的相似度;
根据最大贪心匹配算法,从所述相似度矩阵中最大相似度出发,倒查确定出包含空洞标记相关的元素且由相似度最大的元素所构成的最佳路径,确定该路径所对应的最长公共子序列,其中:
——对于行坐标维度为空洞标记的元素,其在先路径节点为如下最大值所在的元素:该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度;
——对于行坐标维度的为非空洞标记的元素,其在先路径节点为该元素的前一行坐标维度与其前一列坐标维度所指向的元素。
较佳的实施例中,将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中的步骤,该声学模型为所述的选定的声学模型,或相对于所述选定的声学模型具有更低的空洞评分的声学模型。
扩展的实施例中,本申请语音识别校正方法包括如下迭代执行的步骤:
调用所述样本库中的训练样本对待训练的声学模型实施训练,所述待训练的声学模型根据所述训练样本识别出音频文本,所述监督标签监督所述音频文本而反向传播修正该待训练的声学模型的学习参数,直至该待训练的声学模型被训练至收敛状态。
为解决上述技术问题,本申请采用的另一技术方案是:
本申请提供一种语音识别校正装置,其包括:语音识别模块、空洞标记模块、文本对齐模块、样本构造模块,其中,所述语音识别模块,用于获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据;所述空洞标记模块,用于将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;所述文本对齐模块,用于根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;所述样本构造模块,用于将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。
扩展的实施例中,本申请的语音识别校正装置,还包括:候选试样模块,用于调用候选声学模型对多个原始音频数据实施语音识别,识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据;单例计算模块,用于计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率,作为空洞率;统计评分模块,用于统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分;模型选定模块,用于将空洞评分满足预设条件的候选声学模型确定为选定的声学模型。
具体化的实施例中,所述文本对齐模块包括:段落对齐子模块,用于根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐;句子对齐子模块,用于根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐;句子补全子模块,用于根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记;文本完工子模块,用于将完成空洞标记补全的标记音频文本确定为所述的订正音频文本。
进一步的实施例中,所述句子补全子模块包括:句子获取二级子模块,用于获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达;句子匹配二级子模块,用于将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列;对应替换二级子模块,用于将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词,以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记。
进一步的实施例中,所述句子匹配二级子模块包括:矩阵构造三级子模块,用于构造相似度矩阵,以过程表达中的字词为行坐标维度,以原始表达中的字词为列坐标维度,其每个元素用于存储该元素的行坐标维度与列坐标维度之间的相似度;相似度计算三级子模块,用于为该相似度矩阵计算所述行坐标维度与列坐标维度之间的相似度,其中:——对于行坐标维度为非空洞标记的元素,其存储的相似度为其行坐标维度与其列坐标维度之间的相似度,加上其前一行坐标维度与其后一列坐标维度所指向的元素的相似度;——对于行坐标维度为空洞标记的元素,其存储的相似度为如下相似度中的最大值:该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其后一列坐标维度所对应的元素的相似度;路径决策三级子模块,用于根据最大贪心匹配算法,从所述相似度矩阵中最大相似度出发,倒查确定出包含空洞标记相关的元素且由相似度最大的元素所构成的最佳路径,确定该路径所对应的最长公共子序列,其中:——对于行坐标维度为空洞标记的元素,其在先路径节点为如下最大值所在的元素:该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度;——对于行坐标维度的为非空洞标记的元素,其在先路径节点为该元素的前一行坐标维度与其前一列坐标维度所指向的元素。
较佳的实施例中,所述样本构造模块中,该声学模型为所述的选定的声学模型,或相对于所述选定的声学模型具有更低的空洞评分的声学模型。
扩展的实施例中,本申请语音识别校正装置包括如下迭代运行的模型训练模块,用于调用所述样本库中的训练样本对待训练的声学模型实施训练,所述待训练的声学模型根据所述训练样本识别出音频文本,所述监督标签监督所述音频文本而反向传播修正该待训练的声学模型的学习参数,直至该待训练的声学模型被训练至收敛状态。
为解决上述技术问题,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行所述语音识别校正方法的步骤。
为解决上述技术问题本申请实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行所述语音识别校正方法的步骤。
与现有技术相比,本申请具有如下优点:
本申请根据选定的声学模型对原始音频数据进行语音识别,获取到相对应的初步音频文本以及该初步音频文本中各字词的置信度,然后将其中置信度较低的字词替换为空洞标记,构成标记音频文本,这些空洞标记对应的字词,其位置参考信息在整个标记音频文本中得以保留,可以在后续实施文本对齐时被引用和参考,然后又根据与所述原始音频数据相映射的原始音频文本对所述的标记音频文本进行以句子为单位的细粒度的对齐,在对齐后引用原始音频文本中的字词对其中的空洞标记进行补全,最终获取与原始音频数据相对应的经过校正的订正音频文本,前者用作训练样本,后者用作监督标签,存储于样本库,用于声学模型的训练,由此,实现订正音频文本与原始音频数据之间的对应映射关系数据,完成了对原始音频数据相对应的原始音频文本的数据加工。
经过本申请加工而得的订正音频文本,一方面由于其经选定的声学模型识别出的较低置信度的字词已因借鉴原始音频文本而被对齐替换补全,二是在对齐替换实例过程中,较低置信度的字词被以空洞标记临时替换而保留了该部分字词在时序上的位置信息,因此,经过校正所形成的订正音频文本,既能在字词内容上提升准确度,而且也确保了时序上的对应性,因此,本申请所生产制备的训练样本及其监督标签,必然有助于声学模型的训练,使声学模型更易于训练至收敛状态,提升声学模型的训练效率。
此外,本申请生产训练样本的过程,全程自动化,其原始音频数据及其原始音频文本可从公网抓取,故生产成本较低,而自动化过程又进一步确保其产出成品质量较佳,故其生产效率较高,适于推广应用。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的语音识别校正方法的典型实施例的流程示意图;
图2为本申请的语音识别校正方法优选候选声学模型过程的流程示意图;
图3为本申请的语音识别校正方法将标记音频文本转换为订正音频文本过程的流程示意图;
图4为本申请的语音识别校正方法查找最长公共子序列过程的流程示意图;
图5为本申请的语音识别校正方法计算最长公共子序列过程的流程示意图;
图6为本申请的语音识别校正方法中确定最佳路径前的相似度矩阵的示例;
图7为本申请的语音识别校正方法中确定最佳路径后的相似度矩阵的示例;
图8为本申请的语音识别校正方法另一实施例的流程示意图;
图9为本申请的语音识别校正装置的基本结构示意图;
图10为本申请一个实施例的计算机设备的基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请部分技术方案可部署在云端服务器,其可以与业务上相关的服务器实现数据通信连接以协调在线服务,还可与其他相关服务器构成逻辑上相关联的服务机群,来为相关的终端设备例如智能手机、个人计算机、第三方服务器等提供服务。所述的智能手机和个人计算机均可通过公知的网络接入方式接入互联网,与本申请的服务器建立数据通信链路,以便访问和使用所述服务器所提供的服务。
对于服务器而言,一般通过提供在线服务的服务引擎开放相应的程序接口供各种终端设备进行远程调用,本申请中适于部署于服务器的相关技术方案,便可以此种方式实现于服务器中。
本申请所称的计算机程序,即应用程序,以计算机程序语言开发而成,安装于计算机设备中,包括服务器、终端设备等,用于实现本申请所限定的相关功能,除非特别指定,否则与其所采用的开发语言无关。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
请参阅图1所示本申请的语音识别校正方法在其典型实施例中的基本流程示意图,本申请提供的一种语音识别校正方法,被编程为应用程序运行于计算机设备中,其包括如下步骤:
步骤S1000、获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据:
本申请所称的声学模型,可以是各种能实现从音频数据中识别出音频文本的模型,通常,声学模型可以是基于统计的传统模型,例如GMM、HMM等,也可以是基于深度语义学习的神经网络模型,例如DNN、TDNN、CNN-DNN、DFCNN、CLDNN、LACE、CDL等各种本领域技术人员所知的类型。适应当今技术潮流,一般优选神经网络模型来实施本申请的技术方案。应当注意,本申请的实施,不仅依赖于一个能从音频数据中识别出音频文本的能力,还要求其所选取的声学模型在识别出所述的音频文本的同时,能够同步输出该音频文本中各个字词相对应的置信度数据,以便本申请根据各个字词的置信度来做后续的处理。可以理解,本领域技术人员也可通过改进上述的任意一种模型来实现字词的置信度数据的输出。
所述原始音频数据,可以是声音波形文件,也可以是音频的采样数据,或者其他表现形式,其来源对象可以是电影文件、录音文件、有声读物文件、短视频等形式。在获取所述的原始音频数据的同时,应选取具有与音频内容相匹配的原始音频文本。所述的原始音频文本可以是独立存储的文本文件,也可以是从原始音频数据的来源对象中提取而形成的文本信息,或者其他类似形式。
获取所述原始音频数据和原始音频文本的方式,一种典型的实施方式是通过爬虫技术从公网中抓取,当然也可以是人工制备的素材,最终格式化为本申请所需的素材。出于本申请人对知识产权的尊重,所获取的原始音频数据和原始音频文本应尽量避免版权冲突。
所述的音频文本中的字词,是参考不同自然语言而统一的命名,指本申请的声学模型评价置信度的音频文本中的一个基本单位,例如英文中的单词,或者中文的单字或词语等,甚至在一些场景中也可以是由多个字母组成的类似于词根的词素,具体视声学模型的算法而定,并不影响本申请的实施。
本申请可以从现实中已有的候选声学模型选定一个声学模型,用于对所述的原始音频数据进行语音识别,以获得该原始音频数据相对应的初步音频文本。从已有的候选声学模型中选定一个声学模型的方法,将在本申请后续的一个实施例中详细揭示,此处暂且按下不表。通常,被选定的声学模型预先被训练至收敛状态,或者被训练至具有预期的识别准确率。尽管如此,仍可理解,该选定的声学模型所识别出的音频文本中的一个或数个字词,依然可能存在较低的置信度。
所述置信度,由声学模型输出,用于描述音频文本中其所对应的字词的准确度,或称声学模型对该字词的准确度的信心指数,也即,字词的置信度越高,表征声学模型对该字词的识别信心更高;字词的置信度越低,表征声学模型对该字词的识别信心更低。
被申请选定的声学模型从原始音频数据中识别出的初步音频文本及其中字词的置信度数据的一个示例见下表:
arguably the reputations of napoleon aaa sixteen bbb Charles ccc
0.96 0.99 0.97 0.98 0.91 0.31 0.90 0.22 0.91 0.56
根据该表可以看出,同一个句子中,不同的字词的置信度不同,有高有低,其中置信度较高的字词是声学模型较有信心的,置信度较低的字词则是信心指数偏低的。
步骤S2000、将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本:
鉴于选定的声学模型所输出的初步音频文本的置信度参差不齐,为了提升所述初步音频文本的识别质量,本申请将结合原始音频数据相对应的原始音频文本对初步音频文本中置信度偏低的字词进行标记,将其替换为空洞标记。
为了区分置信度高低,本申请采用一个预设阈值来进行评估。该预设阈值通常是根据本领域技术人员的先验知识,或者根据对所制备的训练样本的精度要求而灵活设定的,是基于经验确定的。例如,参照上述示例,可以将置信度对应的预设阈值设置为0.9,凡是置信度低于该预设阈值的字词,可认为该字词无效,从而采用空洞标记予以替换;凡是置信度高于或等于该预设阈值的字词,则认为该字词有效,予在保留。本示例中,采用保留词“#X#”作为所述的空洞标记,因此,上述示例性初步音频文本及其置信度之间的对应关系,可以获得如下表所示的结果:
Figure BDA0003184495820000111
Figure BDA0003184495820000121
可以看出,初步音频文本中部分置信度较低的字词已全部被替换为所述的空洞标记。尽管空洞标记无法表征文本内容,但却起到了占位的效果,也便保留了正确文本所应处的位置信息,初步音频文本被完成了空洞标记的替换之后,便构成了相应的标记音频文本。
步骤S3000、根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本:
如前所述,标记音频文本中以空洞标记代替了较低置信度的字词,因此,其中的字词之间的位置信息得以保留,在此基础上,利用原始音频文本对标记音频文本进行对齐,便不失其对应性。
所述的原始音频文本,由于其与所述的原始音频数据均关联于同一音频内容,例如对于一场演讲而言,所述原始音频数据是录制了演讲者的说话发声,而所述的原始音频文本则记录了演讲者所言说的语音内容的内容文字,因此,一般来说,原始音频文本与原始音频数据在音频内容上是一一对应的,这种情况下原始音频文本便自然享有标准文本的信息价值,可以此处被作为文本对齐的依据。
对标记音频文本实施文本对齐时,将原始音频文本与标记音频文本相对照,在根据原始音频文本的段落信息实现原始音频文本与标记音频文本的段落相对应的基础上,进一步根据原始音频文本中各段落的句法信息实现每一段落中原始音频文本中的句子与标记音频文本中的句子的一一对应,从而达到文本对齐的目的。可以理解,在文本对齐的过程中,标记音频文本由于部分字词被替换为空洞标记,其位置信息在文本对齐过程中被参考而确保空洞标记的位置信息不被破坏,但在实现句子对齐之后,仍应将空洞标记还原为正确文本。
本领域技术人员知晓,现有技术中有多种文本对齐过程中用到的算法可以确定对齐双方文本的对应关系,可以确定句子与句子间的对应关系的最佳路径,例如基于隐马尔可夫算法HMM、维特比对齐算法Viterbi、自适应长音频文本对齐算法等。本申请后续的实施例将推荐并揭示一种基于动态规划查找最长公共子序列以辅助实现文本对齐的算法,此处暂且按下不表。
将空洞标记还原为正确文本的方法,可以依据在实施句子级的文本对齐所确定的标记音频文本与原始音频文本之间的字词之间的对应关系形成的最佳路径,对应从原始音频文本中复制字词用于替换标记音频文本中的空洞标记,使标记音频文本不再包含空洞标记,而获得订正音频文本。
可以理解,所述标记音频文本中的空洞标记与原始音频文本中的字词之间的位置对应关系,可能是一对一、一对多、多对一的关系,无论如何,本领域技术人员知晓,在实施文本对齐的过程中,可以确定这种对应关系,从而便于对所述空洞标记实施字词替换,实现对标记音频文本的补全。
步骤S4000、将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中:
如前所述,本申请旨在为生产声学模型所需的训练样本提供一种高效的方法,因此,本申请所获得的与原始音频数据相对应的所述订正音频文本,便构成了该原始音频数据的实现了音、文对齐且准确度可信的字幕信息,因此,可以将所述原始音频数据与其相对应的订正音频文本用于实施声学模型的训练,其中,原始音频数据作为声学模型的训练样本,订正音频文本作为声学模型的监督标签,所述声学模型根据监督标签监督其从所述原始音频数据中识别的音频文本与监督标签之间的误差,根据该误差反向传播修正识别过程中的学习参数,不断迭代使声学模型达致收敛。
为此,可以预构建一个用于声学模型训练的样本库,该样本库中存储所述原始音频数据与其订正音频文本之间的映射关系数据,其中原始音频数据被标记为训练样本,订正音频文本则标记为监督标签,当需要实施声学模型训练时,对应调用所述的训练样本及监督标签对其实施一次训练。
以本申请所制备的海量的原始音频数据构成的训练样本与其相对应的监督标签源源不断对所述的声学模型实施迭代训练,随着迭代训练的次数不断提升,声学模型的语音识别能力也将不断提升,最终达致损失函数收敛的目的。
此处利用本申请制备的原始音频数据及相应的订正音频文本实施训练的声学模型,既可以是本申请所述的选定的候选模型,也可以是其他待训练的声学模型,一般是本领域技术人员所知晓的具有深层语义学习能力的声学模型,或者其他具有同类能力但待实现而又能依赖于本申请制备的相关数据进行训练的声学模型,无论何一声学模型,只要能将本申请的原始音频数据及相应的订正音频文本作为训练数据,则均能使本申请的创造精神得以体现。
可以理解,当以本申请所制备的相关训练数据训练出一个声学模型之后,该声学模型同理可被循环用于制备本申请所述的相关训练数据,由此不断提升识别后的初步音频文本的准确度,低成本地建构出半监督的学习机制。
由此可见,本实施例根据选定的声学模型对原始音频数据进行语音识别,获取到相对应的初步音频文本以及该初步音频文本中各字词的置信度,然后将其中置信度较低的字词替换为空洞标记,构成标记音频文本,这些空洞标记对应的字词,其位置参考信息在整个标记音频文本中得以保留,可以在后续实施文本对齐时被引用和参考,然后又根据与所述原始音频数据相映射的原始音频文本对所述的标记音频文本进行以句子为单位的细粒度的对齐,在对齐后引用原始音频文本中的字词对其中的空洞标记进行补全,最终获取与原始音频数据相对应的经过校正的订正音频文本,前者用作训练样本,后者用作监督标签,存储于样本库,用于声学模型的训练,由此,实现订正音频文本与原始音频数据之间的对应映射关系数据,完成了对原始音频数据相对应的原始音频文本的数据加工。
经过本申请加工而得的订正音频文本,一方面由于其经选定的声学模型识别出的较低置信度的字词已因借鉴原始音频文本而被对齐替换补全,二是在对齐替换实例过程中,较低置信度的字词被以空洞标记临时替换而保留了该部分字词在时序上的位置信息,因此,经过校正所形成的订正音频文本,既能在字词内容上提升准确度,而且也确保了时序上的对应性,因此,本申请所生产制备的训练样本及其监督标签,必然有助于声学模型的训练,使声学模型更易于训练至收敛状态,提升声学模型的训练效率。
此外,本申请生产训练样本的过程,全程自动化,其原始音频数据及其原始音频文本可从公网抓取,故生产成本较低,而自动化过程又进一步确保其产出成品质量较佳,故其生产效率较高,适于推广应用。
请参阅图2,扩展的实施例中,为了从多个候选声学模型中选定本申请进行语音识别所需的声学模型,可以分别对各个候选声学模型进行评分,为此,本申请的语音识别校正方法,包括如下前置步骤:
步骤S0100、调用候选声学模型对多个原始音频数据实施语音识别,识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据:
针对每个候选声学模型,均可用其对多个原始音频数据实施语音识别,然后根据识别结果来判定每个候选声学模型的优劣。
结合前文对声学模型的功能的说明,可以理解,当声学模型对一个原始音频数据实施语音识别之后,便获得其对应的初步音频文本,及该初步音频文本内各个字词相对应的置信度数据。
步骤S0200、计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率,作为空洞率:
对于每个候选声学模型所提取的每个初步音频文本,可以参阅前文的实施例,根据预设阈值来做空洞标记,即将其中置信度低于预设阈值的字词替换为空洞标记。所述的预设阈值,如前文示例中的0.9。低于所述预设阈值的字词本质上是被视为无效词对待,因此,可以同时统计无效词的个数,然后求取无效词数量与初步音频文本中字词总数之间的比率,作为空洞率。例如延用前文示例,即下表示例中:
arguably the reputations of napoleon #X# sixteen #X# Charles #X#
0.96 0.99 0.97 0.98 0.91 0.31 0.90 0.22 0.91 0.56
其中包括3个被替换为空洞标记“#X#”的字词,初步音频文本字词总量为10个,因此,可以确定该初步音频文本的其空洞率为0.3。
每个原始音频数据识别出的初步音频文本均可以此一方式计算获取其空洞率,计算公式表示如下:
Figure BDA0003184495820000151
应当理解,造成声学模型出现无效词的原因,一般是声学模型所依赖的词典不存在对应的词,或者声学模型的训练程度不足等原因所导致的,总之,一定概率的无效词的存在,在声学模型中是正常现象。
步骤S0300、统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分:
对于每一候选声学模型而言,一般采用多个原始音频数据对其进行测试,以获取到多个空洞率数据,然后均对其所有空洞率数据求取均值,获得空洞评分,公式示意如下:
Figure BDA0003184495820000152
说明:n为原始音频数据总数
借助这一公式,可以求出每个候选声学模型的空洞评分,该空洞评分一般是依赖多个原始音频数据的识别所得的初步音频文本的空洞率进行计算的,因此较之依赖单个初步音频文本的空洞率来评价候选声学模型的优劣更为客观。
步骤S0400、将空洞评分满足预设条件的候选声学模型确定为选定的声学模型:
为了从多个候选声学模型中选取合适的声学模型用于本申请中为原始音频数据识别出初步音频文本,因此,需要选取具有合适的空洞评分的候选声学模型。
可以理解,如果空洞评分较高,例如高于0.5,意味着初步音频文本中一半的字词是无效词,这种情况下采用这种候选声学模型服务于本申请的技术方案并非最优方案;如果空间评分较低,例如低于0.1,尽管也可用,但有大材小用之嫌;因此,可以根据经验来确定,例如选取空洞评分低于0.3的候选声学模型作为本申请选定的声学模型,更为优选。可见,本领域技术人员可以为候选声学模型的选取预先确定一个预设条件,例如空洞评分低于0.3,或低于0.3且高于0.1等等,根据预设条件来选取候选声学模型作为本申请实施语音识别所需的选定的声学模型即可。
本申请一个据此改进的实施例中,可以将本申请所制备的训练数据用于训练一个比所述选定的声学模型具有更低的空洞评分的声学模型,也即所述步骤S4000中所采用的声学模型,以便被训练的声学模型不仅具有较高的准确率,还能在本申请的训练数据的协助下,从音频数据中识别出更为精准对齐的音频文本。
本实施例表明,用于实施制备本申请的所称的训练数据的声学模型可以是识别能力相对粗糙的声学模型,此举进一步体现了本申请的优势,即利用识别能力相对粗糙的声学模型可以从作为训练样本的原始音频数据中制备出精准对齐转义的适于作为监督标签的订正音频文本,然后反过来为所述选定的声学模型或者其他声学模型的训练提供更为有效的训练数据,如此循环,可以不断提升声学模型的识别能力。本实施例中算法易实现,评价效率高,有助于快速从候选声学模型中候选出合适的声学模型,确保本申请的技术方案的实施。
请参阅图3,具体化的实施例中,所述步骤S3000,包括如下步骤:
步骤S3100、根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐:
由于所述原始音频文本一般按照段落组织,包含了段落信息,因此,本领域技术人员可以根据该段落信息对所述标记音频文本实施段落对齐。
步骤S3200、根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐:
同理,原始音频文本的每一段落是按句子组织的,因此,本领域技术人员可以以句子为单位,根据原始音频文本中的句法信息,对标记音频文本实施句子对齐,构成类似于平行语料的结构。此处,本领域技术人员可以理解,所称的句子,适宜以语法名词中的分句为准,是适于计算机程序所理解的单位,而无需严格遵守一国语言语法中完整表述一句话的形式而严格依赖个别标点符号进行划分。
由于标记音频文本中的空洞标记依然存在,起到占位的作用,保留了被替换的字词的位置信息,因此,也可理解,在实施文本对齐时,即使标记音频文本中存在空洞标记,也能够被顺利对齐。
步骤S3300、根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记:
如前所述,本领域技术人员知晓,现有技术中有多种文本对齐过程中用到的算法可以确定对齐双方文本的对应关系,可以确定句子与句子间的对应关系的最佳路径,例如基于隐马尔可夫算法HMM、维特比对齐算法Viterbi、自适应长音频文本对齐算法等。本申请后续的实施例将推荐并揭示一种基于动态规划查找最长公共子序列以辅助实现文本对齐的算法,此处暂且按下不表。
将空洞标记还原为正确文本的方法,可以依据在实施句子级的文本对齐所确定的标记音频文本与原始音频文本之间的字词之间的对应关系形成的最佳路径,对应从原始音频文本中复制字词用于替换标记音频文本中的空洞标记,使标记音频文本不再包含空洞标记,而获得订正音频文本。
可以理解,所述标记音频文本中的空洞标记与原始音频文本中的字词之间的位置对应关系,可能是一对一、一对多、多对一的关系,无论如何,本领域技术人员知晓,在实施文本对齐的过程中,可以确定这种对应关系,从而便于对所述空洞标记实施字词替换,实现对标记音频文本的补全。
步骤S3400、将完成空洞标记补全的标记音频文本确定为所述的订正音频文本:
当一个标记音频文本中的空洞标记被以原始音频文本中位置关系对应部分的字词替换之后,该标记音频文本便成为订正音频文本。所述的订正音频文本较之其前身——初步音频文本,无论是其整句内容,还是其内部的每一个位置上的字词,理论上具有现实上的更高的置信度,因此,是质量较佳的识别后音频文本,其与所述的原始音频文本之间,由其订正音频文本不仅有完整的字词起表意作用,且经所述选定的声学模型进行了对齐,因此,订正音频文本可以替换原始音频文本,成为其原始音频数据的更高质量的对应音频文本数据。
本实施例通过深化实施文本对齐的过程,为本申请的实施提出了更便于编程实现的方案,可见,本实施例更方便实现,有助于提升本申请技术方案的开发效率。
请参阅图4,进一步的实施例中,为实现一种基于动态规划查找最长公共子序列的算法,所述步骤S3300,包括如下步骤:
步骤S3310、获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达:
可以理解,与原始音频数据中的一句语音相对应的同一个句子,其在原始音频文本中存在一个句子文本,称之为原始表达,而在标记音频文本中也存在一个对应的句子文本,称之为过程表达。当需要确定原始表达与过程表达之间对应关系的最佳路径时,需要分别获取同一个句子文本在原始音频文本中的原始表达以及在标记音频文本中的过程表达。
步骤S3320、将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列:
根据本申请的基于动态规划查找最长公共子序列的算法的思想,可以将原始表达和过程表达视为两个由字词构成的序列,在此基础上,利用两者之间所体现的字词间的相似度的关系,根据相似度关系确定出包含空洞标记与字词之间对应关系的相似度最佳路径,该最佳路径本质上即确定了两个序列之间包含空洞标记在内的字词间对应关系的最长公共子序列。
本申请中,用于寻找最长公共子序列的基于动态规划的算法,也即基于动态规划的最长公共子序列算法,为本领域技术人员所知晓。然而,考虑到本申请中两个序列中,一个序列的空洞标记与另一序列的字词之间可能存在一对一、一对多、多对一等多种关系,因此,还可以在该算法的基础上做出改进,使所述最佳路径能够依据所述的多种关系中的任意一种进行确定,更为灵活地建立起两个序列之间的句子中字词的对应关系。为此,本申请后续的实施例中,将进一步揭示适应性的改进,此处暂且不表。
步骤S3330、将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词,以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记:
当确定所述的最长公共子序列之后,标记音频文本中的空洞标记到原始音频文本中的字词的映射关系便得以确定,由此,标记音频文本中的所有字词到原始音频文本的所有字词之间的映射关系也得以确定,据此,将原始音频文本中相映射的字词对应复制出来并替换相应的空洞标记,便可实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记,标记文本将成为所述的订正音频文本。
本实施例进一步优选利用基于动态规划查找最长公共子序列的算法来实现对本申请的标记音频文本的空洞标记的还原,兼容了处理空洞标记与字词间一对一、一对多、多对一的对应关系的能力,能够有效地对声学模型的错误识别进行有效的勘误,使所获得的订正音频文本具有更高的识别精准度,当将其用于实施声学模型训练时,具有更可靠的监督作用。
请参阅图5,为优化所述的基于动态规划查找最长公共子序列的算法而提出的实施例中,所述步骤S3320,包括如下步骤:
步骤S3321、构造相似度矩阵,以过程表达中的字词为行坐标维度,以原始表达中的字词为列坐标维度,其每个元素用于存储该元素的行坐标维度与列坐标维度之间的相似度:
此处请允许进行示例说明。设过程表达的序列内容为{a,#,#,c,#,f,h,j},设原始表达的序列内容表达式为{a,b,c,d,e,f,g,h,i,j},“#”表示空洞标记。为了方便计算,将过程表达、原始表达中的各个字词视为维度,以其中的过程表达的字词(包括空洞标记)为行坐标维度,以其中的原始表达中的字词为列坐标维度,构造相似度矩阵如图6所示。在该图所示的相似度矩阵中,可以看出,每个元素用于存储一个相似度数值,表征该元素所在的行坐标维度与其所在的列坐标维度之间的相似度数据。
步骤S3322、为该相似度矩阵计算所述行坐标维度与列坐标维度之间的相似度:
根据所构造的相似度矩阵的结构,可以计算过程表达与原始表达之间两两字词之间的相似度。至于两两字词之间的相似度的算法为本领域技术人员所熟知,此处以如下简要示例说明:
Figure BDA0003184495820000201
该公式表示,当行坐标维度wordi与列坐标维度wordj表示的两字词相同时,其两者所指向的元素的相似度数据similar(wordi,wordj)被设置为1,反之,当两字词不同时,其两者所指向的元素的相似度数据similar(wordi,wordj)被设置为0。
在一个进一步优化的实施例中,可以对相似度的结果加个经验阈值theta,这样如果相似度低于theta就置成0,因此,相似度计算公式可以改进为:
Figure BDA0003184495820000202
其中,变量score表示行坐标维度wordi、列坐标维度wordj所指向的元素的相似度similar(wordi,wordj),当根据similar(.)函数计算出来的元素的相似度超过该经验阈值theta时,便保留similar(.)函数计算出来的相似度,否则将该元素的相似度置为0值。由此可以进一步使相似度得以更清晰的体现。
而为了便于确定空洞标记相对应的最佳路径,则在计算相似度矩阵中各个元素的相似度s[i][j]时,可以按照以下的公式来计算:
Figure BDA0003184495820000203
该公式的含义可以表述如下:
——对于行坐标维度wordi为非空洞标记的元素,其存储的相似度s[i][j]为其行坐标维度与其列坐标维度之间的相似度similar(wordi,wordj),加上其前一行坐标维度与其后一列坐标维度所指向的元素的相似度s[i-1][j+1];
——对于行坐标维度wordi为空洞标记的元素,其存储的相似度s[i][j]为如下相似度中的最大值:该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度s[i][j-1]、该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度s[i-1][j]、该元素的前一行坐标维度与其后一列坐标维度所对应的元素的相似度s[i-1][j+1]。
可以看出,该公式对涉及空洞标记的相似度做了数学上的适度放大处理,以便后续在确定所述的最佳路径是方便查找到与空洞标记相对应的元素,从而构造所述的最佳路径。
此处也应当注意到引入了参数正则项参数λ,该参数起到衰减值的作用,方便体现一对多、多对一的对应关系,例如:“as well as”与“as#X#as”和“as#X##X#as”匹配,由于λ,更容易匹配到“as#X#as”,此举也是本申请对传统算法的改进手段之一,进一步解决了一对多、多对一难以对应的难题。
此外,为了便于后续确定所述的最佳路径,在计算每个元素的相似度的过程中,还利用如下公式确定当前最高的相似度:
bestScore:=max(S[i][j],bestScore)
该公式用于在当前最高相似度bestScore与当前元素的相似度之间求最大值,若当前元素的相似度S[i][j]并非最大值,则保留原有的最高相似度bestScore,否则则将当前元素的相似度s[i][j]赋值为当前的最高相似度bestScore,因此,可以理解,bestScore所记录的相似度数值即为相似度矩阵的当前最高相似度,该变量也可以指向最高相似度所在的元素以便直接寻址。
步骤S3323、根据最大贪心匹配算法,从所述相似度矩阵中最大相似度出发,倒查确定出包含空洞标记相关的元素且由相似度最大的元素所构成的最佳路径,确定该路径所对应的最长公共子序列:
最大贪心匹配算法,简称贪心算法,又称贪婪算法,是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,算法得到的是在某种意义上的局部最优解。本领域技术人员熟知最大贪心匹配算法的原理及其具体实现,因此恕不对其进行详细说明。
适应本实施例,可以采用如下的公式来应用所述的最大贪心匹配算法,以确定出包含空洞标记相关的元素的最佳路径:
Figure BDA0003184495820000211
该公式表示的意义概要说明如下:
——对于行坐标维度为空洞标记的元素,其在先路径节点为如下最大值所在的元素:该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度s[i-1][j]、该元素的前一行坐标维度与其前一列坐标维度所指向的元素的相似度s[i-1][j-1]、该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度s[i][j-1],可以看出,三个元素便是当前元素相似度矩阵中所居左上角、上方、左侧相对应的元素,在这三个元素中取最大相似度,以便确定当前元素节点的上一相邻元素节点,以便构成最佳路径;
——对于行坐标维度的为非空洞标记的元素,当然也考虑当前元素的相似度不为0,则其在先路径节点为该元素的前一行坐标维度与其前一列坐标维度所指向的元素[i-1][j-1],即取当前元素的左上角的元素作为所述的在先路径节点。
可以理解,通过适用最大贪心算法,可以确定出一个包含空洞标记相关的元素的,且各节点元素的相似度为相邻关系中最大的最佳路径,如图7所示,其两个序列的最佳路径的映射关系为:a>a,#>a,#>b,c>c,#>d,#>e,f>f。该最佳路径所指示的位置信息,即为所述原始表达与所述过程表达两个序列的最长公共子序列,据此即可确定原始表达与过程表达中的字词之间的对应关系,可以据此进行标记音频文本中的空洞标记的替换补全。
本实施例全面优化了基于动态规划查找最长公共子序列的算法,借此实现了对标记音频文本的校正,能够兼容处理其中空洞标记与原始音频文本的一对多、多对一、一对一的关系,使根据原始音频文本对标记音频文本的修正更为准确,并且,算法基于矩阵运算实现,计算高效,对系统运行资源占用较低,响应迅速。
请参阅图8,本申请实现对其所制备的训练数据的利用的扩展的实施例中,本申请语音识别校正方法包括如下迭代执行的步骤S5000、调用所述样本库中的训练样本对待训练的声学模型实施训练,所述待训练的声学模型根据所述训练样本识别出音频文本,所述监督标签监督所述音频文本而反向传播修正该待训练的声学模型的学习参数,直至该待训练的声学模型被训练至收敛状态。
可以理解,本实施例将本申请所制备的训练数据实用化,将其用于训练具体的声学模型,经其训练的声学模型不仅能够获得对齐准确的音频文本,且能由于训练样本和监督标签的高质量而实现快速收敛,节省训练所需的时间成本。
请参阅图9,本申请实施例还提供一种语音识别校正装置,其包括:语音识别模块1000、空洞标记模块2000、文本对齐模块3000、样本构造模块4000,其中,所述语音识别模块1000,用于获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据;所述空洞标记模块2000,用于将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;所述文本对齐模块3000,用于根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;所述样本构造模块4000,用于将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。
扩展的实施例中,本申请的语音识别校正装置,还包括:候选试样模块,用于调用候选声学模型对多个原始音频数据实施语音识别,识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据;单例计算模块,用于计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率,作为空洞率;统计评分模块,用于统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分;模型选定模块,用于将空洞评分满足预设条件的候选声学模型确定为选定的声学模型。
具体化的实施例中,所述文本对齐模块3000包括:段落对齐子模块,用于根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐;句子对齐子模块,用于根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐;句子补全子模块,用于根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记;文本完工子模块,用于将完成空洞标记补全的标记音频文本确定为所述的订正音频文本。
进一步的实施例中,所述句子补全子模块包括:句子获取二级子模块,用于获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达;句子匹配二级子模块,用于将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列;对应替换二级子模块,用于将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词,以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记。
进一步的实施例中,所述句子匹配二级子模块包括:矩阵构造三级子模块,用于构造相似度矩阵,以过程表达中的字词为行坐标维度,以原始表达中的字词为列坐标维度,其每个元素用于存储该元素的行坐标维度与列坐标维度之间的相似度;相似度计算三级子模块,用于为该相似度矩阵计算所述行坐标维度与列坐标维度之间的相似度,其中:——对于行坐标维度为非空洞标记的元素,其存储的相似度为其行坐标维度与其列坐标维度之间的相似度,加上其前一行坐标维度与其后一列坐标维度所指向的元素的相似度;——对于行坐标维度为空洞标记的元素,其存储的相似度为如下相似度中的最大值:该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其后一列坐标维度所对应的元素的相似度;路径决策三级子模块,用于根据最大贪心匹配算法,从所述相似度矩阵中最大相似度出发,倒查确定出包含空洞标记相关的元素且由相似度最大的元素所构成的最佳路径,确定该路径所对应的最长公共子序列,其中:——对于行坐标维度为空洞标记的元素,其在先路径节点为如下最大值所在的元素:该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度;——对于行坐标维度的为非空洞标记的元素,其在先路径节点为该元素的前一行坐标维度与其前一列坐标维度所指向的元素。
较佳的实施例中,所述样本构造模块4000中,该声学模型为所述的选定的声学模型,或相对于所述选定的声学模型具有更低的空洞评分的声学模型。
扩展的实施例中,本申请语音识别校正装置包括如下迭代运行的模型训练模块,用于调用所述样本库中的训练样本对待训练的声学模型实施训练,所述待训练的声学模型根据所述训练样本识别出音频文本,所述监督标签监督所述音频文本而反向传播修正该待训练的声学模型的学习参数,直至该待训练的声学模型被训练至收敛状态。
本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种语音识别校正方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种语音识别校正方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图9中各个模块/子模块的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有语音识别校正装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例的语音识别校正方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能够对关联于相同语音内容的音频文本和音频数据所构成的脏数据进行高效地清洗,从而制备出声学模型训练所需的训练数据,能够节省声学模型的训练数据的制备成本,且能使被训练的声学模型快速收敛。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种语音识别校正方法,其特征在于,包括如下步骤:
获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据;
将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;
根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;
将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。
2.根据权利要求1所述的语音识别校正方法,其特征在于,包括如下前置步骤:
调用候选声学模型对多个原始音频数据实施语音识别,识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据;
计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率,作为空洞率;
统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分;
将空洞评分满足预设条件的候选声学模型确定为选定的声学模型。
3.根据权利要求1所述的语音识别校正方法,其特征在于,根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本,包括如下步骤:
根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐;
根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐;
根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记;
将完成空洞标记补全的标记音频文本确定为所述的订正音频文本。
4.根据权利要求3所述的语音识别校正方法,其特征在于,根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记,包括如下步骤:
获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达;
将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列;
将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词,以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记。
5.根据权利要求4所述的语音识别校正方法,其特征在于,将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列,包括如下步骤:
构造相似度矩阵,以过程表达中的字词为行坐标维度,以原始表达中的字词为列坐标维度,其每个元素用于存储该元素的行坐标维度与列坐标维度之间的相似度;
为该相似度矩阵计算所述行坐标维度与列坐标维度之间的相似度;
根据最大贪心匹配算法,从所述相似度矩阵中最大相似度出发,倒查确定出包含空洞标记相关的元素且由相似度最大的元素所构成的最佳路径,确定该路径所对应的最长公共子序列。
6.根据权利要求2中所述的语音识别校正方法,其特征在于,将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中的步骤,该声学模型为所述的选定的声学模型,或相对于所述选定的声学模型具有更低的空洞评分的声学模型。
7.根据权利要求1至6中任意一项所述的语音识别校正方法,其特征在于,其包括如下迭代执行的步骤:
调用所述样本库中的训练样本对待训练的声学模型实施训练,所述待训练的声学模型根据所述训练样本识别出音频文本,所述监督标签监督所述音频文本而反向传播修正该待训练的声学模型的学习参数,直至该待训练的声学模型被训练至收敛状态。
8.一种语音识别校正装置,其特征在于,其包括:
语音识别模块,用于获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据;
空洞标记模块,用于将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;
文本对齐模块,用于根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;
样本构造模块,用于将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述的语音识别校正方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述的语音识别校正的方法的步骤。
CN202110857039.5A 2021-07-28 2021-07-28 语音识别校正方法及其相应的装置、设备、介质 Active CN113539241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110857039.5A CN113539241B (zh) 2021-07-28 2021-07-28 语音识别校正方法及其相应的装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110857039.5A CN113539241B (zh) 2021-07-28 2021-07-28 语音识别校正方法及其相应的装置、设备、介质

Publications (2)

Publication Number Publication Date
CN113539241A true CN113539241A (zh) 2021-10-22
CN113539241B CN113539241B (zh) 2023-04-25

Family

ID=78121212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110857039.5A Active CN113539241B (zh) 2021-07-28 2021-07-28 语音识别校正方法及其相应的装置、设备、介质

Country Status (1)

Country Link
CN (1) CN113539241B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579000A (zh) * 2022-12-07 2023-01-06 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
CN111326144A (zh) * 2020-02-28 2020-06-23 网易(杭州)网络有限公司 语音数据处理方法、装置、介质和计算设备
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN112037769A (zh) * 2020-07-28 2020-12-04 出门问问信息科技有限公司 一种训练数据生成方法、装置以及计算机可读存储介质
US20210082399A1 (en) * 2019-09-13 2021-03-18 International Business Machines Corporation Aligning spike timing of models
CN112735392A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质
CN112992125A (zh) * 2021-04-20 2021-06-18 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
US20210082399A1 (en) * 2019-09-13 2021-03-18 International Business Machines Corporation Aligning spike timing of models
CN111326144A (zh) * 2020-02-28 2020-06-23 网易(杭州)网络有限公司 语音数据处理方法、装置、介质和计算设备
CN111341305A (zh) * 2020-03-05 2020-06-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
CN112037769A (zh) * 2020-07-28 2020-12-04 出门问问信息科技有限公司 一种训练数据生成方法、装置以及计算机可读存储介质
CN112735392A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质
CN112992125A (zh) * 2021-04-20 2021-06-18 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115579000A (zh) * 2022-12-07 2023-01-06 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统
CN115579000B (zh) * 2022-12-07 2023-03-03 中诚华隆计算机技术有限公司 一种用于语音识别芯片的智能修正方法及系统

Also Published As

Publication number Publication date
CN113539241B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
US11741309B2 (en) Templated rule-based data augmentation for intent extraction
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN108389577B (zh) 优化语音识别声学模型的方法、系统、设备及存储介质
US10176804B2 (en) Analyzing textual data
WO2021189851A1 (zh) 文本纠错方法、系统、设备及可读存储介质
KR102668530B1 (ko) 음성 인식 방법, 장치 및 디바이스, 및 저장 매체
JP2015075706A (ja) 誤り修正モデル学習装置、及びプログラム
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别系统
WO2020215683A1 (zh) 基于卷积神经网络的语义识别方法及装置、非易失性可读存储介质、计算机设备
US11170765B2 (en) Contextual multi-channel speech to text
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
JP7475592B2 (ja) テキスト情報の中からターゲット単語と対応する単語を識別する方法(method for identify a word corresponding to a target word in text information)
CN112948561A (zh) 一种问答知识库自动扩建的方法和装置
US12094453B2 (en) Fast emit low-latency streaming ASR with sequence-level emission regularization utilizing forward and backward probabilities between nodes of an alignment lattice
CN113539241A (zh) 语音识别校正方法及其相应的装置、设备、介质
CN118013031A (zh) 提示词的确定方法、装置、计算机设备以及存储介质
KR101482148B1 (ko) 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
CN113204966B (zh) 语料增广方法、装置、设备及存储介质
KR20230156795A (ko) 단어 분할 규칙화
CN112966501A (zh) 一种新词发现方法、系统、终端及介质
CN102156693B (zh) 一种盲文输入方法和系统
Dinarelli et al. Concept segmentation and labeling for conversational speech
US8548800B2 (en) Substitution, insertion, and deletion (SID) distance and voice impressions detector (VID) distance
JP7535355B1 (ja) テキスト情報を修正する方法{method for editing text information}
JP7333490B1 (ja) 音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant