CN112686041A

CN112686041A - 一种拼音标注方法及装置

Info

Publication number: CN112686041A
Application number: CN202110013709.5A
Authority: CN
Inventors: 杨明祺; 马楠; 高强; 蒋荣正; 夏龙; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-20

Abstract

本申请提供一种拼音标注方法及装置，其中所述拼音标注方法包括：对待处理文本进行分词处理生成多个词单元集合，所述待处理文本中包含至少一个多音字，根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注，生成所述多个词单元集合分别对应的初始拼音序列，对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据，提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，并根据预测结果确定所述至少一个多音字的拼音标注结果。

Description

一种拼音标注方法及装置

技术领域

本申请涉及文本处理技术领域，特别涉及一种拼音标注方法及装置、计算设备和计算机可读存储介质。

背景技术

随着互联网技术的发展，更多的应用场景对数据的数量和质量要求变得越来越高，并且不同的场景所使用数据也是不同的，在机器学习领域中，不同的使用需求将构建不同的模型，而不同的模型也需要使用不同的样本数据进行训练，如图像处理场景，就需要使用图像数据训练该场景中应用的模型；如音频处理场景，就需要使用音频数据训练该场景中应用的模型；如文本处理场景，就需要使用文本数据训练该场景中应用的模型等；而为了能够训练出满足使用需求的模型，需要在数据准备阶段对样本数据进行预处理，如打标，构建样本对等等，都是满足模型训练需求的准备操作，该过程直接影响着训练出的模型的精准度，现有技术在对样本数据进行打标时，都是通过人工标注的方式实现，不仅效率低下，而且人工标注的方式无法保证准度率，进而容易在训练模型时造成误差，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本申请实施例提供了一种拼音标注方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种拼音标注方法，包括：

对待处理文本进行分词处理生成多个词单元集合，所述待处理文本中包含至少一个多音字；

根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注，生成所述多个词单元集合分别对应的初始拼音序列；

对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据；

提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，并根据预测结果确定所述至少一个多音字的拼音标注结果。

可选地，所述对待处理文本进行分词处理生成多个词单元集合，包括：

通过匹配算法对所述待处理文本进行分词处理，生成多个词单元集合。

通过负向最大匹配算法对所述待处理文本进行分词处理，生成多个词单元集合。

查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元，其中，i从1开始取值且i为正整数；

若否，则将所述第i个词单元作为一个词单元集合；

i自增1，并返回执行所述查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元的步骤。

可选地，若所述查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元的运行结果为是，则所述对待处理文本进行分词处理生成多个词单元集合，还包括：

查询所述拼音词表中是否包含由第i至第i+n个词单元组成的词组，其中，n从1开始取值，且n为正整数；

若是，则n自增1，在i+n小于等于所述待处理文本的词单元总数的情况下，返回执行所述查询所述拼音词表中是否包含由第i至第i+n个词单元组成的词组的步骤；

若否，则将由第i至第i+n个词单元组成的词组作为一个词单元集合；

n自增1，在i+n小于等于所述待处理文本的词单元总数的情况下，将第i+n个词单元作为第i个词单元，并返回执行所述查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元的步骤。

可选地，所述根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音信息标注，生成所述多个词单元集合分别对应的初始拼音序列，包括：

查询所述拼音词表中是否包含所述多个词单元集合中每个词单元集合对应的拼音序列；

若是，则将所述拼音序列作为所述每个词单元集合分别对应的初始拼音序列；

若否，则按照所述每个词单元集合中单音字的发音对所述单音字进行拼音标注，并按照预设拼音标注规则对所述每个词单元集合中的多音字进行拼音标注，生成所述每个词单元集合分别对应的初始拼音序列。

可选地，所述基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，包括：

将所述第一音频特征和所述中间拼音序列输入预先训练的打分模型，对所述至少一个多音字进行拼音打分预测。

可选地，所述打分模型通过以下方式进行训练：

获取拼音标注样本数据以及所述拼音标注样本数据对应的音频信息；

基于预设的特征提取算法提取所述音频信息的第二音频特征，其中，所述第二音频特征包括所述音频信息的音量、音色以及波形包络；

基于所述拼音标注样本数据以及所述第二音频特征对初始打分模型进行训练，以获得所述打分模型。

可选地，所述提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，包括：

基于预设的特征提取算法提取所述语音数据的第一音频特征，其中，所述第一音频特征包括所述语音数据的音量、音色以及波形包络；

将所述中间拼音序列与所述第一音频特征进行对齐处理，并将对齐结果输入打分模型对所述至少一个多音字进行拼音打分预测。

可选地，所述拼音标注方法，还包括：

根据所述至少一个多音字的拼音标注结果对所述中间拼音序列进行更新，并基于更新后的中间拼音序列对所述语音数据进行更新；

根据更新后的中间拼音序列以及更新后的语音数据对所述打分模型进行优化。

可选地，所述根据所述至少一个多音字的拼音标注结果对所述中间拼音序列进行更新，包括：

将包含多音字的每个词单元集合分别对应的初始拼音序列进行排列组合，生成组合结果；

基于所述组合结果以及所述待处理文本中所述多个词单元集合的连接关系，对所述多个词单元集合分别对应的初始拼音序列进行拼接，以对所述中间拼音序列进行更新。

可选地，所述预设的特征提取算法包括梅尔频率倒谱系数。

根据本申请实施例的第二方面，提供了一种拼音标注装置，包括：

分词模块，被配置为对待处理文本进行分词处理生成多个词单元集合，所述待处理文本中包含至少一个多音字；

标注模块，被配置为根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注，生成所述多个词单元集合分别对应的初始拼音序列；

拼接模块，被配置为对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据；

预测模块，被配置为提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，并根据预测结果确定所述至少一个多音字的拼音标注结果。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述拼音标注方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述拼音标注方法的步骤。

本申请实施例中，通过对待处理文本进行分词处理生成多个词单元集合，所述待处理文本中包含至少一个多音字，根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注，生成所述多个词单元集合分别对应的初始拼音序列，对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据，提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，并根据预测结果确定所述至少一个多音字的拼音标注结果。

本说明书实施例实现了在对待处理文本中的多音字进行拼音标注时，可以通过打分模型对多音字的读音进行打分预测的方式确定多音字的正确拼音，不仅节省人力物力，还能够有效的保证最后创建的文本拼音组的正确率，实现高效且快捷的完成对待处理文本中多音字的拼音标注，从而有利于提高待处理文本中拼音标注的效率。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的拼音标注方法的流程图；

图3是本申请实施例提供的拼音标注方法的示意图；

图4是本申请实施例提供的拼音标注装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

发音良好度(GOP)：是语音识别模型后验概率的一种扩展，适用于音素级别的发音评分。

基于神经网络的发音良好度(Neural Network-Goodness of Pronunciation，GOP-NN)定义为标准音素和后验概率最高的音素之间的对数音素后验概率比。

口语打分模型：是目前业界主流的口语打分方法。通过给定文本和音频，利用语音识别技术从不同维度对一个人的口语水平进行整体评价。在口语评测领域中，通常根据文本-语音对齐后的音素信息，计算文本中每个字、每个音素的发音良好度(Goodness ofPronunciation，GOP)等特征，根据这些特征去判断说话人的口语水平。

拼音词表：包含所有汉字以及大部分词组的读音，通过这个词表可以查找到多音字在固定词组中的读音。

在本申请中，提供了一种拼音标注方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示拼音标注方法中的步骤。图2示出了根据本申请一实施例的拼音标注方法的流程图，包括步骤202至步骤208。

步骤202，对待处理文本进行分词处理生成多个词单元集合。

本说明书实施例中，所述待处理文本包括但不限于一篇文章或一段语句等，并且所述待处理文本中包含至少一个多音字。

具体的，所述待处理文本即需要对其包含的多音字进行拼音标注的文本，由于在不同语境或者不同场景中，同一个字的发音会存在差异，例如：“为了”和“为难”这两个词组中，“为”的拼音都是“wei”，但前者的发音为“wèi”，而后者的发音则为“wéi”。因此，需结合不同语境对多音字的拼音进行标注，以确保多音字在不同语境中读音的准确性。

本说明书实施例通过对待处理文本进行分词处理生成多个词单元集合，以根据拼音词表对词单元集合中的单音字进行拼音标注，并根据单音字的拼音标注结果以及待处理文本的语音数据对应的音频特征对待处理文本中的多音字进行拼音标注。

具体实施时，可通过匹配算法对所述待处理文本进行分词处理，生成多个词单元集合。

具体的，对待处理文本中的多音字进行拼音标注之前，可对所述待处理文本进行分词处理，将其分割成诸如词、标点符号、数字或字母等语言单元，这些单元被称为词单元，最小的词单元可以是一个词语、一个字、一个标点符号、一个数字等。

由于对待处理文本进行分词处理的目的是为了通过拼音词表中记录的各个单音字或者各个词组的拼音序列对分词生成的词单元集合进行拼音标注，而拼音词表中又记录了很多不同长度的词组，为提高利用拼音词表对词单元集合的词组进行拼音标注的效率，本说明书实施例通过对待处理文本进行词组划分，并且在实际应用中，可通过负向最大匹配算法对所述待处理文本进行分词处理，生成多个词单元集合，具体可通过以下方式实现：

若否，则将所述第i个词单元作为一个词单元集合；

i自增1，并继续查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元；

若是，则查询所述拼音词表中是否包含由第i至第i+n个词单元组成的词组，其中，n从1开始取值，且n为正整数；

n自增1，在i+n小于等于所述待处理文本的词单元总数的情况下，将第i+n个词单元作为第i个词单元，并继续查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元。

仍以待处理文本为“这一规定被解读为医保中断三个月就清零”为例，所述待处理文本的第1个词单元即为“这”，因此，可先查询预先建立的拼音词表中是否包含词单元“这”，若不包含词单元“这”，则直接将词单元“这”作为一个词单元集合，并继续查询预先建立的拼音词表中是否包含待处理文本的第2个词单元“一”；若包含词单元“这”，则查询预先建立的拼音词表中是否包含待处理文本的词组“这一”，若不包含词组“这一”，则将词单元“这”作为一个词单元集合，并继续查询预先建立的拼音词表中是否包含待处理文本的词组“一规”；若包含词组“这一”，则继续查询预先建立的拼音词表中是否包含待处理文本的词组“这一规”，以此类推，直至查询到待处理文本的最后一个词单元则结束。

但由于正向最大匹配算法是通过从待处理文本的第一个词单元开始，依次查询拼音词表中是否包含各词单元或由词单元所组成的词单元集合对应的词组，因此，通过正向最大匹配算法进行分词获得的分词结果可能存在一定的误差，例如，若所述待处理文本为“毕业的和尚未毕业的”，使用正向最大匹配算法很可能分成“毕业、的、和尚、未、毕业、的”，但实际上正确的分词结果为“毕业、的、和、尚未、毕业、的”。

因此，为提高分词结果的准确性，本申请实施例还可通过负向最大匹配算法对所述待处理文本进行分词处理，生成多个词单元集合。

以所述待处理文本为“我毕业于A大学”为例，从待处理文本的最后一个词单元开始，依次查询所述拼音词表中是否包含各词单元或由词单元所组成的词单元集合对应的词组。

具体的，首先判断拼音词表中是否包含“学”这一词单元；若包含，则可继续判断拼音词表中是否包含“大学”这一词组；若包含，则可继续依次查询所述拼音词表中是否包含“A大学”、“于A大学”、“业于A大学”、“毕业于A大学”、“我毕业于A大学”这几个词组，若根据查询结果确定所述拼音词表中仅包含“学”、“大学”、“A大学”，并不包含“于A大学”、“业于A大学”、“毕业于A大学”、“我毕业于A大学”等词组，则可将“A大学”作为一个词单元集合，并继续判断拼音词表中是否包含“于”、“业于”、“毕业于”、“我毕业于”等词单元或词组，并根据判断结果进行词单元划分即可。

另外，上述待处理文本中的“A大学”仅是为了便于说明所采用的示意性描述，实际应用中，待处理文本的内容并不受此限制。

由于多音字在不同语境中的正确读音可能不同，因此，通过对待处理文本进行分词的方式确定词单元之间的关联关系，有利于保证拼音标注结果的准确性。步骤204，根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注，生成所述多个词单元集合分别对应的初始拼音序列。

具体的，对待处理文本进行分词处理生成多个词单元集合后，可根据拼音词表对所述多个词单元集合中的词单元进行拼音标注，生成各词单元集合对应的初始拼音序列。

通过对待处理文本进行分词处理，对于读音唯一的字或者词组，可选择通过预先建立的拼音词表中记载的拼音信息对其进行拼音标注，而对于拼音不唯一且拼音词表中未记载其发音的情况下，可通过对其进行拼音打分预测的方式实现对其进行拼音标注。

具体实施时，根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音信息标注，生成所述多个词单元集合分别对应的初始拼音序列，具体可通过以下方式实现：

实际应用中，可仅对各词单元集合中的单音字进行拼音标注，并且，在仅对单音字进行标注的情况下，则需要对待处理文本中的每个多音字进行拼音打分预测；或者可选择对各词单元集合中的多音字进行拼音标注，即在对待处理文本进行分词处理生成多个词单元集合后，若存在任一词单元集合中包含多音字，则可查询拼音词表中是否存在包含多音字的词单元集合对应的拼音序列，若存在，则可根据所述拼音序列对包含多音字的词单元集合进行拼音标注，而无需对该集合中的多音字进行拼音打分预测；若不存在，则不对所述多音字进行拼音标注，并对所述多音字进行拼音打分预测。

以待处理文本为“左右为难”为例，对所述待处理文本进行分词处理生成的词单元集合为“左右”、“为”以及“难”，根据拼音词表对“左右”进行拼音标注的标注结果为“zuǒyòu”，而未对“为”和“难”进行拼音标注，因此，可将“unk”作为“为”和“难”的初始拼音序列，表示其读音为未知。

由于多音字在不同语境中的正确读音可能不同，因此，通过构建词组的方式确定词单元之间的关联关系，并通过在拼音词表中查询词组的拼音序列的方式对词单元集合进行拼音标注，有利于保证拼音标注结果的准确性。

步骤206，对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据。

具体的，所述语音数据具体是指针对所述待处理文本生成的语音，所述待处理文本对应的语音数据可以采用录制的方式或语音合成的方式生成，本实施例在此不作任何限定，需要说明的是，所述语音数据与所述待处理文本的匹配度较高。

本说明书实施例在对待处理文本中的词单元进行拼音标注的过程中，由于待处理文本中既包含单音字，又包含多音字，而单音字或者由单音字或由单音字和多音字共同组成的词组，可能在拼音词表中存在与其对应的拼音序列，并且为尽可能保证拼音标注结果的准确性，本说明书实施例通过对待处理文本进行分词处理，将待处理文本划分为长短不一的词单元集合；

通过在拼音词表中查询是否存在与不同词单元集合对应的拼音序列的方式对不同词单元集合进行拼音标注，生成不同词单元集合对应的初始拼音序列；对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，再基于所述中间拼音序列生成所述待处理文本对应的语音数据，之后基于中间拼音序列以及所述语音数据的音频特征对所述待处理文本中的未进行拼音标注的多音字进行拼音打分预测。

步骤208，提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，并根据预测结果确定所述至少一个多音字的拼音标注结果。

具体的，由于对初始拼音序列进行拼接生成的中间拼音序列中可能包含未进行拼音标注的多音字，因此，本说明书实施例需对未进行拼音标记的多音字在所述待处理文本中的正确读音进行打分预测，以根据打分预测结果确定多音字的正确读音。

具体实施时，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，可通过将所述第一音频特征和所述中间拼音序列输入预先训练的打分模型，以对所述至少一个多音字进行拼音打分预测。

进一步的，所述打分模型通过以下方式进行训练：

具体的，可通过对音频信息中的多个音频帧进行加窗处理，从而解决各个音频帧中信号不连续的问题，实际应用中，加窗处理时所使用窗函数可以是方窗函数、汉明窗函数或汉宁窗函数。

基于此，首先对所述音频信息进行分帧处理，获得所述多个音频帧，其次采用窗函数对各个音频帧进行加窗处理，并根据加窗处理结果对每个短时分析窗进行傅里叶变换，获得所述多个音频帧对应的第一频谱，再次将得到的第一频谱通过Mel滤波器组进行转换，获得第二频谱，在第二频谱上进行倒谱分析(取对数，做逆变换，即通过DCT(DiscreteCosine Transform)离散余弦变换来实现，取DCT的第2个到第13个系数作为MFCC系数)从而得到Mel频谱倒谱系数MFCC，Mel频谱倒谱系数MFCC即为每个音频帧对应的音频特征向量，最后根据多个音频帧分别对应的音频特征向量和拼音标注样本数据所述作为模型的输入，训练获得所述打分模型。

实际应用中，所述打分模型可以是口语打分模型。

需要说明的是，分帧处理时可以根据实际需求设定每帧的长度，长度范围可以设置在10～30ms之间。

本说明书实施例中，在获取待识别的语音数据后，基于预设的提取算法提取语音数据的音频特征，后续可以基于打分模型对音频特征进行更为快速、准确的识别，在保证该语音数据的音频特征准确的基础上，才可以确保后续基于该语音数据的音频特征以及待处理文本的中间拼音序列对所述待处理文本中多音字的拼音打分预测结果的准确性。

具体实施时，所述预设的特征提取算法包括梅尔频率倒谱系数。

通过者梅尔频率倒谱系数将声音波形转换为音频特征向量可以更加接近于真实的语音数据，不会造成语音数据的失真，并且梅尔频率倒谱系数算法是基于倒谱的，更符合人的听觉原理，是比较有效的声音特征提取算法。

在训练获得所述打分模型后，提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，具体可通过以下方式实现：

具体的，本说明书实施例所述的将中间拼音序列与第一音频特征进行对齐处理，即将所述中间拼音序列与第一音频特征进行强制对齐，也即在音频中找到文本对应的时间区间。

强制对齐是一种得到给定拼音序列和音频特征在时间上的对应关系的技术，可以通过强制对齐工具实现，如通过kaldi(一种开源语音识别工具(Toolkit)，它使用WFST来实现解码算法)或HTK(HMM Toolkit，一款基于hmm模型的语音处理工具)等即可实现拼音序列和音频特征的对齐。

此外，音频特征的提取过程与前述打分模型训练过程的音频特征提取过程类似，在此不再赘述。

在对包含待处理文本中的多音字进行拼音标注的过程中，通过生成所述待处理文本的语音数据，抽取所述语音数据中每帧音频帧的梅尔频谱倒数系数特征，并基于梅尔频谱倒数系数特征生成所述语音数据对应的音频特征向量作为模型的输入，有效的提高了拼音打分预测效率。

进一步的，在通过打分模型对待处理文本中未被标注的多音字进行拼音打分预测，并根据预测结果确定多音字的正确读音后，可通过所述待处理文本中单音字和多音字的读音对所述打分模型进行优化，以提高所述打分模型输出结果的准确性，具体可通过以下方式实现：

进一步的，根据所述至少一个多音字的拼音标注结果对所述中间拼音序列进行更新，包括：

具体的，由于待处理文本中可能包含单音字和多音字，并且，在对待处理文本进行分词处理生成词单元集合后，可能在拼音词表中仅包含部分词单元集合的拼音序列，或者仅包含词单元集合中部分词单元的拼音序列，因此，根据拼音词表对词单元集合进行拼音标注后，可能仍然存在部分未进行拼音标注的词单元，并且，则部分未被标注的词单元可能存在至少两种读音；

因此，若存在词单元集合中包含多音字，则该词单元可能对应至少两种拼音序列，在这种情况下，可选择将包含多音字的词单元集合对应的初始拼音序列进行排列组合，并将排列组合结果与其他未包含多音字的词单元集合对应的初始拼音序列进行拼接，以对所述待处理文本的中间拼音序列进行更新，以及基于中间拼音序列的更新结果对待处理文本的语音数据进行更新，并通过二者的更新结果对所述打分模型进行优化。

例如待处理文本“左右为难”中存在两个多音字，分别为“为”和“难”，其中，对待处理文本进行分词处理生成多个词单元集合为“左右”、“为”以及“难”，根据拼音词表对“左右”进行拼音标注的标注结果为“zuǒyòu”，而未对“为”和“难”进行拼音标注，因此，可将“unk”作为“为”和“难”的初始拼音序列，表示其读音为未知。

将每个词单元集合的初始拼音序列进行拼接生成的待处理文本对应的中间拼音序列为“zuǒyòu unk unk”，并基于所述中间拼音序列生成所述待处理文本对应的语音数据后，提取所述语音数据的第一音频特征，将所述第一音频特征以及所述中间拼音序列输入打分模型以对“为”和“难”进行拼音打分预测，若根据预测结果确定“为”的读音(拼音序列)可以是“wèi”或“wéi”，而“难”的读音(拼音序列)可以是“nàn”或“nán”，则可对待处理文本的3个词单元集合对应的拼音序列进行排列组合，将组合结果进行拼接后重新输入打分模型以对多音字进行拼音打分预测。

对“左右”、“为”以及“难”这3个词单元集合对应的拼音序列进行排列组合并进行拼接生成的结果(待处理文本对应的中间拼音序列)可以是：“zuǒyòu wéi nán”、“zuǒyòu wèi nán”、“zuǒyòu wèi nàn”或“zuǒyòu wéi nàn”，利用拼接结果对中间拼接序列进行更新，并通过更新后的中间拼音序列对语音数据进行更新，以根据二者的更新结果输入打分模型再次对多音字进行拼音打分，即可确定多音字对应的真实读音。

本申请实施例提供的拼音标注方法，通过对待处理文本进行分词处理生成多个词单元集合，所述待处理文本中包含至少一个多音字，根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注，生成所述多个词单元集合分别对应的初始拼音序列，对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据，提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，并根据预测结果确定所述至少一个多音字的拼音标注结果。

本说明书实施例实现了在对待处理文本中的多音字进行拼音标注时，可以通过打分模型对多音字的读音进行打分预测的方式确定多音字的正确拼音，不仅节省人力物力，还能够有效的保证最后创建的文本拼音组的正确率，实现高效且快捷的完成对待处理文本中多音字的拼音标注结果，从而有利于提高待处理文本中拼音标注的效率。

图3示出了本申请一实施例的拼音标注方法的处理流程图，该拼音标注方法以对待处理文本中的单音字或多音字进行拼音标注的应用过程为例进行描述，包括步骤302至步骤328。

步骤302，基于预先建立的拼音词表，并通过负向最大匹配算法对待处理文本进行词组划分，生成至少一个词单元集合。

步骤304，根据所述拼音词表中的拼音序列确定所述至少一个词单元集合中每个词单元集合分别对应的初始拼音序列。

步骤306，按照所述每个词单元集合中单音字的发音对所述单音字进行拼音标注，并按照预设拼音标注规则对所述每个词单元集合中的多音字进行拼音标注，生成所述每个词单元集合分别对应的初始拼音序列。

步骤308，对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据。

步骤310，提取所述语音数据的第一音频特征，将所述第一音频特征和所述中间拼音序列输入预先训练的打分模型，对所述至少一个多音字进行拼音打分预测。

步骤312，根据预测结果确定所述至少一个多音字的拼音标注结果。

步骤314，根据所述至少一个多音字的拼音标注结果对所述中间拼音序列进行更新，并基于更新后的中间拼音序列对所述语音数据进行更新。

步骤316，根据更新后的中间拼音序列以及更新后的语音数据对所述打分模型进行优化。

与上述方法实施例相对应，本申请还提供了拼音标注装置实施例，图4示出了本申请一个实施例的拼音标注装置的结构示意图。如图4所示，该装置400包括：

分词模块402，被配置为对待处理文本进行分词处理生成多个词单元集合，所述待处理文本中包含至少一个多音字；

标注模块404，被配置为根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音标注，生成所述多个词单元集合分别对应的初始拼音序列；

拼接模块406，被配置为对所述初始拼音序列进行拼接生成所述待处理文本对应的中间拼音序列，并基于所述中间拼音序列生成所述待处理文本对应的语音数据；

预测模块408，被配置为提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，并根据预测结果确定所述至少一个多音字的拼音标注结果。

可选地，所述分词模块402，包括：

第一分词子模块，被配置为通过匹配算法对所述待处理文本进行分词处理，生成多个词单元集合。

可选地，所述分词模块402，包括：

第二分词子模块，被配置为通过负向最大匹配算法对所述待处理文本进行分词处理，生成多个词单元集合。

可选地，所述分词模块402，包括：

第三查询子模块，被配置为查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元，其中，i从1开始取值且i为正整数；

若所述第三查询子模块的运行结果为否，则运行第三处理子模块；

所述第三处理子模块，被配置为将所述第i个词单元作为一个词单元集合；

i自增1，并继续运行所述第三查询子模块。

可选地，若所述第三查询子模块的运行结果为是，则运行第四查询子模块；

所述第四查询子模块，被配置为查询所述拼音词表中是否包含由第i至第i+n个词单元组成的词组，其中，n从1开始取值，且n为正整数；

若所述第四查询子模块的运行结果为是，则n自增1，在i+n小于等于所述待处理文本的词单元总数的情况下，继续运行所述第四查询子模块；

若所述第四查询子模块的运行结果为否，则运行第四处理子模块；

所述第四处理子模块，被配置为将由第i至第i+n个词单元组成的词组作为一个词单元集合；

n自增1，在i+n小于等于所述待处理文本的词单元总数的情况下，将第i+n个词单元作为第i个词单元，并继续运行第四查询子模块。

可选地，所述标注模块404，包括：

拼音序列查询子模块，被配置为查询所述拼音词表中是否包含所述多个词单元集合中每个词单元集合对应的拼音序列；

若所述拼音序列查询子模块的运行结果为是，则运行第一标注子模块；

所述第一标注子模块，被配置为将所述拼音序列作为所述每个词单元集合分别对应的初始拼音序列；

若所述拼音序列查询子模块的运行结果为否，则运行第二标注子模块；

所述第二标注子模块，被配置为按照所述每个词单元集合中单音字的发音对所述单音字进行拼音标注，并按照预设拼音标注规则对所述每个词单元集合中的多音字进行拼音标注，生成所述每个词单元集合分别对应的初始拼音序列。

可选地，所述预测模块408，包括：

第一预测子模块，被配置为将所述第一音频特征和所述中间拼音序列输入预先训练的打分模型，对所述至少一个多音字进行拼音打分预测。

可选地，所述打分模型通过以下方式进行训练：

可选地，所述预测模块408，包括：

提取子模块，被配置为基于预设的特征提取算法提取所述语音数据的第一音频特征，其中，所述第一音频特征包括所述语音数据的音量、音色以及波形包络；

第二预测子模块，被配置为将所述中间拼音序列与所述第一音频特征进行对齐处理，并将对齐结果输入打分模型对所述至少一个多音字进行拼音打分预测。

可选地，所述拼音标注装置，还包括：

更新模块，被配置为根据所述至少一个多音字的拼音标注结果对所述中间拼音序列进行更新，并基于更新后的中间拼音序列对所述语音数据进行更新；

优化模块，被配置为根据更新后的中间拼音序列以及更新后的语音数据对所述打分模型进行优化。

可选地，所述更新模块，包括：

组合子模块，被配置为将包含多音字的每个词单元集合分别对应的初始拼音序列进行排列组合，生成组合结果；

拼接子模块，被配置为基于所述组合结果以及所述待处理文本中所述多个词单元集合的连接关系，对所述多个词单元集合分别对应的初始拼音序列进行拼接，以对所述中间拼音序列进行更新。

可选地，所述预设的特征提取算法包括梅尔频率倒谱系数。

上述为本实施例的一种拼音标注装置的示意性方案。需要说明的是，该拼音标注装置的技术方案与上述的拼音标注方法的技术方案属于同一构思，拼音标注装置的技术方案未详细描述的细节内容，均可以参见上述拼音标注方法的技术方案的描述。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的拼音标注方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的拼音标注方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述拼音标注方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述拼音标注方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的拼音标注方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述拼音标注方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种拼音标注方法，其特征在于，包括：

2.根据权利要求1所述的拼音标注方法，其特征在于，所述对待处理文本进行分词处理生成多个词单元集合，包括：

3.根据权利要求1或2所述的拼音标注方法，其特征在于，所述对待处理文本进行分词处理生成多个词单元集合，包括：

4.根据权利要求1或2所述的拼音标注方法，其特征在于，所述对待处理文本进行分词处理生成多个词单元集合，包括：

若否，则将所述第i个词单元作为一个词单元集合；

5.根据权利要求4所述的拼音标注方法，其特征在于，若所述查询预先建立的拼音词表中是否包含所述待处理文本的第i个词单元的运行结果为是，则所述对待处理文本进行分词处理生成多个词单元集合，还包括：

6.根据权利要求1所述的拼音标注方法，其特征在于，所述根据预先建立的拼音词表分别对所述多个词单元集合中的单音字进行拼音信息标注，生成所述多个词单元集合分别对应的初始拼音序列，包括：

7.根据权利要求1所述的拼音标注方法，其特征在于，所述基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，包括：

8.根据权利要求7所述的拼音标注方法，其特征在于，所述打分模型通过以下方式进行训练：

9.根据权利要求1或8所述的拼音标注方法，其特征在于，所述提取所述语音数据的第一音频特征，基于所述第一音频特征以及所述中间拼音序列对所述至少一个多音字进行拼音打分预测，包括：

10.根据权利要求1所述的拼音标注方法，其特征在于，还包括：

11.根据权利要求10所述的拼音标注方法，其特征在于，所述根据所述至少一个多音字的拼音标注结果对所述中间拼音序列进行更新，包括：

12.根据权利要求8所述的拼音标注方法，其特征在于，所述预设的特征提取算法包括梅尔频率倒谱系数。

13.一种拼音标注装置，其特征在于，包括：

14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-12任意一项所述拼音标注方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-12任意一项所述拼音标注方法的步骤。