CN111026844A

CN111026844A - 一种识别数字串读法的方法及装置

Info

Publication number: CN111026844A
Application number: CN201911240124.6A
Authority: CN
Inventors: 张浩静; 王大亮; 齐红威; 何鸿凌
Original assignee: Hebei Shuyuntang Intelligent Technology Co ltd
Current assignee: Hebei Shuyuntang Intelligent Technology Co ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-04-17
Anticipated expiration: 2039-12-04
Also published as: CN111026844B

Abstract

本发明公开了一种识别数字串读法的方法及装置，包括：通过预先训练的表征特征挖掘方法挖掘待识别的数据的表征特征，并基于提取到的表征特征确定数字串的读法；在待识别的数据中包含未识别出数字串读法的第一数据时，基于预先训练的浅层语法特征挖掘方法提取第一数据中与数字串相关的第二文本数据的浅层语法特征，并基于第二文本数据的浅层语法特征，确定第一数据中数字串的读法；若待识别的数据中仍包含未识别出数字串读法的第二数据时，提取所述第二数据中与数字串相关的第三文本数据的抽象特征，并基于提取到的抽象特征，确定所述第二数据中数字串的读法。这样，实现了自动高效的识别数字串读法的目的。

Description

一种识别数字串读法的方法及装置

技术领域

本发明涉及数据处理领域，尤其涉及一种识别数字串读法的方法及装置。

背景技术

语音的合成过程中包括对文本-语音的转换，以及数字-语音的转换，其中，对于数字-语音的转换，由于不同的领域或者不同的场景下，相同的数字串具有不同的读法，例如15年潮起潮落，邬学强当过刺绣工，也开过出租车，还跑过市场营销；作为以前的神车，15年是最后一款了，很值得入手。两个句子中第一个读十五，第二个读一五，那么，需要选用合适的读法才能保证数字-语音转换的准确度。

现有技术中，针对不同的语境设置了不同的数字串读法，例如包括：序数读法、普通电报读法、军用电报读法等。但是，在实际应用中，高效自动的识别数字串读法的方法是亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种识别数字串读法的方法及装置，实现了高效自动的识别数字串读法的目的。本发明实施例提供了一种识别数字串读法的方法，包括：

获取待识别的数据；所述待识别的数据包括数字串和文本；

调用预先训练的表征特征挖掘方法，从所述待识别的数据中提取与所述数字串相关联的第一文本数据的表征特征，并基于所述第一文本数据的表征特征，确定数字串的读法；

若所述待识别的数据中包含未识别出数字串读法的第一数据，基于预先训练的浅层语法特征挖掘方法提取所述第一数据中与数字串相关的第二文本数据的浅层语法特征，并基于所述第二文本数据的浅层语法特征，确定所述第一数据中数字串的读法；

若所述待识别的数据中仍然包含未识别出数字串读法的第二数据，提取所述第二数据中与数字串相关的第三文本数据的抽象特征，并基于提取到的抽象特征，确定所述第二数据中数字串的读法。

可选的，所述表征特征挖掘方法的训练过程包括：

获取标记有数字串读法的第一训练样本集；所述第一训练样本集中包含文本和数字串；

基于预设的第一支持度和第一置信度，确定出所述第一训练样本集中词组的频繁项集；

生成与所述词组频繁项集具有关联性的规则，得到表征特征挖掘方法。

可选的，所述基于所述文本数据的表征特征，确定数字串的读法，包括：

将所述第一文本数据的表征特征输入到预先训练的第一决策树中，得到与所述数据串的表征特征相对应的读法；所述第一决策树表示第表征特征与读法的映射关系。

可选的，所述浅层语法特征挖掘方法的训练过程包括：

获取标记有数字串读法的第二训练样本集；所述第二训练样本集中包含文本和数字串；

对所述第二训练样本集中与数字串相邻的文本进行分词，并对分词结果的浅层语法特征进行标注；

基于预设的第二支持度和预设的第二置信度，确定所述第二训练样本集中浅层语法特征的频繁项集；

生成与所述浅层语法特征的频繁项集具有关联性的规则，得到浅层语法特征的挖掘方法。

可选的，所述基于所述第二文本数据的浅层语法特征，确定所述第一数据中数字串的读法，包括：

将所述第二文本数据的浅层语法特征输入到预先训练的第二决策树中，得到与所述第二文本数据的浅层语法特征相对应数字串的读法；所述第二决策树表征第二文本数据的浅层语法特征与读法的映射关系。

可选的，所述抽象特征的提取方法包括：

提取所述第三文本数据的表征特征；

提取所述第三文本数据的浅层语法特征；

提取所述第三文本数据的深层语义特征；

将所述第三文本数据的表征特征、浅层语法特征和深层语义特征进行融合，得到第三文本数据的抽象特征。

可选的，所述基于提取到的抽象特征，确定所述第二数据中数字串的读法，包括：

将提取到的抽象特征输入到预先训练的字符串读法模型中，得到第二数据中数字串的读法；所述字符串读法模型是通过抽象特征数据对卷积神经网络进行训练后得到的。

本发明实施例还公开了一种识别数字串读法的装置，包括：

获取单元，用于获取待识别的数据；所述待识别的数据包括数字串和文本；

第一识别单元，用于调用预先训练的表征特征挖掘方法，从所述待识别的数据中提取与所述数字串相关联的第一文本数据的表征特征，并基于所述第一文本数据的表征特征，确定数字串的读法；

第二识别单元，用于若所述待识别的数据中包含未识别出数字串读法的第一数据，基于预先训练的浅层语法特征挖掘方法提取所述第一数据中与数字串相关的第二文本数据的浅层语法特征，并基于所述第二文本数据的浅层语法特征，确定所述第一数据中数字串的读法；

第三识别单元，用于若所述待识别的数据中仍然包含未识别出数字串读法的第二数据，提取所述第二数据中与数字串相关的第三文本数据的抽象特征，并基于提取到的抽象特征，确定所述第二数据中数字串的读法。

可选的，还包括：

表征特征挖掘单元，用于

可选的，还包括：

抽象特征提取单元，用于：

提取所述第三文本数据的表征特征；

提取所述第三文本数据的浅层语法特征；

提取所述第三文本数据的深层语义特征；

本发明实施例公开了一种识别数字串读法的方法及装置，包括：对于待识别的数据，先通过预先训练的表征特征挖掘方法挖掘待识别的数据的表征特征，并基于提取到的表征特征确定数字串的读法；在待识别的数据中包含未识别出数字串读法的第一数据时，基于预先训练的浅层语法特征挖掘方法提取第一数据中与数字串相关的第二文本数据的浅层语法特征，并基于第二文本数据的浅层语法特征，确定第一数据中数字串的读法；若待识别的数据中仍包含未识别出数字串读法的第二数据时，提取所述第二数据中与数字串相关的第三文本数据的抽象特征，并基于提取到的抽象特征，确定所述第二数据中数字串的读法。这样，实现了自动高效的识别数字串读法的目的，并且，通过不同的特征对数字串的读法进行识别，提高了数字串读法识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种识别数字串读法的方法的流程示意图；

图2示出了本发明实施例提供的抽象特征提取的场景示意图；

图3示出了本发明实施例提供的一种卷积神经网络的结构示意图；

图4示出了本发明实施例提供的一种识别数字串读法的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，示出了本发明实施例提供的一种识别数字串读法的方法的流程示意图，在本实施例中，该方法包括：

S101：获取待识别的数据；所述待识别的数据包括数字串和文本；

举例说明：待识别的数据可以为“此次试驾的车型为新款凯迪拉克xt 528四驱铂金风尚版，后排带有隐私玻璃。”其中给待识别的数据中包括：数字串和文本，其中，数字串为“528”，文本为“此次试驾的车型为新款凯迪拉克xt***四驱铂金风尚版，后排带有隐私玻璃”

S102：调用预先训练的表征特征挖掘方法，从所述待识别的数据中提取与所述数字串相关联的表征特征挖掘方法，从所述待识别的数据中提取与所述数字串相关联的第一文本数据的表征特征，并基于所述第一文本数据的表征特征，确定数字串的读法；

本实施例中，表征特征可以理解为文字特征的组合，例如包括一些词组的组合。

举例说明：“219国道”中“国道”是一个词组，“国道”前后的数字采用普通电报读法；“体重180”中“体重”是一个词组，“体重”前后的数字采用序数读法。

其中，本实施例中，表征特征的挖掘方法是通过预先训练后得到的，训练方法包括：

基于预设的第一支持度和第一置信度，确定出所述第一训练样本集中表征特征的频繁项集；

生成与所述表征特征的频繁项集具有关联性的规则，得到表征特征挖掘方法。

本实施例中，第一训练样本集是包含有文本和数字串的组合，并标记有每个组合中数字串的读法。

本实施例中，实现上述确定频繁项集的方式的有很多种，本实施例中不进行限定，优选的，可以采用Apriori算法。

进一步的，在产生频繁项集的同时，对频繁项集所包含的项之间进行独立性检验，对相互独立的项之间进行剪枝，去除无用或错误的项集。

举例说明：可以通过卡方检验的方法检验各项之间的独立性，具体的可以通过卡方统计量进行验证，如下公式1)所示：

1)

其中，O(r)表示项集r发生的频数，E(r)表示项集r的观察值。

其中，2)E(r)＝k*E(r₁)/k...E(r_n)/k；

上述公式2)中k表示k项集。

得到表征特征挖掘方法后，对表征特征进行判别，确定该表征特征对应的数字串的读法，该方法可以表示为数字串浅层特征的判别方法。

其中，数字串浅层特征的判别方法可以通过决策树的方法确定，具体的可以包括：

1)构建根节点：

获取训练数据集，并从训练数据集中选取出最优的特征作为根节点，并按照该最优的特征，将训练数据集划分为子集；

2)若各个子集能够正确分类，建立叶子节点，将该子集划分到对应的叶子节点中；

3)若各个子集不能正确分类，在子集中重新选取最优的特征，对子集进行划分；

4)当每个子集都被分到叶节点上，则确定出决策树。

其中，训练数据集为标记有读法数据，该数据包括文本和数字串，决策树分类完成后，末端页节点确定的该分支的读法，那么生成的决策树表示为表征特征与读法的映射关系。

其中，在实际应用中，从待识别的数据中提取出与数字串相关联的第一文本数据的表征特征后，基于第一文本数据的表征特征，确定数字串读法的实现过程可以包括：

将所述第一文本数据的表征特征输入到预先训练的第一决策树中，得到与数据串的表征特征相对应的读法；所述第一决策树表示表征特征与读法的映射关系。

S103：若所述待识别的数据中包含未识别出数字串读法的第一数据，基于预先训练的浅层语法特征挖掘方法提取所述第一数据中与数字串相关的第二文本数据的浅层语法特征，并基于所述第二文本数据的浅层语法特征，确定所述第一数据中数字串的读法；

本实施例中，浅层语法特征可以理解为包含文本属性的特征，其中，属性可以包括：词性、韵律、依存文法、语境。

举例说明：清华大学是985院校，985因为临近的命名实体识别的地名实体，清华大学，可以判定985是普通电报读法。京东等私企实行996制度，996因为临近的命名实体识别的地名实体，京东，可以判定996是普通电报读法。

其中，浅层语法特征的挖掘方法是通过标记有浅层语法特征的训练样本进行训练后得到的，浅层语法特征的挖掘方法包括：

本实施例中，实现上述确定浅层语法特征频繁项集的方式的有很多种，本实施例中不进行限定，优选的，可以采用Apriori算法。

进一步的，在产生浅层语法特征频繁项集的同时，对频繁项集所包含的项之间进行独立性检验，对相互独立的项之间进行剪枝，去除无用或错误的项集。

得到浅层语法特征后，还需要确定浅层语法特征对应的读法，具体的可以采用决策树的方法实现基于浅层语法特征对数字串读法的判别，例如，实现步骤可以包括：

1)构建根节点：

获取第二训练数据集，并从训练数据集中选取出最优的特征作为根节点，并按照该最优的特征，将第二训练数据集划分为子集；

4)当每个子集都被分到叶节点上，则确定出决策树。

其中，第二训练数据集为标记有读法的浅层语法特征，决策树分类完成后，末端页节点确定的该分支的读法，那么生成的决策树表示为浅层语法特征与数字串读法的映射关系。

在实际应用中，当基于预先训练的浅层语法特征的挖掘方法提取到第一数据与数字串相关的第二文本数据的浅层语法特征后，基于第二文本数据的浅层语法特征，确定第一数据中数字串的读法，具体的，包括：

将所述第二文本数据的浅层语法特征输入到预先训练的第二决策树中，得到与第二文本数据的浅层语法特征相对应的数字串的读法；所述第二决策树表征第二文本数据的浅层语法特征与读法的映射关系。

S104：若所述待识别的数据中仍包含未识别出数字串读法的第二数据，提取所述第二数据中与数字串相关的第三文本数据的抽象特征，并基于提取到的抽象特征，确定所述第二数据中数字串的读法。

本实施例中，第二数据的抽象特征是将数据的表征特征、浅层语法特征和深层语义特征进行融合后得到的。

其中，深层语义特征可以理解为通过预设的语言模型得到的词向量，具体的获取方法包括：

将与数字串相关的第三文本数据进行分词；

将分词结果输入到预设的语言模型中，得到词向量。

本实施例中，预设的语言模型可以为神经网络语言模型(英文全称：NerualNetwork Language Model，英文简称：NNLM)、word2vec、ELMO等。

其中，对于抽象特征的获取方式可以包括如下的两种：

方式一、如图2所示，提取第三文本数据的表征特征、浅层语法特征和深层语义特征，并将提取到的第三文本数据的表征特征、浅层语法特征和深层语义特征进行融合。

其中，采用预先训练的表征特征挖掘方法提取第三文本数据的表征特征，采用预先训练的浅层语法特征的挖掘方法提取第三文本数据的浅层语法特征，采用预先训练的深层语义特征的挖掘方法提取第三文本数据的深层语义特征。

也就是说抽象特征为表征特征、浅层语法特征和深层语义特征融合后的特征。

方式二、预先训练抽象特征的提取方法，通过已训练的抽象特征的提取方法提取第三文本数据中的抽象特征。

其中，抽象特征的提取方法的训练过程可以包括：

抽取训练样本的表征特征、浅层语法特征和深层语义特征，并将训练样本的表征特征、浅层语法特征和深层语义特征融合得到训练样本的抽象特征，将标记有抽象特征的训练样本输入到机器学习模型中，得到用于提取抽象特征的模型。

本实施例中，在得到抽象特征后，基于抽象特征确定数字串的读法，本实施例中，优选的采用卷积神经网络确定数字串的读法，卷积神经网络是通过抽象特征进行训练后得到的。

在一种实现方式中，基于图3训练卷积神经网络：

其中，卷积神经网络包括：输入层、隐藏层、分类层；其中，隐藏层包括：LSTM+CNN层以及self-attention+CNN层。

其中，训练过程可以包括：

1)在卷积神经网络模型的输入层中输入训练数据的抽象特征；

2)分别通过LSTM+CNN层以及self-attention+CNN层对输入的数据进行特征提取：

在LSTM+CNN层：

先通过LSTM提取特征，主要通过如下的公式进行特征提取：

遗忘门：

3)F_t＝f(w_F·[h_t-1,x_t]+b_F)

上式3)中，w_F是权重矩阵，b_F是偏置，h_t-1是上一时刻的输出状态，x_t是是这一时刻的输入词向量。f是遗忘门的激活函数。在LSTM中的第一步是决定需要从细胞状态中丢弃什么信息，这部分由遗忘门完成，避免信息的冗余。

输入门：

4)I_t＝g(w_i·[h_t-1,x_t]+b_i)；

5)

上式中，w_F和w_c是权重矩阵，b_F和b_c是偏置，h_t-1是上一时刻的输出状态，x_t是是这一时刻的输入词向量。g是输入门的激活函数。

输入门决定让多少新的信息加入进来。先是通过g激活函数决定哪些信息要更新，然后再通过一个tanh层生成一个向量，即备选的用来更新的内容

输出门：

6)O_t＝y(w_O·[h_t-1,x_t]+b_O)；

7)h_t＝O_t*tanh(C_t)；

上式中，w_O是权重矩阵，b_O是偏置，h_t-1是上一时刻的输出状态，x_t是这一时刻的输入词向量。y是输出门的激活函数。C_t是细胞状态。

O_t将决定那部分信息可以输出，h_t是将要输出的部分进行输出。

其中，通过训练好的LSTM模型，当输入序列中没有重要信息时，遗忘门的值接近于1，输入门的值接近于0，表示过去的记忆被完整保存，而输入信息被放弃，从而实现长期记忆功能。当输入序列中存在重要信息时，LSTM应把他存入记忆中，此时输入门接近于1；当输入序列中存在重要信息且该信息意味着之前的记忆不再重要时，输入门的值接近1，遗忘门的值接近0。可以很好的抽取包含数字串的较长文本的抽象特征。将LSTM提取的特征输入到卷积神经网络CNN中。通过CNN可以有效抽取包含数字串的文本的局部特征M_i。(局部特征M是否有特指的什么特征)这里，为了捕获不同层面的高级特征，进一步采用了不同大小的卷积核。

在self-attention+CNN层：

self-attention操作用于捕获包含数字串的句子中单词之间的一些句法特征或语义特征，且更容易捕获句子中长距离的相互依赖的特征。

在self-attention中，每个单词有3个不同的向量，它们分别是Query向量，Key向量和Value向量。它们是通过3个不同的权值矩阵和词向量相乘得到。

为每个词向量计算一个score＝Query*Key。并对score进行归一化处理，即除以

其中，

是Query和Key向量的维度。

对归一化后的score进行softmax激活，再和Value进行点成，加权相加，得到最终的特征向量Z。

8)

其次，将self-attention提取的特征输入到卷积神经网络CNN中。通过CNN可以有效抽取包含数字串的文本的局部特征N_i。这里，为了捕获不同层面的高级特征，进一步采用了不同尺寸大小的卷积核。

然后将两部分的特征进行拼接：

9)

这里的“+”是拼接的意思，β_m和β_n是两个相加为1的系数，用于控制LSTM和self-attention的比例。

3)再进入全连接层、softmax激活函数，输出数字串读法是在各个类别的概率。

进一步的，可以通过计算最小化分类交叉熵损失，对模型进行优化：

交叉熵损失可以通过如下的公式10)计算：

10)

进一步的，为了保证准确率，这里会对输出的结果进行置信度的限制，置信度大于设定的阈值，则输出数字串读法的判定结果。

本实施例中，对于待识别的数据，先通过预先训练的表征特征挖掘方法挖掘待识别的数据的表征特征，并基于提取到的表征特征确定数字串的读法；在待识别的数据中包含未识别出数字串读法的第一数据时，基于预先训练的浅层语法特征挖掘方法提取第一数据中与数字串相关的第二文本数据的浅层语法特征，并基于第二文本数据的浅层语法特征，确定第一数据中数字串的读法；若待识别的数据中仍包含未识别出数字串读法的第二数据时，提取所述第二数据中与数字串相关的第三文本数据的抽象特征，并基于提取到的抽象特征，确定所述第二数据中数字串的读法。这样，实现了自动高效的识别数字串读法的目的，并且，通过不同的特征对数字串的读法进行识别，提高了数字串读法识别的准确度。

参考图4，示出了本发明实施例提供的一种识别数字串读法的装置的结构示意图，在本实施例中，该装置包括：

获取单元401，用于获取待识别的数据；所述待识别的数据包括数字串和文本；

第一识别单元402，用于调用预先训练的表征特征挖掘方法，从所述待识别的数据中提取与所述数字串相关联的第一文本数据的表征特征，并基于所述第一文本数据的表征特征，确定数字串的读法；

第二识别单元403，用于若所述待识别的数据中包含未识别出数字串读法的第一数据，基于预先训练的浅层语法特征挖掘方法提取所述第一数据中与数字串相关的第二文本数据的浅层语法特征，并基于所述第二文本数据的浅层语法特征，确定所述第一数据中数字串的读法；

第三识别单元404，用于若所述待识别的数据中仍然包含未识别出数字串读法的第二数据，提取所述第二数据中与数字串相关的第三文本数据的抽象特征，并基于提取到的抽象特征，确定所述第二数据中数字串的读法。

可选的，还包括：

表征特征挖掘单元，用于

可选的，所述第一识别单元，包括：

第一数字串读法判别子单元，用于将所述第一文本数据的表征特征输入到预先训练的第一决策树中，得到与所述数据串的表征特征相对应的读法；所述第一决策树表示第表征特征与读法的映射关系。

可选的，还包括：浅层语法特征挖掘单元，用于

可选的，所述第二识别单元，包括：

第二数字串读法识别子单元，用于：

可选的，抽象特征提取单元，用于：

提取所述第三文本数据的表征特征；

提取所述第三文本数据的浅层语法特征；

提取所述第三文本数据的深层语义特征；

可选的，所述第三识别单元，包括：

第三数字串读法识别子单元，用于：

通过本实施例的装置，实现了自动高效的识别数字串读法的目的，并且，通过不同的特征对数字串的读法进行识别，提高了数字串读法识别的准确度。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种识别数字串读法的方法，其特征在于，包括：

获取待识别的数据；所述待识别的数据包括数字串和文本；

2.根据权利要求1所述的方法，其特征在于，所述表征特征挖掘方法的训练过程包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述文本数据的表征特征，确定数字串的读法，包括：

4.根据权利要求1所述的方法，其特征在于，所述浅层语法特征挖掘方法的训练过程包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述第二文本数据的浅层语法特征，确定所述第一数据中数字串的读法，包括：

6.根据权利要求1所述的方法，其特征在于，所述抽象特征的提取方法包括：

提取所述第三文本数据的表征特征；

提取所述第三文本数据的浅层语法特征；

提取所述第三文本数据的深层语义特征；

7.根据权利要求1所述的方法，其特征在于，所述基于提取到的抽象特征，确定所述第二数据中数字串的读法，包括：

8.一种识别数字串读法的装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

表征特征挖掘单元，用于

10.根据权利要求8所述的装置，其特征在于，还包括：

抽象特征提取单元，用于：

提取所述第三文本数据的表征特征；

提取所述第三文本数据的浅层语法特征；

提取所述第三文本数据的深层语义特征；