CN112528649A

CN112528649A - 针对多语言混合文本的英文拼音识别方法和系统

Info

Publication number: CN112528649A
Application number: CN202011474265.7A
Authority: CN
Inventors: 谭书华; 彭俊杰; 胡淼; 花曼; 易芬; 黄霞; 胡敬响; 张俊
Original assignee: Yto Express Co ltd
Current assignee: Yto Express Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-19

Abstract

本发明公开了一种针对多语言混合口语文本的英文拼音识别方法和系统，对汉语口语文本中混杂的英文字符串自动识别出是英文还是汉语拼音，从而提高中文短文本的语义识别与理解的准确率。其技术方案为：通过混合语言识别模型对英文单词以及汉语拼音的组成规则特征进行训练分析，基于训练得到的模型对中文口语文本中夹杂的英文字符串进行识别。

Description

针对多语言混合文本的英文拼音识别方法和系统

技术领域

本发明涉及一种多语言文字处理技术，具体涉及对多语言文字混合文本中的英文单词字符串和汉语拼音字符串进行自动识别的处理技术。

背景技术

近年来，深度学习在自然语言处理领域取得了许多突破性的研究成果。很多基于自然语言理解的工程应用已经被广泛使用。但是在真实的场景中，用户的输入文本中往往会存在一些由不可控因素导致的错误，这些错误限制了自然语言理解技术在问答系统、聊天助手以及搜索引擎等应用上的发展，因此用户体验度比较差。而意图识别作为输入数据和自然语言理解的桥梁，它的准确性直接影响着自然语言理解的结果。

在中国，最常见的多语言混合现象是中文口语文本中混杂一些英文字符串。这些英文字符串不仅仅是指英文单词，其中相当一部分也包含拼音组合。大部分中国人通过拼音输入法输入汉字，汉字的输入形式和书写的形式大为不同，因此许多用户容易提笔忘字，造成许多中文文本中出现部分汉字被拼音取代的现象。这样的现象同样以高概率发生于大学生人群中。但拼音和英文都是由英文字符组成，计算机难以正确区分中文口语文本中混杂的是英文字符串还是拼音。

针对上述困难，目前已经有一些研究者提出了解决方案。但大部分人处理的仍然是单一语言或者中英文混合的情况。那么当文本中出现类似于英文单词的拼音串时，就有可能将其纠错成为英文词语，从而不能有效地处理中文中混杂多种语言的错误。

因此，目前业界亟待一种可以对中文文本中可能出现的英文和拼音进行区分的技术。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种针对多语言混合文本的英文拼音识别方法和系统，对中文短文本中混杂的英文字符串自动识别出是英文单词还是汉语拼音，从而提高中文短文本的语义识别与理解的准确率，提高自然语言处理能力，为问答系统中人机对话的识别提供更有力的支持。

本发明的技术方案为：本发明揭示了一种针对多语言混合文本的英文拼音识别方法，方法包括：

步骤1：对获取到的英文字符串进行特征向量化的处理；

步骤2:获取步骤1中表示的特征矩阵并对其进行归一化处理；

步骤3：以步骤2得到的特征向量作为神经网络的输入，对基于神经网络实现的混合语言识别模型进行训练，根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。

根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例，在步骤1中，选定26个字母组合的音节序号值和类别标签作为输入特征矩阵；其中音节序号表示从字母a到字母z的1～26的顺序序号，音节序号值表示每个序号下单词与字母‘a’的相对距离之和；类别标签表示是英文字符片段还是拼音字符串。

根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例，在步骤1中，输入特征矩阵中的输入文本的总数量定义为正整数N，第i个文本为s_i,s_i的文本向量V(s_i)如下定义所示：

V(s_i)＝(w₁,w₂,w₂…w₂₆) (1)

j＝E₁-′a′ (2)

其中′a′表示字母a，

表示单词word中所有字符与字符a的相对位置之和,E_i表示第j个单词中第i个字母对应的ASCII值；j表示26个字母序号的第j个位置；w_j表示第j位置处单词对应的向量值；k为单词的长度；tag为类别标签，其值为1时表示文本s_i为英文字符片段，当值为0时表示文本s_i为拼音字符串；V(s_i)表示文本s_i的向量表示。

根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例，步骤1中，当得到每一个字符串片段的特征向量时，再根据对应文档的类型得到其相应的输出向量，输出向量采用one-hot编码，输出形式如下：

其中d_i表示输入特征向量，V(d_i)表示输出向量。

根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例，神经网络是BP神经网络，BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量，BP神经网络的隐藏层节点数采用经验公式获取：

其中，h为隐藏层节点数，i为输入节点数，o为输出节点数，α为1～10之间的常数。

根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例，用于计算神经网络的总体误差的模型目标函数为：

其中，E是总体误差，Y_k是用one-hot表示的向量中第k维的值，O_k是第k个类别的预测概率值，m是预定义的类别个数。

根据本发明的针对多语言混合文本的英文拼音识别方法的一实施例，在步骤2中，采用最大-最小标准化的方法对数据进行归一化处理：

其中，x表示输入特征矩阵中每个序号下的值，min_j为样本第j类特征数据集的最小值，max_j为样本第j类特征数据集的最大值，α和β是常数。

本发明还揭示了一种针对多语言混合文本的英文拼音识别系统，系统包括：

特征向量化模块，被配置为对获取到的英文字符串进行特征向量化的处理；

归一化模块，被配置为以特征向量化模块得到的特征矩阵作为基础，对每个维度下的音节特征进行归一化处理；

模型训练模块，被配置为以归一化模块得到的标准特征向量作为神经网络的输入，对基于神经网络实现的混合语言识别模型进行训练，根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。

根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例，特征向量化模块进一步配置为选定26个字母组合的音节序号值和类别标签作为输入特征矩阵；其中音节序号表示从字母a到字母z的1～26的顺序序号，音节序号值表示每个序号下单词与字母‘a’的相对距离之和；类别标签表示是英文字符片段还是拼音字符串。

根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例，特征向量模块进一步配置为：

输入特征矩阵中的输入文本的总数量定义为正整数N，第i个文本为s_i,s_i的文本向量V(s_i)如下定义所示：

V(s_i)＝(w₁,w₂,w₂…w₂₆) (1)

j＝E₁-′a′ (2)

其中′a′表示字母a，

当得到每一个字符串片段的特征向量时，再根据对应文档的类型得到其相应的输出向量，输出向量采用one-hot编码，输出形式如下：

其中d_i表示输入特征向量，V(d_i)表示输出向量。

根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例，神经网络是BP神经网络，BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量，BP神经网络的隐藏层节点数采用经验公式获取：

根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例，用于计算神经网络的总体误差的模型目标函数为：

根据本发明的针对多语言混合文本的英文拼音识别系统的一实施例，归一化模块进一步配置为采用最大-最小标准化的方法对数据进行归一化处理：

本发明对比现有技术有如下的有益效果：本发明通过混合语言识别模型对英文单词结构的规则、汉语拼音组成的规则进行训练分析，基于训练得到的模型对中文短文本中夹杂的英文单词字符串及汉语拼音字符串进行识别，解决了以往仅对中文短文本中夹杂的英文及中英混合的识别痛点，可对混合英文单词和汉语拼音的中文短文本加以区分，大大提升了在问答系统等人机交互的对话中的文本识别准确率，提升客户体验。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的混合语言识别模型的网络结构的示意图。

图2示出了本发明的针对多语言混合文本的英文拼音识别方法的一实施例的流程图。

图3示出了本发明的针对多语言混合文本的英文拼音识别系统的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图2示出了本发明的针对多语言混合文本的英文拼音识别方法的一实施例的流程。请参见图2，本实施例的方法的具体实施步骤详述如下。

步骤1：对获取到的英文字符串进行特征向量化的处理。

英文单词一般由三部分组成：词根、前缀和后缀，并且这三部分由特定的英文字符组成。词根决定单词意思，前缀改变单词词义，后缀决定单词词性。

参照《汉语拼音方案》，汉语拼音组成具有一定的规则，即能够组合成音节的所有声母是一个已知且确定的集合，例如：a的后面只能接i,n,ng,o形成a、ai、an、ang、ao。

在本实施例中，选定26个字母组合的音节序号值(音节序号表示从字母a到字母z的1～26的顺序序号，音节序号值表示每个序号下单词与字母‘a’的相对距离之和)和类别标签(即表示是英文字符片段还是拼音字符串)作为输入特征矩阵，其中输入文本的总数量定义为正整数N，第i个文本为s_i,s_i的文本向量V(s_i)如下定义所示：

V(s_i)＝(w₁,w₂,w₂…w₂₆) (1)

j＝E₁-′a′ (2)

其中′a′表示字母a，

表示word中所有字符与字符a的相对位置之和,E_i表示第j个单词中第i个字母对应的ASCII值；j表示26个字母序号的第j个位置；w_j表示第j位置处单词对应的向量值；k为单词的长度；tag为类别标签，其值为1时表示文本s_i为英文字符片段，当值为0时表示文本s_i为拼音字符串；V(s_i)表示文本s_i的向量表示。例如表1中展示了可以按照上述的公式(1)(2)(3)将输入文本中包含的英文字符串样本表示成对应的特征向量。

表1.样本的特征向量表示

当得到每一个字符串片段的特征向量时，再根据该文档的类型得到其相应的输出向量，输出向量采用one-hot编码，输出形式如下：

其中d_i表示输入特征向量，V(d_i)表示输出向量。

步骤2：获取步骤1中表示的特征矩阵并对特征矩阵进行归一化处理。

由于每类特征数据的量纲不同，为了使神经网络快速收敛，需要统一标准化数据。本实施例采用最大-最小标准化的方法对数据进行归一化处理：

公式(5)中，x表示输入特征矩阵中每个序号下的值，min_j为样本第j类特征数据集的最小值，max_j为样本第j类特征数据集的最大值，α和β是常数，为了使数据的区间设定为0.1到0.9之间，这里的α取0.1，β取0.8。

这样，一个原始向量w通过公式(5)标准化映射到区间[0.1,0.9]的值w’，完成了输入数据的一次处理。

构建三层BP(back propagation)神经网络，将步骤2中得到的特征向量作为BP神经网络的输入。如图1所示，其中BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量，而隐藏层节点数采用经验公式获取。

BP神经网络是一种反馈式全连接多层神经网络，具有较强的联想记忆和推广能力。在拟合历史数据的过程中，模型可通过逐层的特征提取来更加抽象地表达数据，从而提高预测精度。本实施例将BP神经网络应用于拼音和英文的识别上，并采用了经典的三层设计：即输入层，隐藏层和输出层。如图1所示，输入层和输出层神经元的数量分别为数据集的特征数量和类别数量，而隐藏层节点数的选择至关重要，因为如果节点太少则会导致训练结果很差，如果节点过多，则会造成训练时间较长，易陷入局部最小值。因此，本文采用经验公式：

在公式(6)中，h为隐藏层节点数，i为输入节点数，o为输出节点数，α为1～10之间的常数。

在进行步骤1的短文本的特征提取后，将提取出来的特征参数作为BP神经网络的输入，首先根据信号的前向传播，得到BP网络的输出结果。然后使用目标函数即预测值和真实值之间误差的平方计算神经网络的总体误差以及各网络层误差并通过梯度下降法调整各层之间的权值w，当整个神经网络的误差达到最大迭代次数或者最小误差则停止训练。最后根据训练的模型预测中文中混合的英文字符串的类别值。

上述过程中用于计算神经网络的总体误差的模型目标函数，其具体公式为：

其中，E是总体误差，Y_k是用one-hot表示的向量中第k维的值，O_k是第k个类别的预测概率值，m是预定义的类别个数，本实施例中为2。

图3示出了本发明的针对多语言混合文本的英文拼音识别系统的一实施例的原理。请参见图3，本实施例的系统包括：特征向量化模块、归一化模块、以及模型训练模块。

特征向量化模块用于对获取到的英文字符串进行特征向量化的处理。

特征向量化模块的具体处理如下。

在本实施例中，选定26个字母组合的音节序号值和类别标签(即表示是英文字符片段还是拼音字符串)作为输入特征矩阵，其中输入文本的总数量定义为正整数N，第i个文本为s_i,s_i的文本向量V(s_i)如下定义所示：

V(s_i)＝(w₁,w₂,w₂…w₂₆) (1)

j＝E₁-′a′ (2)

其中′a′表示字母a，

表1.样本的特征向量表示

其中d_i表示输入特征向量，V(d_i)表示输出向量。

归一化模块用于获取特征向量化模块中表示的特征矩阵并对特征矩阵进行归一化处理

归一化模块的具体处理如下。

公式(5)中，min_j为样本第j类特征数据集的最小值，max_j为样本第j类特征数据集的最大值，为了使数据的区间设定为0.1到0.9之间，这里的α取0.1，β取0.8。

模型训练模块用于以归一化模块得到的特征向量作为神经网络的输入，对基于神经网络实现的混合语言识别模型进行训练，根据训练的混合语言识别模型预测中文中混合的英文字符串的类别值。

模型训练模块的具体处理如下。

构建三层BP(back propagation)神经网络，将归一化模块中得到的特征向量作为BP神经网络的输入。如图1所示，其中BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量，而隐藏层节点数采用经验公式获取。

在进行短文本的特征提取后，将提取出来的特征参数作为BP神经网络的输入，首先根据信号的前向传播，得BP到网络的输出结果。然后使用目标函数即预测值和真实值之间误差的平方计算神经网络的总体误差以及各网络层误差并通过梯度下降法调整各层之间的权值w，当整个神经网络的误差达到最大迭代次数或者最小误差则停止训练。最后根据训练的模型以预测中文中混合的英文字符串的类别值。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种针对多语言混合口语文本的英文拼音识别方法，其特征在于，方法包括：

步骤1：对获取到的英文字符串进行特征向量化的处理；

步骤2：获取步骤1中表示的特征矩阵并对其进行归一化处理；

步骤3：以步骤2得到的特征向量作为神经网络的输入，对基于神经网络实现的混合语言识别模型进行训练，根据训练的混合语言识别模型预测汉语口语中混合的英文字符串的类别值。

2.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法，其特征在于，在步骤1中，选定26个字母组合的音节序号值和类别标签作为输入特征矩阵；其中音节序号表示从字母a到字母z的1～26的顺序序号，音节序号值表示每个序号下单词与字母‘a’的相对距离之和；类别标签表示是英文字符片段还是拼音字符串。

3.根据权利要求2所述的针对多语言混合文本的英文拼音识别方法，其特征在于，在步骤1中，输入特征矩阵中的输入文本的总数量定义为正整数N，第i个文本为s_i，s_i的文本向量V(s_i)如下定义所示：

V(s_i)＝(w₁，w₂，w₂…w₂₆) (1)

j＝E₁-′a′ (2)

其中′a′表示字母a，

表示单词word中所有字符与字符a的相对位置之和，E_i表示第j个单词中第i个字母对应的ASCII值；j表示26个字母序号的第j个位置；w_j表示第j位置处单词对应的向量值；k为单词的长度；tag为类别标签，其值为1时表示文本s_i为英文字符片段，当值为0时表示文本s_i为拼音字符串；V(s_i)表示文本s_i的向量表示。

4.根据权利要求3所述的针对多语言混合文本的英文拼音识别方法，其特征在于，步骤1中，当得到每一个字符串片段的特征向量时，再根据对应文档的类型得到其相应的输出向量，输出向量采用one-hot编码，输出形式如下：

其中d_i表示输入特征向量，V(d_i)表示输出向量。

5.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法，其特征在于，神经网络是BP神经网络，BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量，BP神经网络的隐藏层节点数采用经验公式获取：

6.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法，其特征在于，用于计算神经网络的总体误差的模型目标函数为：

7.根据权利要求1所述的针对多语言混合文本的英文拼音识别方法，其特征在于，在步骤2中，采用最大-最小标准化的方法对输入的特殊矩阵进行归一化处理：

8.一种针对多语言混合文本的英文拼音识别系统，其特征在于，系统包括：

9.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统，其特征在于，特征向量化模块进一步配置为选定26个字母组合的音节序号值和类别标签作为输入特征矩阵；其中音节序号表示从字母a到字母z的1～26的顺序序号，音节序号值表示每个序号下单词与字母‘a’的相对距离之和；类别标签表示是英文字符片段还是拼音字符串。

10.根据权利要求9所述的针对多语言混合文本的英文拼音识别系统，其特征在于，特征向量模块进一步配置为：

输入特征矩阵中的输入文本的总数量定义为正整数N，第i个文本为s_i，s_i的文本向量V(s_i)如下定义所示：

V(s_i)＝(w₁，w₂，w₂…w₂₆) (1)

j＝E₁-′a′ (2)

其中′a′表示字母a，

11.根据权利要求10所述的针对多语言混合文本的英文拼音识别系统，其特征在于，特征向量模块进一步配置为：

其中d_i表示输入特征向量，V(d_i)表示输出向量。

12.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统，其特征在于，神经网络是BP神经网络，BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量，BP神经网络的隐藏层节点数采用经验公式获取：

13.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统，其特征在于，用于计算神经网络的总体误差的模型目标函数为：

14.根据权利要求8所述的针对多语言混合文本的英文拼音识别系统，其特征在于，归一化模块进一步配置为采用最大-最小标准化的方法对输入的特征矩阵进行归一化处理：