CN109983473A

CN109983473A - 灵活的集成识别和语义处理

Info

Publication number: CN109983473A
Application number: CN201880002640.2A
Authority: CN
Inventors: 邓羽真
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2017-11-17
Filing date: 2018-11-16
Publication date: 2019-07-05
Anticipated expiration: 2038-11-16
Also published as: CN109983473B; US10810467B2; WO2019096270A1; US20190156156A1

Abstract

本发明提供了一种用于自然语言处理的字符识别和语义的方法，包括通过卷积神经网络(CNN)特征提取器从输入字符图像序列中提取特征向量序列。特征向量序列包括多个特征向量，每个特征向量表示输入字符图像序列中相应输入字符的近似匹配。本方法还包括：连续地应用顺序分类器在特征向量序列上，作为多个连续特征向量的大小的滑动窗口，从特征向量序列中的第一特征向量滑动到特征向量序列中的最后特征向量；当滑动窗口在特征向量序列上滑动时，在滑动窗口内应用的连续特征向量中，识别出目标特征向量的输出字符。

Description

灵活的集成识别和语义处理

【相关引用】

本申请要求2017年11月17日提交的美国专利申请62/588,199和2018年11月15日提交的美国专利申请16/191,501的优先权，其公开内容通过引用整体并入到本发明。

【技术领域】

本发明涉及语言字符识别的方法和系统，特别涉及手写字符识别。

【背景技术】

手写识别是现代社会的一项重要功能，因为它通常是自动化各种普通手工任务(例如识别名称、邮政地址、和诸多填写表格、银行支票、邮件等上的其他信息)的先决条件。尽管光学字符识别(OCR)在过去几十年中受到了很多关注和发展，但由于存在草书书写、触摸笔画和形状混淆(confusion in shapes)的问题，它仍然是一个具有挑战性的问题。这对具有图形字符起源的文字(如中文)尤其突出。

大多数现有的识别或分类深度学习模型都被设计为在单个输入字符上单独执行。在输入字符顺序出现并基于连通性形成不同含义的情况下，例如，字符变为单词、单词变为短语，大多数现有技术都忽略了识别阶段或分类阶段中的相互关系。现有技术通过添加称为语义或自然语言处理(NLP)的附加阶段来解决此问题，以引入关系来纠正任何错误。但是，在NLP阶段可能无法轻易地纠正错误。

最常提议的方法是要求开发人员使用基于卷积神经网络(CNN)的全新架构，这需要培训，需要设计和准备训练数据集。但是，这些基于CNN的技术通过仅使用一个特征向量的分类器来一次性地识别单个单词。Maidana等所写的论文：Deep Neural Networks forHandwritten Chinese Character Recognition(用于手写汉字识别的深度神经网络)，2017Brazilian Conference on Intelligent Systems(BRACIS)，IEEE，2017年10月，提供了这种基于CNN的识别技术的细节，其公开内容通过引用整体并入到本发明。

一个现有识别系统是基于N-gram建模技术。N-gram建模识别系统的基本工作原理是在目标输入字符之前或之后立即取N个连续输入字符以及目标输入字符的假设，以便在N-gram词典数据库中进行近似匹配。为了使识别达到可接受的准确度，N-gram词典数据库的尺寸必然很大。运行时近似匹配涉及构建一个分层搜索树，这也是资源密集型的。此外，这种分层搜索不容易并行化，因为每个搜索都受先前搜索结果的影响，从而需要顺序地进行搜索。图1显示了NLP N-gram建模识别系统的基本工作原理，其中输入字符串101是由2-gram识别系统识别。目标输入字符102和紧随其后的两个字符103和104被搜索，并在2-gram数据库105中近似匹配。搜索构建一个分层搜索树106以到达结果节点。

另一种现有的识别系统类型是基于递归神经网络(RNN)。使用包含已知上下文的字符短语和词汇的训练数据集来训练RNN。尽管这些基于RNN的识别系统在逻辑结构和操作方面相对简单，但由于训练数据集相当有限，因此识别准确性往往会受到影响，尤其是当系统遇到训练数据集之外的输入时。而且，人工生成的训练数据集失去了真实感，因为难以获得有关稀有字符的真实训练数据。随着训练数据集中的更多可变参数，训练的复杂性会迅速增加。根据训练数据集的大小，识别性能和准确性差异很大。

【发明内容】

本发明提供了一种语言字符识别和语义的方法和装置，其可以被集成到各种NLP方法和系统中。本发明的目的是提供一种手写语言字符识别方法，该方法比基于传统技术的方法更精确且计算资源消耗更少。根据本发明的一个实施例，提供了一种将识别阶段和语义阶段集成为单个步骤的方法。阶段集成包括将预先训练的CNN分解为两个逻辑组件：特征提取器和顺序分类器。

基于上下文、功能和/或应用域(例如语言、地理范围、商业领域等)，利用上下文、功能和/或应用域特定语句、词汇和术语来训练和/或设计顺序分类器。在一个优选实施例中，手写语句、词汇和术语的训练数据集是由特征向量表示，顺序分类器的训练构建了一个字符特征超空间。顺序分类器可以相对容易和快速地进行重新训练和/或重新设计，而更复杂和资源密集的特征提取器可以跨多个上下文、功能和应用域重新使用。

根据一个实施例，特征提取器是基于CNN的字符特征提取器。在运行之前，首先被一个训练数据集训练，训练数据集包含一个可用数字的所选语言字符(例如10,000个字符)和每个字符一个可用数字的不同手写样式和/或形式的图像(如每个字符200个图像)。在运行时，输入字符串被馈送到特征提取器，其中确定与输入字符串中的字符近似匹配的字符图像序列。从匹配的字符图像序列，提取特征向量序列。然后，将顺序分类器顺序地应用于特征向量序列，作为多个连续特征向量大小的滑动窗口。窗口的“滑动”可以沿着特征向量序列向前或向后。

根据一个实施例，顺序分类器滑动窗口的大小至少为2。滑动窗口聚焦于任何一个目标特征向量，其与相邻特征向量构成至少两个连续特征向量(或字符)窗口。如此，顺序分类器识别出对应于目标特征向量的一个字符，并通过以下任一步骤生成输出字符：从其紧靠前的连续特征向量和紧随后的连续特征向量进行双向推理；从紧随其后的连续特征向量进行前向推理；从其紧靠前的连续特征向量进行后向推理。

根据另一个实施例，顺序分类器的滑动窗口的大小是3。滑动窗口以一个目标特征向量为中心，该目标特征向量与其前一个特征向量及其紧随其后的下一个特征向量构成三个连续特征向量(或字符)窗口。如此，顺序分类器识别出对应于目标特征向量的一个字符，并通过从其紧靠前的特征向量和紧随后的特征向量的双向推理来生成输出字符。

根据各种实施例，滑动窗口的其他尺寸也是可能的。然而，一般而言，窗口越短，字符识别的准确性就越低；另一方面，窗口越长，训练数据集就越大，字符特征超空间中可能解决方案的维数就越多。特征向量(或字符)之间的关系也可以在顺序分类器中容易地确定。在由三个特征向量(或字符)组成的滑动窗口的示例性情况下，该关系可以是双向推理—通过从紧靠前的特征向量和紧随后的特征向量进行推理来识别中间字符；前向推理—通过从紧随后的两个连续特征向量进行推理来识别字符；后向推理—通过从紧靠前的两个连续特征向量进行推理来识别字符。

本发明的优点包括：更快地发展CNN，从一次识别单个输入字符到识别顺序输入字符；与传统的NLP N-gram建模识别技术相比，减少了识别执行时间和纠错处理时间；特征提取器的深度学习训练可以与大多数现有的逐字手写识别技术交互操作。

【附图说明】

参考以下附图更详细地描述本发明的实施例，其中：

图1显示了一种NLP N-gram建模识别系统的基本原理；

图2显示了根据本发明的一个实施例的基于CNN的识别系统的集成识别语义阶段的简化逻辑结构和数据流图；

图3显示了根据本发明一个实施例的基于CNN的识别系统的训练策略；

图4A、4B、4C和4D显示了根据本发明一个实施例的基于CNN的识别系统的集成识别语义阶段的运行操作；图4A显示了句子中第一个字符的识别，图4B显示了句子中第二个字符的识别，图4C显示了句子中第三个字符的识别，图4D显示了句子中第四个字符的识别。

【具体实施方式】

在以下描述中，作为优选示例阐述了用于手写识别的NLP方法和装置等。对本领域技术人员显而易见的是，在不脱离本发明范围和精神的情况下，可以进行包括添加和/或替换的修改。省略了一些具体细节以便清晰地描述本发明；但是，本披露可以使本领域技术人员在不进行过度实验的情况下实践本发明教义。

本发明提供了一种用于语言字符识别和语义的方法和装置，其可以集成在各种NLP方法和系统中。根据本发明的一个实施例，提供了一种将识别阶段和语义阶段集成为单个步骤的方法。阶段集成包括将基于CNN的识别系统拆分成两个逻辑组件：特征提取器和顺序分类器。

基于表述、词汇和术语(词典)的上下文、功能和/或应用域(例如语言、地理范围、商业领域等)特定训练集来训练和/或设计顺序分类器。在一个优选实施例中，词典的训练数据集是由Unicode数据串表示。这可以通过首先访问上下文、功能和/或应用域特定词典数据库，并交叉匹配词典数据库记录与特征向量数据库记录来获得特征向量选择用于训练顺序分类器来实现。顺序分类器的训练构建了一个字符特征超空间。字符特征超空间可以在一个或多个数据库和/或文件系统中实施，所述数据库和/或文件系统可以是在本地或远程的顺序分类器的运行时执行计算设备和/或服务器上。设计时，可以相对容易和快速地重新训练和/或重新设计顺序分类器，而更复杂和资源密集的特征提取器则是可跨多个上下文、功能和应用域重新使用的。

根据一个实施例，特征提取器是基于CNN的字符特征提取器。在设计时，利用包含一个可用数字的所选语言字符(例如10,000个字符)和每个字符不同手写样式和/或形式的一个可用数字的图像(例如每个字符300个图像)的训练数据集来进行训练。在一个实施例中，字符图像的训练数据集由Unicode数据串表示，且特征提取器的训练构建了一个特征向量数据库。特征向量数据库可以在一个或多个数据库和/或文件系统中实施，所述数据库和/或文件系统可以是在本地或远程的特征提取器的运行时执行计算设备和/或服务器。

图3显示了特征提取器的训练策略和三字符滑动窗口的顺序分类器。包含10,000个字符的所选语言字符和每个字符不同手写样式/形式的300个图像及其对应的Unicode数据串的训练数据集，用于训练集成识别语义阶段301的特征提取器302。结果是特征向量数据库312，其也可用于生成顺序分类器303的训练数据集。为了训练顺序分类器303，访问上下文、功能、和/或应用域特定词典数据库311，并交叉匹配词典数据库记录和特征向量数据库312中的记录，以获得用于训练顺序分类器303的特征向量选择313。

图2显示了基于CNN的识别系统的集成识别语义阶段的一个简化逻辑结构和数据流图。特征提取器200包括图像处理层201，其用于图像处理(其可以包括噪声滤波、不相关的手写笔划移除、对比度增强、和平滑度增强)每个输入手写字符；还包括CNN层202和后面的完全连接(FC)层203，用于通过去除图像处理的输入手写字符的个人书写风格特征来分析和提取字符特征。从FC层203产生的结果是在字符特征超空间中表示的一个字符的特征向量，以供顺序分类器210进一步处理。

运行时，一个输入字符串或一个句子被馈送到特征提取器，其中确定与输入字符串中的字符近似匹配的字符图像序列。从该匹配字符图像序列，提取一个特征向量序列。然后，将顺序分类器连续地应用于该特征向量序列，作为多个连续特征向量的大小的滑动窗口。窗口“滑动”可以是沿着特征向量序列向前或向后。

根据一个实施例，顺序分类器的滑动窗口的大小至少为2。滑动窗口聚焦于任何一个目标特征向量，该目标特征向量与其相邻特征向量构成至少两个连续特征向量(或字符)的窗口。如此，顺序分类器识别出对应目标特征向量的一个字符，并通过以下任一个步骤来生成输出字符：从其紧靠前的连续特征向量和紧随后的连续特征向量进行双向推理；从紧随其后的连续特征向量进行前向推理；从其紧靠前的连续特征向量进行后向推理。

根据另一个实施例，顺序分类器的滑动窗口的大小是3。滑动窗口以一个目标特征向量为中心，该目标特征向量与其前一个特征向量及其后一个特征向量构成三个连续特征向量(或字符)窗口。如此，顺序分类器通过紧靠前的特征向量和紧随后的特征向量进行双向推理，在顺序分类器的字符特征超空间识别出对应于目标特征向量的字符。更确切地说，顺序分类器使用由三个特征向量形成的多维坐标，通过在顺序分类器的字符特征超空间近似找到识别的中间字符，以识别出中间字符。

根据各种实施例，其它尺寸的滑动窗口也是可能的。然而，一般而言，窗口越短，字符识别的准确性就越低；另一方面，窗口越长，训练数据集就越大，字符特征超空间中的可能解决方案的维数就越多。特征向量(或字符)之间的关系也可以在顺序分类器中容易地确定。在由三个特征向量(或字符)组成滑动窗口的情况下，关系可以是双向推理—通过从紧靠前的前一个特征向量和紧随后的后一个特征向量进行推理来识别中间字符；前向推理—通过从紧随其后的两个连续特征向量进行推理来识别字符；和后向推断—通过从紧靠前的两个连续特征向量进行推理来识别字符。

参考图4A、4B、4C和4D，显示根据本发明一个实施例的基于CNN识别系统的集成识别语义阶段的运行操作。该集成识别语义阶段的顺序分类器430采用三字符滑动窗口，其中中间字符是每个顺序字符识别中的目标输入字符。手写语句400被作为特征提取器410的输入，用于近似匹配和提取一个特征向量序列。顺序分类器430的滑动窗口处理前三个特征向量。但是，在边界处，由于滑动窗口是以第一特征向量421为中心，因此顺序分类器430仅采用紧随其后的特征向量422用于推理，并在其字符特征超空间中找到字符441。当滑动窗口继续“滑动”通过特征向量序列时，滑动窗口接下来以第二特征向量422为中心，然后第一特征向量421和第三特征向量423被顺序分类器430取得用于推理，在其字符特征超空间中找到字符442。随后，当滑动窗口接下来以第三特征向量423为中心时，第二特征向量422和第四特征向量424都被顺序分类器430取得用于推理，在其字符特征超空间中找到字符443。随着滑动窗口接下来以第四特征向量424为中心，第三特征向量423和第五特征向量425都被顺序分类器430取得用于推理，在其字符特征超空间中找到字符444。

依照本披露教义，在此披露的电子实施例可以使用通用或专用计算设备、计算机处理器、或包括但不限于专用集成电路(ASIC)、现场可编程门阵列(FPGA)和其他可编程逻辑设备的电子电路来实施。基于本披露的教义，软件或电子领域的技术人员可以容易地准备在通用或专用计算设备、计算机处理器、或可编程逻辑设备中运行的计算机指令或软件代码。

所有或部分电子实施例可以在一个或多个通用或计算设备中执行，包括服务器计算机、个人计算机、膝上型计算机、诸如智能电话和平板计算机的移动计算设备。

电子实施例包括计算机存储介质，具存储有计算机指令或软件代码，其可用于对计算机或微处理器进行编程以执行本发明的任何过程。存储介质包括但不限于软盘、光盘、蓝光盘、DVD、CD-ROM和磁光盘、ROM、RAM、闪存设备、或适用于存储指令、代码和/或数据的任何类型的介质或设备。

本发明的各种实施例还可以在分布式计算环境和/或云计算环境中实施，其中整个或部分机器指令通过一个或多个处理设备以分布式方式执行，这多个处理设备由通信网络互连，例如内联网、广域网(WAN)、局域网(LAN)、Internet和其他形式的数据传输介质。

出于说明和描述的目的，已经提供了本发明的前述描述。其并非旨在穷举或将本发明限制于所公开的精确形式。许多修改和变化对于本领域技术人员来说是显而易见的。

实施例的选择和描述是为了最好地解释本发明原理及其实际应用，从而使得本领域其他技术人员能够理解本发明的各种实施例以及适合于特定用途预期的各种修改。

Claims

1.一种用于自然语言处理的字符识别和语义的方法，包括：

通过基于卷积神经网络CNN的特征提取器，从输入字符图像序列中提取特征向量序列，其中所述特征向量序列包括多个特征向量，每个特征向量表示所述输入字符图像序列中相应输入字符的近似匹配；

连续地应用顺序分类器，作为多个连续特征向量的大小的滑动窗口，所述滑动窗口应用在每个特征向量上，作为所述特征向量序列中一个目标特征向量；

当所述滑动窗口在所述特征向量序列上滑动时，所述顺序分类器识别所述滑动窗口内的所述目标特征向量的输出字符，包括使用所述应用的连续特征向量，在字符特征超空间中找到所述输出字符。

2.根据权利要求1所述的方法，其中所述滑动窗口的所述多个连续特征向量的大小是至少三个特征向量。

3.根据权利要求1所述的方法，其中所述目标特征向量是所述滑动窗口内每个应用的连续特征向量的中间特征向量。

4.根据权利要求1所述的方法，其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的起始特征向量向前滑动到所述特征向量序列的末端特征向量。

5.根据权利要求1所述的方法，其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的末端特征向量向后滑动到所述特征向量序列的起始特征向量。

6.根据权利要求1所述的方法，其中使用词典的上下文、功能或应用域特定训练数据集来训练所述顺序分类器。

7.根据权利要求1所述的方法，其中使用包含多个所选语言字符和每个字符不同手写样式或格式的多个图像的训练数据集来训练所述基于CNN的特征提取器。

8.一种用于自然语言处理的字符识别和语义的装置，包括：

基于CNN的特征提取器，用于从输入字符图像序列中提取特征向量序列，其中所述特征向量序列包括多个特征向量，每个特征向量表示所述输入字符序列中其相应输入字符的近似匹配；

顺序分类器，用于连续地应用多个连续特征向量大小的滑动窗口在每个所述特征向量上，每个所述特征向量作为所述特征向量序列中目标特征向量；

其中所述顺序分类器还被配置以，当所述滑动窗口在所述特征向量序列上滑动时，所述顺序分类器识别所述滑动窗口内的所述目标特征向量的输出字符，通过使用所述应用的连续特征向量，在字符特征超空间中找到所述输出字符。

9.根据权利要求8所述的装置，其中所述滑动窗口的所述多个连续特征向量的大小是至少三个特征向量。

10.根据权利要求8所述的装置，其中所述目标特征向量是所述滑动窗口内每个应用的连续特征向量的中间特征向量。

11.根据权利要求8所述的装置，其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的起始特征向量向前滑动到所述特征向量序列的末端特征向量。

12.根据权利要求8所述的装置，其中所述滑动窗口在所述特征向量序列上从所述特征向量序列的末端特征向量向后滑动到所述特征向量序列的起始特征向量。

13.根据权利要求8所述的装置，其中使用词典的上下文、功能或应用域特定训练数据集来训练所述顺序分类器。

14.根据权利要求8所述的装置，其中使用包含多个所选语言字符和每个字符不同手写样式或格式的多个图像的训练数据集来训练所述基于CNN的特征提取器。