CN111126064A

CN111126064A - 金额识别方法、装置、计算机设备和可读存储介质

Info

Publication number: CN111126064A
Application number: CN201911114733.7A
Authority: CN
Inventors: 张森; 叶兴龙; 缪瑾; 畅敏; 于长虹; 肖波; 谭卓; 李星良; 吴宏扬
Original assignee: Tunnel Tang Technology Co ltd
Current assignee: Tunnel Tang Technology Co ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-05-08

Abstract

本申请实施例提供了一种金额识别方法、装置、计算机设备和可读存储介质，方法应用于计算机设备，通过对待处理文本进行预处理，获得待处理金额，然后通过对待处理金额进行金额识别、金额清洗和单位识别的操作，进而可以准确的获取目标金额。

Description

金额识别方法、装置、计算机设备和可读存储介质

技术领域

本申请涉及文字识别技术领域，具体而言，涉及一种金额识别方法、装置、计算机设备和可读存储介质。

背景技术

目前，传统的实体识别技术主要基于元组相似性进行识别，但是在某些情况下，这样的性质并不成立，尤其是在针对金额进行识别时，由于文本文件中会存在各种标号(包括数字标号)和英文字符，想要通过元组相似性准确地识别金额较为困难。

有鉴于此，如何提供一种能够准确识别金额的方法，是目前需要解决的问题。

发明内容

本申请提供了一种金额识别方法、装置、计算机设备和可读存储介质。

第一方面，本申请实施例提供一种金额识别方法，应用于计算机设备，所述方法包括：

将待处理文本进行预处理，获得待处理金额；

将所述待处理金额进行金额识别；

将进行金额识别后的待处理金额进行金额清洗和单位识别，获取目标金额。

在可选的实施方式中，所述计算机设备中包括预先设置的关键词库，所述将待处理文本进行预处理，获得待处理金额，包括：

除去所述待处理文本中的干扰信息，其中，所述干扰信息包括代码数据；

将除去干扰信息后的待处理文本中的预设标点符号进行文本替换；

根据所述关键词库，将进行文本替换后的待处理文本进行过滤，获取待处理金额。

在可选的实施方式中，所述将所述待处理金额进行金额识别，包括：

将所述待处理金额进行文本分词；

将进行文本分词后的待处理金额进行词性标注；

将进行词性标注后的待处理金额进行实体标注；

将进行实体标注后的待处理金额进行金额识别。

将所述待处理金额进行文本分词；

将文本分词后的待处理金额进行词性标注；

根据预存句法对词性标注后的待处理金额进行分析；

将根据预存句法分析后的待处理金额进行金额识别。

在可选的实施方式中，将进行金额识别后的待处理金额进行金额清洗，包括：

根据预先设置的第一判断模型判断所述待处理金额中的数据的类型是否为目标金额的类型，若是，则保留所述数据作为目标金额；

若不是，则删除所述数据。

在可选的实施方式中，将进行金额识别后的所述待处理金额进行单位识别，包括：

根据预先设置的第二判断模型判断所述待处理金额的单位是否为万元；若是，则将所述目标金额的单位输出为万元；

若不是，则直接将所述目标金额输出。

第二方面，本申请实施例提供一种金额识别装置，应用于计算机设备，所述装置包括：

处理模块，用于将待处理文本进行预处理，获得待处理金额；

识别模块，用于将所述待处理金额进行金额识别；

获取模块，用于将进行金额识别后的待处理金额进行金额清洗和单位识别，获取目标金额。

在可选的实施方式中，所述计算机设备中包括预先设置的关键词库，所述处理模块具体用于：

第三方面，本申请实施例提供一种计算机设备，所述计算机设备与终端设备通信连接，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行前述实施方式中任意一项所述的金额识别方法。

第四方面，本申请实施例提供一种可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行前述实施方式中任意一项所述的金额识别方法。

本申请实施例的有益效果包括：

采用本申请实施例提供的金额识别方法、装置、计算机设备和可读存储介质，通过对待处理文本进行预处理，获得待处理金额，然后通过对待处理金额进行金额识别、金额清洗和单位识别的操作，进而可以准确的获取目标金额。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种计算机设备的结构框图；

图2为本申请实施例提供的一种金额识别方法的步骤流程示意框图；

图3为图2中步骤S201的子步骤流程示意框图；

图4为图2中步骤S202的子步骤流程示意框图；

图5为图2中步骤S202的另一子步骤流程示意框图；

图6为图2中步骤S203的子步骤流程示意框图；

图7为图2中步骤S203的另一子步骤流程示意框图；

图8为本申请实施例提供的一种金额识别装置的结构框图。

图标：100-计算机设备；110-金额识别装置；1101-处理模块；1102-识别模块；1103-获取模块；111-存储器；112-处理器；113-通信单元。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

请参考图1，图1为本申请实施例提供的计算机设备100的结构框图。计算机设备100可以为能够进行数据处理和分析的服务器、处理平台等。所述计算机设备100可以包括金额识别装置110、存储器111、处理器112及通信单元113。

所述存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述金额识别装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述计算机设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块，例如所述金额识别装置110所包括的软件功能模块及计算机程序等。

其中，所述存储器111可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序或者数据。

请参考图2，图2为本申请实施例提供的金额识别方法的步骤流程示意框图。所述方法可以包括步骤S201、步骤S202和步骤S203。

步骤S201，将待处理文本进行预处理，获得待处理金额。

步骤S202，将所述待处理金额进行金额识别。

步骤S203，将进行金额识别后的待处理金额进行金额清洗和单位识别，获取目标金额。

本实施例中，步骤S201可以通过多种方式实现。例如，请参照图3，图3为图2中步骤S201的其中一种子步骤流程示意框图。在本实施例中，步骤S201可以包括子步骤S2011-子步骤S2013。

子步骤S2011，除去所述待处理文本中的干扰信息，其中，所述干扰信息包括代码数据。

在本实施例中，由于待处理文本的来源可以是多种多样，也有可能在待处理文本进行传递时人工操作失误(例如转换格式或压缩时并未执行正确操作)，导致了待处理文本中会存在大量干扰信息，例如类似“&nbsp”的代码。在本实施例中可以先将此类明显与金额数据无关的干扰信息进行删除。

子步骤S2012，将除去干扰信息后的待处理文本中的预设标点符号进行文本替换。

在本实施例中，由于在待处理文本中金额附近的字符一般是由数字、符号以及中文描述组成，可以通过将预设标点符号替换为文字的方式，以使在后续处理过程中能够进行语法分析。例如，待处理文本中“中标价：5000万元”，可以将“：”替换为文本“是”，即“中标价是5000万元”，如此便可形成完整的主谓宾结构，以便后续的处理。

子步骤S2013，根据所述关键词库，将进行文本替换后的待处理文本进行过滤，获取待处理金额。

在本实施例中，可以预先设置关键词库，关键词库中可以存储金额有关的关键词，例如“中标金额”、“中标价格”、“成交价”、“成交金额”等。可以通过关键词库中的关键词，对待处理文本进行一次过滤，以便在后续处理过程中，可以根据关键词和非关键词之间的关系来进行进一步地处理，提高处理效率。

例如，若关键词为“中标价格”，那么，针对“此次方案的中标价格为5000万元”，进行过滤之后，可以得出“中标价格”为关键词，从而在后续处理中，对“中标价格”附近的词(即5000万元)进行处理，而不会对非关键词“此次方案”周围的词进行处理，以此来提高处理效率。

本实施例中，步骤S202可以通过多种方式实现。例如，请参照图4，图4为图2中步骤S202的其中一种子步骤流程示意框图。在本实施例中，步骤S202可以包括子步骤S2021-子步骤S2024。

子步骤S2021，将所述待处理金额进行文本分词。

子步骤S2022，将进行文本分词后的待处理金额进行词性标注。

子步骤S2023，将进行词性标注后的待处理金额进行实体标注。

子步骤S2024，将进行实体标注后的待处理金额进行金额识别。

在本实施例中，可以采用文本分词工具对待处理金额进行文本分词，例如，待处理金额此时为“中标金额是5000万元”，进行分词后为“中标”，“金额”，“是”，“5000”，“万元”，然后可以采用文本词性分词工具对分词后的待处理金额进行词性标注，可以将“中标”和“金额”标注为“noun”(名词)，可以将“是”标注为“verb”(动词)，将“5000”和“万元”标注为“number”(数字)，进一步地，在获得了待处理金额的词性后，可以采用文本实体识别工具进行实体识别，将词性标注为“noun”和“verb”的词标注为“other”(其他)，将词性标注为“number”(数字)的词标注为“money”(金额)。在经过实体识别后，便可以将“money”(即前述关键词库中的关键词)附近的词语提取出来，即将“5000万元”从待处理金额中提取出来。

请参照图5，图5为图2中步骤S202的另一子步骤流程示意框图。在本实施例中，步骤S202还可以包括子步骤S2025-子步骤S2028。

子步骤S2025，将所述待处理金额进行文本分词。

子步骤S2026，将文本分词后的待处理金额进行词性标注。

子步骤S2027，根据预存句法对词性标注后的待处理金额进行分析。

子步骤S2028，将根据预存句法分析后的待处理金额进行金额识别。

在本实施例中，还可以采用文本分词工具对待处理金额进行文本分词，例如，待处理金额此时为“中标金额是5000万元”，进行分词后为“中标”，“金额”，“是”，“5000”，“万元”，然后可以采用文本词性分词工具对分词后的待处理金额进行词性标注，可以将“中标”和“金额”标注为“noun”(即名词)，可以将“是”标注为“verb”(即动词)，将“5000”和“万元”标注为“number”(即数字)，进一步地，在获得了待处理金额的词性后，可以通过句法分析工具获取待处理金额中各个词之间的句法关系，可以得出，“中标金额”是主谓宾结构中的主语部分，“5000万元”是主谓宾结构中的宾语部分，此时可以提取出待识别金额中的关键词库中关键词附近的宾语“5000万元”。

本实施例中，步骤S203可以通过多种方式实现。例如，请参照图6，图6为图2中步骤S203的其中一种子步骤流程示意框图。在本实施例中，步骤S203可以包括子步骤S2031-子步骤S2033。

子步骤S2031，根据预先设置的第一判断模型判断所述待处理金额中的数据的类型是否为目标金额的类型，若是，则执行子步骤S2032，若不是，则执行子步骤S2033。

子步骤S2032，保留所述数据作为目标金额。

子步骤S2033，删除所述数据。

在本实施例中，在提取出待处理金额后，由于除了金额之外，还会存在其他的数字数据，例如类似“1.1”这样的序号数据，因此，还可以对待处理金额进行清洗的操作，可以通过预设的第一判断模型来判断待处理金额中的数据的类型是否为目标金额的类型。

请参照图7，图7为图2中步骤S203的另一子步骤流程示意框图。在本实施例中，步骤S203还可以包括子步骤S2034-子步骤S2036。

子步骤S2034，根据预先设置的第二判断模型判断所述待处理金额的单位是否为万元；若是，则执行子步骤S2035，若不是，则执行子步骤S2036。

子步骤S2035，将所述目标金额的单位输出为万元。

子步骤S2036。直接将所述目标金额输出。

在本实施例中，提取到的待处理金额后，由于金额数据可能是有单位的，也可能是没有单位的，主要的区别可以理解为金额数据的单元是“元”和“万元”的区别，因此，可以通过建立第二判断模型来判断待处理金额中的单元是“元”，还是“万元”。

值得说明的是，在本实施例中，第一判断模型和第二判断模型可以通过LSTM算法训练得到。其中，第一判断模型的训练数据集(部分)可以如表1所示：

数字	是否为金额数字
		1.1	否
100201904210058	否
		36748	是
3451	是
		86531	是

表1

可以将表1中的数据提供给LSTM(长短时记忆网络，Long Short-Term Memory)进行训练，训练出来得到第一判断模型，第一判断模型可以识别出待处理金额中的数据的类型为目标金额的类型(即真正的金额数据)的概率，若这个概率大于预先设定的阈值，第一判断模型就将待处理金额中的数据的类型判断为目标金额的类型，若不大于，则判定待处理金额中的数据(例如1.1)并不是目标金额的类型，将其排除。

在本实施例中，第二判断模型的训练数据集(部分)可以如表2所示：

数字	单位
		17	万元
456890000	元
		345	万元
35192700	元

表2

应当理解的是，同理可以将表2中的数据提供给LSTM进行训练，训练出来得到第二判断模型，第二判断模型可以判断出待处理金额的单位是否为万元。

值得说明的是，在本实施例中，前述在对第一判断模型和第二判断模型进行训练的具体过程可以是如下：

一、金额预处理：

可以将自然语言表示的金额，处理成为能够作为神经网络输入的数据。该部分可以使用字符级的词嵌入方式，对每一个字进行索引编码，使用索引编码后的序列，来表示这一个金额，同时将序列的长度可以限定为30。将处理后的序列，可以通过Keras(开源人工神经网络库)的Embedding层(嵌入层)转换为200维度的字符级词向量。

二、LSTM神经网络处理：

可以通过Stack(栈)两个长短时记忆神经网络(LSTM)，输出一个128维度的向量。在LSTM的输出单元与Keras的Dropout(随机失活)层相连，用以防止过拟合。

三、输出神经网络：

可以将128维度的向量与Keras的Dense层(稠密层)连接，建立一个全连接神经网络，可以使用“sigmoid”作为激活函数，输出想要计算的概率。

应当理解的是，训练模型的数据，可以来源于用户公司历史数据，人工采集数据以及程序模拟合成数据。例如，若目标金额为工程金额，可以在计算工程金额的概率模型中，正样本采用了历史的工程金额，负样本有采集的证书编号、工期，合成的日期、序号等等数据。在本实施例中，为了简化模型的衡量，可以将正样本和负样本的比例控制在5:5。

请参照图8，图8为本申请实施例提供的金额识别装置110的结构框图。

金额识别装置110包括：

处理模块1101，用于将待处理文本进行预处理，获得待处理金额；

识别模块1102，用于将所述待处理金额进行金额识别；

获取模块1103，用于将进行金额识别后的待处理金额进行金额清洗和单位识别，获取目标金额。

进一步地，所述处理模块1101具体用于：

本申请实施例提供一种计算机设备，所述计算机设备与终端设备通信连接，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行前述的金额识别方法。

本申请实施例提供一种可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行前述的金额识别方法。

综上所述，本申请实施例提供了一种金额识别方法、装置、计算机设备和可读存储介质，通过对待处理文本进行预处理，获取待处理金额，并对待处理金额进行金额识别、金额清洗和单位识别的操作，能够准确的从待处理文本中获取准确的目标金额。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种金额识别方法，其特征在于，应用于计算机设备，所述方法包括：

将待处理文本进行预处理，获得待处理金额；

将所述待处理金额进行金额识别；

2.根据权利要求1所述的方法，其特征在于，所述计算机设备中包括预先设置的关键词库，所述将待处理文本进行预处理，获得待处理金额，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待处理金额进行金额识别，包括：

将所述待处理金额进行文本分词；

将进行文本分词后的待处理金额进行词性标注；

将进行词性标注后的待处理金额进行实体标注；

将进行实体标注后的待处理金额进行金额识别。

4.根据权利要求1中所述的方法，其特征在于，所述将所述待处理金额进行金额识别，包括：

将所述待处理金额进行文本分词；

将文本分词后的待处理金额进行词性标注；

根据预存句法对词性标注后的待处理金额进行分析；

将根据预存句法分析后的待处理金额进行金额识别。

5.根据权利要求1所述的方法，其特征在于，将进行金额识别后的待处理金额进行金额清洗，包括：

若不是，则删除所述数据。

6.根据权利要求1中所述的方法，其特征在于，将进行金额识别后的所述待处理金额进行单位识别，包括：

若不是，则直接将所述目标金额输出。

7.一种金额识别装置，其特征在于，应用于计算机设备，所述装置包括：

识别模块，用于将所述待处理金额进行金额识别；

8.根据权利要求7所述的装置，其特征在于，所述计算机设备中包括预先设置的关键词库，所述处理模块具体用于：

9.一种计算机设备，其特征在于，所述计算机设备与终端设备通信连接，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行权利要求1-6中任意一项所述的金额识别方法。

10.一种可读存储介质，其特征在于，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-6中任意一项所述的金额识别方法。