CN111144355A

CN111144355A - 数据采集方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111144355A
Application number: CN201911401779.7A
Authority: CN
Inventors: 张勇; 李崧; 施煜; 裴剑; 于濂; 赵涵
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12

Abstract

本申请实施例提供一种数据采集方法、装置、设备及计算机可读存储介质。该方法包括：获取包含文本数据的图像；识别所述图像中的文本数据，得到原始文本数据集合，所述原始文本数据集合包括多条原始文本数据；基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，所述中间文本数据集合包括多条中间文本数据；基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合；将所述目标文本数据集合输出。本申请实施例能够提高数据采集效率。

Description

数据采集方法、装置、设备及计算机可读存储介质

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种数据采集方法、装置、设备及计算机可读存储介质。

背景技术

在一些使用纸质版或电子版文件的场景下，由于需要将纸质版或电子版文件上的一些数据输入计算机以进行进一步处理或使用，因此需要将纸质版或电子版文件中的数据识别，并转换成计算机能够识别的方式。

目前，纸质版或者电子版的文件上的数据都是通过手动录入方式输入计算机中，手动录入的方式不仅耗时，且容易出错，导致数据采集效率和数据采集的准确率比较低。

发明内容

本申请实施例提供一种数据采集方法、装置、设备及计算机可读存储介质，以提高数据采集效率和数据采集的准确率。

第一方面，本申请实施例提供一种数据采集方法，包括：获取包含文本数据的图像；识别所述图像中的文本数据，得到原始文本数据集合，所述原始文本数据集合包括多条原始文本数据；基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，所述中间文本数据集合包括多条中间文本数据；基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合；将所述目标文本数据集合输出。

可选的，所述识别所述图像中的文本数据，得到原始文本数据集合，包括：通过文本提取的方式提取所述包含文本数据的图像中的文本数据；若提取失败，则采用图像文字识别的方式识别所述图像中文本数据，并按照所述图像中文本数据的顺序提取所述文本数据。

可选的，所述预设杂质数据集合包括多条杂质数据，所述杂质数据是从所述原始数据集合中待去除的数据；所述基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，包括：对所述原始文本数据集合中的每一条原始文本数据，确定是否包括所述预设杂质数据集合中的杂质数据；若所述原始文本数据包括所述预设杂质数据集合中的杂质数据，则将所述原始文本数据中的杂质数据设置为空；在所述原始文本数据集合中的所有原始文本数据都执行完上述步骤后，得到所述中间文本数据集合。

可选的，所述预设规则集合包括多条预设规则；所述基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合，包括：对所述中间文本数据集合中的每一条中间文本数据，确定是否符合所述预设规则集合中的预设规则；若所述中间文本数据符合所述预设规则集合中的预设规则，则基于所述预设规则提取所述中间文本数据中的参数名和与所述参数名对应的参数值；在所述中间文本数据集合中的所有中间文本数据都执行完上述步骤后，得到所述目标文本数据集合。

可选的，所述预设规则集合包括多条正则表达式；所述基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合，包括：对所述中间文本数据集合中的每条中间文本数据，将该中间文本数据与所述多条正则表达式进行匹配；基于匹配成功的正则表达式提取该中间文本数据中的参数名和与所述参数名对应的参数值；在所述中间文本数据集合中的所有中间文本数据都执行完上述步骤后，得到所述目标文本数据集合。

可选的，所述将所述目标文本数据集合输出，包括：将所述目标文本数据存储至数据库。

可选的，所述包含文本数据的图像为医疗报告图像；所述参数名为所述医疗报告图像中的体检项名称；所述参数值为体检项名称对应的体检结果。

第二方面，本申请实施例提供一种数据采集装置，包括：获取模块，用于获取包含文本数据的图像；识别模块，用于识别所述图像中的文本数据，得到原始文本数据集合，所述原始文本数据集合包括多条原始文本数据；滤除模块，用于基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，所述中间文本数据集合包括多条中间文本数据；提取模块，用于基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合；输出模块，用于将所述目标文本数据集合输出。

第三方面，本申请实施例提供一种数据采集设备，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本申请实施例提供的数据采集方法、装置、设备及计算机可读存储介质，通过获取包含文本数据的图像；识别图像中的文本数据，得到原始文本数据集合，原始文本数据集合包括多条原始文本数据；基于预设杂质数据集合，滤除原始文本数据集合中的杂质数据，得到中间文本数据集合，中间文本数据集合包括多条中间文本数据；基于预设规则集合，提取中间文本数据集合中每条中间文本数据中的参数名和与参数名对应的参数值，得到目标文本数据集合；将目标文本数据集合输出。由于识别图像中的文本数据之后，基于预设规则集合提取图像中包含的文本数据，而预设规则集合中的预设规则是待提取的文本数据的表达形式的规则，因此，能够准确且快速提取出图像中包含的文本数据，从而提高数据采集效率。

附图说明

图1为本申请实施例提供的数据采集系统的结构示意图；

图2为本申请实施例提供的数据采集方法的流程图；

图3为本申请实施例提供的数据采集方法的流程图；

图4为本申请实施例提供的数据采集装置的结构示意图；

图5为本申请实施例提供的数据采集设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在介绍本申请实施例之前，请允许首先对正则表达式的相关概念进行介绍：

表1特殊元字符及其含义

表2定位元字符及其含义

表3基本语法元字符及其含义

表4反义字符及其含义

元字符	含义
		[ab]	匹配中括号中的字符
[a-c]	a字符到c字符之间是字符
		[^x]	匹配除了x以外的任意字符
[^adwz]	匹配除了adwz这几个字符以外的任意字符

表5重复描述字符及其含义

元字符	含义
		{n}	匹配前面的字符n次
{n,}	匹配前面的字符n次或多于n次
		{n,m}	匹配前面的字符n到m次
？	重复零次或一次
		+	重复一次或更多次
*	重复零次或更多次

本申请实施例提供的数据采集方法，可以适用于图1所示的数据采集系统。如图1所示，该数据采集系统包括：第一终端设备11、第二终端设备12和第三终端设备13；其中，第一终端设备11是提供包含文本数据的图像的设备，第二终端设备12是能够执行数据采集方法的设备，第三终端设备13是接收第二终端设备12输出的结果数据的设备。

在一个典型的应用场景中，第一终端设备11可以是智能体重秤，第二终端设备12可以是电脑、IPAD、智能手机等电子设备，第三终端设备13是具有存储区域的设备，例如数据库服务器。其中，智能体重秤可以输出纸质版或电子版的体检报告，纸质版或电子版的体检报告中包括大量文本数据，例如体检项目名称和该体检项目名称对应的体检结果，这些文本数据对于科学研究、医生诊断能够起到辅助作用。但目前对于纸质版或电子版的体检报告，都是通过手动录入的方式输入计算机中，使得数据采集效率低，且数据采集准确率低。

下面将以医疗体检报告为例，对本申请实施例进行详细说明，应当理解，本申请实施例不限于医疗体检报告，对于其它一些需要将包含文本数据的图像转换为计算机能够识别的数据形式的场景，也在本申请的范围内。

本申请实施例提供的数据采集方法，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的数据采集方法流程图。本申请实施例针对现有技术的如上技术问题，提供了数据采集方法，该方法具体步骤如下：

步骤201、获取包含文本数据的图像。

本步骤中，获取的图像中包含文本数据。本实施例中的文本数据包括词语、句子、段落、篇章等，例如可以是一个词语或者一个句子，也可以是多个词语或者多个句子的组合。这些词语、句子、段落、篇章存在于图像中。

本实施例的执行主体可以是第二终端设备，第二终端设备从第一终端设备获取包含文本数据的图像。其中，包含文本数据的图像可以通过以下至少两种方式获取：

在第一种可选的实施方式中，包含文本数据的图像可以是从第一终端设备直接输出的电子版文件。在一个示例性的场景中，以第一终端设备是智能体重秤为例，智能体重秤完成相关的医疗检测之后，直接输出电子版，例如PDF、jpeg、bmp、tif等格式的医疗报告。

在第二种可选的实施方式中，包含文本数据的图像可以是对纸质版文件进行扫描形成的电子版文件，电子版文件包括PDF格式的文件或图片格式文件，其中，图片格式例如是jpeg、bmp、tif格式等。在一个示例性的场景中，以第一终端设备是智能体重秤为例，智能体重秤完成相关的医疗检测之后，会输出纸质版的医疗报告，通过对纸质版的医疗报告进行扫描可以得到电子版医疗报告。或者，智能体重秤直接输出电子版医疗报告。通过对电子版医疗报告进行扫描可以得到包含文本数据的图像。

步骤202、识别图像中的文本数据，得到原始文本数据集合。

可选的，识别图像中的文本数据，得到原始文本数据集合，包括：通过文本提取的方式提取包含文本数据的图像中的文本数据；若提取失败，则采用图像文字识别的方式识别图像中文本数据，并按照图像中文本数据的顺序提取所述文本数据。

其中，原始文本数据集合包括多条原始文本数据。

可选的，对于上述两种可选的实施方式，可以通过文本提取的方式首先从第一终端设备输出的电子版文件中进行文本提取，若通过文本提取的方式从第一终端设备输出的电子版文件中未提取出来文本数据，则可以采用图像文字识别的方式识别所述图像中文本数据，并按照所述图像中文本数据的顺序提取所述文本数据。例如可以通过文字识别、OCR(Optical Character Recognition，光学字符识别)、机器视觉等图像文字识别方法将图片中的图形进行图像文字识别，从而提取出来文本数据。

可选的，还可以直接通过文字识别、OCR、机器视觉等图像文字识别方法将第一终端设备输出的纸质版文件进行扫描得到的电子版文件进行图像文字识别，来进行文本数据的提取。

通过上述两种方式提取出来文本数据之后，将提取出来的文本数据按照提取的顺序依次存储到一个空的数据集合中，将所有的文本数据都提取完之后，就可以得到原始文本数据集合，其中，原始文本数据集合记为D，D＝{D₁，D₂，…D_i…D_N}，D_i表示原始文本数据集合中的第i条文本数据，例如D₁、D₂、D_N分别表示原始文本数据集合中的第一条、第二条和第N条文本数据。N为原始文本数据集合中文本数据的数量，也是从包含文本数据的图像中提取得到的文本数据的数量。

步骤203、基于预设杂质数据集合，滤除原始文本数据集合中的杂质数据，得到中间文本数据集合。

其中，中间文本数据集合包括多条中间文本数据。预设杂质数据集合包括多条杂质数据，杂质数据是指从原始数据集合中待去除的数据。

可选的，基于预设杂质数据集合，滤除原始文本数据集合中的杂质数据，得到中间文本数据集合，包括：对原始文本数据集合中的每一条原始文本数据，确定是否包括预设杂质数据集合中的杂质数据；若原始文本数据包括预设杂质数据集合中的杂质数据，则将原始文本数据中的杂质数据设置为空；在原始文本数据集合中的所有原始文本数据都执行完上述步骤后，得到中间文本数据集合。

例如，建立一个杂质数据集合W，该杂质数据集合W中包括需要从原始文本数据集合中去除的杂质数据，形成的杂质数据集合W如下：

W＝{W₁，W₂，…，W_p}，其中，W_j，j＝1，2，…，p是文本型的杂质数据。

在一个示例中，基于预设杂质数据集合，滤除原始文本数据集合中的杂质数据，得到中间文本数据集合，包括：

步骤2031、遍历原始文本数据集合D，对于每一个D_i，i＝1，2，…，N，如果D_i中包含文本W_j，则执行步骤2032；否则继续遍历。

步骤2032，将文本数据D_i中出现的W_j替换为空字符串，将替换之后产生的新的字符串仍记作D_i，并且将该D_i替换原始文本数据集合D中第i位置的值，然后继续判断原始文本数据集合D中的其余文本数据是否包含文本W_j。

步骤2033、将完成步骤2032之后的数据集合D，遍历每一个D_i，i＝1，2，…，N：

步骤2034、如果D_i为空字符串，或者D_i中的所有字符为空格、回车、TAB或换行符，则继续遍历；

步骤2035、如果D_i不为空字符串或者D_i中的所有字符不为空格、回车、TAB或换行符，则将D_i开头或者结尾中出现的空格、回车、TAB、换行符去除，得到规范化的数据

将其存入规范数据集合

中，其中，规范化数据也是按照遍历顺序存入规范数据集合

中，应注意的是，同一文本数据在D中和

中的位置有可能不同，继续遍历。

步骤2036、遍历结束，得到去除了杂质数据的规范数据集合

规范数据集合

就是中间文本数据集合，具体为如下形式：

其中

是文本型数据。

步骤204、基于预设规则集合，提取中间文本数据集合中每条中间文本数据中的参数名和与参数名对应的参数值，得到目标文本数据集合。

可选的，预设规则集合包括多条预设规则；基于预设规则集合，提取中间文本数据集合中每条中间文本数据中的参数名和与参数名对应的参数值，得到目标文本数据集合，包括：对中间文本数据集合中的每一条中间文本数据，确定是否符合预设规则集合中的预设规则；若中间文本数据符合预设规则集合中的预设规则，则基于预设规则提取中间文本数据中的参数名和与参数名对应的参数值；在中间文本数据集合中的所有中间文本数据都执行完上述步骤后，得到目标文本数据集合。

在一个可选的示例中，包含文本数据的图像为医疗报告图像；参数名为医疗报告图像中的体检项名称；参数值为体检项名称对应的体检结果。本步骤是对中间文本数据集合中的每一条中间文本数据，判断其是否符合预设规则集合中的某一条规则，例如判断中间文本数据是否符合包含某一条预设规则中的参数名和参数值这样的形式，如果符合，那么就认为该条中间文本数据是有效数据，从中提取出来参数名和与该参数名对应的参数值。

步骤205、将目标文本数据集合输出。

可选的，可以将提取到的数据存储到数据库系统、存储为xml格式、存储为文本格式或者Excel电子表格格式，以便后续应用或者分析处理。

本申请实施例提供的数据采集方法，通过获取包含文本数据的图像；识别图像中的文本数据，得到原始文本数据集合，原始文本数据集合包括多条原始文本数据；基于预设杂质数据集合，滤除原始文本数据集合中的杂质数据，得到中间文本数据集合，中间文本数据集合包括多条中间文本数据；基于预设规则集合，提取中间文本数据集合中每条中间文本数据中的参数名和与参数名对应的参数值，得到目标文本数据集合；将目标文本数据集合输出。由于识别图像中的文本数据之后，基于预设规则集合提取图像中包含的文本数据，而预设规则集合中的预设规则是待提取的文本数据的表达形式的规则，因此，能够准确且快速提取出图像中包含的文本数据，从而提高数据采集效率。

图3是本申请实施例提供的一种数据采集方法的流程图。

如图3所示，预设规则集合包括多条正则表达式；本实施例的数据采集方法，包括如下方法步骤：

步骤301、对中间文本数据集合中的每条中间文本数据，将该中间文本数据与多条正则表达式进行匹配。

步骤302、基于匹配成功的正则表达式提取该中间文本数据中的参数名和与参数名对应的参数值。

步骤303、在中间文本数据集合中的所有中间文本数据都执行完上述步骤后，得到目标文本数据集合。

以医疗数据为例，参数名至少包括如下中的至少一项：患者ID、患者姓名、患者性别、患者年龄、检测日期、检测时间、检测机构、检测部门、检测地址、身高、体重、身体质量指数(Body Mass Index，BMI)、脂肪重量(FM)、脂肪重量占体重比例、脂肪重量指数(FMI)、不含脂肪的重量(FFM)、不含脂肪的重量占体重比例、无脂肪体重指数(FFMI)、骨骼肌肉质量(SMM)、体液总量(TBW)、体液总量占体重比例、细胞外液(ECW)、细胞外液占体重比例、ECW/TBW、电阻(R)、电抗(Xc)、内脏脂肪(VAT)、腰围单位(WC)、相角、相角百分位、总能量消耗、理想的能量消耗、身体活动量、持续时间、静息能量消耗等。

上述参数名对应的具体的值就是参数值，例如身高160cm就是身高这一参数名对应的参数值。

可选的，以参数名是患者ID和患者姓名为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤a1、对于

如果

符合包含患者ID和患者姓名的正则表达式，例如：^\s*ID[：:]\s*名字[：:]\s*$，则将i+1赋值给i，并执行步骤a2。其中，^代表开头，\s*代表在患者ID的开头匹配0至多个任意空白符(包括换行符/n、回车符/r、制表符/t、垂直制表符/v、换页符/f)；\s*代表在患者姓名的开头匹配0至多个任意空白符(包括换行符/n、回车符/r、制表符/t、垂直制表符/v、换页符/f)；患者姓名后面的\s代表匹配任意空白符(包括换行符/n、回车符/r、制表符/t、垂直制表符/v、换页符/f)，$代表匹配必须出现在以下位置：字符串结尾、字符串结尾处的\n之前或行的结尾。

其中，步骤401是对参数名的匹配。

步骤a2、若i+1>n，即

不存在，则结束；否则进入步骤403。

步骤a3、若i+1≤n，即

存在，则判断

是否符合如下正则表达式：^(|[\S]+)\s*(|[\S]+)$；其中，\S代表\s的补集(除\s定义的字符之外)，\S也可以理解为非空字符，(|[\S]+)代表重复一次或多次地匹配\S或者空字符。

步骤a4、若符合上述步骤a3中的正则表达式，则提取正则表达式匹配结果中的第一匹配结果，即提取正则表达式“(|[\S]+)”的匹配部分对应的患者ID，以及提取正则表达式匹配结果中第二匹配结果，即提取正则表达式“(|[\S]+)”的匹配部分对应的患者姓名。

其中，步骤a2至步骤a4是对参数值的匹配和提取过程。

可选的，以患者性别和患者年龄为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤b1：对于

判断

是否符合如下两种字符其中之一：{男，女}。

步骤b2：如果

符合{男，女}中的任一种字符，则将与之相匹配的结果作为患者性别。

例如，与之相匹配的结果是男，则患者性别为男。

步骤b3：如果

不符合{男，女}中的任一种字符，则执行步骤b4。

步骤b4：对于

如果

字符长度为2且为可以取整的整数，则取整得到的数字即为患者年龄；如果

字符长度不为2或者不为可以取整的整数，则将i+1赋值给i，继续对其他中间文本数据提取文本数据。

可选的，以检测日期和检测时间为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤c1：对于

判断

是否符合如下正则表达式：

^\s*(\d{1，2}/\d{1，2}/\d{4})\s*(\d{1，2}:\d{1，2})\s*$；

其中，^代表开头，\s*代表匹配空字符串，\d{1，2}代表对0-9的数字进行1到2两次的匹配；\d{4}代表对0-9的数字进行4次匹配；/代表日期之间的间隔符，例如2019/10/30；(\d{1，2}/\d{1，2}/\d{4})代表对日期的匹配，(\d{1，2}:\d{1，2})代表对时间的匹配，其中的：代表时间信息中的符号，例如20:30。

步骤c2：如果符合，则提取正则表达式匹配结果中的第一匹配结果，即正则表达式中“(\d{1，2}/\d{1，2}/\d{4})”的匹配部分为检测日期，以及提取正则表达式匹配结果中的第二匹配结果，即正则表达式中“(\d{1，2}:\d{1，2})”的匹配部分为检测时间。

步骤c3：如果不符合，则将i+1赋值给i，继续对其他中间文本数据提取文本数据。

可选的，以检测机构、检测部门和检测地址为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤d1：对于

判断

是否符合如下正则表达式：

^\s*检测机构[：:]\s*检测部门[：:]\s*\s*检测地址[：:]\s*$

其中，^、\s*和$的含义可以参考前述实施例的介绍，检测机构[：:]、检测部门[：:]、检测地址[：:]分别代表检测结构、检测部门和检测地址的文本表达形式，例如检测机构：A机构，检测地址：B医院。

步骤d2：如果符合上述正则表达式，则判断

是否存在；

步骤d3：如果

存在，且

可选的，以体重和身高为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤e1：对于

判断

是否符合如下正则表达式：

^\s*体重[：:]\s*身高[：:]\s*$

其中，^\s*、\s*$分别代表开头和结尾，体重[：:]和身高[：:]分别代表体重和身高的表达形式，例如，体重：50kg，身高：160cm。

步骤e2：如果

符合如上正则表达式，则判断

是否存在；

步骤e3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+kg)\s*([\d\.]+m)$

其中，([\d\.]+kg)代表对体重的具体数值的匹配，例如，50kg，([\d\.]+m)代表对身高的具体数值的匹配，例如1.65m。

步骤e4：如果

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式“([\d\.]+kg)”的匹配部分，作为体重数据；以及提取正则表达式匹配结果中第二匹配结果，即提取正则表达式“([\d\.]+m)”的匹配部分，作为身高数据。

可选的，以身体质量指数(BMI)为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤f1：对于

判断

是否符合如下正则表达式：

^\s*BMI[：:]$

其中，^\s*和$可以参考上述实施例的介绍，BMI[：:]代表对身体质量指数的文本表达形式，例如BMI：20kg/m²。

步骤f2：如果

符合如上正则表达式，则判断

是否存在；

步骤f3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+kg/m²)$；

其中，[\d\.]+kg/m²代表BMI的具体数值，例如BMI：20kg/m²。

步骤f4：若

符合如上正则表达式，则提取正则表达式的匹配结果，即提取正则表达式“([\d\.]+kg/m²)”的匹配部分，作为身体质量指数(BMI)数据。

可选的，以脂肪重量(FM)和脂肪重量占体重比例为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤g1：对于

判断

是否符合如下正则表达式：

^\s*脂肪重量(FM)[：:]$

其中，脂肪重量(FM)[：:]代表脂肪重量的文本表达形式，例如脂肪重量(FM)：8％。

步骤g2：如果

符合如上正则表达式，则判断

是否存在；

步骤g3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+kg([\d\.]+％))$；

其中，[\d\.]+kg([\d\.]+％)代表脂肪重量的具体数值的表达形式，例如脂肪重量为4kg，脂肪重量占体重比例为8％。

步骤g4：若

符合如上正则表达式，则提取正则表达式的匹配结果，即对正则表达式“([\d\.]+kg([\d\.]+％))”的匹配部分进行拆分，“[\d\.]+kg”部分为脂肪重量(FM)数据，“[\d\.]+％”部分为脂肪重量占体重比例数据。

可选的，以脂肪重量指数(FMI)、不含脂肪的重量(FFM)和不含脂肪的重量占体重比例为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤h1：对于

判断

是否符合如下正则表达式：

^\s*脂肪重量指数(FMI)[：:]\s*不含脂肪的重量(FFM)[：:]\s*$

其中，^\s*、\s*$分别代表开头和结尾，脂肪重量指数(FMI)[：:]和不含脂肪的重量(FFM)[：:]分别代表脂肪重量指数和不含脂肪的重量的文本表达形式，例如，脂肪重量指数：5.9kg/m²，不含脂肪的重量：78.34kg，79.3％。

步骤h2：如果

符合如上正则表达式，则判断

是否存在；

步骤h3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+kg/m²)\s*([\d\.]+kg([\d\.]+％))$；

其中，[\d\.]+kg/m²代表对脂肪重量指数的具体数值的匹配，[\d\.]+kg([\d\.]+％)代表对不含脂肪的重量的具体数值的匹配。

步骤h4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式“([\d\.]+kg/m²)”的匹配部分为脂肪重量指数(FMI)数据；以及提取正则表达式匹配结果中第二匹配结果。也可以理解为对正则表达式“([\d\.]+kg([\d\.]+％))”的匹配结果进行拆分，“[\d\.]+kg”部分为不含脂肪的重量(FFM)数据，“[\d\.]+％”部分为不含脂肪的重量占体重比例数据。

可选的，以无脂肪体重指数(FFMI)和骨骼肌肉质量(SMM)为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤k1：对于

判断

是否符合如下正则表达式：

^\s*无脂肪体重指数(FFMI)[：:]\s*骨骼肌肉质量(SMM)[：:]\s*$

其中，^\s*、\s*$分别代表开头和结尾，无脂肪体重指数(FFMI)[：:]和骨骼肌肉质量(SMM)[：:]分别代表无脂肪体重指数和骨骼肌肉质量的文本表达形式，例如，无脂肪体重指数：22.6kg/m²，骨骼肌肉质量：40.29kg。

步骤k2：如果

符合如上正则表达式，则判断

是否存在；

步骤k3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+kg/m²)\s*([\d\.]+kg)$

其中，([\d\.]+kg/m²)代表无脂肪体重指数的具体数值的匹配，([\d\.]+kg)代表骨骼肌肉质量的具体数值的匹配。例如，无脂肪体重指数：22.6kg/m²，骨骼肌肉质量：40.29kg。

步骤k4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式“([\d\.]+kg/m²)”的匹配部分为无脂肪体重指数(FFMI)数据，以及提取正则表达式匹配结果中第二匹配结果，即提取正则表达式“([\d\.]+kg)”的匹配部分为骨骼肌肉质量(SMM)数据。

可选的，以体液总量(TBW)和体液总量占体重比例为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤q1：对于

判断

是否符合如下正则表达式：

^\s*体液总量(TBW)[：:]$

其中，^\s*、$分别代表开头和结尾，体液总量(TBW)[：:]代表体液总量的文本表达形式，例如体液总量：58.2l(58.2升)，58.5％。

步骤q2：如果

符合如上正则表达式，则判断

是否存在；

步骤q3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.+l]+kg([\d\.]+％))$

其中，([\d\.+l]+kg([\d\.]+％))代表体液总量的具体数值的匹配，例如体液总量：58.2l(58.2升)，58.5％。

步骤q4：若

符合如上正则表达式，则提取正则表达式的匹配结果，即对正则表达式“([\d\.]+kg([\d\.]+％))”的匹配部分进行拆分，“[\d\.]+l”部分为体液总量(TBW)数据，“[\d\.]+％”部分为体液总量占体重比例数据。

步骤r1：对于

判断

是否符合如下正则表达式：

^\s*细胞外液(ECW)[：:]$

其中，细胞外液的正则表达式与体液总量的正则表达式类似，具体可以参见体液总量的介绍，此处不再赘述。

步骤r2：如果

符合如上正则表达式，则判断

是否存在；

步骤r3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.+l]+kg([\d\.]+％))$

其中，细胞外液的具体数值的正则表达式与体液总量的具体数值的正则表达式类似，具体可以参见体液总量的具体数值的匹配部分的介绍，此处不再赘述。

步骤r4：若

符合如上正则表达式，则提取正则表达式匹配结果，即对匹配正则表达式“([\d\.]+kg([\d\.]+％))”的匹配部分进行拆分，“[\d\.]+l”部分为细胞外液(ECW)数据，“[\d\.]+％”部分为细胞外液占体重比例数据。

可选的，以ECW/TBW和电阻(R)为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤t1：对于

判断

是否符合如下正则表达式：

^\s*ECW/TBW[：:]\s*电阻(R)[：:]\s*$

其中，ECW/TBW和电阻(R)的正则表达式与体重身高的正则表达式类似，具体可以参见体重身高的正则表达式的介绍，此处不再赘述。

步骤t2：如果

符合如上正则表达式，则判断

是否存在；

步骤t3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+％)\s*([\d\.]+Ω)$

其中，ECW/TBW和电阻(R)的具体数值的正则表达式与体重身高的正则表达式的具体数值类似，具体可以参见体重身高的正则表达式具体数值的介绍，此处不再赘述。

步骤t4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式“([\d\.]+％)”的匹配部分为ECW/TBW数据；以及提取正则表达式匹配结果中第二匹配结果，即正则表达式“([\d\.]+Ω)”的匹配部分为电阻(R)数据。

可选的，以电抗(Xc)和内脏脂肪(VAT)为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤x1：对于

判断

是否符合如下正则表达式：

^\s*电抗(Xc)[：:]\s*内脏脂肪(VAT)[：:]\s*$

其中，电抗(Xc)和内脏脂肪(VAT)的正则表达式与体重身高的正则表达式类似，具体可以参见体重身高的正则表达式的介绍，此处不再赘述。

步骤x2：如果

符合如上正则表达式，则判断

是否存在；

步骤x3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+Ω)\s*([\d\.]+l)$

其中，电抗(Xc)和内脏脂肪(VAT)的具体数值的正则表达式与体重身高的正则表达式的具体数值类似，具体可以参见体重身高的正则表达式具体数值的介绍，此处不再赘述。

步骤x4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式“([\d\.]+Ω)”的匹配部分为电抗(Xc)数据；以及提取正则表达式匹配结果中第二匹配结果，即提取正则表达式“([\d\.]+l)”的匹配部分为内脏脂肪(VAT)数据。

可选的，以腰围(Wc)和相角(φ)为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤y1：对于

判断

是否符合如下正则表达式：

^\s*腰围(Wc)[：:]\s*相角(φ)[：:]\s*$

其中，腰围(Wc)和相角(φ)的正则表达式与体重身高的正则表达式类似，具体可以参见体重身高的正则表达式的介绍，此处不再赘述。

步骤y2：如果

符合如上正则表达式，则判断

是否存在；

步骤y3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+m)\s*([\d\.]+°)$

其中，腰围(Wc)和相角(φ)的具体数值的正则表达式与体重身高的正则表达式的具体数值类似，具体可以参见体重身高的正则表达式具体数值的介绍，此处不再赘述。

步骤y4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式“([\d\.]+m)”的匹配部分为腰围(Wc)数据；以及提取正则表达式匹配结果中第二匹配结果，即提取正则表达式“([\d\.]+°)”的匹配部分为相角(φ)数据。

可选的，以相角百分位和总能量消耗为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤z1：对于

判断

是否符合如下正则表达式：

^\s*相角百分位[：:]\s*总能量消耗[：:]\s*$

其中，相角百分位和总能量消耗的正则表达式与体重身高的正则表达式类似，具体可以参见体重身高的正则表达式的介绍，此处不再赘述。

步骤z2：如果

符合如上正则表达式，则判断

是否存在；

步骤z3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.])\s*([\d\.]+kcal/天)$

其中，相角百分位和总能量消耗的具体数值的正则表达式与体重身高的正则表达式的具体数值类似，具体可以参见体重身高的正则表达式具体数值的介绍，此处不再赘述。

步骤z4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式的“([\d\.])”部分为相角百分位数据；以及提取正则表达式匹配结果中第二匹配结果，即提取正则表达式的“([\d\.]+kcal/天)”部分为总能量消耗数据。

可选的，以理想能量消耗和身体活动量为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤m1：对于

判断

是否符合如下正则表达式：

^\s*理想能量消耗[：:]\s*身体活动量[：:]\s*$

其中，理想能量消耗和身体活动量的正则表达式与体重身高的正则表达式类似，具体可以参见体重身高的正则表达式的介绍，此处不再赘述。

步骤m2：如果

符合如上正则表达式，则判断

是否存在；

步骤m3：若

存在，则判断

是否符合如下正则表达式：

^(|[\S]+)\s*([\d\.])$

其中，理想能量消耗和身体活动量的具体数值的正则表达式与体重身高的正则表达式的具体数值类似，具体可以参见体重身高的正则表达式具体数值的介绍，此处不再赘述。

步骤m4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即提取正则表达式的“(|[\S]+)”部分为理想能量消耗数据；以及提取正则表达式匹配结果中第二匹配结果，即提取正则表达式“([\d\.])”部分为身体活动量数据。

可选的，以静息能量消耗和目标能疗消耗数据为例，令i＝1，i的最大值为n，然后执行如下步骤：

步骤p1：对于

判断

是否符合如下正则表达式：

^\s*静息能量消耗[：:]\s*治疗目标[：:]\s*$

其中，静息能量消耗和目标能疗消耗数据的正则表达式与体重身高的正则表达式类似，具体可以参见体重身高的正则表达式的介绍，此处不再赘述。

步骤p2：如果

符合如上正则表达式，则判断

是否存在；

步骤p3：若

存在，则判断

是否符合如下正则表达式：

^([\d\.]+kcal/天)\s*(|[\S]+)$

其中，静息能量消耗和目标能疗消耗数据的具体数值的正则表达式与体重身高的正则表达式的具体数值类似，具体可以参见体重身高的正则表达式具体数值的介绍，此处不再赘述。

步骤p4：若

符合如上正则表达式，则提取正则表达式匹配结果中第一匹配结果，即将正则表达式“([\d\.]+kcal/天)”对应的匹配结果作为静息能量消耗数据；以及提取正则表达式匹配结果中第二匹配结果，即将正则表达式“(|[\S]+)”对应的匹配结果作为目标能疗消耗数据。

图4为本申请实施例提供的数据采集装置的结构示意图。该数据采集装置具体可以是上述实施例中的第二终端设备。本申请实施例提供的数据采集装置可以执行数据采集方法实施例提供的处理流程，如图4所示，数据采集装置40包括：获取模块41、识别模块42、滤除模块43、提取模块44和输出模块45；其中，获取模块41，用于获取包含文本数据的图像；识别模块42，用于识别所述图像中的文本数据，得到原始文本数据集合，所述原始文本数据集合包括多条原始文本数据；滤除模块43，用于基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，所述中间文本数据集合包括多条中间文本数据；提取模块44，用于基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合；输出模块45，用于将所述目标文本数据集合输出。

可选的，识别模块42识别图像中的文本数据，得到原始文本数据集合，具体包括：通过文本提取的方式提取所述包含文本数据的图像中的文本数据；若提取失败，则采用图像文字识别的方式识别所述图像中文本数据，并按照所述图像中文本数据的顺序提取所述文本数据。

可选的，所述预设杂质数据集合包括多条杂质数据，所述杂质数据是从所述原始数据集合中待去除的数据；滤除模块43基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，具体包括：对所述原始文本数据集合中的每一条原始文本数据，确定是否包括所述预设杂质数据集合中的杂质数据；若所述原始文本数据包括所述预设杂质数据集合中的杂质数据，则将所述原始文本数据中的杂质数据设置为空；在所述原始文本数据集合中的所有原始文本数据都执行完上述步骤后，得到所述中间文本数据集合。

可选的，所述预设规则集合包括多条预设规则；提取模块44基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合，具体包括：对所述中间文本数据集合中的每一条中间文本数据，确定是否符合所述预设规则集合中的预设规则；若所述中间文本数据符合所述预设规则集合中的预设规则，则基于所述预设规则提取所述中间文本数据中的参数名和与所述参数名对应的参数值；在所述中间文本数据集合中的所有中间文本数据都执行完上述步骤后，得到所述目标文本数据集合。

可选的，所述预设规则集合包括多条正则表达式；提取模块44基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合，具体包括：对所述中间文本数据集合中的每条中间文本数据，将该中间文本数据与所述多条正则表达式进行匹配；基于匹配成功的正则表达式提取该中间文本数据中的参数名和与所述参数名对应的参数值；在所述中间文本数据集合中的所有中间文本数据都执行完上述步骤后，得到所述目标文本数据集合。

可选的，输出模块45将所述目标文本数据集合输出，具体包括：将所述目标文本数据存储至数据库。

可选的，包含文本数据的图像为医疗报告图像；所述参数名为所述医疗报告图像中的体检项名称；所述参数值为体检项名称对应的体检结果。

图4所示实施例的数据采集装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本申请实施例提供的数据采集设备的结构示意图。该数据采集设备具体可以是上述实施例中的第二终端设备。本申请实施例提供的数据采集设备可以执行数据采集方法实施例提供的处理流程，如图5所示，数据采集设备50包括：存储器51、处理器52、计算机程序和通讯接口53；其中，计算机程序存储在存储器51中，并被配置为由处理器52执行以上方法实施例的实施过程。

图5所示实施例的数据采集设备可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的数据采集方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种数据采集方法，其特征在于，包括：

获取包含文本数据的图像；

识别所述图像中的文本数据，得到原始文本数据集合，所述原始文本数据集合包括多条原始文本数据；

基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，所述中间文本数据集合包括多条中间文本数据；

基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合；

将所述目标文本数据集合输出。

2.根据权利要求1所述的方法，其特征在于，所述识别所述图像中的文本数据，得到原始文本数据集合，包括：

通过文本提取的方式提取所述包含文本数据的图像中的文本数据；

若提取失败，则采用图像文字识别的方式识别所述图像中文本数据，并按照所述图像中文本数据的顺序提取所述文本数据。

3.根据权利要求1所述的方法，其特征在于，所述预设杂质数据集合包括多条杂质数据，所述杂质数据是从所述原始数据集合中待去除的数据；

所述基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，包括：

对所述原始文本数据集合中的每一条原始文本数据，确定是否包括所述预设杂质数据集合中的杂质数据；

若所述原始文本数据包括所述预设杂质数据集合中的杂质数据，则将所述原始文本数据中的杂质数据设置为空；

在所述原始文本数据集合中的所有原始文本数据都执行完上述步骤后，得到所述中间文本数据集合。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述预设规则集合包括多条预设规则；

所述基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合，包括：

对所述中间文本数据集合中的每一条中间文本数据，确定是否符合所述预设规则集合中的预设规则；

若所述中间文本数据符合所述预设规则集合中的预设规则，则基于所述预设规则提取所述中间文本数据中的参数名和与所述参数名对应的参数值；

在所述中间文本数据集合中的所有中间文本数据都执行完上述步骤后，得到所述目标文本数据集合。

5.根据权利要求4所述的方法，其特征在于，所述预设规则集合包括多条正则表达式；

对所述中间文本数据集合中的每条中间文本数据，将该中间文本数据与所述多条正则表达式进行匹配；

基于匹配成功的正则表达式提取该中间文本数据中的参数名和与所述参数名对应的参数值；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述目标文本数据集合输出，包括：

将所述目标文本数据存储至数据库。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述包含文本数据的图像为医疗报告图像；

所述参数名为所述医疗报告图像中的体检项名称；

所述参数值为体检项名称对应的体检结果。

8.一种数据采集装置，其特征在于，包括：

获取模块，用于获取包含文本数据的图像；

识别模块，用于识别所述图像中的文本数据，得到原始文本数据集合，所述原始文本数据集合包括多条原始文本数据；

滤除模块，用于基于预设杂质数据集合，滤除所述原始文本数据集合中的杂质数据，得到中间文本数据集合，所述中间文本数据集合包括多条中间文本数据；

提取模块，用于基于预设规则集合，提取所述中间文本数据集合中每条中间文本数据中的参数名和与所述参数名对应的参数值，得到目标文本数据集合；

输出模块，用于将所述目标文本数据集合输出。

9.一种数据采集设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。