CN110765754B

CN110765754B - 文本数据排版方法、装置、计算机设备及存储介质

Info

Publication number: CN110765754B
Application number: CN201910871382.8A
Authority: CN
Inventors: 王科强; 郝新东; 周晓峰; 倪渊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2024-05-03
Anticipated expiration: 2039-09-16
Also published as: CN110765754A; WO2021051869A1

Abstract

本发明公开了文本数据排版方法、装置、计算机设备及存储介质，属于计算机技术领域。本发明采用爬取网站中数据的方式收集数据，将收集的数据作为训练数据集合；利用训练数据集合对初始实体识别模型进行训练，获取实体识别模型；通过实体识别模型对待排版文本数据(如：内容杂乱无章的文本，即：非结构化数据)进行识别、排版生成排版文本数据，从而实现可对内容杂乱无章的文本进行重新排版的目的，节省了人力；同时扩大了应用场景。

Description

文本数据排版方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及文本数据排版方法、装置、计算机设备及存储介质。

背景技术

现有的自动排版系统主要是对有已经有排版(已有标题、段落等，即：结构化数据或半结构化数据)的文章文本进行修正，例如：删除文章中的空行、首尾干扰字符等。还有一些文档结构识别系统只能识别固定格式的文本，例如：识别pdf(pdf文档中有一定的格式排版特征)中的标题、引用等。对于网络上的许多文本内容杂乱无章的(如：一段文本中包括标题、子标题以及相应的正文内容等，即：非结构化数据)，现有的自动排版系统无法对段落中的内容进行识别重新排版，需要人工手动排版，应用场景受到限制。

发明内容

针对现有的自动排版系统只能对结构化的文本进行排版修订，应用场景受到限制的问题，现提供一种可对内容杂乱无章的文本进行重新排版的文本数据排版方法、装置、计算机设备及存储介质。

为实现上述目的，本发明提供一种文本数据排版方法，包括：

S1.爬取待爬取网站的数据，将爬取的数据作为训练数据集合；

S2.采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型；

S3.采用所述实体识别模型对待排版文本数据进行识别、排版生成排版文本数据，所述待排版文本数据为非结构化数据。

优选的，所述待爬取网站的数据为结构化数据，和/或半结构化数据。

优选的，所述步骤S1中将爬取的数据作为训练数据集合，包括：

识别爬取的数据中每一字段的标签信息，对所述标签信息及对应的字段进行标注，将每一字段数据、对应的标签信息及标签标注作为所述训练数据集合。

优选的，所述初始实体识别模型为长短期记忆网络+条件随机场算法的组合模型。

优选的，所述步骤S2,采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型，包括：

采用长短期记忆网络+条件随机场算法的组合模型对所述训练数据集合中的数据进行标签信息识别、排版生成反馈数据，根据反馈数据调整长短期记忆网络+条件随机场算法的组合模型中的参数变量，以获取所述实体识别模型。

优选的，所述步骤S3，采用所述实体识别模型对待排版文本数据进行识别、排版生成排版文本数据，包括：

S31.采用所述实体识别模型对待排版文本数据中每个句子内容进行分类识别；

S32.根据分类识别结果及所述待排版文本数据中数据的逻辑关系对所述待排版文本数据进行排版，生成所述排版文本数据。

优选的，所述步骤S31，采用所述实体识别模型对待排版文本数据中每个句子内容进行分类识别，包括：

采用所述实体识别模型以字符为粒度对待排版文本数据中每个句子的字词进行实体判断，以解析每个句子对应的类别类型。

为实现上述目的，本发明提供一种文本数据排版装置，包括：

获取单元，用以爬取待爬取网站的数据，将爬取的数据作为训练数据集合；

训练单元，用以采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型；

排版单元，用以采用所述实体识别模型对待排版文本数据进行识别、排版生成排版文本数据，所述待排版文本数据为非结构化数据。

为实现上述目的，本发明提供一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的文本数据排版方法、装置、计算机设备及存储介质，采用爬取网站中数据的方式收集数据，将收集的数据作为训练数据集合；利用训练数据集合对初始实体识别模型进行训练，获取实体识别模型；通过实体识别模型对待排版文本数据(如：内容杂乱无章的文本，即：非结构化数据)进行识别、排版生成排版文本数据，从而实现可对内容杂乱无章的文本进行重新排版的目的，节省了人力；同时扩大了应用场景。

需要说明的是：所谓的非结构化数据为数据结构不规则或不完整，没有预定义的数据模型。

附图说明

图1为本发明所述的文本数据排版方法的一种实施例的方法流程图；

图2为本发明所述的文本数据排版方法的另一种实施例的方法流程图；

图3为本发明所述的自动问答装置的一种实施例的模块图；

图4为本发明所述的计算机设备一实施例的硬件架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的文本数据排版方法、装置、计算机设备及存储介质，主要适用于医疗、保健等领域，提供了一种可对内容杂乱无章的文本进行重新排版的方法。本发明采用爬取网站中数据的方式收集数据，将收集的数据作为训练数据集合；利用训练数据集合对初始实体识别模型进行训练，获取实体识别模型；通过实体识别模型对待排版文本数据(如：内容杂乱无章的文本，即：非结构化数据)进行识别、排版生成排版文本数据，从而实现可对内容杂乱无章的文本进行重新排版的目的，节省了人力；同时扩大了应用场景。

实施例一

请参阅图1，本实施例的一种文本数据排版方法，包括：

其中，所述待爬取网站的数据为结构化数据，和/或半结构化数据。

所谓的结构化数据为具有结构性的经过排版的数据。所谓的半结构化数据(如：百度百科、基维百科、360百科、简书等中本文数据，都有较好的各级标题、内容、重点(加粗语句)等字段)为具有一定的结构性需要进一步修正的数据。

在本步骤中，爬取数据可采用网络爬虫，获取待爬取网页的网页地址，根据待爬取网页的网页地址，从网络地址库中随机选取可用的网络地址；并根据与待爬取网页相对应的渲染方式渲染待爬取网页；爬取已渲染完成的待爬取网页获取待爬取网页数据，将爬取的网页数据作为训练数据集合。

具体地，在所述步骤S1中将爬取的数据作为训练数据集合可包括：

需要说明的是，标注包括标签标注和字段标注。对标签信息的标注为标签标注，对字段的标注为字段标注。所述训练数据集合中包括标签信息、每一标签信息对应的字段信息及标注。

进一步地，识别爬取的数据中每一字段的标签信息的过程为：

识别爬取的数据的各级标题以及字段格式区别于上下文格式的文本数据，将所述各级标题的数据以及字段格式区别于上下文格式的文本数据作为标签信息，并生成标签标注。

在本实施例中，标签信息是指与文本内容对应的概况性标题。以病历为例，标签信息可以是：一般资料，主诉，现病史，既往史，查体，辅助检测，初步诊断，鉴别诊断，诊疗经过，临床诊断，病例分析/讨论等。以医疗问答为例，标签信息可以是编号、项目符号、多层级编号或总结性标题等。

通过爬取网站中的数据可节省大量的人力和时间，达到了快速收集训练数据的目的。

需要说明的是：所述初始实体识别模型为长短期记忆网络(Long Short-TermMemory，简称LSTM，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件)+条件随机场算法(conditional random field algorithm，简称CRF，是一种无向图模型，主要用于分词、词性标注和命名实体识别等序列标注任务中)的组合模型。

实体识别模型采用深度学习(神经网络)的方法来做命名实体识别，其中CRF部分只是把转移矩阵加进来了而已，而其它特征的提取则是交由神经网络来完成；采用LSTM捕获词本身的信息及词的上下文信息。

所述S2采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型，包括：

具体地，长短期记忆网络包括：前向长短期记忆网络模块和后向长短期记忆网络模块。

采用所述训练数据集合对初始实体识别模型进行训练的具体过程包括：

通过对训练数据集合中的数据文本进行分词，计算分词后每个词语和标点的词向量；

按照文本的正向阅读顺序依次记忆的网络应用形态输入前向长短期记忆网络模块，将当前所有的词向量按照所述文本顺序进行正向拼接得到第一输出结果；

将所有的词向量按照所述文本顺序进行反向拼接，输入后向长短期记忆网络模块，得到第二输出结果；

分别将第一输出结果和第二输出结果中的每一个值利用该双曲正切激活函数进行映射，分别得到映射后的第一输出结果和第二输出结果，将第一输出结果和第二输出结果合并，得到第三输出结果；

利用基于逻辑回归的激活函数对第三输出结果进行计算，得到一标签概率矩阵，该标签矩阵中的元素表示每一词语对应的标签概率；

将标签概率矩阵代入条件随机场转移矩阵，计算并得到与所述数据文本相对应的全局最优标签序列；

根据该全局最优标签序列中的标签对应的数据文本进行合并，完成排版，更新前向长短期记忆网络模块和后向长短期记忆网络模块的参数值；直至完成对实体识别模型的训练，获取实体识别模型。

进一步地，如图2所示，所述步骤S3可包括：

具体地，采用所述实体识别模型以字符为粒度对待排版文本数据中每个句子的字词进行实体判断，识别整段文本中每个句子的作用(标题、总结、内容等)，对文本中的字符进行建模编码，也可对每个句子进行表示编码，整合两种粒度进行建模，以解析每个句子对应的类别类型。

S32.根据分类识别结果及所述待排版文本数据中数据的逻辑关系(例如：上下文逻辑关系)对所述待排版文本数据进行排版，生成所述排版文本数据，以显示一段有标题、重点、内容的排版整齐的文章。

本发明所述的文本数据排版方法主要应用于电子病历排版和医疗问答排版。在医疗问答排版中主要有三种排版方式分别为：编号、项目符号结构化的方式排版，多层级编号缩进的方式排版及总结性标题、正文结构化的方式排版。

以编号、项目符号结构化的方式排版为例，按照有编号或者项目符号的换行。

待排版文本为：

糖尿病患者是可以乘坐飞机的，只要糖尿病患者在乘坐飞机的时候谨记一些事情，就能很好稳定血糖。一、糖尿病乘飞机要注意预定靠走道座位：连续飞行数小时会增加深脉血栓(DVT)及腿部血栓危险。糖尿病患者更应该多走动走动，最好预定靠走道座位。二、糖尿病乘飞机要注意电子表提示时间：在飞机上睡觉或者看电影，时间就过得很快。糖尿病患者最好戴一只可闹铃的电子表，一个小时或一个半小时提醒一次，以便起身走动走动或上上厕所。

排版后的文本为：

糖尿病患者是可以乘坐飞机的，只要糖尿病患者在乘坐飞机的时候谨记一些事情，就能很好稳定血糖。

一、糖尿病乘飞机要注意预定靠走道座位：连续飞行数小时会增加深脉血栓(DVT)及腿部血栓危险。糖尿病患者更应该多走动走动，最好预定靠走道座位。

二、糖尿病乘飞机要注意电子表提示时间：在飞机上睡觉或者看电影，时间就过得很快。糖尿病患者最好戴一只可闹铃的电子表，一个小时或一个半小时提醒一次，以便起身走动走动或上上厕所。

以总结性标题、正文结构化的方式排版为例，把段落中总结性的语句列为标题，按照标题+正文的结构分类，标题和正文换行；不同标题+正文间空一行。

待排版文本为：

养成每天洗脚的良好习惯。洗净后，用干毛巾轻轻擦干，尤其是脚趾间，切莫用力，以免擦破皮肤。仔细检查双脚，比如：水泡、鸡眼等。选择合适的鞋袜。最好选择下午或晚上去购买鞋子，若双脚大小有别，则按稍大的脚为准购鞋。

排版后的文本为：

养成每天洗脚的良好习惯

洗净后，用干毛巾轻轻擦干，尤其是脚趾间，切莫用力，以免擦破皮肤。仔细检查双脚，比如：水泡、鸡眼等。

选择合适的鞋袜

最好选择下午或晚上去购买鞋子，若双脚大小有别，则按稍大的脚为准购鞋。

通过重新排版可将内容杂乱无章的医疗问答文本内容转换为逻辑性清晰的、段落作用突出有格式的文本。

对于电子病历排版待排版文本是一整段文字，并且各个模块顺序是乱的，例如：

"一般资料":"男性，79岁，农民""主诉":"阵发性咳嗽、咳痰3天入院。""现病史":"患者缘于入院前3天""既往史":"既往高血压、冠心病病史10余年,高时200/100mmHg"

排版后的文本为：

"一般资料":"男性，79岁，农民"

"主诉":"阵发性咳嗽、咳痰3天入院。"

"现病史":"患者缘于入院前3天"

"既往史":"既往高血压、冠心病病史10余年,高时200/100mmHg"

通过重新排版可将内容杂乱无章的病历文本内容转换为逻辑性清晰的、段落作用突出有格式的文本。

在本实施例中，采用爬取网站中数据的方式收集数据，将收集的数据作为训练数据集合；利用训练数据集合对初始实体识别模型进行训练，获取实体识别模型；通过实体识别模型对待排版文本数据(如：内容杂乱无章的文本，即：非结构化数据)进行识别、排版生成排版文本数据，从而实现可对内容杂乱无章的文本进行重新排版的目的，节省了人力；同时扩大了应用场景。

实施例二

如图3所示，一种文本数据排版装置1，包括：获取单元11、训练单元12和排版单元13，其中：

获取单元11，用以爬取待爬取网站的数据，将爬取的数据作为训练数据集合；

获取单元11爬取数据可采用网络爬虫，获取待爬取网页的网页地址，根据待爬取网页的网页地址，从网络地址库中随机选取可用的网络地址；并根据与待爬取网页相对应的渲染方式渲染待爬取网页；爬取已渲染完成的待爬取网页获取待爬取网页数据，将爬取的网页数据作为训练数据集合。

具体地，获取单元11将爬取的数据作为训练数据集合可包括：

训练单元12，用以采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型；

训练单元12采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型，包括：

分别将第一输出结果和第二输出结果中的每一个值利用该双曲正切激活函数进行映射，分别得到映射后的第一输出结果和第二输出结果第一输出结果和第二输出结果合并，得到第三输出结果；

排版单元13，用以采用所述实体识别模型对待排版文本数据进行识别、排版生成排版文本数据，所述待排版文本数据为非结构化数据。

排版单元13采用所述实体识别模型对待排版文本数据中每个句子内容进行分类识别；

排版单元13根据分类识别结果及所述待排版文本数据中数据的逻辑关系对所述待排版文本数据进行排版，生成所述排版文本数据，以显示一段有标题、重点、内容的排版整齐的文章。

本发明所述的文本数据排版方法主要应用于电子病历排版和医疗问答排版。在医疗问答排版中主要有三种排版方式分别为：编号、项目符号结构化的方式排版，多层级编号缩进的方式排版及总结性标题、正文结构化的方式排版。在本实施例中，采用爬取网站中数据的方式收集数据，将收集的数据作为训练数据集合；利用训练数据集合对初始实体识别模型进行训练，获取实体识别模型；通过实体识别模型对待排版文本数据(如：内容杂乱无章的文本，即：非结构化数据)进行识别、排版生成排版文本数据，从而实现可对内容杂乱无章的文本进行重新排版的目的，节省了人力；同时扩大了应用场景。

实施例三

为实现上述目的，本发明还提供一种计算机设备2，该计算机设备2包括多个计算机设备2，实施例二的文本数据排版装置1的组成部分可分散于不同的计算机设备2中，计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及文本数据排版装置1(参考图4)。需要指出的是，图4仅示出了具有组件-的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例一的文本数据排版方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的文本数据排版装置1等。

所述网络接口22可包括无线网络接口或有线网络接口，该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如，所述网络接口22用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图4仅示出了具有部件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述文本数据排版装置1还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器23)所执行，以完成本发明。

实施例四

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储文本数据排版装置1，被处理器23执行时实现实施例一的文本数据排版方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本数据排版方法，其特征在于，包括：

S1. 爬取待爬取网站的数据，将爬取的数据作为训练数据集合；

S2. 采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型；

S3. 采用所述实体识别模型对待排版文本数据进行识别、排版生成排版文本数据，所述待排版文本数据为非结构化数据；

所述步骤S3包括：

S31.采用所述实体识别模型对待排版文本数据中每个句子内容进行分类识别；具体地，采用所述实体识别模型以字符为粒度对待排版文本数据中每个句子的字词进行实体判断，识别整段文本中每个句子的作用，包括标题、总结、内容，对文本中的字符进行建模编码，也对每个句子进行表示编码，整合两种粒度进行建模，以解析每个句子对应的类别类型；

S32.根据分类识别结果及所述待排版文本数据中数据的逻辑关系对所述待排版文本数据进行排版，生成所述排版文本数据，以显示一段有标题、重点、内容的排版整齐的文章；

所述步骤S1中将爬取的数据作为训练数据集合，包括：

识别爬取的数据中每一字段的标签信息，对所述标签信息及对应的字段进行标注，将每一字段数据、对应的标签信息及标签标注作为所述训练数据集合；

识别爬取的数据中每一字段的标签信息的过程为：

2.根据权利要求1所述的文本数据排版方法，其特征在于，所述待爬取网站的数据为结构化数据，和/或半结构化数据。

3.根据权利要求1所述的文本数据排版方法，其特征在于，所述初始实体识别模型为长短期记忆网络+条件随机场算法的组合模型。

4. 根据权利要求3所述的文本数据排版方法，其特征在于，所述步骤S2, 采用所述训练数据集合对初始实体识别模型进行训练，获取实体识别模型，包括：

5.一种文本数据排版装置，其特征在于，包括：

排版单元，用以采用所述实体识别模型对待排版文本数据进行识别、排版生成排版文本数据，所述待排版文本数据为非结构化数据；

排版单元，还用以：

采用所述实体识别模型对待排版文本数据中每个句子内容进行分类识别；具体地，采用所述实体识别模型以字符为粒度对待排版文本数据中每个句子的字词进行实体判断，识别整段文本中每个句子的作用，包括标题、总结、内容，对文本中的字符进行建模编码，也对每个句子进行表示编码，整合两种粒度进行建模，以解析每个句子对应的类别类型；

根据分类识别结果及所述待排版文本数据中数据的逻辑关系对所述待排版文本数据进行排版，生成所述排版文本数据，以显示一段有标题、重点、内容的排版整齐的文章；

将爬取的数据作为训练数据集合，包括：

识别爬取的数据中每一字段的标签信息的过程为：

6.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。