CN113627190A

CN113627190A - 可视化数据转换方法、装置、计算机设备及存储介质

Info

Publication number: CN113627190A
Application number: CN202110991941.6A
Authority: CN
Inventors: 杨万强; 吴贵丹; 邝琦
Original assignee: Shanghai Fu Shen Lan Software Co ltd
Current assignee: Shanghai Fu Shen Lan Software Co ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-09

Abstract

本发明数据处理领域，公开了一种可视化数据转换方法、装置、计算机设备及存储介质，其方法包括：获取商业流通图片；对商业流通图片进行文本识别，获得商业流通文本；对商业流通文本进行命名实体识别，获得命名实体识别数据；命名实体识别数据包括至少两个命名实体，以及与各个命名实体对应的文本片段；对命名实体识别数据进行关系识别和分类，获得关系分类数据；对商业流通文本和/或命名实体识别数据进行时间和事件识别，获得时间事件数据；对关系分类数据和时间事件数据进行知识融合，获得知识映射数据；将知识映射数据输入预设模板中，生成商业流通图片的可视化转换数据。本发明可以解决保险条款等商业流通数据不易被理解的问题。

Description

可视化数据转换方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种可视化数据转换方法、装置、计算机设备及存储介质。

背景技术

现有技术中，为了保护保险购买人的合法权益，一般情况下，保险代理人需要为保险购买人逐一解释保险合同中的各项条款或者是保险产品的宣传内容。然而，由于不同的保险代理人的沟通能力存在较大差异，导致双方的沟通问题成为保险购买人购买保险产品的障碍之一。

因而，需要寻找一种可视化数据转换方法，使专业化的保险条款或宣传内容以更容易理解的方式展示，更易于为保险购买人所理解，减少保险购买人因不理解保险条款而造成保险购买人的流失。

发明内容

基于此，有必要针对上述技术问题，提供一种可视化数据转换方法、装置、计算机设备及存储介质，以解决保险条款等商业流通数据不易被理解的问题。

一种可视化数据转换方法，包括：

获取商业流通图片；

对所述商业流通图片进行文本识别，获得商业流通文本；

对所述商业流通文本进行命名实体识别，获得命名实体识别数据；所述命名实体识别数据包括至少两个命名实体，以及与各个命名实体对应的文本片段；

对所述命名实体识别数据进行关系识别和分类，获得关系分类数据；对所述商业流通文本和/或所述命名实体识别数据进行时间和事件识别，获得时间事件数据；

对所述关系分类数据和所述时间事件数据进行知识融合，获得知识映射数据；

将所述知识映射数据输入预设模板中，生成所述商业流通图片的可视化转换数据。

一种可视化数据转换装置，包括：

获取模块，用于获取商业流通图片；

文本识别模块，用于对所述商业流通图片进行文本识别，获得商业流通文本；

实体识别模块，用于对所述商业流通文本进行命名实体识别，获得命名实体识别数据；所述命名实体识别数据包括至少两个命名实体，以及与各个命名实体对应的文本片段；

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述可视化数据转换方法。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述可视化数据转换方法。

上述可视化数据转换方法、装置、计算机设备及存储介质，通过获取商业流通图片，以获得待处理的数据。对所述商业流通图片进行文本识别，获得商业流通文本，以获得准确率高的识别结果。对所述商业流通文本进行命名实体识别，获得命名实体识别数据；所述命名实体识别数据包括至少两个命名实体，以及与各个命名实体对应的文本片段，以确定文本中的实体。对所述命名实体识别数据进行关系识别和分类，获得关系分类数据；对所述商业流通文本和/或所述命名实体识别数据进行时间和事件识别，获得时间事件数据，以解析实体间的关系和类型，同时分析出相应的时间和事件。对所述关系分类数据和所述时间事件数据进行知识融合，获得知识映射数据，以构建实体、时间、事件等之间的映射关系。将所述知识映射数据输入预设模板中，生成所述商业流通图片的可视化转换数据，以可视化形式提供给用户(保险购买人属于用户之一)，便于用户理解商业流通图片的含义。本发明可以解决保险条款等商业流通数据不易被理解的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中可视化数据转换方法的一应用环境示意图；

图2是本发明一实施例中可视化数据转换方法的一流程示意图；

图3是本发明一实施例中CRNN网络架构示意图；

图4为本发明一实施例中本体映射的示意图；

图5为本发明一实施例中本体映射生成过程的示意图；

图6是本发明一实施例中Mask TextSpotter的流程示意图；

图7是本发明一实施例中分支网络的流程示意图；

图8是本发明一实施例中预设文本纠错系统进行文本纠错的示意图；

图9是本发明一实施例中LSTM-CNNs-CRF模型的模型架构；

图10是本发明一实施例中基于动态多池化卷积神经网络的事件抽取模型的结构框架；

图11是本发明一实施例中可视化数据转换装置的一结构示意图；

图12是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的可视化数据转换方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种可视化数据转换方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10、获取商业流通图片。

可理解地，商业流通图片可以指商业交流活动中使用到的图片，如商业广告海报、传单、PPT等。在一些示例中，商业流通图片也可以是用户拍摄商业合同(如保险合同等)后获得的图片。在另一些示例中，商业流通图片也可以是从网络端获取到的图片。

S20、对所述商业流通图片进行文本识别，获得商业流通文本。

可理解地，可以通过CRNN算法(Convolutional Recurrent Neural Network，卷积递归神经)对商业流通图片进行文本识别，获得商业流通文本。

CRNN算法是一种能将特征提取、序列建模和转录整合到同一框架中的新型神经网络结构。该结构可以进行端到端的训练，而不是各个部分单独训练。该结构借用了在自然语言处理模型中序列标注任务的思想，将序列标注算法嵌套在现有的深度卷积网络中，组成完整的支持端到端梯度方向传播算法。

CRNN模型主要分为两部分：一部分为特征提取，由多个卷积层、池化和非线性层组成；另一部分为序列预测，由RNN(循环神经网络)+CTC(Connectionist TemporalClassification，基于神经网络的时序类分类)模型组成。RNN部分主要用于学习和建模CNN中提取到的隐藏状态以及空间特征之间的联系，最后预测初步的序列结果。粗糙的预测序列可能存在字母重复，通过CTC模块对RNN的序列进行整合，可以对序列进行去重操作。

如图3所示，图3为CRNN网络架构示意图。CRNN模型接收灰度图或RGB彩色图作为输入，CNN作为编码器来提取与图片对应的中间层特征。经过变形后整理成T个时间步的输入送入随后的解码器RNN，从而预测出初步的序列。初步的序列经过CTC整流处理，去除冗余的字符后得到最终的预测结果。

CRNN共包含7层卷积层，2层双向LSTM，输入的图像为灰度图。值得注意的是，网络在对特征降维的时候最大值池化采用的窗口高度固定为2，这就意味着每次池化高度都会减少一半，经过5次池化，高度缩减为1，宽度为原图长度的1/4。

S30、对所述商业流通文本进行命名实体识别，获得命名实体识别数据；所述命名实体识别数据包括至少两个命名实体，以及与各个命名实体对应的文本片段。

可理解地，命名实体(named entity)可以是任何一个可以被专有名称指代的事物。命名实体识别(named entity recognition)过程由两个任务结合而成，既找出构成专有名称的文本片段，并根据它们所指向的类别进行分类。

一般面向保险行业的命名实体识别主要关注疾病名、意外名和险种名等信息。这里使用的是基于词典、规则和有监督的机器学习组合。该方法为，在一段文本上多次扫描，允许前一次扫描的结果影响下一次扫描的判断。通常第一个步骤是采用规则的方法，该方法具有极高的准确率，但是召回率低，之后的步骤则采用错误驱动的统计方法，并把第一步的输出结果考虑进去。

例如，在进行命名实体识别过程中，可以采取如下措施：

1、使用高准确率的规则标注无歧义的实体；

2、基于字符串概率化匹配相似度，搜索能匹配之前检测出名称的子字符串；

3、查看特殊领域的名称列表，确定该领域可能的命名实体；

4、应用概率序列标注技术，该技术使用前述步骤的标签作为额外的特征。

这样，文本中的一些命名实体会明显地被归为某一类命名实体，一旦一个无歧义实体在文本中被提到，那么其后面的缩写形式很可能指向同一实体。

S40、对所述命名实体识别数据进行关系识别和分类，获得关系分类数据；对所述商业流通文本和/或所述命名实体识别数据进行时间和事件识别，获得时间事件数据。

可理解地，首先检测两个命名实体(即实体对)之间是否存在关系，然后对已检测出的关系的实体对进行分类。在第一阶段，通过第一分类器判断实体对是否存在关系。在第二阶段，通过第二分类器被用来标注实体对之间的关系。这里需要训练一个分类器集合(包括第一分类器和第二分类器)，其中每个第一分类器在训练时将某一标签当成正类别，将所有其他标签当成负类别。最终的分类过程为：将每个待标注的命名实体用所有第一分类器进行标注，获得标注结果，然后使用第二分类器从标注结果中选择实体对最可信的分类。关系分类数据包括了实体对的关系和分类。

与命名实体识别相同，该过程中最重要的步骤是确定哪些外在特征对于关系分类是有效的。第一个考虑的信息源是命名实体本身的特征：1、两个候选参数的命名实体类别；2、两个实体类别的拼接；3、关系角色的头词；4、每个关系角色的词袋子表示。

下一个特征集来源于文本中被分类的词。考虑以下可抽取有用特征的位置：两个候选参数之间的文本，第一个参数之前固定窗口内的词，第二个参数之后固定窗口内的词。给定这些位置后，以下是一些被证明有效的基于词的特征：1、实体间文本的词袋和二元词袋；2、上述特征的词干还原版本；3、直接位于实体之间和之后的词及其词干；4、两个参数之间的词间距；5、两个参数之间的实体数量。

最后，句子的句法结构也可以标志实体之间存在的许多关系。下面的特征来源于多个层次的句法分析，包括基于短语的分块分析、依赖分析和全成分分析。句法分析可使用如下特征：1、在某成分结构中，一些特定结构的出现与否；2、基于短语的组块分析路径；3、组块的中心词词袋；4、依存树路径；5、成分树路径；6、两个参数之间的数距离。

使用解析树是构建于检测某一特定句法结构是否存在的检测器，然后将二值特征与这些检测器关联。这种特征抽取方法依赖于一定数量的先验语言学分析，以确定这些句法结构是否是有效预测某一类别的特征。

可以对商业流通文本和/或命名实体识别数据进行时间和事件识别，获得时间事件数据。其中，时间事件数据可以包括时间表达式和事件表达式。

时间表达式是指绝对时间点、相对时间、时段，或者它们的集合表达式。绝对时间表达式是可以直接映射到日历日期、在一天中的时间，或者二者都映射到的表达式。相对时间表达式通过其他的参考时间点指向特定的时间。时段是指在不同粒度等级上(秒、分钟、天、星期、月、年等)的时间跨度。这里采用基于成分的时间表达式识别方法，结合了句法组块分析和逐词标注。在这个方法中，一个完整的成分分析会通过自动的方法产生。然后根据是否包含时间表达式，对结果树中的结点逐个分类。识别时间表达式的任务通常需要进行归一化。通过时间的归一化，可以将时间表达式映射到某一特定的时间点或时间段。

可以通过事件检测和分析任务获取事件表达式。事件检测和分析任务的目的是识别出文本中的事件提及，并将这些事件划分到某一类别。在该任务中，事件提及是指任意一个指代某一事件的表达式，或指代该事件在某一时间点或时间段时状态的表达式。

S50、对所述关系分类数据和所述时间事件数据进行知识融合，获得知识映射数据。

可理解地，可以对关系分类数据和时间事件数据进行知识融合，获得知识映射数据。可以通过知识图谱实现知识融合。知识图谱包含描述抽象知识的本体层和描述具体事实的实例层。本体层用于描述特定领域中的抽象概念、属性、公理；实例层用于描述具体的实体对象、实体间的关系，包含大量的事实和数据。

在实际应用中，不同的用户和团队根据不同的应用需求和应用领域来构建或选择合适的本体。这样一来，即使在同一个领域内也往往存在着大量的本体。这些本体描述的内容在语义上往往重叠或关联，但使用的本体在表示语言和表示模型上具有差异，这便造成了本体异构。同时知识图谱中的大量实例也存在异构问题，同名实例可能指代不同的实体，不同名实例可能指代同一个实体，大量的共指问题会给知识图谱的应用造成负面影响。

知识融合是解决知识图谱异构问题的有效途径。知识融合建立异构本体或异构实例之间的联系，从而使异构的知识图谱能相互沟通，实现它们之间的互操作。

知识融合将不同来源的知识进行对齐、合并的工作，形成全局统一的知识标识和关联。知识融合是知识图谱构建中不可缺少的一环，知识融合体现了开放链接数据中互联的思想。良好的融合方法能有效地避免信息孤岛，使得知识的连接更加稠密，提升知识应用价值。

在一示例中，可以采用QOM(快速本体映射，Quick Ontology Mapping)方法进行本体映射，实现知识融合。如图4所示，图4为本体映射的示意图。如图5所示，图5为本体映射生成过程的示意图。

本体映射的方法是在本体之间建立映射规则，信息借助这些规则在不同的本体间传递。本体映射分为三步：1、导入待映射的本体：待映射的本体不一定都要转换为统一的本体语言格式，但是要保证本体中需要进行映射的成分能够被方便获取；2、发现映射：利用一定的算法，寻找异构本体间的联系，然后根据这些联系建立异构本体间的映射规则；3、表示映射：但本体之间的映射被找到后，需要将这些映射合理地表示起来。映射的表示格式是事先手工制定的。在发现映射后，需要根据映射的类型，借助工具将发现的映射合理表示和组织。

不同的映射方法具有各自的优点，但仅仅使用某一种方法又不能完善地解决映射发现的问题。因此，为了得到更好的本体映射结果，可以将多种映射方法综合使用，以吸收每种方法的优势。

具体的，QOM采用综合方法发现本体映射。该方法最大的特点在于寻找映射的过程中同时考虑了映射结果的质量与发现映射的时间复杂度，它力图寻找到二者间的平衡。QOM通过合理组织各种映射发现算法，在映射质量的损失可接受的前提下，尽量提高映射发现效率，因此该方法可以处理大规模本体间的映射发现问题。

在一具体示例中个，QOM处理本体映射的过程共分六步，输入异构本体，进行处理后得到本体间的映射。这六个步骤包括：1、特征工程：间初始的输入本体转换为相似度计算中使用的统一格式，并分析映射对象的特征。QOM使用RDF三元组形式作为统一的本体形式。2、搜索步骤的选择：由于各种相似度计算方法的复杂度与待映射的对象对直接相关，为了避免比较两个本体的全部对象，保证发现映射的搜索空间在能接受的范围内，QOM使用启发式方法降低候选映射对象的数目，既它只选择那些必要的映射对象，而忽略其他不关心的映射对象。3、相似度计算：对每一对候选映射对象，判断它们之间的相似度值。一个对象可被不同类型的信息描述。QOM定义了多种关于对象特征的相似度量公式，对于其中的每种度量，都预先分析它的时间复杂度。为了提高发现映射的效率，在选择度量公式的时候忽略那些复杂度过高的度量公式。4、相似度累加：由于同时采用多种度量方法，一对候选对象通常存在多个相似度值。这些不同的相似度值需要累加，成为单个的相似度值。QOM不采用直接累加方式，它强调一些可靠的相似度，同时降低一些并不可靠的相似度。5、解释：利用设定的阈值或放松标签等技术，考虑本体结构和一些相似度准则，去除一些不正确的映射结果。根据处理后的最终相似度值判断本体之间的映射。6、迭代：算法过程迭代执行，每次迭代都能提高映射结果的质量，迭代可在没有新映射生成后停止。每次迭代时可基于贪婪策略从当前相似度最高的对象开始执行。

本体映射管理：映射捕获了异构本体间的关系，但仅仅有映射还不足以解决多个异构本体间的知识共享。要在多本体环境中实现知识重用和协调多本体，还需要对多本体进行有效的管理。管理多个本体的好处在于：1、方便处理多个本体的维护和演化问题；2、合理组织本体间的映射，方便查询、数据转移和推理等应用；3、将多个本体作为一个整体来使用，能为实际应用提供更大的功能。

S60、将所述知识映射数据输入预设模板中，生成所述商业流通图片的可视化转换数据。

可理解地，预设模板可以根据实际需要进行设置。在一些示例中，可以根据实际需要设置多个预设模板，然后根据用户需求选取其中的一个或多个。可视化转换数据包括但不限于格式化文本、图像、表格、视频、音视频、音频。需要注意的是，此处的可视化转换数据并不局限于用于展示的图片或视频，还包括容易被用户接收的音频。

步骤S10-S60中，获取商业流通图片，以获得待处理的数据。对所述商业流通图片进行文本识别，获得商业流通文本，以获得准确率高的识别结果。对所述商业流通文本进行命名实体识别，获得命名实体识别数据；所述命名实体识别数据包括至少两个命名实体，以及与各个命名实体对应的文本片段，以确定文本中的实体。对所述命名实体识别数据进行关系识别和分类，获得关系分类数据；对所述商业流通文本和/或所述命名实体识别数据进行时间和事件识别，获得时间事件数据，以解析实体间的关系和类型，同时分析出相应的时间和事件。对所述关系分类数据和所述时间事件数据进行知识融合，获得知识映射数据，以构建实体、时间、事件等之间的映射关系。将所述知识映射数据输入预设模板中，生成所述商业流通图片的可视化转换数据，以可视化形式提供给用户(保险购买人属于用户之一)，便于用户理解商业流通图片的含义。本实施例可以解决保险条款等商业流通数据不易被理解的问题。

可选的，步骤S20，即所述对所述商业流通图片进行文本识别，获得商业流通文本，包括：

S201、识别所述商业流通图片的文本位置；

S202、根据所述文本位置对所述商业流通图片进行矫正，生成矫正图像；

S203、对所述矫正图像进行文字识别，获得初始文本；

S204、通过预设文本纠错系统和商业领域字典对所述初始文本进行纠错，生成所述商业流通文本。

可理解地，文本位置可以指商业流通图片中文字的倾斜角度。在识别商业流通图片的文本位置的过程中，可以对商业流通图片进行二值化和去噪，然后检测文字的倾斜角度。

在一些示例中，可以将商业流通图片的像素点的灰度值设为0或255，使商业流通图片呈现明显的黑白效果，即为二值化图像。通过二值化，一方面是为了减少数据维度，另一方面通过排除原图中噪声带来的干扰，可以凸显有效区域的轮廓结果。OCR效果很大程度上取决于该步骤，高质量的二值化图像可以显著提升识别的准确率。

二值化图像作为二维图像信号，可分别在水平和垂直的方向使用滤波器，从而实现二维小波多分辨率分解。小波去噪的基本思路如下：(1)二维图像的小波分解，选择一个小波和小波分解的层次N，计算信号s到第N层的分解；(2)对高频系数进行阈值量化，对1～的每一层选择阈值，并对该层的高频系数进行软阈值量化处理；(3)二维小波重构。根据小波分解第N层的低频系数和经过修改的第一到第N层的各层高频系数，计算二维信号的小波重构。

阈值的选择是离散小波去噪中最关键的一步。可以使用软阈值，软阈值公式如下：

其中，w为小波系数；λ为给定阈值；sign(w)表征取值符号。当w>0时，sign(w)＝1；当w<0时，sign(w)＝-1；当w＝0时，sign(w)＝0。

可以使用PCA算法(主成分分析)计算文字的倾斜角度。需要计算对倾斜角度的分布具有最大影响的特征向量，既分布的主分量，因此首先需要将黑色像素点映射为二维向量，使每个像素点与相同坐标的二维向量相匹配，并对每个维度减去其对应强度的均值，然后计算向量集合的协方差矩阵：

其中，X和Y分别表示二维向量在两个维度的集合；n是集合X和Y的元素个数；X_i为集合X中的第i个元素，Y_i同理；

是集合X的均值，

同理。协方差矩阵的特征向量和特征值的计算公式：

MV＝δV

其中，V是M的特征向量，δ是对应的特征值。找到最大特征值对应的特征向量，其余角即图像中文本行的角度(即确定了文本位置)。

在确定文本位置之后，可以按照文本的倾斜角度对商业流通图片进行翻转(即矫正)，然后通过OCR识别(光学字符识别)的方式获取初始文本。

在OCR识别中，字符区域的紧致程度越好，字符的识别效果自然也会越好。因而，可以采用Mask TextSpotter来完成文字识别。Mask TextSpotter主要利用Mask R-CNN能够预测字符区域轮廓的优势，将一般的方框和四边形的字符区域拓展到了任意的多边形，如此得来的字符区域相比矩形自然更为紧致，因此能够取得较好的识别结果。如图6所示，图6为Mask TextSpotter的流程示意图。

利用FPN(feature pyramid networks，特征金字塔网络)对图片字符区域进行粗提取，粗提取区域的特征经过ROI Align(兴趣点对齐)截取后送人两个分支，一个分支是简单的Fast R-CNN的检测区域，用于第二次精确定位；另一个分支则是对字符区域的轮廓进行预测以及对字符进行识别。检测部分主要用于预测水平矩形框，这里不作详细介绍。

如图7所示，图7为分支网络的流程示意图。分支网络设计主要遵循Mask R-CNN的设计思路。除了预测字符区域的外轮廓，还需要预测区域中的像素点到底属于哪个字符，即字符区域除做像素级的二分类(字或非字)之外，还要判断这个字符到底是哪个字符。字符识别时，字符图会被取出，将像素值0至255之间的像素点滤出，并将所有像素点集中起来计算均值，得到最大像素点概率的字符用来代表该区域的字符类别，并且通过加权编辑距离。改进预测出的字符序列，可以提高预测结果的准确性。在此处，获得的字符序列，即为初始文本。

可以通过预设文本纠错系统和商业领域字典对初始文本进行纠错，生成商业流通文本。如图8所示，预设文本纠错系统包括语言模型和OCR模型。预设文本纠错系统进行纠错时可以分为两步：首先确定错误的位置，然后完成错误的纠正。

对于OCR模型的输出文字，先用语言模型判断可能出现的错误位置，然后通过融合OCR模型和语言模型信息，输出最可能正确的纠正文本。语言模型是对文本概率分布的建模，它可以给出一段文本出现的概率，通过出现概率，来判断这段文本常见与否，常见的文本很可能是正常语法，不常见的文本则可能存在错误，很少被人使用，因此一定程度上也可以看作是文本合法性的衡量标准。这里采用n-gram模型，n-gram模型对词之间的关联做了简化，其假设当前词的概率分布只与前n-1个词相关，与其他的词独立。以2-gram为例，语言模型可以返回任意二元组的条件概率，纠错以字为单位，计算一句话中每个字的条件概率。一个简单的方法是定义任意一个字的条件概率为出现该字的所有二元组条件概率的平均值，以输入文本“ABCD”为例，B的条件概率为和的平均值。计算文本序列的概率后，找出其中的异常值，通过设定阈值得到待纠错字的异常位置。

得到错字位置后，进入纠错算法的第二部分：错字纠正。错字纠正也依赖于语言模型，之前的语言模型的作用是预测某个序列的条件概率。但反过来使用，语言模型还可以预测序列中某一位置最可能的字。同样以输入文本“ABCD”为例，假设上一步得到C为错字，文本序列变成AB□D，其中方框代表一个带纠正字的占位符，将所有可能的字符填到方框内，并且按照之前的算法得到该字符的条件概率，那么条件概率最大的字既该位置最可能出现的字，就可以作为对C的纠正。在实际使用中不会为了纠正一个字遍历并计算所有字的条件概率，这样不仅计算量过大，而且没有考虑OCR任务本身的特点。OCR算法容易产生形近字错误，因此在事先需准备一个形近字字典，作为待纠错字的候选集，只需从错字的形近字中找出概率最大的替换字就可以完成纠正了。

可选的，步骤S30，即所述对所述商业流通文本进行命名实体识别，获得命名实体识别数据，包括：

S301、通过LSTM-CNNs-CRF模型处理所述商业流通文本，获得所述命名实体识别数据。

可理解地，可以使用LSTM-CNNs-CRF模型实现命名实体识别数据的识别。LSTM-CNNs-CRF模型在Embedding层(嵌入层)中加入了每个词的字符级向量表示，该模型可以有效地获取词的形态信息，如前缀、后缀等。模型Embedding层中每个词的向量输入由预训练获得的词向量和CNN获得的字符级向量连接而成，通过双向LSTM和CRF层(条件随机场)获得词的标注结果。如图9所示，图9为LSTM-CNNs-CRF模型的模型架构。

可选的，步骤S40中，即所述对所述命名实体识别数据进行关系识别和分类，获得关系分类数据，包括：

S401、通过第一分类器判断实体对之间是否存在关系，所述实体对包括任意两个所述命名实体；

S402、通过第二分类器判断存在关系的实体对的关系类型，所述关系分类数据包括所述实体对的关系和关系类型。

可理解地，首先检测两个命名实体(即实体对)之间是否存在关系，然后对已检测出的关系的实体对进行分类。在第一阶段，通过第一分类器判断实体对是否存在关系。在第二阶段，通过第二分类器被用来标注实体对之间的关系。这里需要训练一个分类器集合(包括第一分类器和第二分类器)，其中每个第一分类器在训练时将某一标签当成正类别，将所有其他标签当成负类别。最终的分类过程为：将每个待标注的命名实体用所有第一分类器进行标注，获得标注结果，然后使用第二分类器从标注结果中选择实体对最可信的分类。关系分类数据包括了实体对的关系和分类。在此处，若将分类器集合视为一个整体，则第一分类器和第二分类器可视为分类器集合的子分类器。

上述分类器结合可以使用基于监督学习的关系抽取方法进行训练。基于监督学习的关系抽取方法需要大量的训练语料，特别是基于深度学习的方法，模型的优化更依赖大量的训练数据。当训练语料不足时，弱监督学习方法可以只利用少量的标注数据进行模型学习。可以使用弱监督学习的关系抽取方法中的Bootstrapping方法(自举检验)。

Bootstrapping方法利用少量的实例作为初始种子集合，然后在种子集合上学习获得关系抽取的模板，再利用模板抽取更多的实例，加入种子集合中。通过不断地迭代，Bootstrapping方法可以从文本中抽取关系的大量实例，该方法的优点是关系抽取系统构建成本低，适合大规模的关系抽取任务，并且具备发现新关系的能力。

可选的，步骤S40中，即所述对所述商业流通文本和/或所述命名实体识别数据进行时间和事件识别，获得时间事件数据，包括：

S403、通过联合抽取方法处理所述商业流通文本和/或所述命名实体识别数据，获得所述时间事件数据，所述时间事件数据包括时间表达式和事件表达式。

可理解地，在联合抽取方法中，事件的所有相关信息会通过一个模型同时抽取出来。在事件抽取任务上，可以使用基于深度学习的方法，如基于动态多池化卷积神经网络的事件抽取模型。与传统的方法相比，深度学习方法具有以下优势：1、减少了对外部工具的依赖，甚至不依赖外部工具，可以构建端到端的系统；2、使用词向量作为输入，词向量蕴涵了丰富的语义信息；3、神经网络具有自动提取句子特征的能力，避免了人工设计特征的繁琐工作。如图10所示，图10为基于动态多池化卷积神经网络的事件抽取模型的结构框架。

上述事件抽取模型总体包含词向量学习、词汇级特征抽取、句子级特征抽取和分类器输出四个部分。其中，词向量学习通过无监督学习方式学习词的向量表示；词汇级特征抽取基于词的向量表示获取事件抽取相关的词汇线索；句子级特征抽取通过动态多池化卷积神经网络获取句子的语义组合特征；分类器输出产生事件元素的角色类别。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种可视化数据转换装置，该可视化数据转换装置与上述实施例中可视化数据转换方法一一对应。如图11所示，该可视化数据转换装置包括获取模块10、文本识别模块20、实体识别模块30、分类识别模块40、知识融合模块50和生成转换数据模块60。各功能模块详细说明如下：

获取模块10，用于获取商业流通图片；

文本识别模块20，用于对所述商业流通图片进行文本识别，获得商业流通文本；

实体识别模块30，用于对所述商业流通文本进行命名实体识别，获得命名实体识别数据；所述命名实体识别数据包括至少两个命名实体，以及与各个命名实体对应的文本片段；

分类识别模块40，用于对所述命名实体识别数据进行关系识别和分类，获得关系分类数据；对所述商业流通文本和/或所述命名实体识别数据进行时间和事件识别，获得时间事件数据；

知识融合模块50，用于对所述关系分类数据和所述时间事件数据进行知识融合，获得知识映射数据；

生成转换数据模块60，用于将所述知识映射数据输入预设模板中，生成所述商业流通图片的可视化转换数据。

可选的，文本识别模块20包括：

文本位置单元，用于识别所述商业流通图片的文本位置；

矫正单元，用于根据所述文本位置对所述商业流通图片进行矫正，生成矫正图像；

初步识别单元，用于对所述矫正图像进行文字识别，获得初始文本；

生成文本单元，用于通过预设文本纠错系统和商业领域字典对所述初始文本进行纠错，生成所述商业流通文本。

可选的，实体识别模块30包括：

实体识别单元，用于通过LSTM-CNNs-CRF模型处理所述商业流通文本，获得所述命名实体识别数据。

可选的，分类识别模块40包括：

确定实体对关系单元，用于通过第一分类器判断实体对之间是否存在关系，所述实体对包括任意两个所述命名实体；

实体对关系分类单元，用于通过第二分类器判断存在关系的实体对的关系类型，所述关系分类数据包括所述实体对的关系和关系类型。

可选的，分类识别模块40包括：

时间事件单元，用于通过联合抽取方法处理所述商业流通文本和/或所述命名实体识别数据，获得所述时间事件数据，所述时间事件数据包括时间表达式和事件表达式。

关于可视化数据转换装置的具体限定可以参见上文中对于可视化数据转换方法的限定，在此不再赘述。上述可视化数据转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储可视化数据转换方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种可视化数据转换方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

获取商业流通图片；

对所述商业流通图片进行文本识别，获得商业流通文本；

在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：

获取商业流通图片；

对所述商业流通图片进行文本识别，获得商业流通文本；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种可视化数据转换方法，其特征在于，包括：

获取商业流通图片；

对所述商业流通图片进行文本识别，获得商业流通文本；

2.如权利要求1所述的可视化数据转换方法，其特征在于，所述对所述商业流通图片进行文本识别，获得商业流通文本，包括：

识别所述商业流通图片的文本位置；

根据所述文本位置对所述商业流通图片进行矫正，生成矫正图像；

对所述矫正图像进行文字识别，获得初始文本；

通过预设文本纠错系统和商业领域字典对所述初始文本进行纠错，生成所述商业流通文本。

3.如权利要求1所述的可视化数据转换方法，其特征在于，所述对所述商业流通文本进行命名实体识别，获得命名实体识别数据，包括：

通过LSTM-CNNs-CRF模型处理所述商业流通文本，获得所述命名实体识别数据。

4.如权利要求1所述的可视化数据转换方法，其特征在于，所述对所述命名实体识别数据进行关系识别和分类，获得关系分类数据，包括：

通过第一分类器判断实体对之间是否存在关系，所述实体对包括任意两个所述命名实体；

通过第二分类器判断存在关系的实体对的关系类型，所述关系分类数据包括所述实体对的关系和关系类型。

5.如权利要求1所述的可视化数据转换方法，其特征在于，所述对所述商业流通文本和/或所述命名实体识别数据进行时间和事件识别，获得时间事件数据，包括：

通过联合抽取方法处理所述商业流通文本和/或所述命名实体识别数据，获得所述时间事件数据，所述时间事件数据包括时间表达式和事件表达式。

6.一种可视化数据转换装置，其特征在于，包括：

获取模块，用于获取商业流通图片；

7.如权利要求6所述的可视化数据转换装置，其特征在于，所述文本识别模块包括：

文本位置单元，用于识别所述商业流通图片的文本位置；

8.如权利要求6所述的可视化数据转换装置，其特征在于，所述实体识别模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述可视化数据转换方法。

10.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至5中任一项所述可视化数据转换方法。