CN114373173A - 数据处理方法、装置、终端设备及存储介质 - Google Patents

数据处理方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN114373173A
CN114373173A CN202210031460.5A CN202210031460A CN114373173A CN 114373173 A CN114373173 A CN 114373173A CN 202210031460 A CN202210031460 A CN 202210031460A CN 114373173 A CN114373173 A CN 114373173A
Authority
CN
China
Prior art keywords
data
sub
information
subdata
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210031460.5A
Other languages
English (en)
Other versions
CN114373173B (zh
Inventor
刘东煜
曾增烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202210031460.5A priority Critical patent/CN114373173B/zh
Publication of CN114373173A publication Critical patent/CN114373173A/zh
Application granted granted Critical
Publication of CN114373173B publication Critical patent/CN114373173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种数据处理方法、装置、终端设备及存储介质。上述方法通过子数据的文本信息生成类型信息,并通过子数据的文本信息和类型信息生成标识信息,以及通过子数据之间的连接关系生成子数据的结构信息,将通过图像识别得到的结构化数据进行分结构存储,并赋予每一结构的数据唯一标识,简化结构化数据的查询逻辑,提高结构化数据的调用效率。

Description

数据处理方法、装置、终端设备及存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种数据处理方法、装置、终端设备及存储介质。
背景技术
文档智能是指对于网页、数字文档、扫描文档或图片文档所包含的文本和排版等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。随着人工智能技术的快速发展,文档智能的识别准确性和识别速度得到了大幅提高,并被广泛应用在金融、医疗、保险、能源、物流等领域。
目前通过文档智能可以得到丰富的文本和排版等信息,传统的存储方式会针对每一条信息建立索引,随着信息量的增大,每条索引对应的信息量也增大,使用户难以准确、快速地调用目标信息,导致信息的调用效率低,因此,如何在通过文档智能得到信息后,提高信息的调用效率成为当前亟需解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法、装置、终端设备及存储介质,以解决目前通过文档智能得到消息后,对消息的调用效率低的问题。
本申请实施例的第一方面提供了一种数据处理方法,应用于数据库,所述方法包括:
接收待识别图像的结构化数据;所述结构化数据包括u层数据,每层所述数据包括多份子数据和每份所述子数据的文本信息,第i+1层数据的任意一份子数据与第i层数据对应的一份子数据连接,每层所述数据用于存储不同结构的数据;
对每份所述子数据的文本信息进行语义分析,确定每份所述子数据的类型信息;
根据每份所述子数据的文本信息和类型信息,生成每份所述子数据的标识信息,每份所述子数据的标识信息不同;
根据多份所述子数据之间的连接关系,生成每份所述子数据的结构信息,所述结构信息用于记录每份所述子数据连接的上一层数据对应的一份子数据的标识信息;
其中,i=1,2,…u-1,u为大于或等于2的整数。
本申请实施例的第一方面提供一种数据处理方法,通过子数据的文本信息生成类型信息,并通过子数据的文本信息和类型信息生成标识信息,以及通过子数据之间的连接关系生成子数据的结构信息,将通过图像识别得到的结构化数据进行分结构存储,并赋予每一结构的数据唯一标识,简化结构化数据的查询逻辑,提高结构化数据的调用效率。
本申请实施例的第二方面提供了一种数据处理装置,包括:
接收模块,用于接收所述待识别图像的结构化数据;所述结构化数据包括u层数据,每层所述数据包括多份子数据和每份所述子数据的文本信息,第i+1层数据的任意一份子数据与第i层数据对应的一份子数据连接,每层所述数据用于存储不同结构的数据;
分析模块,用于对每份所述子数据的文本信息进行语义分析,确定每份所述子数据的类型信息;
标识模块,用于根据每份所述子数据的文本信息和类型信息,生成每份所述子数据的标识信息,每份所述子数据的标识信息不同;
处理模块,用于根据多份所述子数据之间的连接关系,生成每份所述子数据的结构信息,所述结构信息用于记录每份所述子数据连接的上一层数据对应的一份子数据的标识信息;
其中,i=1,2,…u-1,u为大于或等于2的整数。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的第一方面提供的数据处理方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面提供的数据处理方法的步骤。
可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面或第二方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据处理方法的第一种流程示意图;
图2是本申请实施例提供的数据处理方法的第二种流程示意图;
图3是本申请实施例提供的数据库和需求单元连接的场景示意图;
图4是本申请实施例提供的数据处理装置的结构示意图;
图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在应用中,目前通过文档智能可以得到丰富的文本和排版等信息,传统的存储方式会针对每一条信息建立索引,随着信息量的增大,每条索引对应的信息量也增大,使用户难以准确、快速地调用目标信息,导致信息的调用效率低。
针对上述技术问题,本申请实施例提供一种数据处理方法,通过子数据的文本信息和类型信息生成标识信息,以及通过子数据之间的连接关系生成子数据的结构信息,将通过图像识别得到的结构化数据进行分结构存储,并赋予每一结构的数据唯一标识,简化结构化数据的查询逻辑,提高结构化数据的调用效率。
本申请实施例提供的数据处理方法可以应用于数据库,或者能够对数据库进行驱动控制的任意终端设备。终端设备可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等,本申请实施例对终端设备的具体类型不作任何限制。
在应用中,适用于本申请实施例提供的数据处理方法的数据库可以是Oracle、MySQL、MongoDB、SQL Server、IBM Db2或达梦数据库等,本申请实施例对数据库的具体类型不作任何限制。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
如图1所示,本申请实施例提供的数据处理方法,应用于数据库,包括如下步骤S101至步骤S104:
步骤S101、接收待识别图像的结构化数据;结构化数据包括u层数据,每层数据包括多份子数据和每份子数据的文本信息,第i+1层数据的任意一份子数据与第i层数据对应的一份子数据连接,每层数据用于存储不同结构的数据;
其中,i=1,2,…u-1,u为大于或等于2的整数。
在应用中,待识别图像可以是合同(Contract)、体检报告、病历(Case History)等不同类型的文档的一张或多张图像,其中,病历图像可以包括入院记录图像、出院记录图像、门诊记录图像、检查结果图像等,其中,检查结果图像具体可以包括超声波检查报告图像、CT(Computed Tomography,电子计算机断层扫描)检查报告图像或X射线检查报告图像等不同检查类型的检查报告图像。
在应用中,通过图像识别(Image Identification)技术可以提取待识别图像中的文本信息,还可以基于预设数据结构对待识别图像记录的所有文本信息进行分层,从而得到待识别图像的结构化数据。其中,结构化数据根据结构数量包括u层数据,每层数据包括多份子数据和每份子数据的文本信息;可以根据多层数据之间的包含关系,确定多层数据之间的连接关系,具体的,第i层数据的一份子数据可以包括第i+1层数据的任意一份子数据,则上述第i+1层数据的任意一份子数据与上述第i层数据的一份子数据对应并连接。
例如,假设预设数据结构为2层,分别为段落和句子,则对待识别图像记录的所有文本信息进行分层后,待识别图像的结构化数据包括两层数据,第1层数据用于存储段落,可以将一段段落作为第1层数据的一份子数据,第1层数据包括每段段落的文本信息,第1层数据的任意一份子数据包括对应段落的文本信息;第2层数据用于存储句子,可以将一句句子作为第2层数据的一份子数据,第2层数据包括每句句子的文本信息,第2层数据的任意一份子数据包括对应句子的文本信息;假设将待识别图像的第一段段落作为第1层数据的第一份子数据,并将上述第一段段落包括的五句句子根据句子排序分别作为第2层数据的第一份至第五份子数据,则第2层数据的第一份至第五份子数据分别与第1层数据对应的的第一份子数据连接。
在一个实施例中,步骤S101包括:
结构化数据包括4层数据,第1层数据用于存储待识别图像,第2层数据用于存储待识别图像的段落,第3层数据用于存储段落的事件或段落的表格,第4层数据用于存储事件的元素或表格的元素。
在应用中,结构化数据可以包括4层数据,分别为待识别图像、待识别图像的段落、段落的事件或段落的表格、事件的元素或表格的元素。其中,待识别图像的段落可以包括多个事件或多个表格,一个事件可以包括多个元素,一个表格可以包括多个元素。
例如,假设待识别图像的第一个段落的类型信息为诊疗经过,则第一个段落可以包括检查、治疗及手术等不同类型的事件,还可以包括血常规、发票收据等不同类型的表格;其中,检查事件可以包括检查时间、检查项目、检查结果等元素,发票收据表格可以包括开票时间、开票金额、开票单位等元素。
在应用中,第1层数据用于存储待识别图像,可以将一张待识别图像作为第1层数据的一份子数据,第1层数据包括每张待识别图像的文本信息;第2层数据用于存储待识别图像的段落,可以将一段段落作为第2层数据的一份子数据,第2层数据包括每段段落的文本信息;第3层数据用于存储段落的事件和/或段落的表格,可以将一个事件或一个表格作为第3层数据的一份子数据,第3层数据包括每个事件的文本信息和每个表格的文本信息;第4层数据用于存储事件的元素和/或表格的元素,可以将一个事件的元素或一个表格的元素作为第4层数据的一份子数据,第4层数据包括每个事件的元素的文本信息和每个表格的元素的文本信息。
在一个实施例中,步骤S101之前,还包括:
通过图像识别模块分析待识别图像的图像特征和语义特征,提取待识别图像的结构化数据;
通过图像识别模块将待识别图像的结构化数据发送至数据库。
在应用中,图像识别模块基于图像识别算法搭建,图像识别算法具体可以是OCR(Optical Character Recognition,光学字符识别)算法,OCR算法可以对图像进行文本分类、事件抽取、命名实体识别(Named Entity Recognition,NER)等处理,以提取待识别图像的结构化数据,并将提取得到的结构化数据发送至数据库进行存储。
步骤S102、对每份子数据的文本信息进行语义分析,确定每份子数据的类型信息。
在应用中,在数据库接收到每份子数据的文本信息时,可以通过自然语言处理(Natural Language Processing,NLP)算法进行语义分析。具体的,可以是在NLP算法上的基础上进一步增强语义分析能力的NLU(Natural Language Understanding,自然语言理解)算法。通过对每份子数据的文本信息进行语义分析,通过对文本信息进行文本分类和意图识别,可以得到每份子数据的文本信息的类型信息。
在应用中,数据库可以设置多个预设类型信息库,每个预设类型信息库包括至少一种预设类型信息,每个预设类型信息库包括的类型信息的数量和具体类型可以根据实际需要进行设置。在对任意一层的子数据进行语义分析时,可以基于子数据对应的预设类型信息库确定类型信息,以提高类型信息判断的准确性和可预见性。具体的,第i+1层的子数据采用的预设类型信息库可以根据与其连接的第i层的子数据的类型信息和上述第i+1层的子数据的结构确定。
例如,假设在第1层数据的一份子数据的类型信息确定为病历,且与其连接的第2层数据的子数据的结构为待识别图像的段落时,预设类型信息库可以包括诊疗经过、既往史及出院诊断三种类型信息;在第2层的一份子数据的类型信息确定为诊疗经过,且与其连接的第3层数据的子数据的结构为事件时,预设类型信息库可以包括检查、治疗及手术三种类型信息;在第2层的一份子数据的类型信息确定为诊疗经过,且与其连接的第3层数据的子数据的结构为表格时,预设类型信息库可以包括血常规、尿常规及发票收据三种类型信息;在第3层的一份子数据的类型信息确定为检查,且与其连接的第4层数据的子数据的结构为事件的元素时,预设类型信息库可以包括检查事件、检查项目及检查结果三种类型信息;在第3层的一份子数据的类型信息确定为发票收据,且与其连接的第4层数据的子数据的结构为表格的元素时,预设类型信息库可以包括开票时间、开票金额及开票单位三种类型信息。
步骤S103、根据每份子数据的文本信息和类型信息,生成每份子数据的标识信息,每份子数据的标识信息不同。
在应用中,可以根据每份子数据的文本信息和类型信息,生成每份子数据的标识信息,具体的,可以随机截取一份子数据的预设数量的文本信息并结合类型信息,生成子数据的标识信息。还可以根据子数据存储至数据库时,子数据所在层的已有子数据数量,生成子数据的标识信息。通过子数据的标识信息可以实现子数据的调用,提高数据库的索引能力。
例如,一份子数据的结构为表格,类型信息为肝功能检查,并包括以下文本信息:总蛋白70g/L,谷丙转氨酶50μmol/L,谷草转氨酶40μmol/L等,则上述子数据的标识信息可以是肝功能检查总蛋白70g/L,也可以是肝功能检查谷丙转氨酶50μmol/L,还可以是肝功能检查谷草转氨酶40μmol/L,还可以是肝功能检查总蛋白70g/L,谷丙转氨酶50μmol/L等;或者,上述子数据存储至数据库时,表格的所在层已有子数据数量为5份,则上述子数据的标识信息可以是第6份表格。
在一个实施例中,步骤S103包括:
每层数据还包括每份子数据的关键词信息;
根据每份子数据的关键词信息,提取关键词类型信息和关键词数值信息。
在应用中,数据库可以设置有预设关键词,数据库可以根据预设关键词遍历接收到的子数据,判断子数据的文本信息中是否具有预设关键词,在子数据的文本信息具有一个或多个预设关键词时,将上述一个或多个预设关键词作为子数据的关键词信息,并通过NLP算法提取与上述关键词信息关联的关键词数值信息。其中,数据库可以存储有关键词信息和关键词类型信息的对应关系表,在得到子数据的关键词信息时,可以通过查表的方式获取对应的关键词类型信息,例如,在关键词信息为肝未见异常或肝功能异常时,对应的关键词类型信息可以是肝功能检查,关键词数值信息可以是多种肝功能指标,具体可以是总蛋白的数值信息、谷丙转氨酶的数值信息和谷草转氨酶的数值信息等。本申请实施例对一份子数据包括的预设关键词的数量不作任何限制。
在应用中,在子数据包括关键词信息时,可以确定子数据的关键词类型信息和关键词数值信息,并根据子数据的关键词类型信息和关键词数值信息,生成子数据的标识信息。
例如,一份子数据的结构为表格,类型信息为肝功能检查,并包括以下文本信息:肝功能异常,总蛋白70g/L,谷丙转氨酶50μmol/L,谷草转氨酶40μmol/L等,判断得到上述文本信息中具有的预设关键词为肝功能异常,对应的关键词类型信息为肝功能检查,并提取相关联的关键词数值信息:总蛋白70g/L,谷丙转氨酶50μmol/L,谷草转氨酶40μmol/L,则上述子数据的标识信息可以是肝功能检查,总蛋白70g/L,谷丙转氨酶50μmol/L,谷草转氨酶40μmol/L。
在应用中,每一项关键词数值信息可以设置有对应的预设数值信息,在子数据包括关键词信息时,可以判断每一项关键词数值信息是否超出对应的预设数值信息,若是,则根据超出对应的预设数值信息的关键词数值信息和关键词类型信息,生成子数据的标识信息。使子数据的标识信息中可以包括异常的关键词数值信息,使需求单元在针对异常的关键词数值信息进行检索时,可以准确并快速地检索到对应的子数据的标识信息,提高结构化数据的调用效率。
例如,总蛋白的预设数值信息为60-80g/L,谷丙转氨酶的预设数值信息为5-40u/L,谷草转氨酶的预设数值信息为5-40μmol/L,则在判断每一项关键词数值信息是否超出对应的预设数值信息后,可以确定上述子数据中的谷丙转氨酶超出对应的预设数值信息,上述子数据的标识信息可以是肝功能检查谷丙转氨酶50μmol/L。
在一个实施例中,步骤S103包括:
根据每份子数据的类型信息,确定每份子数据的权限级别,子数据的权限级别用于与需求单元的权限级别进行比较,以验证需求单元是否具有对应子数据的访问权限。
在应用中,数据库可以设置类型信息和权限级别的对应关系表,还可以设置预设类型信息库和权限级别的对应关系表,例如,第1层数据的一份子数据的类型信息为病历,对应的权限级别为第1权限级别,与其连接的第2层数据的子数据的结构为待识别图像的段落时,预设类型信息库可以包括诊疗经过、既往史及出院诊断三种类型信息,对应的权限级别为第2权限级别;还可以根据子数据所属的数据层数,确定子数据的权限级别,具体的,第i层数据的任意一份子数据的权限级别为第i权限级别。
步骤S104、根据多份子数据之间的连接关系,生成每份子数据的结构信息,结构信息用于记录每份子数据连接的上一层数据对应的一份子数据的标识信息。
在应用中,可以根据多层数据之间的包含关系,确定多层数据之间的连接关系,具体的,第i层数据的一份子数据可以包括第i+1层数据的任意一份子数据,则上述第i+1层数据的任意一份子数据与上述第i层数据的一份子数据对应并连接。第i+1层数据的任意一份子数据的结构信息,可以记录与其连接的第i层数据对应的一份子数据的标识信息,从而可以确定任意一份子数据的从属关系,提供子数据的溯源能力。例如,假设第2层的一份子数据b分别与第1层的一份子数据a和第3层的一份子数据c连接,则第2层的子数据b的结构信息记录有第1层的子数据a的标识信息,可以得到第3层的子数据c的结构信息同时记录有第2层的子数据b的标识信息和第1层的子数据a的标识信息,以此类推,第i+1层数据的任意一份子数据的结构信息,可以记录有与其依次连接的第i层数据至第1层数据的子数据的标识信息。
在应用中,通过子数据的文本信息生成类型信息,并通过子数据的文本信息和类型信息生成标识信息,以及通过子数据之间的连接关系生成子数据的结构信息,将通过图像识别得到的结构化数据进行分结构存储,并赋予每一结构的数据唯一标识,简化结构化数据的查询逻辑,提高结构化数据的调用效率。
如图2所示,在一个实施例中,基于图1所对应的实施例,包括如下步骤S201至步骤S207:
步骤S201、接收待识别图像的结构化数据;
步骤S202、对每份子数据的文本信息进行语义分析,确定每份子数据的类型信息;
步骤S203、根据每份子数据的文本信息和类型信息,生成每份子数据的标识信息,每份子数据的标识信息不同;
步骤S204、根据多份子数据之间的连接关系,生成每份子数据的结构信息。
在应用中,步骤S201至步骤S204与上述步骤S101至步骤S104提供的数据处理方法一致,在此不再赘述。
步骤S205、接收需求单元发送的调用指令,调用指令包括目标子数据的标识信息。
在应用中,数据库可以与至少一个需求单元连接,在接收到任意一个需求单元发送的调用指令时,可以读取调用指令包括的目标子数据的标识信息。
图3示例性的示出了数据库301和需求单元302连接的场景示意图。
步骤S206、根据目标子数据的标识信息,获取目标子数据的文本信息和类型信息;
步骤S207、将目标子数据的文本信息和类型信息发送至需求单元。
在应用中,在根据目标子数据的标识信息检索到目标子数据后,可以获取获取目标子数据的文本信息和类型信息,并发送至和调用指令对应的需求单元,需要说明的是,每份子数据的标识信息不同,因此根据上述目标子数据的标识信息,可以在数据库中检索到唯一的一份子数据,从而提高了子数据调用的准确性和调用效率。
在一个实施例中,步骤S206包括:
获取需求单元的权限级别和目标子数据的权限级别;
在需求单元的权限级别大于或等于目标子数据的权限级别时,根据目标子数据的标识信息,获取目标子数据的文本信息和类型信息。
在应用中,与数据库连接的每个需求单元具有对应的权限级别,数据库在接收到需求单元的调用指令后,可以获取需求单元的权限级别,具体的,可以通过获取发送调用指令的需求单元的部门、员工ID(Identity document,身份标识号)或设备MAC(Media AccessControl Address,以太网地址)等身份特征确定需求单元的权限级别。其中,身份特征和权限级别的对应关系可以根据实际需要进行设置。
在应用中,数据库还可以获取目标子数据的权限级别,并将需求单元的权限级别和目标子数据的权限级别进行对比,并在需求单元的权限级别大于或等于目标子数据的权限级别时(例如需求单元为第3权限级别,目标子数据为第2权限级别),则可以根据目标子数据的标识信息,获取目标子数据的文本信息和类型信息,并执行步骤S207;在需求单元的权限级别小于目标子数据的权限级别时(例如需求单元为第1权限级别,目标子数据为第2权限级别),中止响应调用指令,并将需求单元的中止访问次数加1,在需求单元的中止访问次数达到预设次数时,输出报警信号,以警示用户需求单元具有违规访问行为。
在应用中,通过接收需求单元发送的调用指令,获取调用指令包括的目标子数据的标识信息,并根据目标子数据的标识信息,获取并发送目标子数据的文本信息和类型信息至需求单元,简化了结构化数据的查询逻辑,使用户可以根据标识信息快速调用目标子数据,提高了结构化数据的调用效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
如图4所示,本申请实施例还提供一种数据处理装置,数据处理装置可以是终端设备中的虚拟装置(virtual appliance),由终端设备的处理器运行,也可以是终端设备本身。
如图4所示,本申请实施例提供的数据处理装置10,包括:
接收模块11,用于接收待识别图像的结构化数据;结构化数据包括u层数据,每层数据包括多份子数据和每份子数据的文本信息,第i+1层数据的任意一份子数据与第i层数据对应的一份子数据连接,每层数据用于存储不同结构的数据;
分析模块12,用于对每份子数据的文本信息进行语义分析,确定每份子数据的类型信息;
标识模块13,用于根据每份子数据的文本信息和类型信息,生成每份子数据的标识信息,每份子数据的标识信息不同;
处理模块14,用于根据多份子数据之间的连接关系,生成每份子数据的结构信息,结构信息用于记录每份子数据连接的上一层数据对应的一份子数据的标识信息;
其中,i=1,2,…u-1,u为大于或等于2的整数。
在一个实施例中,数据处理装置10还包括:
图像识别模块,用于分析待识别图像的图像特征和语义特征,提取待识别图像的结构化数据;
还用于将待识别图像的结构化数据发送至数据库。
在一个实施例中,标识模块13包括:
关键词提取模块,用于根据每份子数据的关键词信息,确定关键词类型信息和关键词数值信息;
关键词标识模块,用于根据每份所述子数据的关键词类型信息和关键词数值信息,生成每份所述子数据的标识信息。
在一个实施例中,数据处理装置10还包括:
权限模块,用于根据每份子数据的类型信息,确定每份子数据的权限级别,子数据的权限级别用于与需求单元的权限级别进行比较,以验证需求单元是否具有对应子数据的访问权限。
在一个实施例中,数据处理装置10还包括:
调用模块,用于接收需求单元发送的调用指令,调用指令包括目标子数据的标识信息;
还用于根据目标子数据的标识信息,获取目标子数据的文本信息和类型信息;
还用于将目标子数据的文本信息和类型信息发送至需求单元。
在应用中,数据处理装置中的各模块可以为软件程序模块,也可以通过处理器中集成的不同逻辑电路实现,还可以通过多个分布式处理器实现。
如图5所示,本申请实施例还提供一种终端设备20包括存储器21、处理器22以及存储在所述存储器21中并可在所述处理器上运行的计算机程序23,处理器22执行计算机程序23时实现上述各个数据处理方法实施例中的步骤。
在应用中,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在应用中,存储器在一些实施例中可以是终端设备的内部存储单元,例如终端设备的硬盘或内存。存储器在另一些实施例中也可以是终端设备的外部存储设备,例如终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个数据处理方法实施例中的步骤。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或模块的间接耦合或通讯连接,可以是电性,机械或其它的形式。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,应用于数据库,所述方法包括:
接收待识别图像的结构化数据;所述结构化数据包括u层数据,每层所述数据包括多份子数据和每份所述子数据的文本信息,第i+1层数据的任意一份子数据与第i层数据对应的一份子数据连接,每层所述数据用于存储不同结构的数据;
对每份所述子数据的文本信息进行语义分析,确定每份所述子数据的类型信息;
根据每份所述子数据的文本信息和类型信息,生成每份所述子数据的标识信息,每份所述子数据的标识信息不同;
根据多份所述子数据之间的连接关系,生成每份所述子数据的结构信息,所述结构信息用于记录每份所述子数据连接的上一层数据对应的一份子数据的标识信息;
其中,i=1,2,…u-1,u为大于或等于2的整数。
2.如权利要求1所述的数据处理方法,其特征在于,所述接收待识别图像的结构化数据之前,所述方法还包括:
通过图像识别模块分析所述待识别图像的图像特征和语义特征,提取所述待识别图像的结构化数据;
通过所述图像识别模块将所述待识别图像的结构化数据发送至所述数据库。
3.如权利要求1所述的数据处理方法,其特征在于,所述每层所述数据还包括每份所述子数据的关键词信息;
所述根据每份所述子数据的文本信息和类型信息,生成每份所述子数据的标识信息,包括:
根据每份所述子数据的关键词信息,确定关键词类型信息和关键词数值信息;
根据每份所述子数据的关键词类型信息和关键词数值信息,生成每份所述子数据的标识信息。
4.如权利要求1所述的数据处理方法,其特征在于,所述数据库与至少一个需求单元连接;
所述对每份所述子数据的文本信息进行语义分析,确定每份所述子数据的类型信息之后,所述方法还包括:
根据每份所述子数据的类型信息,确定每份所述子数据的权限级别,所述子数据的权限级别用于与所述需求单元的权限级别进行比较,以验证所述需求单元是否具有对应子数据的访问权限。
5.如权利要求1所述的数据处理方法,其特征在于,所述数据库与至少一个需求单元连接;
所述根据多份所述子数据之间的连接关系,生成每份所述子数据的结构信息之后,还包括:
接收所述需求单元发送的调用指令,所述调用指令包括目标子数据的标识信息;
根据所述目标子数据的标识信息,获取所述目标子数据的文本信息和类型信息;
将所述目标子数据的文本信息和类型信息发送至所述需求单元。
6.如权利要求5所述的数据处理方法,其特征在于,所述根据所述目标子数据的标识信息,获取所述目标子数据的文本信息和类型信息,包括:
获取所述需求单元的权限级别和所述目标子数据的权限级别;
在所述需求单元的权限级别大于所述目标子数据的权限级别时,根据所述目标子数据的标识信息,获取所述目标子数据的文本信息和类型信息。
7.如权利要求1至6任一项所述的数据处理方法,其特征在于,所述结构化数据包括4层数据,第1层数据用于存储待识别图像,第2层数据用于存储所述待识别图像的段落,第3层数据用于存储所述段落的事件或所述段落的表格,第4层数据用于存储所述事件的元素或所述表格的元素。
8.一种数据处理装置,其特征在于,包括:
接收模块,用于接收待识别图像的结构化数据;所述结构化数据包括u层数据,每层所述数据包括多份子数据和每份所述子数据的文本信息,第i+1层数据的任意一份子数据与第i层数据对应的一份子数据连接,每层所述数据用于存储不同结构的数据;
分析模块,用于对每份所述子数据的文本信息进行语义分析,确定每份所述子数据的类型信息;
标识模块,用于根据每份所述子数据的文本信息和类型信息,生成每份所述子数据的标识信息,每份所述子数据的标识信息不同;
处理模块,用于根据多份所述子数据之间的连接关系,生成每份所述子数据的结构信息,所述结构信息用于记录每份所述子数据连接的上一层数据对应的一份子数据的标识信息;
其中,i=1,2,…u-1,u为大于或等于2的整数。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据处理方法的步骤。
CN202210031460.5A 2022-01-12 2022-01-12 数据处理方法、装置、终端设备及存储介质 Active CN114373173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210031460.5A CN114373173B (zh) 2022-01-12 2022-01-12 数据处理方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210031460.5A CN114373173B (zh) 2022-01-12 2022-01-12 数据处理方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN114373173A true CN114373173A (zh) 2022-04-19
CN114373173B CN114373173B (zh) 2024-08-09

Family

ID=81143604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210031460.5A Active CN114373173B (zh) 2022-01-12 2022-01-12 数据处理方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN114373173B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081400A (zh) * 2022-07-04 2022-09-20 深圳市致远速联信息技术有限公司 非结构化数据处理方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6105022A (en) * 1997-02-26 2000-08-15 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
KR20010064744A (ko) * 1999-12-18 2001-07-11 이계철 트리구조의 분류자료 저장방법
CN101884024A (zh) * 2007-09-20 2010-11-10 起元技术有限责任公司 在基于图的计算中管理数据流
CN107704475A (zh) * 2016-08-10 2018-02-16 泰康保险集团股份有限公司 多层分布式非结构化数据存储方法、查询方法及装置
US20190019266A1 (en) * 2015-11-13 2019-01-17 Cathx Research Ltd Method and system for processing image data
CN109599153A (zh) * 2018-11-14 2019-04-09 金色熊猫有限公司 医疗数据跟踪方法及装置、存储介质、电子设备
CN110134681A (zh) * 2019-04-15 2019-08-16 平安科技(深圳)有限公司 数据存储与查询方法、装置、计算机设备及存储介质
CN110309251A (zh) * 2018-03-12 2019-10-08 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN110442702A (zh) * 2019-08-15 2019-11-12 北京上格云技术有限公司 搜索方法、装置、可读存储介质和电子设备
US20200387533A1 (en) * 2019-03-19 2020-12-10 Zetadata Systems, Inc Systems and methods for structuring metadata
CN113420116A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6105022A (en) * 1997-02-26 2000-08-15 Hitachi, Ltd. Structured-text cataloging method, structured-text searching method, and portable medium used in the methods
KR20010064744A (ko) * 1999-12-18 2001-07-11 이계철 트리구조의 분류자료 저장방법
CN101884024A (zh) * 2007-09-20 2010-11-10 起元技术有限责任公司 在基于图的计算中管理数据流
US20190019266A1 (en) * 2015-11-13 2019-01-17 Cathx Research Ltd Method and system for processing image data
CN107704475A (zh) * 2016-08-10 2018-02-16 泰康保险集团股份有限公司 多层分布式非结构化数据存储方法、查询方法及装置
CN110309251A (zh) * 2018-03-12 2019-10-08 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN109599153A (zh) * 2018-11-14 2019-04-09 金色熊猫有限公司 医疗数据跟踪方法及装置、存储介质、电子设备
US20200387533A1 (en) * 2019-03-19 2020-12-10 Zetadata Systems, Inc Systems and methods for structuring metadata
CN110134681A (zh) * 2019-04-15 2019-08-16 平安科技(深圳)有限公司 数据存储与查询方法、装置、计算机设备及存储介质
CN110442702A (zh) * 2019-08-15 2019-11-12 北京上格云技术有限公司 搜索方法、装置、可读存储介质和电子设备
CN113420116A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 医疗文档的分析方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115081400A (zh) * 2022-07-04 2022-09-20 深圳市致远速联信息技术有限公司 非结构化数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114373173B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN111581976B (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
US20160012061A1 (en) Similar document detection and electronic discovery
CN109582861A (zh) 一种数据隐私信息检测系统
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN105431859A (zh) 指示恶意软件的信号标记
CN108427731A (zh) 页面代码的处理方法、装置、终端设备及介质
CN110737689B (zh) 数据标准符合性检测方法、装置、系统及存储介质
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
CN115840808B (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
WO2020106644A1 (en) Transliteration of data records for improved data matching
CN113282854A (zh) 数据请求响应方法、装置、电子设备及存储介质
CN113609128B (zh) 生成数据库实体类的方法、装置、终端设备及存储介质
CN114373173B (zh) 数据处理方法、装置、终端设备及存储介质
Yu et al. Localizing function errors in mobile apps with user reviews
CN113806492A (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN109657043A (zh) 自动生成文章的方法、装置、设备及存储介质
CN113434542A (zh) 数据关系识别方法、装置、电子设备及存储介质
WO2021055868A1 (en) Associating user-provided content items to interest nodes
CN115210705A (zh) 具有无效值或等效值的关系表的向量嵌入模型
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN111933241A (zh) 医疗数据解析方法、装置、电子设备及存储介质
CN114969385B (zh) 基于文档属性赋值实体权重的知识图谱优化方法及装置
CN116226315A (zh) 基于人工智能的敏感信息检测方法、装置及相关设备
CN110289066A (zh) 一种法医鉴定报告的审查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant