CN111046131B - 一种文档处理方法及装置 - Google Patents

一种文档处理方法及装置 Download PDF

Info

Publication number
CN111046131B
CN111046131B CN201911382771.0A CN201911382771A CN111046131B CN 111046131 B CN111046131 B CN 111046131B CN 201911382771 A CN201911382771 A CN 201911382771A CN 111046131 B CN111046131 B CN 111046131B
Authority
CN
China
Prior art keywords
chapter
document
content
processed
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911382771.0A
Other languages
English (en)
Other versions
CN111046131A (zh
Inventor
郑永升
石磊
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yitu Healthcare Technology Co ltd
Original Assignee
Hangzhou Yitu Healthcare Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yitu Healthcare Technology Co ltd filed Critical Hangzhou Yitu Healthcare Technology Co ltd
Priority to CN201911382771.0A priority Critical patent/CN111046131B/zh
Publication of CN111046131A publication Critical patent/CN111046131A/zh
Application granted granted Critical
Publication of CN111046131B publication Critical patent/CN111046131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种文档处理方法及装置,用于提升文档内容的检索速度,降低系统资源的消耗。该文档处理方法包括:确定与待处理文档的章节名称相关的信息;根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;将与所述章节名称对应的内容存储到章节内容表中;将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。采用本申请所公开的方法,提升了文档内容的检索速度,降低了系统资源的消耗。

Description

一种文档处理方法及装置
技术领域
本申请涉及计算机领域,特别涉及一种文档处理方法及装置。
背景技术
随着科技的发展,无纸化办公已经由概念逐渐应用到多个行业领域中。文档是无纸化办公过程中不可缺少的一部分,文档通常是指电子文档,其作为信息的载体,在社会生活中占有着十分重要的地位。
有时候,出于研究目的,会将大量同类文档进行收集整合,然后将文档内容整合到同一张数据表中,但是,这样的存储方式,数据表中的数据量会变得非常庞大。既包含了文档内的章节,也包含了各个章节的内容,如果要对某些内容进行检索,则需要在该数据表进行全文遍历,由于数据量庞大,因此,检索速度缓慢,且需要消耗大量的系统资源,因此,如何提升检索速度,降低系统资源的消耗,是一亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种文档处理方法及装置,用于提升文档内容的检索速度,降低系统资源的消耗。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种文档处理方法,包括:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。
本发明的有益效果在于:将章节名称对应的内容和章节名称分别存储到章节内容表和章节名称表,从而,在检索章节名称对应的内容时,可以先通过章节名称表得到章节名称对应的内容的索引,再通过该索引检索章节内容表,因此,在整个检索过程中,只需要遍历章节名称表,以及遍历章节内容表中的索引就可以检索到章节名称对应的内容,而无需遍历数据量最大的章节名称对应的内容这部分数据,减少了遍历所需的时间,提升了文档内容的检索速度,降低了系统资源的消耗。
在一个实施例中,在确定所述待处理文档的章节名称之前,所述方法还包括:
判断所述待处理的文档是否为预设格式;
当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
本实施例的有益效果在于:当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式,从而使文档结构统一化,便于后续识别处理。
在一个实施例中,所述确定与待处理文档的章节名称相关的信息,包括:
获取预存储的章节名称字典;
根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
根据匹配结果确定所述待处理文档的章节名称。
在一个实施例中,所述方法还包括:
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
在一个实施例中,在将所述章节内容表与所述章节名称表对应存储之后,所述方法还包括:
当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
在一个实施例中,在所述判断所述待处理的文档是否为预设格式之前,所述方法还包括:
判断所述待处理文档是否为加密文档;
当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
本申请还提供一种文档处理装置,包括:
确定模块,用于确定与待处理文档的章节名称相关的信息;
抽取模块,用于根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
第一存储模块,用于将与所述章节名称对应的内容存储到章节内容表中;
第二存储模块,用于将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。
在一个实施例中,所述装置还包括:
判断模块,用于在确定所述待处理文档的章节名称之前,判断所述待处理的文档是否为预设格式;
转换模块,用于当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
在一个实施例中,所述确定模块,包括:
获取子模块,用于获取预存储的章节名称字典;
匹配子模块,用于根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
确定子模块,用于根据匹配结果确定所述待处理文档的章节名称。
在一个实施例中,所述装置还包括:
第三存储模块,用于将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
在一个实施例中,所述装置还包括:
索引确定模块,用于当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
查询模块,用于通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
在一个实施例中,所述装置还包括:
加密判断模块,用于判断所述待处理文档是否为加密文档;
解密模块,用于当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
本申请还提供一种文档处理装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。
所述处理器还被配置为:
在确定所述待处理文档的章节名称之前,判断所述待处理的文档是否为预设格式;
当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
所述处理器还被配置为:
所述确定与待处理文档的章节名称相关的信息,包括:
获取预存储的章节名称字典;
根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
根据匹配结果确定所述待处理文档的章节名称。
所述处理器还被配置为:
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
所述处理器还被配置为:
当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
所述处理器还被配置为:
判断所述待处理文档是否为加密文档;
当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
本申请还提供一种非临时性可读存储介质,当所述存储介质中的指令由设备内的处理器执行时,使得所述设备能够执行一种文档处理方法,所述方法包括:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。
所述存储介质中的指令还包括:
在确定所述待处理文档的章节名称之前,判断所述待处理的文档是否为预设格式;
当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
所述存储介质中的指令还包括:
所述确定与待处理文档的章节名称相关的信息,包括:
获取预存储的章节名称字典;
根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
根据匹配结果确定所述待处理文档的章节名称。
所述存储介质中的指令还包括:
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
所述存储介质中的指令还包括:
当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
所述存储介质中的指令还包括:
在所述判断所述待处理的文档是否为预设格式之前,判断所述待处理文档是否为加密文档;
当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
附图说明
图1为本申请实施例的一种文档处理方法的流程图;
图2为本申请实施例的一种文档处理方法的流程图;
图3为本申请实施例的一种文档处理装置的框图;
图4为本申请实施例的一种文档处理装置的框图。
具体实施方式
此处参考附图描述本申请的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例,并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本申请的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本申请的具体实施例;然而,应当理解,所申请的实施例仅仅是本申请的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本申请的相同或不同实施例中的一个或多个。
图1为本申请实施例的一种文档处理方法的流程图,该方法可用于计算机,该方法包括以下步骤S11-S13:
在步骤S11中,确定与待处理文档的章节名称相关的信息;
在步骤S12中,根据与待处理文档的章节名称相关的信息获取与章节名称对应的内容;
在步骤S13中,将与章节名称对应的内容存储到章节内容表中;
在步骤S14中,将待处理文档的章节名称存储到章节名称表中,其中,章节名称表中的章节名称与章节内容表中对应的内容索引相同。
本实施例中,确定与待处理文档的章节名称相关的信息;根据与待处理文档的章节名称相关的信息获取与章节名称对应的内容;
将与章节名称对应的内容存储到章节内容表中;将待处理文档的章节名称存储到章节名称表中,其中,章节名称表中的章节名称与章节内容表中对应的内容索引相同。
其中,需要说明的是,在确定待处理文档章节名称之前,如果文档是加密文档,则需要先对该文档进行解密,在解密之后,还需要判断待处理文档是否为预设格式,如果待处理文档不是预设格式,则需要将该待处理文档先转换为预设格式,然后再确定文档的章节名称。
需要说明的是,上述步骤S11在实施时,可以确定章节名称本身,也可以确定与章节名称相关的标签信息。
当要确定的与待处理文档的名称相关的信息是章节名称本身时,可以通过预存储的章节名称字典确定文档的章节名称,具体的,根据预存储的章节名称字典与待处理文档中的章节名称进行匹配,根据匹配结果确定与待处理文档的章节名称。
如果预设格式为XML文档格式,当要确定的与待处理文档的名称相关的信息可以是与章节名称对应的标签。例如,地址信息通常是通过<addr>具体地址信息</addr>来记录的,因此,章节名称为地址信息时,与章节名称相关的信息为“<addr></addr>”,即用于标识地址信息的开始标签和结束标签,而用于标识地址信息的开始标签和结束标签之间的内容则是具体地址信息。因此,然后可以通过该标签确定提取该标签之间具体地址信息的正则表达式。此时,上述步骤S12可以是基于该正则表达式获取与章节名称对应的内容。同一家单位由于使用相同的办公系统,因此,该单位内XML文档中用来标识同一信息的标签是相同的,因此,上述正则表达式可以适用于标签命名规则相同的XML文档,例如,由同一系统生成的XML文档。
举例而言,假设待处理文档为病历文档,接收到病历文档的处理请求后,如果文档是加密文档,则需要先对该文档进行解密,在解密之后,需要判断病历文档是否为预设格式,如果病历文档不是预设格式,则需要将该病历文档先转换为预设格式,然后再确定病历文档的章节名称,如果不是加密文档,则直接判断病历文档是否为预设格式,当将病历文档转换为预设格式后,或者当病历文档本身为预设格式时,通过预存储的章节名称字典确定文档的章节名称。
在确定了病历文档的章节名称之后,根据病历文档的章节名称抽取与章节名称对应的内容,然后将章节名称对应存储到章节内容表中,该章节内容表如下表1所示:
表1
在将章节名称对应存储到章节内容表中的同时,将病历文本的章节名称存储到章节名称表中。
该章节名称表如下表2所示:
表2
章节id 文档id 文档名称 章节名称 文档类型 ……
1001 Content1001 入院记录 标题 …… ……
1002 Content1001 入院记录 入院日期 …… ……
1003 Content1001 入院记录 主诉 …… ……
…… Content1001 …… …… …… ……
1007 Content1001 入院记录 现病史 …… ……
…… Content1001 …… …… …… ……
由于存在上述表1和表2,表2里包含文档章节和索引(即章节id),而不包含章节内容,因此,表2里的数据量较小,遍历表2所需的时间较短,而表1中只存储章节内容和索引(即章节id),章节内容的数据量较大,所以,在检索章节内容时,先基于章节名称遍历表2,得到索引,然后根据索引遍历表1中的索引部分,而无需遍历数据量最大的章节内容部分,从而减少了遍历所需的时间,提升了检索速度。
另外,可以看出,在表1和表2中,章节id是做了排序的,因此,当章节id较为靠前时,例如章节id为1003,在通过章节id查找章节内容时,只需要查找前3个章节id就能得到章节内容。进一步提升了检索速度。降低了系统资源的消耗。
同时,需要说明的是,各医院病历文书存储粒度不同:有些是一个病历文书一个文件,有些是一次住院的病程一个文件,有些是一次住院的所有文书存在一个文件中。而且,同一种病历文书,各医院各科室的病历文书结构不同:各科室会根据本科室的习惯、特点自定义文书模板格式,导致同一种文书各科室的结构不完全相同。因此,本申请中,能够分别获得文档章节名称和文档内容,然后将文档章节名称和文档内容分别存储在章节内容表和章节名称表中,从而将不同来源不同存储结构的数据统一成相同的存储结构,因此,克服了由于数据来源不同而导致的结构性差异,而采用相同的存储格式,有利于后续的医疗科研工作。
本发明的有益效果在于:将章节名称对应的内容和章节名称分别存储到章节内容表和章节名称表,从而,在检索章节名称对应的内容时,可以先通过章节名称表得到章节名称对应的内容的索引,再通过该索引检索章节内容表,因此,在整个检索过程中,只需要遍历章节名称表,以及遍历章节内容表中的索引就可以检索到章节名称对应的内容,而无需遍历数据量最大的章节名称对应的内容这部分数据,减少了遍历所需的时间,提升了文档内容的检索速度,降低了系统资源的消耗。
在一个实施例中,在上述步骤S11中确定与待处理文档的章节名称相关的信息之前,方法还可被实施为如下步骤A1-A2:
在步骤A1中,判断待处理的文档是否为预设格式;
在步骤A2中,当待处理的文档不是预设格式时,将待处理的文档转换为预设格式。
各个单位或企业中文档的存储格式不同,以医院的病历文档为例,有些医院病历文档的存储格式是纯文本格式、有些医院是以xml格式进行存储、有些医院是HTML文件存储。因此,本实施例中,需要将其统一成相同的格式,利于后续识别和对文档的处理。具体的,本实施例中,判断待处理的文档是否为预设格式;当待处理的文档不是预设格式时,将待处理的文档转换为预设格式。
例如,预设格式为xml格式,当待处理的文档为html格式时,需要将其转换为xml格式。这样能够将所有文档格式统一,从而便于后续对文档的处理。
可见,申请中,可以将不同来源,不同存储结构的数据统一成相同格式。然后可以抽取文档章节名称和文档内容,并将文档章节名称和文档内容分别存储在章节名称表和章节内容表中,从而实现了对不同类型、不同结构文档的统一兼容。
本实施例的有益效果在于:当待处理的文档不是预设格式时,将待处理的文档转换为预设格式,从而使文档结构统一化,便于后续识别处理。
在一个实施例中,如图2所示,上述步骤S11中确定与待处理文档的章节名称相关的信息可被实施为如下步骤S21-S23:
在步骤S21中,获取预存储的章节名称字典;
在步骤S22中,根据预存储的章节名称字典与待处理文档中的章节名称进行匹配;
在步骤S23中,根据匹配结果确定待处理文档的章节名称。
本实施例中,获取预存储的章节名称字典;根据预存储的章节名称字典与待处理文档中的章节名称进行匹配;根据匹配结果确定待处理文档的章节名称。
当待处理文档为病历文档时,该章节名称字典为与病历文档章节名称对应的章节名称字典,该章节名称字典是通过收集各个医院的病历文档的章节命名方式,然后将这些命名方式整合之后,再进行规范化后形成的,涵盖了多个医院中病历文档的章节名称。具体的,该章节名称字典如下表3所示:
表3
上述示例提供了一种将各个医院章节名称命名方式整合并规范化处理后生成的章节名称字典,该章节名称字典可以处理所有医院的病历文档,但是在确定待处理文档的章节名称时,相同类别的章节内容,章节名称的命名方式可能存在差异,因此,章节内容类别相同时,待处理文档的章节名称与章节名称字典中的章节名称可能会不一致,此时,则需要基于相似度匹配方式来判断待处理文档章节名称与章节名称字典是否为同一类别,并且需要对待处理文档章节名称进行规范化,使得待处理文档章节名称的确定过程变得复杂化。
为了简化待处理文档章节名称的确定过程,可以对病历文档进行分类。虽然不同类型的病历文档内容差异和业务差异很大,但是对于病历文档类型,和各个类型对应的内容结构,在本领域是有统一规定的,也就是说,各个类型的病历文档的内容结构,是存在一定的约束性的,因此,可以基于这种约束性,对病历文档进行分类。
在分类后,可以基于每一个类别的病历文档,生成对应的章节名称字典,这样的话,每一个类别的病历文档都对应一个章节名称字典,二者的章节名称的命名方式是统一的。因此,在确定与待处理文档的章节名称时,可以先确定待处理文档的类别,然后基于待处理文档的类别选择相应的章节名称字典进行待处理文档的章节名称的确定。
由于待处理文档的章节名称和该待处理文档的类别对应的章节名称字典的章节名称是统一的,因此,无需基于相似度匹配算法确定待处理文档的章节名称,也无需在确定章节名称后再进行规范化,简化了待处理文档的章节名称的确定过程。
在一个实施例中,方法还可被实施为如下步骤:
将章节内容表与章节名称表对应存储;其中,章节内容表中包含章节内容和对应的索引,章节名称表中包含章节的名称和对应的索引,章节内容表和章节名称表都为动态可扩展架构。
在现有技术中,医院内用于存储病历的数据表通常是如下表4所示的结构:
表4
标题 入院日期 主诉 现病史
入院记录 2019.11.19 腹部胀痛
…… …… …… ……
可以看出,在现有技术中,是将章节名称作为每一列的标题栏,然后将各章节内容对应存储在各个标题栏所在列中,因此,现有技术中,一旦做完数据表,标题栏的数目就固定了,即章节名称的数目就固定了,不能够动态扩展。而在本实施例中,章节内容表和章节名称表都为动态可扩展架构,以章节内容表为例,在数据全部记录在数据表之后,可以再设置多个预留字段。当有一个新的章节内容出现时,将章节id栏中的一个预留字段中修改为新的章节id,并将与新的章节id同一行的章节内容栏的预留字段修改为新的章节内容。
或者,在数据全部记录在数据表之后,可以设置多个空白行,当有新的章节内容出现时,直接将章节内容和章节id增加至空白行内。
而章节名称表的动态可扩展架构的实现方式与上述章节内容表类似。
另外,可将章节名称表和章节内容表中的信息都设置为可变信息,便于随时修改。
在一个实施例中,在将章节内容表与章节名称表对应存储之后,方法还可被实施为如下步骤B1-B2:
在步骤B1中,当接收到基于预设章节名称的查询请求时,通过章节名称表确定预设章节名称对应的索引;
在步骤B2中,通过预设章节名称对应的索引从章节内容表中查询预设章节名称对应的内容。
本实施例中,当接收到基于预设章节名称的查询请求时,通过章节名称表确定预设章节名称对应的索引;通过预设章节名称对应的索引从章节内容表中查询预设章节名称对应的内容。
举例而言,当接收到对章节名称为“主诉”的查询请求时,可以通过章节名称表(即表2)得到索引(即章节id)为1003,然后通过该索引从章节内容表(即表1)中查询该章节名称“主诉”所对应的内容为“腹部胀痛”。
当然,上述表1中的章节内容仅仅为示例,旨在更加清楚地描述本申请,而在实际应用过程中,章节内容的信息量远远多于上表1所示的内容。
在一个实施例中,在上述步骤A1之前,方法还可被实施为如下步骤C1-C2:
在步骤C1中,判断待处理文档是否为加密文档;
在步骤C2中,当待处理文档为加密文档时,根据预设解密策略对加密文档进行解密。
本实施例中,判断待处理文档是否为加密文档;当待处理文档为加密文档时,根据预设解密策略对加密文档进行解密。
例如,待处理文档为病历文档,而通常情况下,医院里面的病历文档是由医院所使用的医疗软件进行加密的,而医疗软件进行加密的方式又依托该医疗软件提供商所设置的加密算法。因此,可以预先存储各个软件提供商所设置的加密算法,在得到病历文档之后,可以先确定该病历文档是从哪家医院抓取到的,然后在进一步确定该医院所使用的医疗软件的提供商,然后基于该医疗软件的提供商所提供的加密算法进行逆推,得到病历文档的密码,然后对其进行解密。当然,有些软件提供商并不会采用加密算法进行加密,而是采用固定密码进行加密,此时,也可以直接预存储该软件提供商所采用的固定密码。从而,在整合病历文档时,无需再向医院索要密码,减少了人工操作。
图3为本申请实施例的一种文档处理装置的框图,该装置可用于计算机,该装置包括以下模块:
确定模块31,用于确定与待处理文档的章节名称相关的信息;
抽取模块32,用于根据与待处理文档的章节名称相关的信息获取与章节名称对应的内容;
第一存储模块33,用于将与章节名称对应的内容存储到章节内容表中;
第二存储模块34,用于将待处理文档的章节名称存储到章节名称表中,其中,章节名称表中的章节名称与章节内容表中对应的内容索引相同。
在一个实施例中,如图4所示,装置还包括:
判断模块41,用于在确定与待处理文档的章节名称相关的信息之前,判断待处理的文档是否为预设格式;
转换模块42,用于当待处理的文档不是预设格式时,将待处理的文档转换为预设格式。
在一个实施例中,所述确定模块,包括:
获取子模块,用于获取预存储的章节名称字典;
匹配子模块,用于根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
确定子模块,用于根据匹配结果确定所述待处理文档的章节名称。
在一个实施例中,所述装置还包括:
第三存储模块,用于将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
在一个实施例中,所述装置还包括:
索引确定模块,用于当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
查询模块,用于通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
在一个实施例中,所述装置还包括:
加密判断模块,用于判断所述待处理文档是否为加密文档;
解密模块,用于当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
本申请还提供一种文档处理装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。
所述处理器还被配置为:
在确定所述待处理文档的章节名称之前,判断所述待处理的文档是否为预设格式;
当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
所述处理器还被配置为:
所述确定与待处理文档的章节名称相关的信息,包括:
获取预存储的章节名称字典;
根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
根据匹配结果确定所述待处理文档的章节名称。
所述处理器还被配置为:
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
所述处理器还被配置为:
当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
所述处理器还被配置为:
判断所述待处理文档是否为加密文档;
当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
本申请还提供一种非临时性可读存储介质,当所述存储介质中的指令由设备内的处理器执行时,使得所述设备能够执行一种文档处理方法,所述方法包括:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同。
所述存储介质中的指令还包括:
在确定所述待处理文档的章节名称之前,判断所述待处理的文档是否为预设格式;
当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
所述存储介质中的指令还包括:
所述确定与待处理文档的章节名称相关的信息,包括:
获取预存储的章节名称字典;
根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
根据匹配结果确定所述待处理文档的章节名称。
所述存储介质中的指令还包括:
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
所述存储介质中的指令还包括:
当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
所述存储介质中的指令还包括:
在所述判断所述待处理的文档是否为预设格式之前,判断所述待处理文档是否为加密文档;
当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。

Claims (9)

1.一种文档处理方法,其特征在于,包括:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的文档名称和章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同;
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
2.如权利要求1所述的方法,其特征在于,在所述确定与待处理文档的章节名称相关的信息之前,所述方法还包括:
判断所述待处理的文档是否为预设格式;
当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
3.如权利要求1所述的方法,其特征在于,所述确定与待处理文档的章节名称相关的信息,包括:
获取预存储的章节名称字典;
根据所述预存储的章节名称字典与所述待处理文档中的章节名称进行匹配;
根据匹配结果确定所述待处理文档的章节名称。
4.如权利要求1所述的方法,其特征在于在将所述章节内容表与所述章节名称表对应存储之后,所述方法还包括:
当接收到基于预设章节名称的查询请求时,通过所述章节名称表确定所述预设章节名称对应的索引;
通过所述预设章节名称对应的索引从所述章节内容表中查询所述预设章节名称对应的内容。
5.如权利要求2所述的方法,其特征在于,在所述判断所述待处理的文档是否为预设格式之前,所述方法还包括:
判断所述待处理文档是否为加密文档;
当所述待处理文档为加密文档时,根据预设解密策略对所述加密文档进行解密。
6.一种文档处理装置,其特征在于,包括:
确定模块,用于确定与待处理文档的章节名称相关的信息;
抽取模块,用于根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
第一存储模块,用于将与所述章节名称对应的内容存储到章节内容表中;
第二存储模块,用于将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同;
第三存储模块,用于将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于在确定所述待处理文档的章节名称之前,判断所述待处理的文档是否为预设格式;
转换模块,用于当所述待处理的文档不是预设格式时,将所述待处理的文档转换为预设格式。
8.一种文档处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同;
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
9.一种非临时性可读存储介质,当所述存储介质中的指令由设备内的处理器执行时,使得所述设备能够执行一种文档处理方法,所述方法包括:
确定与待处理文档的章节名称相关的信息;
根据与待处理文档的章节名称相关的信息获取与所述章节名称对应的内容;
将与所述章节名称对应的内容存储到章节内容表中;
将所述待处理文档的章节名称存储到章节名称表中,其中,所述章节名称表中的章节名称与所述章节内容表中对应的内容索引相同;
将所述章节内容表与所述章节名称表对应存储;其中,所述章节内容表中包含章节内容和对应的索引,所述章节名称表中包含所述章节的名称和对应的索引,所述章节内容表和所述章节名称表都为动态可扩展架构。
CN201911382771.0A 2019-12-27 2019-12-27 一种文档处理方法及装置 Active CN111046131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911382771.0A CN111046131B (zh) 2019-12-27 2019-12-27 一种文档处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911382771.0A CN111046131B (zh) 2019-12-27 2019-12-27 一种文档处理方法及装置

Publications (2)

Publication Number Publication Date
CN111046131A CN111046131A (zh) 2020-04-21
CN111046131B true CN111046131B (zh) 2023-09-26

Family

ID=70240669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911382771.0A Active CN111046131B (zh) 2019-12-27 2019-12-27 一种文档处理方法及装置

Country Status (1)

Country Link
CN (1) CN111046131B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700830B (zh) * 2020-12-30 2023-03-24 医渡云(北京)技术有限公司 从电子病历中提取结构化信息的方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060087947A (ko) * 2005-01-31 2006-08-03 인하대학교 산학협력단 통합패스의 노드범위를 이용한 엑스엠엘 인덱스 시스템 및방법
CN101719156A (zh) * 2009-12-30 2010-06-02 南开大学 一种在关系型数据库中无缝集成纯xml查询引擎的系统
CN102968501A (zh) * 2012-12-07 2013-03-13 福建亿榕信息技术有限公司 一种通用的全文搜索方法
CN105608092A (zh) * 2014-11-24 2016-05-25 北大方正集团有限公司 一种创建动态索引的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4445509B2 (ja) * 2007-03-20 2010-04-07 株式会社東芝 構造化文書検索システム及びプログラム
US20090043733A1 (en) * 2007-08-06 2009-02-12 Orchestral Developments Limited Systems and methods for efficiently storing, retrieving and querying data structures in a relational database system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060087947A (ko) * 2005-01-31 2006-08-03 인하대학교 산학협력단 통합패스의 노드범위를 이용한 엑스엠엘 인덱스 시스템 및방법
CN101719156A (zh) * 2009-12-30 2010-06-02 南开大学 一种在关系型数据库中无缝集成纯xml查询引擎的系统
CN102968501A (zh) * 2012-12-07 2013-03-13 福建亿榕信息技术有限公司 一种通用的全文搜索方法
CN105608092A (zh) * 2014-11-24 2016-05-25 北大方正集团有限公司 一种创建动态索引的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Lucene的全文检索系统模型的研究和开发;朱岸青;黄杰;;暨南大学学报(自然科学与医学版)(05);全文 *
满慎江 ; 陈金森 ; 郭希娟 ; 原福永 ; .面向XML文档检索的索引技术.小型微型计算机系统.2008,第29卷(第01期),全文. *

Also Published As

Publication number Publication date
CN111046131A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
US7765236B2 (en) Extracting data content items using template matching
US8321470B2 (en) Heterogeneous multi-level extendable indexing for general purpose annotation systems
US7796309B2 (en) Integrating analog markups with electronic documents
Beel et al. Docear: An academic literature suite for searching, organizing and creating academic literature
US8150834B2 (en) Assisting method and apparatus for accessing markup language document
JP5152877B2 (ja) 文書ベースシステムにおける文書データ記憶方法およびその装置
TWI549005B (zh) 多層搜尋引擎索引
CN112989412B (zh) 一种基于sql语句解析的数据脱敏方法及装置
CN109145110B (zh) 标签查询方法和装置
JP2013541793A (ja) マルチモード検索クエリー入力手法
US8805848B2 (en) Systems, methods and computer program products for fast and scalable proximal search for search queries
CN113407785B (zh) 一种基于分布式储存系统的数据处理方法和系统
CN111046131B (zh) 一种文档处理方法及装置
CN113377876B (zh) 基于Domino平台的数据分库处理方法、装置及平台
US20110252313A1 (en) Document information selection method and computer program product
WO2019022669A1 (en) HYBRID INDEX CONSULTABLE ENCRYPTION
US20230153455A1 (en) Query-based database redaction
US10614102B2 (en) Method and system for creating entity records using existing data sources
CN103514297A (zh) 文本增加批注数据的方法及装置,查询方法及装置
CN116011438A (zh) 一种文件处理方法及装置、存储介质及电子设备
CN109460500A (zh) 热点事件发现方法、装置、计算机设备和存储介质
US11669555B2 (en) System and method of creating index
CN114510605A (zh) 数据存储方法、装置、电子设备及存储介质
US11954223B2 (en) Data record search with field level user access control
CN112380445B (zh) 数据查询方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant