CN116701615B - 业务文档在线管理方法、装置、电子设备及可读存储介质 - Google Patents

业务文档在线管理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN116701615B
CN116701615B CN202310988220.9A CN202310988220A CN116701615B CN 116701615 B CN116701615 B CN 116701615B CN 202310988220 A CN202310988220 A CN 202310988220A CN 116701615 B CN116701615 B CN 116701615B
Authority
CN
China
Prior art keywords
target
document
service
business
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310988220.9A
Other languages
English (en)
Other versions
CN116701615A (zh
Inventor
李金灵
李晗
杜嘉
赵琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202310988220.9A priority Critical patent/CN116701615B/zh
Publication of CN116701615A publication Critical patent/CN116701615A/zh
Application granted granted Critical
Publication of CN116701615B publication Critical patent/CN116701615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种业务文档在线管理方法、装置、电子设备及可读存储介质,涉及计算机技术领域。方法包括:响应于用户的业务文档查询请求,获取业务文档查询请求对应的用户信息及关键字;从指定存储空间获取包括关键字的业务文档;获取各业务文档的属性信息,在当前业务文档的属性信息与用户信息匹配的情况下,确定当前业务文档为第一目标业务文档;对于每一第一目标业务文档,提取第一目标业务文档中与关键字匹配的目标字段,依据各目标字段在第一目标业务文档中的位置信息对各目标字段进行拼接,生成第二目标业务文档,向用户展示第二目标业务文档。本申请能够有效避免业务文档中的用户隐私信息的泄漏,同时提高了业务文档的使用效率。

Description

业务文档在线管理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种业务文档在线管理方法、一种业务文档在线管理装置、一种电子设备及一种计算机可读存储介质。
背景技术
业务文档如信贷审批历史会议纪要等金融业务文档通常包括用户的隐私信息,目前,在处理相关业务时,可能需要对预存储的历史业务文档进行查询时,而在对上述金融业务文档进行查询时,目前通常仅对用户权限进行筛选,而对于每一被查询业务文档的内容并未进行处理,从而可能导致在上述金融业务文档被恶意查询时,用户隐私信息存在泄露的风险。同时,由于被查询的历史业务文档中存在大量无效信息,用户在查询时往往需要手动对无效信息进行筛选,使得业务文档的利用效率偏低。
发明内容
本申请提供一种业务文档在线管理方法、装置、电子设备及可读存储介质,用以解决现有技术业务文档存在信息泄露风险、利用效率偏低的问题。
本申请的第一方面,提供一种业务文档在线管理方法,包括:
响应于用户的业务文档查询请求,获取所述业务文档查询请求对应的用户信息及关键字;
从指定存储空间获取包括所述关键字的业务文档;
获取各业务文档的属性信息,在当前业务文档的属性信息与所述用户信息匹配的情况下,确定当前业务文档为第一目标业务文档;
对于每一第一目标业务文档,提取所述第一目标业务文档中与所述关键字匹配的目标字段,依据各目标字段在所述第一目标业务文档中的位置信息对各目标字段进行拼接,生成第二目标业务文档,向所述用户展示所述第二目标业务文档。
可选地,当前业务文档的属性信息包括当前业务文档的业务类别;在当前业务文档的属性信息与所述用户信息匹配的情况下,确定当前业务文档为第一目标业务文档,包括:
通过预设的权限匹配表获取所述用户信息对应的至少一个目标业务类别,所述权限匹配表至少包括不同用户信息对应的至少一个目标业务类别;
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档。
可选地,若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;
获取各初始业务文档在预设时段内的被访问次数;
确定被访问次数高于被访问次数阈值的初始业务文档为第一目标业务文档。
可选地,若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;
获取在预设时段内,各初始业务文档被所述用户访问的被访问次数;
确定被访问次数高于被访问次数阈值的初始业务文档为第一目标业务文档。
可选地,当前业务文档的属性信息包括当前业务文档的创建时间;若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;
获取预设时段内,被所述用户访问的所有业务文档的创建时间;
确定获取到的所有创建时间中的最早创建时间及最晚创建时间,以所述最早创建时间至所述最晚创建时间的时间段为目标时间段;
确定创建时间属于所述目标时间段内的初始业务文档为第一目标业务文档。
可选地,提取所述第一目标业务文档中与所述关键字匹配的目标字段,包括:
依据换行符将所述第一目标业务文档依次划分为多个段落,确定包括所述关键字的段落为目标段落;
针对每个目标段落,依据分隔符将所述目标段落依次划分为多个语句,确定包括所述关键字的语句为目标语句;
若所述目标语句的前一分隔符为预设分隔符,且所述目标语句的后一分隔符为所述预设分隔符,确定所述目标语句为目标字段。
可选地,所述方法还包括:
若所述目标语句的前一分隔符不为所述预设分隔符,确定所述目标语句之前的所有分隔符中为所述预设分隔符,且距离所述目标语句最近的分隔符为起始分隔符,确定所述起始分隔符与所述目标语句的后一分隔符之间的语句为目标字段;
若所述目标语句的后一分隔符不为所述预设分隔符,确定所述目标语句之后的所有分隔符中为所述预设分隔符,且距离所述目标语句最近的分隔符为终止分隔符,确定所述终止分隔符与所述目标语句的前一分隔符之间的语句为目标字段。
可选地,依据各目标字段在所述第一目标业务文档中的位置信息对各目标字段进行拼接,包括:
依据各目标字段对应的目标段落在所述第一目标业务文档中的位置关系对各目标字段进行排序,通过与各目标段落对应的换行符对各目标字段进行拼接。
本申请第二方面,提供一种业务文档在线管理装置,包括:
数据获取模块,被配置为响应于用户的业务文档查询请求,获取所述业务文档查询请求对应的用户信息及关键字;
查询模块,被配置为从指定存储空间获取包括所述关键字的业务文档;
匹配模块,被配置为获取各业务文档的属性信息,在当前业务文档的属性信息与所述用户信息匹配的情况下,确定当前业务文档为第一目标业务文档;
文档生成模块,被配置为对于每一第一目标业务文档,提取所述第一目标业务文档中与所述关键字匹配的目标字段,依据各目标字段在所述第一目标业务文档中的位置信息对各目标字段进行拼接,生成第二目标业务文档,向所述用户展示所述第二目标业务文档。
本申请的第三方面,提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如上述的方法。
本申请的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的方法。
本申请的第五方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法。
本申请通过将业务文档与用户信息进行匹配确定可被访问的业务文档,并基于用户输入的关键字对获取到的业务文档进行分割、拼接,生成新的业务文档并向用户展示,从而能够有效避免业务文档中的用户隐私信息的泄漏,同时无需用户手动筛除无效信息,提高了业务文档的使用效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种业务文档在线管理方法的方法流程图;
图2为本申请实施例提供的业务文档查询逻辑示意图;
图3为本申请实施例提供的一种业务文档在线管理装置的示意框图;
图4为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
如图1所示,本申请的第一方面,提供一种业务文档在线管理方法,包括:
S100、响应于用户的业务文档查询请求,获取业务文档查询请求对应的用户信息及关键字;
S200、从指定存储空间获取包括关键字的业务文档;
S300、获取各业务文档的属性信息,在当前业务文档的属性信息与用户信息匹配的情况下,确定当前业务文档为第一目标业务文档;
S400、对于每一第一目标业务文档,提取第一目标业务文档中与关键字匹配的目标字段,依据各目标字段在第一目标业务文档中的位置信息对各目标字段进行拼接,生成第二目标业务文档,向用户展示第二目标业务文档。
如此,本申请通过将业务文档与用户信息进行匹配确定可被访问的业务文档,并基于用户输入的关键字对获取到的业务文档进行分割、拼接,生成新的业务文档并向用户展示,从而能够有效避免业务文档中的用户隐私信息的泄漏,同时无需用户手动筛除无效信息,提高了业务文档的使用效率。
可以理解的,在本申请的技术方案中,对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定。
具体的,本申请中,业务文档包括但不限于信贷审批历史会议纪要。以业务文档为信贷审批历史会议纪要为例,如图2所示,预先将所有线下产生的PDF、OFD等格式的非结构化数据的信贷审批历史会议纪要批量导入非结构化数据仓,如指定数据库中,并为每个信贷审批历史会议纪要文件赋一id。通过OCR识别、通过NLP技术提取出客户名称、审批机构、信贷产品等关键字段信息的结构化数据,将所提取的文件关键字通过id与对应的信贷审批历史会议纪要文件的存储地址进行关联。其中,各业务文档的属性信息包括但不限于id、业务类别、创建时间等。
这样,可以通过关键字从数据库中查询对应的业务文档,以便于进行业务处理。例如,由于信贷审批历史会议纪要模板版式不是特别固定,另外技术识别、提取难免出现误差,需要有人复核,因此可以通过配置历史同类审批案例(信贷审批历史会议纪要)维护界面,用于审批人员编辑字段信息、上传会议纪要和删除已有记录。审批人员可以通过关键字如业务类别直接查询相同业务类别的信贷审批历史会议纪要,并通过信贷审批界面展示处理后的结构化数据记录,从而有效提高了审批效率。
目前,在用户输入查询关键字时,系统通过在数据库对提取的文件关键字进行搜索,在搜索到对应的文件关键字的情况下,若接收到用户的下载指令,则通过与搜索到的文件关键字关联的存储地址下载对应的历史会议纪要文件以供用户查阅。但是对于信贷审批历史会议纪要等金融业务文档而言,业务文档中可能涉及用户的隐私信息,若业务文档被恶意访问,则可能造成用户的隐私信息泄露。因此,为了避免业务文档中用户隐私信息的泄漏,本申请首先对用户信息与数据库中的业务文档的业务类别进行匹配。例如,不同的用户信息具有不同业务类别的访问权限,例如,用户信息可以包括用户职位,可预先配置用户职位A的用户只能访问业务类别A的业务文档,那么,若通过对用户职位A的用户输入的关键字A进行查询,查询到的包括该关键字A的业务文档中包括业务类别A、业务类别B及业务类别C的业务文档,则,确定业务类别A的业务文档为第一目标业务文档,抛弃业务类别B及业务类别C的业务文档。
其中,步骤S300中,可以通过预设的权限匹配表获取用户信息对应的至少一个目标业务类别,权限匹配表至少包括不同用户信息对应的至少一个目标业务类别;若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档。可以理解的,每一用户信息可以配置多个可访问的业务类别,例如,预先配置的权限匹配表包括(用户信息A,业务类别A,业务类别B)、(用户信息B,业务类别A,业务类别C),表示用户信息A可访问业务类别A、业务类别B的业务文档,而用户信息B可访问业务类别A、业务类别C的业务文档。其中,用户信息可以为用户ID或用户职位等,此处对此不作限定。
在本申请的一实施方式中,若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;获取各初始业务文档在预设时段内的被访问次数;确定被访问次数高于被访问次数阈值的初始业务文档为第一目标业务文档。
在通过关键字查询到相关业务文档后,首先判断查询到的业务文档的业务类别是否与当前用户信息被允许访问的目标业务类别匹配,若匹配,则确定当前业务文档为初始业务文档。为了提高用户获取信息的效率,在确定初始业务文档后,本申请进一步获取每一初始业务文档在预设时段,如当月或当年内,该初始业务文档被访问的次数。可以理解的,各业务文档每被访问一次,则将该业务文档被访问的次数加一并存储在指定位置,例如,将被访问次数的存储位置与各业务文档的id进行关联,在获取该业务文档的被访问次数时,通过其id即可访问该业务文档的被访问次数。为了提高用户的检索精度和效率,本申请中,将被访问次数高于访问次数阈值的初始业务文档确定为第一目标业务文档。其中,访问次数阈值可以根据需求设定,例如访问次数阈值可以设置为0。访问次数高于访问次数阈值,表示该文档在预设时段内被不同用户多次访问,则可认为其被当前用户访问的概率较高,而访问次数低于访问次数阈值,则可认为该文档被当前用户访问的概率较低。因此,本申请通过对用户的访问需求进行预测,对业务文档进行自动筛选,从而能有效提高用户的查询效率。
在本申请的另一实施方式中,若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;获取在预设时段内,各初始业务文档被用户访问的被访问次数;确定被访问次数高于被访问次数阈值的初始业务文档为第一目标业务文档。其中,若初始业务文档被当前用户访问的访问次数高于访问次数阈值,表示该文档在预设时段如最近一月或最近半年内被该用户多次访问,该初始业务文档在近期被当前用户访问的频率较高,则可认为该初始业务文档在当前时刻被当前用户再次访问的概率较大;若初始业务文档被当前用户访问的访问次数低于访问次数阈值,表示该初始业务文档在近期被当前用户访问的频率较低,则可认为该初始业务文档在当前时刻被当前用户再次访问的概率较低,从而实现对用户访问需求的预测。
在本申请的另一实施方式中,当前业务文档的属性信息包括当前业务文档的创建时间;若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;获取预设时段内,被用户访问的所有业务文档的创建时间;确定获取到的所有创建时间中的最早创建时间及最晚创建时间,以最早创建时间至最晚创建时间的时间段为目标时间段;确定创建时间属于目标时间段内的初始业务文档为第一目标业务文档。
在确定初始业务文档后,本申请进一步获取预设时段如最近1月内,当前用户访问的所有业务文档的创建时间,例如,最近1月内,当前用户访问的所有业务文档分别为业务文档1、业务文档2、业务文档3、业务文档4、业务文档5,各业务文档的创建时间分别为时间1、时间2、时间3、时间4、时间5,且各创建时间按时间由早到晚依次排列为时间2、时间1、时间3、时间5、时间4,则确定目标时间段为时间2-时间4,表示当前用户在近期倾向于访问时间2-时间4的时间段内的业务文档。进一步获取各初始业务文档的创建时间,若当前初始业务文档的创建时间属于时间2-时间4,则表示当前初始业务文档被当前用户访问的概率较大,确定当前初始业务文档为第一目标业务文档。
步骤S400中,提取第一目标业务文档中与关键字匹配的目标字段,包括:
S410、依据换行符将第一目标业务文档依次划分为多个段落,确定包括关键字的段落为目标段落;例如,第一目标业务文档中的段落中若包括关键字,则确定该段落为目标段落,抛弃其余段落。可以理解的,每个段落可以用换行符进行区分。
S420、针对每个目标段落,依据分隔符将目标段落依次划分为多个语句,确定包括关键字的语句为目标语句;其中,分隔符可以为逗号、分号、顿号等。例如在目标段落“XSX,YYY”中,包括“XSX”和“YYY”两个语句,若关键字为S,则语句“XSX”为目标语句。可以理解的,关键字可以由多个字符构成。
S430、若目标语句的前一分隔符为预设分隔符,且目标语句的后一分隔符为预设分隔符,确定目标语句为目标字段。其中,预设分隔符可以为句号或分号。以预设分隔符为句号为例,在目标段落“NNN。XSX。YYY,MMM。”中,目标语句“XSX”的前一分隔符和后一分隔符均为句号,因此,可确定该语句可以表示与关键字S相关的完整语义,确定该目标语句为目标字段。
S440、若目标语句的前一分隔符不为预设分隔符,确定目标语句之前的所有分隔符中为预设分隔符,且距离目标语句最近的分隔符为起始分隔符,确定起始分隔符与目标语句的后一分隔符之间的语句为目标字段;例如,在目标段落“DDD。AAA。NNN,XSX。YYY,MMM。”中,目标语句“XSX”的前一分隔符不为句号,则判断目标语句“XSX”之前的所有分隔符中是否存在句号,若存在,以最近的句号为起始分隔符,则目标字段为“NNN,XSX”。可以理解的,若目标语句之前没有预设分隔符,则确定目标语句的后一分隔符之前的所有语句为目标字段,例如,在目标段落“DDD,AAA,NNN,XSX。YYY,MMM。”中,目标字段为“DDD,AAA,NNN,XSX”。
若目标语句的后一分隔符不为预设分隔符,确定目标语句之后的所有分隔符中为预设分隔符,且距离目标语句最近的分隔符为终止分隔符,确定终止分隔符与目标语句的前一分隔符之间的语句为目标字段。例如,在目标段落“DDD。AAA,NNN。XSX,YYY,MMM。”中,目标语句“XSX”的后一分隔符不为句号,则判断目标语句“XSX”之后的所有分隔符中是否存在句号,若存在,以最近的句号为终止分隔符,则目标字段为“XSX,YYY,MMM”。可以理解的,若目标语句之后没有预设分隔符,则确定目标语句的前一分隔符之后的所有语句为目标字段,例如,在目标段落“DDD。AAA,NNN。XSX,YYY,MMM;”中,目标字段为“XSX,YYY,MMM”。
其中,依据各目标字段在第一目标业务文档中的位置信息对各目标字段进行拼接,包括:依据各目标字段对应的目标段落在第一目标业务文档中的位置关系对各目标字段进行排序,通过与各目标段落对应的换行符对各目标字段进行拼接。例如,第一目标业务文档包括目标段落1、目标段落2及目标段落3,目标段落1包括目标字段1、目标字段2,目标段落2包括目标字段3、目标字段4,目标段落3包括目标字段5、目标字段6;目标段落1、目标段落2及目标段落3在第一目标业务文档中的排序依次为目标段落1、目标段落2及目标段落3;目标字段1、目标字段2在目标段落1中的排序依次为目标字段1、目标字段2,目标字段3、目标字段4在目标段落2中的排序依次为目标字段4、目标字段3,目标字段5、目标字段6在目标段落3中的排序依次为目标字段5、目标字段6,则,拼接后的第二目标业务文档如下:
目标字段1、目标字段2
目标字段4、目标字段3
目标字段5、目标字段6
这样,本申请通过用户输入的关键字对业务文档中的目标字段进行提取、拼接后生成新的目标业务文档,仅提取用户需求的内容进行展示而不是将目标业务文档的内容全部为用户展示,能够有效避免业务文档中的用户隐私信息的泄漏。可以理解的,上述目标字段的提取及拼接可以基于对现有的机器学习模型进行训练后实现,其训练过程为现有技术,此处对此不作赘述。
如图3所示,本申请第二方面,提供一种业务文档在线管理装置,包括:
数据获取模块,被配置为响应于用户的业务文档查询请求,获取业务文档查询请求对应的用户信息及关键字;
查询模块,被配置为从指定存储空间获取包括关键字的业务文档;
匹配模块,被配置为获取各业务文档的属性信息,在当前业务文档的属性信息与用户信息匹配的情况下,确定当前业务文档为第一目标业务文档;
文档生成模块,被配置为对于每一第一目标业务文档,提取第一目标业务文档中与关键字匹配的目标字段,依据各目标字段在第一目标业务文档中的位置信息对各目标字段进行拼接,生成第二目标业务文档,向用户展示第二目标业务文档。
本申请实施例提供的业务文档在线管理装置,可用于执行上述实施例中业务文档在线管理方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,数据获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上数据获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
本申请的第三方面,提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如上述的方法。
图4为本申请实施例提供的电子设备的结构示意图。如图4所示,该电子设备可以包括:收发器121、处理器122、存储器123。
处理器122执行存储器存储的计算机执行指令,使得处理器122执行上述实施例中的方案。处理器122可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器123通过系统总线与处理器122连接并完成相互间的通信,存储器123用于存储计算机程序指令。
收发器121可以用于获取待运行任务和待运行任务的配置信息。
系统总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory)。
本申请实施例提供的电子设备,可以是上述实施例的终端设备。
本申请的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的方法。
本申请的第五方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法。
综上,本申请基于用户输入的关键字对获取到的业务文档进行分割、拼接,生成新的业务文档并向用户展示,从而能够有效避免业务文档中的用户隐私信息的泄漏,同时无需用户手动筛除无效信息,提高了业务文档的使用效率。同时能够对散落在线下的信贷审批历史会议纪要等业务文档进行统一线上化展示、线上管理,从而信贷审批人员在线上审批过程中可通过历史信贷审批会议纪要查询界面进行查询来辅助完成信贷审批,极大提高了信贷审批效率;通过OCR技术和NLP技术实现对信贷审批历史会议纪要的批量上传,速实现文件关键字段信息和原文文件的关联存储,提高了档案管理人员的数据录入效率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (6)

1.一种业务文档在线管理方法,其特征在于,包括:
响应于用户的业务文档查询请求,获取所述业务文档查询请求对应的用户信息及关键字;
从指定存储空间获取包括所述关键字的业务文档;
获取各业务文档的属性信息,在当前业务文档的属性信息与所述用户信息匹配的情况下,确定当前业务文档为第一目标业务文档;
对于每一第一目标业务文档,提取所述第一目标业务文档中与所述关键字匹配的目标字段,依据各目标字段在所述第一目标业务文档中的位置信息对各目标字段进行拼接,生成第二目标业务文档,向所述用户展示所述第二目标业务文档;
当前业务文档的属性信息包括当前业务文档的业务类别;在当前业务文档的属性信息与所述用户信息匹配的情况下,确定当前业务文档为第一目标业务文档,包括:
通过预设的权限匹配表获取所述用户信息对应的至少一个目标业务类别,所述权限匹配表至少包括不同用户信息对应的至少一个目标业务类别;
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档;
当前业务文档的属性信息还包括当前业务文档的创建时间;若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;
获取预设时段内,被所述用户访问的所有业务文档的创建时间;
确定获取到的所有创建时间中的最早创建时间及最晚创建时间,以所述最早创建时间至所述最晚创建时间的时间段为目标时间段;
确定创建时间属于所述目标时间段内的初始业务文档为第一目标业务文档;
提取所述第一目标业务文档中与所述关键字匹配的目标字段,包括:
依据换行符将所述第一目标业务文档依次划分为多个段落,确定包括所述关键字的段落为目标段落;
针对每个目标段落,依据分隔符将所述目标段落依次划分为多个语句,确定包括所述关键字的语句为目标语句;
若所述目标语句的前一分隔符为预设分隔符,且所述目标语句的后一分隔符为所述预设分隔符,确定所述目标语句为目标字段。
2.根据权利要求1所述的业务文档在线管理方法,其特征在于,所述方法还包括:
若所述目标语句的前一分隔符不为所述预设分隔符,确定所述目标语句之前的所有分隔符中为所述预设分隔符,且距离所述目标语句最近的分隔符为起始分隔符,确定所述起始分隔符与所述目标语句的后一分隔符之间的语句为目标字段;
若所述目标语句的后一分隔符不为所述预设分隔符,确定所述目标语句之后的所有分隔符中为所述预设分隔符,且距离所述目标语句最近的分隔符为终止分隔符,确定所述终止分隔符与所述目标语句的前一分隔符之间的语句为目标字段。
3.根据权利要求2所述的业务文档在线管理方法,其特征在于,依据各目标字段在所述第一目标业务文档中的位置信息对各目标字段进行拼接,包括:
依据各目标字段对应的目标段落在所述第一目标业务文档中的位置关系对各目标字段进行排序,通过与各目标段落对应的换行符对各目标字段进行拼接。
4.一种业务文档在线管理装置,其特征在于,包括:
数据获取模块,被配置为响应于用户的业务文档查询请求,获取所述业务文档查询请求对应的用户信息及关键字;
查询模块,被配置为从指定存储空间获取包括所述关键字的业务文档;
匹配模块,被配置为获取各业务文档的属性信息,在当前业务文档的属性信息与所述用户信息匹配的情况下,确定当前业务文档为第一目标业务文档;
文档生成模块,被配置为对于每一第一目标业务文档,提取所述第一目标业务文档中与所述关键字匹配的目标字段,依据各目标字段在所述第一目标业务文档中的位置信息对各目标字段进行拼接,生成第二目标业务文档,向所述用户展示所述第二目标业务文档;
当前业务文档的属性信息包括当前业务文档的业务类别;在当前业务文档的属性信息与所述用户信息匹配的情况下,确定当前业务文档为第一目标业务文档,包括:
通过预设的权限匹配表获取所述用户信息对应的至少一个目标业务类别,所述权限匹配表至少包括不同用户信息对应的至少一个目标业务类别;
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档;
当前业务文档的属性信息还包括当前业务文档的创建时间;若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为第一目标业务文档,包括:
若当前业务文档的业务类别与获取到的至少一个目标业务类别相同,确定当前业务文档为初始业务文档;
获取预设时段内,被所述用户访问的所有业务文档的创建时间;
确定获取到的所有创建时间中的最早创建时间及最晚创建时间,以所述最早创建时间至所述最晚创建时间的时间段为目标时间段;
确定创建时间属于所述目标时间段内的初始业务文档为第一目标业务文档;
提取所述第一目标业务文档中与所述关键字匹配的目标字段,包括:
依据换行符将所述第一目标业务文档依次划分为多个段落,确定包括所述关键字的段落为目标段落;
针对每个目标段落,依据分隔符将所述目标段落依次划分为多个语句,确定包括所述关键字的语句为目标语句;
若所述目标语句的前一分隔符为预设分隔符,且所述目标语句的后一分隔符为所述预设分隔符,确定所述目标语句为目标字段。
5.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-3中任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-3中任一项所述的方法。
CN202310988220.9A 2023-08-08 2023-08-08 业务文档在线管理方法、装置、电子设备及可读存储介质 Active CN116701615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310988220.9A CN116701615B (zh) 2023-08-08 2023-08-08 业务文档在线管理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310988220.9A CN116701615B (zh) 2023-08-08 2023-08-08 业务文档在线管理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN116701615A CN116701615A (zh) 2023-09-05
CN116701615B true CN116701615B (zh) 2023-11-03

Family

ID=87826213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310988220.9A Active CN116701615B (zh) 2023-08-08 2023-08-08 业务文档在线管理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116701615B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515879A (zh) * 2016-06-16 2017-12-26 伊姆西公司 用于文档检索的方法和电子设备
CN110008740A (zh) * 2019-03-05 2019-07-12 天津字节跳动科技有限公司 一种文档访问权限的处理方法、装置、介质和电子设备
CN110413570A (zh) * 2019-06-25 2019-11-05 大唐软件技术股份有限公司 一种文档索引和检索方法及其装置
CN111782919A (zh) * 2020-06-23 2020-10-16 腾讯科技(深圳)有限公司 在线文档的处理方法、装置、计算机设备及存储介质
CN112163207A (zh) * 2020-10-30 2021-01-01 平安数字信息科技(深圳)有限公司 基于动态权限的业务数据查询方法及相关设备
CN114491618A (zh) * 2021-12-27 2022-05-13 奇安信科技集团股份有限公司 搜索引擎处理方法、搜索方法及相关装置
CN115329048A (zh) * 2022-09-05 2022-11-11 中国银行股份有限公司 一种语句检索的方法及装置、电子设备、存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430445B2 (en) * 2014-09-12 2019-10-01 Nuance Communications, Inc. Text indexing and passage retrieval
US11593409B2 (en) * 2021-02-19 2023-02-28 Glean Technologies, Inc. Permissions-aware search with intelligent activity tracking and scoring across group hierarchies
CN116089661A (zh) * 2021-11-05 2023-05-09 北京字节跳动网络技术有限公司 数据访问控制的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515879A (zh) * 2016-06-16 2017-12-26 伊姆西公司 用于文档检索的方法和电子设备
CN110008740A (zh) * 2019-03-05 2019-07-12 天津字节跳动科技有限公司 一种文档访问权限的处理方法、装置、介质和电子设备
CN110413570A (zh) * 2019-06-25 2019-11-05 大唐软件技术股份有限公司 一种文档索引和检索方法及其装置
CN111782919A (zh) * 2020-06-23 2020-10-16 腾讯科技(深圳)有限公司 在线文档的处理方法、装置、计算机设备及存储介质
CN112163207A (zh) * 2020-10-30 2021-01-01 平安数字信息科技(深圳)有限公司 基于动态权限的业务数据查询方法及相关设备
CN114491618A (zh) * 2021-12-27 2022-05-13 奇安信科技集团股份有限公司 搜索引擎处理方法、搜索方法及相关装置
CN115329048A (zh) * 2022-09-05 2022-11-11 中国银行股份有限公司 一种语句检索的方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN116701615A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US9483740B1 (en) Automated data classification
CN109492152B (zh) 推送定制内容的方法、装置、计算机设备及存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN111737443B (zh) 答案文本的处理方法和装置、关键文本的确定方法
CN112651236A (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN107748772B (zh) 一种商标识别方法及装置
CN111191153A (zh) 一种信息技术咨询服务展示装置
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
CN113987054A (zh) 大数据的数据治理全流程可视化方法、装置及存储介质
US20220058214A1 (en) Document information extraction method, storage medium and terminal
CN112559913B (zh) 一种数据处理方法、装置、计算设备及可读存储介质
CN116701615B (zh) 业务文档在线管理方法、装置、电子设备及可读存储介质
CN116303937A (zh) 回复方法、装置、电子设备及可读存储介质
CN112015762A (zh) 案件检索方法、装置、计算机设备和存储介质
CN112612817B (zh) 数据处理方法、装置、终端设备及计算机可读存储介质
CN114356330A (zh) 页面配置方法、装置、电子设备和存储介质
CN111859154B (zh) 一种应用推荐方法及装置
CN113157964A (zh) 一种语音搜索数据集的方法、装置及电子设备
CN113468886A (zh) 工单处理方法、装置及计算机设备
CN113656538A (zh) 生成正则表达式的方法、装置、计算设备及存储介质
CN113015002A (zh) 一种主播视频数据的处理方法和装置
CN112784527A (zh) 一种文档合并方法、装置及电子设备
CN112947844A (zh) 一种数据存储方法、装置、电子设备及介质
KR101105947B1 (ko) 상품모델을 자동으로 매칭시키는 상품 정보 등록 방법 및시스템
CN110704729A (zh) 应用搜索方法及云端服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant