CN113609833A - 文件的动态生成方法、装置、计算机设备及存储介质 - Google Patents

文件的动态生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113609833A
CN113609833A CN202110925856.XA CN202110925856A CN113609833A CN 113609833 A CN113609833 A CN 113609833A CN 202110925856 A CN202110925856 A CN 202110925856A CN 113609833 A CN113609833 A CN 113609833A
Authority
CN
China
Prior art keywords
vacancy
file
data
category
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110925856.XA
Other languages
English (en)
Other versions
CN113609833B (zh
Inventor
廖俊瑶
董垒
黎有耕
杨坚
李书君
孙朝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Original Assignee
Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Pingan Zhihui Enterprise Information Management Co ltd filed Critical Shenzhen Pingan Zhihui Enterprise Information Management Co ltd
Priority to CN202110925856.XA priority Critical patent/CN113609833B/zh
Publication of CN113609833A publication Critical patent/CN113609833A/zh
Application granted granted Critical
Publication of CN113609833B publication Critical patent/CN113609833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于大数据领域,应用于智慧政务领域中,涉及一种文件的动态生成方法,包括接收区块数据,筛选区块数据,获得待组装区块,并组装待组装区块,获得文件模板;基于自然语言处理技术对文件模板的上下文进行分析,确定文件模板中的每个空缺处所需信息的类别,获得多个空缺类别,基于空缺类别生成分别对应每个空缺处的类别结果集;分别基于类别结果集从数据库中检索数据,分别获得每个空缺处的目标数据,数据库中的数据携带有分类标签;将目标数据填充至文件模板中对应的空缺处,获得目标文件。本申请还提供一种文件的动态生成装置、计算机设备及存储介质。其中,目标文件可存储于区块链中。本申请实现文件的动态生成,减少人员参与。

Description

文件的动态生成方法、装置、计算机设备及存储介质
技术领域
本申请涉及大数据技术领域,尤其涉及文件的动态生成方法、装置、计算机设备及存储介质。
背景技术
目前,合同或者协议等比较正式的文件的起草、生成和处理都是一个比较繁琐的过程,在传统的信息系统中,需要先定好模板,将需要填充信息的地方空缺出来,可以是人工手动填入信息,也可以是从系统自动获取,因为文件结构和需要填充的信息空缺是已知的,所以获取数据的源是已知的。
但是,配置一个文件模板后还需要将空缺字段与系统中的数据源字段进行绑定,进而让系统能够对信息进行自动填充。在这种情境下,由于需要配置模板的人懂得专业的计算机知识来给模板绑定数据源,或者需要跨部门合作,配置文件模板成为了一个比较专业化且繁琐的工作,需要大量人员参与,效率较低。并且这种模板是预先定义的固定形式的非动态的模板,如果需要进行个性化定制,则需要改动模板文本和背后绑定的数据源,繁琐且不够灵活。
发明内容
本申请实施例的目的在于提出一种文件的动态生成方法、装置、计算机设备及存储介质,实现文件的动态生成,减少人员参与。
为了解决上述技术问题,本申请实施例提供一种文件的动态生成方法,采用了如下所述的技术方案:
一种文件的动态生成方法,包括下述步骤:
接收区块数据,筛选所述区块数据,获得待组装区块,并组装所述待组装区块,获得文件模板;
基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值,并基于所述空缺类别生成分别对应每个空缺处的类别结果集,其中,所述空缺类别和所述分值为一一对应的关联关系;
分别基于所述类别结果集从数据库中检索数据,获得中间数据,并基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据;
将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件。
进一步的,所述基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值的步骤包括:
分别对所述文件模板中的每个空缺处的上下文进行分词操作,获得词组;
将所述词组与预设的词语库中携带有意图标签的词语进行比较;
在所述词组与所述词语相同时,将所述词语携带的意图标签赋予给所述词组,作为所述词组的词组标签;
确定与所述空缺处距离小于阈值距离的词组所对应的词组标签,作为所述空缺处的空缺类别,距离作为所述空缺类别的分值。
进一步的,所述分别基于所述类别结果集从数据库中检索数据,获得中间数据的步骤包括:
分别确定每个空缺处的类别结果集中的空缺类别,与所述数据库中的分类标签是否一致;
在所述空缺类别与所述分类标签一致时,将所述分类标签所关联的数据作为对应空缺处的中间数据。
进一步的,所述分别确定每个空缺处的类别结果集中的空缺类别,与所述数据库中的分类标签是否一致的步骤包括:
将所述空缺类别和所述分类标签分别转换为空缺类别向量和分类标签向量;
计算所述空缺类别向量和所述分类标签向量之间的余弦相似度,获得向量相似度;
确定所述向量相似度是否小于相似度阈值,在所述向量相似度大于所述相似度阈值时,确定所述空缺类别与所述分类标签不一致;
在所述向量相似度小于或等于所述相似度阈值时,确定所述空缺类别与所述分类标签一致。
进一步的,所述基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据的步骤包括:
分别将每个空缺处的空缺类别的分值赋予对应的中间数据,分别将每个空缺处的分值最高的中间数据作为准确结果,剩余的中间数据作为候选结果,将所述准确结果和所述候选结果展示在前端页面中,以供用户选择;
在检测到用户选择所述准确结果时,将所述准确结果作为当前空缺处的目标数据;
在检测到用户选择任一所述候选结果时,将用户选择的候选结果作为当前空缺处的目标数据,并向预先配置的人员发送算法调整提醒。
进一步的,所述基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据的步骤包括:
分别将每个空缺处的分值最高的空缺类别所对应的中间数据,作为当前空缺处的目标数据。
进一步的,在所述将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件的步骤之后,还包括:
当识别到用户输入对象名称时,获取所述对象名称,并根据所述对象名称查找数据库中存储的对象信息;
识别所述对象信息中的个人健康信息;
在所述个人健康信息中包括视力障碍时,根据所述视力障碍中的视力度数,根据所述视力度数调整所述目标文件中的文字大小,或者基于音频转换技术将所述目标文件中的文字转化为音频数据并播放;
在所述个人健康信息中的民族为少数民族时,基于所述少数民族,将所述目标文件中的文字转化为对应的民族文字。
为了解决上述技术问题,本申请实施例还提供一种文件的动态生成装置,采用了如下所述的技术方案:
一种文件的动态生成装置,包括:
选择模块,用于接收区块数据,筛选所述区块数据,获得待组装区块,并组装所述待组装区块,获得文件模板;
分析模块,用于基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值,并基于所述空缺类别生成分别对应每个空缺处的类别结果集,其中,所述空缺类别和所述分值为一一对应的关联关系;
检索模块,用于分别基于所述类别结果集从数据库中检索数据,获得中间数据,并基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据;
填充模块,用于将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的文件的动态生成方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的文件的动态生成方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
通过组装的区块的不同,从而可以实现获得灵活的动态的文件模板。通过自然语言处理技术对文件模板的上下文进行分析,能够有效的确定空缺处的类别,进而便于在数据库中检索到目标数据,填入空缺处,获得完整的目标文件,无需额外配置每个空缺处的数据源字段,更加无需手工填写,实现目标文件的动态生成,减少了人工操作,目标文件的生成更加的自动化。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的文件的动态生成方法的一个实施例的流程图;
图3是根据本申请的文件的动态生成装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:200、计算机设备;201、存储器;202、处理器;203、网络接口;300、文件的动态生成装置;301、选择模块;302、分析模块;303、检索模块;304、填充模块。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的文件的动态生成方法一般由服务器/终端设备执行,相应地,文件的动态生成装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的文件的动态生成方法的一个实施例的流程图。所述的文件的动态生成方法,包括以下步骤:
S1:接收区块数据,筛选所述区块数据,获得待组装区块,并组装所述待组装区块,获得文件模板。
在本实施例中,对于所述区块数据的筛选过程为:本申请通过获取当前登录的用户的用户名称,根据用户名称调取日志,从日志中确定出该用户使用频率大于频率阈值的历史区块数据,作为用户区块;对比接收到的每个区块数据与每个用户区块是否相同,在区块数据与用户区块相同时,将该区块数据作为待组装区块,最终获得至少一个待组装区块。在所有的区块数据与所有的用户区块均不相同时,获取所述区块数据携带的权重值,基于权重值对所述区块数据进行降序排序,获得区块数据列表,将所述区块数据列表中前n个区块数据作为待组装区块,其中,n为预设的待组装区块的数量。通过组装所述待组装区块,获得文件模板,而非是预先固定的完整固定的模板,实现文件模板的灵活、动态生成。文件模板可以是合同模板,也可以是协议模板。其中,区块数据的筛选,可以是将区块数据展示在前端页面中,用户根据需要对区块数据进行选择,选择需要填写信息的区块数据,如需要填写职业信息,教育信息等。文件模板的组成过程可以是手动在前端页面中的界面拖动排序,也可以根据信息区块的展示优先级默认排序生成文件模板,其中,每个小区块都有一个优先级数值。
在本实施例中,文件的动态生成方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收区块数据。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
S2:基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值,并基于所述空缺类别生成分别对应每个空缺处的类别结果集,其中,所述空缺类别和所述分值为一一对应的关联关系。
在本实施例中,通过自然语言处理(NLP)技术对文件模板的上下文进行分析,分析出空缺之处可能需要填写的信息是什么类别,并且将分析结果中的空缺组成一个结果集。其中,如果文件是针对某个特定的人的,那么上下文分析之后,计算机最终能够将该人的个人信息的类别作为空缺类别加入类别结果集。如果文件是针对某个特定的公司的,那么上下文分析之后,计算机就能够将该公司的通用信息,例如公司名称、地址等作为空缺类别加入类别结果集。
具体的,在步骤S2中,即所述基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值的步骤包括:
分别对所述文件模板中的每个空缺处的上下文进行分词操作,获得词组;
将所述词组与预设的词语库中携带有意图标签的词语进行比较;
在所述词组与所述词语相同时,将所述词语携带的意图标签赋予给所述词组,作为所述词组的词组标签;
确定与所述空缺处距离小于阈值距离的词组所对应的词组标签,作为所述空缺处的空缺类别,距离作为所述空缺类别的分值。
在本实施例中,通过NLP技术中的意图识别技术对文件模板的上下文进行分析,本申请的分析的过程利用了分词,然后与预设中的携带意图标签的词语匹配进行分析,分析出空缺之处可能需要填写的信息是什么类别,并且将分析结果中的空缺类别组成一个类别结果集,结果集包含空缺处想要的信息类型。其中,对于获得的空缺类别,将空缺类别所对应的词组与空缺处的距离作为该空缺类别的分值。距离具体指该词组与该空缺处之间相隔字符的数量的倒数,在该词组与该空缺处之间相隔字符的数量为0时,距离为1。则距离越近,分值越高。
S3:分别基于所述类别结果集从数据库中检索数据,获得中间数据,并基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据。
在本实施例中,本申请的系统后台拥有一个存储了海量信息的大数据系统,系统中已经给数据源中的数据进行了分类,计算机通过模板字段匹配系统能够从大数据系统中根据分析出来的类别结果集(即空缺需要的信息类别),进而在大数据系统中检索需要的数据信息,返回给模板系统,并自动在文件模板中进行填充,最终获得目标文件。
具体的,在步骤S3中,即所述分别基于所述类别结果集从数据库中检索数据,获得中间数据的步骤包括:
分别确定每个空缺处的类别结果集中的空缺类别,与所述数据库中的分类标签是否一致;
在所述空缺类别与所述分类标签一致时,将所述分类标签所关联的数据作为对应空缺处的中间数据。
在本实施例中,将空缺类别与分类标签进行匹配,字段相同的空缺类别和分类标签,则判断为匹配一致,将该分类标签所对应的数据,作为当前空缺处的中间数据,通过初步对数据进行筛选,便于后续的进一步处理,最终实现获得更加精准的目标数据。
进一步的,所述分别确定每个空缺处的类别结果集中的空缺类别,与所述数据库中的分类标签是否一致的步骤包括:
将所述空缺类别和所述分类标签分别转换为空缺类别向量和分类标签向量;
计算所述空缺类别向量和所述分类标签向量之间的余弦相似度,获得向量相似度;
确定所述向量相似度是否小于相似度阈值,在所述向量相似度大于所述相似度阈值时,确定所述空缺类别与所述分类标签不一致;
在所述向量相似度小于或等于所述相似度阈值时,确定所述空缺类别与所述分类标签一致。
在本实施例中,获取预先存储的向量映射表,基于该向量映射表将所述空缺类别和所述分类标签分别转换为空缺类别向量和分类标签向量。通过转换后的空缺类别向量和分类标签向量能够更加快速方便的计算出空缺类别和分类标签之间的相似程度,即向量相似度。进而根据向量相似度快速确定空缺类别与分类标签是否一致。
此外,在步骤S3中,即所述基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据的步骤包括:
分别将每个空缺处的空缺类别的分值赋予对应的中间数据,分别将每个空缺处的分值最高的中间数据作为准确结果,剩余的中间数据作为候选结果,将所述准确结果和所述候选结果展示在前端页面中,以供用户选择;
在检测到用户选择所述准确结果时,将所述准确结果作为当前空缺处的目标数据;
在检测到用户选择任一所述候选结果时,将用户选择的候选结果作为当前空缺处的目标数据,并向预先配置的人员发送算法调整提醒。
在本实施例中,由于分析及结果可能并不完全100%准确,模板系统收到的返回包括将会自动填充的最准确结果和候选结果,分析出来分值最高的为将要填充的信息,其他为候选,或者附带返回候选结果供填写信息的人进行候选,候选结果有多个,同样来自数据源,根据分值排序返回,如果填写信息的人选择了与预期结果不同的结果,那么系统会通过学习来改进算法,并且在日积月累的学习中进一步提高分析结果的准确度。
作为本申请的另一实施例,在步骤S3中,即所述基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据的步骤包括:
分别将每个空缺处的分值最高的空缺类别所对应的中间数据,作为当前空缺处的目标数据。
在本实施例中,空缺处会排序出多个类别,直接将最高值作为最准确的空缺类别,最准确的空缺类别对应的中间数据作为目标数据,实现快速获得目标数据。
S4:将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件。
在本实施例中,将所述目标数据填充至所述文件模板中的空缺处,即获得目标文件,生成文件后,计算机的自然语言处理系统会进一步对全文进行语义分析和语法检查,如果检查不通过会提示人工处理,人工处理后系统和开发人员会通过训练来改进NLP算法的模型以及调整参数来进一步提高分析结果的准确度。
在本实施例的一些可选的实现方式中,在步骤S4,即在所述将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件的步骤之后,上述电子设备还可以执行以下步骤:
当识别到用户输入对象名称时,获取所述对象名称,并根据所述对象名称查找数据库中存储的对象信息;
识别所述对象信息中的个人健康信息;
在所述个人健康信息中包括视力障碍时,根据所述视力障碍中的视力度数,根据所述视力度数调整所述目标文件中的文字大小,或者基于音频转换技术将所述目标文件中的文字转化为音频数据并播放;
在所述个人健康信息中的民族为少数民族时,基于所述少数民族,将所述目标文件中的文字转化为对应的民族文字。
在本实施例中,音频转换技术为TTS(Text-To-Speech,语音合成)技术,能够将文字转换为语音。本申请同时针对个人进行一些个性化的服务,如果数据库中存储了个人的健康信息,那么会从存储的个人健康信息中获取视力等辅助信息,例如个人如果是视力障碍人群,那么生成的最终文件会对应调整字体大小,或者生成文件的对应语音版本供人播放。还可以根据个人的民族信息生成对应的语言版本的文件。
本申请能够使办公更加的智能化并且高效,可以减少因为人为失误带来的未知的损失。能减轻撰写、审阅相关文件的人力成本,并且可以提升此类工作的体验,将繁琐而且重复的事务交由机器自动处理,将人力转移到其它具有更高价值的岗位和事务上去,提高公司或机构的整体运转效率,为企业机构减少相关的成本。使得文件的处理更加灵活化、规范化,可以与此同时训练针对此场景的人工智能模型逐步提升计算机的智能化程度。
通过组装的区块的不同,从而可以实现获得灵活的动态的文件模板。通过自然语言处理技术对文件模板的上下文进行分析,能够有效的确定空缺处的类别,进而便于在数据库中检索到目标数据,填入空缺处,获得完整的目标文件,无需额外配置每个空缺处的数据源字段,更加无需手工填写,实现目标文件的动态生成,减少了人工操作,目标文件的生成更加的自动化。
需要强调的是,为进一步保证上述目标文件的私密和安全性,上述目标文件还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可应用于智慧政务领域中,从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种文件的动态生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的文件的动态生成装置300包括:选择模块301、分析模块302、检索模块303以及填充模块304。其中:选择模块301,用于接收区块数据,筛选所述区块数据,获得待组装区块,并组装所述待组装区块,获得文件模板;分析模块302,用于基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值,并基于所述空缺类别生成分别对应每个空缺处的类别结果集,其中,所述空缺类别和所述分值为一一对应的关联关系;检索模块303,用于分别基于所述类别结果集从数据库中检索数据,获得中间数据,并基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据;填充模块304,用于将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件。
在本实施例中,通过组装的区块的不同,从而可以实现获得灵活的动态的文件模板。通过自然语言处理技术对文件模板的上下文进行分析,能够有效的确定空缺处的类别,进而便于在数据库中检索到目标数据,填入空缺处,获得完整的目标文件,无需额外配置每个空缺处的数据源字段,更加无需手工填写,实现目标文件的动态生成,减少了人工操作,目标文件的生成更加的自动化。
分析模块302包括分词子模块、比较子模块、赋予子模块和第一确定子模块。其中,分词子模块用于分别对所述文件模板中的每个空缺处的上下文进行分词操作,获得词组;比较子模块用于将所述词组与预设的词语库中携带有意图标签的词语进行比较;赋予子模块用于在所述词组与所述词语相同时,将所述词语携带的意图标签赋予给所述词组,作为所述词组的词组标签;第一确定子模块用于确定与所述空缺处距离小于阈值距离的词组所对应的词组标签,作为所述空缺处的空缺类别,距离作为所述空缺类别的分值。
检索模块303包括第二确定子模块和获得子模块。其中,第二确定子模块用于分别确定每个空缺处的类别结果集中的空缺类别,与所述数据库中的分类标签是否一致;获得子模块用于在所述空缺类别与所述分类标签一致时,将所述分类标签所关联的数据作为对应空缺处的中间数据。
第二确定子模块包括转换单元、计算单元、第一确定单元和第二确定单元。其中,转换单元用于将所述空缺类别和所述分类标签分别转换为空缺类别向量和分类标签向量;计算单元用于计算所述空缺类别向量和所述分类标签向量之间的余弦相似度,获得向量相似度;第一确定单元用于确定所述向量相似度是否小于相似度阈值,在所述向量相似度大于所述相似度阈值时,确定所述空缺类别与所述分类标签不一致;第二确定单元用于在所述向量相似度小于或等于所述相似度阈值时,确定所述空缺类别与所述分类标签一致。
检索模块303还包括展示子模块、检测子模块和发送子模块,其中,展示子模块用于分别将每个空缺处的空缺类别的分值赋予对应的中间数据,分别将每个空缺处的分值最高的中间数据作为准确结果,剩余的中间数据作为候选结果,将所述准确结果和所述候选结果展示在前端页面中,以供用户选择;检测子模块用于在检测到用户选择所述准确结果时,将所述准确结果作为当前空缺处的目标数据;发送子模块用于在检测到用户选择任一所述候选结果时,将用户选择的候选结果作为当前空缺处的目标数据,并向预先配置的人员发送算法调整提醒。
在本实施例的一些可选的实现方式中,上述检索模块303进一步用于:分别将每个空缺处的分值最高的空缺类别所对应的中间数据,作为当前空缺处的目标数据。
在本实施例的一些可选的实现方式中,上述装置300还包括:获取模块、识别模块、调整模块和转化模块,其中,获取模块用于当识别到用户输入对象名称时,获取所述对象名称,并根据所述对象名称查找数据库中存储的对象信息;识别模块用于识别所述对象信息中的个人健康信息;调整模块用于在所述个人健康信息中包括视力障碍时,根据所述视力障碍中的视力度数,根据所述视力度数调整所述目标文件中的文字大小,或者基于音频转换技术将所述目标文件中的文字转化为音频数据并播放;转化模块用于在所述个人健康信息中的民族为少数民族时,基于所述少数民族,将所述目标文件中的文字转化为对应的民族文字。
通过组装的区块的不同,从而可以实现获得灵活的动态的文件模板。通过自然语言处理技术对文件模板的上下文进行分析,能够有效的确定空缺处的类别,进而便于在数据库中检索到目标数据,填入空缺处,获得完整的目标文件,无需额外配置每个空缺处的数据源字段,更加无需手工填写,实现目标文件的动态生成,减少了人工操作,目标文件的生成更加的自动化。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如文件的动态生成方法的计算机可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述文件的动态生成方法的计算机可读指令。
所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
在本实施例中,本申请实现了目标文件的动态生成,减少了人工操作,目标文件的生成更加的自动化。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文件的动态生成方法的步骤。
在本实施例中,本申请实现了目标文件的动态生成,减少了人工操作,目标文件的生成更加的自动化。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种文件的动态生成方法,其特征在于,包括下述步骤:
接收区块数据,筛选所述区块数据,获得待组装区块,并组装所述待组装区块,获得文件模板;
基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值,并基于所述空缺类别生成分别对应每个空缺处的类别结果集,其中,所述空缺类别和所述分值为一一对应的关联关系;
分别基于所述类别结果集从数据库中检索数据,获得中间数据,并基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据;
将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件。
2.根据权利要求1所述的文件的动态生成方法,其特征在于,所述基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值的步骤包括:
分别对所述文件模板中的每个空缺处的上下文进行分词操作,获得词组;
将所述词组与预设的词语库中携带有意图标签的词语进行比较;
在所述词组与所述词语相同时,将所述词语携带的意图标签赋予给所述词组,作为所述词组的词组标签;
确定与所述空缺处距离小于阈值距离的词组所对应的词组标签,作为所述空缺处的空缺类别,距离作为所述空缺类别的分值。
3.根据权利要求1所述的文件的动态生成方法,其特征在于,所述分别基于所述类别结果集从数据库中检索数据,获得中间数据的步骤包括:
分别确定每个空缺处的类别结果集中的空缺类别,与所述数据库中的分类标签是否一致;
在所述空缺类别与所述分类标签一致时,将所述分类标签所关联的数据作为对应空缺处的中间数据。
4.根据权利要求3所述的文件的动态生成方法,其特征在于,所述分别确定每个空缺处的类别结果集中的空缺类别,与所述数据库中的分类标签是否一致的步骤包括:
将所述空缺类别和所述分类标签分别转换为空缺类别向量和分类标签向量;
计算所述空缺类别向量和所述分类标签向量之间的余弦相似度,获得向量相似度;
确定所述向量相似度是否小于相似度阈值,在所述向量相似度大于所述相似度阈值时,确定所述空缺类别与所述分类标签不一致;
在所述向量相似度小于或等于所述相似度阈值时,确定所述空缺类别与所述分类标签一致。
5.根据权利要求1所述的文件的动态生成方法,其特征在于,所述基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据的步骤包括:
分别将每个空缺处的空缺类别的分值赋予对应的中间数据,分别将每个空缺处的分值最高的中间数据作为准确结果,剩余的中间数据作为候选结果,将所述准确结果和所述候选结果展示在前端页面中,以供用户选择;
在检测到用户选择所述准确结果时,将所述准确结果作为当前空缺处的目标数据;
在检测到用户选择任一所述候选结果时,将用户选择的候选结果作为当前空缺处的目标数据,并向预先配置的人员发送算法调整提醒。
6.根据权利要求1所述的文件的动态生成方法,其特征在于,所述基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据的步骤包括:
分别将每个空缺处的分值最高的空缺类别所对应的中间数据,作为当前空缺处的目标数据。
7.根据权利要求1所述的文件的动态生成方法,其特征在于,在所述将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件的步骤之后,还包括:
当识别到用户输入对象名称时,获取所述对象名称,并根据所述对象名称查找数据库中存储的对象信息;
识别所述对象信息中的个人健康信息;
在所述个人健康信息中包括视力障碍时,根据所述视力障碍中的视力度数,根据所述视力度数调整所述目标文件中的文字大小,或者基于音频转换技术将所述目标文件中的文字转化为音频数据并播放;
在所述个人健康信息中的民族为少数民族时,基于所述少数民族,将所述目标文件中的文字转化为对应的民族文字。
8.一种文件的动态生成装置,其特征在于,包括:
选择模块,用于接收区块数据,筛选所述区块数据,获得待组装区块,并组装所述待组装区块,获得文件模板;
分析模块,用于基于自然语言处理技术对所述文件模板的上下文进行分析,获得所述文件模板中的每个空缺处所对应的多个空缺类别和分值,并基于所述空缺类别生成分别对应每个空缺处的类别结果集,其中,所述空缺类别和所述分值为一一对应的关联关系;
检索模块,用于分别基于所述类别结果集从数据库中检索数据,获得中间数据,并基于所述分值筛选所述中间数据,分别获得每个空缺处的目标数据;
填充模块,用于将所述目标数据填充至所述文件模板中对应的空缺处,获得目标文件。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的文件的动态生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文件的动态生成方法的步骤。
CN202110925856.XA 2021-08-12 2021-08-12 文件的动态生成方法、装置、计算机设备及存储介质 Active CN113609833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110925856.XA CN113609833B (zh) 2021-08-12 2021-08-12 文件的动态生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110925856.XA CN113609833B (zh) 2021-08-12 2021-08-12 文件的动态生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113609833A true CN113609833A (zh) 2021-11-05
CN113609833B CN113609833B (zh) 2023-08-11

Family

ID=78308362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110925856.XA Active CN113609833B (zh) 2021-08-12 2021-08-12 文件的动态生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113609833B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094304A (zh) * 2023-10-18 2023-11-21 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US20200110795A1 (en) * 2018-10-05 2020-04-09 Adobe Inc. Facilitating auto-completion of electronic forms with hierarchical entity data models
US20210124748A1 (en) * 2019-10-23 2021-04-29 Cognizant Technology Solutions India Pvt. Ltd. System and a method for resource data classification and management
US20210158296A1 (en) * 2019-11-26 2021-05-27 Randstad N.V. System and method for job profile matching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US20200110795A1 (en) * 2018-10-05 2020-04-09 Adobe Inc. Facilitating auto-completion of electronic forms with hierarchical entity data models
US20210124748A1 (en) * 2019-10-23 2021-04-29 Cognizant Technology Solutions India Pvt. Ltd. System and a method for resource data classification and management
US20210158296A1 (en) * 2019-11-26 2021-05-27 Randstad N.V. System and method for job profile matching

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094304A (zh) * 2023-10-18 2023-11-21 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和系统
CN117094304B (zh) * 2023-10-18 2024-01-23 湖北华中电力科技开发有限责任公司 一种应用于电网领域技术标准制修订的提示方法和系统

Also Published As

Publication number Publication date
CN113609833B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN108268450B (zh) 用于生成信息的方法和装置
CN112085087B (zh) 业务规则生成的方法、装置、计算机设备及存储介质
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111695338A (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN113609833B (zh) 文件的动态生成方法、装置、计算机设备及存储介质
US11373057B2 (en) Artificial intelligence driven image retrieval
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN113536788B (zh) 信息处理方法、装置、存储介质及设备
CN116166858A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN117076775A (zh) 资讯数据的处理方法、装置、计算机设备及存储介质
CN116627416A (zh) 页面配置方法、装置、计算机设备及存储介质
CN117131093A (zh) 基于人工智能的业务数据处理方法、装置、设备及介质
CN115826973A (zh) 列表页面的生成方法、装置、计算机设备及存储介质
CN116720692A (zh) 客服派工方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant