CN116306619B - 一种公文检测方法、装置、电子设备及存储介质 - Google Patents

一种公文检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116306619B
CN116306619B CN202310553120.3A CN202310553120A CN116306619B CN 116306619 B CN116306619 B CN 116306619B CN 202310553120 A CN202310553120 A CN 202310553120A CN 116306619 B CN116306619 B CN 116306619B
Authority
CN
China
Prior art keywords
violation
sentence
segmentation
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310553120.3A
Other languages
English (en)
Other versions
CN116306619A (zh
Inventor
贾新
李海运
邵强
朱红生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuopu Fenglian Information Technology Co ltd
Original Assignee
Beijing Tuopu Fenglian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuopu Fenglian Information Technology Co ltd filed Critical Beijing Tuopu Fenglian Information Technology Co ltd
Priority to CN202310553120.3A priority Critical patent/CN116306619B/zh
Publication of CN116306619A publication Critical patent/CN116306619A/zh
Application granted granted Critical
Publication of CN116306619B publication Critical patent/CN116306619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种公文检测方法、装置、电子设备及存储介质,该方法包括:响应于针对目标公文的输入操作,对所述目标公文进行检测处理,其中,所述检测处理基于预设的违规词库;在人机交互界面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述。本申请能够自动检测公文,提高检测效率和准确性。

Description

一种公文检测方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种公文检测方法、装置、电子设备及存储介质。
背景技术
公文是机关或其他社会组织在公务活动中,具有法律效力和规范的文体。公文可以协调各种关系,决定事务使工作正确地、高效地进行。针对部门组织的公务活动中,都会产生公文,并发表公文,来完成公务活动。
目前,公文在写好后,都是由撰写人或者上级领导简单检查,或者检查部门检查,检查看公文内容是否有违反公平竞争情况,如果有,则告知撰写人具体问题,责令撰写人进行修改。但人工方式,一是人工对政策文件不熟悉,很可能漏检违规内容,而是人工效率低,且难以保证全面性。
发明内容
有鉴于此,本申请实施例提供了一种公文检测方法,能够自动检测公文,提高检测效率和准确性。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种公文检测方法,包括以下步骤:
响应于针对目标公文的输入操作,对所述目标公文进行检测处理,其中,所述检测处理基于预设的违规词库;
在人机交互界面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述。
在一种可能的实施方式中,所述违规词库通过以下方式建立:
获取目标区域的参考规则,其中,所述目标区域包括至少一个行政区域;
从所述参考规则中提取至少一个关键词组,其中,所述参考规则包括至少一个违规句,所述至少一个违规句中每个违规句对应一个关键词组;
基于所述至少一个违规句和所述至少一个违规句中每个违规句对应的关键词组,建立所述违规词库,其中,所述违规词库包括至少一个区域词库,所述至少一个区域词库中每个区域词库包括当前行政区域及以上行政区域所涉及的所述违规句和所述违规句对应的关键词组。
在一种可能的实施方式中,所述从所述参考规则中提取至少一个关键词组,包括:
基于预设的词汇比重,从所述参考规则中获取至少一个关键词;
基于预设的拼接规则,对所述至少一个关键词进行拼接处理,得到所述至少一个关键词对应的关键词组,其中,所述拼接规则包括第一连接符、第二连接符、第一分割符和并列符,所述第一连接符用于连接前后位置不变的两个关键词,所述第二连接符用于连接前后位置可变的两个关键词,所述第一分割符用于表示前后的内容无关联,所述并列符用于表示并列关系。
在一种可能的实施方式中,所述对所述目标公文进行检测处理之前,所述方法还包括:
读取所述目标公文的文本内容;
对所述文本内容进行第一分割处理,得到至少一个分割段落;
对所述至少一个分割段落中每个分割段落进行第二分割处理,得到每个分割段落对应的至少一个分割句。
在一种可能的实施方式中,所述对所述文本内容进行第一分割处理,包括:
以标签为第二分割符对所述文本内容进行分割;
若没有所述标签,以空格为第三分割符对所述文本内容进行分割;
若没有所述标签和所述空格,以序号为第四分割符对所述文本内容进行分割,其中,所述序号是连续的且从1开始;
所述对所述至少一个分割段落中每个分割段落进行第二分割处理,包括:
根据所述至少一个分割段落中每个段落的标点符号对每个段落进行第二分割处理,其中,所述标点符号包括句号和分号。
在一种可能的实施方式中,所述方法还包括:
针对所述至少一个分割句中每个分割句进行以下处理:
去除当前分割句中的异常符号、将字母转换为小/大写字母、去除书名号和括号内的内容、去除成对的标点符号以及对所述当前分割句进行分词处理。
在一种可能的实施方式中,所述对所述目标公文进行检测处理,包括:
获取所述目标公文的适用区域,其中,所述适用区域以行政区域为单位;
通过与所述适用区域相匹配的区域词库对所述目标公文进行检测处理。
在一种可能的实施方式中,所述对所述目标公文进行检测处理,包括:
基于所述违规词库,获取当前分割句与每个违规句对应的至少一个公共词组,其中,所述当前分割句为所述目标公文中的一个句子;
基于预设的分数计算规则,计算所述至少一个公共词组中得分最高的目标公共词组;
将所述目标公共词组所对应违规句的关键词组与所述目标公共词进行匹配,若匹配成功,将所述当前分割句确定为违规表述,其中,匹配规则为全匹配。
在一种可能的实施方式中,当所述目标公文存在所述违规表述时,所述方法还包括:
将所述目标公文确定为违规文件,并确定所述违规文件在所述违规词库中对应的违规项;
通过人机交互界面显示所述违规项和所述违规文件,以使用户通过所述违规项对所述违规文件进行二次检测。
在一种可能的实施方式中,所述在人机交互界面中显示检测结果,包括:
对所述违规表述进行标记处理,以及对所述违规表述添加批注,其中,所述批注包括所述违规表述的违规原因,所述违规原因基于所述违规词库获取。
第二方面,本申请实施例还提供一种公文检测方法,包括以下步骤:
响应于针对公文检测插件的上传操作,将所述公文检测插件上传至浏览器,其中,所述公文检测插件是基于预设的违规词库所创建的,所述浏览器的当前页面中包括至少一个目标公文;
响应于针对所述公文检测插件的开启操作,在当前页面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述。
本申请实施例具有以下有益效果:
通过预先构建好的违规词库对目标公文进行检测,并在人机交互界面中显示检测结果,相较于人工检测的方式提高了检测的效率和准确率,该违规词库可以建立在本地,形成系统,对大批量的公文进行检测,也可以基于该违规词库形成相应的公文检测插件,提高了使用的灵活性,相关部门只有要待发布的公文,就可以上传到系统中或是使用公文检测插件进行检测,系统或公文检测插件则自动根据预先构建好的违规词库处理文件,以进行公文的违规情况检测。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的步骤S101-S102的流程示意图;
图2是本申请实施例提供的步骤S201-S202的流程示意图;
图3是本申请实施例提供的步骤S301-S303的流程示意图;
图4是本申请实施例提供的步骤S401-S402的流程示意图;
图5是本申请实施例提供的步骤S501-S503的流程示意图;
图6是本申请实施例提供的步骤S601-S602的流程示意图;
图7是本申请实施例提供的公文检测装置的结构示意图;
图8是本申请实施例提供的电子设备的组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语是为了描述本申请实施例的目的,不是在限制本申请。
参见图1,图1是本申请实施例提供的公文检测方法步骤S101-S102的流程示意图,将结合图1示出的步骤S101-S102进行说明。
步骤S101,响应于针对目标公文的输入操作,对所述目标公文进行检测处理,其中,所述检测处理基于预设的违规词库;
步骤S102,在人机交互界面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述。
上述公文检测方法,通过预先构建好的违规词库对目标公文进行检测,并在人机交互界面中显示检测结果,相较于人工检测的方式提高了检测的效率和准确率,该违规词库可以建立在本地,形成系统,对大批量的公文进行检测,相关部门只有要待发布的公文,就可以上传到系统中进行检测,系统则自动根据预先构建好的违规词库处理文件,以进行公文的违规情况检测。
下面分别对本申请实施例的上述示例性的各步骤进行说明。
在步骤S101中,响应于针对目标公文的输入操作,对所述目标公文进行检测处理,其中,所述检测处理基于预设的违规词库。
在一些实施例中,所述违规词库通过以下方式建立:
获取目标区域的参考规则,其中,所述目标区域包括至少一个行政区域;
从所述参考规则中提取至少一个关键词组,其中,所述参考规则包括至少一个违规句,所述至少一个违规句中每个违规句对应一个关键词组;
基于所述至少一个违规句和所述至少一个违规句中每个违规句对应的关键词组,建立所述违规词库,其中,所述违规词库包括至少一个区域词库,所述至少一个区域词库中每个区域词库包括当前行政区域及以上行政区域所涉及的所述违规句和所述违规句对应的关键词组。
示例的,参考规则可以是相关政策文件,例如A市的政策文件、B省的政策文件,A市属于B省,同时,B省的政策文件对B省下的所有市生效。
以A市的政策文件为例,A市的政策文件中包括违规句“享受本地建筑企业相关优惠政策”,即违反类型为“本地企业优惠政策”,该违规句中对应的关键词组为“本地”、“企业”、“优惠政策”。
又例如,在B省的政策文件中,包括违规句“本政策适用于在某某市某某县某某区登记注册”,同样属于“本地企业优惠政策”,该违规句中对应的关键词组为“本政策适用于”“市县区”“注册”。
在一些实施例中,参见图2,图2是本申请实施例提供的步骤S201-S202的流程示意图,所述从所述参考规则中提取至少一个关键词组,可以通过步骤S201-S202实现,将结合各步骤进行说明。
在步骤S201中,基于预设的词汇比重,从所述参考规则中获取至少一个关键词。
在步骤S202中,基于预设的拼接规则,对所述至少一个关键词进行拼接处理,得到所述至少一个关键词对应的关键词组,其中,所述拼接规则包括第一连接符、第二连接符、第一分割符和并列符,所述第一连接符用于连接前后位置不变的两个关键词,所述第二连接符用于连接前后位置可变的两个关键词,所述第一分割符用于表示前后的内容无关联,所述并列符用于表示并列关系。
示例的,第一连接符为可以是*,第二连接符可以是&,第一分割符可以是|,并列符可以是(|)。A市的政策文件中“本地企业优惠政策”中“本地”、“企业”、“优惠政策”的词汇比重较大(该词汇比重为每个词的重要程度,可以根据公文的常用词提前预设),对应的,获取关键词“本地”、“企业”、“优惠政策”,由于“本地”和“企业”具有明显的先后关系,且位置不可调整,因此连接为“本地*企业”,对于“优惠政策”,和其他词汇并无前后关系,可以在任意位置,因此用&连接,最终的连接结果为“本地*企业&优惠政策”。
又如,在B省的政策文件中的违规句“本政策适用于在某某市某某县某某区登记注册”中包括关键词“本政策适用于”“市县区”“注册”,对于“本政策适用于”“市县区”“注册”无明显的前后关系,因此用&连接,对于“市县区”,具有并列关系,因此最终的连接结果为“本政策适用于&(市|县|区)&注册”。
在一些实施例中,参见图3,图3是本申请实施例提供的步骤S301-S303的流程示意图,所述对所述目标公文进行检测处理之前,还可以执行步骤S301-S303,将集合各步骤进行说明。
在步骤S301中,读取所述目标公文的文本内容。
在步骤S302中,对所述文本内容进行第一分割处理,得到至少一个分割段落。
在步骤S303中,对所述至少一个分割段落中每个分割段落进行第二分割处理,得到每个分割段落对应的至少一个分割句。
示例的,目标文件的来源可以是合作商提供、网页中爬取的数据或是公开的数据集。对于上述目标文件,先将文本内容读入内存中,首先按段落分,然后将每个段落中的每句话分割出来,得到多个分割句。
在一些实施例中,所述对所述文本内容进行第一分割处理,包括:
以标签为第二分割符对所述文本内容进行分割;
若没有所述标签,以空格为第三分割符对所述文本内容进行分割;
若没有所述标签和所述空格,以序号为第四分割符对所述文本内容进行分割,其中,所述序号是连续的且从1开始;
以网页中爬取的数据为例,不同的段落在html中通常会添加标签“<***>”,可以根据“<***>”对文本内容进行分段,若没有标签“<***>”,考虑以空格“()”进行分割,对于标签和空格都没有的情况,可以以序号进行分割,例如小标题“1、2、3…”,为了与数字进行区别,这些序号是连续的并且以1开始。
所述对所述至少一个分割段落中每个分割段落进行第二分割处理,包括:
根据所述至少一个分割段落中每个段落的标点符号对每个段落进行第二分割处理,其中,所述标点符号包括句号和分号。
这里,从段落中提取句子,提取的依据是句号(中文句号和英文句号)和分号(中文分号和英文分号),从段落中提取出至少一个分割句,便于后续处理。
在一些实施例中,所述方法还包括:
针对所述至少一个分割句中每个分割句进行以下处理:
去除当前分割句中的异常符号、将字母转换为小/大写字母、去除书名号和括号内的内容、去除成对的标点符号以及对所述当前分割句进行分词处理。
这里,爬下来的网页数据中可能会包括异常符号,并且字母大小写不统一,还可能有书名号,括号,引号(成对的标点),停用词(从停用词库中获取),去除这些内容,然后对该分割句进行分词,便于后续处理。
示例的,分割句为“完成职责范围内工作”,分词后的结果为“完成”、“职责”、“范围”、“内”、“工作”。
在步骤S102中,在人机交互界面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述。
在一些实施例中,参见图4,图4是本申请实施例提供的步骤S401-S402的流程示意图,所述对所述目标公文进行检测处理,可以通过步骤S401-S402实现,将集合各步骤进行说明。
在步骤S401中,获取所述目标公文的适用区域,其中,所述适用区域以行政区域为单位。
在步骤S402中,通过与所述适用区域相匹配的区域词库对所述目标公文进行检测处理。
这里,由于不同的行政区域都有不同的参考规则,例如B省的参考规则对C省则不适用,但是,对于B省下的A市,B省的参考规则也是适用的。因此,在对公文进行检测之前,需要先确定目标公文的适用区域,该适用区域可以从公文的内容中获取,可以以根据发布的单位确定。
示例的,目标公文是A市发布的,那么目标公文需要考虑A市的参考规则和B省的参考规则。
上述的方式,可以极大程度上削减需要进行对比的内容,从而提高检测效率。
在一些实施例中,参见图5,图5是本申请实施例提供的步骤S501-S503的流程示意图,所述对所述目标公文进行检测处理,可以通过步骤S501-S503实现,将集合各步骤进行说明。
在步骤S501中,基于所述违规词库,获取当前分割句与每个违规句对应的至少一个公共词组,其中,所述当前分割句为所述目标公文中的一个句子。
在步骤S502中,基于预设的分数计算规则,计算所述至少一个公共词组中得分最高的目标公共词组。
在步骤S503中,将所述目标公共词组所对应违规句的关键词组与所述目标公共词进行匹配,若匹配成功,将所述当前分割句确定为违规表述,其中,匹配规则为全匹配。
以分割句为“完成职责范围内工作”,分词后的结果为“完成”、“职责”、“范围”、“内”、“工作”为例,与基于A市和B省的参考规则形成的区域词库中的每一个违规表述进行对比。其中的一个违规表述可以是“履行职责范围内工作”,“完成职责范围内工作”和“履行职责范围内工作”中的公共词组为“职责”、“范围”和“工作”。
然后可以基于预设的分数计算规则对所有的公共词组计算得分。具体的:
字长为1分数是0.3;
字长2和字长3 分数是字长;
字长4分数是字长乘以1.2;
字长5分数是字长乘以1.5;
字长大于5 分数是字长乘以2。
对于公共词组为“职责”、“范围”和“工作”,由于字长为6,大于5,因此为6乘以2=12分。
若在所有的公共词组的计算结果中,公共词组“职责”、“范围”和“工作”的得分最高,则将公共词组为“职责”、“范围”和“工作”确定为目标公共词组。
确定出的目标公共词组只能确定出该分割句疑似违规,还需要与目标公共词组所对应违规句的关键词组进行匹配,若能完全匹配(词语,顺序),则确定该分割句为违规表述。
在一些实施例中,获取当前分割句与每个违规句对应的至少一个公共词组包括两种方式,一是,将分割句和违规句中的有效语句进行比较;二是,利用字符和位置关系,计算分割句中的有效语句的字符间关系,提取公共词。下面分别进行说明:
第一种,通过比较的方式,具体的,包括:
A1、针对当前分割句和每个违规句的每一有效语句,对所述有效语句进行分词处理,并去除所述有效语句的停用词,得到该有效语句的有效分词。
A2、通过将当前分割句与每个违规句中的有效语句的有效分词进行比较,从所述有效分词中选取候选公共词,并将相邻位置的候选公共词合并,将不能合并的候选公共词以及合并后新的候选公共词确定为公共词。
结合步骤A1~A2,在用分词工具对有效语句进行分词之后,在高频词中收集停用词,这些停用词包括通用的无意义停用词,如“很高、一定、等、特定”等,还包括当前领域的无意义高频词,如“大力发展”等,添加到停用词库,并去除上述停用词,得到有效语句的有效分词,然后,将当前分割句和任一违规句的两个有效语句的有效分词进行比较,提取这两个有效语句之间的候选公共词,针对提取的候选公共词,根据位置的相邻情况将相邻位置的候选公共词合并,最终将不能合并的以及合并后的候选公共词作为提取的公共词。
比如,有效语句1:大力 发展 振兴 文化;有效语句2:大力 发展 建设 文化;相应的,候选公共词为:大力 发展 文化;其中,大力和发展是相邻位置,因此,可以合并为“大力发展”,最终得到的公共词为:“大力发展”和“文化”。
第二种,利用字符和位置关系通过计算的方式,具体的,包括:
B1、当前分割句和任一违规句中分别确定一有效语句,作为第一有效语句和第二有效语句。
B2、计算所述第一有效语句中每一字符的位置以及所述第二有效语句中每一字符的位置。
B3、构建所述第一有效语句和所述第二有效语句中的每一个字的位置索引,并根据每一个字的位置索引中选择包括两个位置的公共字。
B4、针对每个公共字,将该公共字的位置索引加1向后查找是否存在另一个公共字的位置索引,若不存在,则该公共字为单个公共字;若存在,继续将另一个公共字作为当前公共字继续向后查找,直到无法查找到向下加1的组合,将这多个索引对应的公共字进行组合,得到组合公共字。
B5、将所述单个公共字和所述组合公共字确定为公共词。
结合B1~B5, 该种方式与第一种方式不同的地方是不用分词,而是直接计算公共词。具体的,利用字符和位置关系,计算字符间关系,得到连续的字符信息。
第一有效句子(简称句子1)和其中每个字符的位置如下:
利用字符和位置关系。
0 1 2 3 4 5 6 7 8
上述0~8与第一有效句子“利用字符和位置关系”一一对应。
第二有效句子(简称句子2)和其中每个字符的位置如下:
根据位置关系使用字符。
0 1 2 3 4 5 6 7 8 9
上述0~9与第二有效句子“根据位置关系使用字符”一一对应。
构建上述句子1和句子2的位置索引如下: 利【0,空】,用【1,7】, 字【2,8】,符【3,9】,和【4,空】,位【5,2】,置【6,3】,关【7,4】,系【8,5】,根【空,0】,据【空,1】,使【空,6】;去掉单个位置索引的字,也即去掉包括“空”的字和索引,保留多个位置索引的字。
针对多个位置索引的每个字,将该字的重复索引两两组合加 1向后查找是否存在,例如[5,2]+1 = [6,3](根据‘位’得到‘置’存在) ,同理依次向下计算,直到无法查找到向下加1的组合,得到组合公共字。 根据此种方式会得到重复词“位置关系”、“用字符”等连续信息,将这些连续信息作为组合公共字。
这里,需要说明的是,位【5,2】 置【6,3】 关【7,4】 系【8,5】,理论上,“位”字要执行一遍上述计算,得到“位置关系”,理论上置还要计算一遍得到“置关系”,关还要计算一遍,得到“关系”,之后在去重;这里,在计算得到“位置关系”之后,存储“位置关系”,在计算“置”的时候,查找到“置关系”就不在进行计算了;同样,针对“关”,查找到“关系”就不在进行计算了。这样,能够减少重复计算,减少了计算量,节省了处理资源,提高了效率。
该种方式,能够解决分词分错了,无法提取公共词的问题。
需要说明的是,如果对提取公共词要求高,那么可以采用上述两种方式共同提取公共词,然后,在从上述两种方式的提取结果去除不合理的公共词,得到最终公共词。
在一些实施例中,当所述目标公文存在所述违规表述时,所述方法还包括:
将所述目标公文确定为违规文件,并确定所述违规文件在所述违规词库中对应的违规项;
通过人机交互界面显示所述违规项和所述违规文件,以使用户通过所述违规项对所述违规文件进行二次检测。
这里,当目标公文存在违规表述时,那么对于该目标公文的其他语句很有可能也是违规的,但是系统并没有筛查出来,对于这种违规文件,可以筛选出来并通过人机交互界面显示,供用户进行二次检测,同时为了便于用户检测,可以同时将违规词库中对应的违规项一并显示,便于用户参照。这里的违规项,可以是对应的A市和B省包括了该违规类型的参考规则。
在一些实施例中,所述在人机交互界面中显示检测结果,包括:
对所述违规表述进行标记处理,以及对所述违规表述添加批注,其中,所述批注包括所述违规表述的违规原因,所述违规原因基于所述违规词库获取。
示例的,目标公文中的X句和Y句存在违规,可以在人机交互界面中对X句和Y句设置文本突出显示颜色并添加批注,批注的内容可以是固定的模板加上对应的违规句。例如:X句的批注内容为“该句违反了A市的XX参考规则中的‘违规句’,请进行修改”。
参见图6,图6是本申请实施例提供的步骤S601-S602的流程示意图,本申请还提供一种公文检测方法,包括步骤S601-S602,将结合具体步骤进行说明。
在步骤S601中,响应于针对公文检测插件的上传操作,将所述公文检测插件上传至浏览器,其中,所述公文检测插件是基于预设的违规词库所创建的,所述浏览器的当前页面中包括至少一个目标公文。
在步骤S602中,响应于针对所述公文检测插件的开启操作,在当前页面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述。
这里,违规词库既可以以系统的形式存在,对大批量的公文进行检测,也可以做成插件的形式,从而便于用户使用,增加使用的灵活性。
例如,用户在外出的情况下,所使用的PC中没有对公文进行检测的软件,并且需要在网页中查看某公文是否违规,此时,可以通过在浏览器中上传该公文检测插件,从而在网页中显示对应的检测结果。该插件可以存储在U盘中,在使用时,在浏览器中选择加载本地插件即可。
需要说明的是,步骤S601-S02的检测原理与本申请上述实施例所提供的公文检测方法的原理相同,此处不再赘述。
这样的方式,增加了使用的灵活性,以轻量化的插件的形式为用户侧提供检测工具。
综上所述,通过本申请实施例具有以下有益效果:
通过预先构建好的违规词库对目标公文进行检测,并在人机交互界面中显示检测结果,相较于人工检测的方式提高了检测的效率和准确率,该违规词库可以建立在本地,形成系统,对大批量的公文进行检测,也可以基于该违规词库形成相应的公文检测插件,提高了使用的灵活性,相关部门只有要待发布的公文,就可以上传到系统中或是使用公文检测插件进行检测,系统或公文检测插件则自动根据预先构建好的违规词库处理文件,以进行公文的违规情况检测。
基于同一发明构思,本申请实施例中还提供了与第一实施例中公文检测方法对应的公文检测装置,由于本申请实施例中的装置解决问题的原理与上述公文检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图7所示,图7是本申请实施例提供的公文检测装置700的结构示意图。公文检测装置700包括:
检测模块701,用于响应于针对目标公文的输入操作,对所述目标公文进行检测处理,其中,所述检测处理基于预设的违规词库;
显示模块702,用于在人机交互界面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述。
本领域技术人员应当理解,图7所示的公文检测装置700中的各单元的实现功能可参照前述公文检测方法的相关描述而理解。图7所示的公文检测装置700中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
在一种可能的实施方式中,检测模块701通过以下方法建立违规词库:
获取目标区域的参考规则,其中,所述目标区域包括至少一个行政区域;
从所述参考规则中提取至少一个关键词组,其中,所述参考规则包括至少一个违规句,所述至少一个违规句中每个违规句对应一个关键词组;
基于所述至少一个违规句和所述至少一个违规句中每个违规句对应的关键词组,建立所述违规词库,其中,所述违规词库包括至少一个区域词库,所述至少一个区域词库中每个区域词库包括当前行政区域及以上行政区域所涉及的所述违规句和所述违规句对应的关键词组。
在一种可能的实施方式中,检测模块701从所述参考规则中提取至少一个关键词组,包括:
基于预设的词汇比重,从所述参考规则中获取至少一个关键词;
基于预设的拼接规则,对所述至少一个关键词进行拼接处理,得到所述至少一个关键词对应的关键词组,其中,所述拼接规则包括第一连接符、第二连接符、第一分割符和并列符,所述第一连接符用于连接前后位置不变的两个关键词,所述第二连接符用于连接前后位置可变的两个关键词,所述第一分割符用于表示前后的内容无关联,所述并列符用于表示并列关系。
在一种可能的实施方式中,检测模块701对所述目标公文进行检测处理之前,所述方法还包括:
读取所述目标公文的文本内容;
对所述文本内容进行第一分割处理,得到至少一个分割段落;
对所述至少一个分割段落中每个分割段落进行第二分割处理,得到每个分割段落对应的至少一个分割句。
在一种可能的实施方式中,检测模块701对所述文本内容进行第一分割处理,包括:
以标签为第二分割符对所述文本内容进行分割;
若没有所述标签,以空格为第三分割符对所述文本内容进行分割;
若没有所述标签和所述空格,以序号为第四分割符对所述文本内容进行分割,其中,所述序号是连续的且从1开始;
所述对所述至少一个分割段落中每个分割段落进行第二分割处理,包括:
根据所述至少一个分割段落中每个段落的标点符号对每个段落进行第二分割处理,其中,所述标点符号包括句号和分号,所述分号包括中文分号和英文分号。
在一种可能的实施方式中,检测模块701还包括:
针对所述至少一个分割句中每个分割句进行以下处理:
去除当前分割句中的异常符号、将字母转换为小/大写字母、去除书名号和括号内的内容、去除成对的标点符号以及对所述当前分割句进行分词处理。
在一种可能的实施方式中,检测模块701对所述目标公文进行检测处理,包括:
获取所述目标公文的适用区域,其中,所述适用区域以行政区域为单位;
通过与所述适用区域相匹配的区域词库对所述目标公文进行检测处理。
在一种可能的实施方式中,检测模块701对所述目标公文进行检测处理,包括:
基于所述违规词库,获取当前分割句与每个违规句对应的至少一个公共词组,其中,所述当前分割句为所述目标公文中的一个句子;
基于预设的分数计算规则,计算所述至少一个公共词组中得分最高的目标公共词组;
将所述目标公共词组所对应违规句的关键词组与所述目标公共词进行匹配,若匹配成功,将所述当前分割句确定为违规表述,其中,匹配规则为全匹配。
在一种可能的实施方式中,显示模块702当所述目标公文存在所述违规表述时,还包括:
将所述目标公文确定为违规文件,并确定所述违规文件在所述违规词库中对应的违规项;
通过人机交互界面显示所述违规项和所述违规文件,以使用户通过所述违规项对所述违规文件进行二次检测。
在一种可能的实施方式中,显示模块702在人机交互界面中显示检测结果,包括:
对所述违规表述进行标记处理,以及对所述违规表述添加批注,其中,所述批注包括所述违规表述的违规原因,所述违规原因基于所述违规词库获取。
上述公文检测装置通过预先构建好的违规词库对目标公文进行检测,并在人机交互界面中显示检测结果,相较于人工检测的方式提高了检测的效率和准确率,该违规词库可以建立在本地,形成系统,对大批量的公文进行检测,也可以基于该违规词库形成相应的公文检测插件,提高了使用的灵活性,相关部门只有要待发布的公文,就可以上传到系统中或是使用公文检测插件进行检测,系统或公文检测插件则自动根据预先构建好的违规词库处理文件,以进行公文的违规情况检测。
如图8所示,图8为本申请实施例提供的电子设备800的组成结构示意图,所述电子设备800,包括:
处理器801、存储介质802和总线803,所述存储介质802存储有所述处理器801可执行的机器可读指令,当电子设备800运行时,所述处理器801与所述存储介质802之间通过总线803通信,所述处理器801执行所述机器可读指令,以执行本申请实施例所述的公文检测方法的步骤。
实际应用时,所述电子设备800中的各个组件通过总线803耦合在一起。可理解,总线803用于实现这些组件之间的连接通信。总线803除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线803。
上述电子设备通过预先构建好的违规词库对目标公文进行检测,并在人机交互界面中显示检测结果,相较于人工检测的方式提高了检测的效率和准确率,该违规词库可以建立在本地,形成系统,对大批量的公文进行检测,也可以基于该违规词库形成相应的公文检测插件,提高了使用的灵活性,相关部门只有要待发布的公文,就可以上传到系统中或是使用公文检测插件进行检测,系统或公文检测插件则自动根据预先构建好的违规词库处理文件,以进行公文的违规情况检测。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有可执行指令,当所述可执行指令被至少一个处理器801执行时,实现本申请实施例所述的公文检测方法。
在一些实施例中,存储介质可以是磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperTextMarkupLanguage)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
上述计算机可读存储介质通过预先构建好的违规词库对目标公文进行检测,并在人机交互界面中显示检测结果,相较于人工检测的方式提高了检测的效率和准确率,该违规词库可以建立在本地,形成系统,对大批量的公文进行检测,也可以基于该违规词库形成相应的公文检测插件,提高了使用的灵活性,相关部门只有要待发布的公文,就可以上传到系统中或是使用公文检测插件进行检测,系统或公文检测插件则自动根据预先构建好的违规词库处理文件,以进行公文的违规情况检测。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和电子设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种公文检测方法,其特征在于,包括以下步骤:
响应于针对目标公文的输入操作,对所述目标公文进行检测处理,其中,所述检测处理基于预设的违规词库;
在人机交互界面中显示检测结果,其中,所述检测结果中标示了所述目标公文的违规表述;
所述违规词库通过以下方式建立:
获取目标区域的参考规则,其中,所述目标区域包括至少一个行政区域;
从所述参考规则中提取至少一个关键词组,其中,所述参考规则包括至少一个违规句,所述至少一个违规句中每个违规句对应一个关键词组;
基于所述至少一个违规句和所述至少一个违规句中每个违规句对应的关键词组,建立所述违规词库,其中,所述违规词库包括至少一个区域词库,所述至少一个区域词库中每个区域词库包括当前行政区域及以上行政区域所涉及的所述违规句和所述违规句对应的关键词组;
所述从所述参考规则中提取至少一个关键词组,包括:
基于预设的词汇比重,从所述参考规则中获取至少一个关键词;
基于预设的拼接规则,对所述至少一个关键词进行拼接处理,得到所述至少一个关键词对应的关键词组,其中,所述拼接规则包括第一连接符、第二连接符、第一分割符和并列符,所述第一连接符用于连接前后位置不变的两个关键词,所述第二连接符用于连接前后位置可变的两个关键词,所述第一分割符用于表示前后的内容无关联,所述并列符用于表示并列关系。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标公文进行检测处理之前,所述方法还包括:
读取所述目标公文的文本内容;
对所述文本内容进行第一分割处理,得到至少一个分割段落;
对所述至少一个分割段落中每个分割段落进行第二分割处理,得到每个分割段落对应的至少一个分割句。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本内容进行第一分割处理,包括:
以标签为第二分割符对所述文本内容进行分割;
若没有所述标签,以空格为第三分割符对所述文本内容进行分割;
若没有所述标签和所述空格,以序号为第四分割符对所述文本内容进行分割,其中,所述序号是连续的且从1开始;
所述对所述至少一个分割段落中每个分割段落进行第二分割处理,包括:
根据所述至少一个分割段落中每个段落的标点符号对每个段落进行第二分割处理,其中,所述标点符号包括句号和分号。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对所述至少一个分割句中每个分割句进行以下处理:
去除当前分割句中的异常符号、将字母转换为小/大写字母、去除书名号和括号内的内容、去除成对的标点符号以及对所述当前分割句进行分词处理。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标公文进行检测处理,包括:
获取所述目标公文的适用区域,其中,所述适用区域以行政区域为单位;
通过与所述适用区域相匹配的区域词库对所述目标公文进行检测处理。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标公文进行检测处理,包括:
基于所述违规词库,获取当前分割句与每个违规句对应的至少一个公共词组,其中,所述当前分割句为所述目标公文中的一个句子;
基于预设的分数计算规则,计算所述至少一个公共词组中得分最高的目标公共词组;
将所述目标公共词组所对应违规句的关键词组与所述目标公共词进行匹配,若匹配成功,将所述当前分割句确定为违规表述,其中,匹配规则为全匹配。
7.根据权利要求1所述的方法,其特征在于,当所述目标公文存在所述违规表述时,所述方法还包括:
将所述目标公文确定为违规文件,并确定所述违规文件在所述违规词库中对应的违规项;
通过人机交互界面显示所述违规项和所述违规文件,以使用户通过所述违规项对所述违规文件进行二次检测。
8.根据权利要求1所述的方法,其特征在于,所述在人机交互界面中显示检测结果,包括:
对所述违规表述进行标记处理,以及对所述违规表述添加批注,其中,所述批注包括所述违规表述的违规原因,所述违规原因基于所述违规词库获取。
CN202310553120.3A 2023-05-17 2023-05-17 一种公文检测方法、装置、电子设备及存储介质 Active CN116306619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310553120.3A CN116306619B (zh) 2023-05-17 2023-05-17 一种公文检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310553120.3A CN116306619B (zh) 2023-05-17 2023-05-17 一种公文检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116306619A CN116306619A (zh) 2023-06-23
CN116306619B true CN116306619B (zh) 2023-08-25

Family

ID=86790940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310553120.3A Active CN116306619B (zh) 2023-05-17 2023-05-17 一种公文检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116306619B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN113704414A (zh) * 2021-09-02 2021-11-26 京东科技信息技术有限公司 一种数据处理方法、系统、存储介质及电子设备
CN114510936A (zh) * 2021-12-29 2022-05-17 深圳市网联安瑞网络科技有限公司 敏感词检测方法、装置、设备和计算机可读存储介质
KR20220083469A (ko) * 2020-12-11 2022-06-20 오두환 의료법 의료광고 단어사전에 기반한 의료법 위반 광고 체크 시스템, 의료법 위반 광고 체크 방법 및 동 방법을 컴퓨터에 의해 수행하기 위해 기록 매체에 저장된 프로그램
CN115344776A (zh) * 2022-06-20 2022-11-15 广东艾矽易信息科技有限公司 社交平台用户违规行为风控方法、装置及终端设备
CN115827903A (zh) * 2021-12-28 2023-03-21 北京蓝太平洋科技股份有限公司 媒体信息的违规检测方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
KR20220083469A (ko) * 2020-12-11 2022-06-20 오두환 의료법 의료광고 단어사전에 기반한 의료법 위반 광고 체크 시스템, 의료법 위반 광고 체크 방법 및 동 방법을 컴퓨터에 의해 수행하기 위해 기록 매체에 저장된 프로그램
CN113704414A (zh) * 2021-09-02 2021-11-26 京东科技信息技术有限公司 一种数据处理方法、系统、存储介质及电子设备
CN115827903A (zh) * 2021-12-28 2023-03-21 北京蓝太平洋科技股份有限公司 媒体信息的违规检测方法、装置、电子设备及存储介质
CN114510936A (zh) * 2021-12-29 2022-05-17 深圳市网联安瑞网络科技有限公司 敏感词检测方法、装置、设备和计算机可读存储介质
CN115344776A (zh) * 2022-06-20 2022-11-15 广东艾矽易信息科技有限公司 社交平台用户违规行为风控方法、装置及终端设备

Also Published As

Publication number Publication date
CN116306619A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN110163478B (zh) 一种合同条款的风险审查方法及装置
CN109101469B (zh) 从数字化文档提取可搜索的信息
CN102890783B (zh) 识别图像块中文字的方向的方法和装置
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
US20130218872A1 (en) Dynamic filters for data extraction plan
US11393237B1 (en) Automatic human-emulative document analysis
CA3048356A1 (en) Unstructured data parsing for structured information
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN110781669A (zh) 文本关键信息提取方法与装置、电子设备、存储介质
CN113656805A (zh) 一种面向多源漏洞信息的事件图谱自动构建方法及系统
CN102855276A (zh) 一种判定评论文本极性的方法及其应用
EP2653981A1 (en) Natural language processing device, method, and program
Owen et al. Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections.
CN109766552B (zh) 一种基于公告信息的指代消解方法及装置
Shihab et al. Badlad: A large multi-domain bengali document layout analysis dataset
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN116306621B (zh) 一种招标文本的违规检测方法、装置及电子设备
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
CN116306619B (zh) 一种公文检测方法、装置、电子设备及存储介质
Kosmajac et al. Dnlp@ fintoc’20: Table of contents detection in financial documents
WO2023038722A1 (en) Entry detection and recognition for custom forms
CN116257602B (zh) 一种基于公共词构建通用词库的方法、装置及电子设备
CN116304060B (zh) 一种基于聚类构建通用词库的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant