CN114676245A - 上位政策提取方法、装置及电子设备 - Google Patents
上位政策提取方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114676245A CN114676245A CN202011553813.5A CN202011553813A CN114676245A CN 114676245 A CN114676245 A CN 114676245A CN 202011553813 A CN202011553813 A CN 202011553813A CN 114676245 A CN114676245 A CN 114676245A
- Authority
- CN
- China
- Prior art keywords
- policy
- text
- keyword
- paragraph
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000014509 gene expression Effects 0.000 claims abstract description 29
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种上位政策提取方法、装置及电子设备,其中,方法包括:获取政策文本;识别所述政策文本中的文本结构标识,所述文本结构标识包括文本结构序号标识和/或文本段落标识;识别所述政策文本中的第一关键词,所述第一关键词用于指示所述第一关键词所在段落或相邻段落的内容实体;基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本;利用正则表达式在所述关键文本中提取上位政策,可以获得政策文件后,利用政策文件的文本结构以及上位政策内容的正则表达式提取上位政策内容,自动确定政策文本中的上位政策,提高了上位政策的提取效率,进而提高了政策文件的解读效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种上位政策提取方法、装置及电子设备。
背景技术
现有技术下往往通过人工从政府网站下载相关政策文件,然后通过人工读取政策文件来确定政策文件中的上位政策。
人工读取政策文件来提取上位政策的方法费事费力,效率较低。
发明内容
为了解决上述如何提高上位政策提取效率的技术问题,本申请提供了一种上位政策提取方法、装置及电子设备。
根据第一方面,本发明实施例提供了一种上位政策提取方法,包括:获取政策文本;识别所述政策文本中的文本结构标识,所述文本结构标识包括文本结构序号标识和/或文本段落标识;识别所述政策文本中的第一关键词,所述第一关键词用于指示所述第一关键词所在段落或相邻段落的内容实体;基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本;利用正则表达式在所述关键文本中提取上位政策。
可选地,基于所述文本结构标识和所述第一关键字在所述政策文本中定位关键文本包括:基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键段落;在所述关键段落中查找所述第二关键词,所述第二关键词用于表征所述政策文件制定依据的关键词和/或关键词组合;基于所述第二关键词定位所述关键文本。
可选地,基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键段落包括:基于所述第一关键字剔除第一段落集合,得到第二段落集合;所述第一关键字用于表征在第一段落集合内存在所述目标政策的概率值小于预设值;基于所述文本结构序号标识在所述第二段落集合中确定所述关键段落。
可选地,所述基于所述第二关键词定位所述关键文本包括:当所述第二关键词包括第一预设关键词,且所述第二关键词的位置信息为段落结尾时,提取所述第一关键词所在的段落的下一段落作为所述关键文本;当所述第二关键词包括第二预设关键词和第三预设关键词时,提取所述第二预设关键词和所述第三预设关键词之间的文本作为关键文本,其中,所述第二预设关键词和所述第三预设关键词为预设关键词组合。
可选地,所述利用所述正则表达式对所述关键文本中的上位政策进行匹配,提取所述上位政策包括:利用所述正则表达式对所述关键文本中的上位政策进行匹配,得到多个候选上位政策;识别所述候选上位政策对应的行政级别;将所述行政级别最高的至少一个候选上位政策作为所述上位政策。
可选地,所述利用正则表达式在所述关键文本中提取所述上位政策包括:判断提取到的上位政策是否为上位政策简称;当提取到的上位政策为上位政策简称时,利用所述第一正则表达式对所述上位政策简称之前的文本中提取上位政策全称。
可选地,所述判断提取到的上位政策是否为上位政策简称包括:获取提取到的上位政策的字符数;当所述字符数小于预设值时,检测所述提取到的上位政策之前是否存在简称特征信息,所述简称特征信息用于表征提取到的上位政策为上位政策简称;当存在所述简称特征信息时,确定提取到的上位政策为上位政策简称。
根据第二方面,本发明实施例提供了一种上位政策提取装置,包括:获取模块,用于获取政策文本;第一识别模块,用于识别所述政策文本中的文本结构标识,所述文本结构标识包括文本结构序号标识和/或文本段落标识;第二识别模块,用于识别所述政策文本中的第一关键词;定位模块,用于基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本;提取模块,用于利用正则表达式在所述关键文本中提取上位政策。
根据第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任一项所述上位政策提取方法。
根据第四方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任一项所述的上位政策提取方法。
本申请中,通过在政策文本中识别可以表征记载上位政策文本结构标识以及识别所述政策文本中的第一关键词,所述第一关键词用于指示所述第一关键词所在段落或相邻段落的内容实体,基于文本结构标识和所述第一关键词上位政策可能出现的关键文本,并在关键文本中利用正则表达式提取上位政策提取上位政策的内容,可以获得政策文件后,利用政策文件的文本结构以及用于指示段落或相邻段落的内容实体关机键子定位关键文本,并基于正则表达式在关键文本中提取上位政策内容,自动确定政策文本中的上位政策,提高了上位政策的提取效率,进而提高了政策文件的解读效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的上位政策提取方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的上位政策提取方法的流程示意图;
图3是根据本申请实施例的另一种可选的上位政策提取方法的流程示意图;
图4是根据本申请实施例的另一种可选的上位政策提取装置的结构框图;
图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
正如背景技术所述,所称的政策文本可以包括单位、学校等发布的政策性文件。政策文本可以包括:建议政策、通知、管理规定等。通常政策文件中包含大量的政策信息。政策文本中的书名号内的条款名称均可以为政策文本中的政策对象。在对政策解读时,往往需要需提取政策名称,而上述政策文件中的众多政策通常存在一个上位政策。而对于上位政策的提取对于政策解读非常关键。
根据本申请实施例的一个方面,提供了一种上位政策提取方法。可选地,在本实施例中,上述上位政策提取方法可以应用于如图1所示的硬件环境由终端102和服务器104所构成的硬件环境中。如图1 所示,服务器104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,还可以用于处理云服务,上述网络包括但不限于:广域网、城域网或局域网,终端102并不限定于移动终端、PC等。本申请实施例的上位政策提取方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。
以由终端102来执行本实施例中的空调控制方法为例,图2是根据本申请实施例的一种可选的上位政策提取方法的流程示意图,如图2 所示,该方法的流程可以包括以下步骤:
步骤S202,获取政策文本。
步骤S204,识别所述政策文本中的文本结构标识,所述文本结构标识包括文本结构序号标识和/或文本段落标识。
步骤S206,识别所述政策文本中的第一关键词。
步骤S208,基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本;
步骤S210,利用第一正则表达式在所述关键文本中提取所述上位政策。
在本申请中,通过在政策文本中识别出政策文本中的文本结构标识,例如文本结构序号标识和/或文本段落标识,并识别出文本中可以指示当前段落或相邻段落的内容实体的关键词,基于文本结构标识和第一关键词定位上位政策可能出现的关键文本,并在关键文本中利用正则表达式提取上位政策提取上位政策的内容,可以获得政策文件后,利用政策文件的文本结构的序号标识和指示段落实体内容的关键字以及上位政策内容的正则表达式提取上位政策内容,充分利用政策文本的格式、编写规则等政策文件的特征信息自动确定政策文本中的上位政策,提高了上位政策的提取效率,进而提高了政策文件的解读效率。
关于步骤S202的技术方案,政策文本可以包括、法律、法规文本,政府制定的除法律以外的地方政策,以及企事业单位内部制定的政策、规定等。在本实施例中,获取的政策文本可以为文本格式的文本,也可以为超文本标记语言(Hyper Text Mark-up Language,HTML)格式文本。
关于步骤S204和步S206的技术方案,作为示例性的实施例,文本结构标识包括文本结构序号标识和/或文本段落标识。示例性的,文本结构序号标识可以包括政策文本中的“第一条”、“第二条”……,或“1”“1.1”、“1.2”等序号标识。段落标识可以包括:段落结束标志\r\n或者文本结束标志EOF等,第一关键词用于指示所述第一关键词所在段落或相邻段落的内容实体,具体的,可以包括:“总则”、“摘要”“程序文件”、“指导说明书”“附件”等关键词。对于文本结构标识的识别以及关键词识别的方法可以对于采用光学字符识别(OpticalCharacter Recognition,OCR)技术对图片性的政策文本中的文字进行识别,也可以采用通过自然语言处理识别政策文本中的内容,并通过政策文本内容确定政策文本的文本结构标识和第一关键词。该第一关键词可以基于政策文本内容进行识别和提取。示例性的,在“地方管理办法”,中通常会存在“根据……制定”或者,“建议政策”中通常会存在“根据……提出”或者,在一些通知类政策中通常会存在“贯彻……精神”,在一些应急预案类政策中,通常会存在“制定依据”或者“编制依据”等关键词。通常,这些第一关键词可以描述上位政策在政策文本中的大概位置,另外第一关键词还可以指示中某些段落的内容实体,例如,第一关键词为“总则”、“摘要”“程序文件”、“指导说明书”“附件”,可以基于该第一关键词初步判断当前第一关键词所指示的段落内容不包含上位政策。
可以识别出上述政策文本中的“第一条”这一文本结构序号以及文本中的段落标识,还可以识别出“目的和依据”作为第一关键词,该第一关键词可以指示当前段落或下一段落的内容实体,例如,上述政策文本中的第一关键词可以结合段落标识指示下一段落中的内容实体为当前政策文本的制定的目的和依据的具体内容。
关于步骤S208的技术方案,通常在政策文本中会存在多个政策对象,政策对象在文本中的呈现形式通常为“《》”中的内容,因此,要在众多政策对象中准确的提取上位政策,需要定位关键文本所在,基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本。示例性的,政策文本通常具有较大的篇幅,通常会包括多中类型的内容实体,可以基于第一关键词和文本结构标识确定每一部分文本所指示的内容实体的概率,例如,上述实施例中的文本结构标识“第一条”和关键字“目的和依据”可以基于当前文本结构和关键字确定关键字的下一段落包含上位政策的概率大于预设值,可以将当前段落定位为关键段落。示例性的,“地方管理办法”中,通常上位政策会出现在政策文件的“第一条”或“1.1”或“1”所指示的段落中,并且,通常搭配有“依据”等关键词;在应急预案类政策中,上位政策通常不会出现在第一段或第一条中,可以基于文本结构标识在其他段落中寻找关键词,例如,“制定依据”,因此,可以基于文本结构标识和关键字定位关键段落。作为可选地实施例,在基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本之前,还可以对政策文本的类型进行确定,对于政策文件类型的确定,可以通过文本结构标识和/或关键词进行,示例性的,可以基于关键词检测确定政策文本可以标题,和/或,可以基于文本结构标识确定政策文本结构特征,基于结构特征确定政策文本类型,例如“应急管理预案”和“地方管理办法”为不同类型的政策文本,在本实施例中可以基于政策文本的类型,确定当前类型中存在上位政策概率大于预设值的段落作为关键段落。
作为示例性的实施例,在定位关键段落之后,可以在当前关键段落中查找第二关键词,该第二关键词可以包括用于指示政策文件制定依据的关键词和/或关键词组合,示例性的,指示政策文本指定依据的关键词或关键词组合可以包括“根据……制定”或者,“建议政策”中通常会存在“根据……提出”或者,在一些通知类政策中通常会存在“贯彻……精神”,在一些应急预案类政策中,通常会存在“制定依据”或者“编制依据”。因此,在定位段落之后,可以在当前段落中查找第二关键词,并基于第二关键词定位文本,示例性的可以将关键词组合之间的文本定位为关键文本,例如。“根据……制定”中“根据”和“制定”之间的文本作为关键文本。还可以基于单一关键词定位关键文本,示例性的,急预案类政策中,通常会存在“制定依据”或者“编制依据”,可以将该关键词指示的文本作为关键文本。
关于步骤S210的技术方案,利用第一正则表达式在所述关键文本中提取所述上位政策,其中,第一正则表达式可以基于上位政策在政策文本中的呈现形式确定。示例性的,通常政策对象在政策文本中的呈现形式为“《XXXXX》”,因此,可以基于上位政策在政策文本中的呈现形式设定第一正则表达式,示例性的可以采用正则表达式《(.*?)》提取书名号中的内容,作为上位政策。
作为示例性的实施例,由于政策文本通常篇幅较大,为了节约计算资源,提高提取效率,可以基于文本结构标识和第一关键词过滤无关文本或段落,示例性的,基于所述第一关键字剔除第一段落集合,得到第二段落集合;所述第一关键字用于表征在第一段落集合内存在所述目标政策的概率值小于预设值;基于所述文本结构序号标识在所述第二段落集合中确定所述关键段落。示例性的,第一关键词可以包括“题目”“总则”“工作内容”“适用范围”“职责”“指导说明”等目录大纲类的关键词,由于政策文件的编写均具有较为固定的结构特征,因此,可以基于第一关键词定位出部分内容或段落出现上位政策的概率小于预设值,可以将该部分段落滤除,例如,可以将“题目”“职责”“工作内容”“附件”等所指示的内容实体进行剔除。在剩余段落集合中基于文本结构序号标识确定关键段落,示例性的,文本结构序号包括“第一条”……“1”“1.1”“1.2”等,也可以包括段落序号等,可以基于序号确定关键段落,例如,地方管理办法、通知等政策文件在第一段或第一条,关于应急预案类的可能在“1.2”或其他段落。基于文本结构序号标识将出现上位政策文本概率大于预设值的段落作为关键段落。
作为示例性的实施例,当所述第二关键词包括第一预设关键词,且所述第二关键词的位置信息为段落结尾时,提取所述第一关键词所在的段落的下一段落作为所述关键文本;当所述第二关键词包括第二预设关键词和第三预设关键词时,提取所述第二预设关键词和所述第三预设关键词之间的文本作为关键文本,其中,所述第二预设关键词和所述第三预设关键词为预设关键词组合。
作为示例性的实施例,作为示例性的实施例,由于政策文件为多种,不同的政策文件对应的第二关键词可能不同,而不同的关键词,对应的关键文本的位置也不同,例如,在“地方管理办法”,中通常会存在“根据……制定”或者,“建议政策”中通常会存在“根据……提出”或者,在一些通知类政策中通常会存在“贯彻……精神”等,并且,上述关键词通常会在段落内部,上位政策通常会在本段内或在上述关键词组合中的两个关键词限定的范围之内。而在一些应急预案类政策中,通常会存在“制定依据”或者“编制依据”等关键词,并且该关键词通常出现在段落结尾或单独为段落,通常上位政策会在“制定依据”或者“编制依据”之后的段落出现。
当关键词可以组合成预设关键词组合时,例如,“根据……制定”,“根据……提出”,“贯彻……精神”等,可以将上述关键词组合生成正则表达式;基于所述正则表达式在所述政策文本中定位所述关键文本。示例性的,以正则表达式(根据|依据|按照|贯彻)\S{1,}(制定| 制订|设立|通知如下|通告如下|公告如下|意见如下)提取关键文本。
在一个政策文件中通常存在多个上位政策,因此,需要在多个上位政策中选择一个作为最终的上位政策具体的参见图3所示,可以包括如下步骤:
步骤S302,利用所述正则表达式对所述关键文本中的上位政策进行匹配,得到多个候选上位政策。
步骤S304,识别所述候选上位政策对应的行政级别。
步骤S306,将所述行政级别最高的至少一个候选上位政策作为所述上位政策。
示例性的,先遍历提取的内容,并确定制度的行政级别,具体的,世界候选上位政策对应的行政级别可以采用上述实施例中的文字识别方法,也可以采用神经网络模型进行识别,示例性的,可以标注有行政级别标签的政策对象作为样本数据对神经网络模型进行训练,依据输出结果对网络模型的参数进行调整,得到用于通过政策对象识别政策的行政级别的网络模型,利用训练好的网络模型进行行政级别的识别。
作为另外一种实施例,在识别到候选上位政策对应的行政级别可以为多个同级,候选上位政策中勋在多个同位政策,可以识别政策文本的情景或意图,并多个同位政策的情景或意图,匹配政策文本的情景或意图与同位政策的情景或意图,选取匹配度最高的政策作为上位政策。示例性的,政策文本的情景或意图识别可以提取政策文本中的意图关键词,并基于多头机制确定关键词意图,进而综合多个意图关键词中的意图作为政策文本的意图,对于政策对象的意图识别,在获取到同位政策之后,可以基于政策名称查找对应的条款,并基于条款中的意图关键词进行意图识别。或者可以政策名称确定每个政策的意图。
作为示例性的实施例,在政策文本中通常会出现政策名称的简称,因此,为了准确的提取政策,在本实施例中,可以判断提取到的上位政策是否为上位政策简称;当提取到的上位政策为上位政策简称时,利用所述第一正则表达式对所述上位政策简称之前的文本中提取上位政策全称。具体的,在判断提取到的上位政策是否为上位政策简称时,获取提取到的上位政策的字符数;当所述字符数小于预设值时,检测所述提取到的上位政策之前是否存在简称特征信息,所述简称特征信息用于表征提取到的上位政策为上位政策简称;当存在所述简称特征信息时,确定提取到的上位政策为上位政策简称。如果上位政策名称小于一定长度(比如5个字符),则可以检查上位政策提取文本区域之前的文本,是否包含“简称《XX》”(XX为提取的上位政策)。如果包含,则将这个文本之前书名号中的文字,作为上位政策。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述上位政策提取方法的上位政策提取装置。图4是根据本申请实施例的一种可选的上位政策提取装置的示意图,如图4所示,该装置可以包括:
(1)获取模块402,用于获取政策文本;
(2)第一识别模块404,用于识别所述政策文本中的文本结构标识,所述文本结构标识包括文本结构序号标识和/或文本段落标识;
(3)第二识别模块406,用于识别所述政策文本中的第一关键词;
(4)定位模块408,用于基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本
(5)提取模块410,用于利用正则表达式在所述关键文本中提取上位政策。
需要说明的是,该实施例中的获取模块402可以用于执行上述步骤S202,该实施例中的第一识别模块404可以用于执行上述步骤S204,该实施例中的第二识别模块406可以用于执行上述步骤S206,该实施例中的定位模块可以用于执行上述步骤S208,该实施例中的提取模块 408可以用于执行上述步骤S210。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述上位政策提取方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现上位政策提取方法的步骤。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5 中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图5所示,上述存储器502中可以但不限于包括上述上位政策提取装置中的获取模块402、第一识别模块404、第二识别模块406、定位模块408、提取模块410。此外,还可以包括但不限于上述上位政策提取装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、 ASIC(Application Specific IntegratedCircuit,专用集成电路)、 FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述上位政策提取方法的设备可以是终端设备,该终端设备可以是空调、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、 ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于上位政策提取方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行上位政策提取方法的步骤。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、 ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种上位政策提取方法,其特征在于,包括:
获取政策文本;
识别所述政策文本中的文本结构标识,所述文本结构标识包括文本结构序号标识和/或文本段落标识;
识别所述政策文本中的第一关键词,所述第一关键词用于指示所述第一关键词所在段落或相邻段落的内容实体;
基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本;
利用正则表达式在所述关键文本中提取上位政策。
2.如权利要求1所述的上位政策提取方法,其特征在于,所述基于所述文本结构标识和所述第一关键字在所述政策文本中定位关键文本包括:
基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键段落;
在所述关键段落中查找所述第二关键词,所述第二关键词用于表征所述政策文件制定依据的关键词和/或关键词组合;
基于所述第二关键词定位所述关键文本。
3.如权利要求2所述上位政策提取方法,其特征在于,基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键段落包括:
基于所述第一关键字剔除第一段落集合,得到第二段落集合;所述第一关键字用于表征在第一段落集合内存在所述目标政策的概率值小于预设值;
基于所述文本结构序号标识在所述第二段落集合中确定所述关键段落。
4.如权利要求2或3所述的上位政策提取方法,其特征在于,所述基于所述第二关键词定位所述关键文本包括:
当所述第二关键词包括第一预设关键词,且所述第二关键词的位置信息为段落结尾时,提取所述第一关键词所在的段落的下一段落作为所述关键文本;
当所述第二关键词包括第二预设关键词和第三预设关键词时,提取所述第二预设关键词和所述第三预设关键词之间的文本作为关键文本,其中,所述第二预设关键词和所述第三预设关键词为预设关键词组合。
5.如权利要求1所述的上位政策提取方法,其特征在于,所述利用正则表达式在所述关键文本中提取上位政策包括:
利用所述正则表达式对所述关键文本中的上位政策进行匹配,得到多个候选上位政策;
识别所述候选上位政策对应的行政级别;
将所述行政级别最高的至少一个所述候选上位政策作为所述上位政策。
6.如权利要求1所述的上位政策提取方法,其特征在于,所述利用正则表达式在所述关键文本中提取上位政策包括:
判断提取到的上位政策是否为上位政策简称;
当提取到的上位政策为上位政策简称时,利用所述正则表达式对所述上位政策简称之前的文本中提取上位政策全称。
7.如权利要求6所述的上位政策提取方法,其特征在于,所述判断提取到的上位政策是否为上位政策简称包括:
获取提取到的上位政策的字符数;
当所述字符数小于预设值时,检测所述提取到的上位政策之前是否存在简称特征信息,所述简称特征信息用于表征提取到的上位政策为上位政策简称;
当存在所述简称特征信息时,确定提取到的上位政策为上位政策简称。
8.一种上位政策提取装置,其特征在于,包括:
获取模块,用于获取政策文本;
第一识别模块,用于识别所述政策文本中的文本结构标识,所述文本结构标识包括文本结构序号标识和/或文本段落标识;
第二识别模块,用于识别所述政策文本中的第一关键词,所述第一关键词用于指示所述第一关键词所在段落或相邻段落的内容实体;
定位模块,用于基于所述文本结构标识和所述第一关键词在所述政策文本中定位关键文本;
提取模块,用于利用正则表达式在所述关键文本中提取上位政策。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如执行权利要求1-7任意一项所述的上位政策提取方法。
10.一种电子设备,其特征在于,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行权利要求1-7任意一项所述的上位政策提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553813.5A CN114676245A (zh) | 2020-12-24 | 2020-12-24 | 上位政策提取方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011553813.5A CN114676245A (zh) | 2020-12-24 | 2020-12-24 | 上位政策提取方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676245A true CN114676245A (zh) | 2022-06-28 |
Family
ID=82070264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011553813.5A Pending CN114676245A (zh) | 2020-12-24 | 2020-12-24 | 上位政策提取方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676245A (zh) |
-
2020
- 2020-12-24 CN CN202011553813.5A patent/CN114676245A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781299B (zh) | 资产信息识别方法、装置、计算机设备及存储介质 | |
US9025890B2 (en) | Information classification device, information classification method, and information classification program | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
CN113886584A (zh) | 一种应用程序的信息检测方法、装置及设备 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN108664471B (zh) | 文字识别纠错方法、装置、设备及计算机可读存储介质 | |
CN111279335A (zh) | 基于文档结构提取检索多语言文档 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN110489032B (zh) | 用于电子书的词典查询方法及电子设备 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN111753517A (zh) | 基于rpa及ai的文档对比方法、装置、设备及介质 | |
CN111259207A (zh) | 短信的识别方法、装置及设备 | |
CN112069808A (zh) | 融资风控方法、装置、计算机设备及存储介质 | |
CN112685618A (zh) | 用户特征识别方法、装置、计算设备及计算机存储介质 | |
CN114676245A (zh) | 上位政策提取方法、装置及电子设备 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN115481599A (zh) | 文档的处理方法、装置、电子设备和存储介质 | |
CN114595332A (zh) | 文本分类的预测方法、装置和电子设备 | |
CN114647682A (zh) | 一种习题整理方法、装置、电子设备以及存储介质 | |
US11482027B2 (en) | Automated extraction of performance segments and metadata values associated with the performance segments from contract documents | |
CN110909112B (zh) | 数据提取方法、装置、终端设备及介质 | |
CN112199948A (zh) | 文本内容识别和违规广告识别方法、装置及电子设备 | |
CN111858476A (zh) | 文件处理方法、装置、电子设备和计算机可读存储介质 | |
CN115357688B (zh) | 企业名单信息获取方法、装置、存储介质和电子设备 | |
CN112199466B (zh) | 识别函件的关联法规的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |