CN116069922B - 基于检索信息进行法律法规筛选的方法及系统 - Google Patents
基于检索信息进行法律法规筛选的方法及系统 Download PDFInfo
- Publication number
- CN116069922B CN116069922B CN202310356145.4A CN202310356145A CN116069922B CN 116069922 B CN116069922 B CN 116069922B CN 202310356145 A CN202310356145 A CN 202310356145A CN 116069922 B CN116069922 B CN 116069922B
- Authority
- CN
- China
- Prior art keywords
- information
- search
- name
- legal
- release
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/381—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及信息检索技术领域,公开了一种基于检索信息进行法律法规筛选的方法,包括:接收用户输入的检索内容,并基于所述检索内容得到用于表征检索内容的检索信息组;基于所述检索信息组对法律法规库进行检索以得到相应的检索匹配信息,其中所述检索匹配信息为基于所述检索信息组来检索得到的内容;对所述检索匹配信息进行展示,所述检索匹配信息包括表征法律法规的文字内容信息和编码内容信息。本发明实施例中的基于检索信息进行法律法规筛选的方法通过对对检索信息进行识别拆解来得到与检索信息关联的语义识别结果或者标签拆解结果,根据语义识别结果或者标签拆解结果来法律法规的准确筛选匹配,提升整体检索效率。
Description
技术领域
本发明涉及信息检索技术领域,具体涉及一种基于检索信息进行法律法规筛选的方法及系统。
背景技术
目前,现有的方案在进行法律法规筛选的时候,一般都是需要用户直接查阅相应的法律法规条文或者是需要用户输入特定的名称来进行检索;这种方式在进行具体检索的时候检索得到的结果并不准确。因此,设计一种能够准确进行法律法规筛选的方法成为本领域技术人员亟待解决的技术问题。
发明内容
针对所述缺陷,本发明实施例公开了一种基于检索信息进行法律法规筛选的方法,其能够对检索信息进行识别拆解来得到相应的检索信息组进而实现对法律法规的准确筛选,提升整体检索效率。
本发明实施例第一方面公开了基于检索信息进行法律法规筛选的方法,包括:
接收用户输入的检索内容,并基于所述检索内容得到用于表征检索内容的检索信息组;
基于所述检索信息组对法律法规库进行检索以得到相应的检索匹配信息,其中所述检索匹配信息为基于所述检索信息组来检索得到的内容;其中,所述法律法规库为基于编码规则编码生成的法律法规库;
对所述检索匹配信息进行展示,所述检索匹配信息包括表征法律法规的文字内容信息和编码内容信息。
作为一种可选的实施方式,在本发明实施例第一方面中,所述基于所述检索内容得到与表征检索内容的检索信息组,包括:
响应于用户基于所述检索内容点选的标签词信息;
基于所述标签词信息生成用于表征检索内容的检索信息组。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述对所述检索匹配信息进行展示之后,还包括:
响应于用户基于所述检索内容点选的第一关键词信息和/或基于检索匹配信息点选的第二关键词信息;
基于所述第一关键词信息和/或所述第二关键词信息生成用于表征检索内容的新检索信息组,并基于所述新检索信息组与检索匹配信息进行信息匹配以进行检索结果更新。
作为一种可选的实施方式,在本发明实施例第一方面中,所述基于所述检索内容得到用于表征检索内容的检索信息组,包括:
基于语义识别模型对所述检索信息进行识别以得到语义理解信息;
基于关键词抽取模型对所述检索信息进行词语抽取以得到关键词信息;
基于所述语义理解信息与关键词信息进行语义匹配以确定两者之间的匹配结果,当所述匹配结果达到设定值时,则基于所述语义理解信息与关键词信息构建检索信息组。
作为一种可选的实施方式,在本发明实施例第一方面中,所述法律法规库通过如下步骤构建得到:
获取待编码法律法规信息,所述待编码法律法规信息包括发布信息和法律法规内容信息;
基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息;
基于预先设定的内容编码规则对所述法律法规内容信息进行编码以得到相应法律法规内容的内容编码信息;所述名称编码信息以及内容编码信息构成所述待编码法律法规信息的编码信息。
作为一种可选的实施方式,在本发明实施例第一方面中,所述发布信息包括发布单位信息、发布时间信息和发布名称信息;所述名称编码规则包括效力等级映射关系、区划代码映射关系、名称规则定义以及时间规则定义;
所述基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息,包括:
对所述发布信息进行分类识别以得到发布单位信息、发布时间信息和发布名称信息;
根据所述发布单位信息确定所述待编码法律法规信息的效力等级,并根据所述效力等级以及效力等级映射关系确定效力编码;
根据所述发布单位信息确定所述待编码法律法规信息的行政区域信息,并根据所述行政区域信息以及区划代码映射关系确定行政区划编码;
根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码;
根据所述时间规则定义对所述发布时间信息进行处理以确定时间编码,所述效力编码、行政区划编码、名称编码以及时间编码共同构成名称编码信息。
作为一种可选的实施方式,在本发明实施例第一方面中,所述根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码,包括:
对所述发布名称信息进行字符过滤操作以得到过滤的发布名称信息;所述字符过滤操作包括时间数字过滤、标点字符过滤和特殊文字过滤,且在所述特殊文字过滤中,当该特殊文字出现在设定位置时才进行过滤操作,否则不执行特殊字符过滤;
根据所述名称规则定义对经过过滤的发布名称信息采用逆向编码的方式对发布名称信息中预设数量的字符进行排列以得到相应的名称编码。
本发明实施例第二方面公开一种基于检索信息进行法律法规筛选的系统,包括:
接收模块:用于接收用户输入的检索内容,并基于所述检索内容得到用于表征检索内容的检索信息组;
检索模块:用于基于所述检索信息组对法律法规库进行检索以得到相应的检索匹配信息,其中所述检索匹配信息为基于所述检索信息组来检索得到的内容;其中,所述法律法规库为基于编码规则编码生成的法律法规库;
展示模块:用于对所述检索匹配信息进行展示,所述检索匹配信息包括表征法律法规的文字内容信息和编码内容信息。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的基于检索信息进行法律法规筛选的方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的基于检索信息进行法律法规筛选的方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中的基于检索信息进行法律法规筛选的方法通过对对检索信息进行识别拆解来得到与检索信息关联的语义识别结果或者标签拆解结果,根据语义识别结果或者标签拆解结果来法律法规的准确筛选匹配,提升整体检索效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的基于检索信息进行法律法规筛选的方法的流程示意图;
图2是本发明实施例公开的基于检索内容进行点选的操作流程示意图;
图3是本发明实施例公开的信息进一步检索的流程示意图;
图4是本发明实施例公开的法律法规库的构建流程示意图;
图5是本发明实施例提供的一种基于检索信息进行法律法规筛选的装置的结构示意图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的方案在进行法律法规筛选的时候,一般都是需要用户直接查阅相应的法律法规条文或者是需要用户输入特定的名称来进行检索;这种方式在进行具体检索的时候检索得到的结果并不准确。本发明实施例公开了基于检索信息进行法律法规筛选的方法、装置、电子设备及存储介质,通过对对检索信息进行识别拆解来得到与检索信息关联的语义识别结果或者标签拆解结果,根据语义识别结果或者标签拆解结果来法律法规的准确筛选匹配,提升整体检索效率。
实施例一
请参阅图1,图1是本发明实施例公开的基于检索信息进行法律法规筛选的方法的流程示意图。其中,本发明实施例所描述的方法的执行主体为由软件或/和硬件组成的执行主体,该执行主体可以通过有线或/和无线方式接收相关信息,并可以发送一定的指令。当然,其还可以具有一定的处理功能和存储功能。该执行主体可以控制多个设备,例如远程的物理服务器或云服务器以及相关软件,也可以是对某处安置的设备进行相关操作的本地主机或服务器以及相关软件等。在一些场景中,还可以控制多个存储设备,存储设备可以与设备放置于同一地方或不同地方。如图1所示,该基于检索信息进行法律法规筛选的方法包括以下步骤:
S101:接收用户输入的检索内容,并基于所述检索内容得到用于表征检索内容的检索信息组;
在本步骤主要是为了接收用户输入的检索内容,这里的检索内容可以是多种样式,比如可以是图片信息,也可以是文字信息,当为图片信息的时候,需要调用OCR文字识别工具来对其中的内容进行识别,然后对识别得到的文字信息来进行进一步的检索。当为文字信息的时候可以直接为短文本信息也可以是长文本信息,这里的文字信息可以是一长段文字信息;比如可以直接复制某段文字,也可以直接输入一句话来表示搜索的信息。在进行具体实施的时候,还需要对检索内容进行拆解以得到相应的检索信息组,这里的检索信息组能够表征检索内容,其可以是一些语句中的一些关键词信息,比如XX法、广东省、信息化等,这些关键词共同构成与检索内容关联的检索信息组,然后基于检索信息组来进行进一步的信息检索。
更为优选的,图2是本发明实施例公开的基于检索内容进行点选的操作流程示意图,如图2所示,所述基于所述检索内容得到与表征检索内容的检索信息组,包括:
S1011:响应于用户基于所述检索内容点选的标签词信息;
S1012:基于所述标签词信息生成用于表征检索内容的检索信息组。
在进行具体实施的时候,对于检索信息组的生成有多种实现方式,一种是自动进行关键词抽取的方式,自动的进行关键词抽取主要是通过系统来进行语句中关键词的识别来得到相应的关键词信息;还有一种是基于用户点选的方式; 也即是在用户输入相应的检索语句之后,用户可以在该检索语句中进行选取标注,然后对选取标注之后的词语来进行检索。这种方式依靠的用户主动选取的方式,也即是用户可以基于输入的长文本来选取中间的特定关键词;在进行具体实施的时候可以将两者进行结合的方式,来得到更多样的关键词组合,通过上述方式能够大大提升检索效率。这种检索效率的提升一方面是通过组合多种准确关键词来实现,另一方面是通过将语句简化为关键词组合方式来实现的。
更为优选的,所述基于所述检索内容得到用于表征检索内容的检索信息组,包括:
S101a:基于语义识别模型对所述检索信息进行识别以得到语义理解信息;
S101b:基于关键词抽取模型对所述检索信息进行词语抽取以得到关键词信息;
S101c:基于所述语义理解信息与关键词信息进行语义匹配以确定两者之间的匹配结果,当所述匹配结果达到设定值时,则基于所述语义理解信息与关键词信息构建检索信息组。
在进行具体实施的时候,其可以通过关键词抽取模型来对检索信息中进行词语抽取,也可以基于语义识别模型来进行检索信息的识别来得到。通过结合语义识别模型能够对语句表达的含义,然后选取出与该语句关联的语义理解信息,比如用户可以针对事件来进行搜索,当用户输入相应的事件的时候,通过语义理解模型来对该语句进行识别理解然后得到相应的语义理解信息,这里的语义理解信息就是词组信息,只是这些词组信息与抽取到的关键词并不相同,这些词组信息并不一定是用户输入的,也可以是基于语义理解得到的词组信息。
语义识别模型主要采用的即是句子语义匹配,句子语义匹配是 NLP 中的一个基本技术,要求捕捉词级别以及短语或者固定搭配甚至更高级别的语义。在 自然语言推理中被用来识别文本蕴含关系,即判断给定的假设语句是否能够合理地从给定的语句中推理得到;在问答中,句子匹配有两个层面,一种是查询和数据库中问题的匹配用于获取问题,另一种是问题和答案之间的匹配用于答案选择。然而,由于语义之间的区别,识别两个句子之间的逻辑和语义关系并不容易。近些年来深度学习的进步使得其可以用来为句子匹配学习文本语义。大量的标注数据比如 Quota、SNLI 以及 MultiNLI 已经为学习语义做出了较大的贡献。传统方法中,匹配模型有两种训练方法。一种是基于句子编码,每个句子以一种完全独立的方式被编码为固定长度的向量,然后这两个句子的表示向量用于预测匹配度,这种方式就是表示模型。另一种是联合方法,这种方法使用比较注意句子间的交互特征。在第一种方式中,由于两个句子没有交互,故而无法在编码的过程中使用交互信息。在本发明实施例中提出了一种联合方法能够利用交互信息提高在任务上的表现。更具体地说,本发明实施例采用了更深的 RNN 来进行句子匹配,类似于深度神经机器翻译 (NMT)。深度循环模型对于学习长序列更有利,优于较浅的结构。通过上述得到的词组更能够表征特定语句的语义信息,并且对于长语句来说,拥有更好的识别效果。
在进行具体实施的时候,还可以叠加关键词抽取来进行匹配,也即是对两者之间的相似度或者关联度进行匹配;只有在两者关联度达到设定值的时候才基于语义理解与关键词来共同构建检索信息组,如果两者关联度没有达到设定值,则可以将两者分别进行检索。
S102:基于所述检索信息组对法律法规库进行检索以得到相应的检索匹配信息,其中所述检索匹配信息为基于所述检索信息组来检索得到的内容;其中,所述法律法规库为基于编码规则编码生成的法律法规库;
S103:对所述检索匹配信息进行展示,所述检索匹配信息包括表征法律法规的文字内容信息和编码内容信息。
根据在步骤S101中得到的检索信息组来与预先构建完成的法律法规库来进行检索最终得到检索匹配信息,并对检索得到的信息进行展示。
更为优选的,图3是本发明实施例公开的信息进一步检索的流程示意图,如图3所示,在所述对所述检索匹配信息进行展示之后,还包括:
S104:响应于用户基于所述检索内容点选的第一关键词信息和/或基于检索匹配信息点选的第二关键词信息;
S105:基于所述第一关键词信息和/或所述第二关键词信息生成用于表征检索内容的新检索信息组,并基于所述新检索信息组与检索匹配信息进行信息匹配以进行检索结果更新。
也即是当得到相应的检索匹配结果之后,有可能出现检索得到的结果并不精准,这时候用户可以基于检索到的内容来进行进一步的筛选,在进行筛选的时候,用户可以选定检索内容中的关键词,也可以选定检索匹配结果中的内容来进行进一步的信息筛选。
更为优选的,图4是本发明实施例公开的法律法规库的构建流程示意图,如图4所示,所述法律法规库通过如下步骤构建得到:
102a:获取待编码法律法规信息,所述待编码法律法规信息包括发布信息和法律法规内容信息;
102b:基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息;
102c:基于预先设定的内容编码规则对所述法律法规内容信息进行编码以得到相应法律法规内容的内容编码信息;所述名称编码信息以及内容编码信息构成所述待编码法律法规信息的编码信息。
在封闭式系统中,通常采用唯一ID进行编码,但显然ID不具备通用性和可读性;编码通用性指的是不管任何人、任何系统在对同一部法律法规进行编码,只要遵循同一个编码规则,编码的结果都是一致的;只有遵循该原则,才能满足不同系统虽独立编码但编码结果一致的需求;通用性原则决定了编码不得使用顺序码;编码规则须尽量简单化,编码门槛极低,且不依赖任何机器设备,任何人都可以根据编码规则进行准确编码;简易性原则体现在参与编码的元素尽可能少、并且容易获取。一致性原则指的是同一部法律法规,其编码主体要一致,通过该原则,可以体现出法律法规的修订情况;同时,编码结果尽量保持可读性,即人们通过阅读编码,可以大致知道是哪一部法律法规。
考虑到上述因素,本发明实施例的方法通过将法律法规的编码分为两部分,第一部分是对法律法规本身的编码,第二部分是对章节条款项目的编码;其中第一部分对法律法规本身的编码步骤包括获得效力等级信息、行政区划信息、法律法规名称信息、发布日期信息,分别按照一定的规则进行编码,再进行整合排序,得到待编法律法规本身编码;将第一部分得到的待编法律法规本身编码与第二部分得到的章节条款目编码进行结合,由此得到待编法律法规的编码,根据本方法获得的法律法规编码,便于其他各个系统进行识别引证且信息整合成本较低,且该编码方式也同时具备兼顾唯一性、通用性、简易性、一致性及可读性的特点。
更为优选的,所述发布信息包括发布单位信息、发布时间信息和发布名称信息;所述名称编码规则包括效力等级映射关系、区划代码映射关系、名称规则定义以及时间规则定义;
所述基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息,包括:
对所述发布信息进行分类识别以得到发布单位信息、发布时间信息和发布名称信息;
根据所述发布单位信息确定所述待编码法律法规信息的效力等级,并根据所述效力等级以及效力等级映射关系确定效力编码;
根据所述发布单位信息确定所述待编码法律法规信息的行政区域信息,并根据所述行政区域信息以及区划代码映射关系确定行政区划编码;
根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码;
根据所述时间规则定义对所述发布时间信息进行处理以确定时间编码,所述效力编码、行政区划编码、名称编码以及时间编码共同构成名称编码信息。
通过上述编码来实现对各个条款信息的编码。
更为优选的,所述根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码,包括:
对所述发布名称信息进行字符过滤操作以得到过滤的发布名称信息;所述字符过滤操作包括时间数字过滤、标点字符过滤和特殊文字过滤,且在所述特殊文字过滤中,当该特殊文字出现在设定位置时才进行过滤操作,否则不执行特殊字符过滤;
根据所述名称规则定义对经过过滤的发布名称信息采用逆向编码的方式对发布名称信息中预设数量的字符进行排列以得到相应的名称编码。
具体的,识别待编法律法规的名称信息中的括号字符,识别括号字符内是否含有日期元素,若有则删除括号与括号内的全部字符,得到去除日期的名称信息。
如对名称信息:“XX法(2021修正)”进行S141步骤后,所得到的去除日期的名称信息为:“XX法”。
为了直观地体现法律法规的版本,法律法规的名称中往往会增加修订年份标识,如“XX法(2021修正) ”,本方法为了确保同一法律法规名称部分的编码一致,需要对如“(2021修正) ”等元素进行去除。在本实施例中,被去除的日期元素如“(2021修正) ”的信息并不会丢失,此部分内容可在步骤S15中展示,由日期编码X4可以更好地体现法律法规的版本区别及修订情况。
若该标点符号字符为字符“(试行)”,则识别该字符“(试行)”是否位于末尾,若是,则删除字符“(试行)”;若不是,则保留字符“试行”;若该标点符号字符非字符“(试行)”,则将该标点符号字符删除;由此得到去除标号的名称信息;如对名称信息:“XX关于修改《XX管理办法》等规章的决定”,所得到的去除标号的名称信息为:“XX关于修改XX管理办法等规章的决定”。如对名称信息:“XX印发《关于XX的若干意见(试行)》的通知”,所得到的去除标号的名称信息为:“XX印发关于XX的若干意见试行的通知”。如对名称信息:“XX、XX关于XX的解释”,所得到的去除标号的名称信息为:“XX关于XX的解释”。如对名称信息:“XX监督规则(试行)”,所得到的去除标号的名称信息为:“XX监督规则”。本步骤通过对待编法律法规名称中所包含标点符号进行删除,从而更好地保持编码的规范性。并且考虑到同一部法律法规其编码主体一致性的原则,凡是以“(试行)”结尾的名称,须去除“(试行)”,若“(试行)”出现于名称信息的中间出现则不去除。
具体的逆向编码步骤如下:
读取去除标号的名称信息,识别去除标号的名称信息的字符数量,若该名称信息字符数量大于10,则截取末尾10个字符;若该名称信息字符数量小于10,则在该名称信息后添加占位符“0”,使该名称信息字符为10;
对所获得的10个字符进行编码,分别对该10个字符进行识别,若该字符为汉字,则提取该汉字的拼音首字母;若该字符为阿拉伯数字或字母,则直接提取该字符;将所提取字符按其提取来源顺序进行排列,得到名称编码。
更为优选的,在所述根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码之后还包括:
提取经过过滤的发布名称信息中各个字符信息;
根据预设的数字字母对应表来确定各个字符信息对应的表示值;
基于所述表示值以及加权因子计算公式确定各个字符位置的加权因子,所述加权因子计算公式为: Wi=2(i-1)(mod 11),其中 Wi为加权因子;
其中, X31为防重码,ai为字符信息对应的表示值, Wi为个各个字符表示值对应的加权因子。
使用本法律法规编码的方法,发布单位、各类信息化系统可以进行独立编码,并最大机率遵循唯一性、通用性、一致性原则。随着“互联网+监管”的全面推进,急需建立动态的全国法律法规数据库,并且进行结构化处理,以实现与许可事项、监管事项、权责清单等引证关联。通过本方法,其一可加速促成实现新发布的国家法律、行政法规、部门规章、规范性文件以及地方性法规、地方部门规章、地方部门规范性文件的全面备案登记,通过备案登记,实现编码的自动生成、正文文本的自动结构化入库。其二实现许可事项、监管事项、权责任清单、履职清单等与法律法规等依据的引证关联。其三实现法律法规等依据时效状态的动态监测,对许可事项等有效状态进行自动预警,确保“互联网+监管”的合法合规。
上述公式中:i为所得到的去除标号的名称信息从左至右的位置序号,字符位置i的举例如表1所示:
表1
αi为位置i 的字符的表示值;根据该字符所表示的内容赋予1到35的数值作为其表示值。表示值可以按照以下方法进行赋予,若字符为汉字,αi为该字符值的拼音首字母对应的表示值;若字符为字母,αi为字母对应的字符表示值;若字符为数字,αi为此数字的数值。数字与字母对应的表示值如表2所示:
表2
W i 表示第i位置上的加权因子,其中:
Wi=2(i-1)(mod 11)
本实施例中列举了位置i为1-35对应的加权因子W i 值如表3所示:
表3
本发明实施例的方法通过在名称编码中设置防重码,防重码通过截取法律法规名称35个有效参与编码的字符并通过运算来进行编码,进一步降低编码重复,确保编码的唯一性。通过上述法律法规库的编码更新方法使得其整体数据库唯一性和通用性效果更好,能够更加方便进行法律法规的查询,且方便进行数据引证。
本发明实施例中的基于检索信息进行法律法规筛选的方法通过对对检索信息进行识别拆解来得到与检索信息关联的语义识别结果或者标签拆解结果,根据语义识别结果或者标签拆解结果来法律法规的准确筛选匹配,提升整体检索效率。
实施例二
请参阅图5,图5是本发明实施例公开的基于检索信息进行法律法规筛选的装置的结构示意图。如图5所示,该基于检索信息进行法律法规筛选的装置可以包括:
接收模块21:用于接收用户输入的检索内容,并基于所述检索内容得到用于表征检索内容的检索信息组;
检索模块22:用于基于所述检索信息组对法律法规库进行检索以得到相应的检索匹配信息,其中所述检索匹配信息为基于所述检索信息组来检索得到的内容;其中,所述法律法规库为基于编码规则编码生成的法律法规库;
展示模块23:用于对所述检索匹配信息进行展示,所述检索匹配信息包括表征法律法规的文字内容信息和编码内容信息。
本发明实施例中的基于检索信息进行法律法规筛选的方法通过对对检索信息进行识别拆解来得到与检索信息关联的语义识别结果或者标签拆解结果,根据语义识别结果或者标签拆解结果来法律法规的准确筛选匹配,提升整体检索效率。
实施例三
请参阅图6,图6是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是计算机以及服务器等,当然,在一定情况下,还可以是手机、平板电脑以及监控终端等智能设备,以及具有处理功能的图像采集装置。如图6所示,该电子设备可以包括:
存储有可执行程序代码的存储器510;
与存储器510耦合的处理器520;
其中,处理器520调用存储器510中存储的可执行程序代码,执行实施例一中的基于检索信息进行法律法规筛选的方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中的基于检索信息进行法律法规筛选的方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的基于检索信息进行法律法规筛选的方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的基于检索信息进行法律法规筛选的方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的基于检索信息进行法律法规筛选的方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于检索信息进行法律法规筛选的方法,其特征在于,包括:
接收用户输入的检索内容,并基于所述检索内容得到用于表征检索内容的检索信息组;
基于所述检索信息组对法律法规库进行检索以得到相应的检索匹配信息,其中所述检索匹配信息为基于所述检索信息组来检索得到的内容;其中,所述法律法规库为基于编码规则编码生成的法律法规库;所述法律法规库通过如下步骤构建得到:
获取待编码法律法规信息,所述待编码法律法规信息包括发布信息和法律法规内容信息;
基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息;所述发布信息包括发布单位信息、发布时间信息和发布名称信息;所述名称编码规则包括效力等级映射关系、区划代码映射关系、名称规则定义以及时间规则定义;所述基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息,包括:
对所述发布信息进行分类识别以得到发布单位信息、发布时间信息和发布名称信息;
根据所述发布单位信息确定所述待编码法律法规信息的效力等级,并根据所述效力等级以及效力等级映射关系确定效力编码;
根据所述发布单位信息确定所述待编码法律法规信息的行政区域信息,并根据所述行政区域信息以及区划代码映射关系确定行政区划编码;
根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码;在所述根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码之后还包括:
提取经过过滤的发布名称信息中各个字符信息;
根据预设的数字字母对应表来确定各个字符信息对应的表示值;
基于所述表示值以及加权因子计算公式确定各个字符位置的加权因子,所述加权因子计算公式为: Wi=2(i-1)(mod 11),其中 Wi为加权因子;
其中, X31为防重码,ai为字符信息对应的表示值, Wi为加权因子;
根据所述时间规则定义对所述发布时间信息进行处理以确定时间编码,所述效力编码、行政区划编码、名称编码以及时间编码共同构成名称编码信息;
基于预先设定的内容编码规则对所述法律法规内容信息进行编码以得到相应法律法规内容的内容编码信息;所述名称编码信息以及内容编码信息构成所述待编码法律法规信息的编码信息;
对所述检索匹配信息进行展示,所述检索匹配信息包括表征法律法规的文字内容信息和编码内容信息。
2.如权利要求1所述的基于检索信息进行法律法规筛选的方法,其特征在于,所述基于所述检索内容得到与表征检索内容的检索信息组,包括:
响应于用户基于所述检索内容点选的标签词信息;
基于所述标签词信息生成用于表征检索内容的检索信息组。
3.如权利要求1所述的基于检索信息进行法律法规筛选的方法,其特征在于,在所述对所述检索匹配信息进行展示之后,还包括:
响应于用户基于所述检索内容点选的第一关键词信息和/或基于检索匹配信息点选的第二关键词信息;
基于所述第一关键词信息和/或所述第二关键词信息生成用于表征检索内容的新检索信息组,并基于所述新检索信息组与检索匹配信息进行信息匹配以进行检索结果更新。
4.如权利要求1所述的基于检索信息进行法律法规筛选的方法,其特征在于,所述基于所述检索内容得到用于表征检索内容的检索信息组,包括:
基于语义识别模型对所述检索信息进行识别以得到语义理解信息;
基于关键词抽取模型对所述检索信息进行词语抽取以得到关键词信息;
基于所述语义理解信息与关键词信息进行语义匹配以确定两者之间的匹配结果,当所述匹配结果达到设定值时,则基于所述语义理解信息与关键词信息构建检索信息组。
5.如权利要求1所述的基于检索信息进行法律法规筛选的方法,其特征在于,所述根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码,包括:
对所述发布名称信息进行字符过滤操作以得到过滤的发布名称信息;所述字符过滤操作包括时间数字过滤、标点字符过滤和特殊文字过滤,且在所述特殊文字过滤中,当该特殊文字出现在设定位置时才进行过滤操作,否则不执行特殊字符过滤;
根据所述名称规则定义对经过过滤的发布名称信息采用逆向编码的方式对发布名称信息中预设数量的字符进行排列以得到相应的名称编码。
6.一种基于检索信息进行法律法规筛选的系统,其特征在于,包括:
接收模块:用于接收用户输入的检索内容,并基于所述检索内容得到用于表征检索内容的检索信息组;
检索模块:用于基于所述检索信息组对法律法规库进行检索以得到相应的检索匹配信息,其中所述检索匹配信息为基于所述检索信息组来检索得到的内容;其中,所述法律法规库为基于编码规则编码生成的法律法规库;所述法律法规库通过如下步骤构建得到:
获取待编码法律法规信息,所述待编码法律法规信息包括发布信息和法律法规内容信息;
基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息;所述发布信息包括发布单位信息、发布时间信息和发布名称信息;所述名称编码规则包括效力等级映射关系、区划代码映射关系、名称规则定义以及时间规则定义;所述基于预先设定的名称编码规则对所述发布信息进行编码以得到相应法律法规的名称编码信息,包括:
对所述发布信息进行分类识别以得到发布单位信息、发布时间信息和发布名称信息;
根据所述发布单位信息确定所述待编码法律法规信息的效力等级,并根据所述效力等级以及效力等级映射关系确定效力编码;
根据所述发布单位信息确定所述待编码法律法规信息的行政区域信息,并根据所述行政区域信息以及区划代码映射关系确定行政区划编码;
根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码;在所述根据所述名称规则定义对所述发布名称信息进行编码转换以得到相应的名称编码之后还包括:
提取经过过滤的发布名称信息中各个字符信息;
根据预设的数字字母对应表来确定各个字符信息对应的表示值;
基于所述表示值以及加权因子计算公式确定各个字符位置的加权因子,所述加权因子计算公式为: Wi=2(i-1)(mod 11),其中 Wi为加权因子;
其中, X31为防重码,ai为字符信息对应的表示值, Wi为加权因子;
根据所述时间规则定义对所述发布时间信息进行处理以确定时间编码,所述效力编码、行政区划编码、名称编码以及时间编码共同构成名称编码信息;
基于预先设定的内容编码规则对所述法律法规内容信息进行编码以得到相应法律法规内容的内容编码信息;所述名称编码信息以及内容编码信息构成所述待编码法律法规信息的编码信息;
展示模块:用于对所述检索匹配信息进行展示,所述检索匹配信息包括表征法律法规的文字内容信息和编码内容信息。
7.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至5任一项所述的基于检索信息进行法律法规筛选的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至5任一项所述的基于检索信息进行法律法规筛选的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310356145.4A CN116069922B (zh) | 2023-04-06 | 2023-04-06 | 基于检索信息进行法律法规筛选的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310356145.4A CN116069922B (zh) | 2023-04-06 | 2023-04-06 | 基于检索信息进行法律法规筛选的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116069922A CN116069922A (zh) | 2023-05-05 |
CN116069922B true CN116069922B (zh) | 2023-06-20 |
Family
ID=86175342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310356145.4A Active CN116069922B (zh) | 2023-04-06 | 2023-04-06 | 基于检索信息进行法律法规筛选的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116069922B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
CN104679871A (zh) * | 2015-03-06 | 2015-06-03 | 北京语言大学 | 一种汉语文本检索方法及汉语文本检索装置 |
CN114338058A (zh) * | 2020-09-27 | 2022-04-12 | 中国移动通信有限公司研究院 | 一种信息处理方法、装置和存储介质 |
CN115129981A (zh) * | 2022-06-17 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040029639A1 (en) * | 2002-08-08 | 2004-02-12 | John Regan | Automated output, archival, and retrieval method and system for managing information and documents associated with winnings received from a casino game |
US7299171B2 (en) * | 2004-08-17 | 2007-11-20 | Contentguard Holdings, Inc. | Method and system for processing grammar-based legality expressions |
CN110928994B (zh) * | 2019-11-28 | 2022-07-19 | 北京华宇元典信息服务有限公司 | 相似案例检索方法、相似案例检索装置和电子设备 |
CN111368191B (zh) * | 2020-02-29 | 2021-04-02 | 重庆百事得大牛机器人有限公司 | 基于法律咨询交互过程的用户画像系统 |
CN111402092B (zh) * | 2020-06-08 | 2020-09-15 | 杭州识度科技有限公司 | 一种基于多层次语义解析的法律法规检索系统 |
CN113918702B (zh) * | 2021-10-25 | 2022-07-01 | 北京航空航天大学 | 一种基于语义匹配的在线法律自动问答方法及系统 |
CN114201581A (zh) * | 2021-11-29 | 2022-03-18 | 中国科学院深圳先进技术研究院 | 一种基于对比学习的长文本检索模型 |
CN115545671B (zh) * | 2022-11-02 | 2023-10-03 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
-
2023
- 2023-04-06 CN CN202310356145.4A patent/CN116069922B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
CN104679871A (zh) * | 2015-03-06 | 2015-06-03 | 北京语言大学 | 一种汉语文本检索方法及汉语文本检索装置 |
CN114338058A (zh) * | 2020-09-27 | 2022-04-12 | 中国移动通信有限公司研究院 | 一种信息处理方法、装置和存储介质 |
CN115129981A (zh) * | 2022-06-17 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116069922A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
CN109284363B (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN105824959B (zh) | 舆情监控方法及系统 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN110297893B (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
CN111368048A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN113190689B (zh) | 一种电力安全知识图谱的构建方法、装置、设备和介质 | |
CN113378970A (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN112667775A (zh) | 基于关键词提示的检索方法、装置、电子设备及存储介质 | |
CN114416939A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN115238670A (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
US20230394236A1 (en) | Extracting content from freeform text samples into custom fields in a software application | |
CN117033816A (zh) | 停车推荐方法、装置、电子设备及存储介质 | |
CN112364068A (zh) | 课程标签生成方法、装置、设备及介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN116069922B (zh) | 基于检索信息进行法律法规筛选的方法及系统 | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
CN112199958A (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN116450664A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112241463A (zh) | 一种基于融合文本语义与图片信息的搜索方法 | |
US20230061773A1 (en) | Automated systems and methods for generating technical questions from technical documents | |
CN117033584B (zh) | 类案文本确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |