CN112182184B - 一种基于审计数据库的精准匹配搜索方法 - Google Patents
一种基于审计数据库的精准匹配搜索方法 Download PDFInfo
- Publication number
- CN112182184B CN112182184B CN202011047842.4A CN202011047842A CN112182184B CN 112182184 B CN112182184 B CN 112182184B CN 202011047842 A CN202011047842 A CN 202011047842A CN 112182184 B CN112182184 B CN 112182184B
- Authority
- CN
- China
- Prior art keywords
- information
- database
- audit
- data
- regulations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012550 audit Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000032683 aging Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
为了解决上述问题,本发明提供了一种基于审计数据库的精准匹配搜索方法,在审计过程中给审计人员予以完整及准确的信息辅助,能准确获取用户的需求并给出精准的检索信息。为达到所述技术效果,本发明提供了一种基于审计数据库的精准匹配搜索方法,对检索信息提取关键字并进行词义分析,根据分析结果确认检索对象是规则信息还是案例信息;最终根据时间标签排序后输出结果给用户,并标记该结果对应法律法规的有效性。综上所述在采用本发明所述的技术方案后,用户面对更为简明的用户界面。在不改变输入信息的前提下也能获取更为准确的结果,同时检索过程中对于数据库的负载更小,能同时支持更多的用户同时进行检索。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于审计数据库的精准匹配搜索方法。
背景技术
审计是由国家授权或接受委托的专职机构和人员,依照国家法规、审计准则和会计理论,运用专门的方法,对被审计单位的财政、财务收支、经营管理活动及相关资料的真实性、正确性、合规性、效益性进行审查和监督,评价经济责任,鉴证经济业务,用以维护财经法纪、改善经营管理、提高经济效益的一项独立性的经济监督活动。
审计的专业性非常强,尤其对于一些大型企业的审计,其过程之繁琐令人难以想象。而且国家的审计规范等也在不断的更新,在实际工作过程中需要软件辅助提高工作效率。例如现有技术中专利号为CN201911117051.1的发明专利《一种基于审计风险库的数据搜索方法及系统》中就公开了一种基于审计风险库的数据搜索方法及系统,通过提取检索式中关键词,据各个文本数据的近似度读取审计风险库中近似度最大的N个文本数据,将近似度最大的N个文本数据作为检索结果输出到用户;能够优化规范审计风险库的组织结构,提高审计数据搜索的效率,能够有效地提高第三方接口的读取速度,方便了用户的查找体验,并提升了检索的准确性。
这样的技术方案在其它领域可能提高了工作的效率,但是在审计方面,由于很多文本数据本身就非常近似,仅仅将检索出来的近似度最大的文本数据提交给用户,不仅不能方便用户,反而会导致用户误选的几率提升。此外,用户在采用检索时,有时候需要检索的是审核依据,有时候需要检索的是审核案例,现有技术中无法将这些需求进行区分。
发明内容
为了解决上述问题,本发明提供了一种基于审计数据库的精准匹配搜索方法,在审计过程中给审计人员予以完整及准确的信息辅助,能准确获取用户的需求并给出精准的检索信息。
为达到所述技术效果,本发明提供了一种基于审计数据库的精准匹配搜索方法,所述方法包括以下步骤:
步骤1,数据整理:将数据库中的数据按照审计信息、相关法律法规、审计范例分类到不同数据库中;
步骤2,将各个数据库中的数据加上时间标签;
步骤3,获取用户输入检索信息,所述检索信息存储在审计信息数据库中;
步骤4,对检索信息提取关键字并进行词义分析,根据分析结果确认检索对象是规则信息还是案例信息;如判断为规则信息则进行步骤5,如判断为案例信息则进入步骤6,如无法判断则发出无法解析的回复并转回步骤3;
步骤5,进入相关法律法规所在数据库,通过关键字检索相似度高的相关记录并通过时间标签进行排序输出;进入步骤7;
步骤6,进入审计范例所在数据库,通过关键字检索相似度高的相关记录,然后校验该记录对应时间所涉及的相关法律法规,记录相关法律法规并输出到相关法律法规所在数据库,校验对应法律法规的有效性;
步骤7:最终根据时间标签排序后输出结果给用户,并标记该结果对应法律法规的有效性。
优选的,在步骤3中,输入检索信息时直接选择检索目的。即直接选择是检索相关法律法规还是检索实际案例。这样有助于检索结果的准确性。
优选的,在步骤3中,审计问题根据审计业务专业大类进行划分,将审计问题划分成四级目录,整理出标准的一套标准审计问题库,对每个问题提前设定好相关的法规条目建立实体对应关系,通过一个问题对应多条法规条目规则,生成审计问题和法规条目对应关系图谱。
优选的,在步骤4中,提取关键词的方法为Topic-model:即主题模型提取关键词。使用主题模型提取关键词的关键思想是认为输入的检索词一定包含了主题,而数据库中的信息是以一定概率从主题中选取的,即数据库中的信息与检索词之间存在一个主题集合。不同的主题下,检索词出现的概率分布是不同的,根据LDA主题模型的学习可以获取信息的主题词集合,通过这样的算法提高了获取结果的准确性。
优选的,在步骤6中,审计范例所在数据库包括数据库数据和文本数据,数据库数据是经过筛选处理的结构化数据,文本数据类别包括问题基本数据类别、法律法规数据类别、审计意见或建议类别、责任及整改情况数据类别、审计方法数据类别、审计项目数据类别。需注意的是,在审计范例所在数据库中单独范例对应的是当时所依据的法律法规数据,而此法律法规数据随着时间的推进或许已经发生了变化,此时需要进行标注避免采用了过期的案例进行参考导致错误的结果。
优选的,每次被输出的数据后附有输出次数标签,输出次数最多的数据和最近一次输出的数据直接显示在检索的输入界面上。这样有效提高了检索的效率。
优选的,在检索页面中带有时效选择框。点选时效选择框则在检索时将不会显示已经过期的法律法规或利用这些法律法规的案例。
本发明还包括一种搜索系统,所述系统包括:存储器、处理器以及存储在所述存储器中的数据库以及可在所述处理器上运行用于运行一种基于审计数据库的精准匹配搜索方法的计算机程序;
还包括输入装置用于用户输入检索信息;
交互显示界面:用于显示输入、输出信息。用户可以利用该系统进行检索。
进一步的,所述搜索系统还包括通信模块,用于连接网络并定期更新相关法律法规信息。这样能对法律信息及时进行更新。
本发明通过这样的技术方案,主要有以下几点优点:
1、通过数据库的分隔,使得数据库的维护和升级等工作更为便利。
2、通过检索需求的确认,确保检索出来的结果更为准确。例如在检索法律法规时,不会将带有同样关键字的案例信息作为结果输出。
3、通过设置了时间标签,能根据用户不同需求来进行数据的排序。提高了检索信息的准确度。通过时间标签准确区分历年法律法规和有效法律法规。
综上所述在采用本发明所述的技术方案后,用户面对更为简明的用户界面。在不改变输入信息的前提下也能获取更为准确的结果,同时检索过程中对于数据库的负载更小,能同时支持更多的用户同时进行检索。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种基于审计数据库的精准匹配搜索方法,所述方法包括以下步骤:
步骤1,数据整理:将数据库中的数据按照审计信息、相关法律法规、审计范例分类到不同数据库中;
步骤2,将各个数据库中的数据加上时间标签;
步骤3,获取用户输入检索信息,所述检索信息存储在审计信息数据库中;
步骤4,对检索信息提取关键字并进行词义分析,根据分析结果确认检索对象是规则信息还是案例信息;如判断为规则信息则进行步骤5,如判断为案例信息则进入步骤6,如无法判断则发出无法解析的回复并转回步骤3;
步骤5,进入相关法律法规所在数据库,通过关键字检索相似度高的相关记录并通过时间标签进行排序输出;进入步骤7;
步骤6,进入审计范例所在数据库,通过关键字检索相似度高的相关记录,然后校验该记录对应时间所涉及的相关法律法规,记录相关法律法规并输出到相关法律法规所在数据库,校验对应法律法规的有效性;
步骤7:最终根据时间标签排序后输出结果给用户,并标记该结果对应法律法规的有效性。
以下实施例均为已经完成步骤1及步骤2将数据库调整至最新工作状态。
实施例1:用户需要检索审计过程中关于《企业会计准则》中的一些具体内容,用户登录进入已经配置完毕的数据库后,直接输入“企业会计准则”。
在步骤3中,输入检索信息时直接选择检索目的为检索法律法规。由于需要检索现有实施的内容,因此在在检索页面中带有时效选择框中选择基于有效的法律法规一项。对检索信息提取关键字并进行词义分析,由于前期的选择,已经可以判断是规则信息,直接进入相关法律法规所在数据库,通过关键字检索相似度高的相关记录并通过时间标签进行排序输出;企业会计准则。其中最近的一部是2018年实施的《企业会计准则》。最终根据用户设置,可以是时间标签排序后输出检索到的所有《企业会计准则》给用户,并标记2018年版的《企业会计准则》是唯一有效的版本。也可以只显示2018年版本的《企业会计准则》。
本次检索完毕后,在法律法规所在数据库中,对于2018版的《企业会计准则》信息模块上附有输出次数标签加一。检索的输入界面上也显示《企业会计准则》2018版的快速链接,在接下来的工作过程中可以通过打开这个快速链接直接查阅《企业会计准则》,这样给用户带来非常大的便利。
实施例2:用户发现一张财务报表的审计和之前已经审计过的案例非常相似,需要检索上次审计信息作为参考
在步骤3中,输入检索信息时直接选择检索目的为检索案例,则接入到审计范例数据库中。输入相关经手人等信息,查找到多篇相关的检索结果。且每个结果后均标注当时对应的法律法规现在是否已经过期。审计范例所在数据库包括数据库数据和文本数据,数据库数据是经过筛选处理的结构化数据,文本数据类别包括问题基本数据类别、法律法规数据类别、审计意见或建议类别、责任及整改情况数据类别、审计方法数据类别、审计项目数据类别。用户可以查看具体数据找到自己所需的结果。
审计完成后,需要将本次的审计内容存档并作为下次审计的参考案例,因此在步骤3中,审计问题根据审计业务专业大类进行划分,将审计问题划分成四级目录,整理出标准的一套标准审计问题库,对每个问题提前设定好相关的法规条目建立实体对应关系,通过一个问题对应多条法规条目规则,生成审计问题和法规条目对应关系图谱。同样,其中的信息均加上时间标签。
为了本发明的顺利实施,还需要一种搜索系统,所述系统包括:存储器、处理器以及存储在所述存储器中的数据库以及可在所述处理器上运行用于运行一种基于审计数据库的精准匹配搜索方法的计算机程序;
还包括输入装置用于用户输入检索信息;
交互显示界面:用于显示输入、输出信息。
为了确保信息及时更新,搜索系统中还包括通信模块,用于连接网络并定期更新相关法律法规信息。
通过所述技术方案,在查找法律法规时无需担心找到的信息是已经过时的无效信息。在查阅案例时,也可以了解到查到的案例是否符合现在的情况要求。查询的效率更高,结果也更为准确。
Claims (3)
1.一种基于审计数据库的精准匹配搜索方法,其特征在于,所述方法包括以下步骤:
步骤1,数据整理:将数据库中的数据按照审计信息、相关法律法规、审计范例分类到不同数据库中;
步骤2,将各个数据库中的数据加上时间标签;
步骤3,获取用户输入检索信息,输入相关经手人信息,查找到多篇相关的检索结果,且每个结果后均标注当时对应的法律法规现在是否已经过期,审计范例所在数据库包括数据库数据和文本数据,所述检索信息存储在审计信息数据库中;
步骤4,对检索信息提取关键字并进行词义分析,根据分析结果确认检索对象是规则信息还是案例信息;如判断为规则信息则进行步骤5,如判断为案例信息则进入步骤6,如无法判断则发出无法解析的回复并转回步骤3;
步骤5,进入相关法律法规所在数据库,通过关键字检索相似度高的相关记录并通过时间标签进行排序输出;进入步骤7;
步骤6,进入审计范例所在数据库,通过关键字检索相似度高的相关记录,然后校验该记录对应时间所涉及的相关法律法规,记录相关法律法规并输出到相关法律法规所在数据库,校验对应法律法规的有效性;
步骤7:最终根据时间标签排序后输出结果给用户,并标记该结果对应法律法规的有效性;其中,在步骤3中,输入检索信息时直接选择检索目的,审计问题根据审计业务专业大类进行划分,将审计问题划分成四级目录,整理出标准的一套标准审计问题库,对每个问题提前设定好相关的法规条目建立实体对应关系,通过一个问题对应多条法规条目规则,生成审计问题和法规条目对应关系图谱;提取关键词的方法为Topic-model,审计范例所在数据库包括数据库数据和文本数据,数据库数据是经过筛选处理的结构化数据,文本数据类别包括问题基本数据类别、法律法规数据类别、审计意见或建议类别、责任及整改情况数据类别、审计方法数据类别、审计项目数据类别。
2.根据权利要求1所述的一种基于审计数据库的精准匹配搜索方法,其特征在于,每次被输出的数据后附有输出次数标签,输出次数最多的数据和最近一次输出的数据直接显示在检索的输入界面上。
3.根据权利要求1所述的一种基于审计数据库的精准匹配搜索方法,其特征在于,在检索页面中带有时效选择框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011047842.4A CN112182184B (zh) | 2020-09-29 | 2020-09-29 | 一种基于审计数据库的精准匹配搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011047842.4A CN112182184B (zh) | 2020-09-29 | 2020-09-29 | 一种基于审计数据库的精准匹配搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182184A CN112182184A (zh) | 2021-01-05 |
CN112182184B true CN112182184B (zh) | 2023-04-11 |
Family
ID=73946410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011047842.4A Active CN112182184B (zh) | 2020-09-29 | 2020-09-29 | 一种基于审计数据库的精准匹配搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182184B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170270A (zh) * | 2022-09-06 | 2022-10-11 | 湖南三湘银行股份有限公司 | 基于大数据行为分析的数据检测方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853449A (zh) * | 2010-06-18 | 2010-10-06 | 上海百事通信息技术有限公司 | 一种法律问题智能诊断方法与系统 |
CN108563773B (zh) * | 2018-04-20 | 2021-03-30 | 武汉工程大学 | 基于知识图谱的法律条文精准搜索排序方法 |
CN110222145A (zh) * | 2019-04-28 | 2019-09-10 | 杭州实在智能科技有限公司 | 一种智能法律评估方法和系统 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN111143521B (zh) * | 2019-10-28 | 2023-08-15 | 广州恒巨信息科技有限公司 | 基于知识图谱的法条检索方法、系统、装置及存储介质 |
CN110955763A (zh) * | 2019-11-15 | 2020-04-03 | 深圳供电局有限公司 | 一种基于审计风险库的数据搜索方法及系统 |
-
2020
- 2020-09-29 CN CN202011047842.4A patent/CN112182184B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112182184A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210382878A1 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
US11615093B2 (en) | Fuzzy data operations | |
Singh et al. | PROSPECT: a system for screening candidates for recruitment | |
US7814102B2 (en) | Method and system for linking documents with multiple topics to related documents | |
US20170004128A1 (en) | Device and method for analyzing reputation for objects by data mining | |
US9116985B2 (en) | Computer-implemented systems and methods for taxonomy development | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
EP0970428A1 (en) | Automated document classification system | |
US20150317390A1 (en) | Computer-implemented systems and methods for taxonomy development | |
CN114880486A (zh) | 基于nlp和知识图谱的产业链识别方法及系统 | |
CN116757808A (zh) | 一种基于大数据的投标文件自动生成方法及系统 | |
CN110569273A (zh) | 一种基于相关性排序的专利检索系统及方法 | |
CN114303140A (zh) | 与产品和服务相关的知识产权数据分析 | |
CN112182184B (zh) | 一种基于审计数据库的精准匹配搜索方法 | |
US11922326B2 (en) | Data management suggestions from knowledge graph actions | |
Lafia et al. | A natural language processing pipeline for detecting informal data references in academic literature | |
CN113095078A (zh) | 关联资产确定方法、装置和电子设备 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
CN111460258A (zh) | 司法鉴定信息提取方法、系统、设备及存储介质 | |
US10643227B1 (en) | Business lines | |
AU2015249134B2 (en) | Fuzzy data operations | |
An et al. | Who Owns America? A Methodology for Identifying Landlords’ Ownership Scale and the Implications for Targeted Code Enforcement | |
CN114492308B (zh) | 一种结合知识发现与文本挖掘的产业信息标引方法和系统 | |
Si et al. | An Efficient Interpretable Visualization Method of Multidimensional Structural Data Matching Based on Job Seekers and Positions | |
US10546311B1 (en) | Identifying competitors of companies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |