CN117252514A - 基于深度学习和模型训练的建筑物资库数据处理方法 - Google Patents
基于深度学习和模型训练的建筑物资库数据处理方法 Download PDFInfo
- Publication number
- CN117252514A CN117252514A CN202311541425.9A CN202311541425A CN117252514A CN 117252514 A CN117252514 A CN 117252514A CN 202311541425 A CN202311541425 A CN 202311541425A CN 117252514 A CN117252514 A CN 117252514A
- Authority
- CN
- China
- Prior art keywords
- file
- unstructured
- structured
- word
- files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000004566 building material Substances 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims description 36
- 238000012795 verification Methods 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000009435 building construction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims 1
- 239000000463 material Substances 0.000 abstract description 14
- 238000004140 cleaning Methods 0.000 abstract description 3
- 238000012217 deletion Methods 0.000 abstract description 3
- 230000037430 deletion Effects 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Human Computer Interaction (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及建筑物资库数据处理领域,具体公开基于深度学习和模型训练的建筑物资库数据处理方法,本发明通过对建筑物资库中结构化文件进行去重、删误和标准化处理,并进行存储,实现对建筑物资库中结构化数据的自动清洗、整理、标准化,有利于用户的筛选和引用,同时减少数据手动录入的工作量;获取建筑物资库中非结构化文件的特征词集,分析非结构化文件的属性模型,并进行存储,通过提取非结构化数据的关键信息,获取非结构化数据的标签,方便检索,能够降低重复录入的工作量;从而实现对建筑工程物资库的自动化管理,以提高物资管理的效率和准确性,降低人工操作的复杂度,从而为企业节省大量的人力和时间成本。
Description
技术领域
本发明涉及建筑物资库数据处理领域,涉及到基于深度学习和模型训练的建筑物资库数据处理方法。
背景技术
在建筑施工行业,物资管理是项目实施的核心要素之一,直接影响到工程的质量、进度和成本,对于施工企业来说,如何提升物资管理效率、降低误差并精确控制成本,无疑是提高整体竞争力和盈利能力的重要环节,因此,对建筑物资库数据进行处理具有重要意义。
现有的建筑物资库数据处理方法存在一些不足:一方面,大部分的物资数据需要由业务人员手动录入,这使得数据的标准化程度较低,且存在大量的错误和冗余,这些错误和冗余的数据不仅增加了数据处理的工作量,而且对用户的筛选和引用构成了障碍,同时数据录入工作量庞大且重复性强,耗费了大量的人力资源。
另一方面,物资数据中存在大量的非结构化数据,这些非结构化数据无法直接采取结构化数据导入的方式进行数据录入,导致了很多非结构化数据需要反复录入,进而加重物资管理部门的负担,也加剧了施工企业基层物资管理的复杂性和困难度。
发明内容
针对上述问题,本发明提出了基于深度学习和模型训练的建筑物资库数据处理方法,具体技术方案如下:基于深度学习和模型训练的建筑物资库数据处理方法,包括如下步骤:步骤一、建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件。
步骤二、结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
步骤三、结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件。
步骤四、结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储。
步骤五、非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集。
步骤六、非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型。
步骤七、非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模型,并进行存储。
在上述实施例的基础上,所述步骤二的具体分析过程包括:S1:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件。
S2:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,/>表示初次文件间去重后的第/>个结构化文件的编号,/>,/>表示第/>个对照结构化文件编号,/>,获取初次文件间去重后的各结构化文件的文字总数量,将其记为/>。
获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和/>。
在上述实施例的基础上,所述步骤二的具体分析过程还包括:通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>,其中/>表示预设的近似系数的修正因子,/>表示自然常数,/>分别表示预设的标题区域和非标题区域的权值,。
将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件。
在上述实施例的基础上,所述步骤二的具体分析过程还包括:F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除。
F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词汇进行逐词比对,若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内,则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇,并进行删除。
F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
在上述实施例的基础上,所述步骤四的具体分析过程包括:通过中文分词方法获取各指定结构化文件文本内容中各词汇,将其与预设的建筑行业专业术语词汇库进行比对,若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库,则将该指定结构化文件文本内容中该词汇记为要点词汇,统计得到各指定结构化文件的要点词汇集。
将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对,筛选得到各指定结构化文件的各标准名要点词和各别名要点词,并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词,得到用词标准化后的各指定结构化文件。
在上述实施例的基础上,所述步骤四的具体分析过程还包括:获取用词标准化后的各指定结构化文件文本对应的标准格式,进一步对用词标准化后的各指定结构化文件进行格式标准化,得到标准化处理后的各指定结构化文件,将其存入建筑物资库中,对建筑物资库的结构化数据进行更新。
在上述实施例的基础上,所述步骤五的具体分析过程包括:通过文字识别技术获取建筑物资库中各非结构化文件对应的文本,进一步对各非结构化文件的文本进行关键词提取,得到各非结构化文件的各关键词。
获取各非结构化文件中各关键词的词频。
将各非结构化文件中各关键词的词频与预设的词频阈值进行比较,若某非结构化文件中某关键词的词频大于或等于预设的词频阈值,则将该非结构化文件中该关键词记为特征词,统计各非结构化文件的各特征词,得到各非结构化文件的特征词集。
在上述实施例的基础上,所述步骤五的具体分析过程还包括:按照预设的原则对各非结构化文件的文本进行划分,得到各非结构化文件文本的各区域,获取各非结构化文件中各特征词的位置,筛选得到各非结构化文件中各特征词所处的区域,将各非结构化文件的特征词集按照特征词所处的区域进行划分,得到各非结构化文件的各特征词子集。
按照预设的训练集与验证集之间的比例对各非结构化文件的各特征词子集进行划分,得到各非结构化文件中各特征词子集对应的训练特征词数量和验证特征词数量,统计得到各非结构化文件的训练特征词总数量和验证特征词总数量,构建各非结构化文件的特征词训练集和特征词验证集。
在上述实施例的基础上,所述步骤六的具体分析过程为:将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词训练集中各特征词对应的标签,统计得到各非结构化文件的标签集合,构建各非结构化文件的属性模型。
在上述实施例的基础上,所述步骤七的具体分析过程为:获取各非结构化文件的特征词验证集中各特征词对应的标签,将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对,若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内,则该非结构化文件的标签集合需要变动,将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内,进而对各非结构化文件的属性模型进行优化,得到优化后的各非结构化文件的属性模型,将其存入建筑物资库中,对建筑物资库的非结构化数据进行更新。
相对于现有技术,本发明所述的基于深度学习和模型训练的建筑物资库数据处理方法以下有益效果:1.本发明通过对建筑物资库中结构化文件依次进行去重处理、删误处理和标准化处理,并存入建筑物资库对建筑物资库中结构化数据进行更新,实现对建筑物资库中结构化数据的自动清洗、整理、标准化,减少建筑物资库中结构化数据的错误、冗余和非标准化,有利于用户的筛选和引用,同时减少数据手动录入的工作量,节省人力资源。
2.本发明通过提取建筑物资库中非结构化数据的关键信息,获取非结构化数据的标签,在按需求查询非结构化数据时,只需要对非结构化数据的标签进行检索,不需要将非结构化数据分别存入不同需求下的文件夹中进而造成重复录入,只需录入非结构化数据的元数据及其标签,从而能够降低非结构化数据重复录入的工作量,提高建筑物资库数据处理的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图。
图2为本发明的非结构化文件的属性模型构建示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1和图2所示,本发明提供的基于深度学习和模型训练的建筑物资库数据处理方法,包括如下步骤:步骤一、建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件。
需要说明的是,所述步骤一的具体分析过程为:对目标建筑施工企业的建筑物资库中存储的各文件进行检测,获取建筑物资库中各文件的文件格式,将建筑物资库中各文件的文件格式分别与预设的结构化数据和非结构化数据对应的文件格式类型集合进行比对,筛选得到建筑物资库中各结构化文件和各非结构化文件。
需要说明的是,筛选得到建筑物资库中各结构化文件和各非结构化文件,具体方法为:将建筑物资库中各文件的文件格式分别与预设的结构化数据和非结构化数据对应的文件格式类型集合进行比对,若建筑物资库中某文件的文件格式属于结构化数据对应的文件格式类型集合内,则将该文件记为结构化文件,若建筑物资库中某文件的文件格式属于非结构化数据对应的文件格式类型集合内,则将该文件记为非结构化文件,筛选得到建筑物资库中各结构化文件和各非结构化文件。
需要说明的是,建筑物资库中的数据包括但不限于:物资基本信息、物资价格和成本、物资库存信息、供应商信息、采购与销售记录、物资质量和检测信息、物资使用记录和物资归还与报废信息等。
需要说明的是,建筑物资库中的文件可以是文本文档、电子表格、图片、音频和视频等。
需要说明的是,建筑物资库中文件的文件格式可以是.docx、.xlsx、.pdf、.jpg、.mp3和.mp4等。
需要说明的是,建筑物资库中结构化数据是指具有固定格式和预定义模式的数据,可以被组织、存储和管理,通常是以表格或数据库的形式存在,非结构化数据是指没有固定格式和预定义模式的数据,通常以自由文本、图像、音频或视频的形式存在。
步骤二、结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
作为一种优选方案,所述步骤二的具体分析过程包括:S1:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件。
S2:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,/>表示初次文件间去重后的第/>个结构化文件的编号,/>,/>表示第/>个对照结构化文件编号,/>,获取初次文件间去重后的各结构化文件的文字总数量,将其记为/>。
获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和/>。
需要说明的是,获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,具体方法为:获取初次文件间去重后的各结构化文件的各标题区域,根据初次文件间去重后的各结构化文件与除其自身外的各结构化文件的各差异文字的位置,筛选得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量。
需要说明的是,获取初次文件间去重后的各结构化文件的各标题区域,具体方法为:获取初次文件间去重后的各结构化文件文本的框架形式,并与数据库中存储的各文本框架形式对应的各标题区域进行比对,筛选得到初次文件间去重后的各结构化文件的各标题区域。
在一个具体实施例中,结构化文件文本的框架形式为文档的框架形式,标题区域为一级标题区域和二级标题区域等。
在另一个具体实施例中,结构化文件文本的框架形式为表格的框架形式,标题区域为行标题区域和列标题区域。
作为一种优选方案,所述步骤二的具体分析过程还包括:通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>,其中/>表示预设的近似系数的修正因子,/>表示自然常数,/>分别表示预设的标题区域和非标题区域的权值,。
将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件。
作为一种优选方案,所述步骤二的具体分析过程还包括:F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除。
F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词汇进行逐词比对,若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内,则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇,并进行删除。
F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
需要说明的是,所述词汇包括单词和词组。
需要说明的是,中文分词是将中文文本切分成一个个单词或词组的过程,常用的中文分词方法有基于词典的方法、基于统计的方法和基于规则的方法等。
需要说明的是,结构化文件文本中两个词汇相邻表示两个词汇之间没有夹杂字、词或者分隔符。
步骤三、结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件。
需要说明的是,所述步骤三的具体分析过程为:通过文本错别字检测技术获取各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件。
需要说明的是,文本错别字检测技术包括但不限于:拼写检查、语法检查、语义分析、机器学习算法、基于规则的方法和上下文检查等。
步骤四、结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储。
作为一种优选方案,所述步骤四的具体分析过程包括:通过中文分词方法获取各指定结构化文件文本内容中各词汇,将其与预设的建筑行业专业术语词汇库进行比对,若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库,则将该指定结构化文件文本内容中该词汇记为要点词汇,统计得到各指定结构化文件的要点词汇集。
将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对,筛选得到各指定结构化文件的各标准名要点词和各别名要点词,并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词,得到用词标准化后的各指定结构化文件。
需要说明的是,建筑行业专业术语词汇库中的词汇包括标准名词汇和别名词汇。
需要说明的是,建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合由建筑行业相关专家录入。
作为一种优选方案,所述步骤四的具体分析过程还包括:获取用词标准化后的各指定结构化文件文本对应的标准格式,进一步对用词标准化后的各指定结构化文件进行格式标准化,得到标准化处理后的各指定结构化文件,将其存入建筑物资库中,对建筑物资库的结构化数据进行更新。
需要说明的是,获取用词标准化后的各指定结构化文件文本对应的标准格式,具体方法为:获取用词标准化后的各指定结构化文件文本的框架形式,提取数据库中存储的文本各种框架形式对应的标准格式,筛选得到用词标准化后的各指定结构化文件文本对应的标准格式。
需要说明的是,文本的框架形式包括但不限于:文档的框架形式和表格的框架形式等。
需要说明的是,文本的格式包括但不限于:字体、字号和行距等。
需要说明的是,将标准化处理后的各指定结构化文件存入建筑物资库时,将建筑物资库中原始各指定结构化文件替换为标准化处理后的各指定结构化文件。
在本实施例中,本发明通过对建筑物资库中结构化文件依次进行去重处理、删误处理和标准化处理,并存入建筑物资库对建筑物资库中结构化数据进行更新,实现对建筑物资库中结构化数据的自动清洗、整理、标准化,减少建筑物资库中结构化数据的错误、冗余和非标准化,有利于用户的筛选和引用,同时减少数据手动录入的工作量,节省人力资源。
步骤五、非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集。
作为一种优选方案,所述步骤五的具体分析过程包括:通过文字识别技术获取建筑物资库中各非结构化文件对应的文本,进一步对各非结构化文件的文本进行关键词提取,得到各非结构化文件的各关键词。
获取各非结构化文件中各关键词的词频。
需要说明的是,获取各非结构化文件中各关键词的词频,具体方法为:获取各非结构化文件中各关键词出现的频次和各非结构化文件的词汇数量,将各非结构化文件中各关键词出现的频次除以其非结构化文件的词汇数量,得到各非结构化文件中各关键词的词频。
将各非结构化文件中各关键词的词频与预设的词频阈值进行比较,若某非结构化文件中某关键词的词频大于或等于预设的词频阈值,则将该非结构化文件中该关键词记为特征词,统计各非结构化文件的各特征词,得到各非结构化文件的特征词集。
需要说明的是,获取建筑物资库中各非结构化文件对应的文本的文字识别技术包括但不限于:图像识别技术和语音转文字技术等。
需要说明的是,关键词提取技术是现有的一种较为成熟的技术,此处不加以赘述。
需要说明的是,可以通过中文分词方法获取各非结构化文件的词汇数量。
作为一种优选方案,所述步骤五的具体分析过程还包括:按照预设的原则对各非结构化文件的文本进行划分,得到各非结构化文件文本的各区域,获取各非结构化文件中各特征词的位置,筛选得到各非结构化文件中各特征词所处的区域,将各非结构化文件的特征词集按照特征词所处的区域进行划分,得到各非结构化文件的各特征词子集。
按照预设的训练集与验证集之间的比例对各非结构化文件的各特征词子集进行划分,得到各非结构化文件中各特征词子集对应的训练特征词数量和验证特征词数量,统计得到各非结构化文件的训练特征词总数量和验证特征词总数量,构建各非结构化文件的特征词训练集和特征词验证集。
步骤六、非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型。
作为一种优选方案,所述步骤六的具体分析过程为:将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词训练集中各特征词对应的标签,统计得到各非结构化文件的标签集合,构建各非结构化文件的属性模型。
步骤七、非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模型,并进行存储。
作为一种优选方案,所述步骤七的具体分析过程为:获取各非结构化文件的特征词验证集中各特征词对应的标签,将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对,若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内,则该非结构化文件的标签集合需要变动,将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内,进而对各非结构化文件的属性模型进行优化,得到优化后的各非结构化文件的属性模型,将其存入建筑物资库中,对建筑物资库的非结构化数据进行更新。
需要说明的是,获取各非结构化文件的特征词验证集中各特征词对应的标签,具体方法为:将各非结构化文件的特征词验证集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词验证集中各特征词对应的标签。
需要说明的是,将优化后的各非结构化文件的属性模型存入建筑物资库时,将各非结构化文件及其属性模型一同存入建筑物资库。
在本实施例中,本发明通过提取建筑物资库中非结构化数据的关键信息,获取非结构化数据的标签,在按需求查询非结构化数据时,只需要对非结构化数据的标签进行检索,不需要将非结构化数据分别存入不同需求下的文件夹中进而造成重复录入,只需录入非结构化数据的元数据及其标签,从而能够降低非结构化数据重复录入的工作量,提高建筑物资库数据处理的效率。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本发明所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于,包括如下步骤:
步骤一、建筑物资库数据分类:对目标建筑施工企业的建筑物资库数据进行分类,获取建筑物资库中各结构化文件和各非结构化文件;
步骤二、结构化数据去重处理:对建筑物资库中各结构化文件依次进行文件间去重和文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件;
步骤三、结构化数据删误处理:识别各目标结构化文件文本内容中各错误字并进行修正,得到删误处理后的各目标结构化文件,将其记为各指定结构化文件;
步骤四、结构化数据标准化处理:获取各指定结构化文件的要点词汇集,对各指定结构化文件依次进行用词标准化和格式标准化,得到标准化处理后的各指定结构化文件,并进行存储;
步骤五、非结构化数据特征词提取:获取建筑物资库中各非结构化文件对应的文本,对各非结构化文件的文本进行关键词提取和词频分析,得到各非结构化文件的特征词集,并将各非结构化文件的特征词集划分为特征词训练集和特征词验证集;
步骤六、非结构化数据属性模型分析:根据各非结构化文件的特征词训练集,分析各非结构化文件的标签集合,构建各非结构化文件的属性模型;
步骤七、非结构化数据属性模型优化:根据各非结构化文件的特征词验证集,判断各非结构化文件的标签集合是否需要变动,进一步得到优化后的各非结构化文件的属性模型,并进行存储。
2.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤二的具体分析过程包括:
S1:获取建筑物资库中各结构化文件的文本内容,将各结构化文件的文本内容互相进行比对,若某两个结构化文件的文本内容完全一致,则该两个结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到初次文件间去重后的各结构化文件;
S2:将初次文件间去重后的各结构化文件的文本内容与除其自身外的各结构化文件的文本内容按照预设顺序进行逐字比对,得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的差异文字数量,将其分别记为初次文件间去重后的各结构化文件与各对照结构化文件的差异文字数量,并表示为,/>表示初次文件间去重后的第/>个结构化文件的编号,/>,/>表示第/>个对照结构化文件编号,/>,获取初次文件间去重后的各结构化文件的文字总数量,将其记为/>;
获取初次文件间去重后的各结构化文件与除其自身外的各结构化文件的标题区域差异文字数量和非标题区域差异文字数量,将其分别记为和/>。
3.根据权利要求2所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤二的具体分析过程还包括:
通过分析公式得到初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数/>,其中/>表示预设的近似系数的修正因子,/>表示自然常数,/>分别表示预设的标题区域和非标题区域的权值,/>;
将初次文件间去重后的各结构化文件与除其自身外的各结构化文件的近似系数与预设的近似系数阈值进行比较,若初次文件间去重后的某结构化文件与除其自身外的某结构化文件的近似系数大于或等于预设的近似系数阈值,则初次文件间去重后的该结构化文件与除其自身外的该结构化文件互为彼此的重复性结构化文件,并进行删除,进而得到二次文件间去重后的各结构化文件,将其记为文件间去重后的各结构化文件。
4.根据权利要求3所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤二的具体分析过程还包括:
F1:将文件间去重后的各结构化文件的文本内容按照设定顺序进行逐字比对,若文件间去重后的某结构化文件文本中某文字与其相邻下一文字相同且该文字不属于设定的可重叠字集合内,则文件间去重后的该结构化文件文本中该文字与其相邻下一文字互为彼此的重复性文字,并进行删除;
F2:通过中文分词方法获取文件间去重后的各结构化文件文本的各词汇,将文件间去重后的各结构化文件文本的各词汇进行逐词比对,若文件间去重后的各结构化文件文本中某词汇与其相邻下一词汇相同且该词汇不属于设定的可重叠词汇集合内,则文件间去重后的该结构化文件文本中该词汇与其相邻下一词汇互为彼此的重复性词汇,并进行删除;
F3:依据F1-F2对文件间去重后的各结构化文件进行文件内去重,得到去重处理后的各结构化文件,将其记为各目标结构化文件。
5.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤四的具体分析过程包括:
通过中文分词方法获取各指定结构化文件文本内容中各词汇,将其与预设的建筑行业专业术语词汇库进行比对,若某指定结构化文件文本内容中某词汇属于建筑行业专业术语词汇库,则将该指定结构化文件文本内容中该词汇记为要点词汇,统计得到各指定结构化文件的要点词汇集;
将各指定结构化文件的各要点词分别与预设的建筑行业专业术语词汇库中标准名词汇集合和别名词汇集合进行比对,筛选得到各指定结构化文件的各标准名要点词和各别名要点词,并将各指定结构化文件的各别名要点词替换为其对应的标准名要点词,得到用词标准化后的各指定结构化文件。
6.根据权利要求5所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤四的具体分析过程还包括:
获取用词标准化后的各指定结构化文件文本对应的标准格式,进一步对用词标准化后的各指定结构化文件进行格式标准化,得到标准化处理后的各指定结构化文件,将其存入建筑物资库中,对建筑物资库的结构化数据进行更新。
7.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤五的具体分析过程包括:
通过文字识别技术获取建筑物资库中各非结构化文件对应的文本,进一步对各非结构化文件的文本进行关键词提取,得到各非结构化文件的各关键词;
获取各非结构化文件中各关键词的词频;
将各非结构化文件中各关键词的词频与预设的词频阈值进行比较,若某非结构化文件中某关键词的词频大于或等于预设的词频阈值,则将该非结构化文件中该关键词记为特征词,统计各非结构化文件的各特征词,得到各非结构化文件的特征词集。
8.根据权利要求7所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤五的具体分析过程还包括:
按照预设的原则对各非结构化文件的文本进行划分,得到各非结构化文件文本的各区域,获取各非结构化文件中各特征词的位置,筛选得到各非结构化文件中各特征词所处的区域,将各非结构化文件的特征词集按照特征词所处的区域进行划分,得到各非结构化文件的各特征词子集;
按照预设的训练集与验证集之间的比例对各非结构化文件的各特征词子集进行划分,得到各非结构化文件中各特征词子集对应的训练特征词数量和验证特征词数量,统计得到各非结构化文件的训练特征词总数量和验证特征词总数量,构建各非结构化文件的特征词训练集和特征词验证集。
9.根据权利要求1所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤六的具体分析过程为:
将各非结构化文件的特征词训练集中各特征词与预设的各标签对应的特征词库进行比对,筛选得到各非结构化文件的特征词训练集中各特征词对应的标签,统计得到各非结构化文件的标签集合,构建各非结构化文件的属性模型。
10.根据权利要求9所述的基于深度学习和模型训练的建筑物资库数据处理方法,其特征在于:所述步骤七的具体分析过程为:
获取各非结构化文件的特征词验证集中各特征词对应的标签,将各非结构化文件的特征词验证集中各特征词对应的标签与各非结构化文件的标签集合进行比对,若某非结构化文件的特征词验证集中某特征词对应的标签不属于其非结构化文件的标签集合内,则该非结构化文件的标签集合需要变动,将该非结构化文件的特征词验证集中该特征词对应的标签添入该非结构化文件的标签集合内,进而对各非结构化文件的属性模型进行优化,得到优化后的各非结构化文件的属性模型,将其存入建筑物资库中,对建筑物资库的非结构化数据进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311541425.9A CN117252514B (zh) | 2023-11-20 | 2023-11-20 | 基于深度学习和模型训练的建筑物资库数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311541425.9A CN117252514B (zh) | 2023-11-20 | 2023-11-20 | 基于深度学习和模型训练的建筑物资库数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117252514A true CN117252514A (zh) | 2023-12-19 |
CN117252514B CN117252514B (zh) | 2024-01-30 |
Family
ID=89126873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311541425.9A Active CN117252514B (zh) | 2023-11-20 | 2023-11-20 | 基于深度学习和模型训练的建筑物资库数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252514B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213158A (ja) * | 2006-02-07 | 2007-08-23 | Toshiba Corp | 構造化文書検索装置および構造化文書検索方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
GB201417807D0 (en) * | 2014-10-08 | 2014-11-19 | Univ Lancaster | Data structuring and searching methods and apparatus |
CN110442702A (zh) * | 2019-08-15 | 2019-11-12 | 北京上格云技术有限公司 | 搜索方法、装置、可读存储介质和电子设备 |
CN111489748A (zh) * | 2019-10-18 | 2020-08-04 | 广西电网有限责任公司 | 一种调度智能语音辅助系统 |
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
CN112270604A (zh) * | 2020-10-14 | 2021-01-26 | 招商银行股份有限公司 | 信息结构化处理方法、装置及计算机可读存储介质 |
CN113220885A (zh) * | 2021-05-21 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种文本处理方法和系统 |
CN113961786A (zh) * | 2021-10-22 | 2022-01-21 | 苏州棱镜七彩信息科技有限公司 | 多元异构漏洞整合建库方法 |
CN114154484A (zh) * | 2021-11-12 | 2022-03-08 | 中国长江三峡集团有限公司 | 基于混合深度语义挖掘的施工专业术语库智能构建方法 |
WO2022227207A1 (zh) * | 2021-04-30 | 2022-11-03 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
WO2022240906A1 (en) * | 2021-05-11 | 2022-11-17 | Strong Force Vcn Portfolio 2019, Llc | Systems, methods, kits, and apparatuses for edge-distributed storage and querying in value chain networks |
CN115374222A (zh) * | 2021-05-19 | 2022-11-22 | 中移(苏州)软件技术有限公司 | 一种知识图谱构建方法、装置和存储介质 |
CN115952520A (zh) * | 2022-12-29 | 2023-04-11 | 四川新网银行股份有限公司 | 应用于数据文件的大数据平台数据标准化处理系统及方法 |
CN115964418A (zh) * | 2022-10-21 | 2023-04-14 | 中国电子科技集团公司第五十二研究所 | 一种面向物联网的多源异构数据接入系统及方法 |
CN116362245A (zh) * | 2022-12-22 | 2023-06-30 | 浙江大学 | 基于非结构化文本数据的opc ua信息模型构建方法 |
-
2023
- 2023-11-20 CN CN202311541425.9A patent/CN117252514B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007213158A (ja) * | 2006-02-07 | 2007-08-23 | Toshiba Corp | 構造化文書検索装置および構造化文書検索方法 |
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
GB201417807D0 (en) * | 2014-10-08 | 2014-11-19 | Univ Lancaster | Data structuring and searching methods and apparatus |
US20200395008A1 (en) * | 2019-06-15 | 2020-12-17 | Very Important Puppets Inc. | Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models |
CN110442702A (zh) * | 2019-08-15 | 2019-11-12 | 北京上格云技术有限公司 | 搜索方法、装置、可读存储介质和电子设备 |
CN111489748A (zh) * | 2019-10-18 | 2020-08-04 | 广西电网有限责任公司 | 一种调度智能语音辅助系统 |
CN112270604A (zh) * | 2020-10-14 | 2021-01-26 | 招商银行股份有限公司 | 信息结构化处理方法、装置及计算机可读存储介质 |
WO2022227207A1 (zh) * | 2021-04-30 | 2022-11-03 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
WO2022240906A1 (en) * | 2021-05-11 | 2022-11-17 | Strong Force Vcn Portfolio 2019, Llc | Systems, methods, kits, and apparatuses for edge-distributed storage and querying in value chain networks |
CN115374222A (zh) * | 2021-05-19 | 2022-11-22 | 中移(苏州)软件技术有限公司 | 一种知识图谱构建方法、装置和存储介质 |
CN113220885A (zh) * | 2021-05-21 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种文本处理方法和系统 |
CN113961786A (zh) * | 2021-10-22 | 2022-01-21 | 苏州棱镜七彩信息科技有限公司 | 多元异构漏洞整合建库方法 |
CN114154484A (zh) * | 2021-11-12 | 2022-03-08 | 中国长江三峡集团有限公司 | 基于混合深度语义挖掘的施工专业术语库智能构建方法 |
CN115964418A (zh) * | 2022-10-21 | 2023-04-14 | 中国电子科技集团公司第五十二研究所 | 一种面向物联网的多源异构数据接入系统及方法 |
CN116362245A (zh) * | 2022-12-22 | 2023-06-30 | 浙江大学 | 基于非结构化文本数据的opc ua信息模型构建方法 |
CN115952520A (zh) * | 2022-12-29 | 2023-04-11 | 四川新网银行股份有限公司 | 应用于数据文件的大数据平台数据标准化处理系统及方法 |
Non-Patent Citations (1)
Title |
---|
余晨 等: "基于规则的海事自由文本信息抽取方法研究", 交通信息与安全, vol. 35, no. 3, pages 40 - 47 * |
Also Published As
Publication number | Publication date |
---|---|
CN117252514B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342404A1 (en) | System and method for indexing electronic discovery data | |
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
US20190236102A1 (en) | System and method for differential document analysis and storage | |
CN109190092A (zh) | 不同来源文件的一致性审核方法 | |
WO2017092337A1 (zh) | 评论标签提取方法和装置 | |
US20080104506A1 (en) | Method for producing a document summary | |
CN113961685A (zh) | 信息抽取方法及装置 | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
CN103218444A (zh) | 基于语义的藏文网页文本分类方法 | |
WO2023274047A1 (zh) | 标准知识图谱构建、标准查询方法及装置 | |
CN110516203B (zh) | 争议焦点分析方法、装置、电子设备及计算机可存储介质 | |
CN106815605B (zh) | 一种基于机器学习的数据分类方法及设备 | |
CN117407535A (zh) | 一种基于文本解析的碳政策知识图谱构建系统 | |
CN115618866A (zh) | 一种工程项目投标文件的段落识别与主题提取方法及系统 | |
CN118364075A (zh) | 一种基于大模型的企业知识库多策略问答方法及其系统 | |
CN118134422A (zh) | 文件内容审核的方法、装置、设备、存储介质及产品 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN117252514B (zh) | 基于深度学习和模型训练的建筑物资库数据处理方法 | |
Gephart et al. | Qualitative Data Analysis: Three Microcomputer-Supported Approaches. | |
CN114003750B (zh) | 物料上线方法、装置、设备及存储介质 | |
KR102593884B1 (ko) | 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체 | |
Hast et al. | Making large collections of handwritten material easily accessible and searchable | |
CN115858738B (zh) | 一种企业舆情信息相似性识别方法 | |
CN115221871B (zh) | 多特征融合的英文科技文献关键词提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |