CN116881582A - 基于模式匹配和词性标注的报名时间提取方法 - Google Patents
基于模式匹配和词性标注的报名时间提取方法 Download PDFInfo
- Publication number
- CN116881582A CN116881582A CN202310881626.7A CN202310881626A CN116881582A CN 116881582 A CN116881582 A CN 116881582A CN 202310881626 A CN202310881626 A CN 202310881626A CN 116881582 A CN116881582 A CN 116881582A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- pattern matching
- text information
- entry time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims description 28
- 230000007115 recruitment Effects 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 9
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract 1
- 238000007689 inspection Methods 0.000 description 7
- 238000012163 sequencing technique Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明属于信息处理技术领域,特别是涉及一种基于模式匹配和词性标注的报名时间提取方法,所述方法包括:获取招聘信息,并读取招聘信息中的文本内容;按照模式匹配规则对文本内容中的报名时间进行位置定位,得到描述文本候选集;判断描述文本候选集中的文本信息是否为空;若文本信息不为空,则从描述文本候选集中读取文本信息,并判断文本信息是否从发布开始计算报名时间;若不是从发布开始计算报名时间,则对文本信息进行词性检查,以获取检查文本;基于检查文本提取招聘信息的发布日期和截止时间节点。本发明基于优先级模式匹配规则定位报名时间文本位置;再基于词性标注挺高报名时间提取和识别的准确率,实现对报名时间提取技术的优化。
Description
技术领域
本申请涉及信息处理技术领域,特别涉及一种基于模式匹配和词性标注的报名时间提取方法。
背景技术
时间信息提取一直都是数据挖掘和自然语言处理方向研究比较多的课题,通常时间信息的提取主要分为两种提取方式,即基于规则的提取方式和基于机器学习的提取方式,其中,基于规则的提取方式操作简单,规则表达式多样化,其维护成本高;而基于机器学习的时间提取方式覆盖度虽然广泛,但在缺少大量人工标注数据的情况下,其识别准确率低。
因此,如何准确提取文本信息中的时间信息是目前需要解决的问题。
发明内容
本发明提供一种基于模式匹配和词性标注的报名时间提取方法,旨在准确提取文本信息中的时间信息。
为了实现上述发明目的,本发明面提出一种基于模式匹配和词性标注的报名时间提取方法,所述方法包括:
获取招聘信息,并读取所述招聘信息中的文本内容;
按照模式匹配规则对所述文本内容中的报名时间进行位置定位,得到描述文本候选集;
判断所述描述文本候选集中的文本信息是否为空;
若文本信息不为空,则从所述描述文本候选集中读取所述文本信息,并判断所述文本信息是否从发布开始计算所述报名时间;
若不是从发布开始计算所述报名时间,则对所述文本信息进行词性检查,以获取检查文本;
基于所述检查文本提取所述招聘信息的发布日期和截止时间节点。
进一步地,所述按照模式匹配规则对所述文本内容中的报名时间进行位置定位之前,还包括:
获取训练样本,所述训练样本为多篇招聘信息;
基于初始模式匹配规则对所述招聘信息中的报名时间进行定位,进而得到初始定位结果;
根据预设的调整规则对所述初始定位结果进行调整,得到目标定位结果;
基于所述目标定位结果对所述初始模式匹配规则进行修正,得到模式匹配规则。
进一步地,所述调整规则为:
进一步地,所述判断所述描述文本候选集中的文本信息是否为空之后,还包括:
若所述描述文本候选集中的文本信息为空,则终止对所述招聘信息的报名时间的提取。
进一步地,所述从所述描述文本候选集中读取所述文本信息之前,还包括:
计算所述描述文本候选集中各所述文本信息的定位置信度分值;
依据所述定位置信度分值的大小,将各所述文本信息进行排序,进而得到所述文本信息的排序序列。
进一步地,所述从所述描述文本候选集中读取所述文本信息,包括:
根据所述排序序列从所述描述文本候选集中读取所述定位置信度分值最高的所述文本信息。
进一步地,所述判断所述文本信息是否从发布开始计算所述报名时间,包括:
根据所述文本信息中是否存在预设的标志语而判断所述文本信息是否从发布开始计算所述报名时间。
进一步地,所述判断所述文本信息是否从发布开始计算所述报名时间之后,还包括:
若所述文本信息是从发布开始计算所述报名时间,则基于所述文本信息提取所述招聘信息的发布日期和截止时间节点。
进一步地,所述对所述文本信息进行词性检查,以获取检查文本,包括:
读取所述文本信息中的第一有效时间节点,并基于所述第一有效时间节点遍历所述文本信息以检查每一个词语的词性;
将与所述第一有效时间节点相同的所述词性进行记录,将与所述第一有效时间节点不相同的所述词性省略,进而得到检查文本。
进一步地,所述获取招聘信息,包括:
在第三方公开网站和/或招聘网站中获取招聘信息。
有益效果:在本申请中,通过获取招聘信息,并读取所述招聘信息中的文本内容;按照模式匹配规则对所述文本内容中的报名时间进行位置定位,得到描述文本候选集;判断所述描述文本候选集中的文本信息是否为空;若文本信息不为空,则从所述描述文本候选集中读取所述文本信息,并判断所述文本信息是否从发布开始计算所述报名时间;若不是从发布开始计算所述报名时间,则对所述文本信息进行词性检查,以获取检查文本;基于所述检查文本提取所述招聘信息的发布日期和截止时间节点,实现了对文本信息中的时间信息进行准确提取,该时间信息提取技术可用于辅助招聘/求职人员对招聘信息的报名时间的准确监控,进而准确把控招聘情况。
附图说明
图1为本申请基于模式匹配和词性标注的报名时间提取方法的一实施例流程示意图;
图2为本申请基于模式匹配和词性标注的报名时间提取方法的另一实施例流程示意图;
图3为本申请基于模式匹配和词性标注的报名时间提取方法的另一实施例流程示意图;
图4为本申请基于模式匹配和词性标注的报名时间提取方法的另一实施例流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参照图1,本发明实施例提供一种基于模式匹配和词性标注的报名时间提取方法,包括以下步骤S1-S6:
S1:获取招聘信息,并读取所述招聘信息中的文本内容。
为准确的提取招聘信息中的报名时间,进而对招聘情况的准确把控,需先获取通篇的招聘信息,再对该招聘信息进行识别,进而读取该招聘信息中的文本内容,该文本内容指的是该招聘信息的具体内容,获取招聘信息中的具体内容,为后续对该招聘信息的报名时间进行提取提供有效依据。
S2:按照模式匹配规则对所述文本内容中的报名时间进行位置定位,得到描述文本候选集。
在获取招聘信息,并读取该招聘信息中的文本内容(具体内容)之后,可按照模式匹配规则对该文本内容中的报名时间进行位置定位,进而得到具有时间定位的描述文本候选集,其中,模式匹配规则指的是通过训练大量人工标注的招聘数据,进而得到具备自主对招聘信息中的报名时间进行定位的规则;基于该模式匹配规则自主对招聘信息中的报名时间进行识别,并基于其识别结果对时间位置进行标注,进而得到进行对时间信息进行位置定位之后的描述文本候选集,描述文本候选集中可能存在成功对报名时间进行定位的文本信息和/或无法定位报名时间的文本内容,后续将基于成功对报名时间进行定位的文本信息对报名时间进行提取。
S3:判断所述描述文本候选集中的文本信息是否为空。
在按照模式匹配规则对文本内容中的报名时间进行位置定位,进而得到描述文本候选集之后,描述文本候选集中可能存在成功对报名时间进行定位的文本信息和/或无法定位报名时间的文本内容,为保证后续能依据该描述文本候选集中的文本信息对报名时间进行顺利提取,还需对该文本候选集进行判断,以确定该文本候选集中的文本信息不为空,其中,若该描述文本候选集中的文本信息为空,则终止对招聘信息的报名时间的提取,以避免使用无文本信息的描述文本候选集进行报名时间的提取,进而提高提取报名时间的效率。
S4:若文本信息不为空,则从所述描述文本候选集中读取所述文本信息,并判断所述文本信息是否从发布开始计算所述报名时间。
当确认描述文本候选集中的文本信息不为空时,则从该描述文本候选集中读取文本信息,其中,该文本信息为置信度分值最高的文本信息,以置信度分值最高的文本信息进行报名时间的提取,为准确提取招聘信息中的报名时间信息提供有效依据;为保证提取的报名时间是从招聘信息的发布时间开始计算,进而实现对招聘信息的状态进行准确把控,还对该文本信息的时间信息进行判断,其中,根据文本信息中是否存在预设的标志语而判断该文本信息是否从发布开始计算报名时间。
S5:若不是从发布开始计算所述报名时间,则对所述文本信息进行词性检查,以获取检查文本。
若文本信息不是从发布开始计算其报名时间,则对该文本信息进行词性检查,以获取准确的从发布时间开始计算其报名时间的检查文本,具体的,读取该文本信息中的第一有效时间节点,并基于第一有效时间节点遍历该文本信息以检查每一个词语的词性是否与第一有效时间节点相同,然后,将与该第一有效时间节点相同的词性进行记录,而对于与第一有效时间节点不相同的词性省略,进而即可得到从发布时间开始计算其报名时间的检查文本,后续再以该检查文本进行报名时间提取,进而保证提取招聘信息的报名时间的准确性。
S6:基于所述检查文本提取所述招聘信息的发布日期和截止时间节点。
在得到检查文本之后,即可基于该检查文本提取出招聘信息中的发布日期和截止时间节点,其中,该发布日期指的是招聘信息开始发布的时间,该截止时间节点指的是招聘信息停止招聘的时间,准确的提取出招聘信息中的发布日期和截止时间节点,有利于实现对招聘情况的准确把控。
本实施例提供了一种基于模式匹配和词性标注的报名时间提取方法,通过获取招聘信息,并读取所述招聘信息中的文本内容;按照模式匹配规则对所述文本内容中的报名时间进行位置定位,得到描述文本候选集;判断所述描述文本候选集中的文本信息是否为空;若文本信息不为空,则从所述描述文本候选集中读取所述文本信息,并判断所述文本信息是否从发布开始计算所述报名时间;若不是从发布开始计算所述报名时间,则对所述文本信息进行词性检查,以获取检查文本;基于所述检查文本提取所述招聘信息的发布日期和截止时间节点,实现了对文本信息中的时间信息进行准确提取,该时间信息提取技术可用于辅助招聘/求职人员对招聘信息的报名时间的准确监控,进而准确把控招聘情况。
参照图2,在一个实施例中,上述按照模式匹配规则对所述文本内容中的报名时间进行位置定位之前,还包括:
S21、获取训练样本,所述训练样本为多篇招聘信息;
S22、基于初始模式匹配规则对所述招聘信息中的报名时间进行定位,进而得到初始定位结果;
S23、根据预设的调整规则对所述初始定位结果进行调整,得到目标定位结果;
S24、基于所述目标定位结果对所述初始模式匹配规则进行修正,得到模式匹配规则。
如上所述,为后续能直接基于模式匹配规则自主对招聘信息中的文本内容的报名时间进行位置定位,可预先根据需求训练出对应的模式匹配规则,具体的,首先,获取用于训练的多篇招聘信息(训练样本),该招聘信息为公开网站上公开发布并经过授权使用的招聘信息,该招聘信息为具有完整篇幅的招聘信息,招聘信息中包括发布时间、截止时间、具体招聘要求、工作内容以及福利待遇等信息;根据预设的初始模式匹配规则对上述招聘信息中的发布时间、截止时间进行识别,然后,再基于具体的识别结果对发布时间、截止时间进行位置定位,进而得到对报名时间的初始定位结果,基于该初始定位结果仅仅为粗略的时间定位结果,其中可能存在报名时间识别不准确,报名时间定位不完全等问题,基于此,还将根据预设的调整规则对该初始定位结果进行调整,和/或基于人工审核结果对该初始定位结果进行调整,以提高其定位结果的准确性,进而得到高置信度的目标定位结果,该目标定位结果指的是对文本中的发布时间、截止时间的定位情况符合预期要求,其产生的偏差在可接受的范围内;最后,以根据该目标定位结果对应的定位方法对初始模式匹配规则进行修正,即可得到符合要求的模式匹配规则,该模式匹配规则具备自主对招聘信息中的文本内容的报名时间进行位置定位,以获取符合预期定位要求的时间定位性能。
在一个实施例中,上述调整规则为:
如上所述,根据调整规则对初始定位结果进行调整时,是基于对文本信息中的时间信息的识别结果进行调整,其中,时间信息的识别结果包括正确识别和错误识别,通过分别统计正确识别的数量和错误识别的数量,再依据统计结果进行置信度度分值计算,并将置信度分值与预设阈值进行比较,当置信度分值小于预设阈值,则判定该识别、定位不符合预期,进而需要调整,使其达到要求的置信度分值;若当置信度分值大于预设阈值,则判定该识别、定位满足要求,而无需进行调整。
在一个实施例中,上述判断所述描述文本候选集中的文本信息是否为空之后,还包括:
若所述描述文本候选集中的文本信息为空,则终止对所述招聘信息的报名时间的提取。
如上所述,为简化对招聘信息的报名时间的提取流程,保证报名时间提取的有效性,在通过判断描述文本候选集中的文本信息是否为空,进而筛分出文本信息为空的描述文本候选集之后,对于文本信息为空的描述文本候选集,则终止对该招聘信息的报名时间的提取,基于此,避免了对没有文本信息的描述文本候选集进行无效提取,简化了对招聘信息的报名时间的提取流程,一定程度上提高了对报名时间的提取效率。
参照图3,在一个实施例中,上述从所述描述文本候选集中读取所述文本信息之前,还包括:
S41、计算所述描述文本候选集中各所述文本信息的定位置信度分值;
S42、依据所述定位置信度分值的大小,将各所述文本信息进行排序,进而得到所述文本信息的排序序列。
如上所述,为准确提取招聘信息中的报名时间,需以定位置信度分值最高的文本信息进行报名时间提取,基于此,为获取置信度分值最高的文本信息,还需将描述文本候选集中的各文本信息进行排序,具体的,分别计算描述文本候选集中各文本信息的定位置信度分值,进而得到与各自文本信息一一对应定位置信度分值,其中,定位置信度分值指的是对文本信息中的报名时间的位置定位的准确度,对于定位置信度分值的计算公式可为任意置信度计算公式,在此不做限定;然后,依据该定位置信度分值的大小关系将各文本信息进行置信度排序,其排序为按照升序的顺序进行排序,或者,按照降序的顺序进行排序,进而得到文本信息的排序序列,基于该排序序列,即可得到置信度分值最高的文本信息。
在一个实施例中,上述从所述描述文本候选集中读取所述文本信息,包括:
根据所述排序序列从所述描述文本候选集中读取所述定位置信度分值最高的所述文本信息。
如上所述,根据定位置信度分值的排序序列从描述文本候选集中读取分值最高的文本信息,该定位置信度分值最高的文本信息中,对于报名时间的位置定位相较于其他文本信息,其最为准确,后续以该文本信息进行报名时间提取时,一定程度上提高了对报名时间提取的准确性。
在一个实施例中,上述判断所述文本信息是否从发布开始计算所述报名时间,包括:
根据所述文本信息中是否存在预设的标志语而判断所述文本信息是否从发布开始计算所述报名时间。
如上所述,基于对招聘信息的统计发现在招聘信息中,在完成报名时间的表述之后,在表述其他时间信息时,其会出现名词+动词或者动词+名词的表达形式,基于此,对于报名时间的精确识别、提取,可根据文本信息中是否存在预设的标志语(表达形式)而判断该文本信息是否从发布开始计算报名时间。在一个实施例中,招聘信息的报名时间是从公告发布之日起算,其表达式为“报名时间从公告发布之日起至*月*日截止”基于这样的表达式,只需识别出其标志语(表达形式),即可判断出该文本信息是否从发布开始计算所述报名时间。
在一个实施例中,上述判断所述文本信息是否从发布开始计算所述报名时间之后,还包括:
若所述文本信息是从发布开始计算所述报名时间,则基于所述文本信息提取所述招聘信息的发布日期和截止时间节点。
如上所述,当文本信息是从发布开始计算报名时间的,则直接对该文本信息中的发布时间和截止时间进行提取,即可得到招聘信息的发布日期和截止时间节点。在一个实施例中,某招聘信息的报名时间的表达式为“报名时间从公告发布之日起至*月*日截止”基于此,确定了该招聘信息是从发布开始计算其报名时间,因此,直接提取出该表达式,即得到该招聘信息包括发布日期和截止时间节点的报名时间。
参照图4,在一个实施例中,上述对所述文本信息进行词性检查,以获取检查文本,包括:
S51、读取所述文本信息中的第一有效时间节点,并基于所述第一有效时间节点遍历所述文本信息以检查每一个词语的词性;
S52、将与所述第一有效时间节点相同的所述词性进行记录,将与所述第一有效时间节点不相同的所述词性省略,进而得到检查文本。
如上所述,部分招聘信息中,其文本信息中没有标志语表明该报名时间是从公告发布之日起开始计算,进而导致无法以直接提取表达式的方式提取出招聘信息的报名时间,其需要通过检查词性的方式确定招聘信息的报名时间,具体的,读取文本信息中的第一有效时间节点(文本信息中第一个有效的时间节点),根据该第一有效时间节点遍历文本信息以检查每一个词语的词性,如果遇到动词+名词或者名词+动词的短语结构,则判定文本描述的信息进入了其他环节,后面的时间信息不再作为有效的报名时间进行考虑,仅将与第一有效时间节点相同的词性进行记录,进而得到检查文本,该检查文本中明确了招聘信息的发布时间(开始时间)截止时间节点,后续可直接依据该检查文本提取出该招聘信息的报名时间。
在一个实施例中,上述所述获取招聘信息,包括:
在第三方公开网站和/或招聘网站中获取招聘信息。
如上所述,在第三方公开网站和/或招聘网站中获取需要对招聘时间节点进行把控的招聘信息。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述方法包括:
获取招聘信息,并读取所述招聘信息中的文本内容;
按照模式匹配规则对所述文本内容中的报名时间进行位置定位,得到描述文本候选集;
判断所述描述文本候选集中的文本信息是否为空;
若文本信息不为空,则从所述描述文本候选集中读取所述文本信息,并判断所述文本信息是否从发布开始计算所述报名时间;
若不是从发布开始计算所述报名时间,则对所述文本信息进行词性检查,以获取检查文本;
基于所述检查文本提取所述招聘信息的发布日期和截止时间节点。
2.根据权利要求1所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述按照模式匹配规则对所述文本内容中的报名时间进行位置定位之前,还包括:
获取训练样本,所述训练样本为多篇招聘信息;
基于初始模式匹配规则对所述招聘信息中的报名时间进行定位,进而得到初始定位结果;
根据预设的调整规则对所述初始定位结果进行调整,得到目标定位结果;
基于所述目标定位结果对所述初始模式匹配规则进行修正,得到模式匹配规则。
3.根据权利要求2所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述调整规则为:
4.根据权利要求1所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述判断所述描述文本候选集中的文本信息是否为空之后,还包括:
若所述描述文本候选集中的文本信息为空,则终止对所述招聘信息的报名时间的提取。
5.根据权利要求1所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述从所述描述文本候选集中读取所述文本信息之前,还包括:
计算所述描述文本候选集中各所述文本信息的定位置信度分值;
依据所述定位置信度分值的大小,将各所述文本信息进行排序,进而得到所述文本信息的排序序列。
6.根据权利要求5所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述从所述描述文本候选集中读取所述文本信息,包括:
根据所述排序序列从所述描述文本候选集中读取所述定位置信度分值最高的所述文本信息。
7.根据权利要求1所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述判断所述文本信息是否从发布开始计算所述报名时间,包括:
根据所述文本信息中是否存在预设的标志语而判断所述文本信息是否从发布开始计算所述报名时间。
8.根据权利要求1所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述判断所述文本信息是否从发布开始计算所述报名时间之后,还包括:
若所述文本信息是从发布开始计算所述报名时间,则基于所述文本信息提取所述招聘信息的发布日期和截止时间节点。
9.根据权利要求1所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述对所述文本信息进行词性检查,以获取检查文本,包括:
读取所述文本信息中的第一有效时间节点,并基于所述第一有效时间节点遍历所述文本信息以检查每一个词语的词性;
将与所述第一有效时间节点相同的所述词性进行记录,将与所述第一有效时间节点不相同的所述词性省略,进而得到检查文本。
10.根据权利要求1所述的基于模式匹配和词性标注的报名时间提取方法,其特征在于,所述获取招聘信息,包括:
在第三方公开网站和/或招聘网站中获取招聘信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310881626.7A CN116881582B (zh) | 2023-07-18 | 2023-07-18 | 基于模式匹配和词性标注的报名时间提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310881626.7A CN116881582B (zh) | 2023-07-18 | 2023-07-18 | 基于模式匹配和词性标注的报名时间提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881582A true CN116881582A (zh) | 2023-10-13 |
CN116881582B CN116881582B (zh) | 2024-02-13 |
Family
ID=88254575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310881626.7A Active CN116881582B (zh) | 2023-07-18 | 2023-07-18 | 基于模式匹配和词性标注的报名时间提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881582B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
CN110795932A (zh) * | 2019-09-30 | 2020-02-14 | 中国地质大学(武汉) | 基于地质本体的地质报告文本信息提取方法 |
CN111177418A (zh) * | 2019-12-25 | 2020-05-19 | 深圳市优必选科技股份有限公司 | 一种时间文本的获取方法、设备及存储介质 |
CN111444330A (zh) * | 2020-03-09 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 提取短文本关键词的方法、装置、设备及存储介质 |
US20210019688A1 (en) * | 2019-07-16 | 2021-01-21 | Titan Data Group Inc. | System and method for intelligent recruitment management |
CN113515587A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种标的物信息提取方法、装置、计算机设备及存储介质 |
CN114117017A (zh) * | 2021-12-06 | 2022-03-01 | 携程旅游信息技术(上海)有限公司 | 会话信息提取方法、系统、设备及存储介质 |
-
2023
- 2023-07-18 CN CN202310881626.7A patent/CN116881582B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
US20210019688A1 (en) * | 2019-07-16 | 2021-01-21 | Titan Data Group Inc. | System and method for intelligent recruitment management |
CN110795932A (zh) * | 2019-09-30 | 2020-02-14 | 中国地质大学(武汉) | 基于地质本体的地质报告文本信息提取方法 |
CN111177418A (zh) * | 2019-12-25 | 2020-05-19 | 深圳市优必选科技股份有限公司 | 一种时间文本的获取方法、设备及存储介质 |
CN111444330A (zh) * | 2020-03-09 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 提取短文本关键词的方法、装置、设备及存储介质 |
CN113515587A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种标的物信息提取方法、装置、计算机设备及存储介质 |
CN114117017A (zh) * | 2021-12-06 | 2022-03-01 | 携程旅游信息技术(上海)有限公司 | 会话信息提取方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116881582B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021043085A1 (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN109102844B (zh) | 一种临床试验源数据自动校验方法 | |
AU2019278845A1 (en) | Post-filtering of named entities with machine learning | |
CN106202030B (zh) | 一种基于异构标注数据的快速序列标注方法及装置 | |
CN112307820B (zh) | 文本识别方法、装置、设备和计算机可读介质 | |
CN112151014B (zh) | 语音识别结果的测评方法、装置、设备及存储介质 | |
CN112529012A (zh) | 基于目标匹配的油气管道巡检方法、装置、设备及介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN115100668A (zh) | 识别图像中表格信息的方法和装置 | |
CN116881582B (zh) | 基于模式匹配和词性标注的报名时间提取方法 | |
CN114880431A (zh) | 一种基于prompt的事件论元抽取方法及系统 | |
CN110750637B (zh) | 文本摘要提取方法、装置、计算机设备及存储介质 | |
CN113627892B (zh) | 一种bom数据的识别方法及其电子设备 | |
CN114358032A (zh) | 一种机器翻译错误检测模型训练方法、装置、设备及介质 | |
CN113111869B (zh) | 提取文字图片及其描述的方法和系统 | |
CN112801013B (zh) | 一种基于关键点识别校验的人脸识别方法、系统及装置 | |
CN112863493A (zh) | 语音数据标注方法和装置,电子设备 | |
CN113569005A (zh) | 一种基于数据内容的大规模数据特征智能化提取方法 | |
CN112800281A (zh) | 工程造价数据的处理方法及装置 | |
CN111078869A (zh) | 基于神经网络对金融网站进行分类的方法及装置 | |
CN112380856A (zh) | 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质 | |
CN116842128B (zh) | 一种文本关系抽取方法、装置、计算机设备及存储介质 | |
CN111221995B (zh) | 一种基于大数据和集合理论的序列匹配方法 | |
CN113887361B (zh) | 一种文献校对方法、系统、存储介质及设备 | |
CN116991983B (zh) | 一种面向公司资讯文本的事件抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |