CN113673221A - 基于ac自动机的对象提取方法及装置 - Google Patents
基于ac自动机的对象提取方法及装置 Download PDFInfo
- Publication number
- CN113673221A CN113673221A CN202111223728.7A CN202111223728A CN113673221A CN 113673221 A CN113673221 A CN 113673221A CN 202111223728 A CN202111223728 A CN 202111223728A CN 113673221 A CN113673221 A CN 113673221A
- Authority
- CN
- China
- Prior art keywords
- automaton
- extracted
- soh
- time
- object extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理领域,具体涉及一种基于AC自动机的对象提取方法及装置;所述方法包括:根据待提取对象的预设形式构建AC自动机;获取包含至少一待提取对象的文本信息,通过所述AC自动机对所述文本信息进行提取,得到所述待提取对象的至少一特征元素及对应的地址信息;根据所述地址信息对所述至少一特征元素进行合并处理,得到所述对象提取结果。所述方法及装置通过根据提取对象的预设形式构建的AC自动机对该对象进行提取,能够快捷、准确且高效的从文本中获取到所提取的对象。
Description
技术领域
本申请涉及数据处理领域,具体涉及一种基于AC自动机的对象提取方法及装置。
背景技术
如今在企业交流以及人们日常交流中,文本信息中的信息量非常大。在各种场景中,文本信息中的时间信息是不可忽视的客观信息,因此,从大量的文本信息中提取准确的时间信息变得十分重要。现有技术中,从文本信息中提取时间信息的方法通常是通过正则表达式进行提取,但由于正则引擎的回溯性特性,应用正则表达式在从包含大量数字的文本中提取日期/时间字符串时,其提取性能较差且可能发生严重的回溯现象;此外,在提取多种格式的日期/时间字符串时正则表达式往往被当作一个黑盒子,其内部即使一个很小的变化也可能导致正则表达式产生完全不同的提取结果,因而难以实现对其较为便捷的维护。因此,亟需提供一种新的提取方法以解决现有技术中存在的上述问题。
发明内容
本申请的目的在于提供一种本申请涉及数据处理领域,具体涉及一种基于AC自动机的对象提取方法及装置,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的文本信息中对象提取不够准确的问题。
根据本申请的一个方面,提供一种基于AC自动机的对象提取方法,包括以下步骤:
根据待提取对象的预设形式构建AC自动机;
获取包含至少一待提取对象的文本信息,通过所述AC自动机对所述文本信息进行提取,得到所述待提取对象的至少一特征元素及对应的地址信息;
根据所述地址信息对所述至少一特征元素进行合并处理,得到所述对象提取结果。
在一示例性实施例中,所述根据待提取对象的预设形式构建AC自动机包括:
对所述待提取对象的预设形式进行拆分得到至少一特征元素,以及对所述至少一特征元素进行编码得到所述特征元素对应的字符串;
根据所述至少一特征元素对应的字符串构建所述AC自动机。
在一示例性实施例中,所述根据所述至少一特征元素对应的字符串构建所述AC自动机包括:
根据所述至少一特征元素对应的字符串构建构建字典树;
对所述字典树添加失配指针及确定所述字典树的模式匹配。
在一示例性实施例中,所述对所述待提取对象的预设形式进行拆分得到至少一特征元素包括:
对待提取时间的预设形式进行拆分得到所述特征元素为年份、月份及天数。
在一示例性实施例中,所述根据所述地址信息对所述至少一特征元素进行合并处理包括:
按照各特征元素在所述文本信息中的位置依次对同一待提取对象的特征信息进行合并处理。
在一示例性实施例中,在根据所述地址信息对所述至少一特征元素进行合并处理之前,还包括:
根据所述待提取对象的预设规则对所述对象提取结果进行校验。
在一示例性实施例中,在根据所述地址信息对所述至少一特征元素进行合并处理之后,还包括
根据所述待提取对象的预设规则对所述对象提取结果进行校验。
根据本申请的另一方面,提供一种基于AC自动机的对象提取装置,包括:
自动机构建模块,用于根据待提取对象的预设形式构建AC自动机;
提取模块,用于获取包含至少一待提取对象的文本信息,并通过所述AC自动机对所述文本信息进行提取得到所述待提取对象的至少一特征元素及对应的地址信息;
合并模块,用于根据所述地址信息对所述至少一特征元素进行合并处理得到所述对象提取结果。
根据本申请的另一方面,提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
根据本申请的另一方面,提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法。
本申请提供了一种基于AC自动机的对象提取方法及装置,所述方法通过AC自动机将待提取对象拆分成具体的特征元素进行提取,并在获取特征元素后根据其地址进行合并及相关处理,能够准确的对文本中的对象进行提取。此外,所述方法通过时间的预设形式构建的AC自动机进行时间提取,能够涵盖文本信息中的各种时间表述,对文本中的各个不同类型的时间信息进行识别,可以至少部分地解决相关技术中对于文本中的时间进行实体识别或解析的方法规则单一,无法将一些场景下的文本时间描述形式给解析出来或者表示出来的技术问题。
附图说明
图1是本申请实施例中一种基于AC自动机的对象提取方法的流程示意图;
图2是本申请实施例中一种AC自动机的结构示意图;
图3是本申请实施例中另一种AC自动机的结构示意图;
图4是本申请实施例中一种基于AC自动机的对象提取装置的结构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合附图本申请实施方式及实施例中的技术方案进行清楚、完整地描述。然而,示例实施方式及实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式及实施例使得本申请将更加全面和完整,并将示例实施方式及实施例的构思全面地传达给本领域的技术人员。本申请所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式及实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式及实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如今在企业交流以及人们日常交流中,文本信息中的信息量非常大。在各种场景中文本信息中的时间信息是不可忽视的客观信息,因此,从大量的文本信息中提取准确的时间信息变得十分重要。现有技术中,从文本信息中提取时间信息的方法通常是通过正则表达式进行提取,但由于正则引擎具有回溯性的特性,应用正则表达式在从包含大量数字的文本中提取日期/时间字符串时,其提取性能较差且可能发生严重的回溯现象;此外,在提取多种格式的日期/时间字符串时正则表达式往往被当作一个黑盒子,其内部即使一个很小的变化也可能导致正则表达式产生完全不同的提取结果,因而难以实现对其较为便捷的维护。
鉴于相关技术中存在的上述问题,本申请提供了一种基于AC自动机的对象提取方法及装置,所述方法包括:根据待提取对象的预设形式构建AC自动机;获取包含至少一待提取对象的文本信息,通过所述AC自动机对所述文本信息进行提取,得到所述待提取对象的至少一特征元素及对应的地址信息;根据所述地址信息对所述至少一特征元素进行合并处理,得到所述对象提取结果。所述方法通过AC自动机将待提取对象拆分成具体的特征元素进行提取,并在获取特征元素后根据其地址进行合并及相关处理,能够准确的对文本中的对象进行提取。此外,所述方法通过时间的预设形式构建的AC自动机进行时间提取,能够涵盖文本信息中的各种时间表述,对文本中的各个不同类型的时间信息进行识别,可以至少部分地解决相关技术中对于文本中的时间进行实体识别或解析的方法规则单一,无法将一些场景下的文本时间描述形式给解析出来或者表示出来的技术问题。
本申请提供的基AC自动机的对象提取方法能够用于诸如通过手机或其他通信终端接收或发送的信息中的对象进行提取,也即所述基于AC自动机的对象提取方法可以通过终端设备实现,终端设备可以执行该方法中的各个步骤。终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等移动终端以及诸如数字TV、台式计算机等等的固定终端。对应的基于AC自动机的对象提取装置也可以存储与上述各终端设备中。以下以对文本信息中的时间(日期)提取为例,针对所述基于AC自动机的对象提取方法作详细示例性说明,但应该理解,任一示例性实施例均不应被理解为对所述基于AC自动机的对象提取方法的限制性阐述。
本申请一示例性实施例提供了一种基于AC自动机的对象提取方法,图1是本申请示例性实施例中一种基于AC自动机的对象提取方法的流程示意图。如图1所示,所述基于AC自动机的对象提取方法包括以下步骤:
步骤S11:根据待提取对象的预设形式构建AC自动机;
AC自动机(Aho-Corasick automaton)系一种基于字典树的的多模匹配算法,常用于统计和排序大量的字符串(但不仅限于字符串)及搜索引擎系统的文本词频统计。其中,字典树系一种一对多的字符串匹配算法,又称前缀树、Trie树或单词查找树。字典树具有利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较等特点。字典树的结构包括顶层的根节点及依次降级的父子节点,其中根节点不存储任何字符,除根节点外每一个节点均只存储一个字符;从根节点到某一节点的路径上经过的字符连接起来即为该节点对应的字符串,并且每个节点的所有子节点包含的字符可以均不相同。
在一示例性实施例中,步骤S11还可以包括:对所述待提取对象的预设形式进行拆分得到至少一特征元素,以及对所述至少一特征元素进行编码得到所述特征元素对应的字符串;根据所述至少一特征元素对应的字符串构建所述AC自动机。
在应用本申请提供的基于AC自动机的对象提取方法对终端设备接收或发送的消息中时间进行提取时,所述提取对象即为该消息中的时间,而在实际应用中同一时间存在着多种表示形式。示例性的,对于时间“2021年10月1日14时28分36秒”,其在文本中可以表示为“2021-10-1 14:28:36”、“2021.10.1 14:28:36”、“2021.10.1 14时28分36秒”、“2021-10-1下午2点28分36秒”、 “2021/10/1/14/28/36/”,也可以省略年份表示为“10月1日14时28分36秒”,还可以只表示具体的事件诸如“14时28分36秒”、“下午两点28”等多种不同的方式,此外对于部分时间也存在着省略表示的形式,例如10月01日即省略表示为10月1日。因此在构建AC自动机之前,首先需要预先定义所提取的时间的表示形式。在一示例性实施例中预先定义所提取的时间的表示形式如表1所示,其系在构建AC自动机的过程中所包含的所有时间(日期)的表示形式。可以理解,另一示例性实施例也可以仅根据部分常见的时间表示形式构建AC自动机,因而该AC自动机仅用于相应形式的时间提取。其中,每个表示形式可以拆分为多个特征元素,可选地,特征元素可以是组成时间(日期)的最小元素,例如年、月、日、时、分、秒及毫秒、微秒等均可作为一个特征元素;可选地,特征元素也可以是多个的最小元素的组合,例如年—月、月—日、时—分、秒—毫秒—微秒等;亦可选地,每个表示形式也可以仅包含一个特征元素,例如当待提取的时间为“17日”或“5时”,该时间即仅包含一个特征元素。在一示例性实施例中,将特征元素中的数字字符均编码为同一个不可输入的字符(SOH),而在应用AC自动机进行时间提取时则可以将(SOH)转译任意数字。示例性的,[SOH]n表示连续的n个SOH字符(如 [SOH]2=[SOH][SOH])。
表1:部分时间特征元素字符串编码
时间 | 类型 | 描述 | 字符串 |
yyyy年 | YEAR | 年 | [SOH]<sub>4</sub>年 |
yy年 | YEAR | 年 | [SOH]<sub>2</sub>年 |
MM月 | MONTH | 月 | [SOH]<sub>2</sub>月 |
M月 | MONTH | 月 | [SOH]月 |
dd日 | DAY | 日 | [SOH]<sub>2</sub>日 |
d日 | DAY | 日 | [SOH]日 |
HH时 | HOUR | 时 | [SOH]<sub>2</sub>时 |
H时 | HOUR | 时 | [SOH]时 |
mm分 | MINUTE | 分 | [SOH]<sub>2</sub>分 |
m分 | MINUTE | 分 | [SOH]分 |
ss秒 | SECOND | 秒 | [SOH]<sub>2</sub>秒 |
s秒 | SECOND | 秒 | [SOH]秒 |
MM-dd | DATE | 日期 | [SOH]<sub>2</sub>-[SOH]<sub>2</sub> |
MM-d | DATE | 日期 | [SOH]2-[SOH]2 |
M-dd | DATE | 日期 | [SOH]2-[SOH]2 |
M-d | DATE | 日期 | [SOH]-[SOH] |
yyyy-MM-dd | YEAR_DATE | 年月日 | [SOH]<sub>2</sub>-[SOH]<sub>2</sub>-[SOH]<sub>2</sub> |
yyyy-MM-d | YEAR_DATE | 年月日 | [SOH]<sub>4</sub>-[SOH]<sub>2</sub>-[SOH] |
yyyy-M-dd | YEAR_DATE | 年月日 | [SOH]<sub>4</sub>-[SOH]-[SOH]<sub>2</sub> |
yyyy-M-d | YEAR_DATE | 年月日 | [SOH]<sub>4</sub>-[SOH]-[SOH] |
yy-MM-dd | YEAR_DATE | 年月日 | [SOH]<sub>2</sub>-[SOH]<sub>2</sub>-[SOH]<sub>2</sub> |
yy-MM-d | YEAR_DATE | 年月日 | [SOH]<sub>2</sub>-[SOH]<sub>2</sub>-[SOH] |
yy-M-dd | YEAR_DATE | 年月日 | [SOH]<sub>2</sub>-[SOH]-[SOH]<sub>2</sub> |
yy-M-d | YEAR_DATE | 年月日 | [SOH]<sub>2</sub>-[SOH]-[SOH] |
HH:mm | TIME | 时间 | [SOH]<sub>2</sub>:[SOH]<sub>2</sub> |
HH:m | TIME | 时间 | [SOH]<sub>2</sub>:[SOH] |
H:mm | TIME | 时间 | [SOH]:[SOH]<sub>2</sub> |
H:m | TIME | 时间 | [SOH]:[SOH] |
HH:mm:ss | TIME | 时间 | [SOH]<sub>2</sub>:[SOH]<sub>2</sub>:[SOH]<sub>2</sub> |
在一示例性实施例中,根据所述至少一特征元素对应的字符串构建所述AC自动机还可以包括:根据所述至少一特征元素对应的字符串构建字典树;对所述字典树添加失配指针;以及确定所述字典树的模式匹配。通过输入字符串集合构建字典树,其中每个字符串中的每个字符存储于字典树的节点,其中每个节点表示由根节点到该节点途径字符组成的字符串。
在一示例性实施例中,根据所述待提取对象的预设形式将所述待提取对象拆分为至少一个特征元素可以是将各种时间(日期)拆分成最小的且无歧义的最小时间(日期)元素,具体而言,对于所提取的时间“2021年10月1日14时28分36秒”,其表示形式为XXXX年XX月X日XX时XX分XX秒,分别以年、月、日、时、分、秒为特征元素将其拆分为2021年、10月、1日、14时、28分、36秒等六个特征元素。将每一特征元素中的数据进行编码,示例性的以字符(SOH)对上述特征元素进行编码得到(SOH)4年、(SOH)2月、(SOH)日、(SOH)2时、(SOH)2分、(SOH)2秒。以其构建AC自动机如图2所示;在另一实施例中,待提取的对象还包括“21.8.27”,其表示形式为XX.XX.X,对其特征元素进行编码得到(SOH)2年、(SOH)1月、(SOH)2日,因而以上述二时间构建AC自动机如图3所示。在另一示例性实施例中,所述特征元素可以是多个最小时间(日期)元素,例如“2021年10月1日14时28分36秒”可以拆分为“2021年10月1日”和“14时28分36秒”,也可以拆分成“2021年10月”、“1日14时”和“28分36秒”,还可以拆分成“2021年”和“10月1日14时28分36秒”,总之,对于某一个特征元素,其可以是一个最小时间(日期)元素,也可以包含有多个最小时间(日期)元素,本申请所作部分示例性说明并不构成对本申请技术方案的任何限制。
步骤S13:获取包含至少一预设形式的待提取对象的文本信息,通过所述AC自动机对所述文本信息进行提取,得到所述待提取对象的至少一特征元素及对应的地址信息;
由于AC自动机系根据预先定义的时间表示形式所构建,因而该AC自动机也只能从包含该时间形式的文本信息中提取出符合该表示形式的时间。例如图2所示的AC自动机以XXXX年XX月X日XX时XX分XX秒表示形式构建,其仅能提取该形式的时间,而图3所示AC自动机的构建还包含了XX.XX.X这一时间形式,因而其可以提取上述两种表示形式的时间。优选的,一示例性实施例中构建AC自动机的特征元素如表1所示,其系在构建AC自动机的过程中考虑到了所有时间(日期)的表示形式,并据此构建AC自动机,因而对于文本信息中所包含的所有时间/日期均能予以识别提取,从而得到每一时间的特征元素。可以理解,另一实施例也可以仅根据部分常见的时间表示形式构建AC自动机,因而该AC自动机仅用于相应形式的时间提取。其中,所述特征元素为组成时间(日期)的最小元素,例如年、月、日、时、分、秒及毫秒、微秒等均可作为一个特征元素。示例性的,针对某一提取对象,其可以包含多个特征元素,也可以仅包含一个特征元素,例如当待提取的时间为“17日”或“5时”,该时间即仅包含一个特征元素。其次,对于终端设备接收或发送的文本信息,其包含的每一字符或字段均具有与该字符或字段对应的地址信息,因此,AC自动机在识别提取该文本信息中时间的特征元素时,还提取倒该特征元素的地址信息,该地址信息能够用于定位该特征元素在文本中的位置,从而确定该特征元素与其前后特征元素的位置关系。
步骤S15:根据所述地址信息对所述至少一特征元素进行合并处理,得到所述对象提取结果。
如上示例,对于包含时间“2021年10月1日14时28分36秒”及“21.8.27”的文本信息,提取到的特征元素包括:2021年、21年、10月、8月、1日、27日、14时、28分、36秒,在该文本信息中每一特征元素对应有唯一地址信息,因而根据地址信息对其进行合并。具体而言,当根据位置信息判断到2021年与10月的位置相邻时,将其合并为2021年10月,其次再判断到10月与1日相邻时,将2021年与10月与1日为2021年与10月1日,依次对时分秒等特征元素进行合并,最终得到“2021年10月1日14时28分36秒”这一时间。
在一示例性实施例中,所述基于AC自动机的对象提取方法还包括:根据预设规则对所述对象提取结果进行校验。在一些情况下文本信息可能包含并非表示时间的数字,例如以文本信息同时包含时间“8.27”及金额“25.12”元、“10.98”千克等。此时便需要结合时间的特征条件对对象提取结果校验,以筛除其并非时文本信息中时间的结果。例如“25.12”、“10.98”在被提取为“月日”的情况下,可结合月份的取值应为1至12之间,天数的取值应为1至31日之间这一特征将该结果予筛除。可选地,根据所述待提取对象的预设规则对所述对象提取结果进行校验可以是在根据所述至少一特征元素对应的字符串构建所述AC自动机之前,即对于所提取的特征元素中不符合时间规则的予以筛除;然而根据所述待提取对象的预设规则对所述对象提取结果进行校验也可以是在根据所述至少一特征元素对应的字符串构建所述AC自动机之后,即在得到最终所提取的时间以后对其中不符合时间格式的予以筛除;亦可选地,还可以在根据所述至少一特征元素对应的字符串构建所述AC自动机之前及之后均进行校验,以提供提取结果的准确性。再一可选例中,对于在通过所述AC自动机对所述文本信息进行提取的过程中存在重复提取或交叉提取的情形,例如对于时间“2021年10月1日”所提取的特征元素为“2021年10月”及“10月1日”,则在进行校验的过程中将后羿特征元素中的重复部分作删除处理,从而保障所提取时间的准确性及有效性。
本申请另一示例性实施例提供了一种基于AC自动机的对象提取装置,图4是本申请示例性实施例中一种基于AC自动机的对象提取装置的结构示意图。如图4所示,基于AC自动机的对象提取装置40包括:
自动机构建模块42,用于根据待提取对象的预设形式构建AC自动机;
提取模块44,用于获取包含至少一待提取对象的文本信息,并通过所述AC自动机对所述文本信息进行提取得到所述待提取对象的至少一特征元素及对应的地址信息;
合并模块46,用于根据所述地址信息对所述至少一特征元素进行合并处理得到所述对象提取结果。
上述装置中各模块/单元的具体细节已经在对应的方法部分进行了详细的描述,此处不再赘述。应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
除上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
本申请的另一实施方式提供了一种电子设备,可以用于执行本示例实施方式中所述方法或网络控制方法的全部或者部分步骤。所述装置包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本说明书上述“示例性方法”中描述的根据本申请各种实施例的方法中的步骤。
本申请的另一实施方式提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于AC自动机的对象提取方法,其特征在于,包括以下步骤:
根据待提取对象的预设形式构建AC自动机;
获取包含至少一待提取对象的文本信息,通过所述AC自动机对所述文本信息进行提取,得到所述待提取对象的至少一特征元素及对应的地址信息;
根据所述地址信息对所述至少一特征元素进行合并处理,得到所述对象提取结果。
2.根据权利要求1所述的基于AC自动机的对象提取方法,其特征在于,所述根据待提取对象的预设形式构建AC自动机包括:
对所述待提取对象的预设形式进行拆分得到至少一特征元素,以及对所述至少一特征元素进行编码得到所述特征元素对应的字符串;
根据所述至少一特征元素对应的字符串构建所述AC自动机。
3.根据权利要求2所述的基于AC自动机的对象提取方法,其特征在于,所述根据所述至少一特征元素对应的字符串构建所述AC自动机包括:
根据所述至少一特征元素对应的字符串构建字典树;
对所述字典树添加失配指针及确定所述字典树的模式匹配。
4.根据权利要求2所述的基于AC自动机的对象提取方法,其特征在于,所述对所述待提取对象的预设形式进行拆分得到至少一特征元素包括:
对待提取时间的预设形式进行拆分得到所述特征元素为年份、月份及天数。
5.根据权利要求1所述的基于AC自动机的对象提取方法,其特征在于,所述根据所述地址信息对所述至少一特征元素进行合并处理包括:
按照各特征元素在所述文本信息中的位置信息依次对同一待提取对象的特征信息进行合并处理。
6.根据权利要求1所述的基于AC自动机的对象提取方法,其特征在于,在根据所述地址信息对所述至少一特征元素进行合并处理之前,还包括:
根据所述待提取对象的预设规则对所述对象提取结果进行校验。
7.根据权利要求1所述的基于AC自动机的对象提取方法,其特征在于,在根据所述地址信息对所述至少一特征元素进行合并处理之后,还包括:
根据所述待提取对象的预设规则对所述对象提取结果进行校验。
8.一种基于AC自动机的对象提取装置,其特征在于,包括:
自动机构建模块,用于根据待提取对象的预设形式构建AC自动机;
提取模块,用于获取包含至少一待提取对象的文本信息,并通过所述AC自动机对所述文本信息进行提取得到所述待提取对象的至少一特征元素及对应的地址信息;
合并模块,用于根据所述地址信息对所述至少一特征元素进行合并处理得到所述对象提取结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7任一项所述的基于AC自动机的对象提取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于AC自动机的对象提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223728.7A CN113673221A (zh) | 2021-10-21 | 2021-10-21 | 基于ac自动机的对象提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111223728.7A CN113673221A (zh) | 2021-10-21 | 2021-10-21 | 基于ac自动机的对象提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673221A true CN113673221A (zh) | 2021-11-19 |
Family
ID=78550629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111223728.7A Pending CN113673221A (zh) | 2021-10-21 | 2021-10-21 | 基于ac自动机的对象提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673221A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372105A1 (en) * | 2012-03-13 | 2014-12-18 | Pratyusa Kumar Manadhata | Submatch Extraction |
CN110222143A (zh) * | 2019-05-31 | 2019-09-10 | 北京小米移动软件有限公司 | 字符串匹配方法,装置,存储介质及电子设备 |
CN113051925A (zh) * | 2019-12-26 | 2021-06-29 | 中国移动通信集团有限公司 | 时间识别方法、装置、设备及计算机存储介质 |
-
2021
- 2021-10-21 CN CN202111223728.7A patent/CN113673221A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372105A1 (en) * | 2012-03-13 | 2014-12-18 | Pratyusa Kumar Manadhata | Submatch Extraction |
CN110222143A (zh) * | 2019-05-31 | 2019-09-10 | 北京小米移动软件有限公司 | 字符串匹配方法,装置,存储介质及电子设备 |
CN113051925A (zh) * | 2019-12-26 | 2021-06-29 | 中国移动通信集团有限公司 | 时间识别方法、装置、设备及计算机存储介质 |
Non-Patent Citations (1)
Title |
---|
汪洋等: "基于Trie树和有限状态自动机的中文地址解析模型", 《计算机与现代化》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
US10592236B2 (en) | Documentation for version history | |
CN111325022B (zh) | 识别层级地址的方法和装置 | |
US20230087421A1 (en) | Systems and methods for generalized structured data discovery utilizing contextual metadata disambiguation via machine learning techniques | |
CN110738055A (zh) | 文本的实体识别方法、设备及存储介质 | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
Baradaran et al. | A model for evaluation and development of citizens' electronic readiness for deployment of an E-city using structural equation modeling | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN113673221A (zh) | 基于ac自动机的对象提取方法及装置 | |
CN110659208A (zh) | 测试数据集的更新方法和装置 | |
CN112509581B (zh) | 语音识别后文本的纠错方法、装置、可读介质和电子设备 | |
CN114020774A (zh) | 多轮问答语句的处理方法、装置、设备及存储介质 | |
CN114338846B (zh) | 一种报文测试的方法及装置 | |
CN113987118A (zh) | 语料的获取方法、装置、设备及存储介质 | |
CN111401009B (zh) | 一种数字表情符识别转换方法、装置、服务器及存储介质 | |
CN110413899B (zh) | 服务器存储新闻的存储资源优化方法及系统 | |
CN114492413B (zh) | 文本校对方法、装置和电子设备 | |
CN115774793B (zh) | 机构时效性的检测方法、系统、电子设备及存储介质 | |
CN114385781B (zh) | 基于语句模型的接口文件推荐方法、装置、设备和介质 | |
CN112632955B (zh) | 文本集生成方法、装置、电子设备和介质 | |
CN117974188A (zh) | 数据集获取方法、装置、电子设备和计算机可读介质 | |
CN116010814A (zh) | 数据集制作方法、装置、设备及存储介质 | |
CN114692645A (zh) | 一种语义解析方法、装置、电子设备及存储介质 | |
CN112948414A (zh) | 数据报表生成方法、装置、电子设备及存储介质 | |
CN117033924A (zh) | 数据分析方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211119 |
|
RJ01 | Rejection of invention patent application after publication |