CN116932781A - 一种基于ac自动机的企业信息匹配方法与系统 - Google Patents
一种基于ac自动机的企业信息匹配方法与系统 Download PDFInfo
- Publication number
- CN116932781A CN116932781A CN202310942271.8A CN202310942271A CN116932781A CN 116932781 A CN116932781 A CN 116932781A CN 202310942271 A CN202310942271 A CN 202310942271A CN 116932781 A CN116932781 A CN 116932781A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- node
- words
- preset
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012546 transfer Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 13
- 230000007704 transition Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 4
- 239000010931 gold Substances 0.000 description 4
- 229910052737 gold Inorganic materials 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于ac自动机的企业信息匹配方法与系统,涉及信息处理的领域。该方法应用于服务器,该方法包括:获取用户输入的企业检索词;将企业检索词进行进行分词,得到多个特征词;遍历预设的企业数据节点树,得到多个特征词对应的企业数据,预设的企业数据节点树包括多个企业信息节点,企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表,企业数据由多条目标节点链组成。有益效果:仅需遍历一次企业数据节点树即可完成多条企业数据的匹配,从而提升了信息匹配的效率;并且通过设置命中输出列表,将企业检索词和企业数据中的敏感词汇筛选出来,不对其进行输出,从而减少不必要的麻烦。
Description
技术领域
本申请涉及信息处理的技术领域,具体涉及一种基于ac自动机的企业信息匹配方法与系统。
背景技术
随着科技的快速发展,当人们想要了解某个企业的企业数据时,通过互联网平台即可实现企业信息的快速查询。
目前,常用的检索方式是将用户输入的用户检索词与预先建立的企业数据库中的企业数据进行信息匹配;在匹配过程中,通过多次遍历企业数据每个字符的位置,以确定用户检索词的每个字符在企业数据中的位置,从而判断用户检索词是否与企业数据具有较高的关联,最后匹配出用户检索词对应的关联文档。
然而,上述检索方式随着企业数据库中的数据量逐渐增加,开始变得不再适用,遍历企业数据库中的所有企业数据需要花费较长的时间,从而导致匹配效率较低。
发明内容
针对常用的检索方式遍历企业数据库中的所有企业数据需要花费较长的时间,从而导致匹配效率较低的问题,本申请提供了一种基于ac自动机的企业信息匹配方法与系统。
第一方面,本申请提供一种基于ac自动机的企业信息匹配方法,应用于服务器,方法包括:获取用户输入的企业检索词;将企业检索词进行进行分词,得到多个特征词;遍历预设的企业数据节点树,得到多个特征词对应的企业数据,预设的企业数据节点树包括多个企业信息节点,企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表,企业数据由多条目标节点链组成。
通过采用上述技术方案,将企业数据库内的数据以企业数据节点树的形式进行存储。通过将用户输入的企业检索词进行分词,从而确定企业检索词中每个字符的匹配顺序;当根据每个字符的匹配顺序与企业数据节点树匹配完成后,得到一条节点路径,此时节点路径包含多条目标节点链,每条目标节点链对应一条企业数据。由此,仅需遍历一次企业数据节点树即可完成多条企业数据的匹配,从而提升了信息匹配的效率;并且通过设置命中输出列表,将企业检索词和企业数据中的敏感词汇筛选出来,不对其进行输出,从而减少不必要的麻烦。
第二方面,本申请提供一种基于ac自动机的企业信息匹配系统,系统为服务器,服务器包括获取模块与处理模块,其中:
获取模块,用于获取用户输入的企业检索词;将企业检索词进行进行分词,得到多个特征词;
处理模块,用于遍历预设的企业数据节点树,得到多个特征词对应的企业数据,预设的企业数据节点树包括多个企业信息节点,企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表,企业数据由多条目标节点链组成。
可选的,获取模块将企业检索词拆分为多个单一字符;基于预设第一顺序对多个单一字符进行排序,生成多个单一排序字符;将多个单一排序字符按照预设第二顺序进行组合,生成多个组合词;将多个组合词与预设企业词数据库进行匹配,得到多个特征词,预设企业词数据库包括多个企业词。
通过采用上述技术方案,通过将单一字符组合为通用的词组,从而减少匹配的次数,不仅提高了数据匹配的效率,并且提升了检索结果的关联性。
可选的,获取模块基于企业检索词中所有字符的排列顺序,确定多个特征词各自对应的排列顺序;将第一特征词的排序顺序存储至第一特征词中,第一特征词为多个特征词中任意一个。
通过采用上述技术方案,通过对多个特征词进行排序,在信息匹配过程中依据多个特征词的排列顺序与企业数据节点节点树进行匹配,从而帮助服务器理解企业检索词的语义,使得检索结果的语义更加准确。
可选的,预设的企业数据节点树的构建方式为:获取模块获取企业信息数据库,企业信息数据库存储有多个企业的企业信息,企业信息包括多个企业信息类型,多个企业信息类别包括企业名称、主营业务、企业曾用名、企业持股人以及企业官网网址;处理模块对样本企业的企业信息进行分词,得到多个节点词,样本企业为企业信息数据库中多个企业任意一个;基于样本企业的企业信息的多个企业信息类型,将多个节点词连接为多条节点链,其中,一个企业信息类型对应至少一条节点链,一条节点链包括至少一个节点词,任意一个节点词存储有其对应的节点顺序;将多条节点链构建为预设的企业数据节点树。
通过采用上述技术方案,通过将企业信息数据库中的内容存储至企业数据节点树中,并根据企业信息类型将企业信息划分分多条节点链,从而提升企业数据节点树对企业信息的语义理解能力,最后将多条节点链构建为企业数据节点树,以提升服务器对企业检索词的匹配效率。
可选的,处理模块基于多个节点词各自对应的节点顺序,确定多个节点词各自对应的成功转移指针,并将多个节点词各自对应的成功转移指针存储多个节点词各自对应的成功转移列表;基于多条节点链中的相同节点词,确定多个节点词各自对应的失败转移指针,并将多个节点词各自对应的失败转移指针存储至多个节点词各自对应的失败转移列表。
通过采用上述技术方案,通过成功转移指针与失败转移指针能够有效的表示节点词之间的顺序关系与转移关系,从而使得企业检索词与企业数据节点树进行匹配时能够有针对性的遍历企业数据节点树,减少没有必要的节点匹配,并且整个匹配过程只需遍历一次企业检索词即可匹配出与企业检索词有关联的所有企业数据,大大提升了匹配的效率。
可选的,处理模块将第二特征词与预设的企业数据节点树进行匹配,确定第二特征词在预设的企业数据节点树中对应的目标节点词,第二特征词为为多个特征词的首字符;以目标节点词为起点,根据多个节点词存储的成功转移指针、失败转移指针以及组合节点词,确定多个特征词对应的节点路径;对节点路径进行节点链提取,得到多条目标节点链;将多条目标节点链作为多个特征词对应的企业数据。
通过采用上述技术方案,根据每个特征词在企业数据节点树中的位置和节点的转移指针,从而确定每个特征词在节点树中对应的节点路径,方便后续的节点链提取和企业数据提取;根据节点路径提取出多条目标节点链,此时目标节点链表示多个特征词对应的企业数据,从而保证匹配出的企业数据的完整性;另外,在匹配企业数据的过程中,仅通过遍历一次企业数据节点树即可得到包含所有关联企业数据的节点路径,提升了匹配的效率。
可选的,遍历预设预设企业数据节点树,得到多个特征词对应的企业数据之后,还包括:获取模块获取多条目标节点链的企业信息类型;处理模块遍历多条目标节点链的节点数量;若第一目标节点链的节点数量大于第二目标节点链的数量,则将第一目标节点链标记为重要节点链,第一目标节点链与第二目标节点链为多个目标节点链中任意两个,第一目标节点链与第二目标节点链属于同一企业信息类型。
通过采用上述技术方案,对于匹配得到多条目标节点链,将其中同一企业信息类型的多条目标节点链进行重点标记,以帮助用户快速了解关联性更高,更详细的企业信息。
第三方面,本申请提供一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如第一方面中任意一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如第一方面中任意一项所述的方法。
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、将企业数据库内的数据以企业数据节点树的形式进行存储。通过将用户输入的企业检索词进行分词,从而确定企业检索词中每个字符的匹配顺序;当根据每个字符的匹配顺序与企业数据节点树匹配完成后,得到一条节点路径,此时节点路径包含多条目标节点链,每条目标节点链对应一条企业数据。由此,仅需遍历一次企业数据节点树即可完成多条企业数据的匹配,从而提升了信息匹配的效率;并且通过设置命中输出列表,将企业检索词和企业数据中的敏感词汇筛选出来,不对其进行输出,从而减少不必要的麻烦。
2、通过成功转移指针与失败转移指针能够有效的表示节点词之间的顺序关系与转移关系,从而使得企业检索词与企业数据节点树进行匹配时能够有针对性的遍历企业数据节点树,减少没有必要的节点匹配,并且整个匹配过程只需遍历一次企业检索词即可匹配出与企业检索词有关联的所有企业数据,大大提升了匹配的效率。
附图说明
图1是本申请实施例提供的一种基于ac自动机的企业信息匹配方法的流程示意图。
图2是本申请实施例提供的一种基于ac自动机的企业信息匹配方法的结构示意图。
图3是本申请实施例提供的一种电子设备的结构示意图。
附图标记说明:1、获取模块;2、处理模块;300、电子设备;301、处理器;302、通信总线;303、用户接口;304、网络接口;305、存储器。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在对本申请实施例进行介绍之前,对本申请实施例中一些名词进行如下介绍:
Ac自动机:一种多模式匹配算法,用于在一个文本串中同时查找多个模式串的出现情况;其主要思想是将模式串构建成一个有限状态机,通过遍历输入文本串,并根据状态机的转移规则进行状态转移,从而在文本串快速定位模式串的位置。
模式串:指要在目标文本中进行匹配的字符串,即要搜索或找到的关键词或特定的字符串。模式串通常是由若干个字符组成的。
文本串:指要在其中进行匹配的目标字符串,即要进行搜索或匹配的源字符串。文本串通常是由若干个字符组成的。
举例来说,现有一个文本串:“ACBDEFGHIJK”,当需要从文本串中找到模式串“CDE”时,则“CDE”为模式串,而“ACBDEFGHIJK”为文本串。
目前,在企业信息匹配的过程中常用的匹配方式为普通字符串匹配,其基本原理为:对于用户输入的检索词可以视为一个字符串,在匹配过程中,为了保证匹配结果的完整性,需要将先字符串进行拆分为多个模式串,例如,字符串“国家金融机构”可以拆分为“国家”、“金融”、“机构”、“国家金融”、“金融机构”以及“国家机构”7个模式串。然后将每个模式串与企业数据库中所有数据进行匹配,从而得到每个模式串对应的企业数据。
然而,上述检索方式随着企业数据库中的数量逐渐增加,每一次模式串与企业数据库的匹配时间会大大增加,从而导致匹配效率较低。
为了解决上述问题,本申请提供一种基于ac自动机的企业信息匹配方法,应用于服务器,如图1所示,该方法包括步骤S101至步骤S103。
S101、获取用户输入的企业检索词。
在上述步骤中,用户通过用户设备登录企业查询网站,在检索栏中输入企业检索词,企业检索词可由单一字符组成或由多种字符组合,在此不做限定;企业检索词可输入词语、语句以及词语与语句的组合均可。当用户点击“搜索”后,用户设备向服务器发送检索请求,并将企业检索词发送至服务器,服务器接收到检索请求后开始检索服务,此时获取用户输入的企业检索词。需进行说明的是,用户设备可以为手机、笔记本电脑、台式电脑、平板电脑等,在此不做限定。
S102、将企业检索词进行进行分词,得到多个特征词。
在上述步骤中,为了提升检索的效率,针对用户输入的企业检索词,需进行分词处理。其具体过程为:首先将企业检索词拆分为多个单一字符,例如,针对于“国家金融机构”,可将其拆分为“国”、“家”、“金”、“融”、“机”、“构”6个单一字符。然后按照预设第一顺序对多个单一字符进行排序,生成多个单一排序字符。其中,预设第一顺序可以为语意理解顺序,可以为用户输入企业检索词时的输入顺序,可以为系统自定义顺序,在此不做限定,例如,“国家金融机构”的语意理解顺序为“国家金融机构”,用户输入企业检索词时的输入顺序可能为“国家机构金融”,系统自定义顺序可能为“融金构机家国”;需进行说明的是,预设第一顺序与预设的企业数据节点树数据的处理规则需保持一致,在本申请中预设第一顺序优选为语意理解顺序。然后,将多个单一排序字符按照预设第二顺序进行组合,生成多个组合词,预设第二顺序可以理解为服务器遍历企业检索词的顺序,例如,针对“国家金融机构”的6个单一字符,其组合词包括:“国”、“国家”、“国家金”、“国家金融”、“国家金融机”以及“国家金融机构”等21中字符组合,在此不再过多举例。此时,将生成的多个组合词与预设企业词数据库进行匹配,得到用于输入预设的企业数据节点树进行匹配的多个特征词,例如,“国家金融机构”的特征词可以包括“国家”、“金融”以及“机构”。通过将单一字符组合为通用的词组,从而减少匹配的次数,不仅提高了数据匹配的效率,并且提升了检索结果的关联性。
然后,为了帮助服务器理解企业检索词的语义,此时,根据企业检索词中所有字符的排列顺序,确定多个特征词各自对应的排列顺序。排列顺序优选为从左至右进行排序。例如,在“国家金融机构”中,“国”的排序顺序为1,“金”的排列顺序为3,此时,若特征词包括“国家”、“金融”以及“机构”,则“国家”的排列顺序为1,“金融”的排列顺序为2,“机构”的排列顺序为3。最后,将多个特征词的排序顺序存储至各自对应的特征词中。
S103、遍历预设的企业数据节点树,得到多个特征词对应的企业数据,预设的企业数据节点树包括多个企业信息节点,企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表,企业数据由多条目标节点链组成。
在上述步骤中,预设的企业数据节点树包括多个企业的企业信息,并以企业信息节点的形式展示。每个企业信息节点由一个字符组成,多个企业信息节点组成的节点链组成一条完整的企业信息。例如,对于企业信息“A企业的主营产品为B”,则企业信息中,每个字符均对应一个企业信息节点,“A企业的主营产品为B”为节点链。由于每个企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表。其中,成功转移列表存储有成功转移指针,成功转移指针可以理解为特征词与当前的企业信息节点匹配成功后,指向的下一个需要匹配的企业信息节点。失败转移列表存储有失败转移指针,失败转移指针可以理解为特征词与当前的企业信息节点匹配失败后,指向的下一个重新匹配的企业信息节点。命中输出列表存储当前节点已经能够输出为搜索结果的企业数据,命中输出列表的加入,不仅能够自动的生成已经匹配到的企业数据,并且能够过滤掉企业检索词中的敏感词,例如,当企业检索词中包含敏感词时,若某个企业信息节点的命中输出列表中存储有敏感词,则不对该敏感词对应的企业数据进行输出。
在企业检索词与企业信息节点匹配之前,需构建企业数据节点树。首先,获取已有的ac自动机的节点树框架以及节点树中每个节点的状态转移列表,状态转移列表包括成功状态转移列表、失败转移列表以及命中输出列表。然后,获取企业信息数据库,企业信息数据库存储有多个企业的企业信息,企业信息数据库可以来源于国家企业信息查询网站已经收录的企业登记信息。企业信息中包括多个企业信息类型,企业信息类型可以理解为企业的各自属性;例如,企业名称、主营业务、企业曾用名、企业持股人、注册资本、邮箱、法定代表人、地址、简介以及企业官网网址等。每个企业信息类型对应着该类型的详细企业信息。然后对所有企业的企业信息进行分词,得到各自对应的多个节点词。以样本企业为例,样本企业为多个企业中任意一个。针对样本企业的企业信息的分词,将代表词汇作为一个整体进行拆分。例如,可将“代表”作为一个整体进行拆分为一个节点词。采用该种拆分方式能够一次性匹配多个字符节,从而节省了企业检索词与企业数据节点词的匹配时间。然后,根据样本企业的企业信息的多个企业信息类型,将多个节点词连接为多条节点链,此时将属于同一企业信息类型的多个节点词连接为多条节点链,每条节点链反映了一条完整的企业信息,每条节点链包括至少一个节点词。并且在构建节点链时,记录每个节点的节点顺序,并将每个节点的节点顺序存储于该节点中,用于判断节点是否为终节点,当节点的节点顺序为当前节点链的最大节点顺序,则确定该节点为终节点。并且不同的节点链可以通过节点顺序进行区分。不同的节点链可能包含相同的节点词,但由于节点顺序不同,它们代表的含义和语义关系可能不同。例如,节点链1为:品牌—型号—价格;节点链2为:价格—品牌—型号。经对比可知,节点链1与节点链2虽然节点词相同,但节点链1可以理解为先确定商品的品牌,再根据品牌确定商品的型号,最后确定商品的价格,因此节点链1的语义关系是品牌决定型号,型号决定价格。节点链2可以理解为先确定商品的价格,再根据价格确定商品的品牌,最后确定商品的型号。因此节点链2的语义关系是价格决定品牌,品牌决定型号。最后,将已经构建好的多条节点链输入至ac自动机的节点树框架中,服务器此时自动调整多条节点链在ac自动机的节点树框架中的分布。对于企业节点树中的状态转移列表,其构建过程为:基于多个节点词各自对应的节点顺序,确定多个节点词各自对应的成功转移指针,成功转移指针用于表示当前节点词匹配成功后,指向当前节点的子节点的指针。并将每个企业信息节点的成功转移指针存储在成功转移列表中。基于多条节点链中的相同节点词,确定多个节点词各自对应的失败转移指针,并将每个企业信息节点的失败转移指针存储在失败转移列表中。失败转移指针用于节点词之间的失败转移关系,通过遍历失败转移列表,当从一个节点词无法成功转移到下一个节点词时,可以根据失败转移指针转移到备选节点词。
通过成功转移指针与失败转移指针能够有效的表示节点词之间的顺序关系与转移关系,从而使得企业检索词与企业数据节点树进行匹配时能够有针对性的遍历企业数据节点树,减少没有必要的节点匹配,并且整个匹配过程只需遍历一次企业检索词即可匹配出与企业检索词有关联的所有企业数据,大大提升了匹配的效率。
遍历预设的企业数据节点树,得到多个特征词对应的企业数据的过程具体为:以第二特征词为例,第二特征词为企业检索词对应的多个特征词中的首字符;然后,将第二特征词与预设的企业数据节点树进行匹配,此时遍历企业数据节点树,找到第二特征词对应的目标节点词。此时以目标节点词为起点,根据多个节点词存储的成功转移指针、失败转移指针以及组合节点词,确定多个特征词对应的节点路径;此时节点路径中包含多条完整的企业数据,即目标节点链,因此需要将企业数据提取出来,具体为:将企业检索词与节点路径中所有企业信息节点的命中输出列表进行匹配,由于命中输出列表存储有已经能够输出为搜索结果的完整企业数据,因此得到的匹配结果中包含从多个命中输出列表输出的企业数据。最后将多个命中输出列表输出的企业数据作为多个特征词对应的企业数据。例如,对于用户输入的企业检索词“ACBDEFGHIJK”,经过企业数据节点树遍历后,得到的匹配结果可以包括“AC”、“CBD”、“DEFG”、“GHIJ”以及“IJK”。每一个匹配结果均对应一个企业的属性,此时可根据企业的属性与属性值之间的对应关系,得到企业数据的详细信息。
在一种可能的实施方式中,在遍历预设预设企业数据节点树,得到多个特征词对应的企业数据之后,还包括:获取多条目标节点链的企业信息类型;遍历多条目标节点链的节点数量;若第一目标节点链的节点数量大于第二目标节点链的数量,则将第一目标节点链标记为重要节点链,第一目标节点链与第二目标节点链为多个目标节点链中任意两个,第一目标节点链与第二目标节点链属于同一企业信息类型。
具体的,对于匹配得到多条目标节点链,其中同一企业信息类型的目标节点链可能包含多条。因此,对于同一企业信息类型的多条目标节点链通过对信息相对详细的目标节点链进行重点标记,以帮助用户快速了解关联性更高,更详细的企业信息。
本申请还提供一种基于ac自动机的企业信息查询系统,系统为服务器,如图2所示,服务器包括获取模块1与处理模块2,其中:
获取模块1,用于获取用户输入的企业检索词;将企业检索词进行进行分词,得到多个特征词;
处理模块2,用于遍历预设的企业数据节点树,得到多个特征词对应的企业数据,预设的企业数据节点树包括多个企业信息节点,企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表,企业数据由多条目标节点链组成。
在一种可能的实施方式中,获取模块1将企业检索词拆分为多个单一字符;基于预设第一顺序对多个单一字符进行排序,生成多个单一排序字符;将多个单一排序字符按照预设第二顺序进行组合,生成多个组合词;将多个组合词与预设企业词数据库进行匹配,得到多个特征词,预设企业词数据库包括多个企业词。
在一种可能的实施方式中,获取模块1基于企业检索词中所有字符的排列顺序,确定多个特征词各自对应的排列顺序;将第一特征词的排序顺序存储至第一特征词中,第一特征词为多个特征词中任意一个。
在一种可能的实施方式中,预设的企业数据节点树的构建方式为:获取模块1获取企业信息数据库,企业信息数据库存储有多个企业的企业信息,企业信息包括多个企业信息类型,多个企业信息类别包括企业名称、主营业务、企业曾用名、企业持股人以及企业官网网址;处理模块2对样本企业的企业信息进行分词,得到多个节点词,样本企业为企业信息数据库中多个企业任意一个;基于样本企业的企业信息的多个企业信息类型,将多个节点词连接为多条节点链,其中,一个企业信息类型对应至少一条节点链,一条节点链包括至少一个节点词,任意一个节点词存储有其对应的节点顺序;将多条节点链构建为预设的企业数据节点树。
在一种可能的实施方式中,处理模块2基于多个节点词各自对应的节点顺序,确定多个节点词各自对应的成功转移指针,并将多个节点词各自对应的成功转移指针存储多个节点词各自对应的成功转移列表;基于多条节点链中的相同节点词,确定多个节点词各自对应的失败转移指针,并将多个节点词各自对应的失败转移指针存储至多个节点词各自对应的失败转移列表。
在一种可能的实施方式中,处理模块2将第二特征词与预设的企业数据节点树进行匹配,确定第二特征词在预设的企业数据节点树中对应的目标节点词,第二特征词为为多个特征词的首字符;以目标节点词为起点,根据多个节点词存储的成功转移指针、失败转移指针以及组合节点词,确定多个特征词对应的节点路径;对节点路径进行节点链提取,得到多条目标节点链;将多条目标节点链作为多个特征词对应的企业数据。
在一种可能的实施方式中,遍历预设预设企业数据节点树,得到多个特征词对应的企业数据之后,还包括:获取模块1获取多条目标节点链的企业信息类型;处理模块2遍历多条目标节点链的节点数量;若第一目标节点链的节点数量大于第二目标节点链的数量,则将第一目标节点链标记为重要节点链,第一目标节点链与第二目标节点链为多个目标节点链中任意两个,第一目标节点链与第二目标节点链属于同一企业信息类型。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还公开一种电子设备。参照图3,图3是本申请实施例的公开的一种电子设备的结构示意图。该电子设备300可以包括:至少一个处理器301,至少一个网络接口304,用户接口303,存储器305,至少一个通信总线302。
其中,通信总线302用于实现这些组件之间的连接通信。
其中,用户接口303可以包括显示屏(Display)、摄像头(Camera),可选用户接口303还可以包括标准的有线接口、无线接口。
其中,网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器301可以包括一个或者多个处理核心。处理器301利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器305内的指令、程序、代码集或指令集,以及调用存储在存储器305内的数据,执行服务器的各种功能和处理数据。可选的,处理器301可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器301可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器301中,单独通过一块芯片进行实现。
其中,存储器305可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器305包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器305可用于存储指令、程序、代码、代码集或指令集。存储器305可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器305可选的还可以是至少一个位于远离前述处理器301的存储装置。参照图3,作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及一种ac自动机的企业信息匹配方法的应用程序。
在图3所示的电子设备300中,用户接口303主要用于为用户提供输入的接口,获取用户输入的数据;而处理器301可以用于调用存储器305中存储一种基于ac自动机的企业信息匹配方法的应用程序,当由一个或多个处理器301执行时,使得电子设备300执行如上述实施例中一个或多个所述的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (10)
1.一种基于ac自动机的企业信息匹配方法,其特征在于,应用于服务器,所述方法包括:
获取用户输入的企业检索词;
将所述企业检索词进行进行分词,得到多个特征词;
遍历预设的企业数据节点树,得到多个所述特征词对应的企业数据,所述预设的企业数据节点树包括多个企业信息节点,所述企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表,所述企业数据由多条目标节点链组成。
2.根据权利要求1所述的方法,其特征在于,所述将所述企业检索词进行进行分词,得到多个特征词,具体为:
将所述企业检索词拆分为多个单一字符;
基于预设第一顺序对多个所述单一字符进行排序,生成多个单一排序字符;
将多个所述单一排序字符按照预设第二顺序进行组合,生成多个组合词;
将多个所述组合词与预设企业词数据库进行匹配,得到多个所述特征词,所述预设企业词数据库包括多个企业词。
3.根据权利要求1所述的方法,其特征在于,所述将所述企业检索词进行进行分词,得到多个特征词,还包括:
基于所述企业检索词中所有字符的排列顺序,确定多个所述特征词各自对应的排列顺序;
将第一特征词的排序顺序存储至第一特征词中,所述第一特征词为多个所述特征词中任意一个。
4.根据权利要求1所述的方法,其特征在于,所述预设的企业数据节点树的构建方式为:
获取企业信息数据库,所述企业信息数据库存储有多个企业的企业信息,所述企业信息包括多个企业信息类型,多个所述企业信息类别包括企业名称、主营业务、企业曾用名、企业持股人以及企业官网网址;
对样本企业的企业信息进行分词,得到多个节点词,所述样本企业为所述企业信息数据库中多个所述企业任意一个;
基于样本企业的企业信息的多个企业信息类型,将多个所述节点词连接为多条节点链,其中,一个企业信息类型对应至少一条节点链,一条所述节点链包括至少一个节点词,任意一个节点词存储有其对应的节点顺序;
将多条所述节点链构建为所述预设的企业数据节点树。
5.根据权利要求4所述的方法,其特征在于,将多条所述节点链构建为所述预设的企业数据节点树,具体包括:
基于多个节点词各自对应的节点顺序,确定多个所述节点词各自对应的成功转移指针,并将多个所述节点词各自对应的成功转移指针存储多个所述节点词各自对应的成功转移列表;
基于多条所述节点链中的相同节点词,确定多个所述节点词各自对应的失败转移指针,并将多个所述节点词各自对应的失败转移指针存储至多个所述节点词各自对应的失败转移列表。
6.根据权利要求5所述的方法,其特征在于,所述遍历预设的企业数据节点树,得到所述多个特征词对应的企业数据,具体为:
将第二特征词与所述预设的企业数据节点树进行匹配,确定第二特征词在所述预设的企业数据节点树中对应的目标节点词,所述第二特征词为为多个所述特征词的首字符;
以所述目标节点词为起点,根据多个所述节点词存储的成功转移指针、失败转移指针以及组合节点词,确定多个所述特征词对应的节点路径;
对所述节点路径进行节点链提取,得到多条所述目标节点链;
将多条所述目标节点链作为多个所述特征词对应的企业数据。
7.根据权利要求1所述的方法,其特征在于,所述遍历预设预设企业数据节点树,得到所述多个特征词对应的企业数据之后,还包括:
获取多条所述目标节点链的企业信息类型;
遍历多条所述目标节点链的节点数量;
若第一目标节点链的节点数量大于第二目标节点链的数量,则将所述第一目标节点链标记为重要节点链,所述第一目标节点链与所述第二目标节点链为多个所述目标节点链中任意两个,所述第一目标节点链与所述第二目标节点链属于同一企业信息类型。
8.一种基于ac自动机的企业信息匹配系统,其特征在于,所述系统为服务器,服务器包括获取模块与处理模块,其中:
所述获取模块,用于获取用户输入的企业检索词;将所述企业检索词进行进行分词,得到多个特征词;
所述处理模块,用于遍历预设的企业数据节点树,得到多个所述特征词对应的企业数据,所述预设的企业数据节点树包括多个企业信息节点,所述企业信息节点存储有成功转移列表、命中输出列表以及失败转移列表,所述企业数据由多条目标节点链组成。
9.一种电子设备,其特征在于,包括处理器(301)、存储器(305)、用户接口(303)及网络接口(304),所述存储器(305)用于存储指令,所述用户接口(303)和网络接口(304)用于给其他设备通信,所述处理器(301)用于执行所述存储器(305)中存储的指令,以使所述电子设备(300)执行如权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1至7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942271.8A CN116932781A (zh) | 2023-07-29 | 2023-07-29 | 一种基于ac自动机的企业信息匹配方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310942271.8A CN116932781A (zh) | 2023-07-29 | 2023-07-29 | 一种基于ac自动机的企业信息匹配方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116932781A true CN116932781A (zh) | 2023-10-24 |
Family
ID=88390681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310942271.8A Pending CN116932781A (zh) | 2023-07-29 | 2023-07-29 | 一种基于ac自动机的企业信息匹配方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932781A (zh) |
-
2023
- 2023-07-29 CN CN202310942271.8A patent/CN116932781A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230306052A1 (en) | Method and system for entity extraction and disambiguation | |
CN107704512B (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
US11599586B2 (en) | Method and system for providing alternative result for an online search previously with no result | |
US9772991B2 (en) | Text extraction | |
CN111428494A (zh) | 专有名词的智能纠错方法、装置、设备及存储介质 | |
US20160140182A1 (en) | Systems and methods for parsing search queries | |
CN112925898B (zh) | 基于人工智能的问答方法、装置、服务器及存储介质 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
CN111369294A (zh) | 软件造价估算方法及装置 | |
US20100205175A1 (en) | Cap-sensitive text search for documents | |
EP3731108A1 (en) | Search system, search method, and program | |
CN116932781A (zh) | 一种基于ac自动机的企业信息匹配方法与系统 | |
CN110827101A (zh) | 一种店铺推荐的方法和装置 | |
CN111858938B (zh) | 一种裁判文书标签的提取方法及装置 | |
CN114443802A (zh) | 一种接口文档处理方法、装置、电子设备和存储介质 | |
CN113656538A (zh) | 生成正则表达式的方法、装置、计算设备及存储介质 | |
CN112269852A (zh) | 生成舆情专题方法、系统及存储介质 | |
JP2020181332A (ja) | 高精度類似画像検索方法、プログラム及び高精度類似画像検索装置 | |
CN111460307B (zh) | 一种移动终端精确搜索方法和装置 | |
CN114328847B (zh) | 一种基于知识图谱的数据处理方法及系统 | |
CN107967300A (zh) | 机构名称的检索方法、装置、设备及存储介质 | |
CN116340627A (zh) | 词汇推荐方法、装置、电子设备及存储介质 | |
CN116150500A (zh) | 一种搜索方法、装置、设备及存储介质 | |
CN117743562A (zh) | 用于规章制度的检索方法及系统 | |
CN115840850A (zh) | 一种敏感词检测的方法、系统、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |