CN114692638A - 行业实体的识别方法、装置、存储介质及电子设备 - Google Patents
行业实体的识别方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114692638A CN114692638A CN202210323942.8A CN202210323942A CN114692638A CN 114692638 A CN114692638 A CN 114692638A CN 202210323942 A CN202210323942 A CN 202210323942A CN 114692638 A CN114692638 A CN 114692638A
- Authority
- CN
- China
- Prior art keywords
- entity
- target entity
- target
- company information
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种行业实体的识别方法、装置、存储介质及电子设备,该方法包括:获取目标检索词条,对目标检索词条进行识别,确定目标检索词条中的初级字号识别结果,提取所述初级字号识别结果的末尾预设位数作为目标实体,对目标实体进行查询,以确定与目标实体相关联的公司信息,公司信息中包括经营范围信息,在经营范围信息中包含目标实体的情况下,将目标实体标记为行业实体。本发明提供的行业实体的识别方法、装置、存储介质及电子设备,能够更准确的识别出检索内容中的行业实体信息,有效提升了实体类别的识别精度。
Description
技术领域
本发明涉及计算机技术领域,具体地,涉及一种行业实体的识别方法、装置、存储介质及电子设备。
背景技术
在检索场景中,为了能够准确识别用户意图,需要对用户输入的检索内容进行精细化的解析,从而获得检索内容中对应的地址、字号、人名等信息。在对检索内容中的命名实体进行识别时,由于训练样本中行业实体对应的数据不足,导致训练模型将命名实体中的行业实体误识别为字号实体,从而使检索结果不准确的问题。
发明内容
本发明的目的是提供一种行业实体的识别方法、装置、存储介质及电子设备,以解决无法准确识别检索字段中的行业词的技术问题。
根据本发明实施例的第一方面,提供一种行业实体的识别方法,包括:
获取目标检索词条;
对所述目标检索词条进行识别,确定所述目标检索词条中的初级字号识别结果;
提取所述初级字号识别结果的末尾预设位数作为目标实体;
对所述目标实体进行查询,以确定与所述目标实体相关联的公司信息,其中,所述公司信息中包括经营范围信息;
在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体。
可选地,所述对所述目标实体进行查询,以确定与所述目标实体相关联的公司信息,包括:
对所述目标实体进行查询,获得与所述目标实体相关联的多个公司信息;
根据关联性的强弱关系对所述多个公司信息进行排序,按顺序获取预设提取数量的多个公司信息。
可选地,所述根据关联性的强弱关系对所述多个公司信息进行排序,按顺序获取预设提取数量的多个公司信息,包括:
根据所述多个公司信息与所述目标实体的关联性的强弱关系获取所述多个公司信息的排序,公司信息与所述目标实体的关联性越强在所述排序中的优先级越高;
按照所述排序中优先级由高到低的顺序获取预设提取数量的多个公司信息,得到与所述目标实体相关联的多个公司信息。
可选地,所述在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体,包括:
将所述目标实体与所述相关联的多个公司信息对应的多个经营范围信息进行验证,确定包括所述目标实体的经营范围信息的数量;
在所述数量达到预设数量的情况下,将所述目标实体标记为行业实体。
可选地,所述从预设数据库中获取目标检索词条,包括:
获取预设时间段内的多个历史检索词条及对应的检索次数;
在所述检索次数达到预设检索次数的情况下,将对应的历史检索词条作为目标检索词条。
可选地,所述提取所述初级字号识别结果的末尾预设位数作为目标实体,包括:
确定所述初级字号识别结果的字号长度;
在所述字号长度未达到预设长度阈值的情况下,截取所述字号实体的后两位字号作为所述目标实体;
在所述字号长度达到预设长度阈值的情况下,截取所述字号实体的后三位及以上字号作为所述目标实体。
可选地,所述在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体,包括:
根据所述目标实体对所述经营范围信息进行字段识别;
在所述经营范围信息中与所述目标实体相关的字段数量达到预设数量阈值的情况下,将所述目标实体标记为行业实体。
根据本发明实施例的第二方面,提供一种行业实体的识别装置,包括:
获取模块,用于获取目标检索词条;
第一确定模块,用于对所述目标检索词条进行识别,确定所述目标检索词条中的初级字号识别结果;
生成模块,用于提取所述初级字号识别结果的末尾预设位数作为目标实体;
第二确定模块,用于对所述目标实体进行查询,以确定与所述目标实体相关联的公司信息,其中,所述公司信息中包括经营范围信息;
标记模块,用于在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体。
根据本发明实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面的任一项所述行业实体的识别方法的步骤。
根据本发明实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本发明第一方面的任一项所述行业实体的识别方法的步骤。
通过上述技术方案,获取目标检索词条,对目标检索词条进行识别,确定目标检索词条中的初级字号识别结果,根据提取该初级字号识别结果的末尾预设位数作为目标实体,对目标实体进行查询,以确定与目标实体相关联的公司信息,公司信息中包括经营范围信息,在经营范围信息中包含目标实体的情况下,将目标实体标记为行业实体。本发明提供的行业实体的识别方法、装置、存储介质及电子设备,通过截取相应长度的字号实体,以获得对应的目标实体,再对目标实体进行检索获得相关联的公司信息,确认公司信息的经营范围信息中是否存在相应的目标实体,来确定该目标实体是否为行业实体,有效提升了实体类别的识别精度。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是根据一示例性实施例提出的一种行业实体的识别方法的示意图。
图2是根据一示例性实施例示出的一种公司信息的确定方法的示意图。
图3是根据一示例性实施例示出的一种行业实体的识别装置框图。
图4是根据一示例性实施例示出的一种电子设备的框图。
图5是根据一示例性实施例示出的另一种电子设备的框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
为解决现有技术中无法准确识别检索内容中的行业实体,导致检索结果不准确的技术问题。本发明实施例提供一种行业实体的识别方法,图1是根据一示例性实施例提出的一种行业实体的识别方法的示意图。可以理解的是,该方法应用于服务器,以构成数据处理平台。参见图1,该行业实体的识别方法,包括以下步骤:
S11,获取目标检索词条。
可以理解的是,本实施例中主要对用户在移动终端上输入的检索内容中的行业实体进行识别,因此需要获取相应的检索词条(也可称为检索词条信息)。通常情况下,服务器为方便更好地对用户行为进行分析,需要存储检索词条至预设数据库中,方便在进行用户行为分析、模型训练等应用场景中进行数据调用。
预设数据库中的检索词条包括多种词条类型,示例的,预设数据库中的检索词条包括:用于进行人物信息检索的人名词条、用于进行公司信息检索的公司名称词条、以及用于进行归属地信息查询的地方词条等。通常情况下,预设数据库中的检索词条中不具有行业实体信息,因此,本实施例中,针对检索词条中的公司名称词条进行分析,通过对检索词条进行筛选从而确定预设数据库中的公司名称词条作为目标检索词条。
可选地,上述步骤S11,包括:
获取预设时间段内的多个历史检索词条及对应的检索次数。
在检索次数达到预设检索次数的情况下,将对应的历史检索词条作为目标检索词条。
可以理解的是,服务器对应的用户越多,相应的预设数据库中的检索词条数据量越大,为获取预设数据库中的目标检索词条,需要对每个检索词条对应的词条类型进行识别,确定对应类型的检索词条为目标检索词条,因检索词条数量较大,降低了目标检索词条的查找速度,影响用户的检索体验。因此,本实施例中,需要设定筛选条件对预设数据库中的检索词条进行筛选,通常情况下,检索词条的实用性随着时间的增长而逐渐降低,且预设数据库中同一检索词条出现的次数越多,表明该检索词条的重要性越强。
本实施例中,针对预设时间段内的历史检索词条以及对应的检索次数进行分析;在历史检索词条对应的检索次数达到预设检索次数的情况下,将历史检索词条作为目标检索词条。示例的,设定预设时间段为3个月,获取3个月内的历史检索词条和相应的检索次数;设定预设检索次数为5次,若同一历史检索词条在3个月内,被用户检索过5次以上,则确定对应的历史检索词条为目标检索词条。
S12,对目标检索词条进行识别,确定目标检索词条中的初级字号识别结果。
可以理解的是,本实施例中目标检索词条为用户输入的公司名称实体对应的检索词条,通常情况下,该目标检索词条中包括需要进行信息查询的公司名称信息,在公司名称信息中通常包括归属地信息(或分公司对应的总部归属地信息)、字号信息和公司类型信息等。示例的,针对目标检索词条“深圳市XX计算机系统有限公司”,其中“深圳市”为归属地信息,“XX”为公司对应的字号实体,“计算机系统”为行业实体,“有限公司”为公司类型。
通常情况下,归属地信息可以通过关联国家的行政区划信息和该词条在检索词条中的位置信息确认,公司类型可以通过词条筛选确定目标检索词条中的公司类型。行业实体需要通过检索系统中的行业实体数据进行对比和确认,但当检索系统中的行业实体数据不足时,很容易将目标检索词条中的行业实体误识别为字号实体,即针对上述目标检索词条,识别到的初级字号识别结果为“XX计算机系统”,因此,本实施例中,需要对目标检索词条进行识别,确认目标检索词条中的初级字号识别结果,以便后续对初级字号识别结果进行进一步的识别处理。示例的,根据公司名称的命名规则,通常情况下,可以将目标检索词条中的归属地信息和公司类型信息剔除后获得词条信息作为初级字号识别结果。
S13,提取所述初级字号识别结果的末尾预设位数作为目标实体。
可以理解的是,根据公司名称的命名习惯和命名规则,目标检索词条中的行业实体通常情况下紧跟在字号实体之后,因此初级字号识别结果中的行业实体大多为初级字号识别结果的后几位字号。因此可以通过截取(提取)初级字号识别结果的末尾预设位数作为目标实体。
示例的,通常情况下,行业实体的字段长度可以为2字、3字或4字,并且位于该初级字号识别结果的末尾。以从左到右的阅读方向为正向,从初级字号识别结果的末尾反向截取2字、3字或4字作为目标实体。可选地,可根据实际情况设定目标实体为初级字号识别结果的末尾的2字、3字或4字中的任意一个,还可以将截取获得初级字号识别结果的末尾的2字、3字和4字作为一个字号集合,将字号集合确定为目标实体,以便后续进行更加全面的行业实体识别。
可选地,上述步骤S13,包括:
确定初级字号识别结果的字号长度。
在字号长度未达到预设长度阈值的情况下,截取字号实体的后两位字号作为目标实体。
在字号长度达到预设长度阈值的情况下,截取字号实体的后三位及以上字号作为目标实体。
通过对公司命名规则的分析,确定通常情况下,初级字号识别结果中的行业字号与初级字号识别结果的字号长度有关,示例的,初级字号识别结果“XX人寿”中,“XX”为初级字号识别结果中的字号,“人寿”为初级字号识别结果中的行业实体;初级字号识别结果“YY教育科技”中,“YY”为初级字号识别结果中的字号,“教育科技”为初级字号识别结果中的行业实体。因此,本实施例中通过识别初级字号识别结果的字号长度,来确定从末尾截取字号实体的位数。当初级字号识别结果的整体字号长度未达到预设长度阈值时,从字号实体的末尾反向截取后两位字号作为目标实体,当初级字号识别结果的整体字号长度达到预设长度阈值时,则从字号实体的末尾反向截取字号实体的后四位字号作为目标实体。示例的,根据公司名称的命名规则,确定预设长度阈值为6位,及对于字号长度低于6位的字号实体,截取其后两位作为目标实体,对于字号长度高于6位的字号实体,截取其后四位作为目标实体。
S14,对目标实体进行查询,以确定与目标实体相关联的公司信息,其中,公司信息中包括经营范围信息。
可以理解的是,本实施例的检索系统中,在检索栏中输入相应的检索内容,均会根据检索内容返回对应的公司信息。该公司信息中包括公司名称、法人、税务信息、地址信息、营业信息等。将通过上述步骤获得的目标实体作为检索内容,在该检索系统中进行查询,确定与该目标实体相关联的公司信息,该公司信息中包括经营范围信息。
示例的,通过对目标实体进行检索确定的相关联的公司可以包括多个,可以根据相关联的强弱关系确定其中关联性最强的公司作为对应的公司信息。其中,关联性的强弱关系,可以通过查询公司对应的所有公司信息中,具有目标实体字样的次数,作为关联性强弱关系的判定依据,存在目标实体字样的次数越多,则判定该公司信息与目标实体的关联性越强。应当说明的是,通过查询确定的公司信息中应当包括经营范围信息,因为通常情况下经营范围信息中包括有行业相关的行业词,目标实体存在于该经营范围信息中,则可以确定目标实体为遗漏的行业实体。
图2是根据一示例性实施例示出的一种公司信息的确定方法的示意图,参见图2,上述步骤S14,包括:
S141,对所述目标实体进行查询,获得与所述目标实体相关联的多个公司信息。
S142,根据关联性的强弱关系对所述多个公司信息进行排序,按顺序获取预设提取数量的多个公司信息。
可以理解的是,应用识别模型来识别通过上述步骤获得的目标实体,根据识别模型的识别规则,获得与目标实体相关联的多个公司信息,其中的关联关系可以根据在对应的公司信息中包含该目标实体对应的字段,或者相关联的其他字段,且根据各个字段在对应的公司信息中出现的频次确定识别获得的各个公司与该目标实体关联性的强弱关系,示例的,目标实体对应的字段或相关联的字段在对应公司信息中出现的频次越高,则表示该公司与目标实体的关联性越强。将识别得到的多个公司信息,按照关联性的强弱关系进行排序,从而获得公司信息序列,在该序列中进行提取,从而获得预设数量的多个公司信息。
可选地,上述步骤S142,包括:
根据多个公司信息与目标实体的关联性的强弱关系获取多个公司信息的排序,公司信息与目标实体的关联性越强在排序中的优先级越高。
按照排序中优先级由高到低的顺序获取预设提取数量的多个公司信息,得到与目标实体相关联的多个公司信息。
可以理解的是,本实施例中,通过对目标实体进行检索从而可以获得与该目标实体相关联的多个公司信息。并根据各个公司信息与目标实体之间关联性的强弱关系,对获得的多个公司信息进行优先级排序,其中优先级越高表示目标实体与公司信息的关联性越强。按照排序列表中优先级由高到低的顺序获取预设提取数量的多个公司信息,从而得到多个与目标实体相关联的多个公司信息。示例的,为了在确保识别准确的情况下,提高识别的速度,设定预设提取数量为10个,通过关联性的强弱关系获取到多个公司信息并进行关联性强弱关系由高到低排序之后,从高到低截取10个与目标实体相关的公司信息。
S15,在经营范围信息中包含目标实体的情况下,将目标实体标记为行业实体。
可以理解的是,通过检索获得的公司信息中,经营范围信息中记载的字段能够反映行业信息,通过将目标实体与公司信息中的经营范围信息进行比对,确定该目标实体是否存在于经营范围信息中,在经营范围信息中包含目标实体的情况下,则可以确定该目标实体为遗漏的行业词,并将该目标实体标记为行业实体存储在检索系统中。
可选地,上述步骤S15,包括:
将目标实体与相关联的多个公司信息对应的多个经营范围信息进行验证,确定包括目标实体的经营范围信息的数量。
在数量达到预设数量的情况下,将目标实体标记为行业实体。
可以理解的是,本实施例中通过上述步骤获得10个不同公司对应的公司信息,对应包括10个经营范围信息。将目标实体与该10个经营范围信息进行验证,确定该经营范围信息中存在目标实体的经营范围信息的数量,在该数量达到预设数量的情况下,则判定该目标实体为行业实体,并存储至检索系统中。示例的,可以设定预设数量为5,获得的10个经营范围信息中存在5个以上的经营范围信息中包括该目标实体时,则确定该目标实体为行业实体,并将该目标实体以行业实体的方式存储至检索系统中,以便后续对相应的检索字段进行行业实体识别;若10个经营范围信息中存在5个以下的经营范围信息中包括目标实体时,则确定该目标实体不是行业实体,将该目标实体返回至字号实体中。
可选地,上述步骤S15,还可以包括:
根据目标实体对经营范围信息进行字段识别。
在经营范围信息中与目标实体相关的字段数量达到预设数量阈值的情况下,将目标实体标记为行业实体。
可以理解的是,公司在进行工商登记注册时,为使公司的经营范围囊括该行业的所有业务范围,通常情况下,公司对应的经营范围信息中包括了该行业下的多个行业实体信息。本实施例中,通过上述步骤确定与目标实体最相关的公司信息,并将公司信息对应的经营范围信息作为参照,通过将经营范围信息与目标实体进行比对,确定经营范围信息中与目标实体相关的字段数量是否达到预设数量阈值,从而确定该目标实体是否为行业实体。示例的,设定预设数量阈值为5,通过确定经营范围信息中与目标实体相关的字段超过5个时,则确定目标实体为遗漏的行业实体,并将该目标实体以行业实体的形式存储至检索系统中。
通过上述技术方案,获取目标检索词条,对目标检索词条进行识别,确定目标检索词条中的初级字号识别结果,提取所述初级字号识别结果的末尾预设位数作为目标实体,对目标实体进行查询,以确定与目标实体相关联的公司信息,公司信息中包括经营范围信息,在经营范围信息中包含目标实体的情况下,将目标实体标记为行业实体。本发明提供的行业实体的识别方法、装置、存储介质及电子设备,通过截取相应长度的字号实体,以获得对应的目标实体,再对目标实体进行检索获得相关联的公司信息,确认公司信息的经营范围信息中是否存在相应的目标实体,来确定该目标实体是否为行业实体,并将对应的行业实体添加到训练模型中,使训练模型能够更准确的识别出检索内容中的行业实体信息,有效提升了实体类别的识别精度。
图3是根据一示例性实施例示出的一种行业实体的识别装置框图。参见图3,该识别装置100包括获取模块110、第一确定模块120、生成模块130、第二确定模块140和标记模块150。
获取模块110,用于获取目标检索词条。
第一确定模块120,用于对目标检索词条进行识别,确定目标检索词条中的初级字号识别结果。
生成模块130,用于提取所述初级字号识别结果的末尾预设位数作为目标实体。
第二确定模块140,用于对目标实体进行查询,以确定与目标实体相关联的公司信息,其中,公司信息中包括经营范围信息。
标记模块150,用于在经营范围信息中包含目标实体的情况下,将目标实体标记为行业实体。
可选地,该第二确定模块140,包括:
查询子模块,用于对目标实体进行查询,获得与目标实体相关联的多个公司信息。
提取子模块,用于根据关联性的强弱关系对多个公司信息进行排序,按顺序获取预设提取数量的多个公司信息。
可选地,该提取子模块,还可以用于:
根据多个公司信息与目标实体的关联性的强弱关系获取多个公司信息的排序,公司信息与目标实体的关联性越强在排序中的优先级越高。
按照排序中优先级由高到低的顺序获取预设提取数量的多个公司信息,得到与目标实体相关联的多个公司信息。
可选地,该标记模块150,还可以用于:
将目标实体与相关联的多个公司信息对应的多个经营范围信息进行验证,确定包括目标实体的经营范围信息的数量。
在数量达到预设数量的情况下,将目标实体标记为行业实体。
可选地,该获取模块110,还可以用于:
获取预设时间段内的多个历史检索词条及对应的检索次数。
在检索次数达到预设检索次数的情况下,将对应的历史检索词条作为目标检索词条。
可选地,该生成模块120,还可以用于:
确定初级字号识别结果的字号长度。
在字号长度未达到预设长度阈值的情况下,截取字号实体的后两位字号作为目标实体。
在字号长度达到预设长度阈值的情况下,截取字号实体的后三位及以上字号作为目标实体。
可选地,该标记模块150,还可以用于:
根据目标实体对经营范围信息进行字段识别。
在经营范围信息中与目标实体相关的字段数量达到预设数量阈值的情况下,将目标实体标记为行业实体。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种电子设备的框图。如图4所示,该电子设备400可以包括:处理器401,存储器402。该电子设备400还可以包括多媒体组件403,输入/输出(I/O)接口404,以及通信组件405中的一者或多者。
其中,处理器401用于控制该电子设备400的整体操作,以完成上述的行业实体的识别方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作,这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),4G、5G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件405可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的行业实体的识别方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的行业实体的识别方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器402,上述程序指令可由电子设备400的处理器401执行以完成上述的行业实体的识别方法。
图5是根据一示例性实施例示出的另一种电子设备的框图。例如,电子设备500可以被提供为一服务器。参见图5,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器542,用于存储可由处理器522执行的计算机程序。存储器542中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述的行业实体的识别方法。
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(I/O)接口558。电子设备500可以操作基于存储在存储器542的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的行业实体的识别方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器542,上述程序指令可由电子设备500的处理器522执行以完成上述的行业实体的识别方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的行业实体的识别方法的代码部分。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (10)
1.一种行业实体的识别方法,其特征在于,包括:
获取目标检索词条;
对所述目标检索词条进行识别,确定所述目标检索词条中的初级字号识别结果;
提取所述初级字号识别结果的末尾预设位数作为目标实体;
对所述目标实体进行查询,以确定与所述目标实体相关联的公司信息,其中,所述公司信息中包括经营范围信息;
在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体。
2.根据权利要求1所述的识别方法,其特征在于,所述对所述目标实体进行查询,以确定与所述目标实体相关联的公司信息,包括:
对所述目标实体进行查询,获得与所述目标实体相关联的多个公司信息;
根据关联性的强弱关系对所述多个公司信息进行排序,按顺序获取预设提取数量的多个公司信息。
3.根据权利要求2所述的识别方法,其特征在于,所述根据关联性的强弱关系对所述多个公司信息进行排序,按顺序获取预设提取数量的多个公司信息,包括:
根据所述多个公司信息与所述目标实体的关联性的强弱关系获取所述多个公司信息的排序,公司信息与所述目标实体的关联性越强在所述排序中的优先级越高;
按照所述排序中优先级由高到低的顺序获取预设提取数量的多个公司信息,得到与所述目标实体相关联的多个公司信息。
4.根据权利要求2所述的识别方法,其特征在于,所述在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体,包括:
将所述目标实体与所述相关联的多个公司信息对应的多个经营范围信息进行验证,确定包括所述目标实体的经营范围信息的数量;
在所述数量达到预设数量的情况下,将所述目标实体标记为所述行业实体。
5.根据权利要求1所述的识别方法,其特征在于,所述获取目标检索词条,包括:
从预设数据库中,获取预设时间段内的多个历史检索词条及对应的检索次数;
在所述检索次数达到预设检索次数的情况下,将对应的历史检索词条作为目标检索词条。
6.根据权利要求1所述的识别方法,其特征在于,所述提取所述初级字号识别结果的末尾预设位数作为目标实体,包括:
确定所述初级字号识别结果的字号长度;
在所述字号长度未达到预设长度阈值的情况下,截取所述字号实体的后两位字号作为所述目标实体;
在所述字号长度达到预设长度阈值的情况下,截取所述字号实体的后三位及以上字号作为所述目标实体。
7.根据权利要求1所述的识别方法,其特征在于,所述在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体,包括:
根据所述目标实体对所述经营范围信息进行字段识别;
在所述经营范围信息中与所述目标实体相关的字段数量达到预设数量阈值的情况下,将所述目标实体标记为行业实体。
8.一种行业实体的识别装置,其特征在于,包括:
获取模块,用于获取目标检索词条;
第一确定模块,用于对所述目标检索词条进行识别,确定所述目标检索词条中的初级字号识别结果;
生成模块,用于提取所述初级字号识别结果的末尾预设位数作为目标实体;
第二确定模块,用于对所述目标实体进行查询,以确定与所述目标实体相关联的公司信息,其中,所述公司信息中包括经营范围信息;
标记模块,用于在所述经营范围信息中包含所述目标实体的情况下,将所述目标实体标记为行业实体。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210323942.8A CN114692638A (zh) | 2022-03-29 | 2022-03-29 | 行业实体的识别方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210323942.8A CN114692638A (zh) | 2022-03-29 | 2022-03-29 | 行业实体的识别方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114692638A true CN114692638A (zh) | 2022-07-01 |
Family
ID=82141904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210323942.8A Pending CN114692638A (zh) | 2022-03-29 | 2022-03-29 | 行业实体的识别方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692638A (zh) |
-
2022
- 2022-03-29 CN CN202210323942.8A patent/CN114692638A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107544982B (zh) | 文本信息处理方法、装置及终端 | |
CN110929125A (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN111198936B (zh) | 一种语音搜索方法、装置、电子设备及存储介质 | |
CN109446336B (zh) | 新闻筛选的方法、装置、计算机设备和存储介质 | |
CN115935344A (zh) | 一种异常设备的识别方法、装置及电子设备 | |
EP3301603A1 (en) | Improved search for data loss prevention | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN111858966B (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN115309796A (zh) | 一种相似性查询方法、数据库更新方法、装置及系统 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN109101630B (zh) | 一种应用程序搜索结果的生成方法、装置及设备 | |
CN110019829B (zh) | 数据属性确定方法、装置 | |
CN114003685B (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN114139547B (zh) | 知识融合方法、装置、设备、系统及介质 | |
CN114692638A (zh) | 行业实体的识别方法、装置、存储介质及电子设备 | |
CN111460268B (zh) | 数据库查询请求的确定方法、装置和计算机设备 | |
CN114610955A (zh) | 一种智能检索方法、装置、电子设备及存储介质 | |
CN112579944A (zh) | 一种页面跳转处理方法、装置以及电子设备 | |
CN113392184A (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN112579763A (zh) | 一种文书的推送方法及装置 | |
CN110941765A (zh) | 搜索意图识别方法、信息搜索方法、装置及电子设备 | |
CN110737823B (zh) | 访问意图挖掘方法及装置 | |
CN112861532B (zh) | 地址标准化处理方法、装置、设备及在线搜索系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |