CN110765778A - 一种标签实体处理方法、装置、计算机设备和存储介质 - Google Patents
一种标签实体处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110765778A CN110765778A CN201911013609.1A CN201911013609A CN110765778A CN 110765778 A CN110765778 A CN 110765778A CN 201911013609 A CN201911013609 A CN 201911013609A CN 110765778 A CN110765778 A CN 110765778A
- Authority
- CN
- China
- Prior art keywords
- entity
- tag
- data item
- label
- item information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种标签实体处理方法、装置、计算机设备和存储介质,该方法包括:在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。本发明实施例的技术方案解决了离线处理标签实体而导致数据量庞大、数据类型复杂的问题,实现了标签实体的自动识别,保证了标签实体打标的实时性和有效性,提高了政府业务的处理能力。
Description
技术领域
本发明实施例涉及大数据分析领域,尤其涉及一种标签实体处理方法、装置、计算机设备和存储介质。
背景技术
近年来,各行各业的业务数据不断产生,政府内部和不同社会来源的数据呈现出海量化、多样化和价值化变化的趋势,简单的查询已经无法满足政府机关的业务需求。
数据标签化和对象标签化已经成为政府大数据建设中的重要部分。由于数据和业务的复杂性,各种各样的标签不断产生,如何有效地建立满足业务的标签是实现政府部门数据治理过程中最基础也是最核心的工作。
目前,很多大数据应用系统在标签实体处理上都是对离线的数据进行分析、处理来支撑业务应用,但随着数据海量化、业务多样化等影响,离线处理已经不能满足用户需求,政府部门迫切需要对海量数据的标签实体实时打标来提升业务的能力。
发明内容
本发明实施例提供了一种标签实体处理方法、装置、计算机设备和存储介质,实现了政府部门对海量数据的标签实体实时打标,提高了政府业务的处理能力。
第一方面,本发明实施例提供了一种标签实体处理方法,所述方法包括:
在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;
根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;
根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
第二方面,本发明实施例还提供了一种标签实体处理装置,该装置包括:
标签实体类型确定模块,用于在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;
实体描述信息提取模块,用于根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;
实体标签建立模块,用于根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的一种标签实体处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的一种标签实体处理方法。
本发明实施例首先在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;然后根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;最后根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。本发明实施例解决了离线处理标签实体而导致数据量庞大、数据类型复杂的问题,实现了标签实体的自动识别,保证了标签实体打标的实时性和有效性,提高了政府业务的处理能力。
附图说明
图1是本发明实施例一中的一种标签实体处理方法的流程图;
图2是本发明实施例二中的一种标签实体处理方法的流程图;
图3是本发明实施例三中的一种标签实体处理方法的流程图;
图4是本发明实施例四中的一种标签实体处理装置的结构图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种标签实体处理方法的流程图,本实施例可适用于面向政府的信息化数据处理过程中,在确定出与文档对应的标签实体后,为该标签实体建立实体标签的情形,该方法可以由标签实体处理装置来执行,该装置可以由软件和/或硬件来实现,并一般可以集成在具有数据识别与处理功能的终端或者服务器中,具体包括如下步骤:
步骤110、在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型。
其中,可以根据目标文档的不同类型,采取匹配的数据项提取方式提取数据项信息。
在本实施例中,待处理的目标文档可以为excle格式的目标文档,数据项信息为目标文档中各数据项的数据项名称。
标签实体类型包括:人员实体、物品实体以及文档实体中的一项或者多项。
步骤120、根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息。
在此步骤中,实体描述信息指在与所述标签实体类型匹配的信息提取规则下目标文档中有用的数据项名称。
具体的,假设步骤110中在待处理的目标文档中提取的数据项信息为文件编号、文件名、文件时间、文件页数以及文件分类等数据项名,通过语义分析技术对所述数据项信息进行识别,确定出此数据项信息符合的标签实体类型为文档实体,然后根据与文档实体匹配的信息提取规则,在此数据项信息中提取出有用的数据项名称也即实体描述信息,此实体描述信息可以为文件编号、文件时间和文件分类等。
步骤130、根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
在此步骤中,目标标签实体指实体描述信息下具体涵盖的信息内容。比如在步骤120中实体描述信息可以为文件编号、文件时间和文件分类等,所述目标标签实体为文件编号-01、文件时间2019-10-14和文件分类-登记类文件等。建立与所述目标标签实体对应的至少一项实体标签指对目标标签实体依据特定的规则重新打标的过程。具体的,与上述目标标签实体对应的实体标签可以为文件编号-0001、年度-2019以及月度-10等。
本发明实施例首先在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;然后根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;最后根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。本发明实施例解决了离线处理标签实体而导致数据量庞大、数据类型复杂的问题,实现了标签实体的自动识别,保证了标签实体打标的实时性和有效性,提高了政府业务的处理能力。
实施例二
本实施例在上述实施例一的基础上,提供了具体的通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型的实施方式。与上述实施例相同或相应的术语解释,本实施例不再赘述。
图2是本发明实施例二提供的一种标签实体处理方法的流程图,如图2所示,该方法包括如下步骤:
步骤210、在待处理的目标文档中提取数据项信息。
在本实施例中,待处理的目标文档可以为excle格式的目标文档,数据项信息为目标文档中各数据项的数据项名称,比如excel文档中的表名、登记时间以以及经办人等数据项名称。
步骤220、获取标签知识库,所述知识库中包括至少一项标签实体类型的知识数据。
在此步骤中,标签知识库是由数据分析人员根据数据分析需要构建的存储各项标签实体类型的知识数据库,所述标签知识库包括:人员实体训练库、物品实体训练库和文档实体训练库。
步骤230、通过语义分析技术,将所述数据项信息与各项标签实体类型的知识数据进行匹配,确定所述数据项信息符合的标签实体类型。
在此步骤中,语义分析技术指提取数据项信息的关键特征,将此关键特征与各项标签实体类型的知识数据做对比,如果数据项信息的关键特征与某一标签实体类型的知识数据较为匹配,则将此标签实体类型作为所述数据项信息符合的标签实体类型。
步骤240、根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息。
在此步骤中,实体描述信息指在与所述标签实体类型匹配的信息提取规则下目标文档中有用的数据项名称。所述标签实体类型包括:人员实体、物品实体以及文档实体。每种标签实体类型都对应特定的信息提取规则。具体的,人员实体对应姓名、性别以及工作年月等,物品实体对应物品类别、物品用途和物品提取时间等,文档实体对应文件编号、文件时间和文件分类等。
步骤250、根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
在此步骤中,目标标签实体指实体描述信息下具体涵盖的信息内容。建立与所述目标标签实体对应的至少一项实体标签指对目标标签实体依据特定的规则重新打标的过程。
本发明实施例首先在待处理的目标文档中提取数据项信息;然后获取标签知识库,所述知识库中包括至少一项标签实体类型的知识数据,通过语义分析技术,将所述数据项信息与各项标签实体类型的知识数据进行匹配,确定所述数据项信息符合的标签实体类型;接着根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;最后根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。本发明实施例利用标签知识库有效确定出数据项信息符合的标签实体类型,实现了标签实体的自动识别,解决了离线处理标签实体而导致数据量庞大、数据类型复杂的问题,保证了标签实体打标的实时性和有效性,提高了政府业务的处理能力。
实施例三
本实施例在上述实施例一的基础上,提供了具体的建立与所述目标标签实体对应的至少一项实体标签的实施方式。与上述实施例相同或相应的术语解释,本实施例不再赘述。
图3是本发明实施例三提供的一种标签实体处理方法的流程图,如图3所示,该方法包括如下步骤:
步骤310、在待处理的目标文档中提取数据项信息。
在本实施例中,待处理的目标文档可以为excle格式的目标文档,数据项信息为目标文档中各数据项的数据项名称,比如excel文档中的表名、登记时间以以及经办人等数据项名称。
步骤320、获取标签知识库,所述知识库中包括至少一项标签实体类型的知识数据。
在此步骤中,标签知识库是由数据分析人员根据数据分析需要构建的,所述标签知识库用于存储各项标签实体类型的知识数据,所述标签知识库包括:人员实体训练库、物品实体训练库和文档实体训练库。
步骤330、通过语义分析技术,将所述数据项信息与各项标签实体类型的知识数据进行匹配,确定所述数据项信息符合的标签实体类型。
在此步骤中,语义分析技术指提取数据项信息的关键特征,将此关键特征与各项标签实体类型的知识数据做对比,如果数据项信息的关键特征与某一标签实体类型的知识数据较为匹配,则将此标签实体类型作为所述数据项信息符合的标签实体类型。
步骤340、根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息。
在此步骤中,实体描述信息指在与所述标签实体类型匹配的信息提取规则下目标文档中有用的数据项名称。所述标签实体类型包括:人员实体、物品实体以及文档实体。每种标签实体类型都对应特定的信息提取规则。具体的,物品实体对应物品类别、物品用途和物品提取时间等,文档实体对应文件编号、文件时间和文件分类等。
具体的,假设步骤310中的待处理的目标文档中提取的数据项信息为物品编号、物品类别、物品提取时间、物品归属单位以及物品价格等,通过步骤330确定所述数据项信息符合的标签实体类型为物品实体,则此实体描述信息可以为物品类别、物品归属单位以及物品提取时间等。
步骤350、根据所述实体描述信息建立与所述目标文档对应的目标标签实体。
在此步骤中,目标标签实体指实体描述信息下具体涵盖的信息内容。比如在步骤340中实体描述信息可以为物品类别、物品归属单位以及物品提取时间等,所述目标标签实体为物品类别-书本、物品归属单位-行政部门、物品提取时间-2019.10等。
步骤360、在标签规则库中获取至少一项标签规则,将所述目标标签实体与所述至少一项标签规则进行规则比对,根据比对符合的标签规则,建立与所述目标标签实体对应的至少一项实体标签。
在此步骤中,标签规则库是由数据分析人员根据数据分析需要构建的存储标签规则内容的库,所属标签规则库包括标签规则类型、标签规则内容以及标签标识符等。具体的,步骤350中的目标标签实体为物品类别-书本、物品归属单位-行政部门、物品提取时间-2019.10等,与所述目标标签实体对应的实体标签可以为物品类别-办公类用品、物品归属单位-行政部门、物品提取年份-2019以及物品提取月份-10等。
在本发明实施例中,所述目标标签实体存储于标签实体库中,所述目标标签实体与所述实体标签的对应关系存储于标签实体映射库中,所述实体标签分发至所述标签实体库和所述标签实体映射库中,以便于有效地对业务进行查询、统计和分析等
本发明实施例首先在待处理的目标文档中提取数据项信息,然后获取标签知识库,所述知识库中包括至少一项标签实体类型的知识数据,通过语义分析技术,将所述数据项信息与各项标签实体类型的知识数据进行匹配,确定所述数据项信息符合的标签实体类型;接着根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;最后根据所述实体描述信息建立与所述目标文档对应的目标标签实体在标签规则库中获取至少一项标签规则,将所述目标标签实体与所述至少一项标签规则进行规则比对,根据比对符合的标签规则,建立与所述目标标签实体对应的至少一项实体标签。本发明实施例通过将目标标签实体与标签规则库中的标签规则进行规则对比,保证了标签实体打标的实时性和准确性,解决了离线处理标签实体而导致数据量庞大、数据类型复杂的问题,提高了政府业务的处理能力。
实施例四
图4为本发明实施例四提供的一种标签实体处理装置的结构图,该装置包括:标签实体类型确定模块410、实体描述信息提取模块420和实体标签建立模块430。
其中,标签实体类型确定模块410,用于在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;实体描述信息提取模块420,用于根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;实体标签建立模块430,用于根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
本实施例的技术方案首先通过标签实体类型确定模块确定出目标文档数据项信息符合的标签实体类型,为后续标签实体的打标提供了条件;然后利用实体描述信息提取模块在所述数据项信息中提取出有用的数据项名称也即实体描述信息;最后利用实体标签建立模块建立了与所述目标标签实体对应的至少一项实体标签。本实施例提供了一种有效的标签实体处理装置,解决了离线处理标签实体而导致数据量庞大、数据类型复杂的问题,实现了标签实体的自动识别,保证了标签实体打标的实时性和有效性,提高了政府业务的处理能力。
在上述各实施例的基础上,标签实体处理装置可以包括:
目标标签实体存储模块,用于将所述目标标签实体存储于标签实体库中;
目标标签实体与实体标签的对应关系存储模块,用于将所述目标标签实体与所述实体标签的对应关系存储于标签实体映射库中;
实体标签分发模块,用于将所述实体标签分发至所述标签实体库和所述标签实体映射库中。
标签实体类型确定模块410,可以包括:
数据项信息提取单元,用于获取excle格式的目标文档,并提取所述目标文档中各数据项的数据项名称作为所述数据项信息。
标签知识库获取单元,用于获取标签知识库,所述知识库中包括至少一项标签实体类型的知识数据;
语义分析单元,用于通过语义分析技术,将所述数据项信息与各项标签实体类型的知识数据进行匹配,确定所述数据项信息符合的标签实体类型。
实体标签建立模块430可以包括:
标签规则获取单元,用于在标签规则库中获取至少一项标签规则;
规则比对单元,用于将所述目标标签实体与所述至少一项标签规则进行规则比对;
实体标签建立单元,用于根据比对符合的标签规则,建立与所述目标标签实体对应的至少一项实体标签。
本发明实施例所提供的标签实体处理装置可执行本发明任意实施例所提供的标签实体处理方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种标签实体处理方法对应的程序指令/模块(例如,一种标签实体处理装置中的标签实体类型确定模块410、实体描述信息提取模块420和实体标签建立模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种标签实体处理方法。也即,该程序被处理器执行时实现:
在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;
根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;
根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的一种标签实体处理方法。当然,本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明任意实施例所提供的标签实体处理方法中的相关操作。也即,该程序被处理器执行时实现:
在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;
根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;
根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种标签实体处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种标签实体处理方法,其特征在于,包括:
在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;
根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;
根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
2.根据权利要求1所述的方法,其特征在于,在待处理的目标文档中提取数据项信息,包括:
获取excle格式的目标文档,并提取所述目标文档中各数据项的数据项名称作为所述数据项信息。
3.根据权利要求1所述的方法,其特征在于,通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型,包括:
获取标签知识库,所述知识库中包括至少一项标签实体类型的知识数据;
通过语义分析技术,将所述数据项信息与各项标签实体类型的知识数据进行匹配,确定所述数据项信息符合的标签实体类型。
4.根据权利要求3所述的方法,其特征在于,所述标签实体类型包括:人员实体、物品实体以及文档实体。
5.根据权利要求1所述的方法,其特征在于,建立与所述目标标签实体对应的至少一项实体标签,包括:
在标签规则库中获取至少一项标签规则;
将所述目标标签实体与所述至少一项标签规则进行规则比对;
根据比对符合的标签规则,建立与所述目标标签实体对应的至少一项实体标签。
6.根据权利要求1所述的方法,其特征在于,
将所述目标标签实体存储于标签实体库中;
将所述目标标签实体与所述实体标签的对应关系存储于标签实体映射库中;
将所述实体标签分发至所述标签实体库和所述标签实体映射库中。
7.一种标签实体处理装置,其特征在于,包括:
标签实体类型确定模块,用于在待处理的目标文档中提取数据项信息,并通过语义分析技术对所述数据项信息进行识别,确定所述数据项信息符合的标签实体类型;
实体描述信息提取模块,用于根据与所述标签实体类型匹配的信息提取规则,在所述数据项信息中提取实体描述信息;
实体标签建立模块,用于根据所述实体描述信息建立与所述目标文档对应的目标标签实体,并建立与所述目标标签实体对应的至少一项实体标签。
8.根据权利要求7所述的装置,其特征在于,所述标签实体类型确定模块包括:
标签知识库获取单元,用于获取标签知识库,所述知识库中包括至少一项标签实体类型的知识数据;
语义分析单元,用于通过语义分析技术,将所述数据项信息与各项标签实体类型的知识数据进行匹配,确定所述数据项信息符合的标签实体类型。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的一种标签实体处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的一种标签实体处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013609.1A CN110765778B (zh) | 2019-10-23 | 2019-10-23 | 一种标签实体处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013609.1A CN110765778B (zh) | 2019-10-23 | 2019-10-23 | 一种标签实体处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765778A true CN110765778A (zh) | 2020-02-07 |
CN110765778B CN110765778B (zh) | 2023-08-29 |
Family
ID=69333283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911013609.1A Active CN110765778B (zh) | 2019-10-23 | 2019-10-23 | 一种标签实体处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765778B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931504A (zh) * | 2020-08-13 | 2020-11-13 | 北京深演智能科技股份有限公司 | 实体的标签的确定方法、装置、存储介质和处理器 |
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198909A1 (en) * | 2000-06-06 | 2002-12-26 | Microsoft Corporation | Method and system for semantically labeling data and providing actions based on semantically labeled data |
JP2008093569A (ja) * | 2006-10-12 | 2008-04-24 | Ebara Corp | 超音波処理及びダイヤモンド電極を用いた水媒体の処理方法及び装置 |
US20090254540A1 (en) * | 2007-11-01 | 2009-10-08 | Textdigger, Inc. | Method and apparatus for automated tag generation for digital content |
US20100235165A1 (en) * | 2009-03-13 | 2010-09-16 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
US20140040275A1 (en) * | 2010-02-09 | 2014-02-06 | Siemens Corporation | Semantic search tool for document tagging, indexing and search |
US20150370782A1 (en) * | 2014-06-23 | 2015-12-24 | International Business Machines Corporation | Relation extraction using manifold models |
US20160378873A1 (en) * | 2010-07-23 | 2016-12-29 | Sony Corporation | Apparatus, method, and program for processing displayed contents based on a result of natural language processing |
CN106354861A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 电影标签自动标引方法及自动标引系统 |
CN107315798A (zh) * | 2017-06-19 | 2017-11-03 | 北京神州泰岳软件股份有限公司 | 基于多主题语义标签信息映射的结构化处理方法及装置 |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
US20180033416A1 (en) * | 2012-12-21 | 2018-02-01 | The Nielsen Company (Us), Llc | Audio Processing Techniques for Semantic Audio Recognition and Report Generation |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
US20180225281A1 (en) * | 2017-02-06 | 2018-08-09 | Thomson Reuters Global Resources Unlimited Company | Systems and Methods for Automatic Semantic Token Tagging |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN109064210A (zh) * | 2018-06-29 | 2018-12-21 | 康美药业股份有限公司 | 一种建立用户标签库的方法、电子设备、存储介质及系统 |
CN109766438A (zh) * | 2018-12-12 | 2019-05-17 | 平安科技(深圳)有限公司 | 简历信息提取方法、装置、计算机设备和存储介质 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5040925B2 (ja) * | 2007-01-29 | 2012-10-03 | 日本電気株式会社 | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム |
-
2019
- 2019-10-23 CN CN201911013609.1A patent/CN110765778B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198909A1 (en) * | 2000-06-06 | 2002-12-26 | Microsoft Corporation | Method and system for semantically labeling data and providing actions based on semantically labeled data |
JP2008093569A (ja) * | 2006-10-12 | 2008-04-24 | Ebara Corp | 超音波処理及びダイヤモンド電極を用いた水媒体の処理方法及び装置 |
US20090254540A1 (en) * | 2007-11-01 | 2009-10-08 | Textdigger, Inc. | Method and apparatus for automated tag generation for digital content |
US20100235165A1 (en) * | 2009-03-13 | 2010-09-16 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
CN102439590A (zh) * | 2009-03-13 | 2012-05-02 | 发明机器公司 | 用于自然语言文本的自动语义标注的系统和方法 |
US20140040275A1 (en) * | 2010-02-09 | 2014-02-06 | Siemens Corporation | Semantic search tool for document tagging, indexing and search |
US20160378873A1 (en) * | 2010-07-23 | 2016-12-29 | Sony Corporation | Apparatus, method, and program for processing displayed contents based on a result of natural language processing |
US20180033416A1 (en) * | 2012-12-21 | 2018-02-01 | The Nielsen Company (Us), Llc | Audio Processing Techniques for Semantic Audio Recognition and Report Generation |
US20150370782A1 (en) * | 2014-06-23 | 2015-12-24 | International Business Machines Corporation | Relation extraction using manifold models |
CN106354861A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 电影标签自动标引方法及自动标引系统 |
US20180225281A1 (en) * | 2017-02-06 | 2018-08-09 | Thomson Reuters Global Resources Unlimited Company | Systems and Methods for Automatic Semantic Token Tagging |
CN107315798A (zh) * | 2017-06-19 | 2017-11-03 | 北京神州泰岳软件股份有限公司 | 基于多主题语义标签信息映射的结构化处理方法及装置 |
CN107436922A (zh) * | 2017-07-05 | 2017-12-05 | 北京百度网讯科技有限公司 | 文本标签生成方法和装置 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN109064210A (zh) * | 2018-06-29 | 2018-12-21 | 康美药业股份有限公司 | 一种建立用户标签库的方法、电子设备、存储介质及系统 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN109766438A (zh) * | 2018-12-12 | 2019-05-17 | 平安科技(深圳)有限公司 | 简历信息提取方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
CIRO CATTUTO, ET AL: ""Semantic Analysis of Tag Similarity Measures in Collaborative Tagging Systems"", 《ARXIV》 * |
廖建军;: "基于标签样式和密度模型的网页正文自动抽取", 情报科学, no. 07 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967262A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN111967262B (zh) * | 2020-06-30 | 2024-01-12 | 北京百度网讯科技有限公司 | 实体标签的确定方法和装置 |
CN111931504A (zh) * | 2020-08-13 | 2020-11-13 | 北京深演智能科技股份有限公司 | 实体的标签的确定方法、装置、存储介质和处理器 |
Also Published As
Publication number | Publication date |
---|---|
CN110765778B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN110909123B (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN110765101B (zh) | 标签的生成方法、装置、计算机可读存储介质及服务器 | |
CN114817968B (zh) | 无特征数据的路径追溯方法、装置、设备及存储介质 | |
CN111563382A (zh) | 文本信息的获取方法、装置、存储介质及计算机设备 | |
CN110765778B (zh) | 一种标签实体处理方法、装置、计算机设备和存储介质 | |
CN114840519A (zh) | 一种数据打标签的方法、设备及存储介质 | |
US10824803B2 (en) | System and method for logical identification of differences between spreadsheets | |
CN113536788B (zh) | 信息处理方法、装置、存储介质及设备 | |
CN114237798A (zh) | 数据处理方法、装置、服务器及存储介质 | |
US11170164B2 (en) | System and method for cell comparison between spreadsheets | |
CN114884686A (zh) | 一种php威胁识别方法及装置 | |
CN110909538B (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN114463033A (zh) | 一种数据筛查方法、装置、电子设备、存储介质 | |
CN112347318A (zh) | 划分企业所属行业类别的方法、设备及介质 | |
CN111199423A (zh) | 用户行为轨迹生成方法、装置、设备及存储介质 | |
CN112819622A (zh) | 一种信息的实体关系联合抽取方法、装置及终端设备 | |
CN111125483A (zh) | 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质 | |
CN111522842A (zh) | 一种etl数据处理方法、装置、计算机设备和存储介质 | |
CN116821552A (zh) | 邮件信息提取方法、装置及电子设备 | |
CN117807474A (zh) | 数据分类方法、装置、设备及存储介质 | |
CN116049416A (zh) | 一种实体分析方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |