CN112612907A - 知识图谱的生成方法、装置、电子设备和计算机可读介质 - Google Patents

知识图谱的生成方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN112612907A
CN112612907A CN202110003096.7A CN202110003096A CN112612907A CN 112612907 A CN112612907 A CN 112612907A CN 202110003096 A CN202110003096 A CN 202110003096A CN 112612907 A CN112612907 A CN 112612907A
Authority
CN
China
Prior art keywords
target
data
word segmentation
preset
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110003096.7A
Other languages
English (en)
Inventor
徐猛
付骁弈
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110003096.7A priority Critical patent/CN112612907A/zh
Publication of CN112612907A publication Critical patent/CN112612907A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/381Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using identifiers, e.g. barcodes, RFIDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本申请提供了一种知识图谱的生成方法、装置、电子设备和计算机可读介质,属于知识图谱技术领域。使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。服务器在获取对象数据后,根据不同数据抽取方案抽取对象数据,使得对象数据的获取更加准确,则构建的知识图谱也更加精准。

Description

知识图谱的生成方法、装置、电子设备和计算机可读介质
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种知识图谱的生成方法、装置、电子设备和计算机可读介质。
背景技术
在当前的大数据时代中,每天都会产生大量的数据,企业需要从这些数据中抽取目标数据,用于构建行业知识图谱,以辅助领导层决策、跟踪事件发展状况以及风险评估。具体来说,企业很多上层的应用服务都需要根据基础信息进行决策判断,而基础信息作为数据的底层信号,因此基础信息对于上层应用具有至关重要的影响。示例性地,企业需要抽取的目标数据包括人名、地址、机构名、部门、职位、手机号、邮箱以及昵称八种信息。
目前产生的数据种类繁多,良莠不齐,因此,如何从大量数据中抽取目标数据构建准确的知识图谱,就成了人工智能领域重要的研究问题。
发明内容
本申请实施例的目的在于提供一种知识图谱的生成方法、装置、电子设备和计算机可读介质,以解决知识图谱构建不准确的问题。具体技术方案如下:
第一方面,提供了一种知识图谱的生成方法,所述方法包括:
使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;
利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。
可选地,所述使用多种数据抽取方案从原始数据中抽取多种类型的对象数据包括:
使用自然语言分析方案从原始数据中抽取用户名称、地址和机构名称;
并使用正则表达式从所述原始数据中抽取电话号码和邮箱;
并使用预设关键词从所述原始数据中抽取职位信息和部门信息。
可选地,所述使用自然语言分析方案从原始数据中抽取地址包括:
将原始数据输入自然语言处理模型,得到所述自然语言处理模型输出的第一分词和与所述第一分词对应的备选标签;
选取所述备选标签中与地址相关联的目标标签,并将所述目标标签映射成目标元素;
根据多个所述目标元素生成目标序列;
在所述目标序列中,将各所述目标元素对应的第一分词作为地址。
可选地,所述使用自然语言分析方案从原始数据中抽取机构名称包括:
使用自然语言分析方案从所述原始数据中识别备选机构名称;
在数据库中查找与所述备选机构名称相关联的目标机构名称,其中,所述数据库中包含所述备选机构的正确机构名称;
将所述目标机构名称作为从所述原始数据中抽取的机构名称。
可选地,所述使用正则表达式从所述原始数据中抽取电话号码包括:
获取电话号码的预设表达式,其中,所述预设表达式包括首位数字和预设数字范围,所述预设数字范围包括至少一个子范围,每个所述子范围携带有包含的数字的数量、和包含的所述数字在号码序列中的位置;
确定所述电话号码的每个数字和所述数字所在的号码序列中的位置;
确定携带有相同位置的目标子范围和所述电话号码中的目标数字,其中,所述目标数字为非首位数字;
若判定所述电话号码中的首位数字与所述预设表达式中的首位数字相同、且所述目标数字位于所述目标子范围中,则确定所述电话号码符合所述预设表达式;
从所述原始数据中抽取所述电话号码。
可选地,所述使用自然语言分析方案从原始数据中抽取用户名称包括:
根据所述用户名称的标签在所述原始数据中识别用户名称;
并对所述原始数据进行分词操作,得到目标分词;
确定所述目标分词、所述目标分词的前一个分词和所述目标字词的后一个分词;
根据所述目标分词、所述前一个分词和所述后一个分词中至少一个分词携带的预设姓氏,以及所述目标分词的分词长度,从所述原始数据中抽取用户名称。
可选地,所述根据所述目标分词、所述前一个分词和所述后一个分词中至少一个分词携带的预设姓氏,以及所述目标分词的分词长度,从所述原始数据中抽取用户名称包括:
在识别到所述目标分词中携带有目标关键词、且所述目标分词的分词长度大于第一预设长度的情况下,确定所述目标分词的前一个分词;
若确定所述前一个分词中携带有预设姓氏,则将所述预设姓氏与所述目标分词作为所述用户名称。
第二方面,提供了一种知识图谱的生成装置,所述装置包括:
抽取模块,用于使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;
建立模块,用于利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器使用通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种知识图谱的生成方法,方法包括:服务器使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,原始数据为在目标业务的业务平台中产生的数据,然后利用多种类型的对象数据建立目标业务的知识图谱,其中,知识图谱用于在目标业务中使用。服务器在获取对象数据后,根据多种类型的对象数据建立目标业务的知识图谱,该知识图谱用于在目标业务中使用。服务器在获取对象数据后,根据不同数据抽取方案抽取对象数据,使得对象数据的获取更加准确,则构建的知识图谱也更加精准。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种知识图谱的生成方法硬件环境示意图;
图2为本申请实施例提供的一种知识图谱的生成的方法流程图;
图3为本申请实施例提供的从原始数据中抽取地址的方法流程图;
图4为本申请实施例提供的从原始数据中抽取电话号码的方法流程图;
图5为本申请实施例提供的一种知识图谱的生成装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种知识图谱的生成方法的实施例。
可选地,在本申请实施例中,上述知识图谱的生成方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种知识图谱的生成方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种知识图谱的生成方法,可以应用于服务器,用于抽取对象数据构建知识图谱。
下面将结合具体实施方式,对本申请实施例提供的一种知识图谱的生成方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:使用多种数据抽取方案从原始数据中抽取多种类型的对象数据。
其中,多种数据抽取方案中任意两种数据抽取方案对应至少一个类型的对象数据所抽取的对象数据的类型不同,原始数据为在目标业务的业务平台中产生的数据;
在本申请实施例中,业务平台在执行目标业务时会产生大量原始数据,服务器需要对从原始数据中抽取多种类型的对象数据,然后根据这些对象数据构建知识图谱,由于每种对象数据的类型不同,则采用多种数据抽取方案分别对每种对象数据进行抽取。
步骤202:利用多种类型的对象数据建立目标业务的知识图谱。
其中,知识图谱用于在目标业务中使用。
服务器在获取对象数据后,根据不同数据抽取方案抽取对象数据,使得对象数据的获取更加准确,则构建的知识图谱也更加精准。
在本申请中,服务器针对每种类型的对象数据采用不同的数据抽取方案,由于采用单一的抽取方案不能满足所有类型的对象数据,因此,该方法保障了对象数据抽取的适合性和稳定性。
作为一种可选的实施方式,使用多种数据抽取方案从原始数据中抽取多种类型的对象数据包括:使用自然语言分析方案从原始数据中抽取用户名称、地址和机构名称;并使用正则表达式从原始数据中抽取电话号码和邮箱;并使用预设关键词从原始数据中抽取职位信息和部门信息。
在本申请实施例中,对象数据包括八类,分别为用户名称(包括用户姓名和用户昵称)、地址、机构名称、电话号码、邮箱、职位信息和部门信息,服务器采用自然语言分析方案从原始数据中抽取用户名称、地址和机构名称,并使用正则表达式从原始数据中抽取电话号码和邮箱;并使用预设关键词从原始数据中抽取职位信息和部门信息。
作为一种可选的实施方式,如图3所示,使用自然语言分析方案从原始数据中抽取地址包括:
步骤301:将原始数据输入自然语言处理模型,得到自然语言处理模型输出的第一分词和与第一分词对应的备选标签。
服务器将原始数据输入自然语言处理模型,得到自然语言处理模型输出的第一分词和与第一分词对应的备选标签,其中,第一分词为原始数据的分词。其中,自然语言处理模型可以为stanford corenlp,stanford corenlp是一种开源的用于处理文本的工具,具有分词和词性标注等功能。本申请对自然语言处理模型的具体方式不做限制。
举例来说,自然语言处理模型输出的第一分词为:我、在、xx国家、xx省、xx市区、xx街道,输出的与第一分词分别对应的备选标签为:OO,OO,GPE,STATE OR PROVINCE,CITY,FACILITY。
步骤302:选取备选标签中与地址相关联的目标标签,并将目标标签映射成目标元素。
服务器中预存有与地址相关联的地址标签,服务器在获取备选标签后,从多个备选标签中选取出与地址标签相同的目标标签,其中,目标标签与地址相关联,然后服务器将目标标签映射成相同的目标元素,计算机可以识别目标元素,并将目标元素对应的分词作为地址。
示例性地,服务器选取出目标标签:GPE,STATE OR PROVINCE,CITY,FACILITY,然后将全部目标标签均映射成目标元素:LOCATION,LOCATION,LOCATION,LOCATION。
步骤303:根据多个目标元素生成目标序列。
服务器根据多个目标元素生成目标序列。
示例性地,目标序列为{LOCATION,LOCATION,LOCATION,LOCATION}。
步骤304:在目标序列中,将各目标元素对应的第一分词作为地址。
服务器在目标序列中,将各目标元素对应的第一分词作为地址。
在本申请中,由于自然语言处理模型无法直接识别出原始数据中的地址,因此,先对原始数据进行分词,得到各第一分词对应的备选标签并从中选取出目标标签,由于计算机无法识别该目标标签,因此将目标标签映射为能够被计算机识别的目标元素,并将目标元素对应的分词连贯起来作为地址。
作为一种可选的实施方式,使用自然语言分析方案从原始数据中抽取机构名称包括:使用自然语言分析方案从原始数据中识别备选机构名称;在数据库中查找与备选机构名称相关联的目标机构名称,其中,数据库中包含备选机构的正确机构名称;将目标机构名称作为从原始数据中抽取的机构名称。
服务器可以采用自然语言分析方案从原始数据中识别备选机构名称,但由于原始数据中的备选机构名称会出现错误,例如备选机构名称不完整或多出某个字词,则需要更正备选机构名称。数据库中含有备选机构的正确机构名称,服务器根据识别出的备选机构名称,在数据库中查找与备选机构名称相关联的目标机构名称,然后将目标机构名称作为从原始数据中抽取的机构名称。
示例性地,服务器从原始数据中识别出的备选机构名称为“xx公司”,服务器确定的目标机构名称为“北京xx责任有限公司”。
作为一种可选的实施方式,如图4所示,使用正则表达式从原始数据中抽取电话号码包括:
步骤401:获取电话号码的预设表达式。
其中,预设表达式包括首位数字和预设数字范围,预设数字范围包括至少一个子范围,每个子范围携带有包含的数字的数量、和包含的数字在号码序列中的位置。
服务器中预先存储有电话号码的预设表达式。该预设表达式包括首位数字和预设数字范围,预设数字范围包括至少一个子范围,子范围内包括至少一个数字,每个子范围携带有包含的数字的数量、和包含的数字在号码序列中的位置。在本申请中,预设表达式可以为正则表达式。
在一种实施例中,手机号码的预设表达式为“1[358][0-9][0-9]{8}”。其中,1代表手机号码的首位数字,预设数值范围中的各子范围分别为[358]、[0-9]、[0-9]{8}。
“[358]”表示包含的数字的数量为1,(该1在预设表达式中省略),“[358]”位于预设表达式的第二位,则表示手机号码的第二位为3、5、8之中的一个数字。若子范围携带的数字的数量为1,则该子范围在预设表达式中的位置与该子范围对应的数字在电话号码中的位置相同。
“[0-9]”表示包含的数字的数量为1,(该1在预设表达式中省略),“[0-9]”位于预设表达式的第三位,则表示手机号码的第二位为0-9之中的一个数字。
“[0-9]{8}”表示包含的数字的数量为8,“{8}”表示电话号码的后八位的数字可以从0-9之中任意选择。
另一种实施例中,手机号码的预设表达式为“1([358][0-9]|4[579]|66|7[0135678]|9[89])[0-9]{8}”。其中,“|”表示或的关系,手机号码的第二位数字和第三位数字可以分别从“[358]、[0-9]”中选取,也可以从“4、[579]”中选取,也可以从“6、6”中选取,也可以从“7、[0135678]”中选取,也可以从“9、[89]”中选取。
又一种实施例中,座机号码包括区号码和固定号码。座机号码的预设表达式为“0\d{2。3}-?\d{7,8}”。其中,0代表座机号码的首位数字,“?”代表座机号码的其他数字,指0-9之间的任意数字。{2,3}表示座机号码的区号去掉0之后为两位或三位,即座机号码的区号为三位或四位,{7,8}表示座机号码的固定号码为七位或八位。
步骤402:确定电话号码的每个数字和数字所在的号码序列中的位置。
服务器获取电话号码,并确定电话号码中的每个数字,以及该数字在电话号码的号码序列中的排列位置。示例性地,手机号码为13sdfghjk,其中,手机号码中的每个英文字母表示一个数字。
步骤403:确定携带有相同位置的目标子范围和电话号码中的目标数字。
其中,目标数字为非首位数字。
服务器选取一个电话号码中的排列位置,然后确定位于该位置的预设表达式中的目标子范围,和位于该位置的电话号码中的目标数字,由于预设表达式的首位是某个数字,因此该位置不是首位,目标数字为非首位数字。
示例性地,选取的排列位置为手机号码的第二位,则目标数字为3,目标子范围为[358]。
步骤404:若判定电话号码中的首位数字与预设表达式中的首位数字相同、且目标数字位于目标子范围中,则确定电话号码符合预设表达式。
服务器若确定电话号码中的首位数字与预设表达式中的首位数字相同,且目标数字位于目标子范围中,则确定电话号码符合预设表达式。
示例性地,若手机号码的首位数字为1,第二位数字为3、5、8之中的一个数字,第三位数字为0-9之中的一个数字,后八位数字均为0-9中的数字,则确定该手机号码符合预设表达式。
步骤405:从原始数据中抽取电话号码。
服务器从原始数据中抽取手机号码。
可选地,服务器从原始数据中抽取邮箱也可以采用预设表达式的方式。示例性地,邮箱的预设表达式为“[0-9a-zA-Z_.]{0,19}@[0-9a-zA-Z]{1,19}\.[com,cn,net,tech]{1,3}”。
其中,“[0-9a-zA-Z_.]{0,19}”表示邮箱的用户信箱的符号数量范围为0-19位,用户信箱的符号可以从“0-9、a-z、A-Z、_、.”中选取。
“@”是分隔符。
[0-9a-zA-Z]{1,19}\.[com,cn,net,tech]{1,3}表示域名内容从0-9、a-z、A-Z选取,后缀可以为“com,cn,net,tech”中的一个。
作为一种可选地实施方式,使用预设关键词从原始数据中抽取职位信息和部门信息包括:在原始数据中根据预设关键词查找目标数据,其中,预设关键词来源于包含多个职位名称和部门名称的字典库;根据预设关键词携带的标签对目标数据进行标注,得到原始数据中的职位信息和部门信息。
服务器中包含具有多个职位名称和部门名称的字典库,服务器将字典库中的字典数据作为flashtext的预设关键词,预设关键词携带有属于职位信息或部门信息的标签,服务器根据预设关键词在原始数据中查找目标数据,然后将目标数据打上与预设关键词相同的标签,得到原始数据中的职位信息和部门信息。
作为一种可选的实施方式,用户名称包括用户姓名和用户昵称,使用自然语言分析方案从原始数据中抽取用户名称包括:根据用户名称的标签在原始数据中识别用户姓名;并对原始数据进行分词操作,得到目标分词;确定目标分词、目标分词的前一个分词和目标字词的后一个分词;根据目标分词、前一个分词和后一个分词中至少一个分词携带的预设姓氏,以及目标分词的分词长度,从原始数据中抽取用户名称。
原始数据中的用户名称携带有用户名称的标签,服务器首先通过用户名称的标签在原始数据中识别用户姓名。为了识别的更全面,服务器使用自然语言分析方案对原始数据进行分词操作,得到目标分词,然后服务器确定目标分词、目标分词的前一个分词和目标字词的后一个分词。
用户名称包括用户姓名和用户昵称,其中,识别用户昵称的方式为判断目标分词的最后一个字或最后两个字是否为目标字词,若为目标字词,则该目标分词为用户昵称。
示例性地,目标分词的最后一个字为[‘哥’、’姐’、’总’],或目标分词的最后两个字是['老板','老师','经理','主任','干事','大大','帅哥','美女','先生','姑娘'],则目标分词为用户昵称。
用户名称识别包括以下几个识别方式:
方式一:目标分词的分词长度大于第二预设长度、且目标分词的第一个字为预设姓氏,则确定该目标分词为用户名称,其中,第二预设长度为1。
示例性地,目标分词为王超,长度大于1,且第一个为“王”,则王超为用户名称,具体为用户姓名。
目标分词为王老师,长度大于1,且第一个为“王”,则王老师为用户名称,具体为用户昵称。
方式二:目标分词的分词长度大于第一预设长度、且目标分词的最后一个字为目标字词,则确定该目标分词为用户昵称。其中,第一预设长度为1或2。
示例性地,目标分词的最后一个字是[‘哥’,’姐’,’总’],且目标分词的长度大于1,则目标分词是用户昵称,例如“张哥”。
目标分词的最后两个字是['老板','老师','经理','主任','干事','大大','帅哥','美女','先生','姑娘','队长'],目标分词的长度大于2,则目标分词是用户昵称,例如“李老板”。
方式三:目标分词的分词长度为第二预设长度、且目标分词的最后一个字为目标字词,则确定目标分词的前一个分词,若前一个分词中携带有预设姓氏,则将预设姓氏与目标分词作为用户昵称。
目标分词为[‘哥’,’姐’,’总’],且目标分词的长度为1,则向前取一个分词A,如果分词A中携带有“王”,则将“王”与目标分词结合作为用户昵称,比如“王姐”。
目标分词为['老板','老师','经理','主任','干事','大大','帅哥','美女','先生','姑娘','队长'],且目标分词的长度为2,则向前取一个分词A,如果分词A中携带有“王”,则将“王”与目标分词结合作为用户昵称,比如“王主任”。
方式四:目标分词的分词长度为第二预设长度,为“老”,则确定目标分词的后一个分词,若后一个分词中携带有预设姓氏,则将“老”与预设姓氏作为用户昵称。
示例性地,目标分词为“老”,则向后取一个分词B,如果分词B中携带有“王”,则将“老”与预设姓氏结合作为用户昵称,比如“老王”。
作为一种可选的实施方式,本申请在从原始数据中抽取多种类型的对象数据之前,还需要对原始数据进行预处理,具体是通过正则表达式去除原始文本中的特殊符号,例如表情符号、html符号以及其他特殊符号。
在本申请中,本方法不需要采用深度学习方法,无需进行大量的数据标注,节省时间和人力。
基于相同的技术构思,本申请实施例还提供了一种知识图谱的生成装置,如图5所示,该装置包括:
抽取模块501,用于使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,原始数据为在目标业务的业务平台中产生的数据;
建立模块502,用于利用多种类型的对象数据建立目标业务的知识图谱,其中,知识图谱用于在目标业务中使用。
可选地,抽取模块501包括:
第一抽取单元,用于使用自然语言分析方案从原始数据中抽取用户名称、地址和机构名称;
第二抽取单元,用于并使用正则表达式从原始数据中抽取电话号码和邮箱;
第三抽取单元,用于并使用预设关键词从原始数据中抽取职位信息和部门信息。
可选地,第一抽取单元包括:
输入子单元,用于将原始数据输入自然语言处理模型,得到自然语言处理模型输出的第一分词和与第一分词对应的备选标签;
选取子单元,用于选取备选标签中与地址相关联的目标标签,并将目标标签映射成目标元素;
生成子单元,用于根据多个目标元素生成目标序列;
第一作为子单元,用于在目标序列中,将各目标元素对应的第一分词作为地址。
可选地,第一抽取单元包括:
第一识别子单元,用于使用自然语言分析方案从原始数据中识别备选机构名称;
查找子单元,用于在数据库中查找与备选机构名称相关联的目标机构名称,其中,数据库中包含备选机构的正确机构名称;
第二作为子单元,用于将目标机构名称作为从原始数据中抽取的机构名称。
可选地,第二抽取单元包括:
获取子单元,用于获取电话号码的预设表达式,其中,预设表达式包括首位数字和预设数字范围,预设数字范围包括至少一个子范围,每个子范围携带有包含的数字的数量、和包含的数字在号码序列中的位置;
第一确定子单元,用于确定电话号码的每个数字和数字所在的号码序列中的位置;
第二确定子单元,用于确定携带有相同位置的目标子范围和电话号码中的目标数字,其中,目标数字为非首位数字;
第三确定子单元,用于若判定电话号码中的首位数字与预设表达式中的首位数字相同、且目标数字位于目标子范围中,则确定电话号码符合预设表达式;
第一抽取子单元,用于从原始数据中抽取电话号码。
可选地,第一抽取单元包括:
第二识别子单元,用于根据用户名称的标签在原始数据中识别用户名称;
分词子单元,用于并对原始数据进行分词操作,得到目标分词;
第四确定子单元,用于确定目标分词、目标分词的前一个分词和目标字词的后一个分词;
第二抽取子单元,用于根据目标分词、前一个分词和后一个分词中至少一个分词携带的预设姓氏,以及目标分词的分词长度,从原始数据中抽取用户名称。
可选地,第二抽取子单元包括:
确定子模块,用于在识别到目标分词中携带有目标关键词、且目标分词的分词长度大于第一预设长度的情况下,确定目标分词的前一个分词;
作为子模块,用于若确定前一个分词中携带有预设姓氏,则将预设姓氏与目标分词作为用户名称。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图6所示,包括存储器603、处理器601、通信接口602及通信总线604,存储器603中存储有可在处理器601上运行的计算机程序,存储器603、处理器601使用通信接口602和通信总线604进行通信,处理器601执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器使用通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;
利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可使用执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并使用处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以使用其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是使用一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种知识图谱的生成方法,其特征在于,所述方法包括:
使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;
利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。
2.根据权利要求1所述的方法,其特征在于,所述使用多种数据抽取方案从原始数据中抽取多种类型的对象数据包括:
使用自然语言分析方案从原始数据中抽取用户名称、地址和机构名称;
并使用正则表达式从所述原始数据中抽取电话号码和邮箱;
并使用预设关键词从所述原始数据中抽取职位信息和部门信息。
3.根据权利要求2所述的方法,其特征在于,所述使用自然语言分析方案从原始数据中抽取地址包括:
将原始数据输入自然语言处理模型,得到所述自然语言处理模型输出的第一分词和与所述第一分词对应的备选标签;
选取所述备选标签中与地址相关联的目标标签,并将所述目标标签映射成目标元素;
根据多个所述目标元素生成目标序列;
在所述目标序列中,将各所述目标元素对应的第一分词作为地址。
4.根据权利要求2所述的方法,其特征在于,所述使用自然语言分析方案从原始数据中抽取机构名称包括:
使用自然语言分析方案从所述原始数据中识别备选机构名称;
在数据库中查找与所述备选机构名称相关联的目标机构名称,其中,所述数据库中包含所述备选机构的正确机构名称;
将所述目标机构名称作为从所述原始数据中抽取的机构名称。
5.根据权利要求2所述的方法,其特征在于,所述使用正则表达式从所述原始数据中抽取电话号码包括:
获取电话号码的预设表达式,其中,所述预设表达式包括首位数字和预设数字范围,所述预设数字范围包括至少一个子范围,每个所述子范围携带有包含的数字的数量、和包含的所述数字在号码序列中的位置;
确定所述电话号码的每个数字和所述数字所在的号码序列中的位置;
确定携带有相同位置的目标子范围和所述电话号码中的目标数字,其中,所述目标数字为非首位数字;
若判定所述电话号码中的首位数字与所述预设表达式中的首位数字相同、且所述目标数字位于所述目标子范围中,则确定所述电话号码符合所述预设表达式;
从所述原始数据中抽取所述电话号码。
6.根据权利要求2所述的方法,其特征在于,所述使用自然语言分析方案从原始数据中抽取用户名称包括:
根据所述用户名称的标签在所述原始数据中识别用户名称;
并对所述原始数据进行分词操作,得到目标分词;
确定所述目标分词、所述目标分词的前一个分词和所述目标字词的后一个分词;
根据所述目标分词、所述前一个分词和所述后一个分词中至少一个分词携带的预设姓氏,以及所述目标分词的分词长度,从所述原始数据中抽取用户名称。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标分词、所述前一个分词和所述后一个分词中至少一个分词携带的预设姓氏,以及所述目标分词的分词长度,从所述原始数据中抽取用户名称包括:
在识别到所述目标分词中携带有目标关键词、且所述目标分词的分词长度大于第一预设长度的情况下,确定所述目标分词的前一个分词;
若确定所述前一个分词中携带有预设姓氏,则将所述预设姓氏与所述目标分词作为所述用户名称。
8.一种知识图谱的生成装置,其特征在于,所述装置包括:
抽取模块,用于使用多种数据抽取方案从原始数据中抽取多种类型的对象数据,其中,所述多种数据抽取方案中任意两种数据抽取方案所抽取的对象数据的类型不同,所述原始数据为在目标业务的业务平台中产生的数据;
建立模块,用于利用所述多种类型的对象数据建立所述目标业务的知识图谱,其中,所述知识图谱用于在所述目标业务中使用。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器使用通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202110003096.7A 2021-01-04 2021-01-04 知识图谱的生成方法、装置、电子设备和计算机可读介质 Pending CN112612907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110003096.7A CN112612907A (zh) 2021-01-04 2021-01-04 知识图谱的生成方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110003096.7A CN112612907A (zh) 2021-01-04 2021-01-04 知识图谱的生成方法、装置、电子设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN112612907A true CN112612907A (zh) 2021-04-06

Family

ID=75253985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110003096.7A Pending CN112612907A (zh) 2021-01-04 2021-01-04 知识图谱的生成方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN112612907A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894160A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索方法
CN104462075A (zh) * 2013-09-12 2015-03-25 江苏金鸽网络科技有限公司 一种互联网人物信息的属性提取方法
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN111382571A (zh) * 2019-11-08 2020-07-07 南方科技大学 一种信息抽取方法、系统、服务器和存储介质
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894160A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索方法
CN104462075A (zh) * 2013-09-12 2015-03-25 江苏金鸽网络科技有限公司 一种互联网人物信息的属性提取方法
CN107045496A (zh) * 2017-04-19 2017-08-15 畅捷通信息技术股份有限公司 语音识别后文本的纠错方法及纠错装置
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN111427977A (zh) * 2019-01-10 2020-07-17 阿里巴巴集团控股有限公司 电子眼数据的处理方法及装置
CN111382571A (zh) * 2019-11-08 2020-07-07 南方科技大学 一种信息抽取方法、系统、服务器和存储介质
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置

Similar Documents

Publication Publication Date Title
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
CN111325022B (zh) 识别层级地址的方法和装置
CN111259160A (zh) 知识图谱构建方法、装置、设备及存储介质
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN112069824B (zh) 基于上下文概率和引证的地域识别方法、装置及介质
CN111738008B (zh) 基于多层模型的实体识别方法、装置、设备及存储介质
CN116127047B (zh) 企业信息库的建立方法与装置
CN112527819A (zh) 通讯录信息检索方法、装置、电子设备及存储介质
CN112612907A (zh) 知识图谱的生成方法、装置、电子设备和计算机可读介质
CN115718807A (zh) 人员关系分析方法、装置、设备及存储介质
CN108062295B (zh) 内容处理方法和装置
US10346448B2 (en) System and method for classifying an alphanumeric candidate identified in an email message
CN112015773B (zh) 知识库的检索方法、装置、电子设备以及存储介质
CN113378544A (zh) 文本解析方法、文本数据获取方法、装置、介质及设备
CN113255355A (zh) 文本信息中的实体识别方法、装置、电子设备和存储介质
CN112989043A (zh) 指代消解方法、装置、电子设备及可读存储介质
CN113268614A (zh) 标签体系更新方法、装置、电子设备及可读存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN112836498A (zh) 数据处理方法、识别方法、装置及计算设备
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN111698364B (zh) 联系人信息提取方法、相关设备及计算机可读存储介质
CN116383655B (zh) 样本生成方法、模型训练方法、文本处理方法及装置
CN116258138B (zh) 知识库构建方法、实体链接方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination