CN117851605A - 一种行业知识图谱构建方法、计算机设备及存储介质 - Google Patents
一种行业知识图谱构建方法、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN117851605A CN117851605A CN202311742747.XA CN202311742747A CN117851605A CN 117851605 A CN117851605 A CN 117851605A CN 202311742747 A CN202311742747 A CN 202311742747A CN 117851605 A CN117851605 A CN 117851605A
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- array
- character
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 37
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000009826 distribution Methods 0.000 claims abstract description 213
- 238000005457 optimization Methods 0.000 claims abstract description 93
- 238000012512 characterization method Methods 0.000 claims description 142
- 238000000034 method Methods 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 18
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种行业知识图谱构建方法、计算机设备及存储介质,基于感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组构建显著性优化数组,基于显著性优化数组对字符分布表征数组进行优化,让最后基于字符分布表征数组预测获得的感兴趣文本段落中的文本字符针对目标命名实体属性的预估文本段落更准确可靠,那么最后在预估文本段落集合中确定的对于针对目标命名实体属性的目标文本段落准确可靠。
Description
技术领域
本公开涉及文本数据处理领域,并且更具体地,涉及一种行业知识图谱构建方法、计算机设备及存储介质。
背景技术
知识图谱是一种基于概念图谱、本体论和语义网络的语义模型,具有根据知识组织、知识呈现、知识推理和知识应用等功能。知识图谱的应用情况非常广泛。首先,它可以应用于智能问答领域。通过建立领域内的知识图谱,智能问答系统能够更好地理解用户的提问,并给出更准确的答案。其次,知识图谱还可以应用于信息检索和推荐领域。通过将信息进行语义化表示,可以更好地理解用户的需求,从而给出更加精准的结果或推荐。此外,知识图谱还可以应用于自然语言处理、机器翻译、智能客服、人工智能等多个领域。构建行业知识图谱能够帮助行业信息沉淀,提高信息利用率。
行业知识图谱的构建是一个非常复杂和艰巨的任务。首先,需要对领域内的知识进行深入挖掘和理解。这包括了从结构化和非结构化数据中抽取实体、关系和属性等信息,以及对知识进行组织和分类等方面。其次,需要对知识进行语义化表示。这涉及到本体论、语义网络等方面的技术,并需要考虑如何将不同领域的知识进行统一表示。最后,需要对知识进行存储、查询和更新等操作。目标实体属性值提取是自然语言处理(NLP)领域的一个重要任务,在信息抽取任务中,从非结构化文本中提取有价值的结构化信息是至关重要的。目标实体属性值提取作为信息抽取的一个子任务,旨在从文本中识别出特定目标实体的属性和对应的属性值,这种信息提取对于构建知识图谱、智能问答系统和其他NLP应用具有重要意义。如何在目标文本中准确定位到目标命名实体属性对应的位置,是业内一致研究的技术课题。
发明内容
有鉴于此,本公开实施例至少提供一种行业知识图谱构建方法、计算机设备及存储介质。
根据本公开实施例的一个方面,提供了一种行业知识图谱构建方法,应用于计算机设备,所述方法包括:
获取目标行业知识文本,从所述目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落;
获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;
通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;
通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;
在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;以便从所述目标文本段落中获取目标命名实体属性,基于所述目标命名实体属性构建行业知识图谱。
根据本公开实施例的一个示例,其中,所述字符分布表征数组包括句字符分布表征数组和段字符分布表征数组,所述字符分布表征单元包括所述文本字符对于对应的目标命名实体属性的句边际间隔单元和段边际间隔单元,所述句字符分布表征数组中的字符分布表征单元为所述句边际间隔单元,所述段字符分布表征数组中的字符分布表征单元为所述段边际间隔单元,所述显著性优化数组包括句显著性优化数组和段显著性优化数组,所述句显著性优化数组用于修正所述句字符分布表征数组中的句边际间隔单元,所述段显著性优化数组用于修正所述段字符分布表征数组中的段边际间隔单元;
所述通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,包括:
基于所述句显著性优化数组对所述句字符分布表征数组中的句边际间隔单元进行显著性优化,获得优化后的句字符分布表征数组;
基于所述段显著性优化数组对所述段字符分布表征数组中的段边际间隔单元进行显著性优化,获得优化后的段字符分布表征数组;
通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落。
根据本公开实施例的一个示例,其中,所述通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落,包括:
通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落的段落字符覆盖区间;
通过所述文本字符对应的所述段落字符覆盖区间确定所述文本字符对应的预估文本段落。
根据本公开实施例的一个示例,其中,所述在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落,包括:
获取所述预估文本段落集合中的每个预估文本段落各自对应的可信概率,所述可信概率指示对应的预估文本段落为所述目标文本段落的可信程度;
将所述预估文本段落集合中所述可信概率小于预设可信概率的预估文本段落,在所述预估文本段落集合中进行丢弃,获得第一清理文本段落集合;
在所述第一清理文本段落集合中获取所述目标文本段落。
根据本公开实施例的一个示例,其中,所述第一清理文本段落集合包括第一预估文本段落和第二预估文本段落,所述在所述第一清理文本段落集合中获取所述目标文本段落,包括:
获取所述第一预估文本段落和所述第二预估文本段落在所述目标行业知识文本中的文本段落重叠率;
如果所述文本段落重叠率大于预设文本段落重叠率,且所述第一预估文本段落对应的可信概率大于所述第二预估文本段落对应的可信概率,将所述第二预估文本段落在所述第一清理文本段落集合中进行丢弃,获得第二清理文本段落集合;
将所述第二清理文本段落集合中的预估文本段落都确定为所述目标文本段落。
根据本公开实施例的一个示例,其中,所述方法依据目标识别算法实现,所述获取目标行业知识文本之前,所述方法还包括:
初始识别算法获取行业知识文本样本,依据所述初始识别算法从所述行业知识文本样本中确定包含目标命名实体属性的感兴趣文本段落;
获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组中包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;
通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;
通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;
在所述预估文本段落集合中确定与所述目标命名实体属性在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;
通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法。
根据本公开实施例的一个示例,其中,所述获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,包括:
检测所述文本段落中的文本字符的字符类别,通过检测结果为所述文本字符赋予检测类别标记,所述字符类别包括目标字符类别和上下文字符类别,所述目标字符类别的文本字符为所述感兴趣文本段落中所述目标命名实体属性包含的文本字符,所述上下文字符类别的文本字符为所述感兴趣文本段落中,除所述目标命名实体属性包含的文本字符以外的文本字符,所述检测类别标记包括所述目标字符类别对应的目标类别标记和所述上下文字符类别对应的上下文类别标记;
通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组;
通过所述文本段落特征数组构建所述感兴趣文本段落中的所述文本字符对应的所述字符分布表征数组。
根据本公开实施例的一个示例,其中,所述通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组,包括:
通过所述文本字符被赋予的检测类别标记和所述感兴趣文本段落中的所述目标命名实体属性的所述实体文本语义表征数组构建所述感兴趣文本段落对应的所述文本段落特征数组;
所述通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组,包括:
通过所述文本段落特征数组构建用于修正所述字符分布表征单元的所述显著性优化数组;所述感兴趣文本段落中的所述文本字符还被赋予实际类别标记;所述实际类别标记包括所述目标类别标记和所述上下文类别标记;所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:
通过所述文本字符对应的所述检测类别标记与所述实际类别标记之间的标记误差,确定第一算法代价函数;
通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;
通过所述第一算法代价函数和所述第二算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法;
所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:
通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;
获取所述感兴趣文本段落中被赋予所述目标类别标记的文本字符在所述目标行业知识文本中的分布段落;
通过所述分布段落和所述实际文本段落之间的文本段落损失,确定第三算法代价函数;
通过所述第二算法代价函数和所述第三算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法。
根据本公开实施例的另一方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述方法中的步骤。
根据本公开实施例的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以上所述方法中的步骤。
本公开的有益效果至少包括:
本公开提供的行业知识图谱构建方法,通过在目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落,对该感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组进行学习,获得感兴趣文本段落中的文本字符的字符分布表征数组和显著性优化数组,依据显著性优化数组对字符分布表征数组进行修正,再基于修正后的字符分布表征数组获得目标命名实体属性在目标行业知识文本中的文本段落。因此可以得知,本公开基于感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组构建显著性优化数组,基于显著性优化数组对字符分布表征数组进行优化,让最后基于字符分布表征数组预测获得的感兴趣文本段落中的文本字符针对目标命名实体属性的预估文本段落更准确可靠,那么最后在预估文本段落集合中确定的对于针对目标命名实体属性的目标文本段落准确可靠。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的一种应用场景的架构示意图;
图2是本公开提供的一种行业知识图谱构建方法的流程示意图;
图3是本公开实施例提供的一种行业知识图谱构建装置的结构示意图;
图4是本公开实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
为了便于更清楚理解本公开,首先介绍实现本公开的行业知识图谱构建方法的应用场景,如图1所示,该应用场景中包括计算机设备10和终端集群,终端集群可以包括一个或者多个终端,这里将不对终端的数量进行限制。如图1所示,终端集群具体可以包括终端1、终端2、…、终端n;可以理解的是,终端1、终端2、终端3、…、终端n均可以与计算机设备10进行网络连接,以便于每个终端均可以通过网络连接与计算机设备10之间进行数据交互。
可理解的是,计算机设备10可以是指执行行业知识图谱构建的设备,该计算机设备10还可以用于存储行业知识文本。计算机设备10可以为服务器,服务器可以是独立的一个物理服务器,也可以是至少两个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端具体可以是指车载终端、智能手机、平板电脑、笔记本电脑、桌上型电脑、智能音箱、有屏音箱、智能手表等等,但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,同时,终端以及服务器的数量可以为一个或至少两个,本公开在此不做限制。终端可以为存储行业知识文本的设备。
进一步地,请参见图2,是本公开实施例提供的一种行业知识图谱构建方法的流程示意图。如图2所示,该方法可由图1中的计算机设备10来执行,其中,该行业知识图谱构建方法可以包括如下步骤:
操作S100,获取目标行业知识文本,从目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落。
在构建行业知识图谱(或称行业知识库)时,需要先获取对应的行业相关资料,即目标行业知识文本,其可以为行业相关的文档、报告、新闻、论文等,或者其他公开的文本数据,如政府部门发布的行业报告、社交媒体数据等。本公开对目标行业知识文本的来源和类型不做限定,但是需要保证目标行业知识文本的来源是符合法律法规的。一个目标行业知识文本中,通常包括多个命名实体,例如公司/组织实体、产品/服务实体、人物实体、技术实体等,为了构建知识图谱,不仅要确定命名实体,还要获取命名实体对应的属性值,例如公司/组织实体的属性值可以是多维度的,如公司名称、公司地址、公司规模、行业分类、公司简介、股票代码等;产品/服务实体的属性值可以包括产品名称、产品描述、产品特性、产品价格、产品品牌、适用行业领域等。命名实体的属性存在于目标行业知识文本中,需要对其进行识别,本公开的目的在于识别目标行业知识文本中的目标命名实体属性的具体文本位置。方便后续进行实体属性获取,以基于实体、实体属性和关系进行行业知识图谱的构建。
本公开实施例提供的方法是采用识别算法实现的,识别算法获取目标行业知识文本,或者说,将目标行业知识文本加载到识别算法,从目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落。其中,目标命名实体属性是需要进行检测的命名实体属性,比如目标命名实体属性为公司名称、公司地址、公司规模、行业分类等。识别算法为训练完成的用于识别检测目标命名实体属性在目标行业知识文本中的文本段落的机器学习算法,识别算法的训练过程在接下来的内容中描述,此处先不赘述。本公开实施例中,将目标行业知识文本中的文本分为两种,一种为目标命名实体属性对应的文本,一种为目标命名实体属性对应的上下文文本。从目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落,可以是识别算法对目标命名实体进行检测,得到的目标行业知识文本中的大致文本段落,相当于对目标行业知识文本的初筛。因为目标行业知识文本通常包含较多的文本内容,而目标命名实体属性对应的文本内容仅为其中一段或多段内容,其余文本内容对于目标命名实体属性识别并没有作用,因此先大概确定目标命名实体所在的文本段落,降低后续的数据处理量。感兴趣文本段落可以包含一个或者多个文本分段。
操作S200,获取感兴趣文本段落中的文本字符对应的字符分布表征数组。
字符分布表征数组是感兴趣文本段落中的各个文本字符的段落位置特征信息对应的数组表征,该数组可以是一个二维数组,也就是矩阵,换言之,字符分布表征数组为一个字符分布特征矩阵。在本公开实施例中,可以先对感兴趣文本段落的各个文本分段中的字符进行词嵌入(Word Embedding),以将各个字符表示为固定长度的向量表示,然后将感兴趣文本段落表示为一个二维数组(矩阵),数组的行即一个文本分段,数组的列即文本分段的数量,为了保留感兴趣文本段落的段落特征,以及方便后续处理,可以在对长度不一的段落构建矩阵时,通过填充(padding)来保持相同的维度。填充通常使用一个特殊的标记(如0)来填充段落的空白部分。识别算法可以对操作S100获得的感兴趣文本段落进行学习,获得感兴趣文本段落对应的文本段落特征数组(即文本段落特征图),获得的文本段落特征数组中包括感兴趣文本段落中的每个文本字符的文本字符信息,一个文本字符对应的文本字符信息包括其和上下文文本字符之间相关信息。识别算法可基于文本段落特征数组预测获得感兴趣文本段落中,每一文本字符对应的初始预估文本段落,初始预估文本段落表示识别算法针对感兴趣文本段落中的每一文本字符预测获得的目标命名实体属性在目标行业知识文本中所处的文本位置,其可以采用文本框的形式进行框选。感兴趣文本段落中的一个文本字符对应一个初始预估文本位置,感兴趣文本段落中的每个文本字符对应的初始预估文本位置是通过识别算法基于文本段落特征数组推理获得的字符分布表征数组得到的。字符分布表征数组包括感兴趣文本段落中的每个文本字符针对目标命名实体属性的字符分布表征单元,即字符分布表征数组中一个个组成元素。
其中,字符分布表征数组包括句字符分布表征数组和段字符分布表征数组,其中,句对应行,段对应列。句字符分布表征数组可以包含左边际表征数组和右边际表征数组,段字符分布表征数组可包括上边际表征数组和下边际表征数组,边际表征数组表征距离边际字符的字符间隔数量(可以通过字符数量进行表示距离,例如距离为3,代表距离边界3个字符),边际字符即最靠边的字符,例如最左、最又、最上、最下。字符分布表征单元包括句边际间隔单元和段边际间隔单元,边际间隔单元即字符分布表征数组中表征与边际距离的元素。以上句字符分布表征数组中的字符分布表征单元为句边际间隔单元,段字符分布表征数组中的字符分布表征单元为段边际间隔单元,句边际间隔单元包括左边际间隔单元和右边际间隔单元,段边际间隔单元包括上边际间隔单元和下边际间隔单元,左边际表征数组中的字符分布表征单元是左边际间隔单元,右边际表征数组中的字符分布表征单元是右边际间隔单元,上边际表征数组中的字符分布表征单元是上边际间隔单元,下边际表征数组中的字符分布表征单元是下边际间隔单元。感兴趣文本段落中的一个文本字符分别对应一上边际间隔单元、一下边际间隔单元、一左边际间隔单元以及一右边际间隔单元。左边际表征数组通过识别算法通过文本段落特征数组预测获得的感兴趣文本段落中的每一文本字符相对对应的初始预估文本段落的左边界的字符间隔构成,也就是说,左边际表征数组中,左边际间隔单元是预测获得的感兴趣文本段落中每一文本字符分别和对应的初始预估文本段落的左边际的字符间隔;右边际表征数组通过识别算法通过文本段落特征数组预测获得的感兴趣文本段落中每个文本字符相对对应的初始预估文本段落的右边际的字符间隔构成,也就是说,右边际表征数组中,右边际间隔单元是预测获得的感兴趣文本段落中每一文本字符分别和对应的初始预估文本段落的右边际的字符间隔;上边际表征数组通过识别算法通过文本段落特征数组预测获得的感兴趣文本段落中每一文本字符针对对应的初始预估文本段落的上边际的字符间隔构成,也就是说,上边际表征数组中的上边际间隔单元是预测获得的感兴趣文本段落中每一文本字符分别和对应的初始预估文本段落的上边界的字符间隔;下边际表征数组通过识别算法通过文本段落特征数组预测获得的感兴趣文本段落中每一个文本字符相对对应的初始预估文本段落的下边界的字符间隔构成,也就是说,下边际表征数组中,下边际间隔单元是预测获得的感兴趣文本段落中每一文本字符分别和对应的初始预估文本段落的下边际的字符间隔。
通过以上字符分布表征数组,即上边际表征数组表示、下边际表征数组表示、左边际表征数组表示、右边际表征数组表示,可获得感兴趣文本段落中每一个文本字符分别相对目标行业知识文本中的目标命名实体属性的初始预估文本段落。
操作S300,通过感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组构建用于修正字符分布表征数组中的字符分布表征单元的显著性优化数组。
识别算法可通过感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组构建用于修正字符分布表征数组中的字符分布表征单元的显著性优化数组。感兴趣文本段落的文本段落特征数组例如是识别算法依据学习目标行业知识文本的目标命名实体属性的实体文本语义表征数组得到,实体文本语义表征数组例如是命名实体属性对应的命名实体属性的段落特征、句法结构特征、语句逻辑关系特征等语义特征的数组表示。那么,依据以上文本段落特征数组预测获得显著性优化数组。其中,显著性优化数组为基于注意力策略得到的针对句字符分布表征数组和段字符分布表征数组的加权数组,其用以优化句字符分布表征数组和段字符分布表征数组中的字符分布表征单元的值。其中,显著性优化数组包括句显著性优化数组和段显著性优化数组,句显著性优化数组用以优化句字符分布表征数组中的句边际间隔单元,也即句显著性优化数组用以优化左边际表征数组中的左边际间隔单元,以及,优化右边际表征数组中的右边际间隔单元。
本公开实施中,将句显著性优化数组当做用于在行维度对感兴趣文本段落中的每个文本字符各自对应的初始预估文本段落(此处的文本段落可以理解为一个大范围段落,可能包含多个文本分段)的行进行延展;段显著性优化数组用以优化段字符分布表征数组中的段边际间隔单元,即,段显著性优化数组用以优化上边际表征数组中的上边际间隔单元,以及优化下边际表征数组中的下边际间隔单元。本公开实施例将段显著性优化数组当做用于在列维度对感兴趣文本段落中的每个文本字符各自对应的初始预估文本段落的列进行延展。
本公开实施例可依据识别算法获得的感兴趣文本段落的文本段落特征数组,同时生成字符分布表征数组和显著性优化数组。
操作S400,通过字符分布表征数组中的字符分布表征单元和显著性优化数组,确定文本字符对应的预估文本段落,将文本字符对应的预估文本段落加入预估文本段落集合。
举例而言,识别算法通过字符分布表征数组中的字符分布表征单元和显著性优化数组,获得感兴趣文本段落中的每个文本字符各自对应的预估文本段落,预估文本段落是依据显著性优化数组对初始预估文本段落进行优化得到的文本范围区间。可行的设计中,识别算法基于句显著性优化数组对句字符分布表征数组中的句边际间隔单元进行显著性优化,该过程中,具体根据对应的权重数组对句边际间隔单元进行加权,获得优化(即加权)后的句字符分布表征数组;通过段显著性优化数组对段字符分布表征数组中的段边际间隔单元进行显著性优化,获得优化后的段字符分布表征数组;通过优化后的句字符分布表征数组和优化后的段字符分布表征数组,确定文本字符对应的预估文本段落。
基于显著性优化数组对字符分布表征数组进行显著性优化得到优化后的字符分布表征数组,可以参考以下算式:
其中,U为字符分布表征数组,U的维数为d1*a,d1为字符分布表征数组的张量大小,a为拟基于显著性优化数组进行优化的字符分布表征数组的数量,比如a=4,对应左边际表征数组、右边际表征数组、上边际表征数组和下边际表征数组。M为显著性优化数组,维数为n*d2,n为显著性优化数组的数量,比如n=2,对应句显著性优化数组和段显著性优化数组,d2为显著性优化数组的张量大小,x为字符分布表征数组和显著性优化数组中的元素的数量,字符分布表征数组和显著性优化数组中的元素的数量相同。后续将对基于显著性优化数组对字符分布表征数组进行显著性优化的过程进行说明。
句显著性优化数组与句字符分布表征数组的大小一致,一句显著性优化数组包括感兴趣文本段落中的每一文本字符各自对应的一个元素。一句字符分布表征数组包括感兴趣文本段落中的每一文本字符各自对应的一个元素,即句注意力策略的元素和句字符分布表征数组中的元素彼此映射关联,彼此映射关联的两个元素对应感兴趣文本段落中的相同文本字符。那么,可将句显著性优化数组中的每个元素分别和左边际表征数组中相应位置的元素相乘,获得优化后的左边际表征数组,将句显著性优化数组中,每一元素分别和右边际表征数组中相应位置的元素相乘,获得优化后的右边际表征数组,将优化后的左边际表征数组和优化后的右边际表征数组当做优化后的句字符分布表征数组。
同理,段显著性优化数组与段字符分布表征数组具有相同大小,一个段显著性优化数组包括感兴趣文本段落中的每一文本字符各自对应的一个元素,一段字符分布表征数组也包括感兴趣文本段落中的每一文本字符各自对应的一个元素,即段注意力策略中的元素与段字符分布表征数组中的元素彼此映射关联,彼此映射关联的两个元素对应感兴趣文本段落中的相同文本字符。则将段显著性优化数组中的每个元素分别和上边际表征数组中相应分布位置处的元素相乘,获得优化后的上边际表征数组,将段显著性优化数组中的每一元素分别和下边际表征数组中相应分布位置处的元素相乘,获得优化后的下边际表征数组,将优化后的上边际表征数组和优化后的下边际表征数组当成优化后的段字符分布表征数组。
基于优化后的段字符分布表征数组(即优化后的上边际表征数组和优化后的下边际表征数组)、优化后的句字符分布表征数组(即优化后的左边际表征数组和优化后的右边际表征数组),获取感兴趣文本段落中的每一文本字符各自对应的预估文本段落。即基于优化后的上边际表征数组得到感兴趣文本段落中的一个文本字符针对对应的预估文本段落的上边际字符数量,依据优化后的下边际表征数组获得该文本字符相对其对应的预估文本段落的下边际字符数量,依据优化后的左边际表征数组获得文本字符相对其对应的预估文本段落的左边际字符数量,依据优化后的右边际表征数组获得文本字符相对其对应的预估文本段落的右边际字符数量。基于文本字符相对其对应的预估文本段落的上边际字符数量、下边际字符数量、左边际字符数量和右边际字符数量,即可圈定文本字符对应的预估文本段落。
基于显著性优化数组对字符分布表征数组中的各个字符分布表征单元进行显著性优化,获得感兴趣文本段落对应的更准确可靠的字符分布表征数组,即可让感兴趣文本段落中的每个文本字符对应在字符分布表征数组中的边际字符数量更准确可靠,如此可依据修正后的字符分布表征数组得到感兴趣文本段落中的每个文本字符对应的更准确可靠的预估文本段落。其中,更准确可靠地预估文本段落表示和感兴趣文本段落中的目标命名实体属性中的命名实体属性分布位置和命名实体属性文本长度更接近的文本段落。
可能的设计中,识别算法可以通过优化后的句字符分布表征数组和优化后的段字符分布表征数组确定文本字符对应的预估文本段落的段落字符覆盖区间(即行和列限定出的区间);通过文本字符对应的段落字符覆盖区间确定文本字符对应的预估文本段落。
举例而言,感兴趣文本段落中包括文本字符c,在确定文本字符c的预估文本段落时,依据优化后的上边际表征数组获取了文本字符c相对对应的预估文本段落的上边界的字符间隔数量(即距离),例如为u,基于优化后的下边际表征数组获取了文本字符c相对其对应的预估文本段落的下边界的字符间隔数量,例如为d。则获取文本字符c对应的预估文本段落的列向长度为u+d,将文本字符c的列向长度设为cc。依据优化后的左边际表征数组获取了文本字符c相对其对应的预估文本段落的左边界的字符间隔数量,例如为l,基于优化后的右边际表征数组获取了文本字符c相对其对应的预估文本段落的右边界的字符间隔数量,例如为r。则获取文本字符c对应的预估文本段落的行向长度为l+r,设文本字符c的行向长度为cr。文本字符对应的预估文本段落的段落字符覆盖区间为cc*cr。u、d、l和r都是以文本字符c在目标行业知识文本中的位置确定得到,在确定文本字符c对应的预估文本段落的段落字符覆盖区间即可确定文本字符c对应的在目标行业知识文本中的预估文本段落。
感兴趣文本段落中包括多个文本字符,获取感兴趣文本段落中的每个文本字符对应的预估文本段落的过程参照以上获取文本字符c的预估文本段落,将感兴趣文本段落中的每个文本字符各自对应的预估文本段落加入预估文本段落集合,换言之,预估文本段落集合中包括感兴趣文本段落中的每一文本字符各自对应的相对感兴趣文本段落中的目标命名实体属性的预估文本段落。
操作S500,在预估文本段落集合中确定与目标命名实体属性在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落,以便从目标文本段落中获取目标命名实体属性,基于目标命名实体属性构建行业知识图谱。
举例而言,识别算法可在预估文本段落集合中确定和目标命名实体属性在目标行业知识文本中的命名实体属性分布位置以及命名实体属性文本长度对应的预估文本段落。在预估文本段落集合中确定目标文本段落的过程基于实际需要可能不同,例如,识别算法获取预估文本段落集合中的每个预估文本段落各自对应的可信概率,可信概率表示对应的预估文本段落为目标文本段落的可信程度;将预估文本段落集合中可信概率小于预设可信概率的预估文本段落,在预估文本段落集合中进行丢弃,获得第一清理文本段落集合;在第一清理文本段落集合中获取目标文本段落。算法训练时,识别算法可以基于仿射层输出预估文本段落集合中,每个预估文本段落各自对应的可信概率,可信概率表示预估文本段落集合中的每个预估文本段落为目标命名实体属性在目标行业知识文本中的实际文本段落的精确性。也就是说,可信概率表示对应的预估文本段落在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度与目标命名实体属性在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度的匹配度。可信概率越大,预估文本段落为目标文本段落的可信程度越高,识别算法可以将预估文本段落集合中可信概率小于预设可信概率的预估文本段落,在预估文本段落集合中进行删除,获得第一清理文本段落集合。再执行后续流程,即可在第一清理文本段落集合中确定到目标文本段落。
后续流程中,识别算法获取第一预估文本段落和第二预估文本段落在目标行业知识文本中的文本段落重叠率(其为两个预估文本段落的交并比,即IOU值);如果文本段落重叠率大于预设文本段落重叠率,同时第一预估文本段落对应的可信概率大于第二预估文本段落对应的可信概率,则将第二预估文本段落在第一清理文本段落集合中进行丢弃,获得第二清理文本段落集合;将第二清理文本段落集合中的预估文本段落都确定为目标文本段落。
由于获得的感兴趣文本段落中的每一文本字符各自对应的预估文本段落在目标行业知识文本中大概率会重合,则获取每两个预估文本段落之间的文本段落重叠率。如果预估文本段落集合包括第一预估文本段落和第二预估文本段落,第一预估文本段落和第二预估文本段落可以是预估文本段落集合中的随机两个预估文本段落。识别算法获取第一预估文本段落相对第二预估文本段落的文本段落重叠率,文本段落重叠率可以为第一预估文本段落和第二预估文本段落重合段落的字符数量和第一预估文本段落字符数量的比值,识别算法获取第二预估文本段落相对第一预估文本段落的文本段落重叠率,该文本段落重叠率可以为第一预估文本段落和第二预估文本段落重合段落的字符数量和第二预估文本段落的字符数量的比值。如果第一预估文本段落对应的文本段落重叠率与第二预估文本段落对应的文本段落重叠率都大于预设的重叠率,同时第一预估文本段落对应的可信概率大于第二预估文本段落对应的可信概率,则将第二预估文本段落在预估文本段落集合中进行丢弃,即将第二预估文本段落在预估文本段落集合中丢弃。如果基于和以上第一预估文本段落和第二预估文本段落相对上述一致的方式对预估文本段落集合中的任两个预估文本段落集合均进行丢弃,可获得第二清理文本段落集合。将第二清理文本段落集合中的每一预估文本段落都确定为目标命名实体属性对应的目标文本段落。如果具有多个目标文本段落,代表感兴趣文本段落具有多个目标命名实体属性,每个目标命名实体属性分别对应一个目标文本段落。
基于此,可以从目标文本段落中获取目标命名实体属性,基于目标命名实体属性构建行业知识图谱。其中,命名实体识别和关系抽取的方式可以参照现有技术,本公开的重点不在于此。
本公开通过在目标行业知识文本中确定包含目标命名实体属性的文本段落,然后对该文本段落中的目标命名实体属性的实体文本语义表征数组进行学习,获得文本段落中的文本字符对应的字符分布表征数组和显著性优化数组,依据显著性优化数组对字符分布表征数组进行优化,之后通过优化之后的字符分布表征数组,获得目标命名实体属性在目标行业知识文本中的文本段落。基于此,本公开通过文本段落中的目标命名实体属性的实体文本语义表征数组构建显著性优化数组,通过显著性优化数组对字符分布表征数组进行优化,最后通过字符分布表征数组预测获得的文本段落中的文本字符针对目标命名实体属性的预估文本段落更加准确可靠,最后在预估文本段落集合中所确定的对于针对目标命名实体属性的目标文本段落准确可靠。
如上操作S100所言,本公开采用识别算法进行实现,下面介绍其训练过程,包括:
操作S10,初始识别算法获取行业知识文本样本,从行业知识文本样本中确定包含目标命名实体属性的感兴趣文本段落。
同上所述,行业知识文本样本中包含目标命名实体属性,初始识别算法可以为Bert神经网络算法,可抽取学习感兴趣文本段落中的文本特征信息,获得感兴趣文本段落的文本段落特征数组。
操作S20,获取感兴趣文本段落中的文本字符对应的字符分布表征数组。
初始识别算法获取从行业知识文本样本中确定到的感兴趣文本段落中的文本字符对应的字符分布表征数组,字符分布表征数组包括感兴趣文本段落中的每个文本字符针对行业知识文本样本中的目标命名实体属性的字符分布表征单元,初始识别算法对感兴趣文本段落中的每个文本字符的字符类别进行推理,基于推理结果为感兴趣文本段落中的每个文本字符赋予检测类别标记。其中,字符类别包括目标字符类别和上下文字符类别,目标字符类别的文本字符为感兴趣文本段落中目标命名实体属性包含的文本字符。上下文字符类别的文本字符为感兴趣文本段落中不是目标命名实体属性包含的文本字符。以上检测类别标记包括目标类别标记和上下文类别标记,为检测得到的感兴趣文本段落中字符类别为目标字符类别的文本字符赋予目标类别标记,为检测得到的感兴趣文本段落中字符类别为上下文字符类别的文本字符赋予上下文类别标记。将感兴趣文本段落中每个文本字符的字符类别作为生成感兴趣文本段落的文本段落特征数组的文本特征信息,依据初始识别算法对感兴趣文本段落进行卷积,基于此挖掘感兴趣文本段落中的文本特征(即实体文本语义表征数组),获得感兴趣文本段落对应的文本段落特征数组。初始识别算法获取行业知识文本样本中的感兴趣文本段落对应的字符分布表征数组与以上操作S200中识别算法获取目标行业知识文本中感兴趣文本段落对应的字符分布表征数组的过程同理。只在对初始识别算法的训练时检测文本段落中的文本字符的字符类别,对初始识别算法训练完成得到训练好的识别算法之后,使用识别算法时不检测文本段落中的文本字符的字符类别。
操作S30,通过感兴趣文本段落中的目标命名实体属性的实体文本语义表征数组构建用于修正字符分布表征数组中的字符分布表征单元的显著性优化数组。
初始识别算法可以通过操作S20学习的文本段落特征数组偶见用于修正字符分布表征数组中的字符分布表征单元的显著性优化数组,初始识别算法生成显著性优化数组的方式和操作S300同理。
操作S40,通过字符分布表征数组中的字符分布表征单元和显著性优化数组,确定文本字符对应的预估文本段落,将文本字符对应的预估文本段落加入预估文本段落集合。
初始识别算法获取行业知识文本样本中确定到的感兴趣文本段落中的每个文本字符各自对应的预估文本段落的方式和识别算法得到目标行业知识文本中确定到的感兴趣文本段落中的每个文本字符各自对应的预估文本段落的方式同理,初始识别算法可将感兴趣文本段落中的每个文本字符各自对应的预估文本段落加入预估文本段落集合。
操作S50,在预估文本段落集合中确定与目标命名实体属性在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落。
初始识别算法在预估文本段落集合中确定目标文本段落的方式和操作S500中识别算法在预估文本段落集合中确定目标文本段落的方式同理。在对初始识别算法训练时,显著性优化数组一起优化。
操作S60,通过目标文本段落与在行业知识文本样本中标注的目标命名实体属性的实际文本段落之间的文本段落损失,优化初始识别算法的算法参数,获得训练好的识别算法。
举例而言,行业知识文本样本还标注目标命名实体属性在行业知识文本样本中的实际文本段落,实际文本段落指示目标命名实体属性在行业知识文本样本中实际上的命名实体属性分布位置和命名实体属性文本长度。初始识别算法依据识别的目标命名实体属性在行业知识文本样本中的目标文本段落与目标命名实体属性在行业知识文本样本中的实际文本段落之间的文本段落损失(比如段落字符覆盖区间之间的差值),获得相对初始识别算法的第二算法代价函数。行业知识文本样本中的每一文本字符还被赋予实际类别标记,实际类别标记表示行业知识文本样本中,每一文本字符的字符类别,实际类别标记也包括目标类别标记和上下文类别标记。则以上感兴趣文本段落中的每一文本字符也标注实际类别标记。初始识别算法可通过检测到的感兴趣文本段落中的每一文本字符的检测类别标记与感兴趣文本段落中的每个文本字符的实际类别标记之间的标记差别(例如目标字符类别的文本字符标注为上下文类别标记,或上下文字符类别的文本字符标注为目标类别标记),获得相对初始识别算法的第一算法代价函数。将检测到的为目标字符类别的文本字符作为目标元素,将检测到的为上下文字符类别的文本字符作为临近元素,感兴趣文本段落中获取被检测到的目标元素组成的连接域(其为感兴趣文本段落中被赋予目标类别标记的文本字符在目标行业知识文本中的分布段落),连接域例如包括多个,代表检测到多个命名实体属性组,一命名实体属性组包括多个被赋予目标类别标记的文本字符,一命名实体属性组对应于一连接域。连接域表示该域中的目标元素之间连接,连接域中的任一目标元素和连接域中的其余目标元素的最大距离小于预设值。若一连接域和连接域相应分布位置处的被标注为具有的目标命名实体属性的实际文本段落之间的重叠率大于预设重叠率,将该连接域确定为一个调节样本,优化初始识别算法的算法参数,即,初始识别算法通过连接域与连接域相应分布位置处的目标命名实体属性的实际文本段落之间的文本段落损失(比如段落字符覆盖区间误差),获得第三算法代价函数。初始识别算法可以依据获得的第一算法代价函数、第二算法代价函数和第三算法代价函数优化初始识别算法的算法参数,在基于所有行业知识文本样本对初始识别算法的算法参数优化好后,获得训练好的识别算法,识别算法是依据全部行业知识文本样本对初始识别算法的算法参数优化后的算法。可行的设计中,仅依据第一算法代价函数和第二算法代价函数优化初始识别算法的算法参数以获得训练好的识别算法,或者依据第二算法代价函数和第三算法代价函数优化初始识别算法的算法参数以获得训练好的识别算法。
在获取算法代价函数的过程中,先通过感兴趣文本段落中每一文本字符对应的检测类别标记与实际类别标记之间标记误差,获得第一算法代价函数。再依据识别到的目标文本段落与目标文本段落对应的目标命名实体属性的实际文本段落之间的文本段落损失获得第二算法代价函数。然后,依据感兴趣文本段落中的目标元素组成的连接域与连接域对应的目标命名实体属性的实际文本段落之间的文本段落损失得到第三算法代价函数。将第一算法代价函数、第二算法代价函数和第三算法代价函数相加,获得初始识别算法的算法代价函数。
本公开提供的行业知识图谱构建方法,通过在目标行业知识文本中确定包含目标命名实体属性的文本段落,然后对该文本段落中的目标命名实体属性的实体文本语义表征数组进行学习,获得文本段落中的文本字符对应的字符分布表征数组和显著性优化数组,依据显著性优化数组对字符分布表征数组进行优化,之后通过优化之后的字符分布表征数组,获得目标命名实体属性在目标行业知识文本中的文本段落。可以理解,本公开通过文本段落中的目标命名实体属性的实体文本语义表征数组构建显著性优化数组,通过显著性优化数组对字符分布表征数组进行优化,令最后通过字符分布表征数组预测获得的文本段落中的文本字符针对目标命名实体属性的预估文本段落更加准确可靠,那么最后在预估文本段落集合中所确定的对于针对目标命名实体属性的目标文本段落准确可靠。
请参见图3,是本公开实施例提供的一种行业知识图谱构建装置的结构示意图。上述行业知识图谱构建装置可以是运行于网络设备中的一个计算机程序(包括程序代码),例如该行业知识图谱构建装置为一个应用软件;该装置可以用于执行本公开实施例提供的方法中的相应步骤。如图3所示,该行业知识图谱构建装置可以包括:行业文本获取模块310、文本特征提取模块320、调节数组生成模块330、文本段落预估模块340、目标段落确定模块350。
其中,行业文本获取模块310用于获取目标行业知识文本,从所述目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落;
文本特征提取模块320用于获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;
调节数组生成模块330用于通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;
文本段落预估模块340用于通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;
目标段落确定模块350用于在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;以便从所述目标文本段落中获取目标命名实体属性,基于所述目标命名实体属性构建行业知识图谱。
根据本公开的一个实施例,图2所示的行业知识图谱构建方法所涉及的步骤可由图3所示的行业知识图谱构建装置中的各个模块来执行。
根据本公开的一个实施例,图3所示的行业知识图谱构建装置中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元,可以实现同样的操作,而不影响本公开的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由至少两个单元来实现,或者至少两个模块的功能由一个单元实现。在本公开的其它实施例中,行业知识图谱构建装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由至少两个单元协作实现。
根据本公开的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理组件和存储组件的例如计算机的通用计算机设备上运行能够执行如图2中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图3中所示的行业知识图谱构建装置,以及来实现本公开实施例的行业知识图谱构建方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
请参见图4,是本公开实施例提供的一种计算机设备的结构示意图。如图4所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图4所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图4所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现以上实施例中提供的方法。
应当理解,本公开实施例中所描述的计算机设备1000可执行前文图2对应实施例中对行业知识图谱构建方法的描述,也可执行前文图3所对应实施例中对行业知识图谱构建装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本公开实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的行业知识图谱构建装置所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2对应实施例中对上述行业知识图谱构建方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本公开方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署在一个地点的至少两个计算机设备上执行,又或者,在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行,分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是前述任一实施例提供的行业知识图谱构建装置或者上述计算机设备的中部存储单元,例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flashcard)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本公开实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同内容,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本公开实施例还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现前文图2对应实施例中对上述行业知识图谱构建方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本公开所涉及的计算机程序产品的实施例中未披露的技术细节,请参照本公开方法实施例的描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例提供的方法及相关装置是参照本公开实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器,使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。以上所揭露的仅为本公开较佳实施例而已,当然不能以此来限定本公开之权利范围,因此依本公开权利要求所作的等同变化,仍属本公开所涵盖的范围。
Claims (10)
1.一种行业知识图谱构建方法,其特征在于,应用于计算机设备,所述方法包括:
获取目标行业知识文本,从所述目标行业知识文本中确定包含目标命名实体属性的感兴趣文本段落;
获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;
通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;
通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;
在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;以便从所述目标文本段落中获取目标命名实体属性,基于所述目标命名实体属性构建行业知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述字符分布表征数组包括句字符分布表征数组和段字符分布表征数组,所述字符分布表征单元包括所述文本字符对于对应的目标命名实体属性的句边际间隔单元和段边际间隔单元,所述句字符分布表征数组中的字符分布表征单元为所述句边际间隔单元,所述段字符分布表征数组中的字符分布表征单元为所述段边际间隔单元,所述显著性优化数组包括句显著性优化数组和段显著性优化数组,所述句显著性优化数组用于修正所述句字符分布表征数组中的句边际间隔单元,所述段显著性优化数组用于修正所述段字符分布表征数组中的段边际间隔单元;
所述通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组,确定所述文本字符对应的预估文本段落,包括:
基于所述句显著性优化数组对所述句字符分布表征数组中的句边际间隔单元进行显著性优化,获得优化后的句字符分布表征数组;
基于所述段显著性优化数组对所述段字符分布表征数组中的段边际间隔单元进行显著性优化,获得优化后的段字符分布表征数组;
通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落。
3.根据权利要求2所述的方法,其特征在于,所述通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落,包括:
通过所述优化后的句字符分布表征数组和所述优化后的段字符分布表征数组,确定所述文本字符对应的预估文本段落的段落字符覆盖区间;
通过所述文本字符对应的所述段落字符覆盖区间确定所述文本字符对应的预估文本段落。
4.根据权利要求1所述的方法,其特征在于,所述在所述预估文本段落集合中确定与所述目标命名实体属性在所述目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落,包括:
获取所述预估文本段落集合中的每个预估文本段落各自对应的可信概率,所述可信概率指示对应的预估文本段落为所述目标文本段落的可信程度;
将所述预估文本段落集合中所述可信概率小于预设可信概率的预估文本段落,在所述预估文本段落集合中进行丢弃,获得第一清理文本段落集合;
在所述第一清理文本段落集合中获取所述目标文本段落。
5.根据权利要求4所述的方法,其特征在于,所述第一清理文本段落集合包括第一预估文本段落和第二预估文本段落,所述在所述第一清理文本段落集合中获取所述目标文本段落,包括:
获取所述第一预估文本段落和所述第二预估文本段落在所述目标行业知识文本中的文本段落重叠率;
如果所述文本段落重叠率大于预设文本段落重叠率,且所述第一预估文本段落对应的可信概率大于所述第二预估文本段落对应的可信概率,将所述第二预估文本段落在所述第一清理文本段落集合中进行丢弃,获得第二清理文本段落集合;
将所述第二清理文本段落集合中的预估文本段落都确定为所述目标文本段落。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述方法依据目标识别算法实现,所述获取目标行业知识文本之前,所述方法还包括:
初始识别算法获取行业知识文本样本,依据所述初始识别算法从所述行业知识文本样本中确定包含目标命名实体属性的感兴趣文本段落;
获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,其中,所述字符分布表征数组中包括所述文本字符针对所述目标命名实体属性的字符分布表征单元;
通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组;
通过所述字符分布表征数组中的所述字符分布表征单元和所述显著性优化数组确定所述文本字符对应的预估文本段落,将所述文本字符对应的预估文本段落加入预估文本段落集合;
在所述预估文本段落集合中确定与所述目标命名实体属性在目标行业知识文本中的命名实体属性分布位置和命名实体属性文本长度对应的预估文本段落,将所述预估文本段落作为目标文本段落;
通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法。
7.根据权利要求6所述的方法,其特征在于,所述获取所述感兴趣文本段落中的文本字符对应的字符分布表征数组,包括:
检测所述文本段落中的文本字符的字符类别,通过检测结果为所述文本字符赋予检测类别标记,所述字符类别包括目标字符类别和上下文字符类别,所述目标字符类别的文本字符为所述感兴趣文本段落中所述目标命名实体属性包含的文本字符,所述上下文字符类别的文本字符为所述感兴趣文本段落中,除所述目标命名实体属性包含的文本字符以外的文本字符,所述检测类别标记包括所述目标字符类别对应的目标类别标记和所述上下文字符类别对应的上下文类别标记;
通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组;
通过所述文本段落特征数组构建所述感兴趣文本段落中的所述文本字符对应的所述字符分布表征数组。
8.根据权利要求7所述的方法,其特征在于,所述通过所述文本字符被赋予的检测类别标记构建所述感兴趣文本段落对应的文本段落特征数组,包括:
通过所述文本字符被赋予的检测类别标记和所述感兴趣文本段落中的所述目标命名实体属性的所述实体文本语义表征数组构建所述感兴趣文本段落对应的所述文本段落特征数组;
所述通过所述感兴趣文本段落中的所述目标命名实体属性的实体文本语义表征数组构建用于修正所述字符分布表征数组中的所述字符分布表征单元的显著性优化数组,包括:
通过所述文本段落特征数组构建用于修正所述字符分布表征单元的所述显著性优化数组;所述感兴趣文本段落中的所述文本字符还被赋予实际类别标记;所述实际类别标记包括所述目标类别标记和所述上下文类别标记;所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:
通过所述文本字符对应的所述检测类别标记与所述实际类别标记之间的标记误差,确定第一算法代价函数;
通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;
通过所述第一算法代价函数和所述第二算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法;
所述通过所述目标文本段落与在所述行业知识文本样本中标注的所述目标命名实体属性的实际文本段落之间的文本段落损失,优化所述初始识别算法的算法参数,获得训练好的识别算法,包括:
通过所述目标文本段落与所述实际文本段落之间的文本段落损失,确定第二算法代价函数;
获取所述感兴趣文本段落中被赋予所述目标类别标记的文本字符在所述目标行业知识文本中的分布段落;
通过所述分布段落和所述实际文本段落之间的文本段落损失,确定第三算法代价函数;
通过所述第二算法代价函数和所述第三算法代价函数,优化所述初始识别算法的算法参数,获得所述识别算法。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742747.XA CN117851605B (zh) | 2023-12-18 | 2023-12-18 | 一种行业知识图谱构建方法、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742747.XA CN117851605B (zh) | 2023-12-18 | 2023-12-18 | 一种行业知识图谱构建方法、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117851605A true CN117851605A (zh) | 2024-04-09 |
CN117851605B CN117851605B (zh) | 2024-09-03 |
Family
ID=90541020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311742747.XA Active CN117851605B (zh) | 2023-12-18 | 2023-12-18 | 一种行业知识图谱构建方法、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117851605B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118427684A (zh) * | 2024-04-28 | 2024-08-02 | 华风气象传媒集团有限责任公司 | 基于节气气候特征匹配的色谱可视化交互方法及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
WO2021098491A1 (zh) * | 2019-11-22 | 2021-05-27 | 华为技术有限公司 | 知识图谱的生成方法、装置、终端以及存储介质 |
CN113807097A (zh) * | 2020-10-30 | 2021-12-17 | 北京中科凡语科技有限公司 | 命名实体识别模型建立方法及命名实体识别方法 |
CN114638297A (zh) * | 2022-03-14 | 2022-06-17 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备和存储介质 |
US20220318509A1 (en) * | 2020-01-20 | 2022-10-06 | Boe Technology Group Co., Ltd. | Entity recognition method and device, dictionary creating method, device and medium |
CN115600601A (zh) * | 2022-11-08 | 2023-01-13 | 税友软件集团股份有限公司(Cn) | 一种税法知识库构建方法、装置、设备及介质 |
CN116737945A (zh) * | 2023-05-10 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种患者emr知识图谱映射方法 |
CN117034942A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
-
2023
- 2023-12-18 CN CN202311742747.XA patent/CN117851605B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
WO2021098491A1 (zh) * | 2019-11-22 | 2021-05-27 | 华为技术有限公司 | 知识图谱的生成方法、装置、终端以及存储介质 |
US20220318509A1 (en) * | 2020-01-20 | 2022-10-06 | Boe Technology Group Co., Ltd. | Entity recognition method and device, dictionary creating method, device and medium |
CN113807097A (zh) * | 2020-10-30 | 2021-12-17 | 北京中科凡语科技有限公司 | 命名实体识别模型建立方法及命名实体识别方法 |
CN114638297A (zh) * | 2022-03-14 | 2022-06-17 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备和存储介质 |
CN115600601A (zh) * | 2022-11-08 | 2023-01-13 | 税友软件集团股份有限公司(Cn) | 一种税法知识库构建方法、装置、设备及介质 |
CN116737945A (zh) * | 2023-05-10 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种患者emr知识图谱映射方法 |
CN117034942A (zh) * | 2023-10-07 | 2023-11-10 | 之江实验室 | 一种命名实体识别方法、装置、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
林茂 等: "基于知识图谱的产品适应性设计辅助决策方法", 包装工程, vol. 44, no. 8, 30 April 2023 (2023-04-30), pages 48 - 60 * |
王汀;冀付军;徐天晟;: "一种面向中文网络百科非结构化信息的知识获取方法", 图书情报工作, no. 13, 5 July 2016 (2016-07-05) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118427684A (zh) * | 2024-04-28 | 2024-08-02 | 华风气象传媒集团有限责任公司 | 基于节气气候特征匹配的色谱可视化交互方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117851605B (zh) | 2024-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110347940A (zh) | 用于优化兴趣点标签的方法和装置 | |
CN117851605B (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
CN113377936A (zh) | 智能问答方法、装置及设备 | |
CN111259112A (zh) | 医疗事实的验证方法和装置 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN111144079A (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
CN111325200A (zh) | 图像标注方法、装置、设备及计算机可读存储介质 | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN117056452A (zh) | 知识点学习路径构建方法、装置、设备以及存储介质 | |
CN113283231B (zh) | 获取签章位的方法、设置系统、签章系统及存储介质 | |
CN118095205A (zh) | 版式文件的信息提取方法、装置、设备及存储介质 | |
CN112132269B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN111597336B (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN118339550A (zh) | 一种几何解题方法、装置、设备及存储介质 | |
CN116166858A (zh) | 基于人工智能的信息推荐方法、装置、设备及存储介质 | |
CN114741494A (zh) | 问答方法、装置、设备及介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 | |
CN114064269A (zh) | 一种地址匹配方法、装置及终端设备 | |
CN113139382A (zh) | 命名实体识别方法及装置 | |
CN117710763B (zh) | 图像噪声识别模型训练方法、图像噪声识别方法及装置 | |
CN113869030A (zh) | 资讯文本的获取方法、装置、电子设备及可读存储介质 | |
CN118797127A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN117473995A (zh) | 文本处理方法、装置、产品、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |