CN112632975B - 上下游关系的抽取方法、装置、电子设备及存储介质 - Google Patents
上下游关系的抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112632975B CN112632975B CN202011598720.4A CN202011598720A CN112632975B CN 112632975 B CN112632975 B CN 112632975B CN 202011598720 A CN202011598720 A CN 202011598720A CN 112632975 B CN112632975 B CN 112632975B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- analyzed
- text corpus
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000011144 upstream manufacturing Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000013507 mapping Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 239000002994 raw material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009193 crawling Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种上下游关系的抽取方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法通过获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称;采用实体抽取模型抽取待分析文本语料中的多个实体;根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级,在此过程中,由于实体抽取模型是根据多个样本语料训练获取的,因此,根据预设实体映射表,确定多个实体之间的上下游关系时,可以提高实体抽取和实体上下游关系的准确性;此外,相较于现有基于抽取规则抽取实体之间的上下游关系,本申请可以不受抽取规则的限定,使得可以提高抽取方法的泛化能力。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种上下游关系的抽取方法、装置、电子设备及存储介质。
背景技术
上游企业是相对下游企业而言的,指处于行业生产和业务的初始阶段的企业和厂家,其中,这些厂家主要生产下游企业所必需的原材料和初级产品等的厂商,下游企业主要是对原材料进行深加工和改性处理,并将原材料转化为生产和生活中的实际产品。随着各个行业的快速发展,通过分析企业之间的上下游关系可以对企业经营过程中可能存在的风险进行分析,辅助企业进行决策。
现有抽取企业之间的上下游关系时,主要通过制定严格的抽取规则,进而基于该抽取规则可以抽取企业之间的上下游关系。
但由于现有的抽取方式比较简单,因此,现有的抽取方法存在着泛化能力较差的问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种上下游关系的抽取方法、装置、电子设备及存储介质,可以提高抽取方法的泛化能力。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本发明提供一种上下游关系的抽取方法,包括:
获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级。
在可选的实施方式中,所述采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,包括:
根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
在可选的实施方式中,所述根据预设实体映射表,输出多个实体之间的上下游关系,包括:
根据多个所述实体,确定业务主体实体对,其中,每个所述业务主体实体对包括2个所述实体,并存在合作关系;
根据所述预设实体映射表,输出所述业务主体实体对中两个所述实体之间的上下游关系。
在可选的实施方式中,所述根据多个所述实体,确定业务主体实体对,包括:
根据多个所述实体,获取至少一个初始实体对;
根据至少一个所述初始实体对和预设分类模型,确定所述业务主体实体对,其中,所述预设分类模型根据多个样本实体对训练获取,每个所述样本实体对包括两个样本实体,并标注有是否存在合作关系的标签。
在可选的实施方式中,所述方法还包括:
获取多个样本语料,每个所述样本语料标注有至少一个样本实体;
根据多个所述样本语料,训练获取所述实体抽取模型。
在可选的实施方式中,所述根据多个所述样本语料,训练获取所述实体抽取模型,包括:
采用预训练语言模型,提取每个所述样本语料的词嵌入表示;
根据每个所述样本语料的词嵌入表示,基于长短期记忆网络获取每个所述样本语料的语义特征信息;
根据每个所述样本语料的语义特征信息和条件随机场模型,训练获取所述实体抽取模型。
在可选的实施方式中,所述采用实体抽取模型抽取所述目标待分析文本语料中的多个实体,包括:
采用预训练语言模型,提取所述目标待分析文本语料的词嵌入表示;
根据所述目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取所述目标待分析文本语料的语义特征信息;
根据所述目标待分析文本语料的语义特征信息,采用条件随机场模型获取所述目标待分析文本语料对应的目标标注序列;
根据所述目标标注序列,确定所述目标待分析文本语料中的多个所述实体。
第二方面,本发明提供一种上下游关系的抽取装置,包括:
获取模块,用于获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
抽取模块,用于采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
输出模块,用于根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级。
在可选的实施方式中,所述抽取模块,具体用于根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
在可选的实施方式中,所述输出模块,具体用于根据多个所述实体,确定业务主体实体对,其中,每个所述业务主体实体对包括2个所述实体,并存在合作关系;
根据所述预设实体映射表,输出所述业务主体实体对中两个所述实体之间的上下游关系。
在可选的实施方式中,所述输出模块,具体用于根据多个所述实体,获取至少一个初始实体对;
根据至少一个所述初始实体对和预设分类模型,确定所述业务主体实体对,其中,所述预设分类模型根据多个样本实体对训练获取,每个所述样本实体对包括两个样本实体,并标注有是否存在合作关系的标签。
在可选的实施方式中,所述装置还包括:训练模块,用于获取多个样本语料,每个所述样本语料标注有至少一个样本实体;
根据多个所述样本语料,训练获取所述实体抽取模型。
在可选的实施方式中,所述训练模块,具体用于采用预训练语言模型,提取每个所述样本语料的词嵌入表示;
根据每个所述样本语料的词嵌入表示,基于长短期记忆网络获取每个所述样本语料的语义特征信息;
根据每个所述样本语料的语义特征信息和条件随机场模型,训练获取所述实体抽取模型。
在可选的实施方式中,所述抽取模块,具体用于采用预训练语言模型,提取所述目标待分析文本语料的词嵌入表示;
根据所述目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取所述目标待分析文本语料的语义特征信息;
根据所述目标待分析文本语料的语义特征信息,采用条件随机场模型获取所述目标待分析文本语料对应的目标标注序列;
根据所述目标标注序列,确定所述目标待分析文本语料中的多个所述实体。
第三方面,本发明提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如前述实施方式任一所述上下游关系的抽取方法的步骤。
第四方面,本发明提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如前述实施方式任一所述上下游关系的抽取方法的步骤。
本申请的有益效果是:
本申请实施例提供的上下游关系的抽取方法、装置、电子设备及存储介质中,通过获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级,在此过程中,由于实体抽取模型是根据多个样本语料训练获取的,因此,根据预设实体映射表,确定多个实体之间的上下游关系时,可以提高实体抽取和实体上下游关系的准确性;此外,相较于现有基于抽取规则抽取实体之间的上下游关系,本申请可以不受抽取规则的限定,使得可以提高抽取方法的泛化能力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种上下游关系的抽取方法的流程示意图;
图2为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图;
图3为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图;
图4为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图;
图5为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图;
图6为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图;
图7为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图;
图8为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图;
图9为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
现有的,抽取企业之间的上下游关系时,主要是基于抽取规则进行抽取,其中,基于规则的抽取方法通常需要人工依据语言学规律进行总结得到一些语言表达上的模式规则,因此,受制定规则的局限性,现有的抽取方式存在着泛化能力较差的问题。
有鉴于此,本申请实施例提供一种上下游关系的抽取方法,该可以提高抽取方法的泛化能力,提高适用性。
图1为本申请实施例提供的一种上下游关系的抽取方法的流程示意图,该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备,如图1所示,该方法可以包括:
S101、获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称。
待分析文本语料可以是任意待分析文本,比如,可以是一篇文章,一段话等,本申请在此不限定该待分析文本语料的内容长度,可选地,可以通过网络爬取技术在目标网站上爬取待分析文本语料,但不以此为限,所获取的待分析文本语料可以包括多个实体,该实体可以包括业务主体名称。可以理解的是,若将本申请用于获取企业上下游关系时,则上述业务主体名称可以理解为企业名称,但具体应用场景并不以此为限。
S102、采用实体抽取模型抽取待分析文本语料中的多个实体。
其中,实体抽取模型可以通过多个样本语料训练获取,可以理解的是,上述待分析文本语料中还可能包括其他非实体内容,则可以通过训练获取的该实体抽取模型抽取待分析文本语料中的多个实体,使得基于抽取的多个实体可以便于进一步分析该多个实体之间的上下游关系。
可选地,实体抽取模型可以基于神经网络技术、自然语言处理技术等实现,当然,根据实际的应用场景也可以基于多种技术的结合实现,在此不作限定。
S103、根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级。
其中,对于预设实体映射表来说,不同的场景下,业务主体层级可以理解为相应的含义,比如,若将本申请用于获取企业上下游关系时,对应地,预设实体映射表可以用于指示各企业的经营范围,但不以为限,比如,还可以指示应用领域等。因此,基于上述实施例的基础上,在抽取到待分析文本语料中的多个实体后,则可以根据该预设实体映射表,确定各实体所属的业务主体层级,进而根据各实体所属的业务主体层级,可以确定多个实体之间的上下游关系,也即对于多个实体中任意两个实体来说,可以确定其中的上游实体和下游实体。
可选地,若将本申请实施例所提供的抽取方法用于获取企业上下游关系时,则上游实体可以对应上游企业,下游实体可以对应下游企业,而上游企业相对下游企业而言,可以指处于行业生产和业务的初始阶段的企业和厂家等,下游企业可以指对原材料进行深加工和改性处理,并将原材料转化为生产和生活中的实际产品的企业。可以理解的是,通过获取企业之间的上下游关系,可以对企业经营过程中可能存在的风险进行分析,辅助企业进行决策。
综上,本申请实施例提供的上下游关系的抽取方法,通过获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称;采用实体抽取模型抽取待分析文本语料中的多个实体,其中,实体抽取模型通过多个样本语料训练获取;根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级,在此过程中,由于实体抽取模型是根据多个样本语料训练获取的,因此,根据预设实体映射表,确定多个实体之间的上下游关系时,可以提高实体抽取和实体上下游关系的准确性;此外,相较于现有基于抽取规则抽取实体之间的上下游关系,本申请可以不受抽取规则的限定,使得可以提高抽取方法的泛化能力。
图2为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图,可选地,如图2所示,上述采用实体抽取模型抽取待分析文本语料中的多个实体,包括:
S201、根据预设算法,在待分析文本语料中抽取目标待分析文本语料,目标待分析文本语料包括用于指示合作关系的预设关键词。
S202、采用实体抽取模型抽取目标待分析文本语料中的多个实体。
其中,若以句文本语料为划分单元,则待分析文本语料可能包括多句待分析文本语料,可以理解的是,可能存在某句待分析文本语料不包括实体的情况,因此,有必要将该句待分析文本语料筛选出来,也即,有必要在待分析文本语料中抽取目标待分析文本语料,该目标待分析文本语料可以包括用于指示合作关系的预设关键词,可以理解的是,该目标待分析文本语料将包括多个实体,进而采用实体抽取模型抽取该目标待分析文本语料中多个实体时,可以提高抽取的效率。
可选地,用于指示合作关系的预设关键词可以包括但不限于:与、和、共同、一同、同时、协商、讨论、探讨、合作、协作、互助等关键词,本申请在此不作限定。可以理解的是,根据预设关键词,则可以对待分析文本语料进行初步筛选,从而筛选出可能存在实体的目标待分析文本语料,当然,具体筛选方式并不以此为限。
在一些实施例中,上述预设算法可以基于正则表达式实现,也即通过正则表示式可以在待分析文本语料中抽取包含合作关系的目标待分析文本语料,当然,具体实现方式并不以此为限,根据实际的应用场景可以适应性调整。可以理解的是,相比于现有基于抽取规则抽取实体之间的上下游关系,应用本申请实施例,可以解决待分析文本语料中实体表达式多样,语料关系描述稀少而无法抽取到实体的问题。
图3为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图,可选地,如图3所示,上述根据预设实体映射表,输出多个实体之间的上下游关系,包括:
S301、根据多个实体,确定业务主体实体对,其中,每个业务主体实体对包括2个实体,并存在合作关系。
其中,抽取到待分析文本语料中的多个实体后,则可以进一步根据该多个实体确定业务主体实体对,所确定的业务主体实体对中两个主体之间可以存在合作关系,可以理解的是,通过业务主体实体对可以筛选掉多个实体中不存在相关关系的实体。
S302、根据预设实体映射表,输出业务主体实体对中两个实体之间的上下游关系。
基于上述业务主体实体对的确定,可以获取该业务主体实体对中的实体,进而根据所获取的实体和预设实体映射表,可以确定各实体所属的业务主体层级,从而可以输出业务主体实体对中两个实体之间的上下游关系。
图4为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图。可选地,如图4所示,上述根据多个实体,确定业务主体实体对,包括:
S401、根据多个实体,获取至少一个初始实体对。
S402、根据至少一个初始实体对和预设分类模型,确定业务主体实体对。
其中,预设分类模型根据多个样本实体对训练获取,每个样本实体对包括2个样本实体,并标注有是否存在合作关系的标签。
其中,获取到多个实体后,则可以根据多个实体构建获取至少一个初始实体对,每个初始实体对可以包括2个实体,比如,对于多个实体(a,b,c),所获取的初始实体对可以包括(a,b)、(a,c)以及(b,c)。可以理解的是,对于初始实体对来说,可能某初始实体对中包括的两个实体并不存在合作关系,因此,有必要根据预设分类模型对该至少一个初始实体对进行筛选,使得通过筛选确定的业务主体实体对中的两个实体可以存在合作关系。
可选地,上述预设分类模型可以基于梯度提升决策树(Gradient BoostingDecision Tree,GBDT)、双向Transformer的Encoder(Bidirectional EncoderRepresentation from Transformers,BERT)等实现,本申请在此不作限定。可理解的是,训练过程中,标注有合作关系的样本实体对可以作为正训练样本,不存在合作关系的样本实体对可以作为负训练样本,根据该正训练样本和负训练样本可以训练获取预设分类模型。
可选地,上述方法还包括:
获取多个样本语料,每个样本语料标注有至少一个样本实体;根据多个样本语料,训练获取实体抽取模型。
其中,多个样本语料可以根据多个初始样本语料获取,可选地,对于初始样本语料来说,可以通过网络爬取技术在网站获取,可以理解的是,根据实际的应用场景,可以在相应的网站上获取,比如,若为激光行业,则可以在与激光相关的网站上获取,若为汽车行业,则可以在与汽车相关的网站上获取,在此不限定具体的应用场景。
在获取到多个初始样本语料后,则可以标注该多个初始样本语料中的样本实体,获取标注后的多个初始样本语料作为多个样本语料,进而根据该多个样本语料可以训练获取实体抽取模型。
图5为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图。可选地,如图5所示,上述根据多个样本语料,训练获取实体抽取模型,包括:
S501、采用预训练语言模型,提取每个样本语料的词嵌入表示。
S502、根据每个样本语料的词嵌入表示,基于长短期记忆网络获取每个样本语料的语义特征信息。
S503、根据每个样本语料的语义特征信息和条件随机场模型,训练获取实体抽取模型。
在一些实施例中,实体抽取模型可以基于预训练语言模型、长短期记忆网络、条件随机场模型等相关技术实现。一种可能的实现方式中,对于多个样本语料来说,可以采用预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)提取每个样本语料中的词嵌入表示,可选地,该词嵌入表示可以用向量进行表示。其中,具体在进行提取时,BERT模型可以采用掩码语言模型(Masked Language Model,MLM)生成深度的双向语言表征,因此,所提取的词嵌入向量可以含有丰富的语义特征。
在提取到每个样本语料的词嵌入表示后,则可以进一步基于BiLSTM(Bidirectional LSTM)获取各样本语料的语义特征信息,该语义特征信息可以用标注序列表示。其中,对于BiLSTM来说,Bi-LSTM是长短期记忆网络(Long Short-Term Memory,LSTM)的改进版本,其可以从正序和逆序两个时序角度获取样本语料中长文本的语义特征信息,具体实现时,BiLSTM可以借助存储单元的结构来保存较长的依赖关系,并且通过输入门、输出门和遗忘门来调整之前状态对当前存储单元状态的影响。
但由于BiLSTM缺乏在整句层面的特征分析,因此,本申请还引入了条件随机场(Conditional Random Field,CRF)模型,CRF是一种序列标注模型,CRF可以通过标签之间的转移矩阵对Bi-LSTM标注序列进行打分,从而得到最优的标注序列,进而根据该最优的标注序列可以对实体抽取模型进行优化调整,使得训练获取的实体抽取模型用于实体抽取时,可以提高抽取的准确性。其中,CRF可以进一步将序列标注的重点放在句子级别上,从而可以获得准确率较高的标注序列。
综上,对于多个样本语料,可以通过BERT模型、BiLSTM模型以及CRF模型的结合,最终可以训练获得实体抽取模型,可以看出,在此过程中,由于可以充分利用各个模型的优点,因此训练获取的实体抽取模型用于待分析文本语料中多个实体的抽取时,可以提高实体抽取的准确性。
图6为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图。可选地,如图6所示,上述采用实体抽取模型抽取目标待分析文本语料中的多个实体,包括:
S601、采用预训练语言模型,提取目标待分析文本语料的词嵌入表示。
S602、根据目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取目标待分析文本语料的语义特征信息。
S603、根据目标待分析文本语料的语义特征信息,采用条件随机场模型获取目标待分析文本语料对应的目标标注序列。
S604、根据目标标注序列,确定目标待分析文本语料中的多个实体。
其中,基于前述实施例的相关说明,在训练获得实体抽取模型后,则可以采用该实体抽取模型抽取目标待分析文本语料中的多个实体。一种可能的实现方式,具体在进行抽取时,可以采用BERT模型,提取该目标待分析文本语料中的词嵌入表示,可选地,可以将该词嵌入表示用向量进行表示,获取到该词嵌入表示之后,则可以采用BiLSTM获取该目标待分析文本语料中的语义特征信息,可选地,可以将该语义特征信息用标注序列标识,进一步地,基于该目标待分析文本语料的语义特征信息,可以采用CRF获取该目标待分析文本语料的目标标注序列,根据该目标标注序列则可以确定目标待分析文本语料中的多个实体。相关内容可参见前述的相关说明,本申请在此不再赘述。
图7为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。如图7所示,该上下游关系的抽取装置100,可以包括:
获取模块110,用于获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称;
抽取模块120,用于采用实体抽取模型抽取待分析文本语料中的多个实体,其中,实体抽取模型通过多个样本语料训练获取;
输出模块130,用于根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级。
在可选的实施方式中,抽取模块120,具体用于根据预设算法,在待分析文本语料中抽取目标待分析文本语料,目标待分析文本语料包括用于指示合作关系的预设关键词;采用实体抽取模型抽取目标待分析文本语料中的多个实体。
在可选的实施方式中,输出模块130,具体用于根据多个实体,确定业务主体实体对,其中,每个业务主体实体对包括2个实体,并存在合作关系;根据预设实体映射表,输出业务主体实体对中两个实体之间的上下游关系。
在可选的实施方式中,输出模块130,具体用于根据多个实体,获取至少一个初始实体对;根据至少一个初始实体对和预设分类模型,确定业务主体实体对,其中,预设分类模型根据多个样本实体对训练获取,每个样本实体对包括两个样本实体,并标注有是否存在合作关系的标签。
图8为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图。在可选的实施方式中,如图8所示,上下游关系的抽取装置100还包括:训练模块150,用于获取多个样本语料,每个样本语料标注有至少一个样本实体;根据多个样本语料,训练获取实体抽取模型。
在可选的实施方式中,训练模块150,具体用于采用预训练语言模型,提取每个样本语料的词嵌入表示;根据每个样本语料的词嵌入表示,基于长短期记忆网络获取每个样本语料的语义特征信息;根据每个样本语料的语义特征信息和条件随机场模型,训练获取实体抽取模型。
在可选的实施方式中,抽取模块120,具体用于采用预训练语言模型,提取目标待分析文本语料的词嵌入表示;根据目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取目标待分析文本语料的语义特征信息;根据目标待分析文本语料的语义特征信息,采用条件随机场模型获取目标待分析文本语料对应的目标标注序列;根据目标标注序列,确定目标待分析文本语料中的多个实体。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图9为本申请实施例提供的一种电子设备结构示意图。如图9所示,该电子设备可以包括:处理器210、存储介质220和总线230,存储介质220存储有处理器210可执行的机器可读指令,当电子设备运行时,处理器210与存储介质220之间通过总线230通信,处理器210执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种上下游关系的抽取方法,其特征在于,包括:
获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级;
所述采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,包括:
根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
2.根据权利要求1所述的方法,其特征在于,所述根据预设实体映射表,输出多个实体之间的上下游关系,包括:
根据多个所述实体,确定业务主体实体对,其中,每个所述业务主体实体对包括2个所述实体,并存在合作关系;
根据所述预设实体映射表,输出所述业务主体实体对中两个所述实体之间的上下游关系。
3.根据权利要求2所述的方法,其特征在于,所述根据多个所述实体,确定业务主体实体对,包括:
根据多个所述实体,获取至少一个初始实体对;
根据至少一个所述初始实体对和预设分类模型,确定所述业务主体实体对,其中,所述预设分类模型根据多个样本实体对训练获取,每个所述样本实体对包括2个样本实体,并标注有是否存在合作关系的标签。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个样本语料,每个所述样本语料标注有至少一个样本实体;
根据多个所述样本语料,训练获取所述实体抽取模型。
5.根据权利要求4所述的方法,其特征在于,所述根据多个所述样本语料,训练获取所述实体抽取模型,包括:
采用预训练语言模型,提取每个所述样本语料的词嵌入表示;
根据每个所述样本语料的词嵌入表示,基于长短期记忆网络获取每个所述样本语料的语义特征信息;
根据每个所述样本语料的语义特征信息和条件随机场模型,训练获取所述实体抽取模型。
6.根据权利要求5所述的方法,其特征在于,所述采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体,包括:
采用预训练语言模型,提取所述目标待分析文本语料的词嵌入表示;
根据所述目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取所述目标待分析文本语料的语义特征信息;
根据所述目标待分析文本语料的语义特征信息,采用条件随机场模型获取所述目标待分析文本语料对应的目标标注序列;
根据所述目标标注序列,确定所述目标待分析文本语料中的多个所述实体。
7.一种上下游关系的抽取装置,其特征在于,包括:
获取模块,用于获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
抽取模块,用于采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
输出模块,用于根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级;
所述抽取模块,具体用于根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
8.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-6任一所述上下游关系的抽取方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-6任一所述上下游关系的抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598720.4A CN112632975B (zh) | 2020-12-29 | 2020-12-29 | 上下游关系的抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011598720.4A CN112632975B (zh) | 2020-12-29 | 2020-12-29 | 上下游关系的抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112632975A CN112632975A (zh) | 2021-04-09 |
CN112632975B true CN112632975B (zh) | 2024-06-07 |
Family
ID=75287542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011598720.4A Active CN112632975B (zh) | 2020-12-29 | 2020-12-29 | 上下游关系的抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112632975B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051356B (zh) * | 2021-04-21 | 2023-05-30 | 深圳壹账通智能科技有限公司 | 开放关系抽取方法、装置、电子设备及存储介质 |
CN114328797B (zh) * | 2021-11-09 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 内容搜索方法、装置、电子设备、存储介质及程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255034A (zh) * | 2018-08-08 | 2019-01-22 | 数据地平线(广州)科技有限公司 | 一种基于产业链的行业知识图谱构建方法 |
CN110489481A (zh) * | 2019-08-06 | 2019-11-22 | 北京邮电大学 | 行业数据的数据分析方法、装置及数据分析服务器 |
CN111091007A (zh) * | 2020-03-23 | 2020-05-01 | 杭州有数金融信息服务有限公司 | 一种基于舆情及企业画像识别多个企业之间关系的方法 |
CN111507543A (zh) * | 2020-05-28 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 用于预测实体间业务关系的模型训练方法及装置 |
CN111581294A (zh) * | 2019-02-18 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 实体关系展示方法、装置、电子设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10157177B2 (en) * | 2016-10-28 | 2018-12-18 | Kira Inc. | System and method for extracting entities in electronic documents |
-
2020
- 2020-12-29 CN CN202011598720.4A patent/CN112632975B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255034A (zh) * | 2018-08-08 | 2019-01-22 | 数据地平线(广州)科技有限公司 | 一种基于产业链的行业知识图谱构建方法 |
CN111581294A (zh) * | 2019-02-18 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 实体关系展示方法、装置、电子设备及可读存储介质 |
CN110489481A (zh) * | 2019-08-06 | 2019-11-22 | 北京邮电大学 | 行业数据的数据分析方法、装置及数据分析服务器 |
CN111091007A (zh) * | 2020-03-23 | 2020-05-01 | 杭州有数金融信息服务有限公司 | 一种基于舆情及企业画像识别多个企业之间关系的方法 |
CN111507543A (zh) * | 2020-05-28 | 2020-08-07 | 支付宝(杭州)信息技术有限公司 | 用于预测实体间业务关系的模型训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究;吴俊 等;情报学报;第39卷(第4期);第409-418页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112632975A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yoon et al. | Pre-trained language model for biomedical question answering | |
Oudah et al. | A pipeline Arabic named entity recognition using a hybrid approach | |
Danenas et al. | Natural language processing-enhanced extraction of SBVR business vocabularies and business rules from UML use case diagrams | |
Inkpen et al. | Location detection and disambiguation from twitter messages | |
Jiang et al. | De-identification of medical records using conditional random fields and long short-term memory networks | |
Mahmud et al. | Automatic vulgar word extraction method with application to vulgar remark detection in chittagonian dialect of bangla | |
Sun et al. | Pre-processing online financial text for sentiment classification: A natural language processing approach | |
Güngör et al. | Improving named entity recognition by jointly learning to disambiguate morphological tags | |
Bam et al. | Named entity recognition for nepali text using support vector machines | |
CN112632975B (zh) | 上下游关系的抽取方法、装置、电子设备及存储介质 | |
Meetei et al. | Low resource language specific pre-processing and features for sentiment analysis task | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
Satapathy et al. | Phonsenticnet: A cognitive approach to microtext normalization for concept-level sentiment analysis | |
Mariani et al. | Rediscovering 15 years of discoveries in language resources and evaluation: The LREC anthology analysis | |
Ingólfsdóttir et al. | Named entity recognition for icelandic: Annotated corpus and models | |
Shanmugalingam et al. | Language identification at word level in Sinhala-English code-mixed social media text | |
Alemneh et al. | Dictionary based amharic sentiment lexicon generation | |
Kabakus et al. | TwitterSentiDetector: a domain-independent Twitter sentiment analyser | |
Khan et al. | Enhancement of text analysis using context-aware normalization of social media informal text | |
Littell et al. | The ARIEL-CMU situation frame detection pipeline for LoReHLT16: a model translation approach | |
Rajani Shree et al. | POS tagger model for Kannada text with CRF++ and deep learning approaches | |
Altınel et al. | Performance Analysis of Different Sentiment Polarity Dictionaries on Turkish Sentiment Detection | |
Oudah et al. | Person name recognition using the hybrid approach | |
Yahi et al. | Morphosyntactic preprocessing impact on document embedding: An empirical study on semantic similarity | |
Deka et al. | A study of various natural language processing works for assamese language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |