CN112632975B - 上下游关系的抽取方法、装置、电子设备及存储介质 - Google Patents

上下游关系的抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112632975B
CN112632975B CN202011598720.4A CN202011598720A CN112632975B CN 112632975 B CN112632975 B CN 112632975B CN 202011598720 A CN202011598720 A CN 202011598720A CN 112632975 B CN112632975 B CN 112632975B
Authority
CN
China
Prior art keywords
entity
entities
analyzed
text corpus
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011598720.4A
Other languages
English (en)
Other versions
CN112632975A (zh
Inventor
高剑奇
景艳山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202011598720.4A priority Critical patent/CN112632975B/zh
Publication of CN112632975A publication Critical patent/CN112632975A/zh
Application granted granted Critical
Publication of CN112632975B publication Critical patent/CN112632975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种上下游关系的抽取方法、装置、电子设备及存储介质,涉及数据处理技术领域。该方法通过获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称;采用实体抽取模型抽取待分析文本语料中的多个实体;根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级,在此过程中,由于实体抽取模型是根据多个样本语料训练获取的,因此,根据预设实体映射表,确定多个实体之间的上下游关系时,可以提高实体抽取和实体上下游关系的准确性;此外,相较于现有基于抽取规则抽取实体之间的上下游关系,本申请可以不受抽取规则的限定,使得可以提高抽取方法的泛化能力。

Description

上下游关系的抽取方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,特别涉及一种上下游关系的抽取方法、装置、电子设备及存储介质。
背景技术
上游企业是相对下游企业而言的,指处于行业生产和业务的初始阶段的企业和厂家,其中,这些厂家主要生产下游企业所必需的原材料和初级产品等的厂商,下游企业主要是对原材料进行深加工和改性处理,并将原材料转化为生产和生活中的实际产品。随着各个行业的快速发展,通过分析企业之间的上下游关系可以对企业经营过程中可能存在的风险进行分析,辅助企业进行决策。
现有抽取企业之间的上下游关系时,主要通过制定严格的抽取规则,进而基于该抽取规则可以抽取企业之间的上下游关系。
但由于现有的抽取方式比较简单,因此,现有的抽取方法存在着泛化能力较差的问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种上下游关系的抽取方法、装置、电子设备及存储介质,可以提高抽取方法的泛化能力。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本发明提供一种上下游关系的抽取方法,包括:
获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级。
在可选的实施方式中,所述采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,包括:
根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
在可选的实施方式中,所述根据预设实体映射表,输出多个实体之间的上下游关系,包括:
根据多个所述实体,确定业务主体实体对,其中,每个所述业务主体实体对包括2个所述实体,并存在合作关系;
根据所述预设实体映射表,输出所述业务主体实体对中两个所述实体之间的上下游关系。
在可选的实施方式中,所述根据多个所述实体,确定业务主体实体对,包括:
根据多个所述实体,获取至少一个初始实体对;
根据至少一个所述初始实体对和预设分类模型,确定所述业务主体实体对,其中,所述预设分类模型根据多个样本实体对训练获取,每个所述样本实体对包括两个样本实体,并标注有是否存在合作关系的标签。
在可选的实施方式中,所述方法还包括:
获取多个样本语料,每个所述样本语料标注有至少一个样本实体;
根据多个所述样本语料,训练获取所述实体抽取模型。
在可选的实施方式中,所述根据多个所述样本语料,训练获取所述实体抽取模型,包括:
采用预训练语言模型,提取每个所述样本语料的词嵌入表示;
根据每个所述样本语料的词嵌入表示,基于长短期记忆网络获取每个所述样本语料的语义特征信息;
根据每个所述样本语料的语义特征信息和条件随机场模型,训练获取所述实体抽取模型。
在可选的实施方式中,所述采用实体抽取模型抽取所述目标待分析文本语料中的多个实体,包括:
采用预训练语言模型,提取所述目标待分析文本语料的词嵌入表示;
根据所述目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取所述目标待分析文本语料的语义特征信息;
根据所述目标待分析文本语料的语义特征信息,采用条件随机场模型获取所述目标待分析文本语料对应的目标标注序列;
根据所述目标标注序列,确定所述目标待分析文本语料中的多个所述实体。
第二方面,本发明提供一种上下游关系的抽取装置,包括:
获取模块,用于获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
抽取模块,用于采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
输出模块,用于根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级。
在可选的实施方式中,所述抽取模块,具体用于根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
在可选的实施方式中,所述输出模块,具体用于根据多个所述实体,确定业务主体实体对,其中,每个所述业务主体实体对包括2个所述实体,并存在合作关系;
根据所述预设实体映射表,输出所述业务主体实体对中两个所述实体之间的上下游关系。
在可选的实施方式中,所述输出模块,具体用于根据多个所述实体,获取至少一个初始实体对;
根据至少一个所述初始实体对和预设分类模型,确定所述业务主体实体对,其中,所述预设分类模型根据多个样本实体对训练获取,每个所述样本实体对包括两个样本实体,并标注有是否存在合作关系的标签。
在可选的实施方式中,所述装置还包括:训练模块,用于获取多个样本语料,每个所述样本语料标注有至少一个样本实体;
根据多个所述样本语料,训练获取所述实体抽取模型。
在可选的实施方式中,所述训练模块,具体用于采用预训练语言模型,提取每个所述样本语料的词嵌入表示;
根据每个所述样本语料的词嵌入表示,基于长短期记忆网络获取每个所述样本语料的语义特征信息;
根据每个所述样本语料的语义特征信息和条件随机场模型,训练获取所述实体抽取模型。
在可选的实施方式中,所述抽取模块,具体用于采用预训练语言模型,提取所述目标待分析文本语料的词嵌入表示;
根据所述目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取所述目标待分析文本语料的语义特征信息;
根据所述目标待分析文本语料的语义特征信息,采用条件随机场模型获取所述目标待分析文本语料对应的目标标注序列;
根据所述目标标注序列,确定所述目标待分析文本语料中的多个所述实体。
第三方面,本发明提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如前述实施方式任一所述上下游关系的抽取方法的步骤。
第四方面,本发明提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如前述实施方式任一所述上下游关系的抽取方法的步骤。
本申请的有益效果是:
本申请实施例提供的上下游关系的抽取方法、装置、电子设备及存储介质中,通过获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级,在此过程中,由于实体抽取模型是根据多个样本语料训练获取的,因此,根据预设实体映射表,确定多个实体之间的上下游关系时,可以提高实体抽取和实体上下游关系的准确性;此外,相较于现有基于抽取规则抽取实体之间的上下游关系,本申请可以不受抽取规则的限定,使得可以提高抽取方法的泛化能力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种上下游关系的抽取方法的流程示意图;
图2为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图;
图3为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图;
图4为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图;
图5为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图;
图6为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图;
图7为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图;
图8为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图;
图9为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
现有的,抽取企业之间的上下游关系时,主要是基于抽取规则进行抽取,其中,基于规则的抽取方法通常需要人工依据语言学规律进行总结得到一些语言表达上的模式规则,因此,受制定规则的局限性,现有的抽取方式存在着泛化能力较差的问题。
有鉴于此,本申请实施例提供一种上下游关系的抽取方法,该可以提高抽取方法的泛化能力,提高适用性。
图1为本申请实施例提供的一种上下游关系的抽取方法的流程示意图,该方法的执行主体可以是计算机、服务器、处理器等可以进行数据处理的设备,如图1所示,该方法可以包括:
S101、获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称。
待分析文本语料可以是任意待分析文本,比如,可以是一篇文章,一段话等,本申请在此不限定该待分析文本语料的内容长度,可选地,可以通过网络爬取技术在目标网站上爬取待分析文本语料,但不以此为限,所获取的待分析文本语料可以包括多个实体,该实体可以包括业务主体名称。可以理解的是,若将本申请用于获取企业上下游关系时,则上述业务主体名称可以理解为企业名称,但具体应用场景并不以此为限。
S102、采用实体抽取模型抽取待分析文本语料中的多个实体。
其中,实体抽取模型可以通过多个样本语料训练获取,可以理解的是,上述待分析文本语料中还可能包括其他非实体内容,则可以通过训练获取的该实体抽取模型抽取待分析文本语料中的多个实体,使得基于抽取的多个实体可以便于进一步分析该多个实体之间的上下游关系。
可选地,实体抽取模型可以基于神经网络技术、自然语言处理技术等实现,当然,根据实际的应用场景也可以基于多种技术的结合实现,在此不作限定。
S103、根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级。
其中,对于预设实体映射表来说,不同的场景下,业务主体层级可以理解为相应的含义,比如,若将本申请用于获取企业上下游关系时,对应地,预设实体映射表可以用于指示各企业的经营范围,但不以为限,比如,还可以指示应用领域等。因此,基于上述实施例的基础上,在抽取到待分析文本语料中的多个实体后,则可以根据该预设实体映射表,确定各实体所属的业务主体层级,进而根据各实体所属的业务主体层级,可以确定多个实体之间的上下游关系,也即对于多个实体中任意两个实体来说,可以确定其中的上游实体和下游实体。
可选地,若将本申请实施例所提供的抽取方法用于获取企业上下游关系时,则上游实体可以对应上游企业,下游实体可以对应下游企业,而上游企业相对下游企业而言,可以指处于行业生产和业务的初始阶段的企业和厂家等,下游企业可以指对原材料进行深加工和改性处理,并将原材料转化为生产和生活中的实际产品的企业。可以理解的是,通过获取企业之间的上下游关系,可以对企业经营过程中可能存在的风险进行分析,辅助企业进行决策。
综上,本申请实施例提供的上下游关系的抽取方法,通过获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称;采用实体抽取模型抽取待分析文本语料中的多个实体,其中,实体抽取模型通过多个样本语料训练获取;根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级,在此过程中,由于实体抽取模型是根据多个样本语料训练获取的,因此,根据预设实体映射表,确定多个实体之间的上下游关系时,可以提高实体抽取和实体上下游关系的准确性;此外,相较于现有基于抽取规则抽取实体之间的上下游关系,本申请可以不受抽取规则的限定,使得可以提高抽取方法的泛化能力。
图2为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图,可选地,如图2所示,上述采用实体抽取模型抽取待分析文本语料中的多个实体,包括:
S201、根据预设算法,在待分析文本语料中抽取目标待分析文本语料,目标待分析文本语料包括用于指示合作关系的预设关键词。
S202、采用实体抽取模型抽取目标待分析文本语料中的多个实体。
其中,若以句文本语料为划分单元,则待分析文本语料可能包括多句待分析文本语料,可以理解的是,可能存在某句待分析文本语料不包括实体的情况,因此,有必要将该句待分析文本语料筛选出来,也即,有必要在待分析文本语料中抽取目标待分析文本语料,该目标待分析文本语料可以包括用于指示合作关系的预设关键词,可以理解的是,该目标待分析文本语料将包括多个实体,进而采用实体抽取模型抽取该目标待分析文本语料中多个实体时,可以提高抽取的效率。
可选地,用于指示合作关系的预设关键词可以包括但不限于:与、和、共同、一同、同时、协商、讨论、探讨、合作、协作、互助等关键词,本申请在此不作限定。可以理解的是,根据预设关键词,则可以对待分析文本语料进行初步筛选,从而筛选出可能存在实体的目标待分析文本语料,当然,具体筛选方式并不以此为限。
在一些实施例中,上述预设算法可以基于正则表达式实现,也即通过正则表示式可以在待分析文本语料中抽取包含合作关系的目标待分析文本语料,当然,具体实现方式并不以此为限,根据实际的应用场景可以适应性调整。可以理解的是,相比于现有基于抽取规则抽取实体之间的上下游关系,应用本申请实施例,可以解决待分析文本语料中实体表达式多样,语料关系描述稀少而无法抽取到实体的问题。
图3为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图,可选地,如图3所示,上述根据预设实体映射表,输出多个实体之间的上下游关系,包括:
S301、根据多个实体,确定业务主体实体对,其中,每个业务主体实体对包括2个实体,并存在合作关系。
其中,抽取到待分析文本语料中的多个实体后,则可以进一步根据该多个实体确定业务主体实体对,所确定的业务主体实体对中两个主体之间可以存在合作关系,可以理解的是,通过业务主体实体对可以筛选掉多个实体中不存在相关关系的实体。
S302、根据预设实体映射表,输出业务主体实体对中两个实体之间的上下游关系。
基于上述业务主体实体对的确定,可以获取该业务主体实体对中的实体,进而根据所获取的实体和预设实体映射表,可以确定各实体所属的业务主体层级,从而可以输出业务主体实体对中两个实体之间的上下游关系。
图4为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图。可选地,如图4所示,上述根据多个实体,确定业务主体实体对,包括:
S401、根据多个实体,获取至少一个初始实体对。
S402、根据至少一个初始实体对和预设分类模型,确定业务主体实体对。
其中,预设分类模型根据多个样本实体对训练获取,每个样本实体对包括2个样本实体,并标注有是否存在合作关系的标签。
其中,获取到多个实体后,则可以根据多个实体构建获取至少一个初始实体对,每个初始实体对可以包括2个实体,比如,对于多个实体(a,b,c),所获取的初始实体对可以包括(a,b)、(a,c)以及(b,c)。可以理解的是,对于初始实体对来说,可能某初始实体对中包括的两个实体并不存在合作关系,因此,有必要根据预设分类模型对该至少一个初始实体对进行筛选,使得通过筛选确定的业务主体实体对中的两个实体可以存在合作关系。
可选地,上述预设分类模型可以基于梯度提升决策树(Gradient BoostingDecision Tree,GBDT)、双向Transformer的Encoder(Bidirectional EncoderRepresentation from Transformers,BERT)等实现,本申请在此不作限定。可理解的是,训练过程中,标注有合作关系的样本实体对可以作为正训练样本,不存在合作关系的样本实体对可以作为负训练样本,根据该正训练样本和负训练样本可以训练获取预设分类模型。
可选地,上述方法还包括:
获取多个样本语料,每个样本语料标注有至少一个样本实体;根据多个样本语料,训练获取实体抽取模型。
其中,多个样本语料可以根据多个初始样本语料获取,可选地,对于初始样本语料来说,可以通过网络爬取技术在网站获取,可以理解的是,根据实际的应用场景,可以在相应的网站上获取,比如,若为激光行业,则可以在与激光相关的网站上获取,若为汽车行业,则可以在与汽车相关的网站上获取,在此不限定具体的应用场景。
在获取到多个初始样本语料后,则可以标注该多个初始样本语料中的样本实体,获取标注后的多个初始样本语料作为多个样本语料,进而根据该多个样本语料可以训练获取实体抽取模型。
图5为本申请实施例提供的又一种上下游关系的抽取方法的流程示意图。可选地,如图5所示,上述根据多个样本语料,训练获取实体抽取模型,包括:
S501、采用预训练语言模型,提取每个样本语料的词嵌入表示。
S502、根据每个样本语料的词嵌入表示,基于长短期记忆网络获取每个样本语料的语义特征信息。
S503、根据每个样本语料的语义特征信息和条件随机场模型,训练获取实体抽取模型。
在一些实施例中,实体抽取模型可以基于预训练语言模型、长短期记忆网络、条件随机场模型等相关技术实现。一种可能的实现方式中,对于多个样本语料来说,可以采用预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)提取每个样本语料中的词嵌入表示,可选地,该词嵌入表示可以用向量进行表示。其中,具体在进行提取时,BERT模型可以采用掩码语言模型(Masked Language Model,MLM)生成深度的双向语言表征,因此,所提取的词嵌入向量可以含有丰富的语义特征。
在提取到每个样本语料的词嵌入表示后,则可以进一步基于BiLSTM(Bidirectional LSTM)获取各样本语料的语义特征信息,该语义特征信息可以用标注序列表示。其中,对于BiLSTM来说,Bi-LSTM是长短期记忆网络(Long Short-Term Memory,LSTM)的改进版本,其可以从正序和逆序两个时序角度获取样本语料中长文本的语义特征信息,具体实现时,BiLSTM可以借助存储单元的结构来保存较长的依赖关系,并且通过输入门、输出门和遗忘门来调整之前状态对当前存储单元状态的影响。
但由于BiLSTM缺乏在整句层面的特征分析,因此,本申请还引入了条件随机场(Conditional Random Field,CRF)模型,CRF是一种序列标注模型,CRF可以通过标签之间的转移矩阵对Bi-LSTM标注序列进行打分,从而得到最优的标注序列,进而根据该最优的标注序列可以对实体抽取模型进行优化调整,使得训练获取的实体抽取模型用于实体抽取时,可以提高抽取的准确性。其中,CRF可以进一步将序列标注的重点放在句子级别上,从而可以获得准确率较高的标注序列。
综上,对于多个样本语料,可以通过BERT模型、BiLSTM模型以及CRF模型的结合,最终可以训练获得实体抽取模型,可以看出,在此过程中,由于可以充分利用各个模型的优点,因此训练获取的实体抽取模型用于待分析文本语料中多个实体的抽取时,可以提高实体抽取的准确性。
图6为本申请实施例提供的另一种上下游关系的抽取方法的流程示意图。可选地,如图6所示,上述采用实体抽取模型抽取目标待分析文本语料中的多个实体,包括:
S601、采用预训练语言模型,提取目标待分析文本语料的词嵌入表示。
S602、根据目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取目标待分析文本语料的语义特征信息。
S603、根据目标待分析文本语料的语义特征信息,采用条件随机场模型获取目标待分析文本语料对应的目标标注序列。
S604、根据目标标注序列,确定目标待分析文本语料中的多个实体。
其中,基于前述实施例的相关说明,在训练获得实体抽取模型后,则可以采用该实体抽取模型抽取目标待分析文本语料中的多个实体。一种可能的实现方式,具体在进行抽取时,可以采用BERT模型,提取该目标待分析文本语料中的词嵌入表示,可选地,可以将该词嵌入表示用向量进行表示,获取到该词嵌入表示之后,则可以采用BiLSTM获取该目标待分析文本语料中的语义特征信息,可选地,可以将该语义特征信息用标注序列标识,进一步地,基于该目标待分析文本语料的语义特征信息,可以采用CRF获取该目标待分析文本语料的目标标注序列,根据该目标标注序列则可以确定目标待分析文本语料中的多个实体。相关内容可参见前述的相关说明,本申请在此不再赘述。
图7为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。如图7所示,该上下游关系的抽取装置100,可以包括:
获取模块110,用于获取待分析文本语料,待分析文本语料包括多个实体,实体包括业务主体名称;
抽取模块120,用于采用实体抽取模型抽取待分析文本语料中的多个实体,其中,实体抽取模型通过多个样本语料训练获取;
输出模块130,用于根据预设实体映射表,输出多个实体之间的上下游关系,预设实体映射表用于指示各实体所属的业务主体层级。
在可选的实施方式中,抽取模块120,具体用于根据预设算法,在待分析文本语料中抽取目标待分析文本语料,目标待分析文本语料包括用于指示合作关系的预设关键词;采用实体抽取模型抽取目标待分析文本语料中的多个实体。
在可选的实施方式中,输出模块130,具体用于根据多个实体,确定业务主体实体对,其中,每个业务主体实体对包括2个实体,并存在合作关系;根据预设实体映射表,输出业务主体实体对中两个实体之间的上下游关系。
在可选的实施方式中,输出模块130,具体用于根据多个实体,获取至少一个初始实体对;根据至少一个初始实体对和预设分类模型,确定业务主体实体对,其中,预设分类模型根据多个样本实体对训练获取,每个样本实体对包括两个样本实体,并标注有是否存在合作关系的标签。
图8为本申请实施例提供的一种上下游关系的抽取装置的功能模块示意图。在可选的实施方式中,如图8所示,上下游关系的抽取装置100还包括:训练模块150,用于获取多个样本语料,每个样本语料标注有至少一个样本实体;根据多个样本语料,训练获取实体抽取模型。
在可选的实施方式中,训练模块150,具体用于采用预训练语言模型,提取每个样本语料的词嵌入表示;根据每个样本语料的词嵌入表示,基于长短期记忆网络获取每个样本语料的语义特征信息;根据每个样本语料的语义特征信息和条件随机场模型,训练获取实体抽取模型。
在可选的实施方式中,抽取模块120,具体用于采用预训练语言模型,提取目标待分析文本语料的词嵌入表示;根据目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取目标待分析文本语料的语义特征信息;根据目标待分析文本语料的语义特征信息,采用条件随机场模型获取目标待分析文本语料对应的目标标注序列;根据目标标注序列,确定目标待分析文本语料中的多个实体。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图9为本申请实施例提供的一种电子设备结构示意图。如图9所示,该电子设备可以包括:处理器210、存储介质220和总线230,存储介质220存储有处理器210可执行的机器可读指令,当电子设备运行时,处理器210与存储介质220之间通过总线230通信,处理器210执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种上下游关系的抽取方法,其特征在于,包括:
获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级;
所述采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,包括:
根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
2.根据权利要求1所述的方法,其特征在于,所述根据预设实体映射表,输出多个实体之间的上下游关系,包括:
根据多个所述实体,确定业务主体实体对,其中,每个所述业务主体实体对包括2个所述实体,并存在合作关系;
根据所述预设实体映射表,输出所述业务主体实体对中两个所述实体之间的上下游关系。
3.根据权利要求2所述的方法,其特征在于,所述根据多个所述实体,确定业务主体实体对,包括:
根据多个所述实体,获取至少一个初始实体对;
根据至少一个所述初始实体对和预设分类模型,确定所述业务主体实体对,其中,所述预设分类模型根据多个样本实体对训练获取,每个所述样本实体对包括2个样本实体,并标注有是否存在合作关系的标签。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个样本语料,每个所述样本语料标注有至少一个样本实体;
根据多个所述样本语料,训练获取所述实体抽取模型。
5.根据权利要求4所述的方法,其特征在于,所述根据多个所述样本语料,训练获取所述实体抽取模型,包括:
采用预训练语言模型,提取每个所述样本语料的词嵌入表示;
根据每个所述样本语料的词嵌入表示,基于长短期记忆网络获取每个所述样本语料的语义特征信息;
根据每个所述样本语料的语义特征信息和条件随机场模型,训练获取所述实体抽取模型。
6.根据权利要求5所述的方法,其特征在于,所述采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体,包括:
采用预训练语言模型,提取所述目标待分析文本语料的词嵌入表示;
根据所述目标待分析文本语料的词嵌入表示,基于长短期记忆网络获取所述目标待分析文本语料的语义特征信息;
根据所述目标待分析文本语料的语义特征信息,采用条件随机场模型获取所述目标待分析文本语料对应的目标标注序列;
根据所述目标标注序列,确定所述目标待分析文本语料中的多个所述实体。
7.一种上下游关系的抽取装置,其特征在于,包括:
获取模块,用于获取待分析文本语料,所述待分析文本语料包括多个实体,所述实体包括业务主体名称;
抽取模块,用于采用实体抽取模型抽取所述待分析文本语料中的多个所述实体,其中,所述实体抽取模型通过多个样本语料训练获取;
输出模块,用于根据预设实体映射表,输出多个实体之间的上下游关系,所述预设实体映射表用于指示各所述实体所属的业务主体层级;
所述抽取模块,具体用于根据预设算法,在所述待分析文本语料中抽取目标待分析文本语料,所述目标待分析文本语料包括用于指示合作关系的预设关键词;
采用所述实体抽取模型抽取所述目标待分析文本语料中的多个实体。
8.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-6任一所述上下游关系的抽取方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-6任一所述上下游关系的抽取方法的步骤。
CN202011598720.4A 2020-12-29 2020-12-29 上下游关系的抽取方法、装置、电子设备及存储介质 Active CN112632975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011598720.4A CN112632975B (zh) 2020-12-29 2020-12-29 上下游关系的抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011598720.4A CN112632975B (zh) 2020-12-29 2020-12-29 上下游关系的抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112632975A CN112632975A (zh) 2021-04-09
CN112632975B true CN112632975B (zh) 2024-06-07

Family

ID=75287542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011598720.4A Active CN112632975B (zh) 2020-12-29 2020-12-29 上下游关系的抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112632975B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051356B (zh) * 2021-04-21 2023-05-30 深圳壹账通智能科技有限公司 开放关系抽取方法、装置、电子设备及存储介质
CN114328797B (zh) * 2021-11-09 2024-03-19 腾讯科技(深圳)有限公司 内容搜索方法、装置、电子设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN110489481A (zh) * 2019-08-06 2019-11-22 北京邮电大学 行业数据的数据分析方法、装置及数据分析服务器
CN111091007A (zh) * 2020-03-23 2020-05-01 杭州有数金融信息服务有限公司 一种基于舆情及企业画像识别多个企业之间关系的方法
CN111507543A (zh) * 2020-05-28 2020-08-07 支付宝(杭州)信息技术有限公司 用于预测实体间业务关系的模型训练方法及装置
CN111581294A (zh) * 2019-02-18 2020-08-25 阿里巴巴集团控股有限公司 实体关系展示方法、装置、电子设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157177B2 (en) * 2016-10-28 2018-12-18 Kira Inc. System and method for extracting entities in electronic documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255034A (zh) * 2018-08-08 2019-01-22 数据地平线(广州)科技有限公司 一种基于产业链的行业知识图谱构建方法
CN111581294A (zh) * 2019-02-18 2020-08-25 阿里巴巴集团控股有限公司 实体关系展示方法、装置、电子设备及可读存储介质
CN110489481A (zh) * 2019-08-06 2019-11-22 北京邮电大学 行业数据的数据分析方法、装置及数据分析服务器
CN111091007A (zh) * 2020-03-23 2020-05-01 杭州有数金融信息服务有限公司 一种基于舆情及企业画像识别多个企业之间关系的方法
CN111507543A (zh) * 2020-05-28 2020-08-07 支付宝(杭州)信息技术有限公司 用于预测实体间业务关系的模型训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究;吴俊 等;情报学报;第39卷(第4期);第409-418页 *

Also Published As

Publication number Publication date
CN112632975A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Yoon et al. Pre-trained language model for biomedical question answering
Oudah et al. A pipeline Arabic named entity recognition using a hybrid approach
Danenas et al. Natural language processing-enhanced extraction of SBVR business vocabularies and business rules from UML use case diagrams
Inkpen et al. Location detection and disambiguation from twitter messages
Jiang et al. De-identification of medical records using conditional random fields and long short-term memory networks
Mahmud et al. Automatic vulgar word extraction method with application to vulgar remark detection in chittagonian dialect of bangla
Sun et al. Pre-processing online financial text for sentiment classification: A natural language processing approach
Güngör et al. Improving named entity recognition by jointly learning to disambiguate morphological tags
Bam et al. Named entity recognition for nepali text using support vector machines
CN112632975B (zh) 上下游关系的抽取方法、装置、电子设备及存储介质
Meetei et al. Low resource language specific pre-processing and features for sentiment analysis task
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Satapathy et al. Phonsenticnet: A cognitive approach to microtext normalization for concept-level sentiment analysis
Mariani et al. Rediscovering 15 years of discoveries in language resources and evaluation: The LREC anthology analysis
Ingólfsdóttir et al. Named entity recognition for icelandic: Annotated corpus and models
Shanmugalingam et al. Language identification at word level in Sinhala-English code-mixed social media text
Alemneh et al. Dictionary based amharic sentiment lexicon generation
Kabakus et al. TwitterSentiDetector: a domain-independent Twitter sentiment analyser
Khan et al. Enhancement of text analysis using context-aware normalization of social media informal text
Littell et al. The ARIEL-CMU situation frame detection pipeline for LoReHLT16: a model translation approach
Rajani Shree et al. POS tagger model for Kannada text with CRF++ and deep learning approaches
Altınel et al. Performance Analysis of Different Sentiment Polarity Dictionaries on Turkish Sentiment Detection
Oudah et al. Person name recognition using the hybrid approach
Yahi et al. Morphosyntactic preprocessing impact on document embedding: An empirical study on semantic similarity
Deka et al. A study of various natural language processing works for assamese language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant