CN112241458A - 文本的知识结构化处理方法、装置、设备和可读存储介质 - Google Patents
文本的知识结构化处理方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN112241458A CN112241458A CN202011089921.1A CN202011089921A CN112241458A CN 112241458 A CN112241458 A CN 112241458A CN 202011089921 A CN202011089921 A CN 202011089921A CN 112241458 A CN112241458 A CN 112241458A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- processed
- relationship
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种文本的知识结构化处理方法、装置、设备和可读存储介质,其中,方法包括:对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。本申请实施例不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本的知识结构化处理方法、文本的知识结构化处理装置、电子设备和计算机可读存储介质。
背景技术
警务文本关注的是以人为核心的实体,因此当文本中出现一个以上的人员及其相关信息的时候,需要在提取人员的姓名、性别、地址、联系方式、公民身份号码等的基础上,梳理清楚各个实体之间的对应关系或者从属关系。简单而言,就是将姓名实体找到其对应的地址、公民身份号码、联系方式、性别等属性实体,也就是对文本进行知识结构化处理。
现有的文本实体关系抽取方法主要有:基于词典或规则的符号主义抽取方法和基于机器学习的抽取方法等。其中,基于词典和规则的符号主义抽取方法,需要梳理大量的领域词典以及符合业务知识的专家规则,因此这种抽取方法通常需要耗费大量的人力进行词库和规则的梳理;基于机器学习的抽取方法,需要通过对样本进行标注,建立训练语料库,使用标注的样本对模型进行训练,通过训练好的模型对候选实体及其关系进行预测,但是对于样本分布较少的关系类别抽取的效果不好,并且随着深度学习的发展对于硬件资源的要求也越来越高,这些问题都导致关系提取在具体行业场景中的应用往往不能满足实际业务的需求。
发明内容
本申请实施例的目的是提供一种文本的知识结构化处理方法、文本的知识结构化处理装置、电子设备和计算机可读存储介质,不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求。
为了解决上述技术问题,本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种文本的知识结构化处理方法,其包括:
对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;
根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;
基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。
第二方面,本申请实施例提供了一种文本的知识结构化处理装置,包括:
业务分类模块,用于对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;
实体提取模块,用于根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;
关系抽取模块,用于基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。
第三方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如第一方面所述的文本的知识结构化处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本的知识结构化处理方法。
本申请实施例提供的文本的知识结构化处理方法、文本的知识结构化处理装置、电子设备和计算机可读存储介质,通过对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型,根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息,在关系抽取过程中,不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求,当待处理文本为警务文本或者病例文本等时,基于所得到待处理文本的知识结构化信息构建人员信息知识库,通过本申请实施例可以对知识库进行人员要素的自动补全、人员实体的动态新增等人员信息的调整,实现对人员信息知识库中信息的动态更新。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的文本的知识结构化处理方法的一种实现方式的流程示意图;
图2为本申请实施例对待处理文本进行关系抽取的一种实现方式的流程示意图;
图3为本申请实施例的姓名实体与属性实体的有向连接实体关系图;
图4为本申请实施例构建待处理文本的实体关系对的一种实现方式的流程示意图;
图5为本申请实施例的文本的知识结构化处理方法的另一种实现方式的流程示意图;
图6为本申请实施例对待处理文本的实体关系对进行过滤处理的一种实现方式的流程示意图;
图7为本申请实施例的文本的知识结构化处理装置的一种实现方式的组成结构示意图;
图8为本申请实施例的文本的知识结构化处理装置的另一种实现方式的组成结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1为本申请实施例的文本的知识结构化处理方法的一种实现方式的流程示意图,图1中的方法可以由文本的知识结构化处理装置作为执行主体执行,该文本的知识结构化处理装置设置于客户端和/或服务器,例如,该客户端可以为手机、平板电脑、台式计算机、便携笔记本式计算机、车载计算机、机器人、可穿戴设备等,该服务器可以为包含独立主机的物理服务器,或者为主机集群承载的虚拟服务器,或者为云服务器,本发明实施例对此不作限定,如图1所示,该方法至少包括:
S102,对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型。
在本申请实施例中,待处理文本可以为无结构文本,例如警务文本、病例文本等,本发明实施例对待处理文本的应用领域不作限定。可以根据应用领域的业务类型对待处理文本进行分类,由于不同的业务类型具有不同业务特征,可以根据待处理文本的业务特征对待处理文本进行分类处理,得到待处理文本在应用领域的业务类型,例如,当待处理文本为警务文本时,对待处理文本进行分类处理,得到的待处理文本的业务类型可以为盗窃类或者涉稳类等,通过确定待处理文本的业务类型,可以在后续实体提取和关系抽取的过程中过滤掉与业务类型不相符的无效数据,提高实体提取和关系抽取的准确性,得到能够体现业务类型特征的结构化数据。
在本申请实施例中,可以通过机器学习对待处理文本进行分类处理,可选地,机器学习可以采用神经网络,例如,可以采用卷积神经网络等,本申请实施例对待处理文本进行分类处理的实现方式不作限定。
S104,根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素。
在本申请实施例中,实体提取也可以称为命名实体识别(Named EntityRecognition,简称NER),就是识别出文本中具有特定意义的实体,一般包括三大类,即实体类、时间类、数字类,和七小类,即人名、地名、组织机构名、时间、日期、货币、百分比,还可以包括特定应用领域的实体,例如,公民身份号码、手机号码、性别等。在本申请实施例中,根据待处理文本的业务类型,可以确定对待处理文本进行实体提取处理的实体类型,例如,可以包括人名、地名、组织机构、公民身份号码、手机号码、性别等,根据所确定的实体类型对待处理文本进行实体提取处理,可以得到待处理文本中具有所确定的实体类型的实体要素。
在本申请实施例中,可以采用现有的实体提取方法对待处理文本进行实体提取处理,可选地,可以采用基于规则和词典的方法,例如,可以采用字面匹配、正则匹配等;或者,也可以采用机器学习的方法,例如,可以采用隐马尔可夫模型(Hidden Markov Model,简称HMM)、双向长短期记忆神经网络(Bi-Long Short-Term Memory,简称Bi-LSTM)和条件随机场模型(Conditional random field,简称CRF)等,本申请实施例对待处理文本进行实体提取处理的实现方式不作限定。
S106,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息。
在本申请实施例中,可以基于有向连接实体关系图,构建有向连接实体关系图挖掘(Mining algorithm of directed linked entity relation graph,简称DLERG)算法,通过DLERG算法对待处理文本进行关系抽取处理,挖掘待处理文本中不同实体要素之间的关系,根据待处理文本中不同实体要素之间的关系确定待处理文本的实体关系对,作为待处理文本的知识结构化信息。可选地,DLERG算法可以根据待处理文本中实体要素的实体类型,预设不同实体要素之间的关系类型,通过实体要素在有向连接实体关系图中的入度值和实体要素在待处理文本中的相对距离值,确定待处理文本中不同实体要素之间的关系所属的关系类型。
本申请实施例的文本的知识结构化处理方法,通过对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型,根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息,在关系抽取过程中,不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求,当待处理文本为警务文本或者病例文本等时,基于所得到待处理文本的知识结构化信息构建人员信息知识库,通过本申请实施例可以对知识库进行人员要素的自动补全、人员实体的动态新增等人员信息的调整,实现对人员信息知识库中信息的动态更新。
下面将结合图2至图6的实施例对本申请的文本的知识结构化处理方法进行详细说明。
图2为本申请实施例对待处理文本进行关系抽取的一种实现方式的流程示意图,如图2所示,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,至少包括:
S202,根据姓名实体与属性实体的有向连接实体关系图,得到姓名实体到属性实体在有向连接实体关系图中的入度值。
在本申请实施例中,待处理文本的实体要素包括姓名实体和属性实体,可以根据待处理文本中的姓名实体和属性实体,确定待处理文本中姓名实体与属性实体的有向连接实体关系图,然后根据姓名实体与属性实体的有向连接实体关系图,得到姓名实体到属性实体在有向连接实体关系图中的入度值。可以根据姓名实体和属性实体在待处理文本中同时出现的次数,确定待处理文本中姓名实体与属性实体的有向连接实体关系图,如图3所示,其中,A为待处理文本中的姓名实体,B为待处理文本中的属性实体,例如,属性实体可以为地名、组织机构、公民身份号码、手机号、性别等,在有向连接实体关系图中姓名实体A到属性实体B的入度值为3。
S204,根据姓名实体和属性实体在待处理文本中的位置,得到姓名实体与属性实体在待处理文本中的相对距离值。
在本申请实施例中,可以根据实体提取得到的姓名实体和属性实体,与待处理文本进行匹配,确定姓名实体和属性实体在待处理文本中的位置,或者可以在对姓名实体和属性实体进行实体提取的过程中,确定姓名实体和属性实体在待处理文本中的位置,然后根据姓名实体和属性实体在待处理文本中的位置,得到姓名实体与属性实体在待处理文本中的相对距离值。
S206,在入度值与对应的相对距离值的比值大于预设第一阈值的情况下,根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的实体关系对。
在本申请实施例中,可以根据姓名实体到属性实体在有向连接实体关系图中的入度值,和姓名实体与属性实体在待处理文本中的相对距离值,确定姓名实体和属性实体的入度值与对应的相对距离值的比值,通过将入度值与对应的相对距离值的比值与预设第一阈值进行比较,在入度值与对应的相对距离值的比值大于预设第一阈值的情况下,根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的实体关系对,获得置信度较高的姓名实体与属性实体之间的对应关系。
在一些可选的例子中,对待处理文本进行关系抽取的公式如下:
其中,namei表示第i个姓名实体,entityj表示第j个属性实体,InDeg(namei,entityj)表示namei到entityj的入度值,DisLen(namei,entityj)表示namei与entityj的相对距离,即:DisLen(A,B)=Dis_A-Dis_B,EntityWeight表示namei与entityj的预设权重,EntityWeight∈[0,1],EdgeValue表示预设第一阈值。
本实施例根据待处理文本中姓名实体与属性实体之间的对应关系,通过实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,确定待处理文本的实体关系对,可以简化对待处理文本的关系抽取,提高关系抽取的效率,进而提高对待处理文本进行知识结构化处理的效率。
图4为本申请实施例构建待处理文本的实体关系对的一种实现方式的流程示意图,如图4所示,根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的实体关系对,至少包括:
S402,根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的三元组实体关系对。
在本申请实施例中,待处理文本的实体要素包括姓名实体和属性实体,在根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的实体关系对时,可以根据姓名实体与属性实体之间的对应关系,构建待处理文本的三元组实体关系对,例如,三元组实体关系对可以表示为<姓名,属性,属性值>,其中,属性表示姓名实体与属性实体之间的对应关系,属性值表示具体的属性实体。在一些可选的例子中,通过DLERG算法对待处理文本进行关系抽取处理,所得到姓名实体与属性实体的三元组实体关系对如表1所示。
表1
S404,根据姓名实体对待处理文本的三元组实体关系对进行融合处理,构建待处理文本的多元组实体关系对。
在本申请实施例中,在根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的实体关系对时,还可以以姓名实体为核心,对待处理文本的三元组实体关系对进行融合处理,构建待处理文本的多元组实体关系对,例如,多元组实体关系对可以表示为<姓名,属性,属性值1,属性值2,属性值3>,其中,属性表示姓名实体与属性实体之间的对应关系,属性值表示具体的属性实体。在一些可选的例子中,通过DLERG算法对待处理文本进行关系抽取处理,所得到姓名实体与属性实体的三元组实体关系对以及姓名实体与属性实体的多元组实体关系对如表2所示。
表2
序号 | 实体关系对 |
1 | <姓名,属性,公民身份证号> |
2 | <姓名,属性,关联地址> |
3 | <姓名,属性,手机号> |
4 | <姓名,属性,性别> |
5 | <姓名,属性,性别,公民身份证号,手机号,关联地址> |
本实施例在构建待处理文本的实体关系对时,通过先构建三元组实体关系对,在通过对三元组实体关系对进行融合处理构建多元组实体关系对,可以获得待处理文本中完整的知识结构,灵活的满足不同应用场景的需求。
图5为本申请实施例的文本的知识结构化处理方法的另一种实现方式的流程示意图,如图5所示,该方法至少包括:
S502,对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型。
在申请实施例中,关于S502的说明可以参见图1中关于S102的说明,故在此不再敷述。
S504,根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素。
在申请实施例中,关于S504的说明可以参见图1中关于S104的说明,故在此不再敷述。
S506,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对。
在申请实施例中,关于S506的说明可以参见图1中关于S106的说明,故在此不再敷述。
S508,对待处理文本的实体关系对进行过滤处理,确定待处理文本的目标实体关系对,得到待处理文本的知识结构化信息。
在本申请实施例中,通过融合处理构建的待处理文本的多元组实体关系对中通常会包含一些关系对识别错误的脏数据或者杂质数据,可以通过构建低密度实体对过滤器(Low Density Entity Pair Filter,简称DEPF),对待处理文本的实体关系对进行过滤处理,过滤掉错误或者无关的实体关系对,确定待处理文本的目标实体关系对,作为待处理文本的知识结构化信息。
本实施例通过对待处理文本的实体关系对进行过滤处理,可以过滤掉存在错误或者无关的多元组实体关系对,进一步提高关系抽取的准确性。
图6为本申请实施例对待处理文本的实体关系对进行过滤处理的一种实现方式的流程示意图,如图2所示,对待处理文本的实体关系对进行过滤处理,确定待处理文本的目标实体关系对,至少包括:
S602,确定待处理文本的多元组实体关系对中姓名实体与属性实体的对应关系的密度值。
S604,在密度值大于预设第二阈值的情况下,将对应的多元组实体关系对确定为待处理文本的目标实体关系对。
在本申请实施例中,待处理文本的实体要素包括姓名实体和属性实体,在一些可选的例子中,确定待处理文本的多元组实体关系对中姓名实体与属性实体的对应关系的密度值的公式如下:
其中,entitiesi=<name,sex,phone,identity,location>entitiesi表示第i个多元组实体关系对,Attrii∈{sex,phone,identity,location},表示第i个属性,Attrii=0表示不存在与姓名name的对应关系对,Attrii=1表示存在与姓名name的对应关系对,AttriWeight表示name与属性的预设权重,AttriWeight∈[0,1]。
本实施例通过统计多元组实体关系对中姓名实体与属性实体的对应关系的密度值,根据密度值对待处理文本的多元组实体关系对进行过滤,过滤方法简单,易于实现。
在本申请的上述各实施例中,根据待处理文本的业务类型,对待处理文本进行实体提取处理,所得到的待处理文本的实体要素可以包括:通用类实体要素和垂直类实体要素,通用类实体要素是指在待处理文本的应用领域的各业务类型中具有普遍性的实体要素,垂直类实体要素是指在待处理文本的应用领域的每个业务类型中具有独特性的实体要素。
可选地,在根据待处理文本的业务类型,对待处理文本进行实体提取处理时,可以同时得到待处理文本的通用类实体要素和垂直类实体要素;或者,也可以先对待处理文本进行通用类实体提取处理,得到待处理文本的通用类实体要素,然后根据待处理文本的业务类型,对待处理文本进行垂直类实体提取处理,得到待处理文本的垂直类实体要素,其中对待处理文本进行通用类实体提取处理和垂直类实体提取处理的顺序可以调整,即可以先根据待处理文本的业务类型,对待处理文本进行垂直类实体提取处理,得到待处理文本的垂直类实体要素,然后对待处理文本进行通用类实体提取处理,得到待处理文本的通用类实体要素;本申请实施例对通过对待处理文本进行实体提取处理获得待处理文本的通用类实体要素和垂直类实体要素的实现方式不作限定。
在本申请的上述各实施例中,当待处理文本为警务文本时,在对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型之前,还可以对原始待处理文本进行脱敏处理,得到脱敏后的待处理文本;然后对脱敏后的待处理文本进行以下预处理中的至少一种预处理:数据清洗处理、数据过滤处理、数据去重处理和数据修复处理,得到待处理文本。
对应上述描述的方法,基于相同的技术构思,本申请实施例还提供了一种文本的知识结构化处理装置,该文本的知识结构化处理装置设置于客户端和/或服务器,图7为本申请实施例的文本的知识结构化处理装置的一种实现方式的组成结构示意图,该文本的知识结构化处理装置可用于执行图1描述的文本的知识结构化处理方法,如图7所示,该文本的知识结构化处理装置至少包括:业务分类模块710、实体提取模块720和关系抽取模块730,其中,业务分类模块710、实体提取模块720和关系抽取模块730依次连接。
业务分类模块710,用于对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型。
在申请实施例中,关于业务分类模块710的说明可以参见图1中关于S102的说明,故在此不再敷述。
实体提取模块720,用于根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素。
在申请实施例中,关于实体提取模块720的说明可以参见图1中关于S104的说明,故在此不再敷述。
关系抽取模块730,用于基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息。
在申请实施例中,关于关系抽取模块730的说明可以参见图1中关于S106的说明,故在此不再敷述。
本申请实施例的文本的知识结构化处理装置,通过对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型,根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息,在关系抽取过程中,不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求,当待处理文本为警务文本或者病例文本等时,基于所得到待处理文本的知识结构化信息构建人员信息知识库,通过本申请实施例可以对知识库进行人员要素的自动补全、人员实体的动态新增等人员信息的调整,实现对人员信息知识库中信息的动态更新。
可选地,待处理文本的实体要素包括姓名实体和属性实体;关系抽取模块730,用于根据姓名实体与属性实体的有向连接实体关系图,得到姓名实体到属性实体在有向连接实体关系图中的入度值;根据姓名实体和属性实体在待处理文本中的位置,得到姓名实体与属性实体在待处理文本中的相对距离值;在入度值与对应的相对距离值的比值大于预设第一阈值的情况下,根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的实体关系对。
可选地,关系抽取模块730,用于根据相应的姓名实体与属性实体之间的对应关系,构建待处理文本的三元组实体关系对;根据姓名实体对待处理文本的三元组实体关系对进行融合处理,构建待处理文本的多元组实体关系对。
可选地,如图8所示,本申请实施例还提供了另一种文本的知识结构化处理装置,该文本的知识结构化处理装置除了包括业务分类模块710、实体提取模块720和关系抽取模块730外,还包括过滤模块740,其中,业务分类模块710、实体提取模块720、关系抽取模块730和过滤模块740依次连接,过滤模块740,用于对待处理文本的实体关系对进行过滤处理,确定待处理文本的目标实体关系对,得到待处理文本的知识结构化信息。
可选地,过滤模块740,用于确定待处理文本的多元组实体关系对中姓名实体与属性实体的对应关系的密度值;在密度值大于预设第二阈值的情况下,将对应的多元组实体关系对确定为待处理文本的目标实体关系对。
可选地,待处理文本的实体要素包括通用类实体要素和垂直类实体要素;实体提取模块720,用于对待处理文本进行通用类实体提取处理,得到待处理文本的通用类实体要素;根据待处理文本的业务类型,对待处理文本进行垂直类实体提取处理,得到待处理文本的垂直类实体要素。
可选地,本申请实施例的文本的知识结构化处理装置还可以包括脱敏模块和预处理模块;其中,脱敏模块,用于对原始待处理文本进行脱敏处理,得到脱敏后的待处理文本;预处理模块,用于对脱敏后的待处理文本进行以下预处理中的至少一种预处理:数据清洗处理、数据过滤处理、数据去重处理和数据修复处理,得到待处理文本。
对应上述描述的方法,基于相同的技术构思,本申请实施例还提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线;其中,处理器、通信接口以及存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现以下方法:
对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型;
根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素;
基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息。
本申请实施例的电子设备,通过对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型,根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息,在关系抽取过程中,不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求,当待处理文本为警务文本或者病例文本等时,基于所得到待处理文本的知识结构化信息构建人员信息知识库,通过本申请实施例可以对知识库进行人员要素的自动补全、人员实体的动态新增等人员信息的调整,实现对人员信息知识库中信息的动态更新。
对应上述描述的方法,基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质,存储介质内存储有计算机程序,计算机程序被处理器执行时实现以下方法:
对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型;
根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素;
基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息。
本申请实施例的计算机可读存储介质,通过对待处理文本根据业务特征进行分类处理,得到待处理文本的业务类型,根据待处理文本的业务类型,对待处理文本进行实体提取处理,得到待处理文本的实体要素,基于实体要素在有向连接实体关系图中的入度值和在待处理文本中的相对距离值,对待处理文本进行关系抽取处理,确定待处理文本的实体关系对,得到待处理文本的知识结构化信息,在关系抽取过程中,不需要大量的数据标注和较高的硬件资源,可以有效提升关系抽取的准确性,节约人工和成本,满足实际业务的需求,当待处理文本为警务文本或者病例文本等时,基于所得到待处理文本的知识结构化信息构建人员信息知识库,通过本申请实施例可以对知识库进行人员要素的自动补全、人员实体的动态新增等人员信息的调整,实现对人员信息知识库中信息的动态更新。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本的知识结构化处理方法,其特征在于,包括:
对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;
根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;
基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。
2.根据权利要求1所述的方法,其特征在于,所述待处理文本的实体要素包括姓名实体和属性实体;
所述基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,包括:
根据所述姓名实体与所述属性实体的有向连接实体关系图,得到所述姓名实体到所述属性实体在所述有向连接实体关系图中的入度值;
根据所述姓名实体和所述属性实体在所述待处理文本中的位置,得到所述姓名实体与所述属性实体在所述待处理文本中的相对距离值;
在所述入度值与对应的所述相对距离值的比值大于预设第一阈值的情况下,根据相应的所述姓名实体与所述属性实体之间的对应关系,构建所述待处理文本的实体关系对。
3.根据权利要求2所述的方法,其特征在于,所述根据相应的所述姓名实体与所述属性实体之间的对应关系,构建所述待处理文本的实体关系对,包括:
根据相应的所述姓名实体与所述属性实体之间的对应关系,构建所述待处理文本的三元组实体关系对;
根据所述姓名实体对所述待处理文本的三元组实体关系对进行融合处理,构建所述待处理文本的多元组实体关系对。
4.根据权利要求3所述的方法,其特征在于,所述基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对之后,还包括:
对所述待处理文本的实体关系对进行过滤处理,确定所述待处理文本的目标实体关系对,得到所述待处理文本的知识结构化信息。
5.根据权利要求4所述的方法,其特征在于,所述对所述待处理文本的实体关系对进行过滤处理,确定所述待处理文本的目标实体关系对,包括:
确定所述待处理文本的多元组实体关系对中所述姓名实体与所述属性实体的对应关系的密度值;
在所述密度值大于预设第二阈值的情况下,将对应的所述多元组实体关系对确定为所述待处理文本的目标实体关系对。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述待处理文本的实体要素包括通用类实体要素和垂直类实体要素;
所述根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素,包括:
对所述待处理文本进行通用类实体提取处理,得到所述待处理文本的通用类实体要素;
根据所述待处理文本的业务类型,对所述待处理文本进行垂直类实体提取处理,得到所述待处理文本的垂直类实体要素。
7.根据权利要求6所述的方法,其特征在于,所述对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型之前,还包括:
对原始待处理文本进行脱敏处理,得到脱敏后的待处理文本;
对所述脱敏后的待处理文本进行以下预处理中的至少一种预处理:数据清洗处理、数据过滤处理、数据去重处理和数据修复处理,得到所述待处理文本。
8.一种文本的知识结构化处理装置,其特征在于,包括:
业务分类模块,用于对待处理文本根据业务特征进行分类处理,得到所述待处理文本的业务类型;
实体提取模块,用于根据所述待处理文本的业务类型,对所述待处理文本进行实体提取处理,得到所述待处理文本的实体要素;
关系抽取模块,用于基于所述实体要素在有向连接实体关系图中的入度值和在所述待处理文本中的相对距离值,对所述待处理文本进行关系抽取处理,确定所述待处理文本的实体关系对,得到所述待处理文本的知识结构化信息。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线;其中,所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序,实现如权利要求1至7中任一项所述的文本的知识结构化处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本的知识结构化处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011089921.1A CN112241458B (zh) | 2020-10-13 | 2020-10-13 | 文本的知识结构化处理方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011089921.1A CN112241458B (zh) | 2020-10-13 | 2020-10-13 | 文本的知识结构化处理方法、装置、设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241458A true CN112241458A (zh) | 2021-01-19 |
CN112241458B CN112241458B (zh) | 2022-10-28 |
Family
ID=74168825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011089921.1A Active CN112241458B (zh) | 2020-10-13 | 2020-10-13 | 文本的知识结构化处理方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241458B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344060A (zh) * | 2021-05-31 | 2021-09-03 | 哈尔滨工业大学 | 文本分类模型训练方法、诉讼状分类方法及装置 |
CN113705236A (zh) * | 2021-04-02 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 实体比较方法、装置、设备及计算机可读存储介质 |
CN116975299A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101425065A (zh) * | 2007-10-31 | 2009-05-06 | 日电(中国)有限公司 | 实体关系挖掘设备和方法 |
US20100250598A1 (en) * | 2009-03-30 | 2010-09-30 | Falk Brauer | Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
CN109471948A (zh) * | 2018-11-08 | 2019-03-15 | 威海天鑫现代服务技术研究院有限公司 | 一种老年健康领域知识问答系统构建方法 |
US20190164062A1 (en) * | 2017-11-28 | 2019-05-30 | International Business Machines Corporation | Data classifier |
CN110134842A (zh) * | 2019-04-03 | 2019-08-16 | 深圳价值在线信息科技股份有限公司 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
CN110674312A (zh) * | 2019-09-18 | 2020-01-10 | 泰康保险集团股份有限公司 | 构建知识图谱方法、装置、介质及电子设备 |
CN110704576A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种基于文本的实体关系抽取方法及装置 |
CN110795525A (zh) * | 2019-09-17 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 文本结构化方法、装置、电子设备及计算机可读存储介质 |
CN111274327A (zh) * | 2020-01-09 | 2020-06-12 | 浙江工业大学 | 一种面向非结构化表格文档的实体与关系抽取方法 |
CN111581342A (zh) * | 2020-04-23 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种生成摘要的方法、系统和设备 |
CN111709240A (zh) * | 2020-05-14 | 2020-09-25 | 腾讯科技(武汉)有限公司 | 实体关系抽取方法、装置、设备及其存储介质 |
-
2020
- 2020-10-13 CN CN202011089921.1A patent/CN112241458B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101425065A (zh) * | 2007-10-31 | 2009-05-06 | 日电(中国)有限公司 | 实体关系挖掘设备和方法 |
US20100250598A1 (en) * | 2009-03-30 | 2010-09-30 | Falk Brauer | Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
US20190164062A1 (en) * | 2017-11-28 | 2019-05-30 | International Business Machines Corporation | Data classifier |
CN109471948A (zh) * | 2018-11-08 | 2019-03-15 | 威海天鑫现代服务技术研究院有限公司 | 一种老年健康领域知识问答系统构建方法 |
CN110134842A (zh) * | 2019-04-03 | 2019-08-16 | 深圳价值在线信息科技股份有限公司 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
CN110795525A (zh) * | 2019-09-17 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 文本结构化方法、装置、电子设备及计算机可读存储介质 |
CN110674312A (zh) * | 2019-09-18 | 2020-01-10 | 泰康保险集团股份有限公司 | 构建知识图谱方法、装置、介质及电子设备 |
CN110704576A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种基于文本的实体关系抽取方法及装置 |
CN111274327A (zh) * | 2020-01-09 | 2020-06-12 | 浙江工业大学 | 一种面向非结构化表格文档的实体与关系抽取方法 |
CN111581342A (zh) * | 2020-04-23 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种生成摘要的方法、系统和设备 |
CN111709240A (zh) * | 2020-05-14 | 2020-09-25 | 腾讯科技(武汉)有限公司 | 实体关系抽取方法、装置、设备及其存储介质 |
Non-Patent Citations (2)
Title |
---|
CHI CHEN 等: "A System for Recognizing Entities and Extracting Relations from Electronic Medical Records", 《2017 14TH WEB INFORMATION SYSTEMS AND APPLICATIONS CONFERENCE (WISA)》 * |
程文亮: "中文企业知识图谱构建与分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705236A (zh) * | 2021-04-02 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 实体比较方法、装置、设备及计算机可读存储介质 |
CN113344060A (zh) * | 2021-05-31 | 2021-09-03 | 哈尔滨工业大学 | 文本分类模型训练方法、诉讼状分类方法及装置 |
CN116975299A (zh) * | 2023-09-22 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
CN116975299B (zh) * | 2023-09-22 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 文本数据的判别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112241458B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241458B (zh) | 文本的知识结构化处理方法、装置、设备和可读存储介质 | |
CN106033416B (zh) | 一种字符串处理方法及装置 | |
CN108763952B (zh) | 一种数据分类方法、装置及电子设备 | |
EP3848797A1 (en) | Automatic parameter value resolution for api evaluation | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
US20210089667A1 (en) | System and method for implementing attribute classification for pii data | |
CN105740667A (zh) | 一种基于用户行为的信息识别方法及装置 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN111062803A (zh) | 一种金融业务查询查复方法及系统 | |
CN113836128A (zh) | 一种异常数据识别方法、系统、设备及存储介质 | |
CN111259207A (zh) | 短信的识别方法、装置及设备 | |
CN113761137B (zh) | 一种提取地址信息的方法及装置 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN114969253A (zh) | 市场主体与政策的匹配方法、装置、计算设备及介质 | |
CN113094567A (zh) | 一种基于文本聚类的恶意投诉识别方法及系统 | |
CN112559739A (zh) | 电力设备绝缘状态数据处理方法 | |
CN113139382A (zh) | 命名实体识别方法及装置 | |
CN112434126A (zh) | 一种信息处理方法、装置、设备和存储介质 | |
CN115563289B (zh) | 行业分类标签生成方法、装置、电子设备和可读介质 | |
CN115908998B (zh) | 水深数据识别模型的训练方法、水深数据识别方法及装置 | |
CN114240496A (zh) | 应用于保险推荐的客户挖掘方法、装置、设备及存储介质 | |
CN116644745A (zh) | 一种基于公司名称的行业预测方法及设备 | |
CN116595190A (zh) | 一种潜客挖掘方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No.27, 1st floor, building 14, Haidian Road, zhongjiancai District, Beijing 100096 Applicant after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100096 101 / F, building 14, 27 Jiancai Middle Road, Haidian District, Beijing Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |