CN111967242B - 一种文本信息的抽取方法、装置及设备 - Google Patents
一种文本信息的抽取方法、装置及设备 Download PDFInfo
- Publication number
- CN111967242B CN111967242B CN202010824393.3A CN202010824393A CN111967242B CN 111967242 B CN111967242 B CN 111967242B CN 202010824393 A CN202010824393 A CN 202010824393A CN 111967242 B CN111967242 B CN 111967242B
- Authority
- CN
- China
- Prior art keywords
- entity
- target text
- text
- attribute
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 43
- 230000004927 fusion Effects 0.000 claims abstract description 55
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 63
- 239000011159 matrix material Substances 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000005094 computer simulation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种文本信息的抽取方法、装置及设备。方案包括:获取目标文本;对所述目标文本进行向量化处理,得到所述目标文本的文本特征;提取所述目标文本的句法信息,确定所述目标文本的句法特征;将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;根据所述融合特征,确定所述目标文本中包含的实体以及预设关系;按照所述预设关系对所述实体进行组合,得到组合结果;根据所述组合结果,确定所述目标文本的三元组信息;还可以将三元组信息存储在区块链网络中。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本信息的抽取方法、装置及设备。
背景技术
随着信息技术的发展,人们通过网络可以获得越来越多的信息,为了便于人们的需求,出现了众多可以为用户提供不同分类信息的终端应用,如,可以将信息分类为新闻、体育、娱乐、运动、教育等不同类别提供给用户,用户可以选择获取感兴趣的类别信息,可有效减少用户不感兴趣的信息对用户的打扰。同样,人们还可以根据需求从众多信息中检索自己所需的信息。
通常对信息进行分类或者检索,都需要基于信息中包含的一些关键信息进行,利用提取出的关键信息完成对信息的分类、检索等,因此,如何准确的提取关键信息对信息的应用有着重要的影响。
发明内容
本说明书实施例提供一种文本信息的抽取方法、装置及设备,以准确的提取文本中的信息。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种文本信息的抽取方法,包括:
获取目标文本;
对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
提取所述目标文本的句法信息,确定所述目标文本的句法特征;
将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
根据所述融合特征,确定所述目标文本中包含的实体以及预设关系;
按照所述预设关系对所述实体进行组合,得到组合结果;
根据所述组合结果,确定所述目标文本的三元组信息。
本说明书实施例提供的一种文本信息的抽取装置,包括:
文本获取模块,用于获取目标文本;
第一特征提取模块,用于对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
第二特征提取模块,用于提取所述目标文本的句法信息,确定所述目标文本的句法特征;
特征融合模块,用于将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
实体确定模块,用于根据所述融合特征,确定所述目标文本中包含的实体以及预设关系;
组合处理模块,用于按照所述预设关系对所述实体进行组合,得到组合结果;
信息确定模块,用于根据所述组合结果,确定所述目标文本的三元组信息。
本说明书实施例提供的一种文本信息的抽取设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取目标文本;
对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
提取所述目标文本的句法信息,确定所述目标文本的句法特征;
将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
根据所述融合特征,确定所述目标文本中包含的实体以及预设关系;
按照所述预设关系对所述实体进行组合,得到组合结果;
根据所述组合结果,确定所述目标文本的三元组信息。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述一种文本信息的抽取方法。
本说明书一个实施例实现了目标文本中三元组信息的抽取,能够达到以下有益效果:
本说明书实施例中将句法信息融合到目标文本的文本特征中,利用得到的融合特征获取文本中的实体以及预设关系,可以从目标文本的整体角度对文本进行分析,更精确的获知文本整体的表达含义,进而可以更准确的提取实体以及预设关系,并且,还利用了对获得的实体进行组合的方式来确定实体间对应的预设关系,可以提高抽取三元组信息的准确性。
本说明书实施例中还可以将三元组信息存储在区块链网络中,保证三元组信息不被篡改,提高了信息的安全性;并且,三元组信息的用户还可以从区块链网络中的任意节点中获取三元组信息,便于用户对三元组信息的获取。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中一种文本信息的抽取方法的场景示意图;
图2为本说明书实施例提供的一种文本信息的抽取方法的流程示意图;
图3为本说明书实施例提供的一种信息抽取模型的结构示意图;
图4为本说明书实施例提供的对应于图2的一种文本信息的抽取装置的结构示意图;
图5为本说明书实施例提供的对应于图2的一种文本信息的抽取设备的结构示意图。
具体实施方式
为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
信息抽取是指从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构,例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等;也是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到广泛关注。
其中,信息抽取中较为广泛使用的是抽取信息的SPO三元组数据,即从自然语言文本中抽取实体关系数据,得到实体对(主体S-客体O)与他们之间的关系(P)构成的三元组数据。
也可以理解为从自然语言文本中抽取主谓宾信息,用来描述一个句子的核心关系。其中,主语Subject相当于主体S;宾语Object相当于客体O;谓语Predication可以用于表示主语与宾语之间的关系,相当于关系P。
为了解决现有技术中的缺陷,本方案给出了以下实施例:
图1为本说明书实施例中一种文本信息的抽取方法的场景示意图。如图1所示,本说明书实施例中的方法可对采集的网页信息进行信息抽取,可以通过网页信息采集工具获取网页信息1,提取网页信息1中的文本信息2,将得到的文本信息2作为目标文本输入到文本信息抽取的模型3中进行文本信息抽取,最终可以得到目标文本中包含的实体以及对应关系的三元组信息4。在实际应用中,还可以基于得到的三元组信息,进一步对目标文本进行分类处理等操作。
接下来,将针对说明书实施例提供的一种文本信息的抽取方法结合附图进行具体说明:
图2为本说明书实施例提供的一种文本信息的抽取方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于应用服务器的程序或应用客户端。
如图2所示,该流程可以包括以下步骤:
步骤202:获取目标文本。
本说明书实施例中可以将网页、书籍、报纸、刊物等记载的文本信息作为目标文本,也可以将信息提供方提供的文本信息作为目标文本,目标文本的来源这里不作限定。
实际应用中,可以采用网页信息抓取工具获取网页信息,通常获取的网页信息中除了包含文本信息外,可能还包含工具栏、图片、链接等内容,可以将网页信息中的文本信息提取出来,并对文本信息进行清洗,去除停用词等预处理,得到目标文本。
步骤204:对所述目标文本进行向量化处理,得到所述目标文本的文本特征。
本说明书实施例中可以利用编码工具将文字形式的目标文本转换为计算机模型可以识别的数字格式,即对目标文本进行向量化处理,得到以数字向量格式表示的目标文本的文本特征。
步骤206:提取所述目标文本的句法信息,确定所述目标文本的句法特征。
本说明书实施例中句法信息可以是根据目标文本的语句结构,得到的目标文本中各分词之间的依赖关系,具体的,可以包括主谓关系、动宾关系、定中关系等等语言表述中的词语关系;句法特征可以是句法信息的数值化表示,以便后续利用计算机模型的识别。
步骤208:将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征。
本说明书实施例中可以将目标文本的文本特征和句法特征进行特征融合卷积计算,得到融合特征,其中融合特征可以理解为将句法特征融合到目标文本的文本特征中,得到包含目标文本的整个句法关系的文本特征。融合特征可以从目标文本的整体层面反映目标文本中各分词的特征,进而可以更精确的获知文本整体的表达含义,有利于提高信息抽取的准确性。
步骤210:根据所述融合特征,确定所述目标文本中包含的实体以及预设关系。
其中,实体可以为目标文本中表示人名、机构名、地名、时间、日期、货币或百分比等内容的词语;预设关系可以是目标文本中实体之间存在的特定关系。
实际应用中,可以根据需求设定预设关系,例如,可以在给定关系集合的基础上,从目标文本中抽取符合要求的实体以及预设关系。
步骤212:按照所述预设关系对所述实体进行组合,得到组合结果。
步骤214:根据所述组合结果,确定所述目标文本的三元组信息。
本说明书实施例中可以将提取出的实体进行任意组合,进而判断得到的实体组合是否满足预设关系,进而确定目标文本的三元组信息。其中,三元组信息的格式可以根据需求预先设定,例如,可以包括:人物、身高、数字;影视作品、制片人、人物;国家、首都、城市等格式。
应当理解,本说明书一个或多个实施例所述的方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
本说明书实施例中将句法信息融合到目标文本的文本特征中,利用得到的融合特征获取文本中的实体以及预设关系,可以从目标文本的整体角度对文本进行分析,更精确的获知文本整体的表达含义,进而可以更准确的提取实体以及预设关系,并且,还利用了对获得的实体进行组合的方式来确定实体间对应的预设关系,可以提高抽取三元组信息的准确性。
并且,现有技术中大多是采用两个独立的模型完成信息抽取,通常利用模型一先对文本进行实体识别,抽取出各个实体,然后再利用模型二对各个实体进行分类,从而达到信息抽取的目的。然而,现有技术的方法中模型一若存在实体抽取的错误则会影响下一步模型二关系抽取的性能,现有技术中忽略了实体抽取和关系抽取这两个任务之间的内在联系和依赖关系。而本说明书实施例中的方法可利用一个模型同时完成实体与关系的抽取,对输入的目标文本可一并输出文本中包含的实体以及实体对应的关系,充分利用了实体抽取和关系抽取之间的内在联系和依赖关系,也可以提高抽取三元组信息的准确性。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
可选的,步骤210中根据所述融合特征,确定所述目标文本中包含的实体以及预设关系,具体可以包括:
根据所述融合特征,得到所述目标文本中包含的实体以及所述实体对应的属性;所述属性包括预定义的三元组数据中的主体属性与客体属性中至少一种;所述预定义的三元组数据包括主体属性、客体属性以及所述主体属性与所述客体属性之间的预设关系;
根据所述实体对应的属性,确定所述实体对应的所述预设关系。
实际应用中,为满足实际需求,可以预先设置需要抽取的三元组信息类型,构成预定义的三元组数据,其具体形式可以包括:主体属性-预设关系-客体属性。其中主体属性、客体属性也可以理解为主体类型、客体类型。例如,预定义的三元组数据中一种三元组信息格式为,影视作品-导演-人物,其中,影视作品代表一种主体属性或主体类型,人物代表一种客体属性或客体类型,导演代表一种预设关系。
假设目标文本为“A的导演是小王,B的导演是小刘”,其中A和B均为电影名称。本实施例中可以根据该目标文本的融合特征确定该目标文本中包括的实体有“小王”、“小刘”、“A”和“B”,其中“小王”和“小刘”属于人物属性,“A”和“B”属于影视作品属性,假设“影视作品-导演-人物”为预定义的三元组数据中一种三元组信息格式,并且目标文本中的“导演”字样也可以表示目标文本中存在的预设关系为导演关系,则可以确定该目标文本中需要抽取存在导演关系的实体,从而确定所述目标文本中包含的实体以及预设关系。
实际应用中,还可以利用判别式模型得到目标文本中包含的实体以及所述实体对应的属性。具体的,可以对所述融合特征进行条件随机场预测(CRF,Conditional RandomField),得到所述目标文本中包含的实体以及所述实体对应的属性。
现有技术中,在抽取文本三元组信息时,通常仅是按照语序,简单的利用就近原则确定三元组信息中具有预设关系的两实体,而忽略整个句子的构造等信息,对于较复杂的句子会出现三元组信息抽取有误的情况。例如,对于上述目标文本“A的导演是小王,B的导演是小刘”,按照目标文本的语序,实体“小王”与实体“B”的距离较近,则按照现有技术的方法会得到“B-导演-小王”的三元组信息,这显然是存在问题的,为至少解决现有技术中的上述问题,本说明书实施例中采用实体配对组合的方式确定最终的三元组信息。
具体的,本说明书实施例中所述实体至少包括第一类实体和第二类实体;所述第一类实体具有预定义的三元组数据中的主体属性,所述第二类实体具有所述预定义的三元组数据中的客体属性;所述预定义的三元组数据包括主体属性、客体属性以及所述主体属性与所述客体属性之间的预设关系;步骤212中按照所述预设关系对所述实体进行组合,得到组合结果,具体可以包括:
选取所述第一类实体中的任一实体与所述第二类实体中的任一实体进行两两组合,计算两个实体之间存在所述预设关系的概率值。
延续上述“A的导演是小王,B的导演是小刘”这一目标文本,其中“A”和“B”均属于影视作品类实体,“小王”和“小刘”均属于人物类实体,本说明书实施例中可以将“A”和“B”分别与“小王”和“小刘”进行两两组合,分别计算“A”与“小王”之间存在导演关系的概率值、“A”与“小刘”之间存在导演关系的概率值、“B”与“小王”之间存在导演关系的概率值、“B”与“小刘”之间存在导演关系的概率值。实际应用中可以采用分类器计算得到每组的概率值,例如,可利用softmax进行分类计算等。
实际应用中预设关系可以有多种,当目标文本中存在多种预设关系时,本说明书实施例中还可以根据预设条件集合抽取目标文本中的多组三元组信息。预设条件集合可以包括schema模式中设定的约束条件,也可以包括根据实际需求设定的预设条件,其中,预设条件集合中包括至少一条预设条件,每条预设条件可以定义一组三元组信息中两实体的属性或类型以及两实体之间的预设关系。
当目标文本中存在多种类型的实体时,上述选取第一类实体中的任一实体与第二类实体中的任一实体进行两两组合之前,还可以根据预设条件确定预设关系中对应的两实体的类型,然后从符合该实体类型的实体中选择实体进行组合,计算选中的两个实体之间存在预设关系的概率值。从而可以无需对不符合该预设关系的实体进行组合概率计算,可有效减少计算量,提高信息抽取效率。
本说明书实施例中可以根据上述计算得到的概率值的大小,确定三元组信息,具体的,步骤214中根据所述组合结果,确定所述目标文本的三元组信息,具体可以包括:
将所述概率值最大时对应的两个实体确定为目标实体;
所述目标实体与所述预设关系构成所述目标文本的三元组信息。
实际应用中,利用构建的计算机模型获取目标文本的三元组信息时,目标文本需要以计算机模型可以识别的数值形式存在,上述所述选取所述第一类实体中的任一实体与所述第二类实体中的任一实体进行两两组合,计算两个实体之间存在所述预设关系的概率值,具体可以包括:
选取所述第一类实体中的任一实体作为主体实体;
选取所述第二类实体中的任一实体作为客体实体;
根据所述融合特征,确定所述主体实体的第一向量化特征;
根据所述融合特征,确定所述主体实体的第二向量化特征;
将所述第一向量化特征和所述第二向量化特征输入到预训练的分类模型,计算所述主体实体与客体实体存在所述预设关系的概率值;所述预训练的分类模型是根据包含所述预设关系的数据集训练得到的。
预训练的分类模型可以是通过已知样本训练自学习神经网络模型得到的,使其可以计算两实体存在预设关系的概率。例如,可以利用训练后的softmax回归模型计算两实体存在预设关系的概率。
本说明书实施例中可以根据融合特征确定目标文本中的实体以及实体的属性,为减少计算过程中对目标文本的特征造成的损失,提高信息抽取的准确性,在步骤208得到所述目标文本的融合特征之后,还可以包括:
将所述融合特征和所述文本特征相加,得到综合特征。
进而可利用得到的综合特征对得到的实体进行组合分类,获取目标文本的三元组信息。
具体的,本说明书实施例中所述实体至少可以包括第一类实体和第二类实体;所述第一类实体具有预定义的三元组数据中的主体属性,所述第二类实体具有预定义的三元组数据中的客体属性;所述预定义的三元组数据包括所述主体属性、所述客体属性以及所述主体属性与所述客体属性之间的预设关系;选取所述第一类实体中的任一实体作为主体实体;所述按照所述预设关系对所述实体进行组合,得到组合结果,具体可以包括:
选取所述第二类实体中的任一实体作为客体实体;
根据所述综合特征,确定所述主体实体的第一向量化特征;
根据所述综合特征,确定所述主体实体的第二向量化特征;
将所述第一向量化特征和所述第二向量化特征输入到预训练的分类模型,计算所述主体实体与客体实体存在所述预设关系的概率值;所述预训练的分类模型是根据包含所述预设关系的数据集训练得到的。
实际应用中,实体通常以词组的形式存在,也可以包括单个字符构成的词组,本说明书实施例中还可以为每个实体标注标签,所述标签用于表示该实体的属性或者类型,该标签中还可以包括表示实体的词组中字符顺序的顺序标识。在进行组合计算时,可以根据标签选择相应的实体进行两两组合,进而计算该实体存在预设关系的概率值。
本说明书实施例中步骤202获取目标文本之后,还可以包括:对所述目标文本进行分词处理,得到分词集合。
实际应用中可以根据通用的NLP(natural language processing,自然语言处理)工具进行分词处理,还可以基于词典、统计等方式进行分词处理。分词集合中可以包含组成目标文本的全部字和/或词语。
为便于后续对实体的抽取,本说明书实施例中目标文本的文本特征可以以分词的形式表述,具体的,步骤204中对所述目标文本进行向量化处理,得到所述目标文本的文本特征,具体可以包括:
将所述目标文本输入编码层,得到所述目标文本的字符编码;
将所述字符编码输入向量层,得到所述目标文本的词特征矩阵;所述词特征矩阵对应的分词与所述分词集合中的分词一致;所述词特征矩阵为m行n列的矩阵,其中,m为所述分词的总数量,n为每个分词的特征维度。
实际应用中可以对目标文本进行字符级的编码,得到字符编码,例如,利用one-hot编码得到目标文本的字符编码。为更准确的表述目标文本中字符之间的关系,还可以基于字符编码得到由分词的向量特征构成的词特征矩阵,例如,可以采用BERT双向语言模型得到目标文本的词特征矩阵,其中,词特征矩阵可以为m行n列的矩阵,m为目标文本中分词的总数量,n为每个分词的特征维度。
需要说明的是,目标文本中分词的总数量以及每个分词的特征维度均可根据需求进行设定,本实施例中对具体数值不作限定。
为更准确的抽取文本信息,本说明书实施例中可以将目标文本中存在的句法信息融入到目标文本的特征中,进而可以从目标文本的整体角度分析各实体之间的关系,其中,步骤206中提取所述目标文本的句法信息,确定所述目标文本的句法特征,具体可以包括:
确定所述分词集合中各个分词的词性;
基于所述词性,确定所述各个分词之间的依存关系;所述依存关系表征两个分词在所述目标文本中的句法搭配关系;
基于所述依存关系,构建依存句法树;
基于所述依存句法树,得到邻接矩阵,所述邻接矩阵用于表示所述目标文本的句法特征。
本说明书实施例中句法信息可以理解根据目标文本的语句结构,得到的分词之间的句法依赖关系,例如,可以包括主谓关系、动宾关系、定中关系、介宾关系等等语言表述中的词语关系。
实际应用中,语句是由词语按照一定的顺序组成的,并且,词语在语句中具有特定的词性,如名词、动词、介词等。为清楚的表达语句的含义,句法的搭配关系也具有一定的规则,例如,名词+动词,可以构成主谓结构,因此,在实际应用中,文本中的分词之间存在一定依存关系。
本说明书实施例中可以利用训练后的句法分析模型确定分词集合中各个分词的词性,进而根据分词词性确定分词之间的依存关系,将目标文本中包含的句法搭配关系提取出来。需要说明的是上述句法分析模型可以是根据需求在自学习模型的基础上训练得到的,也可以采用具有句法分析功能的现有模型,例如HanLP中文语言处理工具也可以提取中文文本的依存句法关系。本说明书实施例中对采用的具体计算机模型不作具体限定,只要能到获取分词之间的依存关系即可。
本说明书实施例中依存句法树可以是树形状的图结构,用于表示句子内部词语之间的修饰或搭配关系,进而刻画句子的句法结构。进一步还可以将依存句法树转换为矩阵的形式,用于模型的计算。具体的,依存句法树可以包括:
根节点词;所述根节点词包括所述目标文本中的谓语;
至少一个层级的层级节点词;
对于任意一个层级,所述任意一个层级的一个节点词与所述任意一个层级的上一层级的一个层级节点词具有所述依存关系。
在实际应用中可以设置依存句法树的根节点词,也可以利用机器学习模型自动选择一个分词作为根节点词,根节点词可以是句子中最重要的词,通常可以将句子中的主要谓语作为根节点词。主要谓语可以理解为句子最顶层的一个或多个谓语,而不是在从句中的谓语。通常情况下谓语可以是动词,在一些特定情况也可以是形容词、名词、介词等,在实际应用中主谓结构的短语或短句也可以作为短语或短句所在的完整语句中的谓语。在实际应用中,可以利用计算机模型自学习能力确定句子的根节点词,还可以根据预设规则来选择根节点,本说明书实施例中对确定根节点词的具体方式不作限定,只要能够准确确定出目标文本的根节点词即可。
在确定根节点词后,可以将与根节点词有依存关系的分词作为根节点词的下一层级的分词节点,其中,可以将根节点词称为父节点,将下一层级的分词节点称为第一子节点,并将父节点与第一子节点连接;进一步判断与各第一子节点具有依存关系的第二子节点,其中,可以将第一子节点称为与此第二子节点的父节点,并将第一子节点与第二子节点连接;以此类推,最终可以得到目标文本对应的依存句法树,依存句法树的节点对应目标文本的分词。
本说明书实施例中基于所述依存句法树,得到邻接矩阵,具体可以包括:
根据预设关系表,将所述依存句法树转换为邻接矩阵;
所述邻接矩阵为m行m列的矩阵,其中,m为所述分词的总数量;所述分词按照所述目标文本的字符顺序排序,所述邻接矩阵中因子Ai,j表示第i个分词与第j个分词之间存在的所述依存关系,其中i≤m,j≤m。
通常情况下,Ai,j为0时,可以表示第i个分词与第j个分词之间不存在直接的依存关系,即第i个分词与第j个分词在整个目标文本语句中不存在直接的句法关系;Ai,j不为0时,可以表示第i个分词与第j个分词之间存在依存关系,并且不同的数值可以表示不同的依存关系,也可以理解为第i个分词与第j个分词之间存在特定的句法关系。
可以通过分析依存句法树中各节点之间的连线情况,确定各分词之间是否存在依存关系,还可以根据预设关系表将特定的依存关系表示成预设的数值形式,将依存句法树转换为邻接矩阵。其中,预设关系表中可以包含句法关系以及其对应的数值,对应的数值用于在邻接矩阵中表示特定的句法关系。在实际应用中预设关系表中的句法关系可以有多种,例如,可以包含常用的中文句法中的15种句法关系,例如主谓关系、动宾关系、间宾关系、定中关系、状中关系、动补关系、并列关系、介宾关系、附加关系等等,还可以包含标定符号的对应关系,并且还可以为核心词设置对应的数值。需要说明的是,本说明书实施例中对具体的预设关系表的内容不作具体限定,只要能够体现不同的句法关系即可。
本说明书实施例中步骤208中将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征,具体可以包括:
将所述目标文本的词特征矩阵和所述邻接矩阵输入神经网络模型进行卷积计算,得到所述神经网络模型的输出结果;所述神经网络模型可以包括图卷积神经网络模型、图注意力网络模型中的任意一种。
其中,图卷积神经网络(Graph Convolutional Network,GCN)模型,是一种使用图卷积进行深度学习编码的方法,可以同时结合特征信息与结构进行,更好地对原始信息进行特征表征。图注意力网络(Graph Attention Networks)模型,是在图卷积神经网络模型的基础上,考虑了更多节点与节点之间的互动信息。
为提高信息的安全性,本说明书实施例中还可以将三元组信息上传至区块链网络,具体的,步骤214中确定所述目标文本的三元组信息之后,还可以包括:
将所述三元组信息存储于区块链网络。
为了便于理解,对区块链相关知识进行简单介绍:
区块链网络(Block Chain Network),是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算方式。区块链网络是由多个节点组成的,每个节点向区块链网络广播信息或者区块时,所有节点都能接收到,并对接收到的区块进行验证。在对该区块验证通过的节点数在整个区块链网络总节点数中的占比大于预设阈值时,则确定为区块链网络对该区块验证通过,所有节点接收该区块并存储在本地的节点空间中。节点可以理解为是服务器、终端等具有存储功能的电子设备。其中,区块链网络主要分为公有链、联盟链和私有链。
区块链(Block chain),可以理解为是多个区块顺序存储构成的数据链,每个区块的区块头都包含有本区块的时间戳、前一个区块信息的哈希值和本区块信息的哈希值,由此实现区块与区块之间的相互验证,构成不可篡改的区块链。每个区块都可以理解为是一个数据块(存储数据的单元)。区块链作为一种去中心化的数据库,是一串使用密码学方法相互关联产生的数据块,每一个数据块中包含了一次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块与区块首尾相连形成的链,即为区块链。若需要修改块内数据,则需要修改此区块之后所有区块的内容,并将区块链网络中所有节点备份的数据进行修改。因此,区块链具有难以篡改、删除的特点,在数据已保存至区块链后,其作为一种保持内容完整性的方法具有可靠性。
本实施例中将三元组信息存储于区块链网络,利用区块链网络的难以篡改的特点,可保证三元组信息的安全性。
考虑到区块链网络还具有公开透明的特点,即写入的区块内容将备份复制到各节点中,各节点都拥有最新的完整数据库拷贝且所有的记录信息都是公开的,任何人通过公开的接口都可查询区块数据。
为避免三元组信息的泄露,本实施例中还可以将加密后的三元组信息存储于区块链网络,具体的,上述将所述三元组信息存储于区块链网络,具体可以包括:
采用智能合约对所述三元组信息加密,加密后的三元组信息存储于区块链网络。
实际应用中,还可以采用密钥加密的方式对三元组信息进行加密,上述将所述三元组信息存储于区块链网络,具体可以包括:
获取公私密钥对;
根据所述公私密钥对中的公钥,对所述三元组信息进行加密;
将加密后的三元组信息存储于区块链网络。
其中,公私密钥对可以利用密钥生成工具得到,利用得到的公钥对三元组信息加密,将加密后的三元组信息存储于区块链网络,虽然区块链网络各节点均可获取存储在区块链网络中的加密后的三元组信息,但只有拥有公私密钥对中的私钥的用户才可以对加密后的三元组信息进行解密,获取三元组信息,从而可以避免三元组信息的泄露。
本实施例中的公私密钥对可以是读取三元组信息的设备所使用的密钥对,其中采用公钥对三元组信息进行加密,该设备可以采用自身的私钥对加密后的三元组信息进行解密,得到原始的三元组信息。
本说明书实施例中的目标文本信息的抽取方法可以基于预训练的信息抽取模型完成,图3为本说明书实施例提供的一种信息抽取模型的结构示意图。如图3所示,该信息抽取模型可以包括编码层302、BERT向量层304、CRF预测层306、依存句法层308、分类层310。
具体的,将目标文本输入编码层302可得到目标文本的字符级编码向量表示,具体可以为矩阵形式,例如,可以按照目标文本的字符顺序得到a行b列的矩阵,a为目标文本中字符的个数,该字符可以包括标点、符号等特殊字符;b可以为每个字符的特征维度,具体数据可以根据需求进行设定。
基于编码层302的输出结果,BERT向量层304可以得到目标文本中各分词的向量化表示,其也可以表示为矩阵形式。例如,可以按照目标文本的字符顺序得到c行d列的矩阵,c为目标文本中分词的个数,该分词也可以包括标点、符号等特殊字符;d可以为每个分词的特征维度,具体数据可以根据需求进行设定,该分词的特征维度可以与上述字符的特征维度相同也可以不同。实际应用中,在BERT向量层304得到目标文本中各分词对应的特征的过程中,可以借助其他分词工具进行分词处理,也可以将BERT向量层304设定为具有分词功能的处理层。
依存句法层308可以利用依存句法分析提取目标文本中的句法信息,将BERT向量层304中得到的分词级别的文本特征与依存句法层308得到的句法特征进行卷积融合计算,得到融合特征。
将融合特征输入到CRF预测层306,通过条件随机场预测算法提取目标文本中的实体以及实体的属性,还可以提取出符合预设条件的预设关系。进而按照预设关系中实体属性提取主体属性对应的实体以及客体属性对应的实体,当同一主体属性和/或同一客体属性中包含多个实体时,任意选择主体属性中一个客体与对应的客体属性中的任一实体进行两两组合。其中,CRF预测层306还可以对实体的属性设置相应的属性标签,例如,假设目标文本中的一个字符标记有“B-MOV”的属性标签,可以表示该字符是一个属性为影视作品的实体的第一个字符;与该字符相邻的另一个字符标记有“I-MOV”的属性标签,可以表示该另一个字符是一个属性为影视作品的实体的最后一个字符;当目标实体中的某些字符没有被识别为实体时,还可以将该类字符标记为“O”,以表示该类字符为实体之外的其他类。又如,对于表示人物属性的实体,还可以用“B-PER”表示该字符是一个属性为人物的实体的第一个字符,用“I-PER”表示该字符是一个属性为人物的实体的最后一个字符。具体的属性标签的形式可以根据需求进行设定,本实施例对此不作具体限定。
将组合结果输入分类层310计算每个组合中两实体之间存在预设关系的概率值,将概率值最大时对应的两实体确定为存在该预设关系的实体,进而输出由这两个实体与该预设关系组成的目标文本的SPO三元组信息。
为减少BERT向量层304以及CRF预测层306在计算过程中对目标文本中包含的文本特征的影响,还可以借助残差计算思想,设置标签嵌入层312,如图3所示,标签嵌入层312用于将BERT向量层304输出的文本特征和CRF预测层306输入的融合特征进行相加得到目标文本的综合特征,进而基于综合特征得到用于分类计算的实体对应的实体特征,可提高信息抽取的准确性。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图4为本说明书实施例提供的对应于图2的一种文本信息的抽取装置的结构示意图。如图4所示,该装置可以包括:
文本获取模块402,用于获取目标文本;
第一特征提取模块404,用于对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
第二特征提取模块406,用于提取所述目标文本的句法信息,确定所述目标文本的句法特征;
特征融合模块408,用于将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
实体确定模块410,用于根据所述融合特征,确定所述目标文本中包含的实体以及预设关系;
组合处理模块412,用于按照所述预设关系对所述实体进行组合,得到组合结果;
信息确定模块414,用于根据所述组合结果,确定所述目标文本的三元组信息。
基于图4的装置,本说明书实施例还提供了该装置的一些具体实施方案,下面进行说明。
可选的,实体确定模块410,具体可以用于:
根据所述融合特征,得到所述目标文本中包含的实体以及所述实体对应的属性;所述属性包括预定义的三元组数据中的主体属性与客体属性中至少一种;所述预定义的三元组数据包括主体属性、客体属性以及所述主体属性与所述客体属性之间的预设关系;
根据所述实体对应的属性,确定所述实体对应的所述预设关系。
可选的,所述实体至少可以包括第一类实体和第二类实体;所述第一类实体具有预定义的三元组数据中的主体属性,所述第二类实体具有所述预定义的三元组数据中的客体属性;所述预定义的三元组数据包括主体属性、客体属性以及所述主体属性与所述客体属性之间的预设关系;
所述组合处理模块412,具体可以用于:
选取所述第一类实体中的任一实体与所述第二类实体中的任一实体进行两两组合,计算两个实体之间存在所述预设关系的概率值。
如图4所示,该装置还可以包括:
综合特征模块416,用于将所述融合特征和所述文本特征相加,得到综合特征。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图5为本说明书实施例提供的对应于图2的一种文本信息的抽取设备的结构示意图。如图5所示,设备500可以包括:
至少一个处理器510;以及,
与所述至少一个处理器通信连接的存储器530;其中,
所述存储器530存储有可被所述至少一个处理器510执行的指令520,所述指令被所述至少一个处理器510执行,以使所述至少一个处理器510能够:
获取目标文本;
对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
提取所述目标文本的句法信息,确定所述目标文本的句法特征;
将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
根据所述融合特征,确定所述目标文本中包含的实体以及预设关系;
按照所述预设关系对所述实体进行组合,得到组合结果;
根据所述组合结果,确定所述目标文本的三元组信息。
基于同样的思路,本说明书实施例还提供了上述方法对应的计算机可读介质。计算机可读介质上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述文本信息的抽取方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图5所示的设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (16)
1.一种文本信息的抽取方法,包括:
获取目标文本;
对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
提取所述目标文本的句法信息,确定所述目标文本的句法特征;
将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
根据所述融合特征,确定所述目标文本中包含的实体以及预设关系,具体包括:根据所述融合特征,得到所述目标文本中包含的实体以及所述实体对应的属性;所述属性包括预定义的三元组数据中的主体属性与客体属性中的至少一种;所述预定义的三元组数据包括主体属性、客体属性以及所述主体属性与所述客体属性之间的预设关系;根据所述实体对应的属性,确定所述实体对应的预设关系;
按照所述预设关系对所述实体进行组合,得到组合结果,具体包括:选取第一类实体中的任一实体与第二类实体中的任一实体进行两两组合,计算两个实体之间存在所述预设关系的概率值;所述实体至少包括所述第一类实体和所述第二类实体;所述第一类实体具有预定义的三元组数据中的主体属性,所述第二类实体具有所述预定义的三元组数据中的客体属性;
根据所述组合结果,确定所述目标文本的三元组信息。
2.根据权利要求1所述方法,所述根据所述组合结果,确定所述目标文本的三元组信息,具体包括:
将所述概率值最大时对应的两个实体确定为目标实体;
所述目标实体与所述预设关系构成所述目标文本的三元组信息。
3.根据权利要求1所述方法,所述选取所述第一类实体中的任一实体与所述第二类实体中的任一实体进行两两组合,计算两个实体之间存在所述预设关系的概率值,具体包括:
选取所述第一类实体中的任一实体作为主体实体;
选取所述第二类实体中的任一实体作为客体实体;
根据所述融合特征,确定所述主体实体的第一向量化特征;
根据所述融合特征,确定所述主体实体的第二向量化特征;
将所述第一向量化特征和所述第二向量化特征输入到预训练的分类模型,计算所述主体实体与客体实体存在所述预设关系的概率值;所述预训练的分类模型是根据包含所述预设关系的数据集训练得到的。
4.根据权利要求1所述方法,所述得到所述目标文本的融合特征之后,还包括:
将所述融合特征和所述文本特征相加,得到综合特征。
5.根据权利要求4所述方法,所述实体至少包括第一类实体和第二类实体;所述第一类实体具有预定义的三元组数据中的主体属性,所述第二类实体具有预定义的三元组数据中的客体属性;所述预定义的三元组数据包括所述主体属性、所述客体属性以及所述主体属性与所述客体属性之间的预设关系;
所述按照所述预设关系对所述实体进行组合,得到组合结果,具体包括:选取所述第一类实体中的任一实体作为主体实体;
选取所述第二类实体中的任一实体作为客体实体;
根据所述综合特征,确定所述主体实体的第一向量化特征;
根据所述综合特征,确定所述主体实体的第二向量化特征;
将所述第一向量化特征和所述第二向量化特征输入到预训练的分类模型,计算所述主体实体与客体实体存在所述预设关系的概率值;所述预训练的分类模型是根据包含所述预设关系的数据集训练得到的。
6.根据权利要求1所述方法,所述获取目标文本之后,还包括:
对所述目标文本进行分词处理,得到分词集合。
7.根据权利要求6所述方法,所述对所述目标文本进行向量化处理,得到所述目标文本的文本特征,具体包括:
将所述目标文本输入编码层,得到所述目标文本的字符编码;
将所述字符编码输入向量层,得到所述目标文本的词特征矩阵;所述词特征矩阵对应的分词与所述分词集合中的分词一致;所述词特征矩阵为m行n列的矩阵,其中,m为所述分词的总数量,n为每个分词的特征维度。
8.根据权利要求7所述方法,所述提取所述目标文本的句法信息,确定所述目标文本的句法特征,具体包括:
确定所述分词集合中各个分词的词性;
基于所述词性,确定所述各个分词之间的依存关系;所述依存关系表征两个分词在所述目标文本中的句法搭配关系;
基于所述依存关系,构建依存句法树;
基于所述依存句法树,得到邻接矩阵,所述邻接矩阵用于表示所述目标文本的句法特征。
9.根据权利要求8所述方法,所述基于所述依存句法树,得到邻接矩阵,具体包括:
根据预设关系表,将所述依存句法树转换为邻接矩阵;
所述邻接矩阵为m行m列的矩阵,其中,m为所述分词的总数量;所述分词按照所述目标文本的字符顺序排序,所述邻接矩阵中因子Ai,j表示第i个分词与第j个分词之间存在的依存关系,其中i≤m,j≤m。
10.根据权利要求9所述方法,所述将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征,具体包括:
将所述目标文本的词特征矩阵和所述邻接矩阵输入神经网络模型进行卷积计算,得到所述神经网络模型的输出结果;所述神经网络模型包括图卷积神经网络模型、图注意力网络模型中的任意一种。
11.根据权利要求1所述方法,所述确定所述目标文本的三元组信息之后,还包括:
将所述三元组信息存储于区块链网络。
12.根据权利要求11所述方法,所述将所述三元组信息存储于区块链网络,具体包括:
采用智能合约对所述三元组信息加密;
将加密后的三元组信息存储于区块链网络。
13.根据权利要求11所述方法,所述将所述三元组信息存储于区块链网络,具体包括:
获取公私密钥对;
根据所述公私密钥对中的公钥,对所述三元组信息进行加密;
将加密后的三元组信息存储于区块链网络。
14.一种文本信息的抽取装置,包括:
文本获取模块,用于获取目标文本;
第一特征提取模块,用于对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
第二特征提取模块,用于提取所述目标文本的句法信息,确定所述目标文本的句法特征;
特征融合模块,用于将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
实体确定模块,用于根据所述融合特征,确定所述目标文本中包含的实体以及预设关系,具体包括:根据所述融合特征,得到所述目标文本中包含的实体以及所述实体对应的属性;所述属性包括预定义的三元组数据中的主体属性与客体属性中的至少一种;所述预定义的三元组数据包括主体属性、客体属性以及所述主体属性与所述客体属性之间的预设关系;根据所述实体对应的属性,确定所述实体对应的预设关系;
组合处理模块,用于按照所述预设关系对所述实体进行组合,得到组合结果,具体包括:选取第一类实体中的任一实体与第二类实体中的任一实体进行两两组合,计算两个实体之间存在所述预设关系的概率值;所述实体至少包括所述第一类实体和所述第二类实体;所述第一类实体具有预定义的三元组数据中的主体属性,所述第二类实体具有所述预定义的三元组数据中的客体属性;
信息确定模块,用于根据所述组合结果,确定所述目标文本的三元组信息。
15.根据权利要求14所述装置,还包括:
综合特征模块,用于将所述融合特征和所述文本特征相加,得到综合特征。
16.一种文本信息的抽取设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取目标文本;
对所述目标文本进行向量化处理,得到所述目标文本的文本特征;
提取所述目标文本的句法信息,确定所述目标文本的句法特征;
将所述文本特征与所述句法特征进行卷积计算,得到所述目标文本的融合特征;
根据所述融合特征,确定所述目标文本中包含的实体以及预设关系,具体包括:根据所述融合特征,得到所述目标文本中包含的实体以及所述实体对应的属性;所述属性包括预定义的三元组数据中的主体属性与客体属性中的至少一种;所述预定义的三元组数据包括主体属性、客体属性以及所述主体属性与所述客体属性之间的预设关系;根据所述实体对应的属性,确定所述实体对应的预设关系;
按照所述预设关系对所述实体进行组合,得到组合结果,具体包括:选取第一类实体中的任一实体与第二类实体中的任一实体进行两两组合,计算两个实体之间存在所述预设关系的概率值;所述实体至少包括所述第一类实体和所述第二类实体;所述第一类实体具有预定义的三元组数据中的主体属性,所述第二类实体具有所述预定义的三元组数据中的客体属性;
根据所述组合结果,确定所述目标文本的三元组信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824393.3A CN111967242B (zh) | 2020-08-17 | 2020-08-17 | 一种文本信息的抽取方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824393.3A CN111967242B (zh) | 2020-08-17 | 2020-08-17 | 一种文本信息的抽取方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967242A CN111967242A (zh) | 2020-11-20 |
CN111967242B true CN111967242B (zh) | 2024-05-03 |
Family
ID=73388809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010824393.3A Active CN111967242B (zh) | 2020-08-17 | 2020-08-17 | 一种文本信息的抽取方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967242B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580691B (zh) * | 2020-11-25 | 2024-05-14 | 北京北大千方科技有限公司 | 一种元数据字段的术语匹配方法、匹配系统和存储介质 |
CN112507728A (zh) * | 2020-12-11 | 2021-03-16 | 平安科技(深圳)有限公司 | 智能对话方法、装置、电子设备及存储介质 |
CN112651234B (zh) * | 2020-12-18 | 2023-11-28 | 中国科学院信息工程研究所 | 一种半开放信息抽取的方法及装置 |
CN112784574B (zh) * | 2021-02-02 | 2023-09-15 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN113221566B (zh) * | 2021-05-08 | 2023-08-01 | 北京百度网讯科技有限公司 | 实体关系抽取方法、装置、电子设备和存储介质 |
CN113240443B (zh) * | 2021-05-28 | 2024-02-06 | 国网江苏省电力有限公司营销服务中心 | 面向电力客服问答的实体属性对抽取方法和系统 |
CN113609855A (zh) * | 2021-08-12 | 2021-11-05 | 上海金仕达软件科技有限公司 | 一种信息抽取方法及装置 |
CN114117055B (zh) * | 2022-01-27 | 2023-03-24 | 浙江太美医疗科技股份有限公司 | 一种文本实体关系的抽取方法、装置、设备和可读介质 |
CN114742034A (zh) * | 2022-03-23 | 2022-07-12 | 北京快确信息科技有限公司 | 基于句法依存的交易信息识别方法、装置、系统及介质 |
CN115238670B (zh) * | 2022-08-09 | 2023-07-04 | 平安科技(深圳)有限公司 | 信息文本抽取方法、装置、设备及存储介质 |
CN116304120A (zh) * | 2022-11-16 | 2023-06-23 | 中移(苏州)软件技术有限公司 | 多媒体检索方法、装置、计算设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
CN111198932A (zh) * | 2019-12-30 | 2020-05-26 | 北京明略软件系统有限公司 | 三元组获取方法、装置、电子设备及可读存储介质 |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2679988C1 (ru) * | 2017-12-11 | 2019-02-14 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информационных объектов с помощью комбинации классификаторов |
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
KR20190098928A (ko) * | 2019-08-05 | 2019-08-23 | 엘지전자 주식회사 | 음성 인식 방법 및 장치 |
-
2020
- 2020-08-17 CN CN202010824393.3A patent/CN111967242B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
CN111198932A (zh) * | 2019-12-30 | 2020-05-26 | 北京明略软件系统有限公司 | 三元组获取方法、装置、电子设备及可读存储介质 |
CN111274394A (zh) * | 2020-01-16 | 2020-06-12 | 重庆邮电大学 | 一种实体关系的抽取方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
The Method of Construction Knowledge Triples Under Joint Extraction of Entity Relations Based on Distant Supervision;Cheng jiamin等;IEEE;20191105;136-140 * |
一种基于Roberta的中文实体关系联合抽取模型;王华锋;王久阳;;北方工业大学学报;20200415(02);95-103 * |
基于句法语义特征的中文实体关系抽取;郭喜跃;何婷婷;胡小华;陈前军;;中文信息学报;20141115(06);187-193 * |
基于深度学习的实体和关系的联合抽取研究;艾鑫;;现代计算机;20200225(06);15-19 * |
融合对抗训练的端到端知识三元组联合抽取;黄培馨;赵翔;方阳;朱慧明;肖卫东;;计算机研究与发展;20191215(12);20-32 * |
Also Published As
Publication number | Publication date |
---|---|
CN111967242A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967242B (zh) | 一种文本信息的抽取方法、装置及设备 | |
Lu et al. | VGCN-BERT: augmenting BERT with graph embedding for text classification | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
Millstein | Natural language processing with python: natural language processing using NLTK | |
Tagarelli et al. | Unsupervised law article mining based on deep pre-trained language representation models with application to the Italian civil code | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
Nassiri et al. | Transformer models used for text-based question answering systems | |
Mutinda et al. | Lexicon‐pointed hybrid N‐gram Features Extraction Model (LeNFEM) for sentence level sentiment analysis | |
Logeswaran et al. | Sentence ordering using recurrent neural networks | |
CN111611393A (zh) | 一种文本分类方法、装置及设备 | |
CN114491018A (zh) | 敏感信息检测模型的构建方法、敏感信息检测方法及装置 | |
Jang et al. | Detecting incongruent news headlines with auxiliary textual information | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN113420153B (zh) | 一种基于话题库和事件库的专题制作方法、装置及设备 | |
CN113420119B (zh) | 基于知识卡片的智能问答方法、装置、设备及存储介质 | |
CN115795027A (zh) | 基于多文档生成演示文稿内容的方法、装置及设备 | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models | |
Sharma et al. | Lfwe: Linguistic feature based word embedding for hindi fake news detection | |
Amato et al. | A hybrid approach for document analysis in digital forensic domain | |
Momtazi et al. | Question Answering Over Text and Knowledge Base | |
Ramsay et al. | Machine Learning for Emotion Analysis in Python: Build AI-powered tools for analyzing emotion using natural language processing and machine learning | |
CN113919338A (zh) | 处理文本数据的方法及设备 | |
Kocoń et al. | Recognition and normalisation of temporal expressions using conditional random fields and cascade of partial rules | |
Rahman et al. | ChartSumm: A large scale benchmark for Chart to Text Summarization | |
CN115269851B (zh) | 文章分类方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40040774 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |