CN113282717B - 文本中实体关系的抽取方法、装置、电子设备及存储介质 - Google Patents
文本中实体关系的抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113282717B CN113282717B CN202110833660.8A CN202110833660A CN113282717B CN 113282717 B CN113282717 B CN 113282717B CN 202110833660 A CN202110833660 A CN 202110833660A CN 113282717 B CN113282717 B CN 113282717B
- Authority
- CN
- China
- Prior art keywords
- relation
- tuple
- judged
- text
- tuples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本中实体关系的抽取方法、装置、电子设备及存储介质,将待抽取文本输入至预先训练好的概念抽取模型中,得到概念序列;根据预设的元组生成规则,确定出与该概念序列对应的多个待判断元组;根据至少一个特征判断规则,生成各个待判断关系元组对应的关系特征向量后,合并成待抽取文本的关系特征矩阵;将关系特征矩阵输入至预先训练好的元组判断模型中,得到对各个待判断关系元组对应的元组判断结果值,进而确定出待抽取文本的目标实体关系。这样,减少了获取不同维度元组的步骤,同时基于关系特征矩阵的判断,为对各个待判断关系元组判断提供了更可靠的依据,有助于提高根据关系元组对文本中的实体关系抽取的效率以及准确率。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及文本中实体关系的抽取方法、装置、电子设备及存储介质。
背景技术
随着大数据技术的飞速发展,针对于数据处理的技术也被广泛地应用于各个领域中,在数据的处理过程中需要处理的数据大致可以分为两类,结构化数据以及非结构化数据,而为了更便捷地对数据进行分析处理,常需要将非结构化数据转化为结构化数据后,在对转化后的结构化数据进行处理,常用的非结构化数据转化为结构化数据的方式就是实体关系抽取。
现阶段,针对于文本的实体关系抽取,均是先对文本进行特定元组的抽取后,再进行实体关系的判别,但是从文本中抽取的元组维度均是特定的维度,而实体之间的关系往往是比较复杂的多维度关系,因此,在对实体关系的抽取判断过程,需要进行多步骤的处理,耗费了数据处理时间,影响了对实体关系抽取的效率。
发明内容
有鉴于此,本申请的目的在于提供文本中实体关系的抽取方法、装置、电子设备及存储介质,针对于处理后的概念序列,利用预设的元组生成规则生成不同维度的待判断关系元组,再直接根据多个待判断关系元组以及特征判断规则,确定出关系特征矩阵,基于关系特征矩阵,确定出待抽取文本对应的待判断关系元组,以此进行文本实体关系的抽取,减少了获取不同维度元组的步骤,同时基于关系特征矩阵的判断,为对各个待判断关系元组判断提供了更可靠的依据,有助于提高根据关系元组对文本中的实体关系抽取的效率以及准确率。
本申请实施例提供了一种文本中实体关系的抽取方法,所述抽取方法包括:
将待抽取文本输入至预先训练好的概念抽取模型中,得到与所述待抽取文本对应的概念序列;
基于预设的元组生成规则,确定出与所述概念序列对应的多个待判断关系元组;其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组;
基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,并基于确定出的多个关系特征向量,生成与所述待抽取文本对应的关系特征矩阵;
将所述关系特征矩阵输入至预先训练好的元组判断模型中,得到每个待判断关系元组对应的元组判断结果值,基于所述元组判断结果值满足预设判断条件的待判断关系元组,确定所述待抽取文本的目标实体关系,以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系。
进一步的,所述基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,包括:
根据待抽取文本所属的领域,获取预设的至少一个与领域对应的预设的特征判断规则;
针对于每一个待判断关系元组,分别基于预设的特征判断规则对该待判断关系元组进行判断,得到该待判断关系元组在每个特征判断规则下的属性特征;
针对于每一个待判断关系元组,根据该待判断关系元组在各个特征判断规则下的属性特征、预先获取的词语义向量、字语义向量、序列向量以及位置向量,生成该待判断关系元组对应的关系特征向量。
进一步的,当所述预设的特征判断规则包括遗漏判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组与所述待抽取文本对应的其他待判断元组之间的互相包含关系;
基于其他待判断元组与所述待判断关系元组存在交叉的实体在所述判断关系元组中出现的情况,确定所述待判断关系元组是否存在遗漏;
基于遗漏检测结果,得到判断关系元组的属性特征;其中,所述属性特征包括遗漏信息以及未遗漏信息。
进一步的,当所述预设的特征判断规则包括冗余判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于预设的实体图谱,确定所述待判断关系元组中每两个实体之间的边关系以及对应的边权重;
检测每两个实体之间的边权重是否大于阈值权重阈值,若两个实体之间的边权重大于预设权重阈值,确定所述待判断关系元组存在冗余;
基于所述待判断关系元组存在冗余的情况,得到判断关系元组的属性特征;其中,所述属性特征包括存在冗余以及不存在冗余。
进一步的,当所述预设的特征判断规则包括连贯判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组中包括的多个实体之间的语义是否连贯;
基于待判断关系元组中包括的多个实体的连贯判断结果,得到判断关系元组的属性特征;其中,所述属性特征包括语义连贯以及语义不连贯。
进一步的,通过以下步骤得到所述词语义向量以及所述字语义向量:
对所述待抽取文本进行分词处理,基于预先训练的领域词向量,得到分词处理后,每个词对应的词语义向量;
基于所述待抽取文本以及预先训练的领域字向量,得到所述待抽取文本中每个字对应的字语义向量。
本申请实施例还提供了一种文本中实体关系的抽取装置,所述抽取装置包括:
序列获取模块,用于将待抽取文本输入至预先训练好的概念抽取模型中,得到与所述待抽取文本对应的概念序列;
元组生成模块,用于基于预设的元组生成规则,确定出与所述概念序列对应的多个待判断关系元组;其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组;
矩阵生成模块,用于基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,并基于确定出的多个关系特征向量,生成与所述待抽取文本对应的关系特征矩阵;
元组确定模块,用于将所述关系特征矩阵输入至预先训练好的元组判断模型中,得到每个待判断关系元组对应的元组判断结果值,基于所述元组判断结果值满足预设判断条件的待判断关系元组,确定所述待抽取文本的目标实体关系,以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系。
进一步的,所述矩阵生成模块在用于基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量时,所述矩阵生成模块用于:
根据待抽取文本所属的领域,获取预设的至少一个与领域对应的预设的特征判断规则;
针对于每一个待判断关系元组,分别基于预设的特征判断规则对该待判断关系元组进行判断,得到该待判断关系元组在每个特征判断规则下的属性特征;
针对于每一个待判断关系元组,根据该待判断关系元组在各个特征判断规则下的属性特征、预先获取的词语义向量、字语义向量、序列向量以及位置向量,生成该待判断关系元组对应的关系特征向量。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的文本中实体关系的抽取方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的文本中实体关系的抽取方法的步骤。
本申请实施例提供的文本中实体关系的抽取方法、装置、电子设备及存储介质,将待抽取文本输入至预先训练好的概念抽取模型中,得到待抽取文本对应的概念序列;根据预先设置的元组生成规则,确定出与该概念序列对应的包括低维度以及高维度的多个待判断元组;根据至少一个领域内的特征判断规则,生成各个待判断关系元组对应的关系特征向量后,合并成待抽取文本的关系特征矩阵;将关系特征矩阵输入至预先训练好的元组判断模型中,得到对各个待判断关系元组对应的元组判断结果值,进而确定出待抽取文本的目标实体关系。这样,减少了获取不同维度元组的步骤,同时基于关系特征矩阵的判断,为对各个待判断关系元组判断提供了更可靠的依据,有助于提高根据关系元组对文本中的实体关系抽取的效率以及准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种文本中实体关系的抽取方法的流程图;
图2为本申请实施例所提供的另一种文本中实体关系的抽取方法的流程图;
图3为本申请实施例所提供的一种文本中实体关系的抽取装置的结构示意图之一;
图4为本申请实施例所提供的一种文本中实体关系的抽取装置的结构示意图之二;
图5为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于数据处理技术领域。在大数据时代,数据已成为至关重要的战略资源,而如何从数据中挖掘潜在的价值,如何用好数据,成为了数据处理的首要任务。而非结构化数据,作为近年来信息技术不断发展的产物,因为蕴涵很多有价值的信息,从而被重视。如何将非结构化数据通过技术手段准确高效地转化为结构化数据,也是数据处理领域中需要重视的技术问题。
实体关系抽取是数据结构化的重要手段,而在现阶段对实体抽取的处理过程中,都是在二元组或者三元组(低维元组)上做实体关系判别,低维元组的判别虽然可以降低模型判断的复杂性,但是当在类似医学领域场景下,需要考虑多元实体关系的时候,需要在计算多个低维元组之后,将低维元组合并生成更高维的元组,以适应实际业务的需要。计算流程会比较繁琐,同时高维的元组生成需要依赖低维元组,这种计算模式会导致计算性能的下降。同时,针对于本申请实施例中的医学领域,实体之间的关系往往要多于二元/三元,相互之间的关系往往也比其他领域的要更复杂,涉及到很多领域专有知识,现有以二元/三元组为基础的技术方案,无法准确高效抽取医学概念之间的关系。
基于此,本申请实施例提供了一种文本中实体关系的抽取方法,以提高根据关系元组对文本中的实体关系抽取的效率以及准确率。
请参阅图1,图1为本申请实施例所提供的一种文本中实体关系的抽取方法的流程图。如图1中所示,本申请实施例提供的文本中实体关系的抽取方法,包括:
S101、将待抽取文本输入至预先训练好的概念抽取模型中,得到与所述待抽取文本对应的概念序列。
该步骤中,将接收到的待抽取文本输入至预先训练好的概念抽取模型中,得到包含在待抽取文本中的概念序列。
这里,在本申请实施例中,将待抽取文本输入至预先训练好的概念抽取模型中,要得到的是待抽取文本中的医学概念及其标签。
其中,医学概念包括医学疾病名词、病症表现、病症发病期等,标签可以包括SYM:表现;CNJ:连接词;BDY:部位;POS:方位;STG:分期等。
例如,待抽取文本为:胃癌伴肝、腹膜后淋巴结转移 ctxnxm1 iv期,输入至概念抽取模型中,输出的概念序列为:胃癌(SYM)伴(CNJ)肝(BDY)、(CNJ)腹膜后(POS)淋巴结(BDY)转移(SYM) ctxnxm1(STG) iv期(STG) --->> [SYM, CNJ, BDY, CNJ, BDY, SYM, STG,STG]。
这里,可以通过以下步骤进行训练概念抽取模型:
(1)根据获取到的多个样本文本,确定出各个样本文本对应的样本序列;
(2)针对于每个样本文本,将该样本文本以及对应的样本序列输入至构建好的深度学习模型中,得到该样本文本对应的输出序列;
(3)针对于每个样本文本,检测该样本文本对应的输出序列与样本序列是否一致;
(4)若存在样本文本对应的输出序列与样本序列不一致,调整所述深度学习模型中的参数,直至每个样本文本对应的输出序列与样本序列均一致,确定所述深度学习模型训练完毕,并将训练完毕的所述深度学习模型确定为训练好的概念抽取模型。
S102、基于预设的元组生成规则,确定出与所述概念序列对应的多个待判断关系元组;其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组。
该步骤中,在步骤S101获取到待抽取文本对应的概念序列之后,按照预先设定的元组生成规则,确定出概念序列中可以召回的多个待判断关系元组。
这里,在从待抽取文本中确定出概念序列后,需要根据概念序列确定出可以组成的多个待判断关系元组,最终待抽取文本对应的实体关系,就是从多个待判断关系元组中确定出来的。
其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组。在本申请实施例中,不去限定待判断关系元组的维度,可以对不同维度(低维度或是高维度)的多个待判断关系元组进行元组判断以及筛选。
这里,预设的元组生成规则可以是根据历史元组数据,确定出的多个实体组合,随着历史元组数据的改变,预设的元组生成规则也可以随着进行更新。
其中,预设的元组生成规则可以包括:
[“0”, ”SYM”];
[“0,7”, “SYM, STG”];
[“0,8”, “SYM, STG”];
[“0,6”, “SYM,SYM”];
[“0,2,6”, “SYM,BDY,SYM”];
[“0,4,5,6”, “BDY,SYM”]。
对应于上述示例,确定出的待判断关系元组可以包括:
第1个元组(1元组):(“胃癌”,“SYM”);
第2个元组(2元组):(“胃癌,ctxnxm1”,“SYM, STG”) ;
第3个元组(2元组):(“胃癌,iv期”,“SYM, STG”) ;
第4个元组(2元组):(“胃癌,转移”,“SYM,SYM”)
第5个元组(3元组):(“胃癌,肝,转移”,“SYM,BDY,SYM”)
第6个元组(4元组):(“胃癌,腹膜后,淋巴结,转移”,“SYM,POS,BDY,SYM”)。
S103、基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,并基于确定出的多个关系特征向量,生成与所述待抽取文本对应的关系特征矩阵。
该步骤中,在确定出多个待判断关系元组后,针对于每个待判断元组,根据预设的特征判断规则,确定出每个待判断关系元组对应的关系特征向量,并根据确定出的多个关系特征向量,组合生成待抽取文本的特征关系特征矩阵。
这里,在确定出多个待判断关系元组后,可以针对于本申请实施例所属的医学领域的概念,设置这对于医学领域的至少一个预设的特征判断规则,对各个待判断元组进行特征判断,以得到更符合医学领域要求的特征向量。
其中,针对于每个待判断关系元组,在对于各个预设的特征判断规则对该待判断关系元组进行判断后,可以根据不同判断结果得到不同的数值,根据相应的数值在特征向量中表征在各个特征判断规则下该待判断关系元组对应的特征。
这里,在根据多个关系特征向量生成关系特征矩阵时,可以是按照各个待判断关系元组在预设的元组生成规则中的重要程度进行排序,一个关系特征向量占一行,在元组生成规则中越重要的待判断关系元组所在行数的数值越小。
在一种可能的实施方式中,请参阅图2,图2为本申请实施例所提供的另一种文本中实体关系的抽取方法的流程图。如图2中所示,步骤“基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量”,包括:
S201、根据待抽取文本所属的领域,获取预设的至少一个与领域对应的预设的特征判断规则。
该步骤中,根据待抽取文本所属的领域,获取对应的领域中需要的预设的至少一个与领域对应的预设的特征判断规则。
这里,针对于不同的领域,在对待抽取文本中的实体进行关系抽取时,所关注的特征侧重点是不同的,针对于本申请实施例中的医学领域,预设的特征判断规则可以包括:遗漏判断规则、冗余判断规则以及连贯判断规则等。
S202、针对于每一个待判断关系元组,分别基于预设的特征判断规则对该待判断关系元组进行判断,得到该待判断关系元组在每个特征判断规则下的属性特征。
该步骤中,针对于每一个待判断关系元组,分别根据预设的特征判断规则对该待判断关系元组中的各个实体元素按照对应的判别方式进行判断,得到该待判断关系元组在每个特征判断规则下的属性特征。
在本申请实施例中,特征判断规则不同,相应的得到待判断关系元组的属性特征的方式也不同,下面分别进行说明:
第一、当预设的特征判断规则包括遗漏判断规则时,通过以下步骤得到待判断关系元组的属性特征:
a1:基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组与所述待抽取文本对应的其他待判断元组之间的互相包含关系。
该步骤中,根据概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定出每个待判断关系元组于确定出的多个待判断关系元组中除去该待判断关系元组之外的其他待判断元组之间的互相包含关系。
a2:基于其他待判断元组与所述待判断关系元组存在交叉的实体在所述判断关系元组中出现的情况,确定所述待判断关系元组是否存在遗漏。
该步骤中,根据步骤a1中确定出的待判断关系元组与所述待抽取文本对应的其他待判断元组之间的互相包含关系,根据其他待判断元组与待判断关系元组存在交叉的实体在判断关系元组中出现的情况,确定待判断关系元组是否存在遗漏。
这里,默认概念序列中的每个位置,元组的标签命中均为1,计算其他和本元组有交叉的元组内的元素是否有没在本元组内出现,没有则在原文序列位置上打上标签0,依次计算每个元组的信息遗漏情况。
这里,可以根据待判断关系元组之间的包含关系,确定出各个待判断关系元组中是否存在遗漏信息,例如,A待判断关系元组为(A,B,C,D),B待判断关系元组为(A,B,C),A待判断关系元组是包括B待判断关系元组的,那么可以确定B待判断关系元组是存在元素实体遗漏的。
a3:基于遗漏检测结果,得到判断关系元组的属性特征;其中,所述属性特征包括遗漏信息以及未遗漏信息。
该步骤中,根据对待判断关系元组的遗漏检测结果,得到在遗漏判断规则下的判断关系元组的属性特征。
其中,在遗漏判断规则下,属性特征包括遗漏信息以及未遗漏信息,具体的,如果存在信息遗漏,则在遗漏信息的原文序列位置打上标签1,没有则为0。
第二、当所述预设的特征判断规则包括冗余判断规则时,通过以下步骤得到待判断关系元组的属性特征:
b1:基于预设的实体图谱,确定所述待判断关系元组中每两个实体之间的边关系以及对应的边权重。
该步骤中,会预先设置相应的表征各个实体以及每两个实体之间关系的实体图谱,根据预设的实体图谱,确定出待判断关系元组中每两个实体元素之间的边关系以及相应的边关系之间的边权重。
这里,通过大规模病历数据挖掘能互相修饰的医学概念,给存在关系的医学概念之间建立边的关系,并通过医学图谱、医学概念关系对在大数据中出现的频次等建立边的权重,从而得到预设的实体图谱。
这里,针对于待判断关系元组中的每个实体元素,需要计算该实体元素与其他各个实体元素之间的边关系以及边权重,针对于上述示例,A待判断关系元组为(A,B,C,D),对于实体元素A,需要计算实体元素A与实体元素B之间的边关系以及边权重、实体元素A与实体元素C之间的边关系以及边权重、实体元素A与实体元素D之间的边关系以及边权重。
b2:检测每两个实体之间的边权重是否大于阈值权重阈值,若两个实体之间的边权重大于预设权重阈值,确定所述待判断关系元组存在冗余。
该步骤中,根据确定出的每两个实体元素之间的边权重,并检测存在两个实体元素之间的边权重大于预设权重阈值,则确定待判断关系元组之间存在信息冗余的情况。
这里,预设权重阈值可以是根据实体图谱、历史实体关系数据以及医学领域的判断需求,共同进行设定。
b3:基于所述待判断关系元组存在冗余的情况,得到判断关系元组的属性特征;其中,所述属性特征包括存在冗余以及不存在冗余。
该步骤中,根据待判断关系元组存在冗余的情况,确定出该待判断关系元组在冗余判断规则下的属性特征。
其中,在冗余判断规则下属性特征包括存在冗余以及不存在冗余。
这里,结合待抽取原文生成的医学概念序列,依次计算每个医学概念关系元组是否存在信息冗余,如果存在信息冗余,则在冗余信息的原文序列位置打上标签1,没有则为0。
第三、当所述预设的特征判断规则包括连贯判断规则时,通过以下步骤得到待判断关系元组的属性特征:
c1:基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组中包括的多个实体之间的语义是否连贯。
该步骤中,根据确定出的待抽取文本对应的概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定待判断关系元组中包括的多个实体元素之间的语义是否连贯。
这里,在医学领域多个实体之间的语义是连贯的,是对每两个实体元素之间的标签是否连贯进行的判断。
c2:基于待判断关系元组中包括的多个实体的连贯判断结果,得到判断关系元组的属性特征;其中,所述属性特征包括语义连贯以及语义不连贯。
该步骤中,根据待判断关系元组中包括的各个实体元素的连贯判断结果,确定出该待判断关系元组在连贯判断规则下的属性特征。
其中,在连贯判断规则下,属性特征包括语义连贯以及语义不连贯。
这里,如果待判断关系元组存在信息不连贯,在原文不连贯的位置标1,否在为0。
S203、针对于每一个待判断关系元组,根据该待判断关系元组在各个特征判断规则下的属性特征、预先获取的词语义向量、字语义向量、序列向量以及位置向量,生成该待判断关系元组对应的关系特征向量。
该步骤中,针对于每一个待判断关系元组,根据该待判断关系元组在各个特征判断规则下的属性特征、预先获取的词语义向量、字语义向量、序列向量以及位置向量,生成相应的关系特征向量。
这里,在生成关系特征向量时,可以是根据预先设置的各个属性特征或者特征向量所在的位置,将各个属性特征以及各个特征向量按照相应的顺序进行拼接。
这里,位置向量是通过将待抽取文本进行分词处理后,确定出每个词的位置后,生成的位置向量。
这里,基于待抽取文本生成的概念序列,并对序列进行id编码,生成待抽取文本的序列向量。
在一种可能的实施方式中,通过以下步骤得到所述词语义向量以及所述字语义向量:
d1:对所述待抽取文本进行分词处理,基于预先训练的领域词向量,得到分词处理后,每个词对应的词语义向量。
该步骤中,对待抽取文本按照预设的分词规则进行分词处理,并根据预先训练好的领域词向量,确定出每个词对应的词语义向量。
这里,预设的分词规则可以是参考现有技术中的自然语义处理规则,具体地,在英语中,单词本身就是词的表达,一篇英语文章就是“单词”加分隔符(空格)来表示的,在汉语中,词以字为基本单位的,但是一篇文章的语义表达却依然是以词来划分的,主要的几种分词方法主要归纳为“规则分词”,“统计分词”,“混合分词(规则+统计)”。
示例性地,规则分词:基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,如果找到该词则进行切分,否则不予切分。按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法。
示例性地,正向最大匹配法:从左向右取待切分汉语句的m个字符作为匹配字段,m为机器词典中最长词条的字符数;查找机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来,若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切出所有词为止。
这里,领域词向量可以是根据大量的病例文书历史数据,确定出的针对于医学领域的医学专有名词等,确定医学领域的领域词向量。
d2:基于所述待抽取文本以及预先训练的领域字向量,得到所述待抽取文本中每个字对应的字语义向量。
该步骤中,基于待抽取文本以及预先训练的领域字向量,得到待抽取文本中每个字对应的字语义向量。
这里,类比于领域词向量,领域字向量可以是根据大量的病例文书历史数据,确定出的针对于医学领域的医学专有名词等,确定医学领域的领域字向量。
S104、将所述关系特征矩阵输入至预先训练好的元组判断模型中,得到每个待判断关系元组对应的元组判断结果值,基于所述元组判断结果值满足预设判断条件的待判断关系元组,确定所述待抽取文本的目标实体关系,以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系。
该步骤中,将步骤S103确定出的待抽取文本对应的预先训练好的元组判断模型中,得到待判断元组对应的元组判断结果值,将元组判断结果值妈祖预设判断条件的待判断关系元组,确定为待抽取文本目标实体关系。
其中,目标实体关系用以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系。
这里,基于预先训练好的元组判断模型,对每个待判断关系元组进行判别,给出需要保留的元组结果。
其中,预先训练好的元组判断模型为二分类模型,判别结果为1的为需要保留的待判断关系元组;判别结果为0的为需要丢弃的待判断关系元组。
这里,可以通过以下步骤进行训练元组判断模型:
(1)根据获取到的多个样本文本,确定出各个样本文本对应的样本元组;
(2)针对于每个样本文本,将该样本文本对应以及对应的样本元组输入至构建好的深度学习模型中,得到该样本文本对应的输出元组判断结果;
(3)针对于每个样本文本,检测该样本文本的样本元组与输出元组判断结果指示的输出元组是否一致;
(4)若存在样本元组与输出元组判断结果指示的输出元组不一致的样本文本,调整所述深度学习模型中的参数,直至每个样本文本的样本元组与输出元组判断结果指示的输出元组均一致,确定所述深度学习模型训练完毕,并将训练完毕的所述深度学习模型确定为训练好的元组判断模型。
本申请实施例提供的文本中实体关系的抽取方法,将待抽取文本输入至预先训练好的概念抽取模型中,得到待抽取文本对应的概念序列;根据预先设置的元组生成规则,确定出与该概念序列对应的包括低维度以及高维度的多个待判断元组;根据至少一个领域内的特征判断规则,生成各个待判断关系元组对应的关系特征向量后,合并成待抽取文本的关系特征矩阵;将关系特征矩阵输入至预先训练好的元组判断模型中,得到对各个待判断关系元组对应的元组判断结果值,进而确定出待抽取文本的目标实体关系。这样,减少了获取不同维度元组的步骤,同时基于关系特征矩阵的判断,为对各个待判断关系元组判断提供了更可靠的依据,有助于提高根据关系元组对文本中的实体关系抽取的效率以及准确率。
基于同一发明构思,本申请实施例中还提供了与文本中实体关系的抽取方法对应的文本中实体关系的抽取装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述抽取方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3、图4,图3为本申请实施例所提供的一种文本中实体关系的抽取装置的结构示意图之一,图4为本申请实施例所提供的一种文本中实体关系的抽取装置的结构示意图之二。如图3中所示,所述抽取装置300包括:
序列获取模块310,用于将待抽取文本输入至预先训练好的概念抽取模型中,得到与所述待抽取文本对应的概念序列;
元组生成模块320,用于基于预设的元组生成规则,确定出与所述概念序列对应的多个待判断关系元组;其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组;
矩阵生成模块330,用于基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,并基于确定出的多个关系特征向量,生成与所述待抽取文本对应的关系特征矩阵;
元组确定模块340,用于将所述关系特征矩阵输入至预先训练好的元组判断模型中,得到每个待判断关系元组对应的元组判断结果值,基于所述元组判断结果值满足预设判断条件的待判断关系元组,确定所述待抽取文本的目标实体关系,以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系。
进一步的,如图4所示,所述抽取装置300还包括向量确定模块350,所述向量确定模块350用于:
对所述待抽取文本进行分词处理,基于预先训练的领域词向量,得到分词处理后,每个词对应的词语义向量;
基于所述待抽取文本以及预先训练的领域字向量,得到所述待抽取文本中每个字对应的字语义向量。
进一步的,当所述预设的特征判断规则包括遗漏判断规则时,所述矩阵生成模块330用于通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组与所述待抽取文本对应的其他待判断元组之间的互相包含关系;
基于其他待判断元组与所述待判断关系元组存在交叉的实体在所述判断关系元组中出现的情况,确定所述待判断关系元组是否存在遗漏;
基于遗漏检测结果,得到判断关系元组的属性特征;其中,所述属性特征包括遗漏信息以及未遗漏信息。
进一步的,当所述预设的特征判断规则包括冗余判断规则时,所述矩阵生成模块330用于通过以下步骤得到待判断关系元组的属性特征:
基于预设的实体图谱,确定所述待判断关系元组中每两个实体之间的边关系以及对应的边权重;
检测每两个实体之间的边权重是否大于阈值权重阈值,若两个实体之间的边权重大于预设权重阈值,确定所述待判断关系元组存在冗余;
基于所述待判断关系元组存在冗余的情况,得到判断关系元组的属性特征;其中,所述属性特征包括存在冗余以及不存在冗余。
进一步的,当所述预设的特征判断规则包括连贯判断规则时,所述矩阵生成模块330用于通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组中包括的多个实体之间的语义是否连贯;
基于待判断关系元组中包括的多个实体的连贯判断结果,得到判断关系元组的属性特征;其中,所述属性特征包括语义连贯以及语义不连贯。
本申请实施例提供的文本中实体关系的抽取装置,将待抽取文本输入至预先训练好的概念抽取模型中,得到待抽取文本对应的概念序列;根据预先设置的元组生成规则,确定出与该概念序列对应的包括低维度以及高维度的多个待判断元组;根据至少一个领域内的特征判断规则,生成各个待判断关系元组对应的关系特征向量后,合并成待抽取文本的关系特征矩阵;将关系特征矩阵输入至预先训练好的元组判断模型中,得到对各个待判断关系元组对应的元组判断结果值,进而确定出待抽取文本的目标实体关系。这样,减少了获取不同维度元组的步骤,同时基于关系特征矩阵的判断,为对各个待判断关系元组判断提供了更可靠的依据,有助于提高根据关系元组对文本中的实体关系抽取的效率以及准确率。
请参阅图5,图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器510、存储器520和总线530。
所述存储器520存储有所述处理器510可执行的机器可读指令,当电子设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1以及图2所示方法实施例中的文本中实体关系的抽取方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的文本中实体关系的抽取方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种文本中实体关系的抽取方法,其特征在于,所述抽取方法包括:
将待抽取文本输入至预先训练好的概念抽取模型中,得到与所述待抽取文本对应的概念序列;
基于预设的元组生成规则,确定出与所述概念序列对应的多个待判断关系元组;其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组;
基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,并基于确定出的多个关系特征向量,生成与所述待抽取文本对应的关系特征矩阵;
将所述关系特征矩阵输入至预先训练好的元组判断模型中,得到每个待判断关系元组对应的元组判断结果值,基于所述元组判断结果值满足预设判断条件的待判断关系元组,确定所述待抽取文本的目标实体关系,以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系;
所述基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,包括:
根据待抽取文本所属的领域,获取预设的至少一个与领域对应的预设的特征判断规则;
针对于每一个待判断关系元组,分别基于预设的特征判断规则对该待判断关系元组进行判断,得到该待判断关系元组在每个特征判断规则下的属性特征;
针对于每一个待判断关系元组,根据该待判断关系元组在各个特征判断规则下的属性特征、预先获取的词语义向量、字语义向量、序列向量以及位置向量,生成该待判断关系元组对应的关系特征向量。
2.根据权利要求1所述的抽取方法,其特征在于,当所述预设的特征判断规则包括遗漏判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组与所述待抽取文本对应的其他待判断元组之间的互相包含关系;
基于其他待判断元组与所述待判断关系元组存在交叉的实体在所述判断关系元组中出现的情况,确定所述待判断关系元组是否存在遗漏;
基于遗漏检测结果,得到判断关系元组的属性特征;其中,所述属性特征包括遗漏信息以及未遗漏信息。
3.根据权利要求1所述的抽取方法,其特征在于,当所述预设的特征判断规则包括冗余判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于预设的实体图谱,确定所述待判断关系元组中每两个实体之间的边关系以及对应的边权重;
检测每两个实体之间的边权重是否大于阈值权重阈值,若两个实体之间的边权重大于预设权重阈值,确定所述待判断关系元组存在冗余;
基于所述待判断关系元组存在冗余的情况,得到判断关系元组的属性特征;其中,所述属性特征包括存在冗余以及不存在冗余。
4.根据权利要求1所述的抽取方法,其特征在于,当所述预设的特征判断规则包括连贯判断规则时,通过以下步骤得到待判断关系元组的属性特征:
基于所述概念序列中包括的多个序列实体以及各个序列实体之间的关联关系,确定所述待判断关系元组中包括的多个实体之间的语义是否连贯;
基于待判断关系元组中包括的多个实体的连贯判断结果,得到判断关系元组的属性特征;其中,所述属性特征包括语义连贯以及语义不连贯。
5.根据权利要求1所述的抽取方法,其特征在于,通过以下步骤得到所述词语义向量以及所述字语义向量:
对所述待抽取文本进行分词处理,基于预先训练的领域词向量,得到分词处理后,每个词对应的词语义向量;
基于所述待抽取文本以及预先训练的领域字向量,得到所述待抽取文本中每个字对应的字语义向量。
6.一种文本中实体关系的抽取装置,其特征在于,所述抽取装置包括:
序列获取模块,用于将待抽取文本输入至预先训练好的概念抽取模型中,得到与所述待抽取文本对应的概念序列;
元组生成模块,用于基于预设的元组生成规则,确定出与所述概念序列对应的多个待判断关系元组;其中,所述多个待判断关系元组包括维度大于三维的高维度元组以及维度小于或者等于三维的元组;
矩阵生成模块,用于基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量,并基于确定出的多个关系特征向量,生成与所述待抽取文本对应的关系特征矩阵;
元组确定模块,用于将所述关系特征矩阵输入至预先训练好的元组判断模型中,得到每个待判断关系元组对应的元组判断结果值,基于所述元组判断结果值满足预设判断条件的待判断关系元组,确定所述待抽取文本的目标实体关系,以表征所述待抽取文本中包括的多个实体,以及各个实体之间的关联关系;
所述矩阵生成模块在用于基于至少一个预设的特征判断规则,生成与各个待判断关系元组对应的关系特征向量时,所述矩阵生成模块用于:
根据待抽取文本所属的领域,获取预设的至少一个与领域对应的预设的特征判断规则;
针对于每一个待判断关系元组,分别基于预设的特征判断规则对该待判断关系元组进行判断,得到该待判断关系元组在每个特征判断规则下的属性特征;
针对于每一个待判断关系元组,根据该待判断关系元组在各个特征判断规则下的属性特征、预先获取的词语义向量、字语义向量、序列向量以及位置向量,生成该待判断关系元组对应的关系特征向量。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5中任一项所述的文本中实体关系的抽取方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5中任一项所述的文本中实体关系的抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110833660.8A CN113282717B (zh) | 2021-07-23 | 2021-07-23 | 文本中实体关系的抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110833660.8A CN113282717B (zh) | 2021-07-23 | 2021-07-23 | 文本中实体关系的抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113282717A CN113282717A (zh) | 2021-08-20 |
CN113282717B true CN113282717B (zh) | 2021-10-29 |
Family
ID=77287035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110833660.8A Active CN113282717B (zh) | 2021-07-23 | 2021-07-23 | 文本中实体关系的抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282717B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468344B (zh) * | 2021-09-01 | 2021-11-30 | 北京德风新征程科技有限公司 | 实体关系抽取方法、装置、电子设备和计算机可读介质 |
CN113505599B (zh) * | 2021-09-10 | 2021-12-07 | 北京惠每云科技有限公司 | 病历文书中实体概念的提取方法、装置及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN111177315A (zh) * | 2019-12-19 | 2020-05-19 | 北京明略软件系统有限公司 | 知识图谱的更新方法、装置及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013115985A2 (en) * | 2012-02-01 | 2013-08-08 | Siemens Corporation | Architecture for natural language querying in service analytics domains |
CN109472033B (zh) * | 2018-11-19 | 2022-12-06 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN111027324B (zh) * | 2019-12-05 | 2023-11-21 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
CN111383116A (zh) * | 2020-05-28 | 2020-07-07 | 支付宝(杭州)信息技术有限公司 | 用于确定交易关联性的方法及装置 |
CN112015900B (zh) * | 2020-09-07 | 2024-05-03 | 平安科技(深圳)有限公司 | 医学属性知识图谱构建方法、装置、设备及介质 |
CN112820411B (zh) * | 2021-01-27 | 2022-07-29 | 清华大学 | 医学关系提取方法及装置 |
-
2021
- 2021-07-23 CN CN202110833660.8A patent/CN113282717B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN111177315A (zh) * | 2019-12-19 | 2020-05-19 | 北京明略软件系统有限公司 | 知识图谱的更新方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113282717A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789281B2 (en) | Regularities and trends discovery in a flow of business documents | |
Pillay et al. | Authorship attribution of web forum posts | |
CN113282717B (zh) | 文本中实体关系的抽取方法、装置、电子设备及存储介质 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
CN111291195A (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
Ye et al. | Unknown Chinese word extraction based on variety of overlapping strings | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
US11295175B1 (en) | Automatic document separation | |
CN111506726B (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN111581358A (zh) | 信息抽取方法、装置及电子设备 | |
Rafae et al. | An unsupervised method for discovering lexical variations in Roman Urdu informal text | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
Jayady et al. | Theme Identification using Machine Learning Techniques | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
Kadhim et al. | Feature extraction for co-occurrence-based cosine similarity score of text documents | |
CN110472031A (zh) | 一种正则表达式获得方法、装置、电子设备及存储介质 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
Yülüce et al. | Author identification with machine learning algorithms | |
Yadlapalli et al. | Advanced Twitter sentiment analysis using supervised techniques and minimalistic features | |
CN110874398B (zh) | 违禁词处理方法、装置、电子设备及存储介质 | |
Martín-del-Campo-Rodríguez et al. | Unsupervised authorship attribution using feature selection and weighted cosine similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |