CN114357176B - 实体知识自动抽取方法和计算机装置、计算机可读介质 - Google Patents
实体知识自动抽取方法和计算机装置、计算机可读介质 Download PDFInfo
- Publication number
- CN114357176B CN114357176B CN202111419529.3A CN202111419529A CN114357176B CN 114357176 B CN114357176 B CN 114357176B CN 202111419529 A CN202111419529 A CN 202111419529A CN 114357176 B CN114357176 B CN 114357176B
- Authority
- CN
- China
- Prior art keywords
- layer
- entity
- biaozheng
- layers
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种实体知识自动抽取方法和计算机装置、计算机可读介质。所述实体知识自动抽取方法包括:将输入文本H0输入至由N层组成的BERT模型的前K层进行处理,以在第K层输出上下文表征向量HK;将HK因第一任务首次输入到所述BERT模型的剩余N‑K层进行处理以在第N层输出上下文表征向量此时剩余N‑K层的每层基于第一掩码矩阵对输入进行处理,基于进行第一层实体识别得到第一层实体;将HK因第二任务再次输入到所述BERT模型的剩余N‑K层进行处理以在第N层输出上下文表征向量此时剩余N‑K层的每层基于第二掩码矩阵对输入进行处理,基于进行第二层实体识别得到第二层实体。这样,可以提高BERT模型对实体知识的特征抽取能力。
Description
技术领域
本发明涉及文本处理领域,尤其涉及一种实体知识自动抽取方法和计算机装置、计算机可读介质。
背景技术
作为自然语言处理中的一个重要任务,信息抽取是从原始非结构化的自然语言文本中提取有意义的实体、属性、关系、事件等事实类结构化信息的文本处理技术。在公文写作中,其实体知识有着重要的作用,可以辅助公文写作,如内容审核。目前的实体知识自动抽取方法仍有准确率低,难以优化等缺点。因此,有必要提出一种改进的实体知识自动抽取方法。
发明内容
本发明的目的在于提供一种实体知识自动抽取方法和计算机装置、计算机可读介质,其可以提高BERT模型对实体知识的特征抽取能力。
根据本发明的另一个方面,本发明提供一种实体知识自动抽取方法,其包括:将输入文本H0输入至由N层组成的BERT模型的前K层进行处理,以在第K层输出上下文表征向量HK;将第K层输出的上下文表征向量HK因第一任务首次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第一掩码矩阵对输入进行处理,基于第N层输出的上下文表征向量/>进行第一层实体识别得到输入文本H0中的第一层实体;和,将第K层输出的上下文表征向量HK因第二任务再次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量/>此时剩余N-K层的每层基于第二掩码矩阵对输入进行处理,基于第N层输出的上下文表征向量/>进行第二层实体识别得到输入文本H0中的第二层实体,其中第二掩码矩阵的元素在属于第一层实体时为1,其余为0。
进一步的,第一掩码矩阵的元素在句子长度n内为1,超出句子长度为0,所述BERT模型的N层是依次串联的,N大于K,K大于等于2,N和K为正整数,前K层的每层基于全局掩码矩阵对输入进行处理,全局掩码矩阵的元素在句子长度内为1,超出句子长度为0。
根据本发明的另一个方面,本发明提供一种计算装置,其包括处理器和存储器,所述存储器中存储有程序指令,该程序指令由处理器执行以实现上述实体知识自动抽取方法。
根据本发明的另一个方面,本发明提供一种计算机可读介质,其内存储有程序指令,该程序指令被执行以实现上述实体知识自动抽取方法。
与现有技术相比,本发明可以进行两层的实体识别,从而可以提高模型对实体知识的特征抽取能力。
附图说明
图1为本发明的实体知识自动抽取方法的流程示意图;
图2为本发明的实体知识自动抽取方法的原理示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。
这里以公文中的实体知识的提取为例进行介绍。首先通过基于统计的方法和基于规则的方法进行公文文本的领域词挖掘,总结和定义了如下的实体类别:
根据对数据集的分析,在句子表述中,本文定义的实体类别有着互相关联作用,如句子“中共十九届五中全会在北京举行,**发表重要讲话。”可以抽取的实体有“十九届五中全会”、“北京”,其中,实体“十九届五中全会”的类别为“事件活动”,实体“北京”的类别为“区域场所”。从知识层面来说,这里的事件活动与区域场所、人物是极具关联的,区域场所和人物对事件活动的识别有着辅助作用。因此,可以把实体类别划分为两层,第一层实体为“人物”、“区域场所”、“时间立法”、“组织机构”、“法律法规”、“职务”,第二层实体为“事件活动”、“思想理论”。
本发明提供一种改进的实体知识自动抽取方法,其可以进行两层的实体识别,从而可以提高BERT(Bidirectional Encoder Representation from Transformers)模型对实体知识的特征抽取能力。
图1为本发明的实体知识自动抽取方法100的流程示意图。图2为本发明的实体知识自动抽取方法的原理示意图。
结合图1-2所示,所述实体知识自动抽取方法100包括如下步骤。
步骤110,将输入文本H0输入至由N层组成的BERT模型的前K层进行处理,以在第K层输出上下文表征向量HK。
如图2所示的,所述BERT模型210也可以被称为BERT预训练语言模型。所述BERT模型的N层是依次串联的,N大于K,K大于等于2,N和K为正整数。所述输入文本可以是普通的一段自然语言文本。前K层的每层基于全局掩码矩阵MASKall对输入进行处理,全局掩码矩阵的MASKall元素在句子长度内为1,超出句子长度为0。
在一个实施例中,在前K层中,注意力用来捕获上下文信息,根据第m-1层输出的上下文表征向量Hm-1计算第m层输出的上下文表征向量Hm,
H′m=LN(Hm-1+MultiHeadh(Hm-1,MASKall))
Hm=LN(H′m+FFN(H′m))
其中MASKall为全局掩码矩阵,i,j为全局掩码矩阵中元素的位置,n为句子长度,m大于等于1小于等于K。
步骤120,将第K层输出的上下文表征向量HK因第一任务首次输入到所述BERT模型210的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第一掩码矩阵MASKN1对输入进行处理,基于第N层输出的上下文表征向量/>进行第一层实体识别220得到输入文本H0中的第一层实体。第一掩码矩阵MASKN1的元素在句子长度n内为1,超出句子长度为0。
步骤130,将第K层输出的上下文表征向量HK因第二任务再次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第二掩码矩阵MASKN2对输入进行处理,基于第N层输出的上下文表征向量/>进行第二层实体识别230得到输入文本H0中的第二层实体,其中第二掩码矩阵MASKN2的元素在属于第一层实体时为1,其余为0。
可见,上下文表征向量HK作为联合模型的共享特征,输入到剩余N-K层,接下来,在多头自注意力层设置不同的掩码矩阵MASK,获取第一层实体识别和第二层实体识别两个下游任务不同的上下文表征向量。
具体的,在剩余N-K层中,根据给定第m-1层输出的上下文表征向量计算第m层输出的上下文表征向量/>
其中task为第一任务或第二任务,第一任务为第一层实体识别,被记为N1,第二任务为第二层实体识别,被记为N2,在剩余N-K层中为第一任务和第二任务分别进行运算,MASKN1为第一掩码矩阵,MASKN2为第二掩码矩阵,Pentities为输入文本中已被识别出的第一层实体位置,
其中多头自注意力公式MultiHeadh为:
MultiHeadh(X,MASK)=[head1;……;headh]WM
公式根据不同的任务设置了不同的MASK。在前K层中,上下文表征向量HK用来作为联合学习的共享特征,其句子中的每个字都对特征表达有效,因此,该矩阵MASKall用来计算注意力时不需要掩盖掉任何信息。在剩余N-K层中,需要为第一层实体识别和第二层识别两个不同的下游任务设置不同的矩阵MASKtask,此矩阵用来过滤一些下游任务中不需要的信息,以此增强BERT模型中结构化信息对两个下游任务的特征表达能力。具体来说,对于第一层实体识别子模型,本发明用“BIO”标记法对实体序列化标注标签,为了提高准确率,正确的注意力权重应该通过参数优化,而不应该限制每个字(token)的注意力范围。因此,句子中每个字都可以和任何其他字计算注意力,矩阵MASKN1只需要对超出句子长度的字掩盖信息,其余位置置“1”。对于第二层实体识别子模型,第一层实体标签信息可以帮助第二层实体识别,因此,矩阵MASKN2用来把注意力限制在所有第一层实体位置上,其他位置用“0”过滤。公式similar(i,j)是计算第i个字和第j个字的相似度,如果矩阵MASK中的值MASKi,j=0,则第i个字不需要考虑第j个字。相反,如果矩阵MASK中的值MASKi,j=1,则第i个字需要考虑第j个字。
根据不同的任务,所述BERT模型的第N层输出的上下文表征向量为:
这种分层微调结构可以提高BERT预训练语言模型对知识的特征抽取能力,得到不同下游任务的上下文表征向量。由于利用了结构化特征,微调的BERT预训练模型更易优化。并且,微调结构不需要对原始BERT模型进行较大调整,因此可以直接利用预训练语言模型中包含的语言学知识。
在各层的实体识别中,由于实体存在边界问题,本发明使用标准的BIO(begin,inside,outside)标记法对句子中的每个字标注命名实体标签,标签B代表实体中开始字的位置,标签I代表实体中非首字的位置,标签O代表句子中不是实体字的位置。
在一个实施例中,CRF(Conditional Random Fields,条件随机场)层首先将所述BERT模型输出的上下文表征向量HN通过线性变换计算发射概率Hner,然后根据转移概率对标签序列进行打分排序,最后利用softmax函数得到标签的概率分布,进而进行第一层实体识别和第二层实体识别。
具体的计算公式如下:
HN为BERT模型输出的上下文表征向量;Hner为CRF层的发射概率矩阵,其大小为n×k,n为句子长度,k为实体类型标签个数;Score(X,y)为标签序列的得分;A为转移概率矩阵,其代表了标签yi到标签yi+1的转移概率;YX为所有可能的标签序列。
在投入实际使用前,所述BERT模型和CRF层需要利用训练样本进行事先的训练。具体的,先利用BIO标记法对训练样本进行标记,之后用标记好的训练样本对所述BERT模型和CRF层进行训练。每个训练样本都可以是一段标记号的文本。
在训练阶段,目标是最小化损失函数Lner,公式为:
在实体识别阶段,最大化得分函数预测标签序列,公式为:
在训练阶段,优化交叉熵损失函数,第一层实体识别和第二层实体识别是一个联合学习方法,公式为:
L=αLN1+(1-α)LN2。
根据本发明的另一个方面,本发明提供一种计算机可读介质,其内存储有程序指令,该程序指令由处理器执行以实现上述的实体知识自动抽取方法100。
根据本发明的另一个方面,本发明提供一种计算装置,其包括处理器和存储器,所述存储器中存储有程序指令,该程序指令由处理器执行以实现上述的实体知识自动抽取方法100。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。
在本文中,所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的,只是为了表达技术方案的清楚及方便。应当理解,所述方位词的使用不应限制本申请请求保护的范围。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种实体知识自动抽取方法,其特征在于,其包括:
将输入文本H0输入至由N层组成的BERT模型的前K层进行处理,以在第K层输出上下文表征向量HK;
将第K层输出的上下文表征向量HK因第一任务首次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第一掩码矩阵对输入进行处理,基于第N层输出的上下文表征向量/>进行第一层实体识别得到输入文本H0中的第一层实体;和
将第K层输出的上下文表征向量HK因第二任务再次输入到所述BERT模型的剩余N-K层进行处理以在第N层输出上下文表征向量此时剩余N-K层的每层基于第二掩码矩阵对输入进行处理,基于第N层输出的上下文表征向量/>进行第二层实体识别得到输入文本H0中的第二层实体,其中第二掩码矩阵的元素在属于第一层实体位置时为1,其余为0,
第一掩码矩阵的元素在句子长度n内为1,超出句子长度为0,
所述BERT模型的N层是依次串联的,
N大于K,K大于等于2,N和K为正整数,
前K层的每层基于全局掩码矩阵对输入进行处理,全局掩码矩阵的元素在句子长度内为1,超出句子长度为0,
在前K层中,根据第m-1层输出的上下文表征向量Hm-1计算第m层输出的上下文表征向量Hm,
H′m=LN(Hm-1+MultiHeadh(Hm-1,MASKall))
Hm=LN(H′m+FFN(H′m))
其中MASKall为全局掩码矩阵,i,j为全局掩码矩阵中元素的位置,n为句子长度,
在剩余N-K层中,根据给定第m-1层输出的上下文表征向量计算第m层输出的上下文表征向量/>
其中task为第一任务或第二任务,第一任务被记为N1,第二任务被记为N2,在剩余N-K层中为第一任务和第二任务分别进行运算,MASKN1为第一掩码矩阵,MASKN2为第二掩码矩阵,Pentities为输入文本中已被识别出的第一层实体位置,
其中多头自注意力公式MultiHeadh为:
MultiHeadh(X,MASK)=[head1;……;headh]WM
根据不同的任务,所述BERT模型的第N层输出的上下文表征向量为:
CRF层首先将所述BERT模型输出的上下文表征向量HN通过线性变换计算发射概率Hner,然后根据转移概率对标签序列进行打分排序,最后利用softmax函数得到标签的概率分布,进而进行第一层实体识别和第二层实体识别,
具体的计算公式如下:
HN为BERT模型输出的上下文表征向量;Hner为CRF层的发射概率矩阵,其大小为n×k,n为句子长度,k为实体类型标签个数;Score(X,y)为标签序列的得分;A为转移概率矩阵,其代表了标签yi到标签yi+1的转移概率;YX为所有可能的标签序列,
使用标准的BIO标记法对输入文本的句子中的每个字标注命名实体标签,标签B代表实体中开始字的位置,标签I代表实体中非首字的位置,标签O代表句子中不是实体字的位置。
2.如权利要求1所述的实体知识自动抽取方法,其特征在于,
先利用BIO标记法对训练样本进行标记,之后用标记好的训练样本进行训练,
在训练阶段,目标是最小化损失函数Lner,公式为:
在实体识别阶段,最大化得分函数预测标签序列,公式为:
3.如权利要求2所述的实体知识自动抽取方法,其特征在于,
在训练阶段,优化交叉熵损失函数,第一层实体识别和第二层实体识别是一个联合学习方法,公式为:
L=αLN1+(1-α)LN2。
4.一种计算装置,其包括处理器和存储器,所述存储器中存储有程序指令,该程序指令由处理器执行以实现如权利要求1-3任一所述的实体知识自动抽取方法。
5.一种计算机可读介质,其内存储有程序指令,该程序指令被执行以实现如权利要求1-3任一所述的实体知识自动抽取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419529.3A CN114357176B (zh) | 2021-11-26 | 2021-11-26 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
PCT/CN2022/097154 WO2023092985A1 (zh) | 2021-11-26 | 2022-06-06 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419529.3A CN114357176B (zh) | 2021-11-26 | 2021-11-26 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114357176A CN114357176A (zh) | 2022-04-15 |
CN114357176B true CN114357176B (zh) | 2023-11-21 |
Family
ID=81096296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111419529.3A Active CN114357176B (zh) | 2021-11-26 | 2021-11-26 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114357176B (zh) |
WO (1) | WO2023092985A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357176B (zh) * | 2021-11-26 | 2023-11-21 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
CN117371534B (zh) * | 2023-12-07 | 2024-02-27 | 同方赛威讯信息技术有限公司 | 一种基于bert的知识图谱构建方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570920A (zh) * | 2019-08-20 | 2019-12-13 | 华东理工大学 | 一种基于集中注意力模型的实体、关系联合学习方法 |
CN110781312A (zh) * | 2019-09-19 | 2020-02-11 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN111444717A (zh) * | 2018-12-28 | 2020-07-24 | 天津幸福生命科技有限公司 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
JP2020140676A (ja) * | 2019-03-01 | 2020-09-03 | 富士通株式会社 | 学習方法、抽出方法、学習プログラムおよび情報処理装置 |
CN113220844A (zh) * | 2021-05-25 | 2021-08-06 | 广西师范大学 | 基于实体特征的远程监督关系抽取方法 |
CN113672770A (zh) * | 2020-05-15 | 2021-11-19 | 永中软件股份有限公司 | 一种基于xml文件的数据封装方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
US20200250139A1 (en) * | 2018-12-31 | 2020-08-06 | Dathena Science Pte Ltd | Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction |
US11568143B2 (en) * | 2019-11-15 | 2023-01-31 | Intuit Inc. | Pre-trained contextual embedding models for named entity recognition and confidence prediction |
CN113221571B (zh) * | 2021-05-31 | 2022-07-01 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
CN113468888A (zh) * | 2021-06-25 | 2021-10-01 | 浙江华巽科技有限公司 | 基于神经网络的实体关系联合抽取方法与装置 |
CN114357176B (zh) * | 2021-11-26 | 2023-11-21 | 永中软件股份有限公司 | 实体知识自动抽取方法和计算机装置、计算机可读介质 |
-
2021
- 2021-11-26 CN CN202111419529.3A patent/CN114357176B/zh active Active
-
2022
- 2022-06-06 WO PCT/CN2022/097154 patent/WO2023092985A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444717A (zh) * | 2018-12-28 | 2020-07-24 | 天津幸福生命科技有限公司 | 医学实体信息的抽取方法、装置、存储介质及电子设备 |
JP2020140676A (ja) * | 2019-03-01 | 2020-09-03 | 富士通株式会社 | 学習方法、抽出方法、学習プログラムおよび情報処理装置 |
CN110570920A (zh) * | 2019-08-20 | 2019-12-13 | 华东理工大学 | 一种基于集中注意力模型的实体、关系联合学习方法 |
CN110781312A (zh) * | 2019-09-19 | 2020-02-11 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN113672770A (zh) * | 2020-05-15 | 2021-11-19 | 永中软件股份有限公司 | 一种基于xml文件的数据封装方法 |
CN113220844A (zh) * | 2021-05-25 | 2021-08-06 | 广西师范大学 | 基于实体特征的远程监督关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
A New Entity Extraction Method Based on Machine Reading Comprehension;Xiaobo Jiang等;《https://arxiv.org/abs/2108.06444》;第1-12页 * |
中文嵌套命名实体识别及其关系抽取;李雁群;《中国优秀硕士学位论文全文数据库信息科技辑》(第1期);第I138-4988页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2023092985A1 (zh) | 2023-06-01 |
CN114357176A (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN114357176B (zh) | 实体知识自动抽取方法和计算机装置、计算机可读介质 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN108874774B (zh) | 一种基于意图理解的服务调用方法和系统 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN107844473B (zh) | 基于语境相似度计算的词义消歧方法 | |
DE102018007165A1 (de) | Vorhersage von stilbrüchen innerhalb eines textinhalts | |
CN110532563A (zh) | 文本中关键段落的检测方法及装置 | |
CN111651986B (zh) | 事件关键词提取方法、装置、设备及介质 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN110232112A (zh) | 文章中关键词提取方法及装置 | |
CN113177412A (zh) | 基于bert的命名实体识别方法、系统、电子设备及存储介质 | |
Bam et al. | Named entity recognition for nepali text using support vector machines | |
CN112380866A (zh) | 一种文本话题标签生成方法、终端设备及存储介质 | |
CN111339775A (zh) | 命名实体识别方法、装置、终端设备及存储介质 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN111984845A (zh) | 网站错别字识别方法和系统 | |
CN112257442B (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
Sun et al. | Detecting new words from Chinese text using latent semi-CRF models | |
CN115809658A (zh) | 平行语料的生成方法及装置和无监督同义转写方法及装置 | |
CN115496630A (zh) | 一种基于自然语言算法的专利撰写质量核检方法以及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |