CN113919332A - 实体识别模型建立方法、装置、电子设备及存储介质 - Google Patents

实体识别模型建立方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113919332A
CN113919332A CN202111200066.1A CN202111200066A CN113919332A CN 113919332 A CN113919332 A CN 113919332A CN 202111200066 A CN202111200066 A CN 202111200066A CN 113919332 A CN113919332 A CN 113919332A
Authority
CN
China
Prior art keywords
entity
model
paragraph
vector
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111200066.1A
Other languages
English (en)
Inventor
周玉
肖同尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongkefan Language Technology Co ltd
Original Assignee
Beijing Zhongkefan Language Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongkefan Language Technology Co ltd filed Critical Beijing Zhongkefan Language Technology Co ltd
Priority to CN202111200066.1A priority Critical patent/CN113919332A/zh
Publication of CN113919332A publication Critical patent/CN113919332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种实体识别模型建立方法,包括:获取标注后的文本样本集,标注后的文本样本集包括多个段落类别以及多个实体类别;对标注后的文本样本分段、分句以及分字符;获得语句特征向量组和字符特征向量组;获得训练后的TextCNN模型;获得训练后的实体模型;使用训练后的TextCNN模型对向量化处理后文本进行段落类别识别,获得段落类别向量,使用训练后的实体模型对向量化处理后的文本样本进行实体识别,获得实体类别向量;将段落类别向量以及实体类别向量输入至Softmax模型进行迭代训练;以及通过损失函数值判断训练是否停止。本公开还提供了一种实体识别方法、装置、电子设备以及可读存储介质。

Description

实体识别模型建立方法、装置、电子设备及存储介质
技术领域
本公开属于实体识别技术领域,本公开尤其涉及一种实体识别模型建立方法、装置、电子设备及存储介质。
背景技术
现有技术中的随着实体识别的日益成熟,应用场景越来越广泛,逐渐从十几个字、几十个字的短文本实体识别,拓展到在上千字、上万字篇章级超长文本中进行识别的场景。这种复杂的长文本抽取,往往伴随着多样的数据定义,在这样新的场景下,会出现短文本实体识别算法难以解决的两个新的问题,下面以APP中广泛出现的“隐私政策文本”为例(文本长度通常在10000~30000字),来介绍这两个问题:
第一、实体冲突和消歧。例如一个公司的名称,在隐私政策中的“公司信息介绍”段落中指的是“APP运营主体公司”,而在“信息共享”段落中则指代信息的“接收方公司”,同样的表述实体类型却不同,此类冲突如果用短文本识别的方法难以区分。
第二、实体识别错误。长文本中实体识别错误除了和样本、标注等有关,也与上下文有关,在超长文本中,超越句子级的段落级上下文尤为重要。例如“信息存储地域”、“存储期限”两种类型的实体,仅会在描述“信息存储”的段落中出现,其余提及地点的表述皆不属于此两种类型,例如运营主体公司的“注册地址”,与“信息存储地域”表述相同但语义完全不同。充分利用语义段落可以减少此类识别错误,而按句子识别实体则难以做到。从另一面理解,先找到“信息存储”的语义段落,也会使“信息存储地域”、“存储期限”识别的准确率更高。
在已有的方法中,有专门针对第一个难点的实体消歧方法,例如按照上下文聚类的无监督方式,和针对歧义实体另行标注的有监督方式。前者效果相对较差,后者需要的标注量和样本量十分庞大,而且需要再额外训练一个消歧模型。而针对第二个难点,现有技术中没有很好的解决方法。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种实体识别模型建立方法、装置以及实体识别方法、装置、电子设备、可读存储介质。
根据本公开的一个方面,本公开提供了一种实体识别模型建立方法,包括:
S102、获取标注后的文本样本集,所述标注后的文本样本集包括多个段落预置类别以及多个实体预置类别;
S104、对所述标注后的文本样本集的各个文本样本进行段落拆分,并对各个段落进行语句拆分,并对各个语句进行字符拆分;
S106、使用语言表示模型对各个段落的各个语句进行向量化处理,以获得各个段落的语句特征向量组[CLS1,CLS2,……],使用语言表示模型对各个语句的各个字符进行向量化处理,以获得各个语句的字符特征向量组[[token_embdedding1,token_embdedding2,……],……];
S108、至少基于所述多个段落预置类别以及各个段落的语句特征向量组对TextCNN模型进行训练以获得训练后的TextCNN模型,包括对TextCNN进行微调;
S110、至少基于所述多个实体预置类别以及各个段落的各个语句的字符特征向量组对实体模型进行训练以获得训练后的实体模型;
S112、使用所述训练后的TextCNN模型对向量化处理后的文本样本进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对向量化处理后的文本样本进行实体识别,获得实体类别向量;以及,
S114、基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入至Softmax模型进行迭代训练,获得训练后的Softmax模型。
根据本公开至少一个实施方式的实体识别模型建立方法,通过计算损失函数,判断是否满足阈值,如果满足,结束所述迭代训练,获得所述训练后的Softmax模型。
根据本公开至少一个实施方式的实体识别模型建立方法,所述步骤S106中,包括:
对语言表示模型进行微调,使得语言表示模型的部分参数有调整。
根据本公开至少一个实施方式的实体识别模型建立方法,所述步骤S108中,包括:
对所述TextCNN进行微调,使得所述TextCNN模型的部分参数有调整。
根据本公开至少一个实施方式的实体识别模型建立方法,所述损失函数的计算基于所述实体模型的训练的损失函数和所述Softmax的训练的损失函数。
根据本公开的又一个方面,本公开还提供了一种实体识别方法,通过上述任一项的实体识别模型建立方法建立的实体识别模型进行实体识别,包括:
获取待识别的文本;
将所述待识别的文本通过所述语言表示模型进行向量化处理,获得各个段落的语句特征向量组,以及获得段落的各个语句的字符特征向量组;
使用所述训练后的TextCNN模型对段落的语句特征向量组进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对段落的各个语句的字符特征向量组进行实体识别,获得实体类别向量;以及,
基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入所述训练后的Softmax进行实体分类,获得实体类别。
根据本公开的另一个方面,本公开还提供了一种实体识别模型建立装置,包括:
获取样本模块,获取标注后的文本样本集,所述标注后的文本样本集包括多个段落预置类别以及多个实体预置类别;
样本处理模块,对所述标注后的文本样本集的各个文本样本进行段落拆分,并对各个段落进行语句拆分,并对各个语句进行字符拆分;
向量化模块,使用语言表示模型对各个段落的各个语句进行向量化处理,以获得各个段落的语句特征向量组,使用语言表示模型对各个语句的各个字符进行向量化处理,以获得各个语句的字符特征向量组;
TextCNN训练模块,至少基于所述多个段落预置类别以及各个段落的语句特征向量组对TextCNN模型进行训练以获得训练后的TextCNN模型;
实体模型训练模块,至少基于所述多个实体预置类别以及各个段落的各个语句的字符特征向量组对实体模型进行训练以获得训练后的实体模型;
向量获取模块,使用所述训练后的TextCNN模型对向量化处理后的文本样本进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对向量化处理后的文本样本进行实体识别,获得实体类别向量;
Softmax模型训练模块,基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入至Softmax模型进行迭代训练,获得训练后的Softmax模型。
根据本公开至少一个实施方式提供的实体识别模型建立装置,通过计算损失函数,判断是否满足阈值,如果满足,结束所述迭代训练,获得所述训练后的Softmax模型。
根据本公开至少一个实施方式提供的实体识别模型建立装置,所述向量化模块,对所述语言表示模型进行微调,使得语言表示模型的部分参数有调整。
根据本公开至少一个实施方式提供的实体识别模型建立装置,所述TextCNN训练模块的训练中,包括:
对所述TextCNN进行微调,使得所述TextCNN模型的部分参数有调整。
根据本公开至少一个实施方式提供的实体识别模型建立装置,所述损失函数的计算基于所述实体模型的训练的损失函数和所述Softmax的训练的损失函数。
根据本公开的又一个方面,本公开还提供了一种实体识别装置,使用上述任一项实体识别模型建立方法建立的实体识别模型进行实体识别,包括:
获取待识别文本模块,用于获取待识别的文本;
向量组获取模块,用于将所述待识别的文本通过所述语言表示模型进行向量化处理,获得各个段落的语句特征向量组[CLS1,CLS2,……],以及获得段落的各个语句的字符特征向量组[[token_embdedding1,token_embdedding2,……],……];
类别向量获取模块,用于使用所述训练后的TextCNN模型对段落的语句特征向量组进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对段落的各个语句的字符特征向量组进行实体识别,获得实体类别向量;以及,
实体识别模块,基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入所述训练后的Softmax进行实体分类,获得实体类别。
根据本公开的又一个方面,本公开还提供了一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一项所述的方法。
根据本公开的又一个方面,本公开还提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述任一项所述的方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的一个实施方式的实体识别模型建立方法的流程示意图。
图2是根据本公开的一个实施方式的实体识别方法的流程示意图。
图3是根据本公开的一个实施方式的实体识别模型建立装置的示意框图。
图4是根据本公开的一个实施方式的实体识别装置的示意框图。
附图标记说明
1000 实体识别模型建立装置
1002 获取样本模块
1004 样本处理模块
1006 向量化模块
1008 训练模块
1010 实体模型训练模块
1012 向量获取模块
1014 模型训练模块
1016 损失函数计算模块
1100 总线
1200 处理器
1300 存储器
1400 其他电路
2000 实体识别装置
2002 获取待识别文本模块
2004 向量组获取模块
2006 类别向量获取模块
2008 实体识别模块。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
为了描述性目的,本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如,在“侧壁”中)”等的空间相对术语,从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外,空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如,如果附图中的设备被翻转,则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此,示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外,设备可被另外定位(例如,旋转90度或者在其它方位处),如此,相应地解释这里使用的空间相对描述语。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
图1是本公开的一个实施方式实体识别模型建立方法的流程示意图。
如图1所示,本实施方式的实体识别模型建立方法S100,包括:
S102:获取标注后的文本样本集,标注后的文本样本集包括多个段落预置类别以及多个实体预置类别;
S104:对标注后的文本样本集的各个文本样本进行段落拆分,并对各个段落进行语句拆分,并对各个语句进行字符拆分;
S106:使用语言表示模型对各个段落的各个语句进行向量化处理,以获得各个段落的语句特征向量组,使用语言表示模型对各个语句的各个字符进行向量化处理,以获得各个语句的字符特征向量组;
S108:至少基于多个段落预置类别以及各个段落的语句特征向量组对TextCNN模型进行训练以获得训练后的TextCNN模型;
S110:至少基于多个实体预置类别以及各个段落的各个语句的字符特征向量组对实体模型进行训练以获得训练后的实体模型;
S112:使用训练后的TextCNN模型对向量化处理后的文本样本进行段落类别识别,获得段落类别向量,使用训练后的实体模型对向量化处理后的文本样本进行实体识别,获得实体类别向量;
S114:基于段落类别向量和实体类别向量,构成输入向量,将输入向量输入至Softmax模型进行迭代训练,获得训练后的Softmax模型。
对于上述实施方式的实体识别模型建立方法S100,优选地,通过计算损失函数,判断是否满足阈值,如果满足,结束迭代训练,获得训练后的Softmax模型。
经过上述实体识别模型建立方法建立实体识别模型,包括语言表示模型、训练后的TextCNN模型、训练后的实体模型以及训练后的Softmax模型。
其中,上文描述的实体模型优选为CRF模型。
其中,每个文本样本可以是一篇文档。
其中,上文描述的段落拆分可以为基于自然段落的段落拆分。
其中,上文描述的语言表示模型优选为BERT模型。
其中,上述步骤S114中,基于段落类别向量和实体类别向量,构成输入向量,优选地通过将段落类别向量和实体类别向量进行拼接,构成输入向量。
结合CRF模型和BERT模型,上述各个实施方式的实体识别模型建立方法,具体如下:
其中,步骤S106到步骤S108,对TextCNN训练获得训练后的TextCNN模型,具体如下:将文本样本拆分为段落,标注段落的段落预置类别;将段落拆分为句子,将句子输入BERT模型编码,获取段落中各个句子的[CLS]向量,将各个句子的[CLS]向量组成语句特征向量组,即序列1[CLS1,CLS2,……],序列1为段落级的[CLS]序列;以及将序列1[CLS1,CLS2,……]和段落预置类别输入TextCNN训练,获得训练后的TextCNN模型。
其中,步骤S110中,对CRF训练获得训练后的CRF模型,具体如下:将文本样本拆分为段落,标注段落的每个句子中的实体类别;将段落拆分为句子,将句子拆分为字符,将字符输入BERT编码,获取字符特征向量组,即序列2为[[token_embdedding1,token_embdedding2,……],……],序列2为段落级的[token_embdedding]序列;以及将序列2[[token_embdedding1,token_embdedding2,……],……]及实体类别输入CRF进行训练,获得训练后的CRF模型。
其中,步骤S112,包括:
将文本样本拆分为段落,标注段落的每个句子中的实体预置类别;将段落拆分为句子,将句子输入BERT编码,获取段落各个句子的[CLS]向量,将各个句子的[CLS]向量组成语句特征向量组,即序列1[CLS1,CLS2,……,];以及将序列1[CLS1,CLS2,……,]及实体预置类别输入训练后的TextCNN模型进行分类,获得段落类别向量;以及,
将文本样本拆分为段落,标注段落的每个句子中的实体预置类别;将段落拆分为句子,将句子拆分为字符,将字符输入BERT编码,获取字符特征向量组,即序列2[[token_embdedding1,token_embdedding2,……],……];以及将序列2[[token_embdedding1,token_embdedding2,……],……]及实体预置类别输入训练后的CRF进行分类,获得实体类别向量。
其中,步骤S106中,包括:
对语言表示模型进行微调,使得语言表示模型的部分参数有调整。
其中,步骤S108中,包括:
对TextCNN进行微调,使得TextCNN模型的部分参数有调整。
其中,步骤S116中,损失函数的计算基于实体模型的训练的损失函数和Softmax的训练的损失函数,表示为CRF Loss+k*Softmax Loss,k为比例系数,取值为大于0的数,可预设,可调整。
其中,步骤S116中,将损失函数计算值与阈值比较,如果满足阈值,即损失函数计算值小于阈值,结束训练,获得训练后的Softmax模型。
本公开的技术方案,在样本标注方面,除了实体标注,还预定义了段落的语义类别,针对文章的每个段落进行段落类别标注。以BERT+CRF实体识别作为基线,以TextCNN辅助进行语义段落分类,最终通过Softmax实现实体分类,建立实体识别模型。可见,通过上述方法建立的实体识别模型,在实体模型(例如CRF模型)中,结合了段落特性,有助于表述相同或相似的实体同时出现在文本中时,有助于消除歧义。
图2是本公开的一个实施方式的实体识别方法的流程示意图。
如图2所示,本实施方式的实体识别方法S200,包括:
S202:获取待识别的文本;
S204:将待识别的文本通过语言表示模型进行向量化处理,获得各个段落的语句特征向量组,以及获得段落的各个语句的字符特征向量组;
S206:使用训练后的TextCNN模型对段落的语句特征向量组进行段落类别识别,获得段落类别向量,使用训练后的实体模型对段落的各个语句的字符特征向量组进行实体识别,获得实体类别向量;以及,
S208:基于段落类别向量和实体类别向量,构成输入向量,将输入向量输入训练后的Softmax进行实体分类,获得实体类别。
以隐私政策有关文本的实体识别为例,隐私政策的文本包含了27种实体类别和25种标题类别,实体类别例如“个人信息”、“公司名称”、“联系方式”、“cookie原理”等,标题类别包括“业务功能及其收集的信息”、“信息存储”、“信息保护”、“cookie介绍”等。实体和标题存在语义约束,例如“cookie原理”实体类型只会出现在“cookie介绍”标题类别下。
其中,语言表示模型可以是BERT模型,具体实体识别方法为:
获取包含待识别实体的上述有关隐私政策的文本;
将上述文本的段落的所有句子通过BERT编码,获得语句特征向量组,即序列1[CLS1,CLS2,……,],序列1为段落级的[CLS]序列;
将段落的所有字符通过BERT编码,获得字符特征向量组,即序列2[[token_embdedding1,token_embdedding2,……],……],序列2为段落级的[token_embdedding]序列;
将序列1[CLS1,CLS2,……,]输入文本分类模型的训练后的TextCNN模型进行分类,获取段落类别向量;
将序列2[[token_embdedding1,token_embdedding2,……],……]输入实体识别模型的训练后的BERT-CRF模型进行实体识别,获得实体类别向量;以及,
基于段落类别向量和实体类别向量,构成输入向量,将输入向量输入实体识别模型的Softmax进行实体识别,获取实体识别结果。
针对篇章级实体识别的难点,本公开以BERT模型+TextCNN模型+CRF模型+Softmax模型构建的实体识别模型,结合段落语义信息及实体类型信息,可以有效地消除歧义,提高实体识别的精准度。
根据本公开的一个实施方式的实体识别模型建立装置1000,包括:
获取样本模块1002,获取标注后的文本样本集,标注后的文本样本集包括多个段落预置类别以及多个实体预置类别;
样本处理模块1004,对标注后的文本样本集的各个文本样本进行段落拆分,并对各个段落进行语句拆分,并对各个语句进行字符拆分;
向量化模块1006,使用语言表示模型对各个段落的各个语句进行向量化处理,以获得各个段落的语句特征向量组,使用语言表示模型对各个语句的各个字符进行向量化处理,以获得各个语句的字符特征向量组;
TextCNN训练模块1008,至少基于多个段落预置类别以及各个段落的语句特征向量组对TextCNN模型进行训练以获得训练后的TextCNN模型;
实体模型训练模块1010,至少基于多个实体预置类别以及各个段落的各个语句的字符特征向量组对实体模型进行训练以获得训练后的实体模型;
向量获取模块1012,使用训练后的TextCNN模型对向量化处理后的文本样本进行段落类别识别,获得段落类别向量,使用训练后的实体模型对向量化处理后的文本样本进行实体识别,获得实体类别向量;
Softmax模型训练模块1014,基于段落类别向量和实体类别向量,构成输入向量,将输入向量输入至Softmax模型进行迭代训练,获得训练后的Softmax模型。
图3示出了电子设备形式的实体识别模型建立装置1000,如图3所示,电子设备形式的实体识别模型建立装置1000包括了获取样本模块1002、样本处理模块1004、向量化模块1006、TextCNN训练模块1008、实体模型训练模块1010、向量获取模块1012及向量获取模块1012。
对于上述实施方式的实体识别模型建立装置1000,优选地,通过计算损失函数,判断是否满足阈值,如果满足,结束迭代训练,获得训练后的Softmax模型。
其中,向量化模块能够对语言表示模型进行微调,使得语言表示模型的部分参数有调整。
其中,在对TextCNN训练模块的训练过程中,包括:
对TextCNN进行微调,使得TextCNN模型的部分参数有调整。
其中,损失函数的计算基于实体模型(例如CRF模型)的训练的损失函数和Softmax的训练的损失函数。
根据本公开的一个实施方式的实体识别装置2000,通过上述任一个实施方式的实体识别模型建立方法建立的实体识别模型进行实体识别,包括:
获取待识别文本模块2002,用于获取待识别的文本;
向量组获取模块2004,用于将待识别的文本通过语言表示模型进行向量化处理,获得各个段落的语句特征向量组,以及获得段落的各个语句的字符特征向量组;
类别向量获取模块2006,用于使用训练后的TextCNN模型对段落的语句特征向量组进行段落类别识别,获得段落类别向量,使用训练后的实体模型对段落的各个语句的字符特征向量组进行实体识别,获得实体类别向量;以及,
实体识别模块2008,基于段落类别向量和实体类别向量,构成输入向量,将输入向量输入训练后的Softmax进行实体分类,获得实体类别。
图4示出了电子设备形式的实体识别装置2000,如图4所示,电子设备形式的实体识别装置2000包括了获取待识别文本模块2002、向量组获取模块2004、类别向量获取模块2006及实体识别模块2008。
图3示出的电子设备形式的实体识别模型建立装置1000以及图4示出的电子设备形式的实体识别装置2000可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
图3以及图4示出的硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种实体识别模型建立方法,其特征在于,包括:
S102、获取标注后的文本样本集,所述标注后的文本样本集包括多个段落预置类别以及多个实体预置类别;
S104、对所述标注后的文本样本集的各个文本样本进行段落拆分,并对各个段落进行语句拆分,并对各个语句进行字符拆分;
S106、使用语言表示模型对各个段落的各个语句进行向量化处理,以获得各个段落的语句特征向量组[CLS1,CLS2,……],使用语言表示模型对各个语句的各个字符进行向量化处理,以获得各个语句的字符特征向量组[[token_embdedding1,token_embdedding2,……],……];
S108、至少基于所述多个段落预置类别以及各个段落的语句特征向量组对TextCNN模型进行训练以获得训练后的TextCNN模型,包括对TextCNN进行微调;
S110、至少基于所述多个实体预置类别以及各个段落的各个语句的字符特征向量组对实体模型进行训练以获得训练后的实体模型;
S112、使用所述训练后的TextCNN模型对向量化处理后的文本样本进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对向量化处理后的文本样本进行实体识别,获得实体类别向量;以及
S114、基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入至Softmax模型进行迭代训练,获得训练后的Softmax模型。
2.根据权利要求1所述的实体识别模型建立方法,其特征在于,还包括,通过计算损失函数,判断是否满足阈值,如果满足,结束所述迭代训练,获得所述训练后的Softmax模型。
3.根据权利要求2所述的实体识别模型建立方法,其特征在于,所述损失函数的计算基于所述实体模型的训练的损失函数和所述Softmax模型的训练的损失函数。
4.一种实体识别方法,其特征在于,使用权利要求1至4中任一项所述的实体识别模型进行实体识别,包括:
获取待识别的文本;
将所述待识别的文本通过所述语言表示模型进行向量化处理,获得各个段落的语句特征向量组,以及获得段落的各个语句的字符特征向量组;
使用所述训练后的TextCNN模型对段落的语句特征向量组进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对段落的各个语句的字符特征向量组进行实体识别,获得实体类别向量;以及
基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入所述训练后的Softmax进行实体分类,获得实体类别。
5.一种实体识别模型建立装置,其特征在于,包括:
获取样本模块,获取标注后的文本样本集,所述标注后的文本样本集包括多个段落预置类别以及多个实体预置类别;
样本处理模块,对所述标注后的文本样本集的各个文本样本进行段落拆分,并对各个段落进行语句拆分,并对各个语句进行字符拆分;
向量化模块,使用语言表示模型对各个段落的各个语句进行向量化处理,以获得各个段落的语句特征向量组,使用语言表示模型对各个语句的各个字符进行向量化处理,以获得各个语句的字符特征向量组;
TextCNN训练模块,至少基于所述多个段落预置类别以及各个段落的语句特征向量组对TextCNN模型进行训练以获得训练后的TextCNN模型;
实体模型训练模块,至少基于所述多个实体预置类别以及各个段落的各个语句的字符特征向量组对实体模型进行训练以获得训练后的实体模型;
向量获取模块,使用所述训练后的TextCNN模型对向量化处理后的文本样本进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对向量化处理后的文本样本进行实体识别,获得实体类别向量;以及
Softmax模型训练模块,基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入至Softmax模型进行迭代训练,获得训练后的Softmax模型。
6.根据权利要求5所述的实体识别模型建立装置,其特征在于,通过计算损失函数,判断是否满足阈值,如果满足,结束所述迭代训练,获得所述训练后的Softmax模型。
7.根据权利要求6所述的实体识别模型建立装置,其特征在于,所述损失函数的计算基于所述实体模型的训练的损失函数和所述Softmax的训练的损失函数。
8.一种实体识别装置,其特征在于,使用权利要求1至4中任一项所述的实体识别模型建立方法建立的实体识别模型进行实体识别,包括:
获取待识别文本模块,用于获取待识别的文本;
向量组获取模块,用于将所述待识别的文本通过所述语言表示模型进行向量化处理,获得各个段落的语句特征向量组[CLS1,CLS2,……],以及获得段落的各个语句的字符特征向量组[[token_embdedding1,token_embdedding2,……],……];
类别向量获取模块,用于使用所述训练后的TextCNN模型对段落的语句特征向量组进行段落类别识别,获得段落类别向量,使用所述训练后的实体模型对段落的各个语句的字符特征向量组进行实体识别,获得实体类别向量;以及
实体识别模块,基于所述段落类别向量和所述实体类别向量,构成输入向量,将所述输入向量输入所述训练后的Softmax进行实体分类,获得实体类别。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至5中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的方法。
CN202111200066.1A 2021-10-14 2021-10-14 实体识别模型建立方法、装置、电子设备及存储介质 Pending CN113919332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111200066.1A CN113919332A (zh) 2021-10-14 2021-10-14 实体识别模型建立方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111200066.1A CN113919332A (zh) 2021-10-14 2021-10-14 实体识别模型建立方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113919332A true CN113919332A (zh) 2022-01-11

Family

ID=79240475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111200066.1A Pending CN113919332A (zh) 2021-10-14 2021-10-14 实体识别模型建立方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113919332A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722823A (zh) * 2022-03-24 2022-07-08 华中科技大学 构建航空知识图谱的方法及装置、计算机可读介质
CN114757184A (zh) * 2022-04-11 2022-07-15 中国航空综合技术研究所 实现航空领域知识问答的方法和系统
CN115757774A (zh) * 2022-11-03 2023-03-07 中国电子技术标准化研究院 行业领域识别方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722823A (zh) * 2022-03-24 2022-07-08 华中科技大学 构建航空知识图谱的方法及装置、计算机可读介质
CN114757184A (zh) * 2022-04-11 2022-07-15 中国航空综合技术研究所 实现航空领域知识问答的方法和系统
CN114757184B (zh) * 2022-04-11 2023-11-10 中国航空综合技术研究所 实现航空领域知识问答的方法和系统
CN115757774A (zh) * 2022-11-03 2023-03-07 中国电子技术标准化研究院 行业领域识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN113919332A (zh) 实体识别模型建立方法、装置、电子设备及存储介质
CN107145516B (zh) 一种文本聚类方法及系统
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
CN111143505B (zh) 文档处理方法、装置、介质及电子设备
CN110362832B (zh) 一种段落合并的方法、装置、存储介质及电子设备
CN112364166B (zh) 关系抽取模型的建立方法以及关系抽取方法
CN111950303A (zh) 医疗文本翻译方法、装置及存储介质
CN112507111A (zh) 用于生成式自动摘要生成的模型建立方法及摘要生成方法
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN113935314A (zh) 基于异构图网络的摘要抽取方法、装置、终端设备及介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN113408660B (zh) 图书聚类方法、装置、设备和存储介质
CN110807097A (zh) 分析数据的方法和装置
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN109300550B (zh) 医学数据关系挖掘方法及装置
CN109614494A (zh) 一种文本分类方法及相关装置
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN115934852A (zh) 税务注册地址时空聚类方法、装置、服务器及存储介质
CN114970554A (zh) 一种基于自然语言处理的文档校验方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination