CN104978587A - 一种基于文档类型的实体识别合作学习算法 - Google Patents

一种基于文档类型的实体识别合作学习算法 Download PDF

Info

Publication number
CN104978587A
CN104978587A CN201510409514.7A CN201510409514A CN104978587A CN 104978587 A CN104978587 A CN 104978587A CN 201510409514 A CN201510409514 A CN 201510409514A CN 104978587 A CN104978587 A CN 104978587A
Authority
CN
China
Prior art keywords
model
doctype
training
entity recognition
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510409514.7A
Other languages
English (en)
Other versions
CN104978587B (zh
Inventor
孙靖超
李建强
刘璐
赵旭
莫豪文
田猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510409514.7A priority Critical patent/CN104978587B/zh
Publication of CN104978587A publication Critical patent/CN104978587A/zh
Application granted granted Critical
Publication of CN104978587B publication Critical patent/CN104978587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于文档类型的实体识别合作学习算法,算法包括:模型构建模块和模型应用。其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别。在本算法中结合了集成学习和协同训练算法,同时在数据集预处理过程中进行了基于文档类型的数据集切分,考虑了数据集的多样性。在模型构建过程中,利用稀疏标记数据作为训练数据,并且应用了多个基础算法,以集成学习模式对其进行集成,考虑了算法的多样性。结合了多种技术,考虑了算法和数据集的多样性,确保本发明在实体识别任务上能取得令人满意的效果。

Description

一种基于文档类型的实体识别合作学习算法
技术领域
本发明属于计算机领域,更具体地涉及一种基于文档类型的实体识别合作学习算法,能很好地提高实体识别的准确率。
背景技术
随着信息产业的发展,计算机网络规模日益扩大,大量的信息都以电子文档的形式出现在人们面前。同时在各种公司企业中,大量的数据也以这种形式被积累下来。而这些数据中的大多数潜在有用信息都是以非结构化的形式存在的。而这些大量的自由文本的积累也为语义技术在企业级环境中的应用提出了挑战。因此,人迫切需要一些技术去处理这些信息。实体链接技术作为一个能够将文本中提到的词链接到它在某个知识库中的实体的技术,而越来越受关注。将非结构化的文档和某个知识库链接能够实现诸如企业及搜索,信息抽取和文本分类等多项任务,那么这样能够为企业信息资源的管理和利用提供更大的可能性。然而对于非结构化的文档,在进行实体连接处理之前,首先需要做的对文档进行命名实体识别。命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是进行实体链接一个前提工作,识别的质量会直接影响到后续的一系列工作。
目前比较常用的命名实体识别技术可粗略的分为两类,首先是在同一个数据集合上训练多个算法的模型,然后将这些模型集成在一起,采用的是集成学习的模式;第二类是当数据集足够大的时候,将这数据集切分成多个,然后在这些子数据集上运行同一个算法,获得此算法的多个模型,然后将这些模型进行集成用于命名实体识别。虽然以上两种方法都能够完成命名实体识别任务,但是它们在准确率上都还有所欠缺。
2012年,由Li J,Liu C发表的IEEE论文“A Cooperative Co-learning Approach for ConceptDetection in Documents”中,提出了一种文档中概念识别的合作学习方法。它不仅能够完成实体识别任务,同时值得一提的是它能将大量的稀疏标记的文档用作训练数据。其核心思想是:首先将所有稀疏标记的文档中抽取所有的标记实体形成一个字典,以该字典去更新训练语料中的每一个文档,将预处理的后的训练语料分成n个子集,然后在这n个子集上分别运行条件随机场模型,训练出n个实体识别模型。然后利用协同训练算法,将n个模型分别在其他n-1个训练集合上运行,则对应每个训练集合都会有n-1个标记结果集,按照一定规则选取n-1结果集中新识别的实体更新前一次迭代的所对应训练集,用于下一次分类器的训练,如果这些更新后的训练集和对应的前一次所用的训练集的差异性都小于或等于某个规定的值,那么则终止训练,并将训练的基础模型按照一定规则集成。总的来说,这个方法以协同训练的方式更好地利用稀疏标记的训练语料,以集成学习的模式实现基础模型集成。但是由于它只采用了一种学习算法,在一些情况下实体识别准确率可能欠佳。
2004年,由Zhou Y,Goldman S.Re等发表的IEEE论文“Democratic co-learning”中,提出了一种民主协同训练方法。这个方法实现主要讲的如何利用无标记数据作为训练数据来训练实模型,进而来提升监督学习算法的准确率。其核心思想是:首先利用已标记的数据训练多个学习器的模型,然后用这些模型对未标记的数据集进行标注,将所获得的标记结果集中符合相应规则的标记用来更新训练数据集。然后用更新后的训练集训重新训练学习器,重复上述步骤,直到标记结果集中没有新的标记能用来更新训练集,则停止训练,并将所获得的模型按照相应规则进行集成。此算法采用了集成学习的模式,虽然考虑了学习器的多样性,但是每次循环训练学习器都是用的同一数据集,没有考虑到数据集的多样性,这是它的一个不足。
上面介绍的已有方法虽然都针对标注问题的准确率进行了算法改进,但是他们都只考虑了一个方面要么是考虑了数据集的多样性没有考虑算法的多样性,要么是考虑了算法的多样性没有考虑数据集的多样性,并不能将这两个方面的需求都满足。
发明内容
本发明提出了一种基于文档类型的实体识别合作学习算法,结合了集成学习和协同训练技术,同时采用了条件随机场模型,隐式马尔可夫模型和最大熵马尔可夫模型三个算法作为实体识别的基础算法,能很好地更高的实体识别的准确率。
一种基于文档类型的实体识别合作学习算法,该算法包括模型构建模块、模型应用以及模型集成。其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别;模型集成包括两个层次的模型组合:
(1)首先分类别对所构建的基础模型进行集成,即分别对所构建的基于文档类型的条件随机场模型,隐式马尔可夫模型以及最大熵马尔可夫模型三类基础模型进行模型内的集成,属于同类型模型的集成;
(2)其次对所用的三类模型进行集成,即对已完成的模型内集成的上述三类模型进行模型间集成,属于不同类型模型的集成。
对于三类基础模型进行模型内集成需要采用一种带有权值的多数投票策略,具体的,权值由每个基础模型的可信度来定义,而对于每个基础模型的可信度,采用对应输出句子的概率来度量,进而实现了同类型模型内的集成。
对所用的三类模型进行模型间集成,采用不带权值的多数投票策略,即对基于文档类型所构建的三类不同的基础模型,在模型内集成完成后,进行模型间集成时认为它们之间的可信度时一样的,因此用不带权值的多数投票策略实现不同类型模型的集成。这样,完成了模型集成,构建出了基于文档类别的实体识别模型。
更详细的,基于文档类型的实体识别分类器构建:包括五个子模块,首先是对输入数据的预处理模块,抽取稀疏标记的训练数据集中已标记的实体,构成一个字典,然后以该字典去更新每个训练文档;其次是基于文档类型的条件随机场模型构建,最大熵马尔可夫模型构建和隐式马尔可夫模型构建,主要是学习器的训练;最后的子模块是模型集成,将训练获得的基于文档类型的实体识别模型进行集成。
文本分类器构建:主要是根据文档特征数据进行学习器训练,获得相应的文本分类模型。
文档类型识别:主要是应构建的文本分类模型对待处理语料进行文本分类,以进行后续处理。
基于文档类型的实体识别:主要是根据文档类型识别处理结果选择对应的基于文档类型的实体识别模型进行文档标注工作。
与现有技术相比,本发明具有以下优点:
本发明以已知文档类型作为条件,结合了集成学习和协同训练技术,选择条件随机场等三个算法作为基础算法,同时,根据文档类型对训练集进行了切分,这样既考虑了分类器的多样性,也考虑了数据集的多样性,能更好的提高实体识别的准确率。
附图说明
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,其中:
图1为本发明一个实施例的基于文档类型的实体识别合作学习系统框图。
图中:1、数据集预处理装置,2、基于文档类型的分类器构建装置,3、文本分类器构建装置,4、模型应用装置,41、文本分类处理单元,42、实体识别处理单元。
具体实施方式
下面将详细描述本发明各个方面的特征和示例性实施例
基于文档类型的实体识别合作学习系统框图如图1所示,包括:数据集预处理装置(1),基于文档类型的分类器构建装置(2),文本分类器构建装置(3),模型应用装置(4)。其中:数据集预处理装置(1)与基于文档类型的分类器构建装置(2)相连;基于文档类型的分类器构建装置(2)、文本分类器构建装置(3)与模型应用装置(4)相连。
数据集预处理装置(1):从所有稀疏标记的训练语料中抽取所有的已标记实体形成一个字典,以该字典去更新训练语料中每一个训练文档;
基于文档类型的分类器构建装置(2):在文档类型已知的条件下,用训练语料分文档类型训练基础学习器,然后将获得的基础分类器进行集成,最终获得基于文档类型的实体识别模型;
文本分类器构建装置(3):根据文本类别数据对文本分类学习器进行训练,构建出文本分类模型;
模型应用装置(4):应用训练获得的文本分类模型对待处理语料进行文本分类处理,然后进行基于文档类型的实体识别处理。
应用本发明所述系统进行识别的过程如下:首先是模型的构建工作,根据文档类别数据训练文本分类学习器,获得文本分类模型;对训练语料进行预处理,用预处理好的训练语料分文档类型进行实体识别学习器训练,获得相应的基础分类器,然后将这些基础模型进行集成获得最终的基于文档类型的实体识别模型;其次时模型应用阶段,先使用文本分类模型对待处理语料进行文档分类,然后根据所识别的文档类型调用对应的实体识别模型,进行实体识别处理。
下面给出本发明的一个实施例,本发明一个基于文档类型的实体识别合作学习算法,为了更好的提高实体识别的准确率,在算法中结合了协同训练技术和集成学习技术。协同训练技术的核心思想是通过将分类器的识别的新的实体按照某规则加入到训练集中用于下次训练,进而增加实体识别的准确率;采用集成学习主要是考虑到分类器多样化的需要,本算法采用了三个不同的模型,最后将基础模型按照相应规则集成,能获得更好的实体识别的效果;此外,算法也采用了数据集切分技术,这是从数据集的多样性角度考虑的,能使实体识别模型具有更好的实用性。本实施例所述系统中各装置的功能如下:
数据集预处理装置(1):主要是将训练语料trainingData中已有的实体特征标记的数据项抽取出来形成一个字典,然后以该字典去更新traingingData中每个文档,其中trainingData={词语,词性,分块,实体特征}。
基于文档类型的分类器构建装置(2):主要是基于文档的类型进行相应的实体识别分类器训练,主要采用条件随机场模型(CRF),最大熵马尔可夫模型(MEMMs)和隐式马尔可夫模型(HMMs)作为完成实体识别任务的基础算法,并结合了集成学习和联合训练技术;更具体的可以分为基于文档类型的基础分类器构建过程和分类器集成过程。
首先是基于文档类型的基础分类器构建过程:对于预处理后的训练语料trainingData中的每一种类型的文档集,将其分成n个子集(n根据实际数据集情况选定),首先对于基于文档类型的条件随机场模型构建来说,在这n个子集合上分别训练出一个模型,然后令每一个模型分别在其他n-1训练集上运行,则与每个训练集相对应有n-1个标记结果集,按照新识别的实体最少被2个模型识别且最少被作为实体识别2次的规则从这些标记结果集中选出相应的实体,然后用这些实体更新所对应的训练集,然后将每个新获取的训练集与前一次迭代所用的对应训练集比较,如果这些对应训练集间最大不同性不大于0,即这些相对应的前后两个训练集都已能满足数据集相同的条件,那么结束训练获取最终分类器模型,否则进行下一次迭代训练。对于基于文档类型的隐式马尔可夫模型构建和基于文档类型的最大熵马尔可夫模型构建,学习器训练过程与上述一致。基于文档类型的条件随机场模型构建过程伪代码,如下:
然后对于隐式马尔可夫模型(HMMs),最大熵马尔可夫模型(MEMMs)的训练同上方法,即分别训练最大熵马尔可夫模型MEMMclassifier和隐式马尔可夫模型HMMclassifier,则MEMMModel=Combine(Mi,1≤i≤n),HMMModel=Combine(Mi,1≤i≤n)。
其次分类器集成过程:首先对于基础模型,每一类文档都对应了三类基础模型,对于属于同一类型的基础模型,他们之间的集成,选择一种带有权值的多数投票策略,其中权值由每个基础模型的可信度来定义,可信度用对应输出句子的概率来度量,进而获得CRFModel,MEMMModel,HMMModel三类模型;对于不同类型的训练模型的集成,选择不带有权值的多数投票策略,那么最终的基于文档类型的实体识别模型为Model=Combine(CRFModel,MEMMModel,HMMModel)。
文本分类器构建装置(3):应用文档类别数据训练支持向量机,获得文本分类器模型。
模型应用装置(4):主要包括文本分类处理单元(41)和基于文档类型的实体识别处理单元(42)。
文本分类处理单元(41):主要是应用文本分类模型对待处理语料rawData进行文本分类,其中rawData={词汇,词性,分块}。
基于文档类型的实体识别处理单元(42):根据对rawData进行文本分类的结果,为每一类文档选择基于文档类型的实体识别模型Model,然后分类对rawData进行实体识别处理,获得相应的结果集resultData,其中resultData={词汇,词性,分块,实体特征}。
以上所述的结构框图中所示的功能块实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本方法的元素是被用于执行所需任务的程序或者代码段。程序或者代码段存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段经由诸如因特网、内联网等的计算机网络被下载。
本发明相与有现实体识别技术相比,既考虑了学习器的多样性又考虑了数据集的多样性,同时在算法中结合了集成学习和协同训练技术,这使得本发明对各种数据集具有更好地适应性,也能够较高的实体识别准确率。

Claims (5)

1.一种基于文档类型的实体识别合作学习算法,其特征在于:该算法包括模型构建模块、模型应用以及模型集成;其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建;模型应用包括文档类型识别和基于文档类型的实体识别;模型集成包括两个层次的模型组合:
(1)首先分类别对所构建的基础模型进行集成,即分别对所构建的基于文档类型的条件随机场模型,隐式马尔可夫模型以及最大熵马尔可夫模型三类基础模型进行模型内的集成,属于同类型模型的集成;
(2)其次对所用的三类模型进行集成,即对已完成的模型内集成的上述三类模型进行模型间集成,属于不同类型模型的集成;
对于三类基础模型进行模型内集成需要采用一种带有权值的多数投票策略。具体的,权值由每个基础模型的可信度来定义,而对于每个基础模型的可信度,采用对应输出句子的概率来度量,进而实现了同类型模型内的集成;
对所用的三类模型进行模型间集成,采用不带权值的多数投票策略,即对基于文档类型所构建的三类不同的基础模型,在模型内集成完成后,进行模型间集成时认为它们之间的可信度时一样的,因此用不带权值的多数投票策略实现不同类型模型的集成。这样,完成了模型集成,构建出了基于文档类别的实体识别模型;
更详细的,基于文档类型的实体识别分类器构建:包括五个子模块,首先是对输入数据的预处理模块,抽取稀疏标记的训练数据集中已标记的实体,构成一个字典,然后以该字典去更新每个训练文档;其次是基于文档类型的条件随机场模型构建,最大熵马尔可夫模型构建和隐式马尔可夫模型构建,主要是学习器的训练;最后的子模块是模型集成,将训练获得的基于文档类型的实体识别模型进行集成;
文本分类器构建:主要是根据文档特征数据进行学习器训练,获得相应的文本分类模型;
文档类型识别:主要是应构建的文本分类模型对待处理语料进行文本分类,以进行后续处理;
基于文档类型的实体识别:主要是根据文档类型识别处理结果选择对应的基于文档类型的实体识别模型来进行文档标注工作。
2.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法,其特征在于:基于文档类型的实体识别合作学习系统,其包括:数据集预处理装置(1),基于文档类型的分类器构建装置(2),文本分类器构建装置(3),模型应用装置(4);其中:数据集预处理装置(1)与基于文档类型的分类器构建装置(2)相连;基于文档类型的分类器构建装置(2)、文本分类器构建装置(3)与模型应用装置(4)相连;
数据集预处理装置(1):从所有稀疏标记的训练语料中抽取所有的已标记实体形成一个字典,以该字典去更新训练语料中每一个训练文档;
基于文档类型的分类器构建装置(2):在文档类型已知的条件下,分文档类型训练基础学习器,然后将获得的基础模型进行集成,最终获得基于文档类型的实体识别模型;
文本分类器构建装置(3):根据文档类别数据对文分类学习器进行训练,构建出文本分类模型;
模型应用装置(4):应用训练获得的文本分类模型对待处理语料进行文本分类处理,然后进行基于文档类型的实体识别处理;
应用本发明所述系统进行实体识别的过程如下:首先是模型的构建工作,根据文档类别数据训练文本分类学习器,获得文本分类模型;对训练语料进行预处理,用预处理好的训练语料分文档类型进行实体识别学习器训练,获得相应的基础模型,然后将这些基础模型进行集成获得最终的基于文档类型的实体识别模型;其次时模型应用阶段,先使用文本分类模型对待处理语料进行文档分类,然后根据所识别的文档类型调用对应的实体识别模型,进行实体识别处理。
3.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法,其特征在于:为了更好的提高实体识别的准确率,在算法中结合了协同训练技术和集成学习算法;协同训练技术的核心思想是通过将分类器的识别的新的实体按照某规则加入到训练集中用于下次的分类器训练,进而提高实体识别的准确率;采用集成学习主要是考虑到分类器的多样化,本算法采用了三个不同的模型,最后将基础模型按照相应规则集成,同样能增强实体识别的效果;此外,算法也采用了数据集切分技术,这是从数据集的多样性角度考虑的,能使实体识别模型具有更好的实用性;所述系统中各装置的功能如下:
数据集预处理装置(1):主要是将训练语料trainingData中已有的实体特征标记的数据项抽取出来形成一个字典,然后以该字典去更新traingingData中每个文档,其中trainingData={词语,词性,分块,实体特征};
基于文档类型的分类器构建装置(2):主要是基于文档的类型进行相应的实体识别分类器训练,主要采用条件随机场模型(CRF),最大熵马尔可夫模型(MEMMs)和隐式马尔可夫模型(HMMs)作为完成实体识别任务的基础算法,并结合了集成学习和联合训练技术;更具体的可以分为基于文档类型的基础分类器构建过程和分类器集成过程;
首先是基于文档类型的基础分类器构建过程:对于预处理后的训练语料trainingData中的每一种类型的文档集,将其分成n个子集(n根据实际数据集情况选定),首先对于基于文档类型的条件随机场模型构建来说,在这n个子集合上分别训练出一个模型,然后令每一个模型分别在其他n-1训练集上运行,则与每个训练集相对应有n-1个标记结果集,按照新识别的实体最少被2个模型识别且最少被作为实体识别2次的规则从这些标记结果集中选出相应的实体,然后用这些实体更新所对应的训练集,然后将每个新获取的训练集与前一次迭代所用的对应训练集比较,如果这些对应训练集间最大不同性不大于0,即这些相对应的前后两个训练集都已能满足数据集相同的条件,那么结束训练获取最终分类器模型,否则进行下一次迭代训练;对于基于文档类型的隐式马尔可夫模型构建和基于文档类型的最大熵马尔可夫模型构建,学习器训练过程与上述一致;基于文档类型的条件随机场模型构建过程伪代码,如下:
然后对于隐式马尔可夫模型(HMMs),最大熵马尔可夫模型(MEMMs)的训练同上述方法,即分别训练最大熵马尔可夫模型MEMMclassifier和隐式马尔可夫模型HMMclassifier,则MEMMModel=Combine(Mi,1≤i≤n),HMMModel=Combine(Mi,1≤i≤n);
其次分类器集成过程:首先对于基础模型,每一类文档都对应了三类基础模型,对于属于同一类型的基础模型,他们之间的集成,选择一种带有权值的多数投票策略,其中权值由每个基础模型的可信度来定义,可信度用对应输出句子的概率来度量,进而获得CRFModel,MEMMModel,HMMModel三类模型;对于不同类型的训练模型的集成,选择不带有权值的多数投票策略,那么最终的基于文档类型的实体识别模型为Model=Combine(CRFModel,MEMMModel,HMMModel);
文本分类器构建装置(3):应用文档类别数据训练支持向量机,获得文本分类模型;
模型应用装置(4):主要包括文本分类处理单元(41)和基于文档类型的实体识别处理单元(42);
文本分类处理单元(41):应用文本分类模型对待处理语料rawData进行文本分类,其中rawData={词汇,词性,分块};
基于文档类型的实体识别处理单元(42):根据对rawData进行文本分类的结果,为每一类文档选择基于文档类型的实体识别模型Model,然后分类对rawData进行实体识别处理,获得相应的结果集resultData,其中resultData={词汇,词性,分块,实体特征}。
4.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法,其特征在于:当以硬件方式实现时,其是电子电路、专用集成电路、适当的固件、插件、功能卡。
5.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法,其特征在于:当以软件方式实现时,本方法的元素是被用于执行所需任务的程序或者代码段;程序或者代码段存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送;“机器可读介质”包括能够存储或传输信息的任何介质。
CN201510409514.7A 2015-07-13 2015-07-13 一种基于文档类型的实体识别合作学习算法 Active CN104978587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510409514.7A CN104978587B (zh) 2015-07-13 2015-07-13 一种基于文档类型的实体识别合作学习算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510409514.7A CN104978587B (zh) 2015-07-13 2015-07-13 一种基于文档类型的实体识别合作学习算法

Publications (2)

Publication Number Publication Date
CN104978587A true CN104978587A (zh) 2015-10-14
CN104978587B CN104978587B (zh) 2018-06-01

Family

ID=54275072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510409514.7A Active CN104978587B (zh) 2015-07-13 2015-07-13 一种基于文档类型的实体识别合作学习算法

Country Status (1)

Country Link
CN (1) CN104978587B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法
CN106919545A (zh) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 用于处理文档的方法与设备
CN107145511A (zh) * 2017-03-31 2017-09-08 上海森亿医疗科技有限公司 基于医学文本信息的结构化医学数据库生成方法及系统
CN108391446A (zh) * 2017-06-20 2018-08-10 埃森哲环球解决方案有限公司 基于机器学习算法对针对数据分类器的训练语料库的自动提取
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108763920A (zh) * 2018-05-23 2018-11-06 四川大学 一种基于集成学习的口令强度评估模型
CN109284374A (zh) * 2018-09-07 2019-01-29 百度在线网络技术(北京)有限公司 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN109583463A (zh) * 2017-09-29 2019-04-05 卡巴斯基实验室股份制公司 训练用于确定文档类别的分类器的系统和方法
CN110532376A (zh) * 2018-04-13 2019-12-03 国际商业机器公司 分类文本以确定用于选择机器学习算法结果的目标类型
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN113298253A (zh) * 2021-06-03 2021-08-24 清华大学 用于命名实体识别的模型训练方法、识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067280A1 (en) * 2003-12-31 2007-03-22 Agency For Science, Technology And Research System for recognising and classifying named entities
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置
CN104598586B (zh) * 2015-01-18 2018-04-17 北京工业大学 大规模文本分类的方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919545A (zh) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 用于处理文档的方法与设备
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法
CN107145511A (zh) * 2017-03-31 2017-09-08 上海森亿医疗科技有限公司 基于医学文本信息的结构化医学数据库生成方法及系统
CN108391446B (zh) * 2017-06-20 2022-02-22 埃森哲环球解决方案有限公司 基于机器学习算法对针对数据分类器的训练语料库的自动提取
CN108391446A (zh) * 2017-06-20 2018-08-10 埃森哲环球解决方案有限公司 基于机器学习算法对针对数据分类器的训练语料库的自动提取
US11409779B2 (en) 2017-06-20 2022-08-09 Accenture Global Solutions Limited Automatic extraction of a training corpus for a data classifier based on machine learning algorithms
CN109583463B (zh) * 2017-09-29 2024-03-29 卡巴斯基实验室股份制公司 训练用于确定文档类别的分类器的系统和方法
CN109583463A (zh) * 2017-09-29 2019-04-05 卡巴斯基实验室股份制公司 训练用于确定文档类别的分类器的系统和方法
CN108628823B (zh) * 2018-03-14 2022-07-01 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN110532376A (zh) * 2018-04-13 2019-12-03 国际商业机器公司 分类文本以确定用于选择机器学习算法结果的目标类型
CN110532376B (zh) * 2018-04-13 2024-03-19 玛雷迪夫美国公司 分类文本以确定用于选择机器学习算法结果的目标类型
CN108763920A (zh) * 2018-05-23 2018-11-06 四川大学 一种基于集成学习的口令强度评估模型
CN109284374A (zh) * 2018-09-07 2019-01-29 百度在线网络技术(北京)有限公司 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
US11526663B2 (en) 2018-09-07 2022-12-13 Baidu Online Network Technology (Beijing) Co., Ltd. Methods, apparatuses, devices, and computer-readable storage media for determining category of entity
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN113051918B (zh) * 2019-12-26 2024-05-14 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统
CN113298253A (zh) * 2021-06-03 2021-08-24 清华大学 用于命名实体识别的模型训练方法、识别方法及装置
CN113298253B (zh) * 2021-06-03 2021-12-14 清华大学 用于命名实体识别的模型训练方法、识别方法及装置

Also Published As

Publication number Publication date
CN104978587B (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN104978587A (zh) 一种基于文档类型的实体识别合作学习算法
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
Tur et al. Combining active and semi-supervised learning for spoken language understanding
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN104239554A (zh) 跨领域跨类别的新闻评论情绪预测方法
CN106126751A (zh) 一种具有时间适应性的分类方法及装置
CN111859983B (zh) 基于人工智能的自然语言标注方法及相关设备
CN111400432A (zh) 事件类型信息处理方法、事件类型识别方法及装置
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN111898550B (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN109508458A (zh) 法律实体的识别方法及装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
KR102144126B1 (ko) 기업을 위한 정보 제공 장치 및 방법
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN112732871A (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN107169061A (zh) 一种融合双信息源的文本多标签分类方法
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
CN111930944B (zh) 文件标签分类方法及装置
CN109635289B (zh) 词条分类方法及审计信息抽取方法
CN111666408A (zh) 重要条款筛选与展示的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant