CN104298714A - 一种基于异常处理的海量文本自动标注方法 - Google Patents

一种基于异常处理的海量文本自动标注方法 Download PDF

Info

Publication number
CN104298714A
CN104298714A CN201410472856.9A CN201410472856A CN104298714A CN 104298714 A CN104298714 A CN 104298714A CN 201410472856 A CN201410472856 A CN 201410472856A CN 104298714 A CN104298714 A CN 104298714A
Authority
CN
China
Prior art keywords
named entity
named
sentence
entity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410472856.9A
Other languages
English (en)
Other versions
CN104298714B (zh
Inventor
刘瑞
左源
王德庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201410472856.9A priority Critical patent/CN104298714B/zh
Publication of CN104298714A publication Critical patent/CN104298714A/zh
Application granted granted Critical
Publication of CN104298714B publication Critical patent/CN104298714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异常处理的海量文本自动标注方法,包括如下步骤:S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储;S2,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注;S3,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。本发明能够有效解决在标注过程中错误标注的问题,提高了文本标注的准确率。

Description

一种基于异常处理的海量文本自动标注方法
技术领域
本发明涉及一种文本标注方法,尤其涉及一种基于异常处理的海量文本自动标注方法,属于自然语言处理技术领域。
背景技术
随着科学技术的飞速发展,各类信息层出不穷,甚至远远超出了人类阅读的能力。如何有效地使用海量数据,从中找出需要的信息越来越受到人们的重视。信息抽取(Information Extraction)是帮助人们使用海量数据的一种技术。它的主要目的是从无结构的自然语言文本中抽取特定的事件、事实等信息,再转化为结构化或半结构化的信息,然后储存在数据库中,供查询以及进一步分析利用,为数据挖掘、问答系统、文本挖掘等应用系统提供重要基础。而实体关系抽取是信息抽取中的重要部分,其任务是从文本中抽取出两个或者多个实体之间预先定义好的语义关系。
远程监督式实体关系抽取是实体关系抽取领域的研究热点之一。远程监督式实体关系抽取首先要使用知识库从海量文本中抽取出训练数据,传统的做法就是使用命名实体解析器从海量文本中识别命名实体,如果一个句子包含两个命名实体并且这两个命名实体具有Freebase中的某个关系,认为这个句子是在描述这两个命名实体之间的关系,把这个句子标注出来,后续再抽取特征、训练分类器。其中,文本标注的准确度直接关系到实体关系抽取后形成的训练分类器的准确性,进而影响后续利用该实体关系进行的数据挖掘、问答系统、文本挖掘等应用的准确性。
然而,远程监督式实体关系抽取方法存在着很多的局限,命名实体解析器根据训练时的情况,可以找出的命名实体类型是有限的,比如斯坦福的命名实体解析器只能识别出人物、组织和地点这三种命名实体类型,不足Freebase中命名实体类型数量的百分之一,召回率也不能很好地满足用户的需求。其次命名实体解析器并不能正确标注出所有的人物、组织和地点实体,会存在错误和遗漏的情况,不能有效地满足文本标注的需求。
发明内容
本发明所要解决的技术问题在于提供一种基于异常处理的海量文本自动标注方法。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于异常处理的海量文本自动标注方法,包括如下步骤:
S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储;
S2,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注;
S3,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。
其中较优地,在S2中使用字符串匹配找出文本中每个句子的命名实体时,首先判断抽取的命名实体在句子中有没有重叠,如果有重叠,则选用长度最长的命名实体,如果没有重叠,则将句子中的所有命名实体全部提取。
其中较优地,对进行过粗标注的句子进行判断时,如果句子中两个命名实体存在单一关系,则该命名实体标注无异常;如果句子中两个命名实体存在多种关系,则该命名实体存在词对异常。
其中较优地,通过过滤算法将有异常的命名实体全部去除掉,得到最终的文本标注结果的过程包括如下步骤:
S31,对进行过粗标注的句子中的命名实体进行类别数量判断,根据类别数量将有命名实体异常的命名实体进行过滤;
S32,当命名实体的类别数量和其他同名实体差异性相当时,通过命名实体出现的频次对有命名实体异常的命名实体进行进一步的过滤;
S33,对于前两步中判定没有命名实体异常的命名实体,使用基于命名实体词性的方法再过滤掉词性异常的命名实体,得到最终的文本标注结果。
其中较优地,对进行过粗标注的句子中的命名实体进行类别数量判断包括如下步骤:
S311,对于命名实体e,在知识库中找出所有与e同名的命名实体,当命名实体e的类别数量多于其他同名实体时,则该命名实体e没有异常;
S312,当命名实体e的类别数量小于其他同名实体时,则命名实体e存在异常,此时把命名实体e过滤掉。
其中较优地,依据文本中命名实体出现的频次对异常的命名实体进行过滤包括如下步骤:
S321,对于命名实体e,统计文本中出现e的句子数量sentencee
S322,当命名实体e出现在关系的实例中时,统计所有包含命名实体e的关系实例出现的句子数量sentencep
S323,通过公式计算偏差系数α;
S324,当偏差系数α小于特定值时,把命名实体e过滤掉。
其中较优地,使用基于命名实体词性的方法再过滤掉词性异常的命名实体的过程包括如下步骤:
S331,对于命名实体e,判断其在文本中的常见词性POSr
S332,当命名实体e是关系r的实例中的第一个实体时,找出关系r所有实例中第一个实体最常见的词性POSr,否则找出关系r所有实例中第二个实体最常见的词性POSr
S333,如果POSe与POSr不相等,则判定命名实体e有异常。
其中较优地,判断命名实体e在文本中的常见词性,首先找出文本中所有包含e的关系实例共现的句子,然后根据命名实体的词性就是其包含多个词语的最后一个词语的词性,得到命名实体e的所有词性,最后统计命名实体出现次数最多的词性,即为命名实体最常见的词性。
本发明提供的基于异常处理的海量文本自动标注方法,通过以知识库作为命名实体的识别依据,能够识别的命名实体类型比较齐全,对句子进行粗标注之后,再依据过滤算法将错误标注的命名实体去除掉,得到最终的文本标注结果,能有效地防止命名实体错误标注的情况,提高了标注的召回率和准确性,有效满足文本标注的需求。
附图说明
图1为本发明所提供的海量文本自动标注方法的流程图;
图2为本发明中,通过过滤算法将有异常的命名实体进行过滤的流程图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。
如图1所示,本发明提供一种基于异常处理的海量文本自动标注方法,包括如下步骤:从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注。最后通过过滤算法将错误标注的命名实体去除掉,得到最终的文本标注结果。下面对这一过程做详细具体的说明。
S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储。
Freebase是一个开放的创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用。Freebase中把一个命名实体叫做Topic,Freebase中的条目都采用结构化数据的形式,例如已故美国总统肯尼迪的Topic中所有的内容是按照Common、Film、Government、People等几个类别进行组织,People的类别中包括出生时间、死亡时间、性别、职业、国籍、配偶等信息,Freebase的这种特性使得它被当作一个巨大的开放知识库来使用,例如美国总统肯尼迪的出生地属性值是Brookline,那么美国总统肯尼迪和Brookline之间的关系是人物地点之间的出生地关系。这样Freebase中每个事实表都可以看作是描述两个命名实体之间的一个关系实例。通过这种处理,从Freebase中可以抽取出海量的关系以及具有关系的命名实体对。在本发明所提供的实施例中,从知识库中提取出海量的命名实体以及存在关系的命名实体对,并将它们分别进行存储,便于后期对海量文本的句子中存在的命名实体进行提取。
S2,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注。
在本发明所提供的实施例中,根据存储的命名实体,通过字符串匹配的方法在海量文本中找出每个句子中存在的命名实体,然后根据存储的命名实体对对找出的命名实体进行划分,找出海量文本中存在关系的命名实体对,根据划分结果找出海量文本中所有存在关系的命名实体对共现的句子,进行粗标注,降低了检索的时间复杂度,提高了检索的效率。
粗标注虽然能够达到100%的召回率,但也使得准确率有所下降。当一个词语(或短语)和Freebase中的一个命名实体完全相同时,它也不一定是在表述这个命名实体,主要有以下几种可能:
(1)部分匹配,例如Freebase中有“New York University”和“York University”这两个实体,当句子中包含“New YorkUniversity”时,虽然这时句子中也包含了“York University”,但句子并不是在表示这个命名实体;
(2)歧义,一个词语(或短语)可能有多种意思,例如“Most”,既可以表示绝大多数,也可以表示捷克的一个小城市。命名实体不会存在歧义,都是明确指代一个事物,但命名实体的词语可以存在歧义,例如作为捷克的一个小城市的命名实体“Most”是没有歧义的,但词语“Most”是有歧义的。在本发明所提供的实施例中,把命名实体的词语有歧义的情况,称为命名实体有歧义。
在本发明所提供的实施例中,面对词语的部分匹配问题,在一个句子中抽取出多个命名实体时,首先判断抽取的命名实体在句子中有没有重叠,如果有重叠,则选用长度最长的命名实体,如果没有重叠,则将句子中的所有命名实体全部提取。而面对命名实体有歧义的问题,则严重损害了粗标注数据的准确率。在本发明所提供的实施例中,将命名实体有歧义分为词对异常和命名实体异常,通过过滤掉这些异常来提升文本标注的准确率。
S3,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体去除掉,得到最终的文本标注结果。
一个词语(或短语)可以表述多个意思,因此句子中出现了命名实体的词语并不表示这个句子一定是在描述这个命名实体。例如“Victoria”既可以表示澳大利亚的一个州,又可以表示加拿大“British Columbia”的首府,句子中出现了“Victoria”这个词并不能确定句子到底描述的是哪个命名实体。面对这种问题,一般通过寻找两个具有关系的命名实体共现的句子,来减少由于词语的歧义引起的错误标注,因为如果一个句子出现了有关系的两个命名实体,那该句子就很可能是描述这两个命名实体。例如“Victoria”表示澳大利亚的一个州时,和“Australia”存在地点之间的包含关系,在表示加拿大“British Columbia”的首府时,和“British Columbia”存在地点之间的包含关系,如果一个句子中同时出现“Victoria”和“British Columbia”,该句子很可能描述的就是加拿大的城市“Victoria”,而不是澳大利亚的州“Victoria”。
但是,当有歧义的词语之间有多个关系时,寻找两个具有关系的命名实体共现的句子的方式不能消除错误的标注。例如“Victoria”可以表示英国的一位女皇,也可以表示伦敦的一个区,这两个实体都和表示地点的命名实体“London”有关系,英国的女皇“Victoria”与地点“London”有人物地点之间的出生地的关系,而伦敦的一个区“Victoria”与地点“London”有地点之间的包含关系。这时如果有一个句子里面同时包含“Victoria”和“London”,就很难判断该句子中的“Victoria”到底描述的是哪个实体。在本发明所提供的实施例中,当两个词语(或短语)之间存在上述多个关系时,则判定句子存在词对异常,当存在异常的词对共同出现在一个句子中时,很难判断出句子中词对的关系,在本发明所提供的实施例中,通过将存在词对异常的句子全都删去,来减少错误标注的数据。
除此之外,一个词语(或短语)可以表示多个命名实体,当这些命名实体的使用频率差距很大时,使用频率低的命名实体很可能产生错误标注的数据。例如“August”既可以表示一年中第八个月,也可以表示美国加州的一个普查规定居民点。表示地点的命名实体“August”和“California”之间具有地点之间的包含关系,在查找这两个命名实体共现的句子时,由于表示八月的命名实体“August”非常常用,因此很可能错误地标注表示八月的“August”和“California”共现的句子,认为它们是两个地点命名实体之间的包含关系,导致了错误标注数据的产生。本发明所提供的实施例中,当一个命名实体出现的所有句子中,一半以上的句子都没有描述这个命名实体时,则判定该命名实体存在异常。当出现命名实体异常时,由于命名实体对共现的句子中绝大多所都不是在表述该命名实体,这时如果通过过滤掉没有表述实体的句子来消除错误标注的句子,很难把所有没表述实体的句子都过滤掉,而且有可能错误过滤掉描述实体的句子。在本发明所提供的实施例中,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。
如图2所示,通过过滤算法将有异常的命名实体全部去除掉,得到最终的文本标注结果的过程包括如下步骤:
S31,对进行过粗标注的句子中的命名实体进行类别数量判断,据类别数量将有命名实体异常的命名实体进行过滤。
知识库Freebase中包括了人类社会海量的信息,包括每个命名实体各个方面的信息,在Freebase中没有同名的实体基本不存在,例如“Beijing”这个意思非常明确的词语,在Freebase中也有几十个同名实体,“Beijing”除了表示中国的首都这个地点,还可以表示一本由Philip Gambone写的书。因此单纯通过Freebase中是否包含同名的其他实体来判断一个实体是否有异常是不行的。
Freebase中的实体可以属于一些类别(Type),一个类别其实就是从一个方面来介绍这个实体,因此一个实体越有名越常用,它所属的类别就越多。例如“Beijing”表示城市、地点时,有32个类别,分别从地点、城市、时区、奥林匹克举办城市等不同侧面记录了北京的信息,而“Beijing”表示书时,只有5个类别,从书、绿色教育等方面介绍了它。
在本发明所提供的实施例中,用实体在Freebase中的类别数量来判断该实体是否是同名实体中最有名最常用的一个。如果一个实体的类别数量多于其他同名实体(当一个命名实体的类别数量是同名实体中最多的,并且类别数量超过了第二和第三多的命名实体类别数量之和,则称该命名实体的类别数量多于其他同名实体。),则该实体没有异常,如果一个实体的Type数量小于其他同名实体(当一个命名实体的类别数量排在同名实体中的类别数量的第三位以后,则称该命名实体的类别数量少于其他同名实体。),则该命名实体异常,当一个命名实体的类别数量不属于上述两种情况时,则称该命名实体的类别数量和其他同名实体没有差异性,当命名实体的类别数量和其他同名实体没有差异性时,依据Freebase中的信息很难判断该命名实体是否有异常。
在本发明所提供的实施例中,判断一个实体的类别数量的过程包括如下步骤:
S311,对于命名实体e,在Freebase中找出所有与e同名的命名实体,当命名实体e的类别数量多于其他同名实体时,则该命名实体e没有异常;
S312,当命名实体e的类别数量小于其他同名实体,则命名实体e存在异常,此时把命名实体e过滤掉。
在本发明所提供的实施例中,当命名实体的类别数量和其他同名实体没有差异性相当时,依据Freebase中的信息很难判断该命名实体是否有异常,需要进一步的过滤来去除掉存在异常的命名实体。
S32,当命名实体的类别数量和其他同名实体差异性相当时,通过命名实体出现的频次对有命名实体异常的命名实体进行进一步的过滤。
当一个命名实体存在异常时,很多出现该命名实体的句子都没有描述这个命名实体,因此该命名实体的统计信息和其他没有异常的命名实体存在显著的区别。在本发明所提供的实施例中,依据海量文本中命名实体出现的频次对异常的命名实体进行过滤,包括如下步骤:
S321,对于命名实体e,统计文本中出现e的句子数量sentencee
S322,当命名实体e出现在关系的实例中时,统计所有包含命名实体e的关系实例平均出现的句子数量sentencep
当命名实体e有异常时,由于歧义导致出现命名实体e的句子总数sentencee很多,但这些句子中实际描述命名实体e的句子总数sentencee很少,实际描述命名实体句子数量与出现命名实体的句子数量的比例sentence′e/sentencee会比其他的命名实体少很多。但描述命名实体e的句子总数sentencee是没办法得到的,在本发明所提供的实施例中,使用命名实体e和与之有关系的命名实体平均共现的句子数量sentencep来替代描述命名实体e的句子总数sentencee,这样有异常的命名实体e的sentencep/sentencee会比其他命名实体少很多。
S323,通过公式计算偏差系数α;
S324,当偏差系数α小于特定值时,把命名实体e舍弃。其中,偏差系数α介于10-6到10之间,在本发明所提供的实施例中,α的特定值取10-2
在本发明所提供的实施例中,偏差系数α介于10-6到10之间,但当命名实体有异常时,a会显著地变小,a小于10-2时就能够很好地区分有异常和没有异常的命名实体。一些和常用词重复的命名实体,例如“Most”、“August”等都被舍弃了,但也有些常见的没有和常用词重复的命名实体也被舍弃了,例如“New York”等。因为a的波动很可能由其他情况引起变化,例如地点“尼斯湖”和“印威内斯市”,他们之间有地点与地点之间的包含关系,“尼斯湖”位于“印威内斯市”。在尼斯湖水怪事件出现之前,“尼斯湖”出现的句子数目和这个实体对共现的句子数量都很低,但尼斯湖水怪事件爆发之后,“尼斯湖”出现的句子数目爆炸性地飞涨,而这个实体对共现的句子还是很少。因此偏差系数a虽然可以在一定程度上发现实体有异常,但也会错误过滤掉一些热门的命名实体。
除此之外,当一个实体的类别数量多于其他同名实体时,则认为该实体没有异常,但是并不能准确地判断出实体是否和常用词重复,因为Freebase中存储的是实体和实体之间的关系,而副词等词语并不会构成实体,也就不会存储在Freebase中。例如,在海量文本中,词语“Most”一定会出现在很多句子中,而且这些句子并没有表述捷克共和国的城市“Most”,但由于和“Most”重复的是一个副词,因此依靠Freebase的知识库是不能将其去除掉的。
S33,对于前两步中判定没有命名实体异常的命名实体,使用基于命名实体词性的方法再过滤掉词性明显异常的命名实体,得到最终的文本标注结果。
当命名实体有异常时,包含该命名实体的关系实例共现的句子的综合信息和关系的其他实例共现句子的信息会有所差异。例如“Most”和“Most District”这两个地点实体,在Wikipedia中寻找共现的句子时,很多句子包含这两个词,但其实表述的并不是这两个实体,在这些句子里面,“Most”的词性并不是名词,而是副词,通过这种词性的区别,可以来判断实体是否有异常。由于一个命名实体可能包含多个词语,在本发明所提供的实施例中,认为一个命名实体的词性就是其中最后一个词语的词性。使用基于命名实体词性的方法再过滤掉词性明显异常的命名实体的过程包括如下步骤:
S331,对于命名实体e,当命名实体e出现在关系r的实例中时,找出海量文本中所有包含e的关系实例共现的句子中,根据命名实体的词性就是其包含多个词语的最后一个词语的词性,得到命名实体e最常见的词性POSe;在本发明所提供的实施例中,命名实体的常见词性就是在海量文本中,命名实体出现最多次数的词性。
S332,当命名实体e是关系r的实例中的第一个实体时,则找出关系r所有实例中第一个实体最常见的词性POSr,否则找出关系r所有实例中第二个实体最常见的词性POSr
S333,如果POSe与POSr不相等,则判定命名实体e有异常,将其过滤掉。
在斯坦福自然语言处理工具包的词法分析器中,词法分析器把名词分为了NN(单数或不可数的名词)、NNS(复数的名词)、NNP(专有名词的单数形式)、NNPS(专有名词的复数形式)四种。使用这样的划分去判断命名实体的词性是否相同,会影响判断的准确性。由于命名实体的词性应该都是名词,为了提高判断的准确性,在本发明所提供的实施例中,只把词性分为名词和其他,名词包括NN、NNS、NNP和NNPS,剩下的词性都归类为其他。当POSe与POSr不相等时,则判定命名实体e有异常,导致句子中提到其实并不是实体。
这种依据命名实体词性的过滤方法可以把词性有明显异常的命名实体过滤掉,而这种词性异常的命名实体在根据类别数量对命名实体进行过滤以及,命名实体出现的频次对命名实体进行进过滤的过程是很难过滤掉的。能进一步提高标注的准确性
综上所述,本发明所提供的基于异常处理的海量文本自动标注方法,以知识库作为命名实体的识别依据,能够识别的命名实体类型比较齐全,对句子进行粗标注之后,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。利用本发明能够有效解决在标注过程中错误标注的问题,提高了文本标注的准确率,有效满足文本标注的需求。
以上对本发明所提供的基于异常处理的海量文本自动标注方法进行了详细的说明。对本领域的技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (8)

1.一种基于异常处理的海量文本自动标注方法,其特征在于包括如下步骤:
S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储;
S2,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注;
S3,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。
2.如权利要求1所述的基于异常处理的海量文本自动标注方法,其特征在于:
在步骤S2中使用字符串匹配找出文本中每个句子的命名实体时,首先判断抽取的命名实体在句子中有没有重叠,如果有重叠,则选用长度最长的命名实体,如果没有重叠,则将句子中的所有命名实体全部提取。
3.如权利要求1所述的基于异常处理的海量文本自动标注方法,其特征在于:
对进行过粗标注的句子进行判断时,如果句子中两个命名实体存在单一关系,则该命名实体标注无异常;如果句子中两个命名实体存在多种关系,则该命名实体存在词对异常。
4.如权利要求1所述的基于异常处理的海量文本自动标注方法,其特征在于通过过滤算法将有异常的命名实体全部去除掉,得到最终的文本标注结果的过程包括如下步骤:
S31,对进行过粗标注的句子中的命名实体进行类别数量判断,根据类别数量将有命名实体异常的命名实体进行过滤;
S32,当命名实体的类别数量和其他同名实体差异性相当时,通过命名实体出现的频次对有命名实体异常的命名实体进行进一步的过滤;
S33,对于前两步中判定没有命名实体异常的命名实体,使用基于命名实体词性的方法再过滤掉词性异常的命名实体,得到最终的文本标注结果。
5.如权利要求4所述的基于异常处理的海量文本自动标注方法,其特征在于对进行过粗标注的句子中的命名实体进行类别数量判断包括如下步骤:
S311,对于命名实体e,在知识库中找出所有与e同名的命名实体,当命名实体e的类别数量多于其他同名实体时,则该命名实体e没有异常;
S312,当命名实体e的类别数量小于其他同名实体时,则命名实体e存在异常,此时把命名实体e过滤掉。
6.如权利要求4所述的基于异常处理的海量文本自动标注方法,其特征在于依据文本中命名实体出现的频次对异常的命名实体进行过滤包括如下步骤:
S321,对于命名实体e,统计文本中出现e的句子数量sentencee
S322,当命名实体e出现在关系的实例中时,统计所有包含命名实体e的关系实例出现的句子数量sentencep
S323,通过公式计算偏差系数α;
S324,当偏差系数α小于特定值时,把命名实体e过滤掉。
7.如权利要求3所述的基于异常处理的海量文本自动标注方法,其特征在于使用基于命名实体词性的方法再过滤掉词性异常的命名实体的过程包括如下步骤:
S331,对于命名实体e,判断其在文本中的常见词性POSr
S332,当命名实体e是关系r的实例中的第一个实体时,找出关系r所有实例中第一个实体最常见的词性POSr,否则找出关系r所有实例中第二个实体最常见的词性POSr
S333,如果POSe与POSr不相等,则判定命名实体e有异常。
8.如权利要求7所述的基于异常处理的海量文本自动标注方法,其特征在于:
判断命名实体e在文本中的常见词性,首先找出文本中所有包含e的关系实例共现的句子,然后根据命名实体的词性就是其包含多个词语的最后一个词语的词性,得到命名实体e的所有词性,最后统计命名实体出现次数最多的词性,即为命名实体最常见的词性。
CN201410472856.9A 2014-09-16 2014-09-16 一种基于异常处理的海量文本自动标注方法 Active CN104298714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410472856.9A CN104298714B (zh) 2014-09-16 2014-09-16 一种基于异常处理的海量文本自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410472856.9A CN104298714B (zh) 2014-09-16 2014-09-16 一种基于异常处理的海量文本自动标注方法

Publications (2)

Publication Number Publication Date
CN104298714A true CN104298714A (zh) 2015-01-21
CN104298714B CN104298714B (zh) 2017-12-08

Family

ID=52318439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410472856.9A Active CN104298714B (zh) 2014-09-16 2014-09-16 一种基于异常处理的海量文本自动标注方法

Country Status (1)

Country Link
CN (1) CN104298714B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN110543634A (zh) * 2019-09-02 2019-12-06 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN111079435A (zh) * 2019-12-09 2020-04-28 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN112800175A (zh) * 2020-11-03 2021-05-14 广东电网有限责任公司 一种电力系统知识实体跨文档搜索方法
CN113655933A (zh) * 2021-08-17 2021-11-16 Oppo广东移动通信有限公司 文本标注方法及装置、存储介质及电子设备
US20220075950A1 (en) * 2019-08-30 2022-03-10 Boe Technology Group Co., Ltd. Data labeling method and device, and storage medium
US11520985B2 (en) 2019-07-31 2022-12-06 International Business Machines Corporation Named entity recognition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
US20140172754A1 (en) * 2012-12-14 2014-06-19 International Business Machines Corporation Semi-supervised data integration model for named entity classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172754A1 (en) * 2012-12-14 2014-06-19 International Business Machines Corporation Semi-supervised data integration model for named entity classification
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱兆龙: "结合聚类去噪和类型约束的distant supervision关系抽取方法", 《中国优秀硕士学位论文全文数据库》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
CN107578769A (zh) * 2016-07-04 2018-01-12 科大讯飞股份有限公司 语音数据标注方法和装置
CN109145120B (zh) * 2018-07-02 2021-11-02 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109145120A (zh) * 2018-07-02 2019-01-04 北京妙医佳信息技术有限公司 医学健康领域知识图谱的关系抽取方法及系统
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
US11520985B2 (en) 2019-07-31 2022-12-06 International Business Machines Corporation Named entity recognition
US20220075950A1 (en) * 2019-08-30 2022-03-10 Boe Technology Group Co., Ltd. Data labeling method and device, and storage medium
US11954439B2 (en) * 2019-08-30 2024-04-09 Boe Technology Group Co., Ltd. Data labeling method and device, and storage medium
CN110543634A (zh) * 2019-09-02 2019-12-06 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN110543634B (zh) * 2019-09-02 2021-03-02 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN111079435A (zh) * 2019-12-09 2020-04-28 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN111079435B (zh) * 2019-12-09 2021-04-06 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN112800175A (zh) * 2020-11-03 2021-05-14 广东电网有限责任公司 一种电力系统知识实体跨文档搜索方法
CN113655933A (zh) * 2021-08-17 2021-11-16 Oppo广东移动通信有限公司 文本标注方法及装置、存储介质及电子设备
CN113655933B (zh) * 2021-08-17 2024-05-31 Oppo广东移动通信有限公司 文本标注方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN104298714B (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
CN104298714A (zh) 一种基于异常处理的海量文本自动标注方法
Ferraresi et al. Introducing and evaluating ukWaC, a very large web-derived corpus of English
Biber Intra-textual variation within medical research articles
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
Mave et al. Language identification and analysis of code-switched social media text
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
US20210064821A1 (en) System and method to extract customized information in natural language text
CN102799577B (zh) 一种中文实体间语义关系抽取方法
Packer et al. Extracting person names from diverse and noisy OCR text
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
Gharatkar et al. Review preprocessing using data cleaning and stemming technique
Brown et al. Mechanized margin to digitized center: black feminism's contributions to combatting erasure within the digital humanities
CN107092675A (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN111782759B (zh) 一种问答处理方法、装置及计算机可读存储介质
Štajner et al. Automatic assessment of conceptual text complexity using knowledge graphs
Paul et al. Detecting hate speech using deep learning techniques
Bach et al. Reference extraction from Vietnamese legal documents
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
Pal et al. Anubhuti--An annotated dataset for emotional analysis of Bengali short stories
US20240012840A1 (en) Method and apparatus with arabic information extraction and semantic search
CN106126501A (zh) 一种基于依存约束和知识的名词词义消歧方法和装置
Hassanat et al. Rule-and dictionary-based solution for variations in written Arabic names in social networks, big data, accounting systems and large databases
Ahnaf et al. An improved extrinsic monolingual plagiarism detection approach of the Bengali text.
Eggi Afaan oromo text retrieval system
Eghbalzadeh et al. Persica: A Persian corpus for multi-purpose text mining and Natural language processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant