CN103164426B - 一种命名实体识别的方法及装置 - Google Patents

一种命名实体识别的方法及装置 Download PDF

Info

Publication number
CN103164426B
CN103164426B CN201110414467.7A CN201110414467A CN103164426B CN 103164426 B CN103164426 B CN 103164426B CN 201110414467 A CN201110414467 A CN 201110414467A CN 103164426 B CN103164426 B CN 103164426B
Authority
CN
China
Prior art keywords
feature information
information set
model
named entity
cognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110414467.7A
Other languages
English (en)
Other versions
CN103164426A (zh
Inventor
刘志超
于晓明
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201110414467.7A priority Critical patent/CN103164426B/zh
Priority to JP2014525305A priority patent/JP2014529787A/ja
Priority to EP12857138.7A priority patent/EP2752776A4/en
Priority to US14/129,987 priority patent/US20140172774A1/en
Priority to PCT/CN2012/086562 priority patent/WO2013086998A1/zh
Publication of CN103164426A publication Critical patent/CN103164426A/zh
Application granted granted Critical
Publication of CN103164426B publication Critical patent/CN103164426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本申请公开了一种用于识别命名实体的识别模型生成方法及装置、以及一种命名实体识别的方法及装置,所述命名实体识别方法包括:获得待训练文本的第一特征信息集;基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。

Description

一种命名实体识别的方法及装置
技术领域
本申请涉及人工智能领域,尤其涉及一种命名实体识别的方法及装置。
背景技术
随着计算机网络规模的日益扩大,大量的信息以电子文档的形式出现在人们面前,互联网已成为海量信息的载体。人们迫切希望计算机能够从海量信息中抽取出有用的信息,而信息抽取的主要任务之一就是命名实体识别(Named Entity Recognized,NER)。
命名实体是指被命名的唯一确定的具有特定意义的最小信息单位——专有名称和数量短语。主要包括有七种类型的命名实体:人名、地名、组织名、日期、时间、货币值和百分数。命名实体识别的主要是任务是识别出文本中的命名实体并加以归类。
在这七种命名实体中,由于人名、地名和组织名等命名实体具有开放性和发展性的特点,并且形成规律具有很大的随机性,所以对它们的识别会有较多的错选或漏选,现在大多数命名实体识别的研究都集中在这三种命名实体的识别技术上。
基于条件随机场(conditional random fields)的命名实体识别,是目前常用的一种命名实体识别方法。该方法将命名实体识别过程分为两层,底层的条件随机场模型仅以观察值为条件,用于简单命名实体的识别。然后,将识别的结果传递到高层识别模型,这样高层模型的输入变量不仅包含观察值,还包含底层模型的简单识别结果,从而为高层条件随机场模型识别复杂命名实体打下基础。
然而在实现本申请实施例中技术方案的过程中,本申请人发现现有技术至少存在如下缺点:
由于现有技术中,只是基于条件随机场的两层模型对命名实体进行识别,而没有考虑到识别出的命名实体的正确与否,所以存在着识别不够准确的技术问题。
发明内容
本发明提供一种命名实体识别的方法及装置,用以解决现有技术中,由于只是基于条件随机场的两层模型对命名实体进行识别,而没有考虑到识别出的命名实体的正确与否,所以存在着识别不够准确的技术问题。
本发明通过本申请中的实施例,提供如下技术方案:
一方面,本发明通过本申请中的一个实施例,提供如下技术方案:
一种用于识别命名实体的识别模型生成方法,包括:
获得待训练文本的第一特征信息集;
对待训练文本的第一特征信息集进行训练,获得第一识别模型;
基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
对所述第二特征信息集中进行训练,获得错误驱动模型。
进一步的,所述获得第一特征信息集,具体为:
获得待训练文本的第三特征信息集;
对待训练文本的第三特征信息集进行训练,获得第三识别模型;
基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。
进一步的,所述获得待训练文本的第三特征信息集,具体为:
获得所述待训练文本;
将所述待训练文本划分为至少一个待训练短句;
获得用于标记所述至少一个待训练短句的标记集合;
基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。
进一步的,所述第三特征信息集具体包括:
所述至少一个待训练短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。
另一方面,本发明通过本申请中的另一实施例提供如下技术方案:
一种命名实体识别的方法,包括如下步骤:
获得待训练文本的第一特征信息集;
基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。
进一步的,所述获得待训练文本的第一特征信息集,具体为:
获得待识别文本的第三特征信息集;
基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或等于零,但小于或等于M的整数。
进一步的,所述基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,还包括:
获取所述K个命名实体的种类信息、位置信息、词性信息。
进一步的,所述获得待识别文本的第三特征信息集,具体为:
获得所述待识别文本;
将所述待识别文本划分为至少一个待识别短句;
获得用于标记所述至少一个待识别短句的标记集合;
基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。
进一步的,所述第一特征信息集具体包括:
所述至少一个待识别短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。
另一方面,本发明通过本申请中的另一实施例提供如下技术方案:
一种用于识别命名实体的识别模型生成装置,包括:
第一特征信息集合获得模块:用户获得待训练文本的第一特征信息集;
第一训练模块获得模块:用于对待训练文本的第一特征信息集进行训练,获得第一识别模型;
第二特征信息集获得模块:基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
错误驱动模型获得模块:用于对所述第二特征信息集中进行训练,获得错误驱动模型。
进一步的,所述第一特征信息集获得模块,具体包括:
第三特征信息集获得单元:用于获得待训练文本的第三特征信息集;
第三识别模型获得单元:用于对待训练文本的第三特征信息集进行训练,获得第三识别模型;
第一特征信息集获得单元:用于基于所述第三识别模型对所述第三特征信 息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。
进一步的,所述第三特征信息集获得单元,具体包括:
待训练文本获得单元:用于获得所述待训练文本;
划分单元:用于将所述待训练文本划分为至少一个待训练短句;
标记集合获得单元:用于获得用于标记所述至少一个待训练短句的标记集合;
标记单元:用于基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。
另一方面,本发明通过本申请中的另一实施例提供如下技术方案:
一种命名实体识别的装置,包括:
第一特征信息集获得模块:用于获得待训练文本的第一特征信息集;
第二特征信息集获得模块:用于基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
错误纠正模块:用于基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。
进一步的,所述第一特征信息集获得模块,主要包括:
第三特征信息集获得单元:用于获得待识别文本的第三特征信息集;
第一特征信息集获得单元:用于基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或 等于零,但小于或等于M的整数。
进一步的,还包括:
K个命名实体信息单元:用于基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,获取所述K个命名实体的种类信息、位置信息、词性信息。
进一步的,所述第三特征信息集获得单元,具体包括:
待识别文本获得单元:用于获得所述待识别文本;
划分单元:用于将所述待识别文本划分为至少一个待识别短句;
标记集合获得单元:用于获得用于标记所述至少一个待识别短句的标记集合;
标记单元:用于基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。
上述技术方案中的一个或多个技术方案,具有如下技术效果或优点:
由于采用了在基于条件随机场模型识别命名实体的基础上采用了错误驱动模型对条件随机场模型识别出的命名实体进行错误纠正的技术方案,故而达到了提高命名实体识别准确性、其中简单命名实体的识别准确率达到97.35、复杂命名实体识别准确率达到87.6%的技术效果。
附图说明
图1为本申请实施例一中识别命名实体的识别模型生成方法的流程图;
图2为本申请实施例一中获得待训练文本的第一特征信息集的流程图;
图3为本申请实施例一中获得待训练文本的第三特征信息集的流程图;
图4为本申请实施例一、二中待训练文本和待识别文本的第一特征信息集的标准模式;
图5为本申请实施例二中命名实体识别的方法的流程图;
图6为本申请实施例二中获得待识别文本的第一特征信息集的流程图;
图7为本申请实施例二中获得待识别文本的第一特征信息集的流程图;
图8为本申请实施例三中识别命名实体的识别模型生成装置的方框图;
图9为本申请实施例四中命名实体识别的装置的方框图。
具体实施方式
为了使本申请所属技术领域中的技术人员更清楚地理解本申请,下面结合附图,通过具体实施例对本申请技术方案作详细描述。
请参考图1至图4,本申请实施例一提供一种用于识别命名实体的识别模型生成方法,包括如下步骤:
S101:获得待训练文本的第一特征信息集;
进一步的,所述获得第一特征信息集,如图2所示,具体为:
S201:获得待训练文本的第三特征信息集;
进一步的,所述获得待训练文本的第三特征信息集,如图3所示,具体为:
S301:获得所述待训练文本;
S302:将所述待训练文本划分为至少一个待训练短句;
S303:获得用于标记所述至少一个待训练短句的标记集合;
S304:基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。 
进一步的,所述第三特征信息集具体包括:
所述至少一个待训练短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。
在具体实施过程中,如图4所示,假设待训练文本为“张三主持会议通过九届全国人大一次会议有关议案本报北京”,那么先基于一定的规则,将这段待训练文本划分成待训练短句。
空行404:表示各个待训练短句之间的分割线。
然后可以获得用户标记所述至少一个待训练短句的标记集合,在本申请实施例一中,标记集合为:
C={BR,IR,BT,IT,BS,IS,BZ,IZ}
其中:BR标记人名的第一个字;
IR标记人名的其余字;
BT标记机构名的第一个字;
IT标记机构名的其余字;
BS标记地名的第一个字;
IS标记机构名的其余字;
BZ标记其他命名实体的第一个字;
IZ标记其他命名实体的其余字。
但是在具体实施过程中,标记集合不限于C={BR,IR,BT,IT,BS,IS,BZ,IZ}的形式,只要本申请所属领域的技术人员所设置的标记所达到的技术效果与本申请达到的技术效果相同,都属于本申请发明思想概念范围内。
然后经过标记,待训练文本就被处理成如图3所示的条件随机场训练所需的第三特征信息集的模式。其中:
401:指的是一个文字的特征信息;
402:是文字的标记集合;
403:指的是多个文字的特征信息。
在具体实施过程中,条件随进场训练所需的第三特征信息集,不限于如图4所示的模式,可能根据具体情况,增加一些参数或者减少一些参数,但是只要本申请所属领域的技术人员所选择的第一特征信息集和本申请所达到的技术效 果相同,都属于本申请发明思想概念的范围内。
S202:对待训练文本的第三特征信息集进行训练,获得第三识别模型;
在具体实施过程中,对待训练文本的第三特征信息集进行训练时,是基于一第三特征模板进行训练的。
S203:基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。
S102:对待训练文本的第一特征信息集进行训练,获得第一识别模型;
在具体实施过程中,对待训练文本的第一特征信息集进行训练,是基于一第一特征模板进行训练的。
S103:基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
S104:对所述第二特征信息集进行训练,获得错误驱动模型。
在具体实施过程中,对第二特征信息集进行训练,是基于一第二特征模板进行训练的。
另外,获得的错误驱动模型,主要是用于识别第二特征信息集中获得的M个命名实体是否识别错误。
在具体实施过程中,第一特征模板、第二特征模板以及第三特征模板,可以在多个特征模板中经过多次优化,选择识别效果最好的特征模板。其具体优化方式可以是:在基于第一特征模板对第一特征信息集进行识别获得简单识别模型后,对其进行识别,然后调整第一特征模板,再对第一特征信息集进行识别,然后再识别,以此选择最优的第一特征模板,第二特征模板、第三特征模板的选择过程和第一特征模板的选择过程类似;也可以是:先选择第一特征模 板、第二特征模板、第三特征模板,然后对第一特征信息集进行识别,获得简单识别模型、复杂识别模型和错误驱动模型,最后总体进行识别,以选择最优的特征模板。但是,在具体实施过程中,第一特征模板、第二特征模板、第三特征模板的选择方式不限于上述方式,只要本申请所属领域的技术人员所选择的第一特征模板、第二特征模板、第三特征模板所达到的技术效果与本申请所达到的技术效果等同,都属于本申请的发明思想概念范围以内。
请参考图5,本申请实施例二提供一种命名实体识别的方法,包括如下步骤:
S501:获得待识别文本的第一特征信息集;
进一步的,所述获得待识别文本的第一特征信息集,如图6所示,具体为:
S601:获得待识别文本的第三特征信息集;
进一步的,所述获得待识别文本的第三特征信息集,如图7所示,具体为:
S701:获得所述待识别文本;
S702:将所述待识别文本划分为至少一个待识别短句;
S703:获得用于标记所述至少一个待识别短句的标记集合;
S704:基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。 
进一步的,所述第一特征信息集具体包括:
所述至少一个待识别短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。
在具体实施过程中,获得待识别文本的第三特征信息集和获得待训练文本的第一特征信息集,其获得过程差不多,以待识别文本为“张三主持会议通过九届全国人大一次会议有关议案本报北京”为例,那么先将所述待识别文本处理成如图4所示的第三特征信息集的形式。当然,在具体实施过程中,生成待训练文本和待识别文本的第三特征信息集是两个完全不同的过程,所以基于不同的条件因素,即是是相同的文本,所生成的待训练文本的第三特征信息集和 待识别文本的第三特征信息集也未必相同。
S602:基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或等于零,但小于或等于M的整数。
S502:基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
在具体实施过程中,第二识别模型识别的命名实体中是所有命名实体中较为简单、容易识别的部分。假设基于第二识别模型对前面的待识别文本进行识别,获得的命名实体为“张三”“北京”。那么先将这两个命名实体于第二特征信息集中进行标记,其标记方式和第一特征信息集的标记方式相同,也是采用的标记集合C对其进行标记,当然也可以采用其他第一识别模型能够识别的标记方式。
S503:基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。
由于,基于第一识别模型和第二识别模型识别出的命名实体中可能存在错误的命名实体,所以要基于错误驱动模型对其进行修正。例如,前面识别出三个命名实体“张三”“北京”“全国人”,经过错误驱动模型判断“全国人”识别错误,应该是“全国人大”,所以对其进行修正。最后获得三个命名实体为“张三”“北京”“全国人大”。
进一步的,所述基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,还包括:
获取所述K个命名实体的种类信息、位置信息、词性信息。
在具体实施过程中,由于识别出的命名实体未必能直接应用,所以还要提取出命名实体的各种属性信息,比如种类信息、位置信息和词性信息,以满足不同应用场合的需求。当然,在具体实施过程中,提取出的属性信息不限于命名实体的种类信息、位置信息和词性信息,只要本申请所属领域的技术人员所提取出的属性信息所达到的技术效果和本申请所达到的技术效果等同,都属于本申请的发明思想概念范围内。
请参考图8,本申请实施例三提供一种用于识别命名实体的识别模型生成装置,如图8所示,包括:
第一特征信息集合获得模块801:用户获得待训练文本的第一特征信息集;
进一步的,所述第一特征信息集获得模块,具体包括:
第三特征信息集获得单元:用于获得待训练文本的第三特征信息集;
进一步的,所述第三特征信息集获得单元,具体包括:
待训练文本获得单元:用于获得所述待训练文本;
划分单元:用于将所述待训练文本划分为至少一个待训练短句;
标记集合获得单元:用于获得用于标记所述至少一个待训练短句的标记集合;
标记单元:用于基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。
第三识别模型获得单元:用于对待训练文本的第三特征信息集进行训练,获得第三识别模型;
第一特征信息集获得单元:用于基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。
第一训练模块获得模块802:用于对待训练文本的第一特征信息集进行训 练,获得第一识别模型;
第二特征信息集获得模块803:基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
错误驱动模型获得模块804:用于对所述第二特征信息集中进行训练,获得错误驱动模型。
由于本申请实施三中的装置为与实施本申请实施例一中的方法所对应的装置,所以基于本申请实施例一中的方法,本领域所属技术人员能够了解本申请实施三中的装置的具体实施方法以及本申请实施三的装置的各种变化形式。所以在此对于该装置的运行不再详细介绍,只要本领域所属技术人员基于本申请实施例一中的方法所采用的装置,都属于本申请所欲保护的范围。
请参考图9,本申请实施例四提供一种命名实体识别的装置,包括如下结构:
第一特征信息集获得模块901:用于获得待训练文本的第一特征信息集;
进一步的所述第一特征信息集获得模块901,主要包括:
第三特征信息集获得单元:用于获得待识别文本的第三特征信息集;
进一步的所述第三特征信息集获得单元,具体包括:
待识别文本获得单元:用于获得所述待识别文本;
划分单元:用于将所述待识别文本划分为至少一个待识别短句;
标记集合获得单元:用于获得用于标记所述至少一个待识别短句的标记集合;
标记单元:用于基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。
第一特征信息集获得单元:用于基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别 模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或等于零,但小于或等于M的整数。
第二特征信息集获得模块902:用于基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
错误纠正模块903:用于基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。
进一步的,所述装置还包括:
K个命名实体信息单元:用于基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,获取所述K个命名实体的种类信息、位置信息、词性信息。
由于本申请实施四中的装置为与实施本申请实施例二中的方法所对应的装置,所以基于本申请实施例二中的方法,本领域所属技术人员能够了解本申请实施四中的装置的具体实施方法以及本申请实施四的装置的各种变化形式。所以在此对于该装置的运行不再详细介绍,只要本领域所属技术人员基于本申请实施例二中的方法所采用的装置,都属于本申请所欲保护的范围。
上述技术方案中的一个或多个技术方案,具有如下技术效果或优点:
由于采用了在基于条件随机场模型识别命名实体的基础上采用了错误驱动模型对条件随机场模型识别出的命名实体进行错误纠正的技术方案,故而达到了提高命名实体识别准确性的技术效果。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种用于识别命名实体的识别模型生成方法,其特征在于,包括:
获得待训练文本的第一特征信息集;
对待训练文本的第一特征信息集进行训练,获得第一识别模型;
基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
对所述第二特征信息集中进行训练,获得错误驱动模型。
2.如权利要求1所述的方法,其特征在于,所述获得第一特征信息集,具体为:
获得待训练文本的第三特征信息集;
对待训练文本的第三特征信息集进行训练,获得第三识别模型;
基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。
3.如权利要求2所述的方法,其特征在于,所述获得待训练文本的第三特征信息集,具体为:
获得所述待训练文本;
将所述待训练文本划分为至少一个待训练短句;
获得用于标记所述至少一个待训练短句的标记集合;
基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。
4.如权利要求3所述的方法,其特征在于,所述第三特征信息集具体包括:
所述至少一个待训练短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。
5.一种命名实体识别的方法,其特征在于,包括:
获得待训练文本的第一特征信息集,所述获得待训练文本的第一特征信息集,具体为:
获得待识别文本的第三特征信息集;
基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或等于零,但小于或等于M的整数;
基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。
6.如权利要求5所述的方法,其特征在于,所述基于所述错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,还包括:
获取所述K个命名实体的种类信息、位置信息、词性信息。
7.如权利要求5所述的方法,其特征在于,所述获得待识别文本的第三特征信息集,具体为:
获得所述待识别文本;
将所述待识别文本划分为至少一个待识别短句;
获得用于标记所述至少一个待识别短句的标记集合;
基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。
8.如权利要求7所述的方法,其特征在于,所述第一特征信息集具体包括:
所述至少一个待识别短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。
9.一种用于识别命名实体的识别模型生成装置,其特征在于,包括:
第一特征信息集合获得模块:用户获得待训练文本的第一特征信息集;
第一训练模块获得模块:用于对待训练文本的第一特征信息集进行训练,获得第一识别模型;
第二特征信息集获得模块:基于所述第一识别模型对所述第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
错误驱动模型获得模块:用于对所述第二特征信息集中进行训练,获得错误驱动模型。
10.如权利要求9所述的装置,其特征在于,所述第一特征信息集获得模块,具体包括:
第三特征信息集获得单元:用于获得待训练文本的第三特征信息集;
第三识别模型获得单元:用于对待训练文本的第三特征信息集进行训练,获得第三识别模型;
第一特征信息集获得单元:用于基于所述第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体,其中所述N为大于或等于零,但是小于等于M的整数。
11.如权利要求10所述的装置,其特征在于,所述第三特征信息集获得单元,具体包括:
待训练文本获得单元:用于获得所述待训练文本;
划分单元:用于将所述待训练文本划分为至少一个待训练短句;
标记集合获得单元:用于获得用于标记所述至少一个待训练短句的标记集合;
标记单元:用于基于所述标记集合对所述至少一个待训练短句进行标记,获得第三特征信息集。
12.一种命名实体识别的装置,其特征在于,包括:
第一特征信息集获得模块:用于获得待训练文本的第一特征信息集,所述第一特征信息集获得模块,主要包括:
第三特征信息集获得单元:用于获得待识别文本的第三特征信息集;
第一特征信息集获得单元:用于基于第三识别模型对所述第三特征信息集进行识别,获得第一特征信息集,所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体,所述N为大于或等于零,但小于或等于M的整数;
第二特征信息集获得模块:用于基于第一识别模型对待训练文本的第一特征信息集进行识别,获得第二特征信息集,所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体,所述M为大于或等于零的整数;
错误纠正模块:用于基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体,所述K为大于或等于零、但小于等于M的整数。
13.如权利要求12所述的装置,其特征在于,还包括:
K个命名实体信息单元:用于基于所述错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正,获得K个命名实体之后,获取所述K个命名实体的种类信息、位置信息、词性信息。
14.如权利要求12所述的装置,其特征在于,所述第三特征信息集获得单元,具体包括:
待识别文本获得单元:用于获得所述待识别文本;
划分单元:用于将所述待识别文本划分为至少一个待识别短句;
标记集合获得单元:用于获得用于标记所述至少一个待识别短句的标记集合;
标记单元:用于基于所述标记集合对所述至少一个待识别短句进行标记,获得第三特征信息集。
CN201110414467.7A 2011-12-13 2011-12-13 一种命名实体识别的方法及装置 Active CN103164426B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201110414467.7A CN103164426B (zh) 2011-12-13 2011-12-13 一种命名实体识别的方法及装置
JP2014525305A JP2014529787A (ja) 2011-12-13 2012-12-13 固有表現の認識方法及び装置
EP12857138.7A EP2752776A4 (en) 2011-12-13 2012-12-13 METHOD AND DEVICE FOR DETECTING NOMINATED UNITS
US14/129,987 US20140172774A1 (en) 2011-12-13 2012-12-13 Method and device for named-entity recognition
PCT/CN2012/086562 WO2013086998A1 (zh) 2011-12-13 2012-12-13 一种命名实体识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110414467.7A CN103164426B (zh) 2011-12-13 2011-12-13 一种命名实体识别的方法及装置

Publications (2)

Publication Number Publication Date
CN103164426A CN103164426A (zh) 2013-06-19
CN103164426B true CN103164426B (zh) 2015-10-28

Family

ID=48587521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110414467.7A Active CN103164426B (zh) 2011-12-13 2011-12-13 一种命名实体识别的方法及装置

Country Status (5)

Country Link
US (1) US20140172774A1 (zh)
EP (1) EP2752776A4 (zh)
JP (1) JP2014529787A (zh)
CN (1) CN103164426B (zh)
WO (1) WO2013086998A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679885B (zh) * 2015-03-17 2018-03-30 北京理工大学 一种基于语义特征模型的用户搜索串机构名识别方法
CN105045847B (zh) * 2015-07-01 2018-05-25 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN105630768B (zh) * 2015-12-23 2018-10-12 北京理工大学 一种基于层叠条件随机场的产品名识别方法及装置
CN107423278B (zh) * 2016-05-23 2020-07-14 株式会社理光 评价要素的识别方法、装置及系统
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106503192B (zh) * 2016-10-31 2019-10-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN108062302B (zh) * 2016-11-08 2019-03-26 北京国双科技有限公司 一种文本信息的识别方法及装置
CN108509441A (zh) * 2017-02-24 2018-09-07 菜鸟智能物流控股有限公司 一种地址有效性分类器的训练及其验证方法和相关装置
CN108108215B (zh) * 2017-12-19 2021-07-27 北京百度网讯科技有限公司 皮肤生成方法、装置、终端和计算机可读存储介质
US11086913B2 (en) 2018-01-02 2021-08-10 Freshworks Inc. Named entity recognition from short unstructured text
CN108763218A (zh) * 2018-06-04 2018-11-06 四川长虹电器股份有限公司 一种基于crf的影视检索实体识别方法
US10853576B2 (en) * 2018-12-13 2020-12-01 Hong Kong Applied Science and Technology Research Institute Company Limited Efficient and accurate named entity recognition method and apparatus
CN109791570B (zh) * 2018-12-13 2023-05-02 香港应用科技研究院有限公司 高效且精确的命名实体识别方法和装置
US10635751B1 (en) * 2019-05-23 2020-04-28 Capital One Services, Llc Training systems for pseudo labeling natural language
CN110543638B (zh) * 2019-09-10 2022-12-27 杭州橙鹰数据技术有限公司 一种命名实体识别的方法和装置
CN112749561B (zh) * 2020-04-17 2023-11-03 腾讯科技(深圳)有限公司 一种实体识别方法及设备
CN112560430B (zh) * 2020-12-25 2024-04-02 北京百度网讯科技有限公司 文本中数值内容的纠错方法、装置及电子设备
CN112765985B (zh) * 2021-01-13 2023-10-27 中国科学技术信息研究所 一种面向特定领域专利实施例的命名实体识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN102103594A (zh) * 2009-12-22 2011-06-22 北京大学 字符数据识别及处理的方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
TWI256562B (en) * 2002-05-03 2006-06-11 Ind Tech Res Inst Method for named-entity recognition and verification
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
CN1977261B (zh) * 2004-05-28 2010-05-05 新加坡科技研究局 用于字序列处理的方法和系统
JP2006330935A (ja) * 2005-05-24 2006-12-07 Fujitsu Ltd 学習データ作成プログラム、学習データ作成方法および学習データ作成装置
KR100750886B1 (ko) * 2005-12-09 2007-08-22 한국전자통신연구원 학습 데이터 구축 장치 및 방법
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8458520B2 (en) * 2008-12-01 2013-06-04 Electronics And Telecommunications Research Institute Apparatus and method for verifying training data using machine learning

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095310A1 (en) * 2003-04-24 2004-11-04 Soon-Jo Woo Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it
CN1777888A (zh) * 2003-04-24 2006-05-24 禹蕣朝 基于移动结构概念的句子结构分析及使用其的自然语言搜索
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN102103594A (zh) * 2009-12-22 2011-06-22 北京大学 字符数据识别及处理的方法和装置
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法

Also Published As

Publication number Publication date
US20140172774A1 (en) 2014-06-19
CN103164426A (zh) 2013-06-19
EP2752776A4 (en) 2014-12-17
EP2752776A1 (en) 2014-07-09
JP2014529787A (ja) 2014-11-13
WO2013086998A1 (zh) 2013-06-20

Similar Documents

Publication Publication Date Title
CN103164426B (zh) 一种命名实体识别的方法及装置
CN110909548B (zh) 中文命名实体识别方法、装置及计算机可读存储介质
EP3477495A1 (en) Apparatus and method for extracting user keyword, and computer-readable storage medium
CN106155686A (zh) 界面生成方法、装置和系统
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN109918554A (zh) 网页数据爬取方法、装置、系统及计算机可读存储介质
CN106776503A (zh) 文本语义相似度的确定方法及装置
CN103294664A (zh) 开放领域新词发现的方法及系统
CN110287785A (zh) 文本结构化信息提取方法、服务器及存储介质
CN108710611A (zh) 一种基于词网络和词向量的短文本主题模型生成方法
SG10201811578RA (en) Predictive query processing for complex system lifecycle management
CN107391675A (zh) 用于生成结构化信息的方法和装置
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
CN107491536A (zh) 一种试题校验方法、试题校验装置及电子设备
CN102637199A (zh) 一种基于半监督主题建模的图像标注方法
CN109901835B (zh) 布局元素的方法、装置、设备及存储介质
CN105718935A (zh) 一种适宜于视觉大数据的词频直方图计算方法
CN103309851B (zh) 短文本的垃圾识别方法及系统
CN108920955A (zh) 一种网页后门检测方法、装置、设备及存储介质
CN112069782A (zh) 文档模板生成方法、装置、电子设备及存储介质
CN115346095A (zh) 视觉问答方法、装置、设备及存储介质
CN103632020A (zh) Excel预算系统
CN108196850A (zh) 一种应用于可变信息印刷的自动数据处理与拼版方法
Li et al. WSpeller: Robust word segmentation for enhancing Chinese spelling check
CN102663040A (zh) 基于正负对约束数据的kl距离训练得到属性列权重的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220620

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.