CN106598950B - 一种基于混合层叠模型的命名实体识别方法 - Google Patents

一种基于混合层叠模型的命名实体识别方法 Download PDF

Info

Publication number
CN106598950B
CN106598950B CN201611205879.9A CN201611205879A CN106598950B CN 106598950 B CN106598950 B CN 106598950B CN 201611205879 A CN201611205879 A CN 201611205879A CN 106598950 B CN106598950 B CN 106598950B
Authority
CN
China
Prior art keywords
model
recognition
name entity
name
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611205879.9A
Other languages
English (en)
Other versions
CN106598950A (zh
Inventor
贾大宇
王国仁
信俊昌
聂铁铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201611205879.9A priority Critical patent/CN106598950B/zh
Publication of CN106598950A publication Critical patent/CN106598950A/zh
Application granted granted Critical
Publication of CN106598950B publication Critical patent/CN106598950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

一种基于混合层叠模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建混合层叠模型,对预处理后的待识别语料逐层进行识别,将当前层识别出的识别结果添加到基础词典中供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体。本发明的识别准确率和识别召回率有显著提高。

Description

一种基于混合层叠模型的命名实体识别方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于混合层叠模型的命名实体识别方法。
背景技术
伴随着互联网、云计算、移动媒体和物联网等新兴网络的应用,催生了大量用户创造内容的Web2.0技术,使Web应用进入大数据时代,搜索引擎、电子商务、社交网站等一系列互联网衍生业务迅速发展。现时代的大数据具有4个特点,分别为数据量大,数据结构多样性,数据产生的快,具有很高的商业价值。针对大量数据,并不是所有信息都是有用的数据。这就导致大量无效数据与有价值的数据并存的现象出现。因此,在大数据时代如何从庞大的数据集合中找寻出有价值的数据成为目前信息技术的主要挑战。信息抽取技术正是在这个背景下产生的。
信息抽取技术的起源可以追溯到上个世纪70年代,第一个商用信息抽取系统JASPER应用于路透社公司,可以为金融交易员提供实时财经新闻。20世纪80年代末开始,消息理解系列会议的召开使得信息抽取研究迅速发展,使得信息抽取技术从特定领域走向了开放领域,从特定格式的数据类型到无结构化的文本数据类型,从新闻、邮件、论文到所有普通的网页中信息,从手工建模到利用机器学习等统计方法建模。现在信息抽取已经融入到了我们的生活当中,而在信息抽取中,最重要的部分之一就是命名实体识别。
在实际的命名实体识别工作中,由于实体大部分都不在分词系统词典收录的词中,所以识别命名实体的困难主要在于:(1)命名实体数量巨大,同时在文字的创造中,新的名称不断出现,命名实体不可能全部都在收录的词典中;(2)在不同场景和领域下,命名实体的意义有所不同;(3)某些类型的实体名称不断变化,并且没有严格的规律可以遵循,其中以机构名最为复杂;(4)命名实体总有缩写形式出现;(5)实体类型存在歧义性;(6)命名实体表达形式多样;(7)实体名和普通名词之间存在歧义性等。对上述难点进行了优化、解决后,可将成熟的实体识别技术带到学术领域、商品搜索领域等。
对于很多命名实体来说,命名实体本身并不是孤立的,命名实体间存在着互相嵌套的特点。例如:地名中嵌套着一些名人的人名,人名中嵌套着地名,特别是在机构名中嵌套着大量的人名、地名和机构名等。这种命名实体中相互嵌套的现象极大的提升了识别复杂命名实体的难度。
发明内容
本发明提出的一种基于混合层叠模型的命名实体识别方法,在人名实体、地名实体和机构名实体识别准确率和识别召回率方面都有显著的提高。
本发明的技术方案如下:
一种基于混合层叠模型的命名实体识别方法,包括以下步骤:
步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;
步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;
步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;
步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;
步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;
步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。
步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;
步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;
步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;
步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。
步骤4:构建混合层叠模型,包括三层采用自适应的统计识别模型的子模型,分别为人名实体识别模型、地名实体识别模型和机构名实体识别模型,利用基于混合层叠模型对预处理后的待识别语料逐层进行识别,混合层叠模型的每一层都利用基础词典,采用自适应的统计识别模型进行识别,并且将当前层识别出的识别结果添加到基础词典中,供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体。
步骤4-1:混合层叠模型第一层为人名实体识别模型,在人名实体识别模型中,利用基础词典,通过自适应的统计识别的模型,对预处理后的待识别语料进行识别,得到人名实体;将识别出来的人名实体补充到基础词典的人名知识库中,更新基础词典,作为第二层地名识别的基础词典;
步骤4-2:混合层叠模型第二层为地名实体识别模型,在地名实体识别模型中,利用步骤4-1中得到的基础词典,通过自适应的统计识别模型,对预处理后的待识别语料进行识别,得到地名实体;将识别出来的地名实体补充到基础词典的地名知识库中,更新基础词典,作为第三层机构名识别的基础词典;
步骤4-3:混合层叠模型第三层为机构名实体识别模型,在机构名实体识别模型中,利用步骤4-2中得到的基础词典,通过自适应的统计识别模型,对预处理后的待识别语料进行识别,得到机构名实体;将识别出来的机构名实体补充到基础词典的机构名知识库中,更新基础词典。
本发明的有益效果如下:
本发明是一种基于混合层叠模型的命名实体识别方法。在相同的训练集下,基于本发明方法的人名实体、地名实体和机构名实体识别结果与基于目前原有的识别方法的识别结果,即基于前人提出的规则与隐马尔科夫模型相结合的模型的识别结果、规则与条件随机场相结合的模型的识别结果、基于层叠的隐马尔科夫识别模型识别的识别结果等方面,在识别准确率和识别召回率方面都有显著的提高。
附图说明
图1为本发明具体实施方式中的基于混合层叠模型的命名实体识别方法的流程图;
图2为本发明具体实施方式中的预处理过程示意图,(a)为已识别语料预处理过程示意图,(b)为待识别语料预处理过程示意图;
图3为本发明具体实施方式中的初步的命名实体识别过程示意图;
图4为本发明具体实施方式中的基础词典的构建过程图;
图5为本发明具体实施方式中的混合层叠模型识别过程图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明。
本发明提出的一种基于混合层叠模型的命名实体识别方法,在人名实体、地名实体和机构名实体识别准确率和识别召回率方面都有显著的提高。
识别准确率和识别召回率是用来评价命名实体识别结果的质量的,识别准确率是指检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;识别召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;F值是识别准确率和识别召回率的加权调和平均值,即
由此可知,F值是综合了识别准确率和识别召回率的结果,当F值较高时,则说明试验方法比较有效。
一种基于混合层叠模型的命名实体识别方法,混合层叠模型共有三层,第一层主要是通过人名实体识别模型,完成人名实体识别,第二层主要是通过地名实体识别模型,完成地名实体识别,第三层主要是通过机构名实体识别模型,完成机构名实体识别;混合层叠模型的每一层都采用了本发明提出的自适应的统计识别模型和基础词典。识别中每一层都将本层识别出的识别结果添加到基础词典中,供混合层叠模型下一层识别使用。该混合层叠模型不仅结合了不同统计模型的识别优点,还充分利用了实体间互相存在嵌套的特点,大大提升了人名实体、地名实体和机构名实体的识别准确率。
一种基于混合层叠模型的命名实体识别方法,如图1所示,包括以下步骤:
步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;如图2所示,其中图2(a)为已识别语料预处理过程示意图,图2(b)为待识别语料预处理过程示意图,在分词和词性标注过程中可以利用目前现有的自然语言处理工具,如:中科院ICTCLAS分词软件等。
步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;如图3所示,步骤2具体包括如下步骤:
步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;
步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;
步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;
步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。
步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;如图4所示,步骤3具体包括以下步骤:
步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;
步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;
步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。
步骤4:构建混合层叠模型,包括三层采用自适应的统计识别模型的子模型,分别为人名实体识别模型、地名实体识别模型和机构名实体识别模型,利用基于混合层叠模型对预处理后的待识别语料逐层进行识别,混合层叠模型的每一层都利用基础词典,采用自适应的统计识别模型进行识别,并且将当前层识别出的识别结果添加到基础词典中,供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体;如图5所示,步骤4具体包括如下步骤:
步骤4-1:混合层叠模型第一层为人名实体识别模型,在人名实体识别模型中,利用基础词典,通过自适应的统计识别的模型,对预处理后的待识别语料进行识别,得到人名实体;将识别出来的人名实体补充到基础词典的人名知识库中,更新基础词典,作为第二层地名识别的基础词典;
步骤4-2:混合层叠模型第二层为地名实体识别模型,在地名实体识别模型中,利用步骤4-1中得到的基础词典,通过自适应的统计识别模型,对预处理后的待识别语料进行识别,得到地名实体;将识别出来的地名实体补充到基础词典的地名知识库中,更新基础词典,作为第三层机构名识别的基础词典;
步骤4-3:混合层叠模型第三层为机构名实体识别模型,在机构名实体识别模型中,利用步骤4-2中得到的基础词典,通过自适应的统计识别模型,对预处理后的待识别语料进行识别,得到机构名实体;将识别出来的机构名实体补充到基础词典的机构名知识库中,更新基础词典。
虽然以上描述了本发明的具体实施方式,但是本领域内的熟练的技术人员应当理解,这些仅是举例说明,本发明是一种基于混合层叠模型的命名实体识别方法,因此举例说明仅仅是为了说明识别机制的核心思想。在之后的研究中可以对这些实施方式做出多种变更或者修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims (4)

1.一种基于混合层叠模型的命名实体识别方法,其特征在于,包括以下步骤:
步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;
步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;F值是识别准确率和识别召回率的加权调和平均值;
步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;
步骤4:构建混合层叠模型,包括三层采用自适应的统计识别模型的子模型,分别为人名实体识别模型、地名实体识别模型和机构名实体识别模型,利用混合层叠模型对预处理后的待识别语料逐层进行识别,混合层叠模型的每一层都利用基础词典,采用自适应的统计识别模型进行识别,并且将当前层识别出的识别结果添加到基础词典中,供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体。
2.根据权利要求1所述的一种基于混合层叠模型的命名实体识别方法,其特征在于,所述的步骤2包括以下步骤:
步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;
步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;
步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;
步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。
3.根据权利要求1所述的一种基于混合层叠模型的命名实体识别方法,其特征在于,所述的步骤3包括以下步骤:
步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;
步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;
步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。
4.根据权利要求1所述的一种基于混合层叠模型的命名实体识别方法,其特征在于,所述的步骤4包括以下步骤:
步骤4-1:混合层叠模型第一层为人名实体识别模型,在人名实体识别模型中,利用基础词典,通过自适应的统计识别的模型,对预处理后的待识别语料进行识别,得到人名实体;将识别出来的人名实体补充到基础词典的人名知识库中,更新基础词典,作为第二层地名识别的基础词典;
步骤4-2:混合层叠模型第二层为地名实体识别模型,在地名实体识别模型中,利用步骤4-1中得到的基础词典,通过自适应的统计识别模型,对预处理后的待识别语料进行识别,得到地名实体;将识别出来的地名实体补充到基础词典的地名知识库中,更新基础词典,作为第三层机构名识别的基础词典;
步骤4-3:混合层叠模型第三层为机构名实体识别模型,在机构名实体识别模型中,利用步骤4-2中得到的基础词典,通过自适应的统计识别模型,对预处理后的待识别语料进行识别,得到机构名实体;将识别出来的机构名实体补充到基础词典的机构名知识库中,更新基础词典。
CN201611205879.9A 2016-12-23 2016-12-23 一种基于混合层叠模型的命名实体识别方法 Active CN106598950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611205879.9A CN106598950B (zh) 2016-12-23 2016-12-23 一种基于混合层叠模型的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611205879.9A CN106598950B (zh) 2016-12-23 2016-12-23 一种基于混合层叠模型的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN106598950A CN106598950A (zh) 2017-04-26
CN106598950B true CN106598950B (zh) 2019-02-05

Family

ID=58603337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611205879.9A Active CN106598950B (zh) 2016-12-23 2016-12-23 一种基于混合层叠模型的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN106598950B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991085B (zh) * 2017-04-01 2020-08-04 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN107797988A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的混合语料命名实体识别方法
CN107992468A (zh) * 2017-10-12 2018-05-04 北京知道未来信息技术有限公司 一种基于lstm的混合语料命名实体识别方法
CN107977353A (zh) * 2017-10-12 2018-05-01 北京知道未来信息技术有限公司 一种基于lstm-cnn的混合语料命名实体识别方法
CN108596398B (zh) * 2018-05-03 2021-02-19 哈尔滨工业大学 基于条件随机场与Stacking算法的时间序列预测方法和装置
CN109299456B (zh) * 2018-08-28 2022-07-19 昆明理工大学 一种地名识别方法
CN109284358B (zh) * 2018-09-05 2020-08-28 普信恒业科技发展(北京)有限公司 一种中文地址名词分层级的方法和装置
CN109791570B (zh) * 2018-12-13 2023-05-02 香港应用科技研究院有限公司 高效且精确的命名实体识别方法和装置
CN109815296B (zh) * 2018-12-29 2020-12-22 北京中科闻歌科技股份有限公司 公证文档的人物知识库构建方法、装置及存储介质
CN111797626A (zh) * 2019-03-21 2020-10-20 阿里巴巴集团控股有限公司 一种命名实体识别方法及装置
CN110210023A (zh) * 2019-05-23 2019-09-06 竹间智能科技(上海)有限公司 一种实用有效的命名实体识别的计算方法
CN110598210B (zh) * 2019-08-29 2023-08-04 深圳市优必选科技股份有限公司 实体识别模型训练、实体识别方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法
US20140163951A1 (en) * 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法

Also Published As

Publication number Publication date
CN106598950A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN106598950B (zh) 一种基于混合层叠模型的命名实体识别方法
CN106649272B (zh) 一种基于混合模型的命名实体识别方法
CN103207855B (zh) 针对产品评论信息的细粒度情感分析系统及方法
CN105718528B (zh) 基于论文间引用关系的学术地图展示方法
CN103699521B (zh) 文本分析方法及装置
CN101566998B (zh) 一种基于神经网络的中文问答系统
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN103268348B (zh) 一种用户查询意图识别方法
CN105045875B (zh) 个性化信息检索方法及装置
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN106844368A (zh) 用于人机对话的方法、神经网络系统和用户设备
CN103778227A (zh) 从检索图像中筛选有用图像的方法
CN106295796A (zh) 基于深度学习的实体链接方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN106294418B (zh) 检索方法和检索系统
CN110059220A (zh) 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN107870964A (zh) 一种应用于答案融合系统的语句排序方法及系统
CN106934071A (zh) 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置
CN110008327A (zh) 法律回答生成方法及装置
CN106909931A (zh) 一种用于机器学习模型的特征生成方法、装置和电子设备
CN110503508A (zh) 一种层级多粒度矩阵分解的物品推荐方法
CN112818661B (zh) 一种专利技术关键词非监督提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant