CN106649272A - 一种基于混合模型的命名实体识别方法 - Google Patents

一种基于混合模型的命名实体识别方法 Download PDF

Info

Publication number
CN106649272A
CN106649272A CN201611205877.XA CN201611205877A CN106649272A CN 106649272 A CN106649272 A CN 106649272A CN 201611205877 A CN201611205877 A CN 201611205877A CN 106649272 A CN106649272 A CN 106649272A
Authority
CN
China
Prior art keywords
name
recognition
knowledge base
recognizing
basic dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611205877.XA
Other languages
English (en)
Other versions
CN106649272B (zh
Inventor
信俊昌
贾大宇
王国仁
聂铁铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201611205877.XA priority Critical patent/CN106649272B/zh
Publication of CN106649272A publication Critical patent/CN106649272A/zh
Application granted granted Critical
Publication of CN106649272B publication Critical patent/CN106649272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于混合模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成的基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建基于基础词典和自适应的统计识别模型的混合模型,对待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别结果补充到知识库中,更新基础词典,供下一次识别使用。本发明的识别准确率和识别召回率有显著提高。

Description

一种基于混合模型的命名实体识别方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于混合模型的命名实体识别方法。
背景技术
伴随着互联网、云计算、移动媒体和物联网等新兴网络的应用,催生了大量用户创造内容的Web2.0技术,使Web应用进入大数据时代,搜索引擎、电子商务、社交网站等一系列互联网衍生业务迅速发展。现时代的大数据具有4个特点,分别为数据量大,数据结构多样性,数据产生的快,具有很高的商业价值。针对大量数据,并不是所有信息都是有用的数据。这就导致大量无效数据与有价值的数据并存的现象出现。因此,在大数据时代如何从庞大的数据集合中找寻出有价值的数据成为目前信息技术的主要挑战。信息抽取技术正是在这个背景下产生的。
信息抽取技术的起源可以追溯到上个世纪70年代,第一个商用信息抽取系统JASPER应用于路透社公司,可以为金融交易员提供实时财经新闻。20世纪80年代末开始,消息理解系列会议的召开使得信息抽取研究迅速发展,使得信息抽取技术从特定领域走向了开放领域,从特定格式的数据类型到无结构化的文本数据类型,从新闻、邮件、论文到所有普通的网页中信息,从手工建模到利用机器学习等统计方法建模。现在信息抽取已经融入到了我们的生活当中,而在信息抽取中,最重要的部分之一就是命名实体识别。
在实际的命名实体识别工作中,由于实体大部分都不在分词系统词典收录的词中,所以识别命名实体的困难主要在于:(1)命名实体数量巨大,同时在文字的创造中,新的名称不断出现,命名实体不可能全部都在收录的词典中;(2)在不同场景和领域下,命名实体的意义有所不同;(3)某些类型的实体名称不断变化,并且没有严格的规律可以遵循,其中以机构名最为复杂;(4)命名实体总有缩写形式出现;(5)实体类型存在歧义性;(6)命名实体表达形式多样;(7)实体名和普通名词之间存在歧义性等。对上述难点进行了优化、解决后,可将成熟的实体识别技术带到学术领域、商品搜索领域等。
对于很多命名实体来说,命名实体本身并不是孤立的,命名实体间存在着互相嵌套的特点。例如:地名中嵌套着一些名人的人名,人名中嵌套着地名,特别是在机构名中嵌套着大量的人名、地名和机构名等。这种命名实体中相互嵌套的现象极大的提升了识别复杂命名实体的难度。
发明内容
本发明提出的一种基于混合模型的命名实体识别方法,在人名实体、地名实体和机构名实体识别准确率和识别召回率方面都有显著的提高。
本发明的技术方案如下:
一种基于混合模型的命名实体识别方法,包括以下步骤:
步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;
步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;
步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;
步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;
步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;
步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。
步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;
步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;
步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;
步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。
步骤4:构建基于基础词典和自适应的统计识别模型的混合模型,在混合模型中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别出的识别结果补充到基础词典的知识库中,更新基础词典,供下一次识别使用。
本发明的有益效果如下:
本发明是一种基于混合模型的命名实体识别方法。在相同的训练集下,基于本发明方法的人名实体、地名实体和机构名实体识别结果与基于目前原有的识别方法的识别结果,即基于前人提出的规则与隐马尔科夫模型相结合的模型的识别结果、规则与条件随机场相结合的模型的识别结果、基于层叠的隐马尔科夫识别模型识别的识别结果等方面,在识别准确率和识别召回率方面都有显著的提高。
附图说明
图1为本发明具体实施方式中的基于混合模型的命名实体识别方法的流程图;
图2为本发明具体实施方式中的预处理过程示意图,(a)为已识别语料预处理过程示意图,(b)为待识别语料预处理过程示意图;
图3为本发明具体实施方式中的初步的命名实体识别过程示意图;
图4为本发明具体实施方式中的基础词典的构建过程图;
图5为本发明具体实施方式中的以人名实体识别过程为例的混合模型识别过程图。
具体实施方式
下面结合附图对本发明的具体实施方式做详细说明。
本发明提出的一种基于混合模型的命名实体识别方法,在人名实体、地名实体和机构名实体识别准确率和识别召回率方面都有显著的提高。
识别准确率和识别召回率是用来评价命名实体识别结果的质量的,识别准确率是指检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;识别召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;F值是识别准确率和识别召回率的加权调和平均值,即
由此可知,F值是综合了识别准确率和识别召回率的结果,当F值较高时,则说明试验方法比较有效。
一种基于混合模型的命名实体识别方法,如图1所示,包括以下步骤:
步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;如图2所示,其中图2(a)为已识别语料预处理过程示意图,图2(b)为待识别语料预处理过程示意图,在分词和词性标注过程中可以利用目前现有的自然语言处理工具,如:中科院ICTCLAS分词软件等。
步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;如图3所示,步骤2具体包括如下步骤:
步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;
步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;
步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;
步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。
步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;如图4所示,步骤3具体包括以下步骤:
步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;
步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;
步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。
步骤4:构建基于基础词典和自适应的统计识别模型的混合模型,在混合模型中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别出的识别结果补充到基础词典的知识库中,更新基础词典,供下一次识别使用。以人名实体识别过程为例的混合模型识别过程图如图5所示,在人名实体识别过程中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到人名实体,将识别出来的人名实体补充到基础词典的人名知识库中,更新基础词典,作为下一次识别的基础词典。
虽然以上描述了本发明的具体实施方式,但是本领域内的熟练的技术人员应当理解,这些仅是举例说明,本发明是一种基于混合模型的命名实体识别方法,因此举例说明仅仅是为了说明识别机制的核心思想。在之后的研究中可以对这些实施方式做出多种变更或者修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims (3)

1.一种基于混合模型的命名实体识别方法,其特征在于,包括以下步骤:
步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;
步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;
步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;
步骤4:构建基于基础词典和自适应的统计识别模型的混合模型,在混合模型中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别出的识别结果补充到基础词典的知识库中,更新基础词典,供下一次识别使用。
2.根据权利要求1所述的一种基于混合模型的命名实体识别方法,其特征在于,所述的步骤2包括以下步骤:
步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;
步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;
步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;
步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。
3.根据权利要求1所述的一种基于混合模型的命名实体识别方法,其特征在于,所述的步骤3包括以下步骤:
步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;
步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;
步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。
CN201611205877.XA 2016-12-23 2016-12-23 一种基于混合模型的命名实体识别方法 Active CN106649272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611205877.XA CN106649272B (zh) 2016-12-23 2016-12-23 一种基于混合模型的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611205877.XA CN106649272B (zh) 2016-12-23 2016-12-23 一种基于混合模型的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN106649272A true CN106649272A (zh) 2017-05-10
CN106649272B CN106649272B (zh) 2019-06-25

Family

ID=58828057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611205877.XA Active CN106649272B (zh) 2016-12-23 2016-12-23 一种基于混合模型的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN106649272B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291700A (zh) * 2017-07-17 2017-10-24 广州特道信息科技有限公司 实体词识别方法及装置
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN107480197A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 实体词识别方法及装置
CN107797987A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN108009229A (zh) * 2017-11-29 2018-05-08 厦门市美亚柏科信息股份有限公司 舆情事件数据发现的方法、终端设备及存储介质
CN108255806A (zh) * 2017-12-22 2018-07-06 北京奇艺世纪科技有限公司 一种人名识别方法及装置
CN108256063A (zh) * 2018-01-15 2018-07-06 中国人民解放军国防科技大学 一种面向网络安全的知识库构建方法
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN110348015A (zh) * 2019-07-12 2019-10-18 北京百奥知信息科技有限公司 一种自动标注医学文本中实体的方法
CN111062216A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及系统
CN111881685A (zh) * 2020-07-20 2020-11-03 南京中孚信息技术有限公司 基于小粒度策略混合模型的汉语命名实体识别方法及系统
CN112507703A (zh) * 2020-12-07 2021-03-16 医渡云(北京)技术有限公司 医学实体识别方法、装置、介质及电子设备
CN112818694A (zh) * 2021-03-02 2021-05-18 浙江工业大学 一种基于规则和改进预训练模型的命名实体识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314417A (zh) * 2011-09-22 2012-01-11 西安电子科技大学 基于统计模型的Web命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GALEN ANDREW: "A Hybrid Markov/Semi-Markov Conditional Random Field for Sequence Segmentation", 《PROCEEDINGS OF THE 2006 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
张晓艳 等: "基于混合统计模型的汉语命名实体识别方法", 《计算机工程与科学》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN107291700A (zh) * 2017-07-17 2017-10-24 广州特道信息科技有限公司 实体词识别方法及装置
CN107480197A (zh) * 2017-07-17 2017-12-15 广州特道信息科技有限公司 实体词识别方法及装置
CN107480197B (zh) * 2017-07-17 2020-12-18 云润大数据服务有限公司 实体词识别方法及装置
CN107797987A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN107797987B (zh) * 2017-10-12 2021-02-09 北京知道未来信息技术有限公司 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN108009229A (zh) * 2017-11-29 2018-05-08 厦门市美亚柏科信息股份有限公司 舆情事件数据发现的方法、终端设备及存储介质
CN108255806A (zh) * 2017-12-22 2018-07-06 北京奇艺世纪科技有限公司 一种人名识别方法及装置
CN108256063A (zh) * 2018-01-15 2018-07-06 中国人民解放军国防科技大学 一种面向网络安全的知识库构建方法
CN108256063B (zh) * 2018-01-15 2020-11-03 中国人民解放军国防科技大学 一种面向网络安全的知识库构建方法
CN108520065B (zh) * 2018-04-12 2022-04-12 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN108520065A (zh) * 2018-04-12 2018-09-11 苏州大学 命名实体识别语料库的构建方法、系统、设备及存储介质
CN110348015A (zh) * 2019-07-12 2019-10-18 北京百奥知信息科技有限公司 一种自动标注医学文本中实体的方法
CN111062216A (zh) * 2019-12-18 2020-04-24 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111062216B (zh) * 2019-12-18 2021-11-23 腾讯科技(深圳)有限公司 命名实体识别方法、装置、终端及可读介质
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及系统
CN111797296B (zh) * 2020-07-08 2024-04-09 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及系统
CN111881685A (zh) * 2020-07-20 2020-11-03 南京中孚信息技术有限公司 基于小粒度策略混合模型的汉语命名实体识别方法及系统
CN112507703A (zh) * 2020-12-07 2021-03-16 医渡云(北京)技术有限公司 医学实体识别方法、装置、介质及电子设备
CN112818694A (zh) * 2021-03-02 2021-05-18 浙江工业大学 一种基于规则和改进预训练模型的命名实体识别方法

Also Published As

Publication number Publication date
CN106649272B (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN106649272B (zh) 一种基于混合模型的命名实体识别方法
CN106598950B (zh) 一种基于混合层叠模型的命名实体识别方法
CN111767741B (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN110298033B (zh) 关键词语料标注训练提取系统
CN110489560A (zh) 基于知识图谱技术的小微企业画像生成方法及装置
CN107315738B (zh) 一种文本信息的创新度评估方法
CN110309514A (zh) 一种语义识别方法及装置
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN103699521B (zh) 文本分析方法及装置
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN110147421B (zh) 一种目标实体链接方法、装置、设备及存储介质
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
CN110008309A (zh) 一种短语挖掘方法及装置
CN110059220A (zh) 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法
CN112818661B (zh) 一种专利技术关键词非监督提取方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN110502742A (zh) 一种复杂实体抽取方法、装置、介质及系统
CN108710672A (zh) 一种基于增量贝叶斯算法的主题爬虫方法
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN111859967A (zh) 实体识别方法、装置,电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant