CN113761215A - 一种基于反馈自学习的动态字典库生成方法 - Google Patents

一种基于反馈自学习的动态字典库生成方法 Download PDF

Info

Publication number
CN113761215A
CN113761215A CN202110321491.XA CN202110321491A CN113761215A CN 113761215 A CN113761215 A CN 113761215A CN 202110321491 A CN202110321491 A CN 202110321491A CN 113761215 A CN113761215 A CN 113761215A
Authority
CN
China
Prior art keywords
model
entity
data
classification
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110321491.XA
Other languages
English (en)
Inventor
赵忠华
李建广
余智华
王禄恒
陈欣洁
赵志云
冯凯
葛自发
杜漫
孙小宁
穆庆伟
万欣欣
申双成
李欣
孙立远
付培国
王晴
杜宛真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golaxy Data Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Golaxy Data Technology Co ltd
Priority to CN202110321491.XA priority Critical patent/CN113761215A/zh
Publication of CN113761215A publication Critical patent/CN113761215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于反馈自学习的动态字典库生成方法,包括以下步骤:S1、字典库定义;S2、基于字典库分类体系;S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型;S5、将S4步生成的预测数据回填到字典库。有益效果:该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。

Description

一种基于反馈自学习的动态字典库生成方法
技术领域
本发明涉及知识图谱、NLP、人工智能领域,具体来说,涉及一种基于反馈自学习的动态字典库生成方法。
背景技术
自然语言处理(NLP)是计算机科学领域和人工智能领域中的一个重要方向。实体识别、关系抽取又是自然语言处理方向的一个比较常见的应用,现有的实现技术也相对比较成熟。根据实体、关系数据结合行业特点,构建行业知识库,通过关系图谱展现方式显示知识库内容,让用户能够更直观、多维度的分析文件内容,随着对知识库的完善,自动优化行业模型,最终生成一条完善的行业知识库及行业模型。
但是现有技术中从基础字典库、自动标注模型训练、到标注数据反馈更新字典库的全流程为单独流程,并不能实现闭环
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供一种基于反馈自学习的动态字典库生成方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于反馈自学习的动态字典库生成方法,包括以下步骤:
S1、字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类;
S2、基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息;
S3、根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出等功能;
S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据;
S5、将S4步生成的预测数据回填到字典库,并确认自动标注数据是否正确,在此过程中,可以同步对字典库进行修改、调整,调整后的数据会自动进入模型训练过程。
进一步的,所述步骤S1字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类包括以下步骤:
S11、构建横向行业内的各种概念分类体系与纵向每种概念分类进行细化形成动态立体网状结构;
S12、针对每种概念分类需要设置全局唯一的分类编码;
S13、按照一定的逻辑规则进行编码,编码中可以识别出层次关系、父类对象等信息;
S14、字典库与模型自动标注的关联关系就是通过分类编码进行匹配。
进一步的,所述横向行业内的各种概念分类体系包括地点、人物、机构;
所述纵向每种概念分类进行细化包括分类型进行二级分类、三级分类。
进一步的,所述步骤S2基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息中,关系的定义逻辑采用主体、客体、关系三种对象表示,其中,其中主体、客体即为 S1步骤中的实体分类,关系是用来表示主、客体之间的描述,关系主要包括三方面内容:关系编码、关系名称、关系方向。
进一步的,所述步骤S3根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出包括以下步骤:
步骤S31、根据已有的模型识别语料数据中的实体,并且高亮显示实体内容;
步骤S32、根据实体识别的情况,进行人工调整;
步骤S33、选择主体、客体进行拖动,构建关系,拖动完成后根据主客体的类型自动识别与其最相近的实体关系;
步骤S34、根据标注的数据生成模型训练所需要的语料数据,包括实体识别模型和关系识别模型。
步骤S35、将以上步骤标注的实体语料、关系语料分别生成模型可用的数据源。
进一步的,所述步骤S4基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据包括以下步骤:
S41、基于S3步骤生成的数据源信息,分别训练实体识别模型和关系抽取模型。
S42、基于TensorFlow框架,BERT模型中实体识别、关系抽取预训练模型进行实体识别模型、关系抽取模型训练;
S43、训练过程中可根据模型评价结果,对模型参数进行调整来逐步优化模型;
S44、最终通过模型对语料数据进行实体识别、关系抽取,生成预测数据。
进一步的,所述步骤S5中生成的字典库内容主要有两种:实体内容、实体关系内容。
与现有技术相比,本发明具有以下有益效果:
本发明所述方法主要基于语料自动标注、实体识别、关系识别等技术,整体实现从行业语料数据到行业模型再到行业数据自动标注生成字典库流程闭环操作。本发明主要基于业务系统将字典库图谱的展现方式,同时提供对字典库的编辑、维护操作,使字典库逐渐细粒度化,最终构建出能够满足特定领域需求的分析字典库,该过程利用NLP技术实现模型训练,基于训练得到的模型自动对新的语料数据进行标注,并更新到基础字典库中,达到整个流程的闭环运行。本发明公开了一种基于自然语言处理技术实现的数据自动标注、模型持续优化反向更新标注数据的自学习方法。该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于反馈自学习的动态字典库生成方法的整体流程图;
图2是根据本发明实施例的一种基于反馈自学习的动态字典库生成方法中字典库分类体系的结构示意图;
图3是根据本发明实施例的一种基于反馈自学习的动态字典库生成方法中实体属性关系图的结构示意图;
图4是根据本发明实施例的一种基于反馈自学习的动态字典库生成方法中实体关系图的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述,本发明所述方法主要基于语料自动标注、实体识别、关系识别等技术,整体实现从行业语料数据到行业模型再到行业数据自动标注生成字典库流程闭环操作。整个流程如图1所示,具体实现步骤如下:
请参阅图1-4,根据本发明实施例的一种基于反馈自学习的动态字典库生成方法,包括以下步骤:
S1、字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类;
该步骤主要是基于行业特点,构建具有行业代表性的实体分类体系。分类体系结构上看,可以形成动态立体网状结构。横向可以包括行业内的各种概念分类体系,如:地点、人物、机构等,纵向可以对每种概念分类进行细化,对某细分类型进行二级分类、三级分类、……等;针对每种概念分类需要设置全局唯一的分类编码,编码按照一定的逻辑规则,编码中可以识别出层次关系、父类对象等信息,如按照“父类编码.编码”。分类编码在该发明中是至关重要的组成部分,字典库与模型自动标注的关联关系就是通过分类编码进行匹配,如图2所示实体分类体系。
S2、基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息;
基于S1步骤构建的实体分类体系,在S2步骤中主要是定义实体分类与分类之间的逻辑关系,关系的定义要根据具体的行业场景,定义后的关系能够在识别出的实体中最大体现出行业关注点。关系的定义逻辑采用主体、客体、关系三种对象表示,其中主体、客体即为S1步骤中的实体分类,关系是用来表示主、客体之间的描述。关系主要包括三方面内容:关系编码、关系名称、关系方向。定义后的数据格式如下:……。实体分类属性信息主要用于描述分类下的实体信息,如:人物分类,属性中需要定义姓名、职位、出生地等描述信息。
S3、根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出等功能;
基于以上两个步骤构建完成的实体分类、关系、属性体系,完成S3对应的语料标注步骤。该步骤主要将现有的语料数据和实体分类体系通过标注工作。语料标注内容主要包括实体、关系、属性。
S31、根据已有的模型识别语料数据中的实体,并且高亮显示实体内容;
S32、根据实体识别的情况,进行人工调整;
S33、选择主体、客体进行拖动,构建关系,拖动完成后根据主客体的类型自动识别与其最相近的实体关系;
S34、根据标注的数据生成模型训练所需要的语料数据,包括实体识别模型和关系识别模型。
实体识别模型语料规则:
实体标注采用常用的BIOES命名实体标注方法,B表示这个词处于一个实体的开始(Begin),I表示内部(inside),O表示外部(outside),E 表示这个词处于一个实体的结束为止,S表示,这个词是自己就可以组成一个实体(Single)。标注完成的数据按照该命名方法生成预测数据,提供实体识别模型训练使用。
关系抽取模型语料规则:
关系抽取模型语料数据结构采用三元组形式组合成的Json数据, sro_l ist表示关系列表的list,其中每个对象存储一个三元组的关系数据,实体编码、关系编码、客体编码;text表示标注的语句,数据样式如下:
{"sro_list":
[
{"object":"主体编号","predicate":"关系编码","subject":"客体编码"},
{"object":"主体编号","predicate":"关系编码","subject":"客体编码"}
],
"text":"语料句子"
}
S35、将以上步骤标注的实体语料、关系语料分别生成模型可用的数据源。
S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据;
基于S3步骤生成的数据源信息,分别训练实体识别模型和关系抽取模型。基于TensorFlow框架,BERT模型中实体识别、关系抽取预训练模型进行实体识别模型、关系抽取模型训练,训练过程中可根据模型评价结果,对模型参数进行调整来逐步优化模型,最终通过模型对语料数据进行实体识别、关系抽取,生成预测数据。
S5、将S4步生成的预测数据回填到字典库,并确认自动标注数据是否正确,在此过程中,可以同步对字典库进行修改、调整,调整后的数据会自动进入模型训练过程。
S5步骤主要将模型生成的预测数据回填到字典库。生成的字典库内容主要有两种:实体内容、实体关系(包括属性)内容。
实体内容更新逻辑:实体存储逻辑为一个实体一个Map对象,最后封装成一个Json对象,向后端字典更新数据。Map对象中存储实体名称 (entityname)、实体分类编码(entityClassifycode)、来源句子 (sourcesentence)、来源文章(sourcedocument)四部分内容。字典库更新过程中,根据entityClassifycode、sourcesentence、sourcedocument 做唯一性判断,如果实体存在则进行更新操作,实体数据状态为“更新”,否则进行插入操作,实体数据状态为“新词”。
关系更新:
实体属性更新数据结构:每个句子进行一次关系提取,提取后封装成 json对象保存到字典库。Json对象中主要包括:关系(relations)、来源句子(sourcesentence)、来源文章(sourcedocument),其中关系中用了该句识别出的具体关系其中包括主体(object)、客体(subject)、关系(predicate)。
实体属性更新逻辑:
实体属性字典库更新逻辑为:首先判断当前关系是否是主体所属分类的属性内容,如果是属性则更新为主体的属性,否则更新为主体、客体关系。
在实际应用时,本发明所述方法主要基于语料自动标注、实体识别、关系识别等技术,整体实现从行业语料数据到行业模型再到行业数据自动标注生成字典库流程闭环操作。本发明主要基于业务系统将字典库图谱的展现方式,同时提供对字典库的编辑、维护操作,使字典库逐渐细粒度化,最终构建出能够满足特定领域需求的分析字典库,该过程利用NLP技术实现模型训练,基于训练得到的模型自动对新的语料数据进行标注,并更新到基础字典库中,达到整个流程的闭环运行。本发明公开了一种基于自然语言处理技术实现的数据自动标注、模型持续优化反向更新标注数据的自学习方法。该方法通过概念模式定义、自然语言处理技术、全流程调度机制,实现从原始语料概念模式定义生成基础字典库,在基础字典库基础上进行标注模型的自动构建、迭代训练及修正,最后再利用标注模型来进行新的语料数据标注,反馈更新字典库,实现从标注训练到反馈自学习的闭环流程,达到模型自动逐步优化能力。最终实现字典库的自动完善,标注模型逐步优化的全自动循环过程。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于反馈自学习的动态字典库生成方法,其特征在于,包括以下步骤:
S1、字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类;
S2、基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息;
S3、根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出等功能;
S4、基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据;
S5、将S4步生成的预测数据回填到字典库,并确认自动标注数据是否正确,在此过程中,可以同步对字典库进行修改、调整,调整后的数据会自动进入模型训练过程。
2.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S1字典库定义,初步定义字典库体系,完成字典库整体框架结构设置,按照实体分类层次结构,逐步细化实体分类包括以下步骤:
S11、构建横向行业内的各种概念分类体系与纵向每种概念分类进行细化形成动态立体网状结构;
S12、针对每种概念分类需要设置全局唯一的分类编码;
S13、按照一定的逻辑规则进行编码,编码中可以识别出层次关系、父类对象等信息;
S14、字典库与模型自动标注的关联关系就是通过分类编码进行匹配。
3.根据权利要求2所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述横向行业内的各种概念分类体系包括地点、人物、机构;
所述纵向每种概念分类进行细化包括分类型进行二级分类、三级分类。
4.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S2基于字典库分类体系,针对每种分类定义对应的描述信息,包括类与类之间的关系,每类对应的描述信息中,关系的定义逻辑采用主体、客体、关系三种对象表示,其中,其中主体、客体即为S1步骤中的实体分类,关系是用来表示主、客体之间的描述,关系主要包括三方面内容:关系编码、关系名称、关系方向。
5.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S3根据定义好的实体分类、实体关系、实体属性,对现有语料数据进行标注,标注过程支持实体、关系选择,将标注数据导出包括以下步骤:
步骤S31、根据已有的模型识别语料数据中的实体,并且高亮显示实体内容;
步骤S32、根据实体识别的情况,进行人工调整;
步骤S33、选择主体、客体进行拖动,构建关系,拖动完成后根据主客体的类型自动识别与其最相近的实体关系;
步骤S34、根据标注的数据生成模型训练所需要的语料数据,包括实体识别模型和关系识别模型。
步骤S35、将以上步骤标注的实体语料、关系语料分别生成模型可用的数据源。
6.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S4基于语料库导出的标注数据,配合模型参数调整,逐步迭代优化模型,基于现有模型结合验证数据进行自动数据标注操作,生成最新预测数据包括以下步骤:
S41、基于S3步骤生成的数据源信息,分别训练实体识别模型和关系抽取模型。
S42、基于TensorFlow框架,BERT模型中实体识别、关系抽取预训练模型进行实体识别模型、关系抽取模型训练;
S43、训练过程中可根据模型评价结果,对模型参数进行调整来逐步优化模型;
S44、最终通过模型对语料数据进行实体识别、关系抽取,生成预测数据。
7.根据权利要求1所述的一种基于反馈自学习的动态字典库生成方法,其特征在于,所述步骤S5中生成的字典库内容主要有两种:实体内容、实体关系内容。
CN202110321491.XA 2021-03-25 2021-03-25 一种基于反馈自学习的动态字典库生成方法 Pending CN113761215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321491.XA CN113761215A (zh) 2021-03-25 2021-03-25 一种基于反馈自学习的动态字典库生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321491.XA CN113761215A (zh) 2021-03-25 2021-03-25 一种基于反馈自学习的动态字典库生成方法

Publications (1)

Publication Number Publication Date
CN113761215A true CN113761215A (zh) 2021-12-07

Family

ID=78786828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321491.XA Pending CN113761215A (zh) 2021-03-25 2021-03-25 一种基于反馈自学习的动态字典库生成方法

Country Status (1)

Country Link
CN (1) CN113761215A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015006632A2 (en) * 2013-07-12 2015-01-15 Microsoft Corporation Feature completion in computer-human interactive learning
CN106055560A (zh) * 2016-05-18 2016-10-26 上海申腾信息技术有限公司 一种基于统计机器学习方法的分词字典数据采集方法
CN108304373A (zh) * 2017-10-13 2018-07-20 腾讯科技(深圳)有限公司 语义词典的构建方法、装置、存储介质和电子装置
CN109858041A (zh) * 2019-03-07 2019-06-07 北京百分点信息科技有限公司 一种半监督学习结合自定义词典的命名实体识别方法
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN110222738A (zh) * 2019-05-22 2019-09-10 重庆邮电大学 面向混合采样工业大数据的基于多视图字典学习分类方法
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110826335A (zh) * 2019-11-14 2020-02-21 北京明略软件系统有限公司 一种命名实体识别的方法和装置
US20200133978A1 (en) * 2018-10-26 2020-04-30 Johnson Controls Technology Company Systems and methods for mapping a building schema into a graph data schema
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111339759A (zh) * 2020-02-21 2020-06-26 北京百度网讯科技有限公司 领域要素识别模型训练方法、装置及电子设备
WO2020193966A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Name entity recognition with deep learning
WO2020193964A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Entity type identification for named entity recognition systems
CN111914561A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 实体识别模型的训练、实体识别方法、装置及终端设备
CN112347765A (zh) * 2020-10-10 2021-02-09 清华大学 基于词典匹配的实体标注方法、模块及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019204A1 (en) * 2013-07-12 2015-01-15 Microsoft Corporation Feature completion in computer-human interactive learning
WO2015006632A2 (en) * 2013-07-12 2015-01-15 Microsoft Corporation Feature completion in computer-human interactive learning
CN106055560A (zh) * 2016-05-18 2016-10-26 上海申腾信息技术有限公司 一种基于统计机器学习方法的分词字典数据采集方法
CN108304373A (zh) * 2017-10-13 2018-07-20 腾讯科技(深圳)有限公司 语义词典的构建方法、装置、存储介质和电子装置
US20200133978A1 (en) * 2018-10-26 2020-04-30 Johnson Controls Technology Company Systems and methods for mapping a building schema into a graph data schema
CN109858018A (zh) * 2018-12-25 2019-06-07 中国科学院信息工程研究所 一种面向威胁情报的实体识别方法及系统
CN109858041A (zh) * 2019-03-07 2019-06-07 北京百分点信息科技有限公司 一种半监督学习结合自定义词典的命名实体识别方法
WO2020193966A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Name entity recognition with deep learning
WO2020193964A1 (en) * 2019-03-26 2020-10-01 Benevolentai Technology Limited Entity type identification for named entity recognition systems
CN110222738A (zh) * 2019-05-22 2019-09-10 重庆邮电大学 面向混合采样工业大数据的基于多视图字典学习分类方法
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110826335A (zh) * 2019-11-14 2020-02-21 北京明略软件系统有限公司 一种命名实体识别的方法和装置
CN111192692A (zh) * 2020-01-02 2020-05-22 上海联影智能医疗科技有限公司 一种实体关系的确定方法、装置、电子设备及存储介质
CN111339759A (zh) * 2020-02-21 2020-06-26 北京百度网讯科技有限公司 领域要素识别模型训练方法、装置及电子设备
CN111914561A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 实体识别模型的训练、实体识别方法、装置及终端设备
CN112347765A (zh) * 2020-10-10 2021-02-09 清华大学 基于词典匹配的实体标注方法、模块及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TAO GUI: "A Lexicon-Based Graph Neural Network for Chinese NER", 《PROCEEDINGS OF THE 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING (EMNLP-IJCNLP)》, pages 1040 *
孙长志: "基于深度学习的联合实体关系抽取", 《中国博士学位论文全文数据库 》, pages 138 - 134 *
杨春明;张晖;何天翔;李波;赵旭剑;: "具有共现关系的中文褒贬词典构建", 计算机工程与应用, no. 09, pages 168 - 173 *

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
CN110825882B (zh) 一种基于知识图谱的信息系统管理方法
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN110377686A (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN112015902B (zh) 基于度量的元学习框架下的少次文本分类方法
CN111813974A (zh) 一种基于图像语义分析的自适应实践系统
CN111914074A (zh) 基于深度学习与知识图谱的限定领域对话生成方法及系统
CN114004581A (zh) 一种基于多维政务事项知识库的意图交互系统
CN113806560A (zh) 一种电力数据知识图生成方法及系统
CN111209362A (zh) 基于深度学习的地址数据解析方法
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN114238524A (zh) 基于增强样本模型的卫星频轨数据信息抽取方法
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN112307767A (zh) 一种基于Bi-LSTM技术的调控知识建模方法
CN113761215A (zh) 一种基于反馈自学习的动态字典库生成方法
CN110413795A (zh) 一种数据驱动的专业知识图谱构建方法
CN113626596B (zh) 基于深度学习的地铁设计规范文本分析和语料库构建方法
Žitko et al. Automatic question generation using semantic role labeling for morphologically rich languages
CN110851572A (zh) 会话标注方法、装置、存储介质及电子设备
CN115113919A (zh) 基于BERT模型和Web技术的软件规模度量智能信息化系统
CN114970547A (zh) 多层级多类型的规划内容差异识别与冲突消除方法
CN115203427A (zh) 一种电力系统调控规程知识图谱管理系统、知识图谱生成方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211207