CN108614828B - 基于规则模板的语料分析方法及语料分析装置 - Google Patents

基于规则模板的语料分析方法及语料分析装置 Download PDF

Info

Publication number
CN108614828B
CN108614828B CN201611140114.1A CN201611140114A CN108614828B CN 108614828 B CN108614828 B CN 108614828B CN 201611140114 A CN201611140114 A CN 201611140114A CN 108614828 B CN108614828 B CN 108614828B
Authority
CN
China
Prior art keywords
corpus
model
attribute
attribution
knowledge element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201611140114.1A
Other languages
English (en)
Other versions
CN108614828A (zh
Inventor
辛雨非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201611140114.1A priority Critical patent/CN108614828B/zh
Publication of CN108614828A publication Critical patent/CN108614828A/zh
Application granted granted Critical
Publication of CN108614828B publication Critical patent/CN108614828B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于规则模板的语料分析方法及装置,基于规则模板的语料分析方法包括:获取语料;根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;在语料归属模型中建立知识元;根据属性映射,确定知识元的属性;根据知识元的属性,获取目标知识元;建立知识元与目标知识元的关联关系,采用本发明的方法能够大大减少语料分析过程的人力,将分析过程中的分类、建立知识元、属性填充和关系建立全部变为程序自动完成,提高了对语料分析的效率,节约了时间,保证了准确性。

Description

基于规则模板的语料分析方法及语料分析装置
技术领域
本发明涉及数字资源知识体系管理技术领域,具体而言,涉及一种基于规则模板的语料分析方法及基于规则模板的语料分析装置。
背景技术
知识服务是出版单位追捧的热点应用,国家在这方面的大量的资金投入也加快了知识服务在出版单位落地的时间,而知识服务的一个重要依赖内容就是知识体系的构建,只有建立了完善而专业的知识体系,才能更好地提供知识服务。
对于专业出版社来说,专业优质的知识是其核心资源,也是其与互联网内容的最大区别,建立起专业知识体系来提供知识服务是其将核心资源进行应用的一种有效的渠道,但出版社的资源却又比较分散,传统的资源管理方式都是将资源作为一条条语料存储在数据库或数据文件中进行利用和管理,如何将这些语料高效的构建为专业全面的知识体系就是一个亟待解决又十分有价值的研究课题。
目前,在利用语料建立知识体系的过程中,对语料的处理主要是人工分析,需要人工阅读语料的词头、描述等各项内容,根据这些内容来判断语料应该属于哪个分类,对应哪个模型,然后在找到的模型下手动建立与词头同名的知识元,之后还要人工分析语料中的内容,根据模型指定好的属性一一提取出来本词条对应知识元所拥有的具体属性值,最后也是最耗费人力的就是知识元关系的建立,需要根据已知的模型间关系,去到关系起点和终点两个模型中寻找哪两个具体的知识元应该建立一个关系,整个过程人工参与的程度高,造成容易出错、耗时长、效率低等缺点。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提出了一种基于规则模板的语料分析方法。
本发明的另一个目的在于提出了一种基于规则模板的语料分析装置。
有鉴于此,根据本发明的一个目的,提出了一种基于规则模板的语料分析方法,包括:获取语料;根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;在语料归属模型中建立知识元;根据属性映射,确定知识元的属性;根据知识元的属性,获取目标知识元;建立知识元与目标知识元的关联关系。
本发明提供的基于规则模板的语料分析方法,获取语料,通过模型映射,记录语料的语料归属模型,同时将语料复制到与语料归属模型同名的子语料库中,在语料归属模型中建立知识元,根据属性映射,自动确定知识元的属性,根据知识元的属性,获取目标知识元,建立知识元与目标知识元的关联关系,采用本发明的方法能够大大减少语料分析过程的人力,将分析过程中的分类、建立知识元、属性填充和关系建立全部变为程序自动完成,使用者的工作仅仅是在最开始拿小部分语料数据进行规律的分析和总结,后续全程都是自动进行,不需要用户手动参与,提高了对语料分析的效率,节约了时间,保证了准确性。
根据本发明的上述基于规则模板的语料分析方法,还可以具有以下技术特征:
在上述技术方案中,优选地,获取语料之前,还包括:建立至少一个语料归属模型;为每个至少一个语料归属模型设置模型属性;建立至少一个语料归属模型与其它语料归属模型之间的模型关系;将模型关系与模型属性进行绑定;建立规则模板;将规则模板与至少一个语料归属模型的模型关系进行绑定,进而建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则;将规则模板与至少一个语料归属模型的模型属性进行绑定,进而建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则。
在该技术方案中,建立至少一个语料归属模型,并为每个至少一个语料归属模型设置模型属性,为至少一个语料归属模型与其它语料归属模型之间建立模型关系,并将每个模型关系与语料归属模型的模型属性进行绑定,建立规则模板,将规则模板与至少一个语料归属模型的模型关系进行绑定,建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则,将规则模板与至少一个语料归属模型的模型属性进行绑定,建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则,通过建立模型、模型属性、模型关系、规则模板以及建立所需规则为语料的分析打下基础。
在上述技术方案中,优选地,根据模型映射,记录语料的语料归属模型的步骤包括:判断语料归属模型的模型映射规则与语料是否匹配;当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型;当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的模型映射规则与语料是否匹配。
在该技术方案中,根据模型映射,记录语料的语料归属模型的步骤包括:判断语料归属模型的模型映射规则与语料是否匹配,当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型,当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的模型映射规则与语料是否匹配,通过模型映射将模型映射规则用于对语料进行分类,甄别出语料应该归属哪个模型。
在上述技术方案中,优选地,根据属性映射,确定知识元的属性的步骤包括:判断语料归属模型的属性映射规则与语料是否匹配;当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性;当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配。
在该技术方案中,根据属性映射,确定知识元的属性的步骤包括:判断语料归属模型的属性映射规则与语料是否匹配,当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性,当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配,通过属性映射将属性映射规则用于对语料进行属性提取,然后将属性指填充到映射指定的知识元中,为了避免应该匹配上却没有匹配的情况,系统支持同一规则名下有多条规则,此时如果某个属性映射的规则名下有多个规则,在提取这个属性的属性值时就会依次使用这多条规则,直到匹配上为止,这样可以大大提高匹配的成功度。
在上述技术方案中,优选地,根据知识元的属性,获取目标知识元具体包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型;在目标语料归属模型中查找与知识元的属性相同的目标知识元。
在该技术方案中,根据知识元的属性,获取目标知识元具体包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型,在目标语料归属模型中查找与知识元的属性相同的目标知识元,从而建立关联关系,建立知识体系。
在上述技术方案中,优选地,根据知识元的属性,获取目标知识元具体还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型;在所有语料归属模型中查找与知识元的属性相同的目标知识元。
在该技术方案中,根据知识元的属性,获取目标知识元具体还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型,在所有语料归属模型中查找与知识元的属性相同的目标知识元,使整个语料分析过程具有更高的准确性和高效性。
根据本发明的另一个目的,提出了一种基于规则模板的语料分析装置,包括:语料获取单元,用于获取语料;语料分类模块,用于根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;知识元建立和填充模块,用于在语料归属模型中建立知识元;以及根据属性映射,确定知识元的属性;知识元关系建立模块,用于根据知识元的属性,获取目标知识元;以及建立知识元与所述目标知识元的关联关系。
本发明提供的基于规则模板的语料分析装置,语料获取单元获取语料,语料分类模块通过模型映射,记录语料的语料归属模型,同时将语料复制到与语料归属模型同名的子语料库中,知识元建立和填充模块在语料归属模型中建立知识元,根据属性映射,自动确定知识元的属性,知识元关系建立模块根据知识元的属性,获取目标知识元,建立知识元与目标知识元的关联关系,采用本发明的方法能够大大减少语料分析过程的人力,将分析过程中的分类、建立知识元、属性填充和关系建立全部变为程序自动完成,使用者的工作仅仅是在最开始拿小部分语料数据进行规律的分析和总结,后续全程都是自动进行,不需要用户手动参与,提高了对语料分析的效率,节约了时间,保证了准确性。
根据本发明的上述基于规则模板的语料分析装置,还可以具有以下技术特征:
在上述技术方案中,优选地,还包括:规则管理模块,用于建立至少一个语料归属模型;为每个至少一个语料归属模型设置模型属性;建立至少一个语料归属模型与其它语料归属模型之间的模型关系;将模型关系与所述模型属性进行绑定;建立规则模板;将规则模板与至少一个语料归属模型的模型关系进行绑定,进而建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则;将规则模板与至少一个语料归属模型的模型属性进行绑定,进而建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则。
在该技术方案中,规则管理模块建立至少一个语料归属模型,并为每个至少一个语料归属模型设置模型属性,为至少一个语料归属模型与其它语料归属模型之间建立模型关系,并将每个模型关系与语料归属模型的模型属性进行绑定,建立规则模板,将规则模板与至少一个语料归属模型的模型关系进行绑定,建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则,将规则模板与至少一个语料归属模型的模型属性进行绑定,建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则,通过建立模型、模型属性、模型关系、规则模板以及建立所需规则为语料的分析打下基础。
在上述技术方案中,优选地,语料分类模块还包括:判断语料归属模型的模型映射规则与语料是否匹配;当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型;当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的所述模型映射规则与语料是否匹配。
在该技术方案中,语料分类模块还包括:判断语料归属模型的模型映射规则与语料是否匹配,当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型,当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的模型映射规则与语料是否匹配,通过模型映射将模型映射规则用于对语料进行分类,甄别出语料应该归属哪个模型。
在上述技术方案中,优选地,知识元建立和填充模块还包括:判断语料归属模型的属性映射规则与语料是否匹配;当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性;当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配。
在该技术方案中,知识元建立和填充模块还包括:判断语料归属模型的属性映射规则与语料是否匹配,当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性,当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配,通过属性映射将属性映射规则用于对语料进行属性提取,然后将属性指填充到映射指定的知识元中,为了避免应该匹配上却没有匹配的情况,系统支持同一规则名下有多条规则,此时如果某个属性映射的规则名下有多个规则,在提取这个属性的属性值时就会依次使用这多条规则,直到匹配上为止,这样可以大大提高匹配的成功度。
在上述技术方案中,优选地,知识元关系建立模块还包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型;在目标语料归属模型中查找与知识元的属性相同的目标知识元。
在该技术方案中,知识元关系建立模块还包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型,在目标语料归属模型中查找与知识元的属性相同的目标知识元,从而建立关联关系,建立知识体系。
在上述技术方案中,优选地,知识元关系建立模块还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型;在所有语料归属模型中查找与知识元的属性相同的目标知识元。
在该技术方案中,知识元关系建立模块还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型,在所有语料归属模型中查找与知识元的属性相同的目标知识元,使整个语料分析过程具有更高的准确性和高效性。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例的基于规则模板的语料分析方法的流程示意图;
图2示出了本发明的一个实施例的基于规则模板的语料分析装置的示意框图;
图3示出了本发明一个具体实施例的示意图;
图4示出了本发明一个具体实施例的关系与属性的绑定的示意图;
图5示出了本发明一个具体实施例的规则管理菜单的示意图;
图6示出了本发明一个具体实施例的规则设置页面的示意图;
图7示出了本发明一个具体实施例的规则模型映射的页面的示意图;
图8示出了本发明一个具体实施例的规则属性映射的页面的示意图;
图9示出了本发明一个具体实施例的语料库的示意图;
图10示出了本发明一个具体实施例的某个知识元建立并填充属性的效果的示意图;
图11示出了本发明一个具体实施例的知识体系建立后的效果图的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出了一种基于规则模板的语料分析方法,图1示出了本发明的一个实施例的基于规则模板的语料分析方法的流程示意图:
步骤108,获取语料;
步骤110,根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;
步骤112,在语料归属模型中建立知识元;
步骤114,根据属性映射,确定知识元的属性;
步骤116,根据知识元的属性,获取目标知识元;
步骤118,建立知识元与目标知识元的关联关系。
本发明提供的基于规则模板的语料分析方法,获取语料,通过模型映射,记录语料的语料归属模型,同时将语料复制到与语料归属模型同名的子语料库中,在语料归属模型中建立知识元,根据属性映射,自动确定知识元的属性,根据知识元的属性,获取目标知识元,建立知识元与目标知识元的关联关系,采用本发明的方法能够大大减少语料分析过程的人力,将分析过程中的分类、建立知识元、属性填充和关系建立全部变为程序自动完成,使用者的工作仅仅是在最开始拿小部分语料数据进行规律的分析和总结,后续全程都是自动进行,不需要用户手动参与,提高了对语料分析的效率,节约了时间,保证了准确性。
在本发明的一个实施例中,如图1所示,优选地,获取语料之前,还包括:
步骤102,建立至少一个语料归属模型;为每个至少一个语料归属模型设置模型属性;建立至少一个语料归属模型与其它语料归属模型之间的模型关系;将模型关系与模型属性进行绑定;
步骤104,建立规则模板;
步骤106,将规则模板与至少一个语料归属模型的模型关系进行绑定,进而建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则;将规则模板与至少一个语料归属模型的模型属性进行绑定,进而建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则。
在该实施例中,建立至少一个语料归属模型,并为每个至少一个语料归属模型设置模型属性,为至少一个语料归属模型与其它语料归属模型之间建立模型关系,并将每个模型关系与语料归属模型的模型属性进行绑定,建立规则模板,将规则模板与至少一个语料归属模型的模型关系进行绑定,建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则,将规则模板与至少一个语料归属模型的模型属性进行绑定,建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则,通过建立模型、模型属性、模型关系、规则模板以及建立所需规则为语料的分析打下基础。
在本发明的一个实施例中,如图1所示,优选地,步骤110,根据模型映射,记录语料的语料归属模型的步骤包括:
步骤1100,判断语料归属模型的模型映射规则与语料是否匹配;
步骤1102,当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型;
步骤1104,当语料归属模型的模型映射规则与语料不匹配时,转移到下一个语料归属模型的模型映射规则。
在该实施例中,根据模型映射,记录语料的语料归属模型的步骤包括:判断语料归属模型的模型映射规则与语料是否匹配,当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型,当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的模型映射规则与语料是否匹配,通过模型映射将模型映射规则用于对语料进行分类,甄别出语料应该归属哪个模型。
在本发明的一个实施例中,如图1所示,优选地,步骤114,根据属性映射,确定知识元的属性的步骤包括:
步骤1140,判断语料归属模型的属性映射规则与语料是否匹配;
步骤1142,当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性;
步骤1144,当语料归属模型的属性映射规则与语料不匹配时,转移到下一个语料归属模型的属性映射规则。
在该实施例中,根据属性映射,确定知识元的属性的步骤包括:判断语料归属模型的属性映射规则与语料是否匹配,当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性,当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配,通过属性映射将属性映射规则用于对语料进行属性提取,然后将属性指填充到映射指定的知识元中,为了避免应该匹配上却没有匹配的情况,系统支持同一规则名下有多条规则,此时如果某个属性映射的规则名下有多个规则,在提取这个属性的属性值时就会依次使用这多条规则,直到匹配上为止,这样可以大大提高匹配的成功度。
在本发明的一个实施例中,如图1所示,优选地,步骤116,根据知识元的属性,获取目标知识元具体包括:
步骤1160,判断与知识元的属性绑定的模型关系是否存在;
步骤1162,当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型;在目标语料归属模型中查找与知识元的属性相同的目标知识元。
在该实施例中,根据知识元的属性,获取目标知识元具体包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型,在目标语料归属模型中查找与知识元的属性相同的目标知识元,从而建立关联关系,建立知识体系。
在本发明的一个实施例中,如图1所示,优选地,步骤116,根据知识元的属性,获取目标知识元具体还包括:
步骤1164,当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型;在所有语料归属模型中查找与知识元的属性相同的目标知识元。
在该实施例中,根据知识元的属性,获取目标知识元具体还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型,在所有语料归属模型中查找与知识元的属性相同的目标知识元,使整个语料分析过程具有更高的准确性和高效性。
本发明第二方面的实施例,提出了一种基于规则模板的语料分析装置200,图2示出了本发明的一个实施例的基于规则模板的语料分析装置200的示意框图:
语料获取单元202,用于获取语料;
语料分类模块204,用于根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;
知识元建立和填充模块206,用于在语料归属模型中建立知识元;以及根据属性映射,确定知识元的属性;
知识元关系建立模块208,用于根据知识元的属性,获取目标知识元;以及建立知识元与所述目标知识元的关联关系。
本发明提供的基于规则模板的语料分析装置,语料获取单元202获取语料,语料分类模块204通过模型映射,记录语料的语料归属模型,同时将语料复制到与语料归属模型同名的子语料库中,知识元建立和填充模块206在语料归属模型中建立知识元,根据属性映射,自动确定知识元的属性,知识元关系建立模块208根据知识元的属性,获取目标知识元,建立知识元与目标知识元的关联关系,采用本发明的方法能够大大减少语料分析过程的人力,将分析过程中的分类、建立知识元、属性填充和关系建立全部变为程序自动完成,使用者的工作仅仅是在最开始拿小部分语料数据进行规律的分析和总结,后续全程都是自动进行,不需要用户手动参与,提高了对语料分析的效率,节约了时间,保证了准确性。
在本发明的一个实施例中,如图2所示,优选地,还包括:规则管理模块210,用于建立至少一个语料归属模型;为每个至少一个语料归属模型设置模型属性;建立至少一个语料归属模型与其它语料归属模型之间的模型关系;将模型关系与所述模型属性进行绑定;建立规则模板;将规则模板与至少一个语料归属模型的模型关系进行绑定,进而建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则;将规则模板与至少一个语料归属模型的模型属性进行绑定,进而建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则。
在该实施例中,规则管理模块210建立至少一个语料归属模型,并为每个至少一个语料归属模型设置模型属性,为至少一个语料归属模型与其它语料归属模型之间建立模型关系,并将每个模型关系与语料归属模型的模型属性进行绑定,建立规则模板,将规则模板与至少一个语料归属模型的模型关系进行绑定,建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则,将规则模板与至少一个语料归属模型的模型属性进行绑定,建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则,通过建立模型、模型属性、模型关系、规则模板以及建立所需规则为语料的分析打下基础。
在本发明的一个实施例中,优选地,语料分类模块204还包括:判断语料归属模型的模型映射规则与语料是否匹配;当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型;当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的所述模型映射规则与语料是否匹配。
在该实施例中,语料分类模块204还包括:判断语料归属模型的模型映射规则与语料是否匹配,当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型,当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的模型映射规则与语料是否匹配,通过模型映射将模型映射规则用于对语料进行分类,甄别出语料应该归属哪个模型。
在本发明的一个实施例中,优选地,知识元建立和填充模块206还包括:判断语料归属模型的属性映射规则与语料是否匹配;当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性;当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配。
在该实施例中,知识元建立和填充模块206还包括:判断语料归属模型的属性映射规则与语料是否匹配,当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性,当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配,通过属性映射将属性映射规则用于对语料进行属性提取,然后将属性指填充到映射指定的知识元中,为了避免应该匹配上却没有匹配的情况,系统支持同一规则名下有多条规则,此时如果某个属性映射的规则名下有多个规则,在提取这个属性的属性值时就会依次使用这多条规则,直到匹配上为止,这样可以大大提高匹配的成功度。
在本发明的一个实施例中,优选地,知识元关系建立模块208还包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型;在目标语料归属模型中查找与知识元的属性相同的目标知识元。
在该实施例中,知识元关系建立模块208还包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型,在目标语料归属模型中查找与知识元的属性相同的目标知识元,从而建立关联关系,建立知识体系。
在本发明的一个实施例中,优选地,知识元关系建立模块208还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型;在所有语料归属模型中查找与知识元的属性相同的目标知识元。
在该实施例中,知识元关系建立模块208还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型,在所有语料归属模型中查找与知识元的属性相同的目标知识元,使整个语料分析过程具有更高的准确性和高效性。
在具体阐述根据本发明的基于规则模板的语料分析方法之前,首先定义以下名词:
知识元是指某个专业领域内的核心知识词汇,其可能包含英文词、释文等属性,知识元之间可以建立关联关系,知识元及其之间的关联关系构成了描述专业领域的知识体系,知识元模型是一类知识元的抽象,这类知识元的共有属性就是知识元模型的属性,模型所定义的属性也是知识元在建立适合所要遵从的依据,模型直接可以建立关系,两个模型之间的关系是两个模型中知识元建立关系的依据。
具体实施例一,基于规则模板的语料分析装置的主要结构包括:
规则管理模块:用于管理规则和规则的映射,包括模块映射和属性映射,具体来说,规则管理模块是系统中用来对规则和规则映射进行增删查改的。规则映射包括模型映射和属性映射,模型映射是指将规则用于对语料进行分类,甄别出语料应该归属哪个模型。属性映射是指将规则用于对语料进行属性提取,然后将属性指填充到映射指定的知识元中。
语料分类模块:用于语料进行分类处理,具体来说,负责对语料进行分类,在拿到一条语料后,会遍历所有规则库中的模型映射,用来判断本语料应该归属哪个模型。判断成功后会记录本语料所归属的模型,同时会将本条语料复制到与所归属模型同名的子语料库中。
知识元建立和填充模块:用于根据语料建立知识元并填充属性,具体来说,负责在语料已经分类之后,在对应模型下建立与词头同名的知识元。之后会按照模型所拥有的属性,自动分析出本知识元所拥有的具体属性值。
知识元关系建立模块:用于对知识元关系进行分析并建立整个知识体系,具体来说,负责自动查找已经建立好的知识元之间的关系。根据模型之间的关系以及关系与属性的映射,系统会在每一个可能和本知识元产生关系的模型中寻找目标知识元,倘若目标知识元在本知识元的描述中出现或者与本知识元的某个属性值匹配,则可以为两者建立一个关系。
具体实施例二,图3所示为本发明一个具体实施例的示意图,自动分类包括模型映射和字库划分,知识元填充建立包括属性映射和属性填充,知识元关系建立包括关系属性映射和目标模型遍历。
在语料分析实施之前,需要做一些准备工作,如图4所示,要根据此次待分析语料的整体情况在系统中建立模型、模型属性和模型关系,为下一步的分析做基础,同时模型的属性和关系也要建立映射,这是知识元关系分析的一个依据。
然后进行规则的设置,首先是建立所需规则,在如图5所示的管理界面中进入后如图6所示界面,可以指定规则名和规则内容,系统支持在某个规则名下指定多条规则,可以提高匹配精度。
然后进行模型规则的映射,如图7所示,指定某个模型使用某个属性来进行匹配和判别,还有如图8所示的属性规则的映射,指定模型中某个属性是用哪条规则来匹配的。
下一步就是启动基于规则模板的语料分析,例如程颐这条语料,如图9所示,在导入语料的时候我们是将所有语料都导入到原始语料库的,因为无法预知这条语料应该归属哪个子库,子库是和模型一一对应的,例如程颐这条语料被识别为了应该归属人物模型,那么会在人物模型下建立一个名为程颐的知识元,同时程颐这条原始语料也会被放到人物语料子库中。语料归属模型的判别是通过前述的模型规则映射实现的,对程颐这条语料,系统会拿到所有的模型规则映射,循环地用映射中的规则来匹配它,最后的结果是没有匹配的模型,要么就是或者有且只有一个匹配模型,会在匹配上之后用一个变量来记录这条语料所归属的模型。
然后进行知识元的建立和填充,利用上述记录的模型ID,系统会在这个模型中建立一个名为程颐的人物知识元,知识元所能拥有的属性就是这个模型所定义的属性,但具体的属性值就是靠系统中的规则来进行匹配。前面已经定义了属性规则映射,此时就取得所有人物模型下的属性规则映射,利用这里面的规则对程颐这条语料进行匹配,属性模型的匹配结果同样是没匹配上,或者有一个唯一匹配,这是依赖于规则制定的严谨程度。同时,为了避免应该匹配却没有匹配上的情况,系统支持同一规则名下有多条规则,此时如果某个属性映射的规则名下有多个规则,在提取这个属性的属性值时就会依次使用这多条规则,直到匹配上为止,这样可以大大提高匹配的成功度。
属性填充完,一个知识元就建立好了,如图10所示就是程颐这条语料建立好知识元之后的效果,循环完所有语料就可以建立全部的知识元,这时就可以开始进行知识元关系的自动建立了。建立的时候有两个思路,首先是如果知识元的某个属性已经和某个关系绑定,那么会到绑定关系的另一个模型中寻找是否有以这个属性值为名称的知识元,如果有就在本知识元和它之间建立绑定的这种关系,其次如果知识元的某个属性没有已经和某个关系绑定,则会找到和本知识元所在模型有关系的所有模型,遍历这些模型中的知识元,对每个知识元,都查找这个知识元名称是否出现在本知识元的描述中,如果出现了也为本知识元和这个知识元建立关联关系,循环下来就能建立起整个知识体系,如图11所示为知识体系建立后的效果图。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种基于规则模板的语料分析方法,其特征在于,包括:
获取语料;
根据模型映射,记录所述语料的语料归属模型,并将所述语料存储至子语料库;
在所述语料归属模型中建立知识元;
根据属性映射,确定所述知识元的属性;
根据所述知识元的属性,获取目标知识元;
建立所述知识元与所述目标知识元的关联关系;
获取所述语料之前,还包括:
建立至少一个语料归属模型;
为每个所述至少一个语料归属模型设置模型属性;
建立所述至少一个语料归属模型与其它语料归属模型之间的模型关系;
将所述模型关系与所述模型属性进行绑定;
建立规则模板;
将所述规则模板与至少一个所述语料归属模型的所述模型关系进行绑定,进而建立至少一个所述语料归属模型的模型映射,其中所述模型映射包括模型映射规则;
将所述规则模板与至少一个所述语料归属模型的所述模型属性进行绑定,进而建立至少一个所述语料归属模型的属性映射,其中所述属性映射包括属性映射规则。
2.根据权利要求1所述的基于规则模板的语料分析方法,其特征在于,根据所述模型映射,记录所述语料的所述语料归属模型的步骤包括:
判断所述语料归属模型的所述模型映射规则与所述语料是否匹配;
当所述语料归属模型的所述模型映射规则与所述语料匹配时,记录所述语料归属模型;
当所述语料归属模型的所述模型映射规则与所述语料不匹配时,判断下一个语料归属模型的所述模型映射规则与所述语料是否匹配。
3.根据权利要求1所述的基于规则模板的语料分析方法,其特征在于,根据属性映射,确定所述知识元的属性的步骤包括:
判断所述语料归属模型的所述属性映射规则与所述语料是否匹配;
当所述语料归属模型的所述属性映射规则与所述语料匹配时,将所述属性映射规则对应的模型属性作为所述知识元的属性;
当所述语料归属模型的所述属性映射规则与所述语料不匹配时,判断下一个语料归属模型的所述属性映射规则与所述语料是否匹配。
4.根据权利要求1所述的基于规则模板的语料分析方法,其特征在于,根据所述知识元的属性,获取所述目标知识元具体包括:
当与所述知识元的属性绑定的模型关系存在的情况下,查找与所述语料归属模型建立所述模型关系的目标语料归属模型;
在所述目标语料归属模型中查找与所述知识元的属性相同的所述目标知识元。
5.根据权利要求4所述的基于规则模板的语料分析方法,其特征在于,根据所述知识元的属性,获取所述目标知识元具体还包括:
当与所述知识元的属性绑定的模型关系不存在的情况下,查找与所述知识元的所述语料归属模型建立所述模型关系的所有语料归属模型;
在所述所有语料归属模型中查找与所述知识元的属性相同的所述目标知识元。
6.一种基于规则模板的语料分析装置,其特征在于,包括:
语料获取单元,用于获取语料;
语料分类模块,用于根据模型映射,记录所述语料的语料归属模型,并将所述语料存储至子语料库;
知识元建立和填充模块,用于在所述语料归属模型中建立知识元;以及根据属性映射,确定所述知识元的属性;
知识元关系建立模块,用于根据所述知识元的属性,获取目标知识元;以及建立所述知识元与所述目标知识元的关联关系。
7.根据权利要求6所述的基于规则模板的语料分析装置,其特征在于,还包括:
规则管理模块,用于建立至少一个语料归属模型;
为每个所述至少一个语料归属模型设置模型属性;
建立所述至少一个语料归属模型与其它语料归属模型之间的模型关系;
将所述模型关系与所述模型属性进行绑定;
建立规则模板;
将所述规则模板与至少一个所述语料归属模型的所述模型关系进行绑定,进而建立至少一个所述语料归属模型的模型映射,其中所述模型映射包括模型映射规则;
将所述规则模板与至少一个所述语料归属模型的所述模型属性进行绑定,进而建立至少一个所述语料归属模型的属性映射,其中所述属性映射包括属性映射规则。
8.根据权利要求6所述的基于规则模板的语料分析装置,其特征在于,所述语料分类模块还包括:
判断所述语料归属模型的所述模型映射规则与所述语料是否匹配;
当所述语料归属模型的所述模型映射规则与所述语料匹配时,记录所述语料归属模型;
当所述语料归属模型的所述模型映射规则与所述语料不匹配时,判断下一个语料归属模型的所述模型映射规则与所述语料是否匹配。
9.根据权利要求6所述的基于规则模板的语料分析装置,其特征在于,所述知识元建立和填充模块还包括:
判断所述语料归属模型的所述属性映射规则与所述语料是否匹配;
当所述语料归属模型的所述属性映射规则与所述语料匹配时,将所述属性映射规则对应的模型属性作为所述知识元的属性;
当所述语料归属模型的所述属性映射规则与所述语料不匹配时,判断下一个语料归属模型的所述属性映射规则与所述语料是否匹配。
10.根据权利要求6所述的基于规则模板的语料分析装置,其特征在于,所述知识元关系建立模块还包括:
当与所述知识元的属性绑定的模型关系存在的情况下,查找与所述语料归属模型建立所述模型关系的目标语料归属模型;
在所述目标语料归属模型中查找与所述知识元的属性相同的所述目标知识元。
11.根据权利要求10所述的基于规则模板的语料分析装置,其特征在于,所述知识元关系建立模块还包括:
当与所述知识元的属性绑定的模型关系不存在的情况下,查找与所述知识元的所述语料归属模型建立所述模型关系的所有语料归属模型;
在所述所有语料归属模型中查找与所述知识元的属性相同的所述目标知识元。
CN201611140114.1A 2016-12-12 2016-12-12 基于规则模板的语料分析方法及语料分析装置 Expired - Fee Related CN108614828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611140114.1A CN108614828B (zh) 2016-12-12 2016-12-12 基于规则模板的语料分析方法及语料分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611140114.1A CN108614828B (zh) 2016-12-12 2016-12-12 基于规则模板的语料分析方法及语料分析装置

Publications (2)

Publication Number Publication Date
CN108614828A CN108614828A (zh) 2018-10-02
CN108614828B true CN108614828B (zh) 2020-12-29

Family

ID=63643214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611140114.1A Expired - Fee Related CN108614828B (zh) 2016-12-12 2016-12-12 基于规则模板的语料分析方法及语料分析装置

Country Status (1)

Country Link
CN (1) CN108614828B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN102521241A (zh) * 2011-11-14 2012-06-27 江苏联著实业有限公司 一种半自动化学习式owl建模系统
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102013230B1 (ko) * 2012-10-31 2019-08-23 십일번가 주식회사 구문 전처리 기반의 구문 분석 장치 및 그 방법
US20160328443A1 (en) * 2015-05-06 2016-11-10 Vero Analytics, Inc. Knowledge Graph Based Query Generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN102521241A (zh) * 2011-11-14 2012-06-27 江苏联著实业有限公司 一种半自动化学习式owl建模系统
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN104636466A (zh) * 2015-02-11 2015-05-20 中国科学院计算技术研究所 一种面向开放网页的实体属性抽取方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Discriminative predicate path mining for fact checking in knowledge graphs;Shi, Baoxu等;《KNOWLEDGE-BASED SYSTEMS》;20160715;第104卷;第123-133页 *
基于关联规则的领域本体概念提取技术研究;贺海涛;《中国优秀硕士学位论文全文数据库·信息科技辑》;20151231(第12期);全文 *

Also Published As

Publication number Publication date
CN108614828A (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
KR102110057B1 (ko) 노래 확정 방법과 장치, 기억 매체
US11151179B2 (en) Method, apparatus and electronic device for determining knowledge sample data set
RU2643467C1 (ru) Сопоставление разметки для похожих документов
CN104915426B (zh) 信息排序方法、用于生成信息排序模型的方法及装置
CN103686244A (zh) 视频数据的管理方法及其系统
CN110297897B (zh) 问答处理方法及相关产品
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN104317909A (zh) 兴趣点数据的校验方法和装置
CN104994404A (zh) 一种为视频获取关键词的方法及装置
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN110019542B (zh) 企业关系的生成、生成组织成员数据库及识别同名成员
CN113761137B (zh) 一种提取地址信息的方法及装置
CN113238865A (zh) 基于Excel一键导入的快速构建知识图谱的方法
CN108614828B (zh) 基于规则模板的语料分析方法及语料分析装置
CN110795520A (zh) 一种数字化地质资料包目录与文件关联关系自动识别方法
CN105740374A (zh) 基于分布式内存的三维平台数据模糊查询方法
CN106776862B (zh) 一种游戏视频搜索方法及装置
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN114186554A (zh) 脚本数据处理方法、装置、计算机设备及存储介质
CN113741864A (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统
CN107544978A (zh) 一种基于内容的视频检索方法
CN105320674B (zh) 一种领域本体库的建立方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230613

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201229