CN112733508B - 标准文本标注、标准图谱构建方法及装置 - Google Patents

标准文本标注、标准图谱构建方法及装置 Download PDF

Info

Publication number
CN112733508B
CN112733508B CN202110337459.0A CN202110337459A CN112733508B CN 112733508 B CN112733508 B CN 112733508B CN 202110337459 A CN202110337459 A CN 202110337459A CN 112733508 B CN112733508 B CN 112733508B
Authority
CN
China
Prior art keywords
standard
text
standard element
entity
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337459.0A
Other languages
English (en)
Other versions
CN112733508A (zh
Inventor
郝文建
王立玺
胡晨
高艳炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
China Electronics Standardization Institute
Original Assignee
BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
China Electronics Standardization Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD, China Electronics Standardization Institute filed Critical BEIJING SAIXI TECHNOLOGY DEVELOPMENT CO LTD
Priority to CN202110337459.0A priority Critical patent/CN112733508B/zh
Publication of CN112733508A publication Critical patent/CN112733508A/zh
Application granted granted Critical
Publication of CN112733508B publication Critical patent/CN112733508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种标准文本标注、标准图谱构建方法及装置,基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本;基于预设关键词和预设规则,从标准要素文本中提取标准要素三元组;对非标准要素文本进行阅读理解,提取非标准要素三元组;分别对标准要素三元组和非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。本发明基于预设关键词和预设规则提取标准要素三元组,以及基于阅读理解提取非标准要素三元组,从而可以快速且准确提取出用于构建标准图谱的三元组,避免传统方法中基于人工标注文本导致构建标准图谱效率较低的问题。

Description

标准文本标注、标准图谱构建方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种标准文本标注、标准图谱构建方法及装置。
背景技术
标准是对重复性事物和概念所做的统一规定,它以科学、技术和实践经验的综合为基础,作为共同遵守的准则和依据。标准的制定和类型按内容划分有基础标准(一般包括名词术语、符号、代号、机械制图、公差与配合等)、产品标准、辅助产品标准(工具、模具、量具、夹具等)、原材料标准、方法标准(包括工艺要求、过程、要素、工艺说明等)。
在对标准进行查询或宣贯学习时,目前多采用标准图谱查询标准中的相关信息,而传统方法构建标准图谱时需要通过人工对大量历史标准文本中的关键信息进行标注,以进行实体链接,不仅效率较低,而且依赖人工也会出现大量重复标注。
发明内容
本发明提供一种标准文本标注、标准图谱构建方法及装置,用以解决现有技术中构建标准图谱时进行文本标注效率较低的缺陷。
本发明提供一种标准文本标注方法,包括:
基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本;
基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组;
对所述非标准要素文本进行阅读理解,提取非标准要素三元组;
分别对所述标准要素三元组和所述非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。
根据本发明提供的一种标准文本标注方法,所述结构化模板包括所述标准要素文本的属性信息;
所述基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本,包括:
基于所述标准要素文本的属性信息,从所述标准文本中提取标准要素文本;
在从所述标准文本中提取标准要素文本之后,将所述标准文本中的其余文本作为非标准要素文本。
根据本发明提供的一种标准文本标注方法,所述预设关键词和所述预设规则是基于所述标准要素文本的类型确定的,所述标准要素文本的类型包括语句引导类型和条目引导类型中的至少一种。
根据本发明提供的一种标准文本标注方法,所述标准要素三元组包括标准要素主实体词、标准要素副实体词以及用于表征所述标准要素主实体词与所述标准要素副实体词关系的标准要素关系词;
所述基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组,包括:
基于所述预设关键词,从所述标准要素文本中确定所述标准要素主实体词以及所述标准要素副实体词;
基于所述预设规则,确定所述标准要素关系词。
根据本发明提供的一种标准文本标注方法,所述对所述非标准要素文本进行阅读理解,提取非标准要素三元组,包括:
将所述非标准要素文本输入至阅读理解模型,得到所述阅读理解模型输出的所述非标准要素三元组;
其中,所述阅读理解模型是基于样本非标准要素文本以及所述样本非标准要素文本的样本非标准要素三元组训练得到的。
根据本发明提供的一种标准文本标注方法,所述实体融合包括实体消歧、实体对齐以及属性对齐中的至少一种。
本发明还提供一种标准图谱构建方法,包括:
获取历史标准文本;
采用如上所述的标准文本标注方法对所述历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
本发明还提供一种标准文本标注装置,包括:
文本提取单元,用于基于结构化模板,将待标注标准文本划分为标准要素文本和非标准要素文本;
第一提取单元,用于基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组;
第二提取单元,用于对所述非标准要素文本进行阅读理解,提取非标准要素三元组;
文本标注单元,用于分别对所述标准要素三元组和所述非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。
本发明还提供一种标准图谱构建装置,包括:
获取单元,用于获取历史标准文本;
构建单元,用于采用如上所述的标准文本标注方法对所述历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述标准文本标注方法的步骤,和/或,所述处理器执行所述计算机程序时实现如上述任一种所述标准图谱构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述标准文本标注方法的步骤,和/或,所述计算机程序被处理器执行时实现如上述任一种所述标准图谱构建方法的步骤。
本发明提供的标准文本标注、标准图谱构建方法及装置,基于预设关键词和预设规则提取标准要素三元组,以及基于阅读理解提取非标准要素三元组,从而可以快速且准确提取出用于构建标准图谱的三元组,避免传统方法中基于人工标注文本导致构建标准图谱效率较低的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的标准文本标注方法的流程示意图;
图2是本发明提供的标准图谱构建方法的流程示意图;
图3是本发明提供的标准文本标注装置的结构示意图;
图4是本发明提供的标准图谱构建装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在对标准进行查询或宣贯学习时,目前多采用标准图谱查询标准中的相关信息,而传统方法构建标准图谱时需要通过人工对大量历史标准文本中的关键信息进行标注,以进行实体链接,不仅效率较低,而且依赖人工也会出现大量重复标注。
对此,本发明提供一种标准文本标注方法。图1是本发明提供的标准文本标注方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本。
具体地,待标注标准文本是指待进行三元组标注的标准文本。结构化模板为包含有标准格式规范中各标准要素属性信息的文件,如结构化模板中包含各标准要素的位置、字体大小、字体颜色、段落行距等信息。标准要素指各标准中通用的要素,其按照作用分为规范性要素和资料行要素,其中规范性要素包括范围、术语和定义、符号和缩略语、分类和编码/系统构成,总体原则和/或总体要求,核心技术要素和其他技术要素;资料性要素包含封面、目次、前言、引言、规范性引用文件、参考文献及索引。由于待标注标准文本也是符合标准格式规范的文件,即待标注标准文本中包含的标准要素属性与结构化模板中的标准要素属性一致,因此结合结构化模板中标准要素的属性信息,从待标注标准文本中可以提取出标准要素文本,其余的则为非标准要素文本,从而实现从待标注标准文本中能够提取出标准要素文本和非标准要素文本。
举例来说,标准文本中的前言部分会以固定格式“本标准主要起草人:XX”描述标准起草人,则可以将“本标准主要起草人:XX”作为标准要素文本;又如,标准文本中“第5章”与“第5.1条至5.6条”对应,则可以将“第5章”对应的标题与“第5.1条至5.6条”对应的标题作为标准要素文本,在提取完标准要素文本之后,剩余的文本作为非标准要素文本。
步骤120、基于预设关键词和预设规则,从标准要素文本中提取标准要素三元组。
具体地,标准要素三元组是指标准文本中以固定格式编写的内容所对应的三元组,例如标准文本“前言”内容中会固定以格式“本标准主要起草人:XX”描述标准起草人,则“本标准主要起草人:XX”是该标准的标准要素,对应的三元组为“起草人-起草-标准号”。
由于标准文本是采用固定模板格式进行编辑的,因此标准文本中会存在如“本标准由XX归口”,“本标准起草单位:XXX”,“本标准适用于XXXX”等固定格式表达的标准要素文本。对于标准要素文本,基于预设关键词和预设规则,可以从标准要素文本中提取标准要素的三元组。
举例来说,对于标准要素文本中“本标准起草单位:XXX”这一标准要素,可以设置预设关键词为“起草单位”,则可以基于该关键词定位到“本标准起草单位:XXX”这一语句,然后设置预设规则为“将标准号作为三元组中的主实体词,起草作为三元组中的关系词,起草单位后面的文本作为副实体词”,即可以确定标准要素的三元组为“XXX(起草单位)-起草-标准号”。又如,标准要素文本中条分为有标题条及无标题条,而章下面的条分不同的深度,可以把章作为关系词,条标题作为副实体词,形成“标准号-章标题-条标题”的三元组。
可以理解的是,本发明实施例可以根据不同的标准要素文本设置不同的预设关键词和预设规则,例如对于“本标准由XX归口”,可以设置预设关键词为“归口”,预设规则为“将标准号作为三元组中的主实体词,归口作为三元组中的关系词,归口前面的实体文本作为三元组中的副实体词”;对于“本标准适用于XXXX”,可以设置预设关键词为“适用”,预设规则为“将标准号作为主实体词,适用范围作为关系词,适用于后面的文本作为副实体词”。
步骤130、对非标准要素文本进行阅读理解,提取非标准要素三元组。
具体地,标准文本中除了包含标准要素文本之外,还包含非标准要素文本,非标准要素文本与标准要素文本不同之处在于,非标准要素文本的语义表达没有固定的格式,例如对于“电动自行车的最高限速为s”,既可以表达为“电动自行车的速度不大于s”,也可以表达为“最高限速为s的车辆包括电动自行车”。由此可见,对于同一语义,非标准要素文本有多种不同的表达方式,无法通过上述预设关键词和预设规则来穷举。
因此,本发明实施例通过对非标准要素文本进行阅读理解来提取非标准要素三元组,从而可以准确且快速提取出不同格式非标准要素文本的三元组。其中,可以通过将非标准要素文本输入预先训练好的阅读理解模型,提取非标准要素三元组。
由此可见,本发明实施例通过将待标注标准文本划分为标准要素文本和非标准要素文本,标准要素文本通过预设关键词和预设规则提取三元组,而不依赖于机器学习等模型,避免训练模型耗费大量时间的问题,从而能够快速且准确提取标准要素三元组。非标准要素文本通过阅读理解来提取非标准要素三元组,从而能够准确根据不同格式的非标准要素文本提取出相应的非标准要素三元组。
步骤140、分别对标准要素三元组和非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。
具体地,在通过步骤120和步骤130得到标准要素三元组和非标准要素三元组之后,各三元组对应的实体可能存在冲突或重叠。例如,可能存在同名异义的实体,如“乔丹”既可以指美国著名篮球运动员,也可以指葡萄牙足球运动员,还可以指某个运动品牌。也可能存在异名同义的实体,如“出生年月”、“出生日期”和“生日”表示的均是同一个含义。
因此,为了避免不同三元组之间对应的实体存在异名同义,或同一三元组对应的实体存在同名异义的情况,本发明实施例在提取标准要素三元组和非标准要素三元组之后,对其进行实体融合,避免各三元组之间出现冲突或重叠,从而能够准确基于实体融合后的各三元组进行文本标注。
本发明实施例提供的标准文本标注方法,基于预设关键词和预设规则提取标准要素三元组,以及基于阅读理解提取非标准要素三元组,从而可以快速且准确提取出用于构建标准图谱的三元组,避免传统方法中基于人工标注文本导致构建标准图谱效率较低的问题。
基于上述实施例,结构化模板包括所述标准要素文本的属性信息;
基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本,包括:
基于标准要素文本的属性信息,从标准文本中提取标准要素文本;
在从标准文本中提取标准要素文本之后,将标准文本中的其余文本作为非标准要素文本。
具体地,标准要素文本的属性信息可以用于表征标准要素文本的位置、语句结构、语句用词等。结构化模板包含有标准要素文本的属性信息,标准要素文本指各标准文本中采用固定格式或表达形式的文本,例如标准中关于起草单位的描述通常在“前言”部分,并以“本标准的起草单位:XX”的固定形式来表述;又如,标准要素文本中“第5章”与“第5.1条至5.6条”对应,则可以基于结构化模板确定对应章节和对应条目所在的位置,并提取“第5章”对应的标题与“第5.1条至5.6条”对应的标题作为标准要素文本。因此,基于结构化模板中标准要素文本的属性信息,可以从标准文本中提取出对应的标准要素文本。
此外,标准文本中除了有固定格式的标准要素文本之外,还有非标准要素文本,在提取标准要素文本之后,标准文本剩余的其它文本即为非标准要素文本。其中,非标准要素文本在各标准中的位置、语句结构、语句用词等均不同。例如对于“电动自行车的最高限速为s”,在标准A中可以表达为“电动自行车的速度不大于s”,在标准B中可以表达为“最高限速为s的车辆包括电动自行车”。
基于上述任一实施例,预设关键词和预设规则是基于标准要素文本的类型确定的,标准要素文本的类型包括语句引导类型和条目引导类型中的至少一种。
具体地,语句引导类型是指通过固定格式的语句进行描述的标准要素文本对应的类型,如以“本标准主要起草人:XX”这种固定格式描述起草人的标准要素文本的类型为语句引导类型。条目引导类型是指通过文本的层次(如部分、章、条、段等内容)描述的标准要素文本对应的类型,如标准要素文本的层次,可以分为部分、章、条、段等内容,其中章、条的标题提示了标准文本的内容,首先根据章标题,除去标准要素文本的章(如范围、术语定义、总则等内容),剩下的章可以认定为技术要素章,然后根据技术要素章的条题目,提取三元组。条可以分为有标题条及无标题条,而章对应的条分不同的深度,可以把章作为关系,条标题作为副实体词,形成“标准号-章标题-条标题”的三元组。
由此可见,本发明实施例可以基于标准要素文本对应的类型,提取出多样化的标准要素文本,从而能够丰富获取对应的标准要素三元组。
基于上述任一实施例,标准要素三元组包括标准要素主实体词、标准要素副实体词以及用于表征标准要素主实体词与标准要素副实体词关系的标准要素关系词;
基于预设关键词和预设规则,从标准要素文本中提取标准要素三元组,包括:
基于预设关键词,从标准要素文本中确定标准要素主实体词以及标准要素副实体词;
基于预设规则,确定标准要素关系词。
具体地,对于标准要素文本“本标准主要起草人:XX”,“标准”是标准要素的主实体词,“起草”是标准要素的关系词,“XX(起草人)”是标准要素的副实体词,因此标准要素的三元组为“标准-起草-起草人”。由于标准要素文本是以固定格式,规范语言进行描述的文本,因此基于预设关键词可以从标准要素文本中提取对应的主实体词和副实体词,如对于标准要素文本“本标准主要起草人:XX”,可以设置预设关键词为“起草人”,则可以提取出对应的主实体词“标准”和副实体词“XX(起草人)”,而基于该方法提取出的主实体词和副实体词对应的关系词为“起草”,即可以设置预设规则为按照上述预设关键词提取出的主实体词和副实体词所对应的关系词为“起草”。可以理解的是,不同标准要素文本可以对应不同的预设关键词和预设规则,从而可以准确且快速提取标准要素文本对应的标准要素三元组。
基于上述任一实施例,对非标准要素文本进行阅读理解,提取非标准要素三元组,包括:
将非标准要素文本输入至阅读理解模型,得到阅读理解模型输出的非标准要素三元组;
其中,阅读理解模型是基于样本非标准要素文本以及样本非标准要素文本的样本非标准要素三元组训练得到的。
具体地,标准文本中除了包含标准要素文本之外,还包含非标准要素文本,非标准要素文本与标准要素文本不同之处在于,非标准要素文本的语义表达没有固定的格式,例如对于“电动自行车的最高限速为s”,既可以表达为“电动自行车的速度不大于s”,也可以表达为“最高限速为s的车辆包括电动自行车”。由此可见,对于同一语义,非标准要素文本有多种不同的表达方式,无法通过上述预设关键词和预设规则来穷举。
因此,本发明实施例通过对非标准要素文本进行阅读理解来提取非标准要素三元组,从而可以准确且快速提取出不同格式非标准要素文本的三元组。将非标准要素文本输入至预先训练好的阅读理解模型,得到阅读理解模型输出的非标准要素三元组,从而可以基于阅读理解模型准确理解非标准要素文本的上下文信息,进而准确提取出非标准要素三元组。
在将非标准要素文本输入至阅读理解模型之前,还可以预先训练阅读理解模型,具体过程包括:首先采集大量的样本非标准要素文本,并人工对非标准要素文本进行三元组标注,得到样本非标准要素三元组,然后将样本非标准要素文本和样本非标准要素三元组输入至初始模型中进行训练,得到阅读理解模型。
由此可见,本发明实施例基于阅读理解模型能够基于非标准要素文本的上下文信息准确且快速提取对应的非标准要素三元组,避免传统方法中基于人工阅读大量文本进行标注导致效率较低的问题,甚至传统方法中人工标注也会存在误差,影响三元组提取的准确率。
基于上述任一实施例,实体融合包括实体消歧、实体对齐以及属性对齐中的至少一种。
具体地,在得到标准要素三元组和非标准要素三元组之后,各三元组对应的实体可能存在冲突或重叠。例如,可能存在同名异义的实体,也可能存在异名同义的实体。
因此,为了避免不同三元组之间对应的实体存在异名同义,或同一三元组对应的实体存在同名异义的情况,本发明实施例在提取标准要素三元组和非标准要素三元组之后,对其进行实体融合,避免各三元组之间出现冲突或重叠,从而能够准确基于实体融合后的各三元组进行文本标注。其中,实体融合包括实体消歧、实体对齐以及属性对齐中的至少一种。实体消歧主要是把具有歧义的命名性指称映射到它实际所指的概念上去,它可以解决一个命名实体的指称项对应多个实体概念的“一词多义”的现象。实体对齐旨在判断两个或者多个不同信息来源的实体是否为指向同一对象。属性对齐旨在判断两个或多个属性是否可以表示同一属性。
基于上述任一实施例,本发明还提供一种标准图谱构建方法,如图2所示,该方法包括如下步骤:
步骤210、获取历史标准文本;
步骤220、采用如上任一实施例所述的标准文本标注方法对历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
具体地,在构建标准图谱时,通过采用上述实施例所述的标准文本标注方法对历史标准文本进行三元组标注,即基于结构化模板从此时标准文本中提取标准要素文本和非标准要素文本,然后基于预设关键词和预设规则从标准要素文本中提取标准要素三元组,以及对非标准要素文本进行阅读理解,提取非标准要素三元组,最后对标准要素三元组和非标准要素三元组进行实体融合,并基于实体融合后的三元组进行标注。
由此可见,本发明实施例通过将待标注标准文本划分为标准要素文本和非标准要素文本,标准要素文本通过预设关键词和预设规则提取三元组,而不依赖于机器学习等模型,避免训练模型耗费大量时间的问题,从而能够快速且准确提取标准要素三元组。非标准要素文本通过阅读理解来提取非标准要素三元组,从而能够准确根据不同格式的非标准要素文本提取出相应的非标准要素三元组,进而依据提取出的标准要素三元组和非标准要素三元组构建标准图谱,大幅度提高了标准图谱的构建效率。
下面对本发明提供的标准文本标注装置进行描述,下文描述的标准文本标注装置与上文描述的标准文本标注方法可相互对应参照。
基于上述任一实施例,本发明还提供一种标准文本标注装置,如图3所示,该装置包括:
文本提取单元310,用于基于结构化模板,将待标注标准文本划分为标准要素文本和非标准要素文本;
第一提取单元320,用于基于预设关键词和预设规则,从标准要素文本中提取标准要素三元组;
第二提取单元330,用于对非标准要素文本进行阅读理解,提取非标准要素三元组;
文本标注单元340,用于分别对标准要素三元组和非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。
基于上述任一实施例,结构化模板包括标准要素文本的属性信息;
文本提取单元310,用于:
基于标准要素文本的属性信息,从标准文本中提取标准要素文本;
在从标准文本中提取标准要素文本之后,将标准文本中的其余文本作为非标准要素文本。
基于上述任一实施例,预设关键词和预设规则是基于标准要素文本的类型确定的,标准要素文本的类型包括语句引导类型和条目引导类型中的至少一种。
基于上述任一实施例,标准要素三元组包括标准要素主实体词、标准要素副实体词以及用于表征标准要素主实体词与标准要素副实体词关系的标准要素关系词;
第一提取单元320,包括:
实体词提取单元,用于基于预设关键词,从标准要素文本中确定标准要素主实体词以及标准要素副实体词;
关系词提取单元,用于基于预设规则,确定标准要素关系词。
基于上述任一实施例,第二提取单元330,用于:
将非标准要素文本输入至阅读理解模型,得到阅读理解模型输出的非标准要素三元组;
其中,阅读理解模型是基于样本非标准要素文本以及样本非标准要素文本的样本非标准要素三元组训练得到的。
基于上述任一实施例,实体融合包括实体消歧、实体对齐以及属性对齐中的至少一种。
下面对本发明提供的标准图谱构建装置进行描述,下文描述的标准图谱构建装置与上文描述的标准图谱构建方法可相互对应参照。
基于上述任一实施例,本发明还提供一种标准图谱构建装置,如图4所示,该装置包括:
获取单元410,用于获取历史标准文本;
构建单元420,用于采用如上任一实施例所述的标准文本标注方法对历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540,其中,处理器510,存储器520,通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令,以执行标准文本标注方法,该方法包括:基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本;基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组;对所述非标准要素文本进行阅读理解,提取非标准要素三元组;分别对所述标准要素三元组和所述非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。
和/或,以执行标准图谱构建方法,该方法包括:获取历史标准文本;采用如上所述的标准文本标注方法对所述历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
此外,上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的标准文本标注方法,该方法包括:基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本;基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组;对所述非标准要素文本进行阅读理解,提取非标准要素三元组;分别对所述标准要素三元组和所述非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。
和/或,以执行标准图谱构建方法,该方法包括:获取历史标准文本;采用如上所述的标准文本标注方法对所述历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的标准文本标注方法,该方法包括:基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本;基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组;对所述非标准要素文本进行阅读理解,提取非标准要素三元组;分别对所述标准要素三元组和所述非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注。
和/或,以执行标准图谱构建方法,该方法包括:获取历史标准文本;采用如上所述的标准文本标注方法对所述历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种标准文本标注方法,其特征在于,包括:
基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本;
基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组;
对所述非标准要素文本进行阅读理解,提取非标准要素三元组;
分别对所述标准要素三元组和所述非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注;
所述标准要素三元组包括标准要素主实体词、标准要素副实体词以及用于表征所述标准要素主实体词与所述标准要素副实体词关系的标准要素关系词;
所述基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组,包括:
基于所述预设关键词,从所述标准要素文本中确定所述标准要素主实体词以及所述标准要素副实体词;
基于所述预设规则,确定所述标准要素关系词;
所述对所述非标准要素文本进行阅读理解,提取非标准要素三元组,包括:
将所述非标准要素文本输入至阅读理解模型,得到所述阅读理解模型输出的所述非标准要素三元组;
其中,所述阅读理解模型是基于样本非标准要素文本以及所述样本非标准要素文本的样本非标准要素三元组训练得到的。
2.根据权利要求1所述的标准文本标注方法,其特征在于,所述结构化模板包括所述标准要素文本的属性信息;
所述基于结构化模板,从待标注标准文本中提取标准要素文本和非标准要素文本,包括:
基于所述标准要素文本的属性信息,从所述标准文本中提取标准要素文本;
在从所述标准文本中提取标准要素文本之后,将所述标准文本中的其余文本作为非标准要素文本。
3.根据权利要求1所述的标准文本标注方法,其特征在于,所述预设关键词和所述预设规则是基于所述标准要素文本的类型确定的,所述标准要素文本的类型包括语句引导类型和条目引导类型中的至少一种。
4.根据权利要求1至3任一项所述的标准文本标注方法,其特征在于,所述实体融合包括实体消歧、实体对齐以及属性对齐中的至少一种。
5.一种标准图谱构建方法,其特征在于,包括:
获取历史标准文本;
采用如权利要求1至4任一项所述的标准文本标注方法对所述历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
6.一种标准文本标注装置,其特征在于,包括:
文本提取单元,用于基于结构化模板,将待标注标准文本划分为标准要素文本和非标准要素文本;
第一提取单元,用于基于预设关键词和预设规则,从所述标准要素文本中提取标准要素三元组;
第二提取单元,用于对所述非标准要素文本进行阅读理解,提取非标准要素三元组;
文本标注单元,用于分别对所述标准要素三元组和所述非标准要素三元组进行实体融合,并对实体融合后的各三元组进行文本标注;
所述标准要素三元组包括标准要素主实体词、标准要素副实体词以及用于表征所述标准要素主实体词与所述标准要素副实体词关系的标准要素关系词;
其中,所述第一提取单元,包括:
实体词提取单元,用于基于所述预设关键词,从所述标准要素文本中确定所述标准要素主实体词以及所述标准要素副实体词;
关系词提取单元,用于基于所述预设规则,确定所述标准要素关系词;
所述第二提取单元,具体用于:
将非标准要素文本输入至阅读理解模型,得到阅读理解模型输出的非标准要素三元组;
其中,阅读理解模型是基于样本非标准要素文本以及样本非标准要素文本的样本非标准要素三元组训练得到的。
7.一种标准图谱构建装置,其特征在于,包括:
获取单元,用于获取历史标准文本;
构建单元,用于采用如权利要求1至4任一项所述的标准文本标注方法对所述历史标准文本进行三元组标注,并对标注后的三元组进行实体链接,构建标准图谱。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述标准文本标注方法的步骤,和/或,所述处理器执行所述程序时实现如权利要求5所述标准图谱构建方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述标准文本标注方法的步骤,和/或,所述计算机程序被处理器执行时实现如权利要求5所述标准图谱构建方法的步骤。
CN202110337459.0A 2021-03-30 2021-03-30 标准文本标注、标准图谱构建方法及装置 Active CN112733508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337459.0A CN112733508B (zh) 2021-03-30 2021-03-30 标准文本标注、标准图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337459.0A CN112733508B (zh) 2021-03-30 2021-03-30 标准文本标注、标准图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN112733508A CN112733508A (zh) 2021-04-30
CN112733508B true CN112733508B (zh) 2021-06-18

Family

ID=75596022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337459.0A Active CN112733508B (zh) 2021-03-30 2021-03-30 标准文本标注、标准图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN112733508B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434658A (zh) * 2021-08-25 2021-09-24 西安热工研究院有限公司 火电机组运行问答生成方法、系统、设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN110502621B (zh) * 2019-07-03 2023-06-13 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质
CN111191029B (zh) * 2019-12-19 2022-11-25 南京理工大学 基于监督学习和文本分类的ac构建方法
CN112434532B (zh) * 2020-11-05 2024-05-28 西安交通大学 一种支持人机双向理解的电网环境模型及建模方法

Also Published As

Publication number Publication date
CN112733508A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和系统
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
EP4044047A1 (en) Patent document creating device, method, computer program, computer-readable recording medium, server and system
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN111797630B (zh) 一种面向pdf格式论文的生物医学实体识别方法
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
CN106372053B (zh) 句法分析的方法和装置
CN112765999A (zh) 机器翻译双语对照方法及系统
CN112395851A (zh) 一种文本比对方法、装置、计算机设备及可读存储介质
CN112733508B (zh) 标准文本标注、标准图谱构建方法及装置
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN112017079A (zh) 专利文档的元件信息提取方法、处理装置以及存储介质
CN112017078A (zh) 专利文档的辅助撰写方法、处理装置以及存储介质
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CN107145947B (zh) 一种信息处理方法、装置及电子设备
CN111435405A (zh) 一种文章关键句自动标注方法及装置
CN107451215B (zh) 特征文本抽取方法及装置
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
CN114970543A (zh) 一种众包设计资源的语义分析方法
CN116263767A (zh) 数据库表生成方法及系统
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN114154489A (zh) 一种三元组抽取方法、装置、设备及存储介质
CN113239245A (zh) 用于信息查询的方法及装置、电子设备、可读存储介质
CN112001821A (zh) 专利文档的审核方法、处理装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant