CN106776576B - 基于CoNLL格式的分句和语义角色标记方法、系统 - Google Patents

基于CoNLL格式的分句和语义角色标记方法、系统 Download PDF

Info

Publication number
CN106776576B
CN106776576B CN201611245370.7A CN201611245370A CN106776576B CN 106776576 B CN106776576 B CN 106776576B CN 201611245370 A CN201611245370 A CN 201611245370A CN 106776576 B CN106776576 B CN 106776576B
Authority
CN
China
Prior art keywords
information
semantic role
clause
marking
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611245370.7A
Other languages
English (en)
Other versions
CN106776576A (zh
Inventor
简仁贤
梅森傑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN201611245370.7A priority Critical patent/CN106776576B/zh
Publication of CN106776576A publication Critical patent/CN106776576A/zh
Application granted granted Critical
Publication of CN106776576B publication Critical patent/CN106776576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,提供了一种基于CoNLL格式的分句和语义角色标记方法、系统。本发明的方法包括:获取分句信息和语义角色信息,在预获取的CoNLL格式中增设分句栏位,将分句信息存储于分句栏位,设置分句栏位的读取格式规则,将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。本发明基于CoNLL格式的分句和语义角色标记方法、系统,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。

Description

基于CoNLL格式的分句和语义角色标记方法、系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于CoNLL格式的分句和语义角色标记方法、系统。
背景技术
目前,CoNLL格式是自然语言处理中很常用的格式,该格式包含自然语言处理所需的信息,如分词、词性、依存句法分析和语义角色标记等。但是,现有的CoNLL格式有如下缺陷:第一,语义角色标记不够直观,且不便于修改;第二,现有的CoNLL格式无法提供分句信息,致使现有的CoNLL格式包含的信息不足,尤其在跨领域合作时,信息传递效率低,且增加维护人员进行检查与修改的工作量,维护成本加大。
如何添加分句信息,提高语义角色信息的可读性,是本领域技术人员亟需解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供基于CoNLL格式的分句和语义角色标记方法、系统,能够添加分句信息,提高语义角色信息的可读性。
第一方面,本发明提供一种基于CoNLL格式的分句和语义角色标记方法,该方法包括:
步骤S1,获取分句信息和语义角色信息;
步骤S2,在预获取的CoNLL格式中增设分句栏位;
步骤S3,将分句信息存储于分句栏位;
步骤S4,设置分句栏位的读取格式规则;
步骤S5,将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
进一步地,获取分句信息和语义角色信息,具体包括:检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息;
将分句信息存储于分句栏位,具体包括:将分句起点信息和分句终点信息存储于分句栏位。
基于上述任意基于CoNLL格式的分句和语义角色标记方法实施例,进一步地,将语义角色信息标记于语义角色栏位,具体包括:将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息。
进一步地,将语义角色标记信息和语义角色范围信息标记于语义角色栏位,具体包括:调整语义角色栏位的分析字段,形成标记字段和范围字段;
将语义角色标记信息标记于标记字段;
将语义角色范围信息标记于范围字段。
进一步地,将语义角色标记信息标记于标记字段之后,该方法还包括:根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息;
将语义角色范围信息标记于范围字段之后,该方法还包括:根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。
第二方面,本发明提供一种基于CoNLL格式的分句和语义角色标记系统,该系统包括信息获取模块、分句栏位增设模块、分句信息存储模块、读取格式规则设置模块和语义角色信息标记模块,信息获取模块用于获取分句信息和语义角色信息;分句栏位增设模块用于在预获取的CoNLL格式中增设分句栏位;分句信息存储模块用于将分句信息存储于分句栏位;读取格式规则设置模块用于设置分句栏位的读取格式规则;语义角色信息标记模块用于将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
进一步地,信息获取模块具体用于:检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息;
分句信息存储模块具体用于:将分句起点信息和分句终点信息存储于分句栏位。
基于上述任意基于CoNLL格式的分句和语义角色标记系统实施例,进一步地,语义角色信息标记模块具体用于:将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息。
进一步地,语义角色信息标记模块包括字段调整子模块、语义角色标记信息处理子模块和语义角色范围信息处理子模块,字段调整子模块用于调整语义角色栏位的分析字段,形成标记字段和范围字段;语义角色标记信息处理子模块,用于将语义角色标记信息标记于标记字段;语义角色范围信息处理子模块,用于将语义角色范围信息标记于范围字段。
进一步地,语义角色标记信息处理子模块还用于根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息;
语义角色范围信息处理子模块还用于根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。
由上述技术方案可知,本实施例提供的基于CoNLL格式的分句和语义角色标记方法、系统,通过增设CoNLL格式的栏位数量,以标记分句信息,既增加信息量,又保留CoNLL格式中的分词、词性和依存句法分析,能够支持更多研究与工业应用。同时,该方法还能够在语义角色栏位标记语义角色信息,以提高语义角色信息的可读性,提升跨领域合作的效率。
因此,本实施例基于CoNLL格式的分句和语义角色标记方法、系统,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明所提供的一种基于CoNLL格式的分句和语义角色标记方法的流程图;
图2示出了本发明所提供的一种基于CoNLL格式的分句和语义角色标记系统的结构框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明实施例所提供的一种基于CoNLL格式的分句和语义角色标记方法,结合图1,该方法包括:
步骤S1,获取分句信息和语义角色信息,在此,语义角色信息包括两个要素:标记和范围,其中,标记为语义角色的种类,如施事、受事,范围表示这个标记是由哪些词所组成的,且需要由依存句法分析判断,其可能包含多个分词。
步骤S2,在预获取的CoNLL格式中增设分句栏位,在此,CoNLL格式可以为CoNLL-U格式,如将CoNLL-2009格式增设两个字段,一个字段记录人工标记结果,另一个字段记录模型预测结果,且增设分句栏位时无需设置特定位置。
步骤S3,将分句信息存储于分句栏位。
步骤S4,设置分句栏位的读取格式规则,即采用应用程序对分句栏位中的文字进行基本文字处理。
步骤S5,将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
由上述技术方案可知,本实施例提供的基于CoNLL格式的分句和语义角色标记方法,通过增设CoNLL格式的栏位数量,以标记分句信息,既增加信息量,又保留CoNLL格式中的分词、词性和依存句法分析,能够支持更多研究与工业应用。同时,该方法还能够在语义角色栏位标记语义角色信息,以提高语义角色信息的可读性,提升跨领域合作的效率。
因此,本实施例基于CoNLL格式的分句和语义角色标记方法,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。
为了进一步提高本实施例基于CoNLL格式的分句和语义角色标记方法的准确性,具体地,在分句信息处理方面,该方法能够检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息;将分句起点信息和分句终点信息存储于分句栏位。在此,该方法能够提供分句的多方面信息,如检测到分句的起点和终点,同时将分句起点信息和分句终点信息进行存储,以为用户提供多方面关于分句的信息量。并且,分句信息是选择性加入,且直接标记在分句栏位上,利用现有的CoNLL格式转换,无需更改CoNLL格式的架构,简便、快捷。
具体地,在语义角色信息处理方面,本实施例基于CoNLL格式的分句和语义角色标记方法能够标记语义角色的两个要素,即标记和范围。该方法能够将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息,其中,语义角色范围信息是依据句法分析得出的信息。并且,在进行信息标记时,该方法的实现过程如下:
调整语义角色栏位的分析字段,形成标记字段和范围字段;将语义角色标记信息标记于标记字段;将语义角色范围信息标记于范围字段。在此,该方法通过改变语义角色栏位的分析字段,以便于同时标记语义角色的两个要素,避免语义角色信息不直观,且不利于标记的现象,提高语义角色信息的可读性。
同时,本实施例基于CoNLL格式的分句和语义角色标记方法还能够对语义角色信息进行修改,具体实现过程如下:
将语义角色标记信息标记于标记字段之后,该方法还包括:根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息。将语义角色范围信息标记于范围字段之后,该方法还包括:根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。在此,若语义角色信息的标记或范围发生变化时,该方法能够直接进行修改,方便、快捷。
第二方面,本发明实施例提供一种基于CoNLL格式的分句和语义角色标记系统,结合图2,该系统包括信息获取模块1、分句栏位增设模块2、分句信息存储模块3、读取格式规则设置模块4和语义角色信息标记模块5,信息获取模块1用于获取分句信息和语义角色信息;分句栏位增设模块2用于在预获取的CoNLL格式中增设分句栏位;分句信息存储模块3用于将分句信息存储于分句栏位;读取格式规则设置模块4用于设置分句栏位的读取格式规则;语义角色信息标记模块5用于将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
由上述技术方案可知,本实施例提供的基于CoNLL格式的分句和语义角色标记系统,通过增设CoNLL格式的栏位数量,以标记分句信息,既增加信息量,又保留CoNLL格式中的分词、词性和依存句法分析,能够支持更多研究与工业应用。同时,该系统还能够在语义角色栏位标记语义角色信息,以提高语义角色信息的可读性,提升跨领域合作的效率。
因此,本实施例基于CoNLL格式的分句和语义角色标记系统,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。
具体地,在分句信息处理方面,信息获取模块1具体用于:检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息。分句信息存储模块3具体用于:将分句起点信息和分句终点信息存储于分句栏位。在此,该信息获取模块1能够提供分句的多方面信息,如检测到分句的起点和终点,同时将分句起点信息和分句终点信息进行存储,以为用户提供多方面关于分句的信息量。并且,分句信息存储模块3采用选择性加入方式存储分句信息,且直接标记在分句栏位上,利用现有的CoNLL格式转换,无需更改CoNLL格式的架构,简便、快捷。
具体地,在语义角色信息处理方面,本实施例基于CoNLL格式的分句和语义角色标记系统能够标记语义角色的两个要素,即标记和范围。语义角色信息标记模块5具体用于:将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息。其中,语义角色信息标记模块5包括字段调整子模块、语义角色标记信息处理子模块和语义角色范围信息处理子模块,字段调整子模块用于调整语义角色栏位的分析字段,形成标记字段和范围字段。语义角色标记信息处理子模块,用于将语义角色标记信息标记于标记字段。语义角色范围信息处理子模块,用于将语义角色范围信息标记于范围字段。在此,该语义角色信息标记模块5通过改变语义角色栏位的分析字段,以便于标记语义角色的两个要素,避免语义角色信息不直观,且不利于标记的现象,提高语义角色信息的可读性。
同时,本实施例基于CoNLL格式的分句和语义角色标记系统还能够对语义角色信息进行修改,语义角色标记信息处理子模块还用于根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息。语义角色范围信息处理子模块还用于根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。
在此,若语义角色信息的标记或范围发生变化时,该语义角色标记信息处理子模块和语义角色范围信息处理子模块能够直接进行修改,方便、快捷。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (7)

1.一种基于CoNLL格式的分句和语义角色标记方法,其特征在于,包括:
步骤S1,获取分句信息和语义角色信息;
步骤S2,在预获取的CoNLL格式中增设分句栏位;
步骤S3,将所述分句信息存储于所述分句栏位;
步骤S4,设置所述分句栏位的读取格式规则;
步骤S5,将所述语义角色信息标记于语义角色栏位,所述CoNLL格式包括所述语义角色栏位;
步骤S6,根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息;
步骤S7,将语义角色范围信息标记于范围字段之后,该方法还包括:根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。
2.根据权利要求1所述基于CoNLL格式的分句和语义角色标记方法,其特征在于,获取分句信息和语义角色信息,具体包括:
检测预获取的自然语言,获取分句起点信息、分句终点信息和所述语义角色信息,所述分句信息包括所述分句起点信息和所述分句终点信息;
将所述分句信息存储于所述分句栏位,具体包括:
将所述分句起点信息和所述分句终点信息存储于所述分句栏位。
3.根据权利要求1所述基于CoNLL格式的分句和语义角色标记方法,其特征在于,将所述语义角色信息标记于语义角色栏位,具体包括:
将语义角色标记信息和语义角色范围信息标记于所述语义角色栏位,所述语义角色信息包括所述语义角色标记信息和所述语义角色范围信息。
4.根据权利要求3所述基于CoNLL格式的分句和语义角色标记方法,其特征在于,将语义角色标记信息和语义角色范围信息标记于所述语义角色栏位,具体包括:
调整所述语义角色栏位的分析字段,形成标记字段和范围字段;
将所述语义角色标记信息标记于所述标记字段;
将所述语义角色范围信息标记于所述范围字段。
5.一种基于CoNLL格式的分句和语义角色标记系统,其特征在于,包括:
信息获取模块,用于获取分句信息和语义角色信息;
分句栏位增设模块,用于在预获取的CoNLL格式中增设分句栏位;
分句信息存储模块,用于将所述分句信息存储于所述分句栏位;
读取格式规则设置模块,用于设置所述分句栏位的读取格式规则;
语义角色信息标记模块,用于将所述语义角色信息标记于语义角色栏位,所述CoNLL格式包括所述语义角色栏位;
所述语义角色信息标记模块,具体包括:
字段调整子模块,用于调整所述语义角色栏位的分析字段,形成标记字段和范围字段;
语义角色标记信息处理子模块,用于将语义角色标记信息标记于所述标记字段;
语义角色范围信息处理子模块,用于将语义角色范围信息标记于所述范围字段;所述语义角色标记信息处理子模块还用于根据预获取的语义角色标记变化信息,修改所述标记字段的语义角色标记信息;
所述语义角色范围信息处理子模块还用于根据预获取的语义角色范围变化信息,修改所述范围字段的语义角色范围信息。
6.根据权利要求5所述基于CoNLL格式的分句和语义角色标记系统,其特征在于,所述信息获取模块具体用于:检测预获取的自然语言,获取分句起点信息、分句终点信息和所述语义角色信息,所述分句信息包括所述分句起点信息和所述分句终点信息;
所述分句信息存储模块具体用于:将所述分句起点信息和所述分句终点信息存储于所述分句栏位。
7.根据权利要求5所述基于CoNLL格式的分句和语义角色标记系统,其特征在于,所述语义角色信息标记模块具体用于:将语义角色标记信息和语义角色范围信息标记于所述语义角色栏位,所述语义角色信息包括所述语义角色标记信息和所述语义角色范围信息。
CN201611245370.7A 2016-12-29 2016-12-29 基于CoNLL格式的分句和语义角色标记方法、系统 Active CN106776576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611245370.7A CN106776576B (zh) 2016-12-29 2016-12-29 基于CoNLL格式的分句和语义角色标记方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611245370.7A CN106776576B (zh) 2016-12-29 2016-12-29 基于CoNLL格式的分句和语义角色标记方法、系统

Publications (2)

Publication Number Publication Date
CN106776576A CN106776576A (zh) 2017-05-31
CN106776576B true CN106776576B (zh) 2020-04-03

Family

ID=58928768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611245370.7A Active CN106776576B (zh) 2016-12-29 2016-12-29 基于CoNLL格式的分句和语义角色标记方法、系统

Country Status (1)

Country Link
CN (1) CN106776576B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527262B2 (en) * 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
CN101446942A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义角色标注方法
CN104268160B (zh) * 2014-09-05 2017-06-06 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN105260488B (zh) * 2015-11-30 2018-10-02 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法

Also Published As

Publication number Publication date
CN106776576A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN105718586B (zh) 分词的方法及装置
CN109558479B (zh) 一种规则匹配方法、装置、设备及存储介质
CN101025738B (zh) 一种免模板动态网站生成方法
CN103390258B (zh) 基于信息码的实验室物品信息管理系统
CN102289407B (zh) 文档格式转换自动测试方法
US10318646B2 (en) Generating a structured document guiding view
CN107590123B (zh) 车载中地点上下文指代消解方法及装置
EP3318978A1 (en) System and method for semantic analysis of speech
CN111159982B (zh) 文档编辑方法、装置、电子设备及计算机可读存储介质
CN111079445A (zh) 基于语义模型的训练方法、装置以及电子设备
CN110046637B (zh) 一种合同段落标注模型的训练方法、装置及设备
CN109492177B (zh) 一种基于网页语义结构的网页分块方法
CN109635260B (zh) 用于生成文章模板的方法、装置、设备和存储介质
CN101504662A (zh) 一种转换数据的方法及装置
CN105912325A (zh) 基于组态软件的图元组件的复用方法、系统和组态软件
CN111061742A (zh) 用于标记数据的方法、装置及其服务系统
CN108846069B (zh) 一种基于标记语言的文档执行方法及装置
CN108664546B (zh) Xml数据结构转换方法和装置
CN102937949A (zh) 一种在富文本编辑器内实现英文拼写检查的方法及系统
CN114238575A (zh) 文档解析方法、系统、计算机设备及计算机可读存储介质
CN108446115A (zh) 一种代码复用的方法及装置
CN111339311A (zh) 基于生成式网络抽取结构化事件的方法、装置与处理器
CN106776576B (zh) 基于CoNLL格式的分句和语义角色标记方法、系统
CN112463931A (zh) 一种保险产品条款的智能化解析方法及相关设备
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant