CN106776576A - 基于CoNLL格式的分句和语义角色标记方法、系统 - Google Patents
基于CoNLL格式的分句和语义角色标记方法、系统 Download PDFInfo
- Publication number
- CN106776576A CN106776576A CN201611245370.7A CN201611245370A CN106776576A CN 106776576 A CN106776576 A CN 106776576A CN 201611245370 A CN201611245370 A CN 201611245370A CN 106776576 A CN106776576 A CN 106776576A
- Authority
- CN
- China
- Prior art keywords
- information
- semantic role
- subordinate sentence
- field
- conll
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,提供了一种基于CoNLL格式的分句和语义角色标记方法、系统。本发明的方法包括:获取分句信息和语义角色信息,在预获取的CoNLL格式中增设分句栏位,将分句信息存储于分句栏位,设置分句栏位的读取格式规则,将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。本发明基于CoNLL格式的分句和语义角色标记方法、系统,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于CoNLL格式的分句和语义角色标记方法、系统。
背景技术
目前,CoNLL格式是自然语言处理中很常用的格式,该格式包含自然语言处理所需的信息,如分词、词性、依存句法分析和语义角色标记等。但是,现有的CoNLL格式有如下缺陷:第一,语义角色标记不够直观,且不便于修改;第二,现有的CoNLL格式无法提供分句信息,致使现有的CoNLL格式包含的信息不足,尤其在跨领域合作时,信息传递效率低,且增加维护人员进行检查与修改的工作量,维护成本加大。
如何添加分句信息,提高语义角色信息的可读性,是本领域技术人员亟需解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供基于CoNLL格式的分句和语义角色标记方法、系统,能够添加分句信息,提高语义角色信息的可读性。
第一方面,本发明提供一种基于CoNLL格式的分句和语义角色标记方法,该方法包括:
步骤S1,获取分句信息和语义角色信息;
步骤S2,在预获取的CoNLL格式中增设分句栏位;
步骤S3,将分句信息存储于分句栏位;
步骤S4,设置分句栏位的读取格式规则;
步骤S5,将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
进一步地,获取分句信息和语义角色信息,具体包括:检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息;
将分句信息存储于分句栏位,具体包括:将分句起点信息和分句终点信息存储于分句栏位。
基于上述任意基于CoNLL格式的分句和语义角色标记方法实施例,进一步地,将语义角色信息标记于语义角色栏位,具体包括:将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息。
进一步地,将语义角色标记信息和语义角色范围信息标记于语义角色栏位,具体包括:调整语义角色栏位的分析字段,形成标记字段和范围字段;
将语义角色标记信息标记于标记字段;
将语义角色范围信息标记于范围字段。
进一步地,将语义角色标记信息标记于标记字段之后,该方法还包括:根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息;
将语义角色范围信息标记于范围字段之后,该方法还包括:根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。
第二方面,本发明提供一种基于CoNLL格式的分句和语义角色标记系统,该系统包括信息获取模块、分句栏位增设模块、分句信息存储模块、读取格式规则设置模块和语义角色信息标记模块,信息获取模块用于获取分句信息和语义角色信息;分句栏位增设模块用于在预获取的CoNLL格式中增设分句栏位;分句信息存储模块用于将分句信息存储于分句栏位;读取格式规则设置模块用于设置分句栏位的读取格式规则;语义角色信息标记模块用于将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
进一步地,信息获取模块具体用于:检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息;
分句信息存储模块具体用于:将分句起点信息和分句终点信息存储于分句栏位。
基于上述任意基于CoNLL格式的分句和语义角色标记系统实施例,进一步地,语义角色信息标记模块具体用于:将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息。
进一步地,语义角色信息标记模块包括字段调整子模块、语义角色标记信息处理子模块和语义角色范围信息处理子模块,字段调整子模块用于调整语义角色栏位的分析字段,形成标记字段和范围字段;语义角色标记信息处理子模块,用于将语义角色标记信息标记于标记字段;语义角色范围信息处理子模块,用于将语义角色范围信息标记于范围字段。
进一步地,语义角色标记信息处理子模块还用于根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息;
语义角色范围信息处理子模块还用于根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。
由上述技术方案可知,本实施例提供的基于CoNLL格式的分句和语义角色标记方法、系统,通过增设CoNLL格式的栏位数量,以标记分句信息,既增加信息量,又保留CoNLL格式中的分词、词性和依存句法分析,能够支持更多研究与工业应用。同时,该方法还能够在语义角色栏位标记语义角色信息,以提高语义角色信息的可读性,提升跨领域合作的效率。
因此,本实施例基于CoNLL格式的分句和语义角色标记方法、系统,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明所提供的一种基于CoNLL格式的分句和语义角色标记方法的流程图;
图2示出了本发明所提供的一种基于CoNLL格式的分句和语义角色标记系统的结构框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明实施例所提供的一种基于CoNLL格式的分句和语义角色标记方法,结合图1,该方法包括:
步骤S1,获取分句信息和语义角色信息,在此,语义角色信息包括两个要素:标记和范围,其中,标记为语义角色的种类,如施事、受事,范围表示这个标记是由哪些词所组成的,且需要由依存句法分析判断,其可能包含多个分词。
步骤S2,在预获取的CoNLL格式中增设分句栏位,在此,CoNLL格式可以为CoNLL-U格式,如将CoNLL-2009格式增设两个字段,一个字段记录人工标记结果,另一个字段记录模型预测结果,且增设分句栏位时无需设置特定位置。
步骤S3,将分句信息存储于分句栏位。
步骤S4,设置分句栏位的读取格式规则,即采用应用程序对分句栏位中的文字进行基本文字处理。
步骤S5,将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
由上述技术方案可知,本实施例提供的基于CoNLL格式的分句和语义角色标记方法,通过增设CoNLL格式的栏位数量,以标记分句信息,既增加信息量,又保留CoNLL格式中的分词、词性和依存句法分析,能够支持更多研究与工业应用。同时,该方法还能够在语义角色栏位标记语义角色信息,以提高语义角色信息的可读性,提升跨领域合作的效率。
因此,本实施例基于CoNLL格式的分句和语义角色标记方法,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。
为了进一步提高本实施例基于CoNLL格式的分句和语义角色标记方法的准确性,具体地,在分句信息处理方面,该方法能够检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息;将分句起点信息和分句终点信息存储于分句栏位。在此,该方法能够提供分句的多方面信息,如检测到分句的起点和终点,同时将分句起点信息和分句终点信息进行存储,以为用户提供多方面关于分句的信息量。并且,分句信息是选择性加入,且直接标记在分句栏位上,利用现有的CoNLL格式转换,无需更改CoNLL格式的架构,简便、快捷。
具体地,在语义角色信息处理方面,本实施例基于CoNLL格式的分句和语义角色标记方法能够标记语义角色的两个要素,即标记和范围。该方法能够将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息,其中,语义角色范围信息是依据句法分析得出的信息。并且,在进行信息标记时,该方法的实现过程如下:
调整语义角色栏位的分析字段,形成标记字段和范围字段;将语义角色标记信息标记于标记字段;将语义角色范围信息标记于范围字段。在此,该方法通过改变语义角色栏位的分析字段,以便于同时标记语义角色的两个要素,避免语义角色信息不直观,且不利于标记的现象,提高语义角色信息的可读性。
同时,本实施例基于CoNLL格式的分句和语义角色标记方法还能够对语义角色信息进行修改,具体实现过程如下:
将语义角色标记信息标记于标记字段之后,该方法还包括:根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息。将语义角色范围信息标记于范围字段之后,该方法还包括:根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。在此,若语义角色信息的标记或范围发生变化时,该方法能够直接进行修改,方便、快捷。
第二方面,本发明实施例提供一种基于CoNLL格式的分句和语义角色标记系统,结合图2,该系统包括信息获取模块1、分句栏位增设模块2、分句信息存储模块3、读取格式规则设置模块4和语义角色信息标记模块5,信息获取模块1用于获取分句信息和语义角色信息;分句栏位增设模块2用于在预获取的CoNLL格式中增设分句栏位;分句信息存储模块3用于将分句信息存储于分句栏位;读取格式规则设置模块4用于设置分句栏位的读取格式规则;语义角色信息标记模块5用于将语义角色信息标记于语义角色栏位,CoNLL格式包括语义角色栏位。
由上述技术方案可知,本实施例提供的基于CoNLL格式的分句和语义角色标记系统,通过增设CoNLL格式的栏位数量,以标记分句信息,既增加信息量,又保留CoNLL格式中的分词、词性和依存句法分析,能够支持更多研究与工业应用。同时,该系统还能够在语义角色栏位标记语义角色信息,以提高语义角色信息的可读性,提升跨领域合作的效率。
因此,本实施例基于CoNLL格式的分句和语义角色标记系统,既能够维持CoNLL格式的架构,又能够增加分句信息,提高语义角色信息的可读性。
具体地,在分句信息处理方面,信息获取模块1具体用于:检测预获取的自然语言,获取分句起点信息、分句终点信息和语义角色信息,分句信息包括分句起点信息和分句终点信息。分句信息存储模块3具体用于:将分句起点信息和分句终点信息存储于分句栏位。在此,该信息获取模块1能够提供分句的多方面信息,如检测到分句的起点和终点,同时将分句起点信息和分句终点信息进行存储,以为用户提供多方面关于分句的信息量。并且,分句信息存储模块3采用选择性加入方式存储分句信息,且直接标记在分句栏位上,利用现有的CoNLL格式转换,无需更改CoNLL格式的架构,简便、快捷。
具体地,在语义角色信息处理方面,本实施例基于CoNLL格式的分句和语义角色标记系统能够标记语义角色的两个要素,即标记和范围。语义角色信息标记模块5具体用于:将语义角色标记信息和语义角色范围信息标记于语义角色栏位,语义角色信息包括语义角色标记信息和语义角色范围信息。其中,语义角色信息标记模块5包括字段调整子模块、语义角色标记信息处理子模块和语义角色范围信息处理子模块,字段调整子模块用于调整语义角色栏位的分析字段,形成标记字段和范围字段。语义角色标记信息处理子模块,用于将语义角色标记信息标记于标记字段。语义角色范围信息处理子模块,用于将语义角色范围信息标记于范围字段。在此,该语义角色信息标记模块5通过改变语义角色栏位的分析字段,以便于标记语义角色的两个要素,避免语义角色信息不直观,且不利于标记的现象,提高语义角色信息的可读性。
同时,本实施例基于CoNLL格式的分句和语义角色标记系统还能够对语义角色信息进行修改,语义角色标记信息处理子模块还用于根据预获取的语义角色标记变化信息,修改标记字段的语义角色标记信息。语义角色范围信息处理子模块还用于根据预获取的语义角色范围变化信息,修改范围字段的语义角色范围信息。
在此,若语义角色信息的标记或范围发生变化时,该语义角色标记信息处理子模块和语义角色范围信息处理子模块能够直接进行修改,方便、快捷。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种基于CoNLL格式的分句和语义角色标记方法,其特征在于,包括:
步骤S1,获取分句信息和语义角色信息;
步骤S2,在预获取的CoNLL格式中增设分句栏位;
步骤S3,将所述分句信息存储于所述分句栏位;
步骤S4,设置所述分句栏位的读取格式规则;
步骤S5,将所述语义角色信息标记于语义角色栏位,所述CoNLL格式包括所述语义角色栏位。
2.根据权利要求1所述基于CoNLL格式的分句和语义角色标记方法,其特征在于,获取分句信息和语义角色信息,具体包括:
检测预获取的自然语言,获取分句起点信息、分句终点信息和所述语义角色信息,所述分句信息包括所述分句起点信息和所述分句终点信息;
将所述分句信息存储于所述分句栏位,具体包括:
将所述分句起点信息和所述分句终点信息存储于所述分句栏位。
3.根据权利要求1所述基于CoNLL格式的分句和语义角色标记方法,其特征在于,将所述语义角色信息标记于语义角色栏位,具体包括:
将语义角色标记信息和语义角色范围信息标记于所述语义角色栏位,所述语义角色信息包括所述语义角色标记信息和所述语义角色范围信息。
4.根据权利要求3所述基于CoNLL格式的分句和语义角色标记方法,其特征在于,将语义角色标记信息和语义角色范围信息标记于所述语义角色栏位,具体包括:
调整所述语义角色栏位的分析字段,形成标记字段和范围字段;
将所述语义角色标记信息标记于所述标记字段;
将所述语义角色范围信息标记于所述范围字段。
5.根据权利要求4所述基于CoNLL格式的分句和语义角色标记方法,其特征在于,
将所述语义角色标记信息标记于所述标记字段之后,该方法还包括:根据预获取的语义角色标记变化信息,修改所述标记字段的语义角色标记信息;
将所述语义角色范围信息标记于所述范围字段之后,该方法还包括:根据预获取的语义角色范围变化信息,修改所述范围字段的语义角色范围信息。
6.一种基于CoNLL格式的分句和语义角色标记系统,其特征在于,包括:
信息获取模块,用于获取分句信息和语义角色信息;
分句栏位增设模块,用于在预获取的CoNLL格式中增设分句栏位;
分句信息存储模块,用于将所述分句信息存储于所述分句栏位;
读取格式规则设置模块,用于设置所述分句栏位的读取格式规则;
语义角色信息标记模块,用于将所述语义角色信息标记于语义角色栏位,所述CoNLL格式包括所述语义角色栏位。
7.根据权利要求6所述基于CoNLL格式的分句和语义角色标记系统,其特征在于,所述信息获取模块具体用于:检测预获取的自然语言,获取分句起点信息、分句终点信息和所述语义角色信息,所述分句信息包括所述分句起点信息和所述分句终点信息;
所述分句信息存储模块具体用于:将所述分句起点信息和所述分句终点信息存储于所述分句栏位。
8.根据权利要求6所述基于CoNLL格式的分句和语义角色标记系统,其特征在于,所述语义角色信息标记模块具体用于:将语义角色标记信息和语义角色范围信息标记于所述语义角色栏位,所述语义角色信息包括所述语义角色标记信息和所述语义角色范围信息。
9.根据权利要求8所述基于CoNLL格式的分句和语义角色标记系统,其特征在于,所述语义角色信息标记模块,具体包括:
字段调整子模块,用于调整所述语义角色栏位的分析字段,形成标记字段和范围字段;
语义角色标记信息处理子模块,用于将所述语义角色标记信息标记于所述标记字段;
语义角色范围信息处理子模块,用于将所述语义角色范围信息标记于所述范围字段。
10.根据权利要求9所述基于CoNLL格式的分句和语义角色标记系统,其特征在于,所述语义角色标记信息处理子模块还用于根据预获取的语义角色标记变化信息,修改所述标记字段的语义角色标记信息;
所述语义角色范围信息处理子模块还用于根据预获取的语义角色范围变化信息,修改所述范围字段的语义角色范围信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611245370.7A CN106776576B (zh) | 2016-12-29 | 2016-12-29 | 基于CoNLL格式的分句和语义角色标记方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611245370.7A CN106776576B (zh) | 2016-12-29 | 2016-12-29 | 基于CoNLL格式的分句和语义角色标记方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106776576A true CN106776576A (zh) | 2017-05-31 |
CN106776576B CN106776576B (zh) | 2020-04-03 |
Family
ID=58928768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611245370.7A Active CN106776576B (zh) | 2016-12-29 | 2016-12-29 | 基于CoNLL格式的分句和语义角色标记方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776576B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080319735A1 (en) * | 2007-06-22 | 2008-12-25 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
CN105260488A (zh) * | 2015-11-30 | 2016-01-20 | 哈尔滨工业大学 | 一种用于语义理解的文本序列迭代方法 |
-
2016
- 2016-12-29 CN CN201611245370.7A patent/CN106776576B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080319735A1 (en) * | 2007-06-22 | 2008-12-25 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN101446942A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义角色标注方法 |
CN104268160A (zh) * | 2014-09-05 | 2015-01-07 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
CN105260488A (zh) * | 2015-11-30 | 2016-01-20 | 哈尔滨工业大学 | 一种用于语义理解的文本序列迭代方法 |
Non-Patent Citations (2)
Title |
---|
JOAKIM NIVRE 等: "The CoNLL 2007 Shared Task on Dependency Parsing", 《PROCEEDINGS OF THE CONLL SHARED TASK SESSION OF EMNLP-CONLL 2007》 * |
汪红林 等: "基于依存关系的语义角色标注", 《计算机工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN106776576B (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718586B (zh) | 分词的方法及装置 | |
CN104991889B (zh) | 一种基于模糊分词的非多字词错误自动校对方法 | |
CN101751476B (zh) | 电子书签标记方法和装置 | |
CN106528526B (zh) | 一种基于贝叶斯分词算法的中文地址语义标注方法 | |
HRP20030524A2 (en) | Word-processing document stored in a single xml file | |
CN104679453A (zh) | 一种信息录入、储存及排版打印的通用系统及方法 | |
CN101727497B (zh) | 一种网页化文档生成交互式文档结构的方法 | |
CN105589813B (zh) | 一种电子文档版本变化跟踪方法 | |
CN105824948A (zh) | 基于电子地图和时空属性的语言信息显示方法和系统 | |
CN106776576A (zh) | 基于CoNLL格式的分句和语义角色标记方法、系统 | |
CN102110108A (zh) | 一种对小样文件的处理方法及装置 | |
CN106775337A (zh) | 桌面应用程序图标的整理方法和移动终端 | |
CN110347686A (zh) | 记录工程图修改信息的方法和系统 | |
CN101587662A (zh) | 基于词频的单词表排序 | |
CN105224642B (zh) | 实体标签的抽取方法和装置 | |
CN107958156A (zh) | 一种基于模板获取漏洞信息的方法 | |
CN105468578A (zh) | 智能提示方法及装置、富文本输入方法及装置 | |
Sommers | The Geography of Wine: How Landscapes | |
CN102637161B (zh) | 语料差异对比方法 | |
Lenoir | Exlamation! A response to ‘Novel Airway Devices: Spoilt for Choice?’, Cook TM, Anaesthesia 2003; 58: 107–10. | |
Keating | Jack McConnell: United Kingdom can still shape Europe’s future despite Brexit | |
Cappellari | OXFORD BULLETIN of ECONOMICS and STATISTICS | |
Joshi | A Study of Customer Satisfaction towards Organized Retailing with Special Reference to Future Group in Selected Areas of Pune City | |
CN102945286A (zh) | 数据索引装置和数据索引方法 | |
Bergenholtz | Conceptions for different types of language tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |