CN103810156A

CN103810156A - 利用二次语义标注的文本信息提取方法

Info

Publication number: CN103810156A
Application number: CN201410021389.8A
Authority: CN
Inventors: 段会龙; 李昊旻; 张寅升; 葛彩霞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-01-17
Filing date: 2014-01-17
Publication date: 2014-05-21
Anticipated expiration: 2034-01-17
Also published as: CN103810156B

Abstract

本发明公开了一种利用二次语义标注的文本信息提取方法，包括如下步骤：步骤1，根据待处理文本中的任务需求，建立任务语义词典；步骤2，利用预存的通用语义词典对待处理文本进行第一次语义标注；步骤3，利用任务语义词典对第一次语义标注后的文本进行第二次语义标注；步骤4，对经过第二次语义标注的文本利用基于语义的子语言语法进行解析以及信息提取，所述信息为任务所需的概念及概念所对应的关系。本发明方法克服了现有大规模语义词典覆盖性低，同时语义标记不能服务于特定子语言语法的问题，对于在中文环境下建立具有任务适应性的信息提取提供了更好的解决方案。

Description

利用二次语义标注的文本信息提取方法

技术领域

本发明涉及信息提取领域，尤其涉及一种利用二次语义标注的文本信息提取方法。

背景技术

当今是个数据大爆炸的时代，然而信息的利用却受限于数据的形态，目前在某些领域中大量的信息主要以自由文本的形式存在，比如在临床领域中长期积累的病历和检查报告，虽然这些文本中蕴含了大量宝贵的信息资源，但是直接利用这些文本服务于大规模的数据分析却面临技术上的障碍。

为了应对信息爆炸带来的挑战，为了更好的利用这些海量文本数据，迫切地需要一些自动化的工具来提取其中的信息，这个技术通常被称为自然语言处理技术。自然语言技术诞生于20世纪60年代，该技术随人工智能、文本处理、信息提取、问答系统、对话理解、文档分类、机器翻译等应用的发展成长起来。研究者建立了两套体系：基于语法及句法的符号学方法和基于语料库的统计学方法，然而自然语言的复杂远远超出了最初的想象。20世纪80年代后，研究者认识到领域无关自然语言处理技术很难取得理想的结果，转而寻求在特定领域的语言处理，医学领域的自然语言处理技术就是在这种背景下诞生的。而子语言领域的自然语言处理技术根本上得益于著名语言学家Zellig Harris提出的子语言（sublanguage）理论，该理论认为相比于通用语言中的基于词性语法句法的解析过程，在特定子领域中语言结构受语义约束，从而为计算机处理提供了更好的基础。从而开创了在语义水平上的语法解析研究，之后该理论在通信、航天、生物等多个领域中被验证。从上世纪80年代开始的一批研究者追随这个理论开创了医学语言处理这个领域。其中最为代表性的两个研究项目为Naomi Sager在纽约大学领导的LSP项目，以及C.Friedman等在哥伦比亚大学开展的MedLEE项目。这些基于子语言理论的项目中一个共同的特点就是要建立大规模的子领域语义词典，从而将自由文本转变为语义模式，然后再进行处理。如该例子所示：Patient(PATIENT)experienced(VERBhave)pain(SYMPTOM)in(IN)joints(BODYLOCATION)。自由文本中的词或者短语通过语义辞典标记上语义，然后通过语义层面的语法规则来解析句子结构从而获得对于其中信息的提取和理解。这个将原始文本中的短语或者词汇标记上语义的过程通常称为语义标记。这是开展基于子语言理论的自然语言处理必须的步骤。

在中文领域中的类似研究开展得相对比较晚，同时对于领域语义词典的建设也缺乏系统的开展。因此基于子语言理论的中文子领域自然语言处理开展的并不是很成熟，在医学领域也是同样的状况。在美国相关机构如美国医学国家图书馆通过近20年的努力目前形成的统一医学语言系统（UMLS）已经成为一个覆盖比较广泛的医学领域语义词典资源。而中文环境中由于缺乏这样的公共资源，机构内部自身维护的这类资源又很难达到广泛的覆盖性，同时不同子语言语法对于语义的精细程度的要求也有差别，大规模维护针对不同子语言语法的通用语义词典是一个非常耗费人力和物力的工作，因此针对许多医学文本的信息提取任务往往是很难获得比较好的效果。

同时信息提取任务往往具有特定的需求，并非需要提取文本中所有的信息。因此针对特定任务建立特定的小规模语义词典和子语言语法也是一种理论上可行的方式。但是在中文领域中这种方式面临另外一种困境：由于中文语言本身的特点（不具有词之间的分隔符，通常一个词可以具有多个词性等）在语义标记过程中，容易出现由于覆盖性短语引起的错误标记。比如如下一组术语：肾、肾上腺、肾上腺皮质、肾上腺皮质激素、促肾上腺皮质激素等，如果小规模语义词典中仅包含较短的词条“肾”，那么通常的语义标记过程中凡是出现“肾”的地方都比较为“器官”的话就会带来很多的假阳性结果，因此在中文领域，特别是中文医学文本领域中开展面向各类特定任务的信息提取面临以上的两方面的障碍。

发明内容

为了解决中文文本领域，尤其是中文医学文本领域的信息提取所存在的困难，本发明提供了一种利用二次语义标注的文本信息提取方法，提高中文文本信息提取的准确率。

一种利用二次语义标注的文本信息提取方法，包括如下步骤：

步骤1，根据待处理文本中的任务需求，建立任务语义词典；

步骤2，利用预存的通用语义词典对待处理文本进行第一次语义标注；

步骤3，利用任务语义词典对第一次语义标注后的文本进行第二次语义标注；

步骤4，对经过第二次语义标注的文本利用基于语义的子语言语法进行解析以及信息提取，所述信息为任务所需的概念及概念所对应的关系。

特定的任务被执行时第一个步骤就是利用通用语义词典对于输入的自由文本进行通用的语义标注。对于经过第一次语义标注的文本，根据任务语义词典进行第二次语义标注，标记内容是任务特定的第二语义，而非其在通用语义词典中的基本语义。在步骤4中，根据任务，利用特定的子语言语法来判断语义结构的合法性，实现概念及关系的提取。

在步骤1中，建立任务语义词典的方法为：对于特定任务所需要的概念，如果该概念已存在于通用语义词典中，则从所述通用语义中选取特定的概念来组建语义词典；否则，由用户录入数据来定义概念。

对于特定任务所需要的概念，如果其已经存在于通用语义词典中，可以从通用语义词典的选择界面中选取特定的概念来组建语义词典；如果该概念不存在于通用语义词典中，则通过提供一个数据录入界面来提供一个概念定义工具，用户可以自行添加语义词典条目的内容。选中的面向特定任务的概念就构成了一个小规模的语义词典。通用语义词典服务于第一次语义标注，降低了小规模的语义词典进行语义标注时可能出现的由覆盖性术语引起的错误标注问题。

在步骤2中，进行第一次语义标注的方法为：

步骤2-1，对待处理文本进行分句处理；

步骤2-2，对所有分句中的短语和词汇进行第一次语义标注。

这个过程中利用通用语义词典对分句之后的各个句子中的短语和词汇尽量多地进行通用语义标注。

在步骤2-2中，采用反向最大匹配算法来对分句中的术语进行第一次语义标注。

反向最大匹配算法是一种在中文中广泛使用的词分割算法，通过这种算法来发现分句中的术语，并根据术语所述概念的语义进行标注。

在步骤2-2中，根据任务所需要的概念取值设定正则表达式来对分句中的数值进行第一次语义标注。

对于文本中出现的数值基于正则表达式进行识别，并标注为表示数值的“value”。

在步骤3中，根据任务所需要的概念设定子语言语义，进行第二次语义标注。

例如建立概念-属性-取值的子语言语义，采用这种子语言语义进行标注，与特定任务无关的概念被标记为“OTHER”，特定任务所关心的概念被标注为“CONCEPT”，而概念对应的属性标记为“ATTRIBUTE”，取值则被标注为“VALUE”。

在步骤4中，对进行解析并完成信息提取的方法为：由用户针对任务设定基于语义的子语言语法，采用正则表达式解析器，对经过第二次语义标注的文本进行解析和提取，其中所提取的概念及概念所对应的关系符合所述基于语义的子语言语法。

在文本中，采用正则表达式解析器可以快速有效地提取任务感兴趣的信息。

在步骤4之后，文本信息提取方法还包括步骤5：将任务语义词典添加至通用语义词典中。

将特定任务的语义词典补充到通用的语义词典中，从而实现对于通用语义词典的不断扩展，有利于下一次信息提取。在下一次信息提取中，对于同一子领域的文本而言，能够提高信息提取的效率。

本发明的文本信息提取方法具有以下优点：

1.面向特定任务形成特定的任务语义词典，该任务语义词典包含通用语义，同时包含服务于特定任务的子语言语法的二次语义。

2.面向特定任务的任务语义词典通过融入到通用语义词典来扩充其覆盖性，尤其是面向特定任务的覆盖性。

3.通用语义词典服务于第一次语义标注，降低小规模词典语义标注可能出现的由覆盖性术语引起的错误标注问题。

4.根据任务定义的子语言语法利用二次语义标记的结果，进行语义合法性验证，获得更好的信息提取效果。

附图说明

图1为本发明方法第一实施例的流程图；

图2为本发明方法第一实施例中语义词典的概念语义网络示意图；

图3为本发明方法第一实施例从通用语义词典提取概念的界面示意图；

图4为本发明方法第一实施例数据录入界面的示意图；

图5为本发明方法第二实施例的任务语义词典示意图；

图6为本发明方法第二实施例其中一份报告的信息提取效果示意图。

具体实施方式

现结合附图和实施例对本发明进行详细的说明，本发明方法通过计算机完成。图1为本发明方法第一实施例的流程图，具体步骤如下：

步骤1，面向特定的任务生成特定的任务语义词典。

服务于概念语义标注的语义词典面向概念，并对概念标注语义网络中一个已经定义的特定语义，对于概念特定的术语形式进行词条补充。如图2所示：“胎儿心率”是一个标注为临床发现（FINDING）的概念，同时在临床文档中这个概念出现的术语形式包括了“胎心率”“胎儿心率”“胎儿HR”“FHR”等。在语义标注过程中当发现文本中出现匹配这些术语的词汇和短语时，就会对文本标记对应的通用语义。而对应的语义网络是一个定义领域中概念与概念之间关系的本体表达，目前已经有很多医学领域的本体定义可服务于这个目的，比如UMLS的语义网络（Semantic Network）。通用语义词典和任务语义词典的基本结构都采用这种形式的语义网络。同时，如图2所示，任务语义词典中针对经过第一次语义标注的概念加入二次语义类型，二次语义针对特定的任务进行定义。例如，特定的信息提取任务是提取临床报告中几个测量值的数值信息，那么这些测量概念如“胎儿心率”被标记为“CONCEPT”概念，而其对应的数值被标记为“VALUE”。

对于特定任务所需要的概念，如果其已经存在于通用语义词典中，通过如图3所示的界面可以从中选取特定的概念来组建语义词典；如果该概念不存在于通用语义词典中，则通过提供一个数据录入界面来提供一个概念定义工具，可以添加语义词典的条目内容，如图4所示。

选中的面向特定任务的概念就构成了一个小的语义词典，除了生成面向特定任务的任务语义词典之外，通常的信息提取任务还可以设定目标文档源类型，如图3中定义的任务面向的目标文档类型设置为“产科超声报告”，临床领域中存在各类的临床病历文档以及各类的检查报告文档，特定的任务可以针对特定的文档源来提高信息提取的效率，这些任务相关的信息被保存到装置中，服务于在特定满足条件的文档进入时可以调用对应的信息提取任务。如图3中所示，其定义的目标文档源类型为产科超声检查和妇科超声检查报告这种文档，因此仅这类文档输入时，该任务才会被实例化。

步骤2，对待处理文本进行第一次语义标注。

根据前面所描述的生成的面向特定任务的配置文件对于任务的定义，在合适的时机该装置就会建立对应的信息提取实例。源文档首先要经过初步的分句处理，即将大段的自由文本根据其标点符号形成一个嵌套的子句（clause）的集合。然后，对进行分句后所得到的的各个子句进行第一次语义标注，这个过程的语义标注利用通用语义词典，尽量多地短语和词汇进行通用语义标注，标注过程采用反向最大匹配算法发现术语并根据术语所属概念的语义来进行标注，对于文本中出现的数值基于正则表达式来识别并标注为“value”。下面就是一个子句的语义标注示例：

步骤3，对经过第一次语义标注后的文本进行第二次语义标注。

经过第一次语义标注的文本根据任务语义词典中的二次语义进行第二次语义标注，这一次的语义标注基于第一次语义标注的结果在任务语义词典中发现二次语义，并进行标注。二次语义通常是服务于任务特定的子语言语法的，其语义通常较为宽泛，本发明的第一实施例中，第二次语义标记采用一个面向概念-属性-取值的子语言领域的第二次语义标记。其中，对于任务无关的概念被标记为“OTHER”，对于任务关心的概念被标记为“CONCEPT”，概念所对应的的属性标记为“ATTRIBUTE”，概念所对应的取值被标注为“VALUE”，其结果如下：

步骤4，经过第二次语义标注的文本利用基于语义的子语言语法进行解析以及信息提取，所述信息为任务所需的概念及概念所对应的关系。

从语料中可以总结出特定的基于语义的子语言语法，利用该面向任务的子语言语法，对第二次语义标注后的文本进行信息提取。

针对上面提到的产科超声检查报告中的概念取值提取任务，可以设计出如下的基于语义的子语言语法，该语法基于利用计算机可处理的正则表达式来表达：

CONCEPT VALUE

CONCEPT ATTRIBUTE VALUE

VALUE CONCEPT

ATTRIBUTE VALUE

CONCEPT(VALUE)+

在二次语义标注的基础上，利用针对特定任务的子语言语法，解析标注后的字句，从而提取所需的信息。以上面基于正则表达式形式的子语言语法为例，计算机可以利用正则表达式解析器来判断输入的字句是否满足以上的五种合法的句子结构，通过解析，确认合法的语法模式的概念提取。本发明所支持的语法规则和解析器并不限于正则表达式，可以适用于传统的各类语法规则表达形式和对应的解析器。上例中的“左卵巢”“大小”“约58.7*35.8mm”满足了CONCEPT ATTRIBUTE VALUE的语法约束，被认为是合法的概念属性取值表达，因而可以获得结构化的概念取值结果，图6为本发明第二实施例的提取结果示意图。

本发明方法的第二实施例以产科超声检查报告中提取测量值为例，说明其实施及效果，根据常规的产科超声检查的测量值建立如图5所示的任务语义词典，其二次语义标注使用的为“CONCEPT”和“ATTRIBUTE”。并通过建立任务设定页面完成这个任务语义词典的维护。利用150份随机挑选的产科超声报告作为测试集，对本发明方法进行测试。测试结果和人工提取的结果进行比较。人工共从这150份报告中提取了1147个概念-属性-取值的结果，使用该方法和装置可以自动提取到1139个概念-属性-取值结果，其中1122个结果与人工标记结果一致，17个提取结果不准确或者不完全准确。其准确率为98.5%，召回率为97.8%。排除由于任务词典覆盖不全引起的漏检问题，其他错误主要是由于自由文本报告中的格式控制引起的，比如利用表格来对齐概念和数值时，现有方式不能区分表格中的对应关系。从总体上来讲该方法可以克服由于现有大规模语义词典覆盖性低，同时语义标记不能服务于特定子语言语法的问题，对于在中文环境下建立具有任务适应性的信息提取提供了更好的解决方案。

Claims

1.一种利用二次语义标注的文本信息提取方法，其特征在于，包括如下步骤：

步骤1，根据待处理文本中的任务需求，建立任务语义词典；

2.如权利要求1所述利用二次语义标注的文本信息提取方法，其特征在于，在步骤1中，建立任务语义词典的方法为：对于特定任务所需要的概念，如果该概念已存在于通用语义词典中，则从所述通用语义词典中选取特定的概念来组建语义词典；否则，由用户录入数据来定义概念。

3.如权利要求1所述利用二次语义标注的文本信息提取方法，其特征在于，在步骤2中，进行第一次语义标注的方法为：

步骤2-1，对待处理文本进行分句处理；

步骤2-2，对分句后的文本中的短语和词汇进行第一次语义标注。

4.如权利要求3所述利用二次语义标注的文本信息提取方法，其特征在于，在步骤2-2中，采用反向最大匹配算法来对分句中的术语进行第一次语义标注。

5.如权利要求3所述利用二次语义标注的文本信息提取方法，其特征在于，在步骤2-2中，根据任务所需要的概念取值设定正则表达式来对分句中的数值进行第一次语义标注。

6.如权利要求1所述利用二次语义标注的文本信息提取方法，其特征在于，在步骤3中，根据任务所需要的概念来设定子语言语义，进行第二次语义标注。

7.如权利要求1所述利用二次语义标注的文本信息提取方法，其特征在于，在步骤4中，对进行解析并完成信息提取的方法为：由用户针对任务设定基于语义的子语言语法，采用正则表达式解析器，对经过第二次语义标注的文本进行解析和提取，其中所提取的概念及概念所对应的关系符合所述基于语义的子语言语法。

8.如权利要求1所述利用二次语义标注的文本信息提取方法，其特征在于，在步骤4之后，文本信息提取方法还包括步骤5：将任务语义词典添加至通用语义词典中。