CN111126065B

CN111126065B - 一种自然语言文本的信息提取方法及装置

Info

Publication number: CN111126065B
Application number: CN201911215213.5A
Authority: CN
Inventors: 殷云翔; 李红杰; 刘水清
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2024-03-15
Anticipated expiration: 2039-12-02
Also published as: CN111126065A

Abstract

本发明适用于自然语言处理技术领域，提供了一种自然语言文本的信息提取方法及装置，该方法包括：对获取的自然语言文本进行第一预处理，以获得第一文本数据，所述第一预处理至少包括语料清洗、分词以及去停用词中的一种；对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据；对所述第二文本数据进行信息提取，以获取实体关系三元组。本发明通过对自然语言文本进行语料预处理后，进一步对自然语言文本进行统一适配处理，生成符合预设格式的第二文本数据，再将第二文本数据用于知识信息的提取，有效提高了知识信息提取的效率和准确度。

Description

一种自然语言文本的信息提取方法及装置

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种自然语言文本的信息提取方法及装置。

背景技术

随着医疗大数据时代的来临，医疗自然语言文本的知识挖掘和利用受到越来越多的关注。以电子病历为例，电子病历本身是一种半结构化的数据，其结构化的内容为计算机自动抽取和分析提供了便利；同时，非结构化的数据蕴藏着丰富的医疗知识和患者的健康信息，充分提取电子病历中的这些信息有利于推动医疗事业的发展。自然语言处理(Natural Language Processing，简写为NLP)是计算机科学领域与人工智能领域中的一个重要方向，目前常用于自然语言文本的信息提取。

知识信息提取是信息抽取的重要任务，其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据，以便从文本中识别出实体以及实体间的关系。目前，在进行知识信息的提取时，需要医学领域专家手工编写标注规则，然后将标注规则应用于需要进行信息提取的医疗自然语言文本，以便获取其中的知识信息。然而，由于医疗自然语言文本自身记录描述的特性，各医院实际记录时写法多样，导致人工编写的标注规则在进行知识信息的提取时容易出现欠拟合的情形，无法准确获取其中的知识信息，知识信息的提取效率低下。

发明内容

有鉴于此，本发明实施例提供了一种自然语言文本的信息提取方法、装置、终端设备及计算机可读存储介质，以解决现有技术中进行知识信息的提取时容易出现欠拟合的情形，导致无法准确获取其中的知识信息，知识信息的提取效率低下的技术问题。

本发明实施例的第一方面提供了一种自然语言文本的信息提取方法，包括：

对获取的自然语言文本进行第一预处理，以获得第一文本数据，所述第一预处理至少包括语料清洗、分词以及去停用词中的一种；

对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据；

对所述第二文本数据进行信息提取，以获取实体关系三元组。

本发明实施例的第二方面提供了一种自然语言文本的信息提取装置，包括：

语料预处理模块，用于对获取的自然语言文本进行第一预处理，以获得第一文本数据，所述第一预处理至少包括语料清洗、分词以及去停用词中的一种；

预处理器，用于对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据；

获取模块，用于对所述第二文本数据进行信息提取，以获取实体关系三元组。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例与现有技术相比存在的有益效果至少在于：本发明实施例通过对自然语言文本进行语料预处理后，进一步对自然语言文本进行统一适配处理，生成符合预设格式的第二文本数据，再将第二文本数据用于知识信息的提取，有效提高了知识信息提取的效率和准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的自然语言文本的信息提取方法的实现流程示意图一；

图2是本发明实施例提供的自然语言文本的信息提取方法中对获取的自然语言文本进行第一预处理的实现流程示意图；

图3是本发明实施例提供的自然语言文本的信息提取方法中对所述第一文本数据进行第二预处理的实现流程示意图；

图4是本发明实施例提供的自然语言文本的信息提取方法的实现流程示意图二；

图5是本发明实施例提供的自然语言文本的信息提取方法中二分类模型的结构示意图；

图6是本发明实施例提供的自然语言文本的信息提取装置的示例图一；

图7是本发明实施例提供的自然语言文本的信息提取装置的语料预处理模块的示例图一；

图8是本发明实施例提供的自然语言文本的信息提取装置的示例图二；

图9是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，这一领域的研究涉及自然语言。而随着医疗大数据时代的来临，医疗自然语言文本的知识挖掘和利用引起了越来越多的关注。在对医疗自然语言文本进行处时，目前常采用自然语言处理对自然语言文本中的信息进行提取，而知识信息的提取是信息提取中的重要任务。

例如，知识信息中包括实体关系，电子病历中记载的实体之间的关系是医疗知识的重要组成部分，对于获取医疗领域中疾病、治疗、检查之间的关系有着重要的意义，而实体关系的提取可以从自然语言文本中识别出实体，并提取实体间的语义关系。在知识图谱中的知识信息通常以三元组的方式进行组织，例如实体关系三元组(实体，关系，实体)。

实体关系三元组的获取方法通常包括：基于监督学习的实体关系提取，基于半监督学习的实体关系提取以及基于无监督学习的实体关系提取。其中，监督学习与非监督学习的区别在于输入数据是否有标签，如果输入数据有标签，则为有监督学习；如果输入数据没有标签，则为无监督学习。

目前，针对医疗自然语言文本信息的知识信息提取(例如实体关系三元组提取)，往往采取无监督学习的方式进行。在进行知识信息的提取时，需要医学领域专家手工编写标注规则，然后将标注规则应用于需要进行信息提取的医疗自然语言文本，以便获取其中的知识信息。

然而，虽然医疗自然语言文本的内容存在统一的标准，但医疗自然语言文本因其自身记录描述的特性，各个医院在实际进行记录时的写法多样，而现有的语料预处理技术处理手段有限，导致人工编写的标注规则在进行知识信息的提取时容易出现欠拟合的情形，无法准确获取其中的知识信息，知识信息的提取效率低下。

本实施例则提出了一种全新的自然语言文本的信息提取方法，不仅可以极大减少医学领域专家手工新增标注规则的人力成本，而且可以有效提高知识信息提取的效率以及准确度。

请参阅图1，本发明实施例的目的在于提供一种自然语言文本的信息提取方法，包括：

步骤S10：对获取的自然语言文本进行第一预处理，以获得第一文本数据，所述第一预处理至少包括语料清洗、分词以及去停用词中的一种。

自然语言文本可以是任意类型的自然语言，例如可以是来自于各个医院的医疗自然语言文本。本实施例以医疗自然语言文本为例进行说明。医疗自然语言文本可以是在各个医院就诊的患者的电子病历，各个医院可以根据统一的标准来记录患者的就诊信息，也可以根据平时的习惯记录患者的就诊信息，此时其记录的格式与标准格式之间会有一定的差别。同时，可以理解的是，医疗自然语言文本中除了记录有感兴趣的内容以外，也可能记录其他对文本特征没有任何贡献的内容，因此需要对获取的医疗自然语言文本进行第一预处理，即对医疗自然语言文本进行语料预处理，以获得经过清洗的第一文本数据。

请参阅图2，在本实施例中，对获取的自然语言文本进行第一预处理的过程可以包括如下步骤：

步骤S101：采用第二预设方式对所述自然语言文本进行语料清洗，以提取第一中间数据。

在本实施例中，语料清洗的目的在于提取医疗自然语言文本中的有用数据，或者删除医疗自然语言文本中的噪音数据，从而可以对医疗自然语言文本中与提取目的无关的文本语料进行删除。例如，在电子病历中提取与本次疾病相关的既往诊疗信息时，需要把本次诊疗中相关的文本进行删除，从而避免本次诊疗信息对提取结果产生影响。

在删除噪音数据时，第二预设方式包括：通过人工去重的方式去除医疗自然语言文本中的重复数据；通过对齐的方式去除医疗自然语言文本中的噪音数据；通过删除的方式去除医疗自然语言文本中的噪音数据等，从而可以将医疗自然语言文本中的噪音数据进行去除。

在提取有用数据时，第二预设方式包括：按照预设的提取规则进行内容提取；通过正则表达式(也称为规则表达式)进行内容匹配提取；根据磁性和命名实体进行内容提取；或者编写脚本或代码对自然语言文本进行批量处理，从而提取有用数据。

本实施例在经过上述过程后，可以从医疗自然语言文本中提取出去除噪音数据的第一中间数据。

步骤S102：采用分词算法对所述第一中间数据进行分词，以获取第二中间数据。

步骤S102也可以称为分词过程。分词时词法分析中的基本任务，分词算法根据其核心思想主要分为两类：一种是基于词典的分词，先把文本数据按照词典切分成词，再寻找词的最佳组合方式；另一种是基于字的分词，即由字构词，先把句子分成一个个字，再将字组合成词，寻找最优的切分策略，同时也可以转化成序列标注问题。本实施例采用的是基于词典的分词，即可以根据一些医学词典将文本数据分成词语，从而有助于从文本数据中提取出实体。

在本实施例中，进行分词时采用的分词算法可以包括：基于规则的分词方法、基于理解的分词方法或者基于统计的分词方法。

其中，基于规则的分词方法(例如基于字符串匹配的分词方法)又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，字符串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大匹配和最小匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

常用的基于规则的分词方法包括：正向最大匹配法(由左到右的方向)；逆向最大匹配法(由右到左的方向)；最少切分(使每一句中切出的词数最小)。正向最大匹配法是将一段字符串进行分隔，其中分隔的长度有限制，然后将分隔的子字符串与词典中的词进行匹配，如果匹配成功则进行下一轮匹配，直到所有字符串处理完毕，否则将子字符串从末尾去除一个字，再进行匹配，如此反复。逆向最大匹配法则与此正向最大匹配法类似。

基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。基于理解的分词方法的基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。

基于统计的分词方法：从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。从而字与字相邻共现的频率或概率能够较好的反映成词的可信度。通过对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度，当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。在实际应用时，统计分词系统可以使用一部基本的分词词典进行串匹配分词，同时使用统计方法识别一些新词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

经过语料清洗的医疗自然语言文本经过上述分词算法后，可以获得第二中间数据。

步骤S103：对所述第二中间数据进行去停用词处理，以去除所述第二中间数据中与文本特征无关的数据，获取所述第一文本数据。

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言文本之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词(Stop Words)。在本实施例中，去停用词可以去掉自然语言文本中对文本特征没有任何贡献作用的字词，例如标点符号、语气、人称、无意义的乱码和空格等。

在一些实施例中，对获取的自然语言文本进行第一预处理还包括对自然语言文本进行词性标注。词性作为词语基本的语法属性，是词语和语句的关键性特征。词性种类也很多，例如名词、动词、形容词等。词性标注算法可以分为两大类：基于规则的算法(例如基于字符串匹配的字典查找算法、基于最大熵的词性标注算法)和基于统计的算法(例如基于统计最大概率输出词性)。可以理解的是，在医疗自然语言文本的处理过程中，通常不关心词性的问题，因此在对获取的医疗自然语言文本进行第一预处理时，可以不进行词性标注。但是在其他领域，例如情感分析、知识推理等领域中，则需要进行词性标注的过程。

经过语料预处理后，可以获得自然语言文本对应的第一文本数据。然而，仅经过语料清洗、分词、去停用词等第一预处理，所获得的第一文本数据进行知识信息提取时仍然会出现准确率不够、效率低下的问题，因此还需要对第一文本数据进行进一步的处理。

请参阅图1，步骤S20：对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据。

如前文所述，虽然医疗自然语言文本的内容存在统一的标准，但由于各个医院在实际进行记录时的写法多样，导致实际获取的医疗自然语言文本的格式并不统一，而人工编写标注规则时无法涵盖所有的情形，因此导致在进行知识信息提取时会出现一些知识信息无法被提取出来，知识信息提取的准确率低。

解决上述问题的方式之一就是加大人工编写标注规则的投入，即采用大量的人力来编写新的标注规则，尽可能涵盖所有的情形，从而提高知识信息提取的准确率。然而，采用这种方式时需要投入大量的人力物力，从而导致人力成本增加。

另一种方式则是在语料预处理的基础上，对第一文本数据进行第二预处理，以将第一文本数据中不具有规范格式的数据转换成具有规范格式的数据，从而获得第二文本数据。

请参阅图3，在本实施例中，步骤S20具体可以包括：

步骤S201：对所述第一文本数据进行分类，以获取符合预设格式的常规实体三元组和不符合所述预设格式的特殊实体三元组。

在本实施例中，预设格式可以是现有医学领域专家人工编写的标注规则，以便于在后续进行知识信息提取时获取实体关系三元组。当然，预设格式也可以是通过其他方式制定的标注规则，不仅限于上述的情形。

由于各个医院在实际进行记录时的写法多样，导致实际获取的医疗自然语言文本的格式并不统一，当采用统一格式进行编写时，所获得的医疗自然语言文本符合预设格式，这样的医疗自然语言文本可直接用于后续的知识信息提取；当未采用统一格式进行编写时，所获得的医疗自然语言文本则不符合预设格式，需要对其格式进行进一步的统一处理。因此，在获取了第一文本数据之后，需要首先对第一文本数据进行分类。

步骤S202：根据第一预设方式对所述特殊实体三元组进行处理，以将所述特殊实体三元组转换成符合所述预设格式的常规实体三元组，以获得所述第二文本数据。

在本实施例中，对特殊实体三元组进行格式转换的第一预设方式可以是数据处理人员预先人工编写形成，以便在进行数据处理时可以直接使用。例如，通过对一定数量的多来源语料数据进行调研和特征提取，采取监督式三元组提取方式，可以从语料数据中获取最常见的实体关系三元组(即常规实体三元组)，这些常规实体三元组为数据处理人员编写格式转换提供参考。同时，还可以从语料数据中获取特殊的实体关系三元组(即特殊实体三元组)，并针对这些特殊实体三元组编写格式转换的规则(即第一预设方式)。在实际应用时，第一文本数据则根据数据处理人员编写的格式转换规则进行数据处理，从而可以获得具有预设格式的第二文本数据。

在进行格式转换时，可以根据具体的情形采用具体的方式来进行，例如第一预设方式至少包括序号识别、时间识别、实体属性识别以及标点符号识别中的一种。即：对特殊实体三元组中的序号进行识别，并将其转换为预设的序号书写格式；或者，对特殊实体三元组中的时间进行识别，并将其转换为预设的时间格式；或者，对特殊实体三元组中的实体属性进行识别，并将其转换为预设的实体描述格式；或者，对特殊实体三元组中的标点符号进行识别，并将其转换为符号语法规则的标点格式。当然，在其他实施例中，第一预设方式还可以包括其他数据处理方式，并不仅限于上述的情形。

具体地，对于序号识别而言，正常序号的文本形式以数字(中文、罗马或阿拉伯数字)+标点符号(点号或顿号)构成，例如：“1.”或“1、”，但是由于书写时一些人为因素的影响，不一定所有的序号的都按常见的形式书写。对于异常的书写格式，例如：“1；”或“1。”，会影响对实体关系三元组中标点符号之间关系的识别，因此本实施例可以根据一定的规则，例如通过正则表达式匹配将其识别出来，将其统一替换成“1.”或“1、”。即：对所述特殊实体三元组中的序号进行识别，并将其转换为统一的序号书写格式。

对于时间识别而言，文本书写的时间格式和计算机规定的时间格式往往存在差异，计算机会识别****-**-**的时间格式，但对于****年**月**日、****.**.**或者****、**、**的时间格式无法识别，本实施例可以通过正则表达式匹配将其识别出来，并将其统一替换成****-**-**的时间格式，让计算机可以进行时间方面的计算处理。即：对所述特殊实体三元组中的时间进行识别，并将其转换为统一的时间格式。

对于实体属性识别而言，中文对于一个实体的描述可以有多种写法，例如对于乳腺肿物的描述，可以有“左侧乳腺正常，右侧乳腺见一不可移动肿物，位于第三象限，大小2×1.5cm”，也可以描述为“乳腺：左侧正常，右侧第三象限见一不可移动肿物，大小2×1.5cm”。对于类似情况下的处理，本实施例可以识别出解剖部位实体“乳腺”、方位实体“左侧”、“右侧”，对解剖部位实体进行一定的位置替换，从而可以将文本转换成“左侧乳腺正常，右侧乳腺第三象限见一不可移动肿物，大小2×1.5cm”的写法，以符合常见的实体关系三元组组织形式。即：对所述特殊实体三元组中的实体属性进行识别，并将其转换为统一的实体描述格式。

对于标点符号识别而言，对于引号(“”)内的文本，往往含有标点符号对引号内的文本进行分割，引号的内容往往仍然属于一个分句或者整句的一个部分，由于有引号内标点符号的干扰，会影响三元组中标点符号之间关系的识别，需要将引号内的标点符号进行文本符号的替换。例如，“患者因主诉’胸痛，大汗伴濒死感2小时’急入我院就诊”，如果不做处理，计算机会将其当做2个分句做处理。因而需要替换成“患者因主诉’胸痛、大汗伴濒死感2小时’急入我院就诊”，有助于后续的知识信息的顺序提取。即：对所述特殊实体三元组中的标点符号进行识别，并将其转换为符号语法规则的标点格式。

本实施例通过对第一文本数据进行格式上的转换，使得医疗自然语言文本均转换为常规实体三元组，有助于后续进行知识信息的提取时能够与标注规则进行很好拟合，从而提高知识信息的提取准确率和效率。

当然，在其他实施例中，也可以通过迁移学习(迁移学习是一种机器学习方法，就是把为一项任务开发的模型作为初始点，重新使用在为另一任务开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务)来改善第一文本数据直接用于知识信息提取时容易出现欠拟合的情形，从而提高知识信息的提取准确率和效率。

步骤S30：对所述第二文本数据进行信息提取，以获取实体关系三元组。

本实施例在进行实体关系三元组的提取时，根据医学领域专家预先编写的标注规则来对第二文本数据中的实体关系进行识别，从而能够提取出实体关系三元组。常见的实体关系主要是实体间的位置关系，例如前后关系、在相邻两个标点符号之间关系等。

本实施例根据语料预处理中的分词处理过程得到实体，通过判定实体关系的成立与否来决定是否进行三元组的提取。例如，对实体关系进行识别时，可以根据实体的分类(类别可以是名词实体、形容词实体、动词实体、数值实体以及否定词等)，获得不同类型的实体，并根据不同类别的实体构建出至少一种实体关系，然后采用二分类模型来确定上述的实体关系是否成立。二分类模型可以通过训练获得，即预先通过不同的实体关系分别对二分类模型进行训练，然后通过训练好的二分类模型对实体关系是否成立进行确定。

在本实施例中，二分类模型的训练的结构如图5所示。采用SVM(Support VectorMachine，支持向量机，是一类按监督学习方式对数据进行二元分类的广义线性分类器)或者决策树模型，用到的特征从实体所在的上下文包含信息如下(此处考虑A是左边的实体，B是右边的实体)。

其中：特征集合包括A/B本身特征、周边文本特征、依存分析特征以及句子形态特征等；

A/B本身特征：A本身包含的信息，如A是否身体部位、是否病变等；B本身包含的信息；

A左边文本特征：原文本中A左边的文本特征，该部分文本中：

(a)同一逗号句子内是否有否定词、是否有转折连词、是否有时间等；

(b)同一句号句子内是否有上述信息；

(c)之一到文本开头是否有上述信息。

B右边文本特征：原文本中B左边的文本特征，该部分文本中：

(b)同一句号句子内是否有上述信息；

(c)之一到文本结尾是否有上述信息。

AB之间文本特征：A和B之间的文本特征，该部分文本中：

句号个数、逗号个数、转折词个数、并列词个数、A同类实体个数、B同类实体个数等。

请参阅图4，在本实施例中，获取实体关系三元组后，还可以对实体关系三元组的实体进行输出，并对输出结果进行评估。

步骤S40：根据所述实体关系三元组输出实体，并获取所述实体构成的结果集。在本实施例中，在对实体进行输出时，可以根据预先设置的规则对其中某一个实体或者部分实体或者全部实体进行输出，输出的实体可以构成结果集。

步骤S50：根据所述自然语言文本对应的预设标注结果，对所述结果集进行评估，以获取输出的所述结果集的可靠性。

为了对输出结果的可靠性进行评估，可以对输入的第二文本数据进行人工抽样标注，形成预设标注结果，并将预设标注结果与输出的结果进行对比评估。在本实施例中，评价的指标包括：错误率、标准精度(Prec)、准确率、精确度、召回率、F1值、ROC(ReceiverOperating Characteristic，受试者操作特征)曲线、AUC(Area Under ROC Curve)曲线等，从而可以确定输出结果的可靠性。

本实施例提供的自然语言文本的信息提取方法的有益效果至少在于：本实施例通过对复杂多变的自然语言文本进行语料预处理后，进一步对自然语言文本进行第二预处理，从而对自然语言文本的数据格式进行统一适配处理，生成符合预设格式的第二文本数据，再将第二文本数据用于知识信息的提取，有效提高了知识信息提取的效率和准确度，同时可以极大减少医学领域专家人工新增标注规则的人力成本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

基于同一发明构思，请参阅图6，本实施例的目的还在于提供一种自然语言文本的信息提取装置，包括语料预处理模块61、预处理器62以及获取模块63。其中，语料预处理模块61用于对获取的自然语言文本进行第一预处理，以获得第一文本数据；预处理器62用于对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据；获取模块63用于对所述第二文本数据进行信息提取，以获取实体关系三元组。

请参阅图7，进一步地，预处理模块61包括第一中间数据获取单元611、第二中间数据获取单元612以及第一文本数据获取单元613。其中，第一中间数据获取单元611采用第二预设方式对所述自然语言文本进行语料清洗，以提取第一中间数据；第二中间数据获取单元612采用分词算法对所述第一中间数据进行分词，以获取第二中间数据；第一文本数据获取单元613用于对所述第二中间数据进行去停用词处理，以去除所述第二中间数据中与文本特征无关的数据，获取所述第一文本数据。

进一步地，数据处理人员通过对一定数量的多来源语料数据进行调研和特征提取，采取监督式三元组提取方式，从语料数据中获取最常见的实体关系三元组(即常规实体三元组)，这些常规实体三元组为数据处理人员编写格式转换提供参考。同时，还可以从语料数据中获取特殊的实体关系三元组(即特殊实体三元组)，并针对这些特殊实体三元组编写格式转换的规则(即第一预设方式)，从而形成预处理器62。在实际应用时，第一文本数据输入预处理器62，根据数据处理人员编写的格式转换规则进行数据处理，从而可以获得具有预设格式的第二文本数据。

请参阅图8，进一步地，自然语言文本的信息提取装置还包括输出模块64以及评价模块65。其中，输出模块64用于根据所述实体关系三元组输出实体，并获取所述实体构成的结果集；评价模块65用于根据所述自然语言文本对应的预设标注结果，对所述结果集进行评估，以获取输出的所述结果集的可靠性。

基于同一发明构思，图9是本发明一实施例提供的终端设备的示意图。如图9所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如自然语言文本的信息提取程序。所述处理器70执行所述计算机程序72时实现上述各个自然语言文本的信息提取方法实施例中的步骤，例如图1至图4所示的步骤S10至步骤S50。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如图6至图8所示模块61至65的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备7可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图9仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其它程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种自然语言文本的信息提取方法，其特征在于，包括：

对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据，所述预设格式包括现有人工编写的标注规则；

对所述第二文本数据进行信息提取，以获取实体关系三元组；

根据所述实体关系三元组输出实体，并获取所述实体构成的结果集；

根据所述自然语言文本对应的预设标注结果，对所述结果集进行评估，以获取输出的所述结果集的可靠性；其中，所述预设标注结果基于对所述第二文本数据进行人工抽样标注形成；

所述对获取的自然语言文本进行第一预处理，以获得第一文本数据，包括：

采用第二预设方式对所述自然语言文本进行语料清洗，以提取第一中间数据；其中，在删除噪音数据时，所述第二预设方式包括：通过人工去重的方式去除医疗自然语言文本中的重复数据；通过对齐的方式去除医疗自然语言文本中的噪音数据；通过删除的方式去除医疗自然语言文本中的噪音数据；在提取有用数据时，所述第二预设方式包括：按照预设的提取规则进行内容提取；通过正则表达式进行内容匹配提取；根据磁性和命名实体进行内容提取；或者编写脚本或代码对自然语言文本进行批量处理，从而提取有用数据；

采用分词算法对所述第一中间数据进行分词，以获取第二中间数据；所述分词算法包括：基于规则的分词方法、基于理解的分词方法或者基于统计的分词方法；

对所述第二中间数据进行去停用词处理，以去除所述第二中间数据中与文本特征无关的数据，获取所述第一文本数据；所述停用词包括标点符号、语气、人称、无意义的乱码和空格中的至少一种对文本特征没有贡献作用的字词。

2.如权利要求1所述的自然语言文本的信息提取方法，其特征在于，所述对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据，包括：

对所述第一文本数据进行分类，以获取符合预设格式的常规实体三元组和不符合所述预设格式的特殊实体三元组；

根据第一预设方式对所述特殊实体三元组进行处理，以将所述特殊实体三元组转换成符合所述预设格式的常规实体三元组，以获得所述第二文本数据。

3.如权利要求2所述的自然语言文本的信息提取方法，其特征在于，所述第一预设方式至少包括以下一种：

对所述特殊实体三元组中的序号进行识别，并将其转换为预设的序号书写格式；

对所述特殊实体三元组中的时间进行识别，并将其转换为预设的时间格式；

对所述特殊实体三元组中的实体属性进行识别，并将其转换为预设的实体描述格式；

以及，对所述特殊实体三元组中的标点符号进行识别，并将其转换为符号语法规则的标点格式。

4.一种自然语言文本的信息提取装置，其特征在于，包括：

预处理器，用于对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据，所述预设格式包括现有人工编写的标注规则；

获取模块，用于对所述第二文本数据进行信息提取，以获取实体关系三元组；

输出模块，用于根据所述实体关系三元组输出实体，并获取所述实体构成的结果集；

评价模块，用于根据所述自然语言文本对应的预设标注结果，对所述结果集进行评估，以获取输出的所述结果集的可靠性；

所述语料预处理模块包括第一中间数据获取单元、第二中间数据获取单元以及第一文本数据获取单元；其中，

所述第一中间数据获取单元，用于采用第二预设方式对所述自然语言文本进行语料清洗，以提取第一中间数据；其中，在删除噪音数据时，所述第二预设方式包括：通过人工去重的方式去除医疗自然语言文本中的重复数据；通过对齐的方式去除医疗自然语言文本中的噪音数据；通过删除的方式去除医疗自然语言文本中的噪音数据；在提取有用数据时，所述第二预设方式包括：按照预设的提取规则进行内容提取；通过正则表达式进行内容匹配提取；根据磁性和命名实体进行内容提取；或者编写脚本或代码对自然语言文本进行批量处理，从而提取有用数据；

所述第二中间数据获取单元，用于采用分词算法对所述第一中间数据进行分词，以获取第二中间数据；所述分词算法包括：基于规则的分词方法、基于理解的分词方法或者基于统计的分词方法；

所述第一文本数据获取单元，用于对所述第二中间数据进行去停用词处理，以去除所述第二中间数据中与文本特征无关的数据，获取所述第一文本数据；所述停用词包括标点符号、语气、人称、无意义的乱码和空格中的至少一种对文本特征没有贡献作用的字词。

5.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。