CN109960720B

CN109960720B - 针对半结构化文本的信息抽取方法

Info

Publication number: CN109960720B
Application number: CN201910218829.1A
Authority: CN
Inventors: 于建岗; 张竞; 苏俊; 张沛
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2020-12-25
Anticipated expiration: 2039-03-21
Also published as: CN109960720A

Abstract

本申请提供了一种针对半结构化文本的信息抽取方法，本方法对半结构化文本进行预处理，得到预处理后文本；对预处理后文本进行多自然语言解析，并根据解析结果生成文本对象集；根据预先生成的文本标注集以及提取函数，对文本对象集进行候选关系提取，得到候选关系集；对候选关系集进行实体关系提取，得到实体关系集；根据实体关系集进行信息抽取。本申请提供的方法对预处理后的半结构化文本进行多自然语言解析，对解析结果进行候选关系提取，进而基于候选关系得到实体关系，根据实体关系集进行信息抽取。

Description

针对半结构化文本的信息抽取方法

技术领域

本发明涉及信息处理技术领域，尤其涉及一种针对半结构化文本的信息抽取方法。

背景技术

随着自然语言技术以及知识图谱技术应用越来越广泛，现实生活中越来越多的场景许下需要对类似简历、通知、报告、通告等本结构化文本进行信息抽取。

大多数情况下，这类文本都存在多种内容格式，其具体的文章内容和结构也存在多种变化，例如通知文本的落款和被通知人的位置有可能在上方或者下方、简历的个人经历以及个人详细信息会分布在文本的各个角落。

采用现在常用的正则表达式的方法进行文本信息抽取时，需要对每种内容格式的文本开发相应代码进行关系提取。同时，由于自然语言处理技术尚未完全成熟，市面上流行多种自然语言处理工具以及处理算法，这些抽自然语言处理工具的处理精度存在一定的偏差，这导致采用单一自然语言处理工具进行实体关系抽取会产生各种误差传递问题，其误差会在后继处理流程中逐渐增大。在这种情况下，信息抽取的效率很低，准确率也不高。

发明内容

为解决上述问题，本申请实施例提出了一种针对半结构化文本的信息抽取方法。本发明采用的主要技术方案包括：

一种针对半结构化文本的信息抽取方法，所述方法，包括：

S101，对半结构化文本进行预处理，得到预处理后文本；

S102，对所述预处理后文本进行多自然语言解析，并根据解析结果生成文本对象集；

S103，根据预先生成的文本标注集以及提取函数，对所述文本对象集进行候选关系提取，得到候选关系集；

S104，对所述候选关系集进行实体关系提取，得到实体关系集；

S105，根据所述实体关系集进行信息抽取。

可选地，所述S101包括：

S101-1，依次读取半结构化文本中的每一字符；

S101-2，确定S101-1中读取的每一个字符的处理后字符；

S101-3，根据处理后字符以及字符之间的位置关系生成中间文本；

S101-4，依次读取中间文本中的每一字符；

S101-5，若S101-4中读取的任一字符满足预设关系，则删除所述S101-4中读取的任一字符，并将所述S101-4中读取的任一字符之后的所有字符前移一位，形成预处理后文本。

可选地，对于S101-1中读取的任一字符i，所述S101-2包括：

S101-2-1，若字符i为文字，或者，字母，或者，标点符号，或者，运算符号，则字符i的处理后字符为字符i；

S101-2-3，若字符i非文字，且非字母，且非标点符号，且非运算符号，则字符i的处理后字符为预先设置的分隔符；

所述预设关系为：当前读取的S101-4中任一字符为分隔符，且当前读取的S101-4中任一字符的前一字符也为分隔符；

所述S101-5之后还包括，若预处理后文本的首字符为分隔符，则删除首字符，其后的所有字符前移一位；若预处理后文本的尾字符为分隔符，则删除尾字符。

可选地，所述S102包括：

S102-1，对预处理后文本中的每一语句块进行多自然语言解析，得到该语句块中的一个或多个语段；其中，语句块由两个相邻分隔符间的字符构成，或者，由预处理后文本中第一个字符至第一个分隔符前的字符构成，或者由最后一个分隔符后的字符至预处理后文本中最后一个字符构成；所述语段为词或者符号；

S102-2，确定每个语段的属性信息；其中，任一语段的属性信息包括：包含字符总数，包含的第一字符在所述预处理后文本中的位置，若所述任一语段为词，则其属性信息还包括：词性，在所述任一语段前最近的符号位置，在所述任一语段后最近的符号位置，所述任一语段与其前最近的符号之间包括的语段数量，所述任一语段与其后最近的符号之间包括的语段数量；

S102-3，将语段及其属性信息形成的集合确定为文本对象集。

可选地，所述103包括：

S103-1，根据预先生成的文本标注集依次为每一个语段进行标注；所述为词的语段标注为类别，为符号的语段标注为符号名称；

S103-2，根据属性信息和提取函数计算每个语段的提取度；

S103-3，根据每个语段的提取度和标注进行候选关系提取，得到候选关系集。

可选地，所述提取函数为：

其中，A_i为第i个语段的提取度，i为语段标识，W_i1为第i个语段的权重，若第i个语段为符号，则W_i1＝0，若第i个语段为词，则W_i1＝1；W_i2为词性权重，若第i个语段词性为名词，则W_i2＝1，若第i个语段词性为形容词，则W_i2＝0.59，若第i语段词性非名词且非形容词，则W_i2＝0.1，N_i3为第i个语段与其后最近的符号之间包括的语段数量，N_i4为第i个语段与其前最近的符号之间包括的语段数量+1，D_i2为在第i个语段后最近的符号位置，D_i1为在第i个语段前最近的符号位置，N_i为第i个语段位置数，N_i＝第i个语段的第一字符在预处理后文本中的位置+第i个语段的字符总数。

可选地，所述S103-3包括：

S103-3-1，在文本对象集中，确定为符号的语段位置及符号内容；

S103-3-2，根据为符号的语段位置及符号内容，将文本对象集中为字符的语段按句子分类；

S103-3-3，对于每类中的每个语段，根据其标注确定各语段之间的关系；其中，语段之间的关系为包含关系，或者，总分关系，或者，并列关系；

S103-3-4，根据每个语段的提取度和各语段之间的关系确定各语段的候选关系；

S103-3-5，将所有语段的候选关系形成候选关系集。

可选地，对于任一类中的任一语段，所述S103-3-4包括：

若任一类中的任一语段与其他语段存在并列关系，则确定任一类中的任一语段的候选关系为并列关系；

若任一类中的任一语段与其他语段不存在并列关系，但存在包含关系，且存在包含关系的语段的提取度大于任一类中的任一语段的提取度，则确定任一类中的任一语段的候选关系为包含关系；

若任一类中的任一语段与其他语段不存在并列关系，但存在总分关系，且存在总分关系的语段的提取度小于任一类中的任一语段的提取度，则确定任一类中的任一语段的候选关系为总分关系；

否则，确定任一类中的任一语段无候选关系。

可选地，所述S104包括：

S104-1，获取每类中的词性为名词的语段；

S104-2，根据每类中词性为名词的语段及候选关系集提取每类中的实体；

S104-3，确定每类中的实体关系；

S104-4，将各类中的实体关系形成实体关系集。

可选地，对于任一类，所述S104-2包括：

若所述任一类中词性为名词的语段数量为0，则确定所述任一类无实体；

若所述任一类中词性为名词的语段数量大于1，则选择提取度最高的词性为名词的语段；若所述任一类中词性为名词的语段数量为1，则选择该词性为名词的语段；

根据候选关系集确定与选择的词性为名词的语段具有候选关系的语段；

将确定的语段作为所述任一类中的实体。

本发明的有益效果是：对预处理后的半结构化文本进行多自然语言解析，对解析结果进行候选关系提取，进而基于候选关系得到实体关系，根据实体关系集进行信息抽取。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1示出了本申请一实施例提供的一种针对半结构化文本的信息抽取方法的流程示意图。

具体实施方式

大多数情况下，这类文本都存在多种内容格式，其具体的文章内容和结构也存在多种变化，例如通知文本的落款和被通知人的位置有可能在上方或者下方、简历的个人经历以及个人详细信息会分布在文本的各个角落。现在常用的正则表达式的方法进行文本信息抽取时，需要对每种内容格式的文本开发相应代码进行关系提取。同时，由于自然语言处理技术尚未完全成熟，市面上流行多种自然语言处理工具以及处理算法，这些抽自然语言处理工具的处理精度存在一定的偏差，这导致采用单一自然语言处理工具进行实体关系抽取会产生各种误差传递问题，其误差会在后继处理流程中逐渐增大。在这种情况下，信息抽取的效率很低，准确率也不高。

基于此，本提案提供一种方法，对预处理后的半结构化文本进行多自然语言解析，对解析结果进行候选关系提取，进而基于候选关系得到实体关系，根据实体关系集进行信息抽取。

参见图1，本实施例提供的一种针对半结构化文本的信息抽取方法实现过程如下：

S101，对半结构化文本进行预处理，得到预处理后文本。

本步骤可以通过如下过程实现：

S101-1，依次读取半结构化文本中的每一字符。

S101-2，确定S101-1中读取的每一个字符的处理后字符。

例如，对于S101-1中读取任一字符i，

S101-2-1，若字符i为文字，或者，字母，或者，标点符号，或者，运算符号，则字符i的处理后字符为字符i。

S101-2-3，若字符i非文字，且非字母，且非标点符号，且非运算符号，则字符i的处理后字符为预先设置的分隔符。

通过S101-2，原半结构化文本中的有意义的字符，如文字，或者，字母，或者，标点符号，或者，运算符号将被保留，其他无意义字符则变为预设的分隔符。

预设的分隔符可以为空格，或者，回车，或者，换行，或者，逗号，或者分号等，本实施例不对分隔符的具体内容进行限定。

S101-3，根据处理后字符以及字符之间的位置关系生成中间文本。

通过本步骤，会将半结构化文本中的每一字符变为处理后字符，形成中间文本。

例如，半结构化文本为“ABC，，的，”，预设的分隔符为分号，中间文本则为“ABC；；的；”。

S101-4，依次读取中间文本中的每一字符。

S101-5，若S101-4中读取的任一字符满足预设关系，则删除S101-4中读取的任一字符，并将S101-4中读取的任一字符之后的所有字符前移一位，形成预处理后文本。

其中，预设关系可以为：当前读取的S101-4中任一字符为分隔符，且当前读取的S101-4中任一字符的前一字符也为分隔符。

经过本步骤可以将多个相连的分隔符删为1个，形成标准格式。

例如，中间文本则为“ABC；；的；”，则预处理后文本为“ABC；的；”。

为了保证预处理后文本的第一字符和最后一个字符都为有效字符，方便后续的信息抽取，S101-5之后还包括，若预处理后文本的首字符为分隔符，则删除首字符，其后的所有字符前移一位。若预处理后文本的尾字符为分隔符，则删除尾字符。

因此，最终预处理后文本为“ABC；的”。

本步骤通过对半结构化文本的预处理，保证后续处理的文本为同一格式，有助于提升后续信息抽取的准确度。

S102，对预处理后文本进行多自然语言解析，并根据解析结果生成文本对象集。

本步骤的自然语言解析方法可以为现有的方法，识别得到具有一个语义的语段，该语段可以为词汇，也可以为标点符号，运算符号等。

例如通过如下过程实现：

S102-1，对预处理后文本中的每一语句块进行多自然语言解析，得到该语句块中的一个或多个语段。其中，语句块由两个相邻分隔符间的字符构成，或者，由预处理后文本中第一个字符至第一个分隔符前的字符构成，或者由最后一个分隔符后的字符至预处理后文本中最后一个字符构成。

其中，语段为词或者符号。

S102-2，确定每个语段的属性信息。

其中，任一语段的属性信息包括：包含字符总数，包含的第一字符在预处理后文本中的位置，若任一语段为词，则其属性信息还包括：词性，在任一语段前最近的符号位置，在任一语段后最近的符号位置，任一语段与其前最近的符号之间包括的语段数量，任一语段与其后最近的符号之间包括的语段数量。

若所述任一语段为最后一个语段，则在任一语段后最近的符号位置为所述在任一语段后一个字符的位置+1。

除此之外，还可以采用多种自然语言文本处理工具以及自定义词库或实体库进行解析获取其自然语言特征，如提取词性、句法结构，词偏移、词的句位置、词字面量，实体特征，实体类别，并将其转化为统一的文本模型方便后继流程的处理。

S102-3，将语段及其属性信息形成的集合确定为文本对象集。

例如，“ABC；的”中的语段“的”，其属性信息为包含字符总数(1)，包含的第一字符在预处理后文本中的位置(5，其中首字符A的位置为1)，词性(的)，在该语段前最近的符号位置(4)，在该语段后最近的符号位置(由于是最后一个语段，其后没有最近的符合，本实施例将此种情况下该语段后最近的符号位置确定为该语段后一个字符的位置+1，即5+1＝6)，该语段与其前最近的符号之间包括的语段数量(0)，该语段与其后最近的符号之间包括的语段数量(0)。

S102-3，将语段及其属性信息形成的集合确定为文本对象集。

本步骤中会对同一格式的文本进行语段(如词，标点、运算等符号)提取，并为提取的语段赋予属性信息。语段是后续处理及抽取的基础，属性信息是后续语段取舍的基础。

S103，根据预先生成的文本标注集以及提取函数，对文本对象集进行候选关系提取，得到候选关系集。

其中文本标注集是实现采用文档标注工具，抽取一定量文本作为样本，通过可视化图形界面将所需提取的实体关系进行标注，形成文本标注集，并将文本标注集通过词在文本中的位置映射至对应文本模型。

标注可以反映标注对象的应用场景及语义。

例如，半结构化文本为“居住城市：深圳”，其中“深圳”可别标注为“城市”。

本步骤的实现过程如下：

S103-1，根据预先生成的文本标注集依次为每一个语段进行标注。为词的语段标注为类别，为符号的语段标注为符号名称。

S103-2，根据属性信息和提取函数计算每个语段的提取度。

其中，提取函数为：

其中，A_i为第i个语段的提取度，i为语段标识，W_i1为第i个语段的权重，若第i个语段为符号，则W_i1＝0，若第i个语段为词，则W_i1＝1。W_i2为词性权重，若第i个语段词性为名词，则W_i2＝1，若第i个语段词性为形容词，则W_i2＝0.59，若第i语段词性非名词且非形容词，则W_i2＝0.1，N_i3为第i个语段与其后最近的符号之间包括的语段数量，N_i4为第i个语段与其前最近的符号之间包括的语段数量+1，D_i2为在第i个语段后最近的符号位置，D_i1为在第i个语段前最近的符号位置，N_i为第i个语段位置数，N_i＝第i个语段的第一字符在预处理后文本中的位置+第i个语段的字符总数。

由于提取度计算时考虑了词性，内容是符号还是词，语段与其后最近的符号之间包括的语段数量，与其前最近的符号之间包括的语段数量，语段后最近的符号位置，语段前最近的符号位置，语段位置数，可以对语段自身的内容，语段的位置，语段与前语段之间的关系，语段与后语段之间的关系，因此，提取度可以全面，准确的反应语段对于是否重要。

本步骤的实现过程为：

S103-3-1，在文本对象集中，确定为符号的语段位置及符号内容。

S103-3-2，根据为符号的语段位置及符号内容，将文本对象集中为字符的语段按句子分类。

S103-3-3，对于每类中的每个语段，根据其标注确定各语段之间的关系。

其中，语段之间的关系为包含关系，或者，总分关系，或者，并列关系。

例如，深圳，杭州之间为并列关系。身体，胳膊之间为总分关系。水果，香蕉之间为包含关系。

S103-3-4，根据每个语段的提取度和各语段之间的关系确定各语段的候选关系。

具体的，

若任一类中的任一语段与其他语段存在并列关系，则确定任一类中的任一语段的候选关系为并列关系。

若任一类中的任一语段与其他语段不存在并列关系，但存在包含关系，且存在包含关系的语段的提取度大于任一类中的任一语段的提取度，则确定任一类中的任一语段的候选关系为包含关系。

若任一类中的任一语段与其他语段不存在并列关系，但存在总分关系，且存在总分关系的语段的提取度小于任一类中的任一语段的提取度，则确定任一类中的任一语段的候选关系为总分关系。

否则，确定任一类中的任一语段无候选关系。

S103-3-5，将所有语段的候选关系形成候选关系集。

信息抽取时语段的含义以及语段之间的关系较为重要，同一词语，用在不同的场景中，会有不同的含义，本步骤中文本标注集用于对语段进行标注，该标注可以反映语段的场景中的含义，提取函数可以有效的评估语段的提取度，其反映了该语段对于是否重要语段。在基于标注及提取度提取出的候选关系集可以准确的在语境中反映语段件的关系，保证了后续信息抽取的准确度。

S104，对候选关系集进行实体关系提取，得到实体关系集。

经过S103会得到语段的关系，但语言除了单纯的文字(即语段)之外还有词性。同一个词，不同的词性含义不同，例如：跑，这个语段可以为动词，也可以为名词，而动词，名词的含义却不同。因此本步骤执行时，会基于词性及候选关系集得到实体关系集。

具体实现过程如下：

S104-1，获取每类中的词性为名词的语段。

S104-2，根据每类中词性为名词的语段及候选关系集提取每类中的实体。

由于半结构化文本中，名词最能反映其实质内容，因此S104-2实现过程为：

若任一类中词性为名词的语段数量为0，则确定任一类无实体。

若任一类中词性为名词的语段数量大于1，则选择提取度最高的词性为名词的语段。若任一类中词性为名词的语段数量为1，则选择该词性为名词的语段。

根据候选关系集确定与选择的词性为名词的语段具有候选关系的语段。

将确定的语段作为任一类中的实体。

S104-3，确定每类中的实体关系。

S104-4，将各类中的实体关系形成实体关系集。

S105，根据实体关系集进行信息抽取。

本步骤的抽取方法可以采用现有的抽取方法，根据实体关系抽取信息，如实体关系为居住地，深圳市，其中，深圳市的标注为城市，居住地和深圳市之间是包含关系，则抽取出“居住地”：{“城市”：“深圳市”}。

实体关系集既考虑了语段本身的文字，又考虑了词性，语境。基于实体关系集进行信息抽取，可以保证抽取结果的准确性。

本实施例提供的方法，对预处理后的半结构化文本进行多自然语言解析，对解析结果进行候选关系提取，进而基于候选关系得到实体关系，根据实体关系集进行信息抽取。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种针对半结构化文本的信息抽取方法，其特征在于，所述方法包括：

S101，对半结构化文本进行预处理，得到预处理后文本，其包括：

S101-1，依次读取半结构化文本中的每一字符；

S101-2，确定S101-1中读取的每一个字符的处理后字符，其包括：

S101-4，依次读取中间文本中的每一字符；

S101-5，若S101-4中读取的任一字符满足预设关系，则删除所述S101-4中读取的任一字符，并将所述S101-4中读取的任一字符之后的所有字符前移一位，形成预处理后文本；

所述S101-5之后还包括，若预处理后文本的首字符为分隔符，则删除首字符，其后的所有字符前移一位；若预处理后文本的尾字符为分隔符，则删除尾字符；

S105，根据所述实体关系集进行信息抽取。

2.根据权利要求1所述的方法，其特征在于，所述S102包括：

S102-3，将语段及其属性信息形成的集合确定为文本对象集。

3.根据权利要求2所述的方法，其特征在于，所述103包括：

S103-2，根据属性信息和提取函数计算每个语段的提取度；

4.根据权利要求3的方法，其特征在于，所述提取函数为：

5.根据权利要求4所述的方法，其特征在于，所述S103-3包括：

S103-3-5，将所有语段的候选关系形成候选关系集。

6.根据权利要求5所述的方法，其特征在于，对于任一类中的任一语段，所述S103-3-4包括：

否则，确定任一类中的任一语段无候选关系。

7.根据权利要求6所述的方法，其特征在于，所述S104包括：

S104-1，获取每类中的词性为名词的语段；

S104-3，确定每类中的实体关系；

S104-4，将各类中的实体关系形成实体关系集。

8.根据权利要求7所述的方法，其特征在于，对于任一类，所述S104-2包括：

将确定的语段作为所述任一类中的实体。