CN107885870B

CN107885870B - 一种业务文档公式提取方法及装置

Info

Publication number: CN107885870B
Application number: CN201711189981.9A
Authority: CN
Inventors: 任宁; 郝思洋; 张青
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: Dingfu Intelligent Technology Co., Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2019-04-16
Anticipated expiration: 2037-11-24
Also published as: CN107885870A

Abstract

本申请提供一种业务文档公式提取方法及装置，在对业务文本中的公式内容进行提取过程中，先定位业务文档中的特征语句，以减少数据处理量；再定位特征语句中的特征词信息，并确定特征语句中包含结果量信息的结果量语句以及包含自变量和运算关系信息的自变量语句；再根据信息抽取模型提取语句中的结果量信息、自变量信息以及运算关系信息，最后将提取的结果量信息和自变量信息按照运算关系组合成公式进行保存。本申请提供的公式提取方法，可根据信息抽取模型分析业务文档中的公式，并提取出相应的公式信息，提高数据挖掘的效率，解决现有公式提取方法不能识别隐含在文本中的公式内容的问题。

Description

一种业务文档公式提取方法及装置

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种业务文档公式提取方法及装置。

背景技术

数据挖掘是在特定业务场景下的大量文本数据中，提取出有价值的信息，再通过分析所提取的信息，实现对业务文档内容的智能解析。在众多有价值的信息中，公式作为数据计算工具，对文档内容的解析具有直接影响，因此在进行数据挖掘时，需要准确提取文本数据中出现的公式。

现有技术中，提取业务文档内的公式，主要通过分析出现在文档中的数学符号，并结合数学符号临近的上下文内容，确定各个数学符号指代的含义，进而确定业务文档中数据之间的运算关系。例如，业务文档中出现“每年的利息＝本金×利率”，通过分析文档内容可知，文档中具有表示运算关系的数学符号“＝”和“×”，因此可以直接提取数学符号以及临近的上下文内容，即“利息＝本金×利率”。

可以看出，现有技术对业务文档中公式的提取，要依赖于对文档中数学符号的识别，和对数学符号临近上下文内容的提取。但在很多业务场景中，公式不会直接以纯数学符号的形式表现出来，而是以文本描述计算方法或文字符号表示。例如，业务文档中的内容为“本公司按基本保险金额给付重大疾病保险金”，其中不包含任何表示运算关系的数学符号，但隐含公式“重大疾病保险金＝基本保险金额”。显然，对于这种文档内容，现有的公式提取方法不能识别隐含的公式信息，不能挖掘出有价值的数据。

发明内容

本申请提供了一种业务文档公式提取方法及装置，以解决现有公式提取方法不能识别隐含在文本中的公式内容的问题。

一方面，本申请提供一种业务文档公式提取方法，用于提取隐含在文本内容中的公式数据，方法包括：

获取当前业务场景下的业务文档和信息抽取模型，所述信息抽取模型包括模型树以及在所述模型树中各节点上的正则表达式；

根据所述信息抽取模型确定所述业务文档中的特征语句；

匹配所述特征语句中与所述抽取模型节点上正则表达式对应的特征词信息；

根据所述特征词信息，分割所述特征语句，生成结果量语句和自变量语句，所述自变量语句中包括所述特征词信息；

匹配所述结果量语句中，与所述抽取模型节点对应的结果量信息；

匹配所述自变量语句中，与所述抽取模型节点对应的自变量信息以及运算关系信息；

将所述结果量信息与所述自变量信息按照所述运算关系信息组合成公式。

可选的，根据所述信息抽取模型确定所述业务文档中的特征语句的步骤包括：

根据段落定位信息确定所述业务文档中的特征段落，所述段落定位信息包括关键词和标题层级；

根据所述信息抽取模型在所述特征段落中，确定包含所述关键词的特征语句。

可选的，根据段落定位信息确定所述业务文档中包含所述段落定位信息的特征段落的步骤包括：

获取所述信息抽取模型中包含结果量、自变量以及运算关系的节点信息，以及所述节点信息对应的关键词；

根据所述业务文档的标题层级，逐级匹配所述关键词与所述业务文档的标题内容；

如果所述标题内容中包括所述关键词，确定所述标题以及同级的下一个标题之间的内容为特征段落。

可选的，匹配所述结果量语句中，与所述抽取模型节点对应的结果量信息的步骤包括：

根据所述特征语句的结构，匹配所述信息抽取模型中，与所述特征语句结构相同的正则表达式；

提取所述正则表达式中的特征词，确定所述结果量相对于所述特征词的位置关系，所述位置关系包括所述结果量在所述特征词的前后关系，以及所述结果量与所述特征词的间隔距离；

根据所述位置关系，确定在所述特征语句中对应位置的结果量信息。

可选的，匹配所述自变量语句中与所述抽取模型节点对应的自变量信息以及运算关系信息的步骤包括：

根据所述抽取模型节点信息，判断所述自变量语句中，自变量信息及运算关系信息的数量；

如果所述自变量语句中包括多个所述自变量信息，根据多个所述自变量信息确定每个所述自变量信息对应的扩展语句；

逐一匹配所述扩展语句中的自变量信息，以及每个所述自变量信息对应的运算关系信息；

如果所述自变量语句中包括选择信息，根据所述选择信息确定选择语句，所述选择信息包括可选位置和可选数量；

根据所述可选位置确定与所述可选数量相同的选择语句；

逐一匹配所述选择语句中的自变量信息，以及每个所述自变量信息对应的运算关系信息。

可选的，所述方法还包括：

如果所述自变量语句中不包括运算关系信息，根据所述抽取模型，获取与所述结果量信息对应的统一公式；

提取所述统一公式中的自变量信息和运算关系信息。

可选的，所述扩展语句是在所述特征语句或所述特征语句的上下文中，包含所述自变量信息的文本内容；所述选择信息是在所述特征语句中，包含与所述信息抽取模型对应，表示选择性词语或选择位置的文本内容。

可选的，如果所述当前业务场景为保险业务，获取所述信息抽取模型中，保险责任对应的模型树节点，并按照以下方式确定保险责任对应的特征语句；

在所述模型树节点下的正则表达式中，提取与保险责任对应的关键词和相关词；

根据所述保险业务场景下的业务文档标题层级，逐级匹配包含所述关键词或所述相关词的标题内容，确定保险责任对应的特征段落；

在所述保险责任对应的特征段落中，逐句匹配与所述保险责任对应的正则表达式表述一致的特征语句。

可选的，如果所述当前业务场景为保险业务，所述结果量语句为所述特征语句中包含赔付结果信息的文本内容，所述自变量语句为所述特征语句中包含赔付条件信息的文本内容。

另一方面，本申请还提供一种业务文档公式提取装置，包括：

获取模块，用于获取当前业务场景下的业务文档和信息抽取模型，所述信息抽取模型包括模型树以及在所述模型树中各节点上的正则表达式；

特征语句模块，用于根据所述信息抽取模型确定所述业务文档中的特征语句；

特征词信息匹配模块，用于匹配所述特征语句中与所述抽取模型节点上正则表达式对应的特征词信息；

语句分割模块，用于根据所述特征词信息，分割所述特征语句，生成结果量语句和自变量语句，所述自变量语句中包括所述特征词信息；

结果量信息匹配模块，用于匹配所述结果量语句中，与所述抽取模型节点对应的结果量信息；

自变量信息匹配模块，用于匹配所述自变量语句中，与所述抽取模型节点对应的自变量信息以及运算关系信息；

组合模块，用于将所述结果量信息与所述自变量信息按照所述运算关系信息组合成公式。

由以上技术方案可知，本申请提供的业务文档公式提取方法，在对业务文本中的公式内容进行提取过程中，先通过定位业务文档中的特征语句，以减少数据处理量；再通过定位特征语句中的特征词信息，确定特征语句中包含结果量信息的结果量语句以及包含自变量和运算关系信息的自变量语句；再根据信息抽取模型提取语句中的结果量信息、自变量信息以及运算关系信息，最后将提取的结果量信息和自变量信息按照运算关系组合成公式进行保存。本申请提供的公式提取方法，根据信息抽取模型分析业务文档中的公式，并提取出相应的信息，提高数据挖掘的效率，解决现有公式提取方法不能识别隐含在文本中的公式内容的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种业务文档公式提取方法的流程示意图；

图2为定位特征语句的流程示意图；

图3为定位特征段落的流程示意图；

图4为匹配结果量信息的流程示意图；

图5为匹配多个自变量信息的流程示意图；

图6为匹配选择信息的流程示意图；

图7为匹配运算关系信息的流程示意图；

图8为一种业务文档公式提取装置的结构示意图。

具体实施方式

公式，是指用数学符号表示，各个量之间的一定关系的式子，能普遍应用于同类事物的方式方法。广义上来讲只要一个量可以被其他一个或多个量，用数学关系表达即可将各个量之间确定公式关系，即，通过数学关系表达各量之间的表达关系就构成了一个公式。本申请中所提到的公式指代广义上的公式，为了便于分析，本申请提供的技术方案中，公式主要包括结果量，自变量以及运算关系三个部分。其中，结果量是由自变量通过运算关系确定的，即满足：

“结果量＝运算关系(自变量)”；

上式中，运算关系可以是数值计算的关系，例如：“+、-、×、÷”等，也可以是逻辑关系，例如：“与、或、非、取最大”等。自变量的数量应与运算关系特征保持一致，可能含有多个，例如：“结果量＝自变量1+自变量2”；也可能只含有一个，例如：“结果量＝自变量×0.5”；在某些个别情况下，自变量也可能不存在，即结果量为定值或常量。

本申请所指的业务文档是在特定的业务场景中，进行业务活动所使用的文本资料，例如：合同，业务咨询语句，宣传文本，业务说明书等，这些文本资料可以是来源于业务平台收集保存的资料，也可以是人工录入或者直接从大数据中获取的资料。由于实际使用的文本多与口语格式相同，因此文本资料中存在着很多无实质含义的内容，在本领域中，将这种文本称为非结构化文本。非结构化文本是无法直接被计算机识别的，或者会使得计算机在处理相关文本时，挖掘的数据冗杂，甚至无法挖掘出有实际意义的数据。为了识别业务文档中有价值的数据，实际应用中需要构建提取数据的模型。

本申请提供的技术方案中，所谓模型根据用途的不同具有多种类型，例如，用于识别业务文档语句中概念、要素及关键词的语义模型；用于将非结构化文本转化成结构化文本的结构模型；用于确定文本分类的分类模型；以及用于提取业务文档中公式的信息抽取模型等。但无论对于哪种模型，主要包括模型树和表达式两个部分，其中，模型树是由业务文档下概念、要素或关键词构成的，具有父子关系的逻辑结构形式，可以根据结构中的具体内容进一步称之为：要素树，概念树，结构树等，本申请中为了便于理解统一称之为“模型树”。

模型树一般通过归纳整理业务场景下的样本数据，在提取业务概念信息和确定业务概念间的逻辑关系的基础上构建的。可见，模型树中不仅要包含当前业务场景下近乎全部的业务概念，而且要确定当前业务场景下，各业务概念信息之间的层级关系。在模型树中，能够表示某一个业务概念的位置设有一个节点，用以表示一个类(概念类、要素类、本体类等)。例如，业务文档中存在业务概念“价格”，通过分析与价格相关的样本数据，“价格”这一业务概念还可以进一步包括“价格高低”、“优惠”、“性价比”等，因此在构建模型树时将“价格高低”、“优惠”、“性价比”作为其父节点“价格”的下位类，如此逐渐确定每个业务概念的上位类和下位类，就构成了一个模型树。

同理在本申请提供的技术方案中，为了识别业务文档下的公式，应在实施数据挖掘前，根据当前业务场景下的样本数据构建信息抽取模型。相应的模型中包括用于提取文档中结果量信息、自变量信息和运算关系信息的模型树，以及位于模型树中每个节点上的抽取表达式，抽取表达式涵盖了表示这一节点对应业务概念，尽可能多的表述形式。进一步地，为了便于将业务文档中表述的内容统一成表达式格式，本申请中的抽取表达式是根据业务特点建立的正则表达式。

例如，在保险行业中，为了确定业务文档中的“赔付结果”这一业务概念，在抽取模型中，设置了表示“赔付结果”的节点，相应的节点下包含众多能够识别“赔付结果”的正则表达式，例如：“@[^,.；！？:]*据此给付[^,.；！？:]*金[^,.；！？:]*@”，其中，两个“@”之间的内容，就是根据业务场景中的样本数据，所建立的正则表达式。在进行数据挖掘时，业务文档中的包含正则表达式所示出内容的语句可以和此节点进行匹配，以便对业务文档中数据进行提取。

参见图1，为一种业务文档公式提取方法的流程示意图，本申请提供的技术方案中，所述公式提取方法包括以下步骤：

S101：获取当前业务场景下的业务文档和信息抽取模型，所述信息抽取模型包括模型树以及在所述模型树中各节点上的正则表达式；

S102：根据所述信息抽取模型确定所述业务文档中的特征语句；

S103：匹配所述特征语句中与所述抽取模型节点上正则表达式对应的特征词信息；

S104：根据所述特征词信息，分割所述特征语句，生成结果量语句和自变量语句，所述自变量语句中包括所述特征词信息；

S105：匹配所述结果量语句中，与所述抽取模型节点对应的结果量信息；

S106：匹配所述自变量语句中，与所述抽取模型节点对应的自变量信息以及运算关系信息；

S107：将所述结果量信息与所述自变量信息按照所述运算关系信息组合成公式。

本实施例中，以在保险条款中提取公式为例，首先确定当前业务场景为保险业务，而为了更加准确的分析当前业务场景中数据，可以进一步细化当前的业务场景，例如将保险业务进一步划分为保险金业务，理赔业务，赔付条款业务等，在实际应用中，当前业务场景的划分可以根据具体的业务文档中的信息确定，在保证涵盖所有业务概念的前提下尽量将当前业务场景划分更加细致，以减少数据分析量。其次，在确定当前业务场景后，获取当前业务场景下的业务文档和信息抽取模型，其中，业务文档就是待进行数据挖掘的文档，本实施例中，业务文档包括但不限于保险合同中的保险条款，一般为出现在合同中表述保险条款的文字内容。

本实施例信息抽取模型可以是在服务器中存储好的模型，在实际应用中根据当前业务场景直接调用即可；但在实际数据挖掘过程中，很多业务场景下并不存在适合的信息抽取模型，因此在实际数据处理过程中，可通过分析当前业务场景下的样本数据，结合已有的语义模型建立信息抽取模型。例如，当前业务场景为保险金业务时，由于可能没有预先构建对应的信息抽取模型，因此可以根据样本数据以及保险业务对应的语义模型建立一个符合保险金业务的信息抽取模型。如前文所述，本申请提供的技术方案中，信息抽取模型包括模型树以及在所述模型树中各节点上的正则表达式，可直接用于对业务文档中的信息进行匹配和信息的抽取。

在获取了当前业务场景的业务文档以及对应的信息抽取模型后，根据信息抽取模型定位到业务文档中的特征语句。其中，特征语句是指包含有公式相关句式的短句，具体的，按照文本信息处理方法中的拆句规则，先对业务文档进行拆句，使篇幅较大的业务文档被分割成数个短句，以每个短句作为数据挖掘的最小单元；再逐句与模型中各个节点上的正则表达式进行匹配，确定符合正则表达式句式的短句，从而确定业务文档中的特征语句。

可以看出，对于业务文档而言，在数据挖掘时，每一个短句都要与抽取模型进行匹配，在实际应用中，如果抽取模型比较庞大，即节点较多，或者业务文档的篇幅比较长时，数据的处理量是非常巨大的。因此在本申请的部分实施例中，如图2所示，定位到业务文档中的特征语句可以进一步包括以下步骤：

S201：根据段落定位信息确定所述业务文档中的特征段落，所述段落定位信息包括关键词和标题层级；

S202：根据所述信息抽取模型在所述特征段落中，确定包含所述关键词的特征语句。

本实施例中，所述段落定位信息是指能够通过分析识别段落中的文字内容，确定能够提取公式信息的段落。以上述保险条款为例，通常在保险条款中，只有特定的段落中才存在公式信息，例如关键词“保险责任”对应的段落，一般存在与公式信息有关的内容，因此当业务文档的某一个段落中存在关键词“保险责任”，则可确定当前段落为特征段落。

为了进一步减小数据的处理量，还可以仅对业务文档中的标题进行分析，如图3所示，判断标题中是否含有预设的关键词信息，具体包括如下步骤：

S2011：获取所述信息抽取模型中包含结果量、自变量以及运算关系的节点信息，以及所述节点信息对应的关键词；

S2012：根据所述业务文档的标题层级，逐级匹配所述关键词与所述业务文档的标题内容；

S2013：如果所述标题内容中包括所述关键词，确定所述标题以及同级的下一个标题之间的内容为特征段落。

例如，通过匹配，判断标题中含有关键词“保险责任”，则确定该标题对应的段落可能包含公式信息，并将从该标题到下一个同级标题之间的文档内容确定为特征段落。由于不同业务文档中表述内容上存在差异，且标题一般比较简洁，因此当对标题中的文本内容进行匹配时，应匹配与关键词含义相近的相关词。例如，与“保险责任”具有相同含义的相关词“本公司提供的保障”、“我们提供的保障”、“您获得的保障”、“本合同的保障范围”等，当匹配到含有关键词信息的标题后，与上述实施例相同，将从该标题到下一个同级标题之间的文档内容确定为特征段落。

进一步地，如果当前业务场景为保险业务，获取信息抽取模型中，保险责任对应的模型树节点，并按照以下方式确定保险责任对应的特征语句；

在模型树节点下的正则表达式中，提取与保险责任对应的关键词和相关词；

根据保险业务场景下的业务文档标题层级，逐级匹配包含关键词或相关词的标题内容，确定保险责任对应的特征段落；

在保险责任对应的特征段落中，逐句匹配与保险责任对应的正则表达式表述一致的特征语句。

由以上实施例可知，在业务文档数据与信息抽取模型之间进行匹配过程中，可以先根据文档中的标题内容定位业务文档的特征段落，再逐个匹配特征段落中的语句，确定可能包含公式信息的特征语句，以便提取特征语句中结果量、自变量以及运算关系信息。与现有技术相比，定位特征段落以及特征语句可以大大减少数据的处理量，提高数据挖掘的效率。此外，通过定位特征段落和特征语句可以有效排除业务文档中，与公式信息无关的信息干扰，准确提取有价值的公式信息。

在定位特征语句后，则匹配信息抽取模型与特征语句中的信息，以便提取出业务文档中用文字表述的公式内容。由于不同领域中文字表述上存在着很大的差别，使得业务文档中很容易出现，一个特征语句内包含多个表示结果量或自变量的词语，这些表示结果量或自变量的词语可能会多次重复出现，并且都能够与抽取模型中的节点信息相匹配，造成匹配出多个结果量或自变量，难以唯一确定结果量与自变量之间的运算关系。

为了解决上述问题，本实施例中，通过匹配所述特征语句中，与所述抽取模型节点上正则表达式对应的特征词信息，确定特征词信息，再根据对应正则表达式的结构特点，在特征词信息临近的语句中确定结果量语句和自变量语句。利用特征词信息将特征语句进行分割，确定出结果量和自变量的提取范围，从而在后续匹配过程中实现，结果量信息只在结果量语句中提取，而自变量信息只在自变量语句中提取，避免抽取出多个结果量信息或信息之间混淆的情况发生。

例如，定位的特征语句为：“本公司按基本保险金额给付重大疾病保险金”，通过与信息抽取模型进行匹配，确定与之对应的模型表达式为“@按[^,.；！？:]*给付[^,.；！？:]*金@”，其中，“给付”是表达式中可以区分确定结果量和自变量的词汇，因此在本例中可识别出特征词信息为“给付”。根据特征词“给付”在特征语句中的位置可以进一步确定，在“给付”以后的内容中可以匹配到结果量信息，在“给付”以前的内容可以匹配到自变量信息，因此将“给付”以后的内容作为结果量语句，将“给付”以前的内容作为自变量语句。

需要说明的是，在本实施例中，模型中表达式内容可以根据实际模型中表达式形式进行确定，并且由于不同业务文档的文字表述差异，关于特征词信息也可能存在多种表达形式，因此为了准确定位特征词，可以在模型中设置多个表达式，每个表达式对应一个特征词，例如，“@按[^,.；！？:]*给付[^,.；！？:]*金@”中的特征词为“给付”；“@按[^,.；！？:]*支付[^,.；！？:]*金@”中的特征词为“支付”等，通过足够多的表达式涵盖特征语句中可能出现的所有特征词。但在实际应用，表达式数量的增多会加大数据的处理量，因此可以通过建立特殊的表达式，来使一个表达式描述多个具有相同含义的特征词。例如，上述两个表达式可以合并为“[给支]付(一次∣该∣1次)”，以此来定位特征语句中的特征词信息。显然，特征词信息可以是某个表示运算关系的词汇，也可以是表示运算关系的数学符号。

在确定了特征词信息后，需要根据特征词信息在特征语句中的位置，对特征语句进行划分，确定结果量语句和自变量语句，再分别从结果量语句中提取结果量信息，在自变量语句中提取自变量信息。一般来讲，确定了符合表达式语言规则的特征语句后，语句中哪些位置的词是结果量，哪些位置的词是自变量就已经可以确定了，但对于个别表达式，通过特征词是不能确定哪些是结果量，哪些是自变量的。

例如，表达式内容为：“@即：[^,.；！？:…]*＝[^,.；！？:…]*@”时，特征词是“＝”根据这一特征词，无法判断特征语句中的结果量和自变量信息。因此，在本申请提供的技术方案中，还可以根据文中出现的结果量信息或自变量信息的数量，确定哪个是结果量，哪个是自变量。由于运算规则的限制，结果量一般只有一个，故在提取时，也只能提取一个结果量信息。进一步地，可以限制结果量语句和自变量语句的匹配顺序，优先匹配结果量，再匹配自变量，并在自变量信息临近的内容中提取运算关系信息。

由以上技术方案可知，本申请提供的业务文档公式提取方法在确定特征语句后，通过匹配信息抽取模型中的正则表达式，定位特征词信息，再根据正则表达式和特征词信息，将特征语句划分成结果量语句和自变量语句两个部分。分别用于在对应的语句中提取结果量和自变量信息。根据特征语句，特征词逐渐缩小业务文档中，文本信息的匹配范围，减小信息处理量的同时，避免文中其他信息对结果量和自变量信息提取产生的影响，减少信息误判，保证本申请提供的方法可以准确识别出隐含在文本内容中的公式信息，并将其提取。

在本申请的部分实施例中，在确定了结果量语句后，如图4所示，按照以下步骤提取结果量信息：

S301：根据所述特征语句的结构，匹配所述信息抽取模型中，与所述特征语句结构相同的正则表达式；

S302：提取所述正则表达式中的特征词，确定所述结果量相对于所述特征词的位置关系，所述位置关系包括所述结果量在所述特征词的前后关系，以及所述结果量与所述特征词的间隔距离；

S303：根据所述位置关系，确定在所述特征语句中对应位置的结果量信息。

本实施例中，可以首先对特征语句的结构进行分析，确定特征语句中的特征词，以及特征词前后的语法关系；其次在信息抽取模型的特征词对应节点中，匹配与特征语句语法结构相同的正则表达式；再根据正则表达式中，结果量与特征词之间的位置关系，确定特征语句中哪些内容是结果量信息。

例如,特征语句内容为“身故保险金的金额为基本保险金额的300％”，其中，“身故保险金”和“基本保险金额”显然是当前业务场景中的两个业务概念。因此，特征语句的结构大致为“(概念1)的金额为(概念2)的(数值)”，因此匹配到的正则表达式为“@[^,.？！；:]*金额为[^,.？！；:]*的[^,.？！；:]*@”。由上述正则表达式可知，在特征语句对应的结构中，“概念1”的位置为结果量，因此将提取“身故保险金”为结果量信息。

为了更准确的提取业务文档中个公式信息，在一种技术方案中，如图5、图6、图7所示，匹配自变量语句中与抽取模型节点对应的自变量信息以及运算关系信息的步骤还包括：

S401：根据所述抽取模型节点信息，判断所述自变量语句中包含的自变量信息及运算关系信息的数量；

S402：如果所述自变量语句中包括多个所述自变量信息，根据多个所述自变量信息确定每个所述自变量信息对应的扩展语句；

S403：逐一匹配所述扩展语句中的自变量信息，以及每个所述自变量信息对应的运算关系信息；

S404：如果所述自变量语句中包括选择信息，根据所述选择信息确定选择语句，所述选择信息包括可选位置和可选数量；

S405：根据所述可选位置确定与所述可选数量相同的选择语句；

S406：逐一匹配所述选择语句中的自变量信息，以及每个所述自变量信息对应的运算关系信息；

S407：如果所述自变量语句中不包括运算关系信息，根据所述抽取模型，获取与所述结果量信息对应的统一公式；

S408：提取所述统一公式中的自变量信息和运算关系信息。

本实施例中，主要针对业务文档的三种特殊形式。

其一，当自变量语句中存在多个自变量信息时，要分别确定多个自变量信息对应的扩展语句，从而逐一确定每个扩展语句中运算关系信息。其中，扩展语句是指在特征语句中，或特征语句临近的上下文中出现的，包含自变量信息的语句，显然，自变量信息的数量应该与扩展语句的数量相同。例如，特征语句的内容为：

“我们将按基本保险金额和已保险年限给付重大疾病保险金：”

由于特征语句中，包括“基本保险金额”和“已保险年限”两个自变量，且在该特征语句中不能确定两个自变量之间的运算关系，因此需要在特征语句的上下文中进一步确定包括“基本保险金额”和“已保险年限”的扩展语句，即：

“已保险年限满5年的，按基本保险金额的300％给付”(扩展语句1)；

“已保险年限不足5年的，按基本保险金额的250％给付”(扩展语句2)。

可见扩展语句1和扩展语句2可以分别确定出两种不同的运算关系，因此要分别从两个扩展语句中提取自变量信息和运算关系，进而转化成对应的公式，示例的，本例中提取的公式可以表示为：“重大疾病保险金＝[保险年限≥5]基本保险金额×300％；[保险年限＜5]基本保险金额×250％”。

其二，当自变量语句中没有匹配到自变量信息时，通常具有三种可能性，即，整个特征语句中不存在公式内容；特征语句中提取的结果量是定值；以及自变量信息存在于特征语句临近上下文的内容中。对于第三种可能性，通常在自变量语句中可以确定选择信息，选择信息一般包括可选位置和可选数量，可选位置用来标记对应信息在文中出现的位置，例如“以下”、“下述”、“以上”等；而可选数量用来标记对应信息的数量，与可选位置搭配使用，如“以下三项”等。

由于特征语句具有上述特点，因此在本实施例中，可以根据上述选择信息，进一步确定包含自变量信息的选择语句，并分别确定自变量信息对应的运算关系。例如，特征语句的内容为：

“我们将按以下三项的较大者给付重大疾病保险金，同时本附加合同及其主合同终止：”

可见，特征语句中包括选择信息内容为“以下三项”，通过分析选择信息中的内容“以下”可以确定自变量信息可能存在于特征语句的后文中，“三项”可以确定后文中可能包括三个带有自变量信息的选择语句。因此，本实施例中根据“以下三项”确定特征语句后的文本内容为选择语句，即：

“(一)被保险人重大疾病确诊之日本附加合同的基本保险金额”(选择语句1)；

“(二)被保险人重大疾病确诊之日的已交保险费”(选择语句2)；

“(三)被保险人重大疾病确诊之日的现金价值”(选择语句3)。

本实施例中，通过匹配选择语句1、选择语句2和选择语句3，可以分别确定三个选择语句中存在的自变量信息，即：“基本保险金”、“已交保险费”和“现金价值”，同时，在特征语句中，可以提取到表示运算关系的“较大者”和结果量信息“重大疾病保险金”，因此可以将提取的结果量信息和自变量信息按运算关系组合成公式，示例的，以上文本中可确定的公式信息为：“重大疾病保险金＝Max(基本保险金，已交保险费，现金价值)”。

其三，当所述自变量语句中不包括运算关系信息时，根据所述抽取模型，获取与所述结果量信息对应的统一公式。例如，所有保险公司的伤残类保险金的赔付公式均为“伤残类保险金＝10％×基本保险金额～100％×基本保险金额”，因此可以统一输出此公式。即利用信息抽取模型，识别出特征语句中的结果量“伤残类保险金”，并直接输出“伤残类保险金＝[根据伤残等级]10％×基本保险金额～100％×基本保险金额”作为公式。

另外，当特征语句或者特征语句临近的上下文中直接包含数学符号表述的公式时，本申请提供的方案中可以跳过提取结果量、自变量以及运算关系的步骤，在文中直接提取出现的公式信息。例如，特征语句内容为“本公司从被保险人每次住院的第四天开始给付住院日额保险金。即：住院日额保险金＝基本保险金额×(实际住院天数-3)”；其中，直接包含公式内容“住院日额保险金＝基本保险金额×(实际住院天数-3)”，因此将其提取即可。

需要说明的是，不同的领域中公式表示的方式不同，很多时候公式中的结果量和自变量都通过字母或者符号的形式表现，故在提取这种信息时，应该根据上下文内容，确定公式中各字母和符号的含义。

基于上述业务文档公式提取方法，如图8所示，本申请还提供一种业务文档公式提取装置，包括：

获取模块1，用于获取当前业务场景下的业务文档和信息抽取模型，所述信息抽取模型包括模型树以及在所述模型树中各节点上的正则表达式；

特征语句模块2，用于根据所述信息抽取模型确定所述业务文档中的特征语句；

特征词信息匹配模块3，用于匹配所述特征语句中与所述抽取模型节点上正则表达式对应的特征词信息；

语句分割模块4，用于根据所述特征词信息，分割所述特征语句，生成结果量语句和自变量语句，所述自变量语句中包括所述特征词信息；

结果量信息匹配模块5，用于匹配所述结果量语句中，与所述抽取模型节点对应的结果量信息；

自变量信息匹配模块6，用于匹配所述自变量语句中，与所述抽取模型节点对应的自变量信息以及运算关系信息；

组合模块7，用于将所述结果量信息与所述自变量信息按照所述运算关系信息组合成公式。

在一种方案中，所述特征语句模块包括：

特征段落确定单元，用于根据段落定位信息确定所述业务文档中的特征段落，所述段落定位信息包括关键词和标题层级；

特征语句确定单元，用于根据所述信息抽取模型在所述特征段落中，确定包含所述关键词的特征语句。

在一种方案中，特征段落确定单元包括：

节点信息获取子单元，用于获取所述信息抽取模型中包含结果量、自变量以及运算关系的节点信息，以及所述节点信息对应的关键词；

标题匹配子单元，用于根据所述业务文档的标题层级，逐级匹配所述关键词与所述业务文档的标题内容；

特征段落确定子单元，用于如果所述标题内容中包括所述关键词，确定所述标题以及同级的下一个标题之间的内容为特征段落。

在一种方案中，所述结果量信息匹配模块包括：

正则表达式确定单元，用于根据所述特征语句的结构，匹配所述信息抽取模型中，与所述特征语句结构相同的正则表达式；

位置关系确定单元，用于提取所述正则表达式中的特征词，确定所述结果量相对于所述特征词的位置关系，所述位置关系包括所述结果量在所述特征词的前后关系，以及所述结果量与所述特征词的间隔距离；

结果量信息匹配单元，用于根据所述位置关系，匹配在所述特征语句中对应位置的结果量信息。

在一种方案中，所述自变量信息匹配模块包括：

扩展语句单元，用于如果所述自变量语句中包括多个所述自变量信息，根据多个所述自变量信息确定每个所述自变量信息对应的扩展语句；逐一匹配所述扩展语句中的自变量信息，以及每个所述自变量信息对应的运算关系信息；

选择语句单元，用于如果所述自变量语句中包括选择信息，根据所述选择信息确定选择语句，所述选择信息包括可选位置和可选数量；根据所述可选位置确定与所述可选数量相同的选择语句；逐一匹配所述选择语句中的自变量信息，以及每个所述自变量信息对应的运算关系信息；

统一公式单元，用于如果所述自变量语句中不包括运算关系信息，根据所述抽取模型，获取与所述结果量信息对应的统一公式；提取所述统一公式中的自变量信息和运算关系信息。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种业务文档公式提取方法，其特征在于，包括：

根据所述信息抽取模型确定所述业务文档中的特征语句；

匹配所述结果量语句中，与所述抽取模型节点对应的结果量信息；包括：

根据所述位置关系，确定在所述特征语句中对应位置的结果量信息；

匹配所述自变量语句中，与所述抽取模型节点对应的自变量信息以及运算关系信息；包括：

根据所述可选位置确定与所述可选数量相同的选择语句；

逐一匹配所述选择语句中的自变量信息，以及每个所述自变量信息对应的运算关系信息；

2.根据权利要求1所述的方法，其特征在于，根据所述信息抽取模型确定所述业务文档中的特征语句的步骤包括：

3.根据权利要求2所述的方法，其特征在于，根据段落定位信息确定所述业务文档中包含所述段落定位信息的特征段落的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述统一公式中的自变量信息和运算关系信息。

5.根据权利要求1所述的方法，其特征在于，所述扩展语句是在所述特征语句或所述特征语句的上下文中，包含所述自变量信息的文本内容；所述选择信息是在所述特征语句中，包含与所述信息抽取模型对应，表示选择性词语或选择位置的文本内容。

6.根据权利要求1-5任意一项所述的方法，其特征在于，如果所述当前业务场景为保险业务，获取所述信息抽取模型中，保险责任对应的模型树节点，并按照以下方式确定保险责任对应的特征语句；

7.根据权利要求1-5任意一项所述的方法，其特征在于，如果所述当前业务场景为保险业务，所述结果量语句为所述特征语句中包含赔付结果信息的文本内容，所述自变量语句为所述特征语句中包含赔付条件信息的文本内容。

8.一种业务文档公式提取装置，其特征在于，包括：

结果量信息匹配模块，用于匹配所述结果量语句中，与所述抽取模型节点对应的结果量信息；包括：

根据所述位置关系，确定在所述特征语句中对应位置的结果量信息；自变量信息匹配模块，用于匹配所述自变量语句中，与所述抽取模型节点对应的自变量信息以及运算关系信息；包括：

根据所述可选位置确定与所述可选数量相同的选择语句；