CN109885658A

CN109885658A - 指标数据提取方法、装置和计算机设备

Info

Publication number: CN109885658A
Application number: CN201910125008.3A
Authority: CN
Inventors: 任宁; 晋耀红; 李德彦; 刘子博
Original assignee: Anhui Tai Yue Xiang Sheng Software Co Ltd
Current assignee: Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-06-14
Anticipated expiration: 2039-02-19
Also published as: CN109885658B

Abstract

本发明提供一种指标数据提取方法、装置和计算机设备，该指标数据提取方法包括：获取待提取指标文本，对所述待提取指标文本进行类别项识别，获取所述待提取指标文本中所有类别项；对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项；根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。本发明的指标数据提取方法，可以对文本中数据所有相对应的限定类别项进行挖掘，并进行提取整理后结构化地输出结果，从而充分挖掘出文本中数据相关所有的有效信息。

Description

指标数据提取方法、装置和计算机设备

技术领域

本发明涉及数据分析领域，具体而言，涉及一种指标数据提取方法、装置、计算机设备和计算机存储介质。

背景技术

目前，在新闻、研报、公告、工作报告等文本中都存在大量指标数据，这些数据是以非结构化的形式存在的，数据中存在着大量的有效信息需要进行挖掘。

现有的指标数据挖掘方法中，仅仅挖掘文本指标数据中的指标值以及指标名称，而其它的限定成分并不进行挖掘，使挖掘过程中丢失大量的有效信息。

发明内容

鉴于上述问题，本发明提供了一种指标数据提取方法、装置、计算机设备和计算机存储介质，以充分挖掘出文本中数据相关所有的有效信息。

为了实现上述目的，本发明采用如下的技术方案：

一种指标数据提取方法，包括：

获取待提取指标文本，对所述待提取指标文本进行类别项识别，获取所述待提取指标文本中所有类别项；

对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项；

根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。

优选地，所述“对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项”包括：

利用所述待提取指标文本中的公司简称与预先建立的公司全称-简称对照表进行匹配，获得相应的公司名称并替换所述待提取指标文本中的公司简称；和/或

对所述待提取指标文本中的时间进行归一化处理。

优选地，所述“对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项”还包括：

对所述待提取指标文本根据预设规则进行分句处理，获得待提取指标语句；

确定所述待提取指标语句中所有所述类别项的位置；

以所述指标值在所述待提取指标语句中的位置为锚点，向前定位所述待提取指标语句中所有所述相应限定类别项。

在获得待提取指标语句后，判断所述待提取指标语句是否为并列式结构语句；

当所述待提取指标语句为列式结构语句时，根据所述待提取指标语句中并列的所述类别项对所述待提取指标语句进行拆分处理，获得至少两个并列的所述待提取指标语句。

优选地，所述类别项包括指标名称、指标趋势、指标值、行业名称、业务名称、产品名称、时间以及公司名称中的至少一种。

优选地，所述的指标数据提取方法，还包括：

在获取所述待提取指标文本中所有类别项后，判断所述所有类别项中是否包括有所述指标名称；

当所述所有类别项中未包括有所述指标名称时，确定所述待提取指标文本的指标数据提取无效，并生成提取无效提示。

本发明还提供一种指标数据提取装置，包括：

类别项获取模块，用于获取待提取指标文本，对所述待提取指标文本进行类别项识别，获取所述待提取指标文本中所有类别项；

语句结构分析模块，用于对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项；

指标数据提取模块，用于根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。

优选地，所述语句结构分析模块包括：

简称替换单元，用于利用所述待提取指标文本中的公司简称与预先建立的公司全称-简称对照表进行匹配，获得相应的公司名称并替换所述待提取指标文本中的公司简称；

时间归一化单元，用于对所述待提取指标文本中的时间进行归一化处理。

本发明还提供一种计算机设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行所述的指标数据提取方法。

本发明还提供一种计算机存储介质，其存储有所述的计算机设备中所使用的计算机程序。

本发明提供一种指标数据提取方法，该指标数据提取方法包括：获取待提取指标文本，对所述待提取指标文本进行类别项识别，获取所述待提取指标文本中所有类别项；对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项；根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。本发明的指标数据提取方法，可以对文本中数据所有相对应的限定类别项进行挖掘，并进行提取整理后结构化地输出结果，从而充分挖掘出文本中数据相关所有的有效信息。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明范围的限定。

图1是本发明实施例1提供的一种指标数据提取方法的流程图；

图2是本发明实施例2提供的一种指标数据提取方法的语句结构分析的流程图；

图3是本发明实施例3提供的一种指标数据提取方法的语句结构分析的流程图；

图4是本发明实施例4提供的一种指标数据提取方法的流程图；

图5是本发明实施例5提供的一种指标数据提取装置的结构示意图；

图6是本发明实施例5提供的一种指标数据提取装置的语句结构分析模块的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1是本发明实施例1提供的一种指标数据提取方法的流程图，该方法包括如下步骤：

步骤S11：获取待提取指标文本，对待提取指标文本进行类别项识别，获取待提取指标文本中所有类别项。

本发明实施例中，可以利用计算机设备进行指标数据的提取。其中，该指标数据包括文本中的一些非结构化数据，该数据中可以有许多其它限定成分，例如，在一句研报中：“中南建设发布2018年7月经营数据：公司房地产业务2018年7月份合同销售金额140.9亿元，同比增长135％”，就有许多有用的非结构化数据，如指标值“140.9亿元”、“135％”相应的指标名称“合同销售金额”，相应的指标趋势“同比增长”，相应的业务名称“房地产业务”以及相应的公司名称“中南建设”，该公司名称、指标名称、业务名称以及指标趋势等均为指标值的限定，均为该研报中的有用信息，进行整理提取能够挖掘大量有用信息。其中，该待提取指标文本包括研报、新闻、公告以及工作报告等文本。

本发明实施例中，该类别项包括指标名称、指标趋势、指标值、行业名称、业务名称、产品名称、时间以及公司名称等的至少一种。例如，在研报“江苏中南建设集团股份有限公司房地产业务2018年7月份合同销售金额140.9亿元”中，公司名称为“江苏中南建设集团股份有限公司”，时间为“2018年7月”，业务名称为“房地产业务”，指标名称为“合同销售金额”，指标值为“140.9亿元”，上述均为该研报的类别项。在同一个文本中，可能同时存在多个同种类类别项或不同种类类别项。例如前面提及的“140.9亿元”、“135％”都是指标值，属于同一类的类别项。“江苏中南建设集团股份有限公司”属于公司名称类别，“2018年7月”属于时间类别，这两项属于不同类的类别项。值得说明的是，类别项可以通过建设正则表达式的方式进行抽取。在某个类别下可以建设一个或者多个正则表达式。文章内容如果匹配到该表达式，则把匹配到的部分抽取出来。并把正则表达式所在的类别赋以该内容。如，“2018年7月”可以匹配到模型中属于时间类别的 “\d+年\d+月(\d+日)”这个正则表达式，就把“2018年7月”认为是时间类别的类别项。

步骤S12：对待提取指标文本进行语句结构分析，获取所有类别项中指标值相应的限定类别项。

本发明实施例中，在获取待提取指标文本的所有类别项后，该计算机设备还将进行该待提取指标文本的语句结构分析，获得所有类别项中相互之间的限定关系，确定指标值相对应的限定类别项。例如语句“公司房地产业务2018年7月份合同销售金额140.9亿元”中指标值是“140.9亿元”，其中对“140.9亿元”进行限定关系的类别项有“公司房地产业务”、“2018年7 月”以及“同销售金额”，因此可以获得指标值“140.9亿元”相应的限定类别项 “公司房地产业务”、“2018年7月”以及“同销售金额”。

本发明实施例中，该计算机设备进行待提取指标文本的语句结构分析的过程可以通过算法或应用程序来实现，例如，可以在计算机设备中设置有应用程序，该应用程序可以对待提取指标文本进行语句结构分析，获取待提取指标文本中所有类别项之间的相互关系，从而获得所有类别项中指标值的所有相应限定类别项。

步骤S13：根据待提取指标文本中的至少一个指标值以及至少一个指标值的相应限定类别项生成指标数据提取结果。

本发明实施例中，计算机设备在获取指标值的所有相应限定类别项后，可以就一个指标值以及相应的限定类别项进行组合生成一个指标数据提取结果。其中，该待提取指标文本中应有至少一个指标值，因此可以生成至少一个指标值相应数量的指标数据提取结果。例如，研报“江苏中南建设集团股份有限公司房地产业务2018年7月份合同销售金额140.9亿元，同比增长135％；销售面积101.2万平米，同比增长74％”可以生成两条指标数据提取结果：1、江苏中南建设集团股份有限公司房地产业务2018年7月份合同销售金额140.9亿元，同比增长135％；2、江苏中南建设集团股份有限公司房地产业务2018年7月份销售面积101.2万平米，同比增长74％。其中，上述指标数据提取结果还可以通过列表的形式在计算机设备中进行呈现，如指标数据提取结果1列表为：

本发明实施例中，上述生成指标数据提取结果的过程可以在计算机设备中利用算法或应用程序来实现，例如可以在计算机设备中设置有应用程序，该应用程序可以通过语法将指标值以及相应限定类别项生成指标数据提取结果，或者通过应用程序生成指标数据提取结果的各类别项的列表。

实施例2

图2是本发明实施例2提供的一种指标数据提取方法的语句结构分析的流程图，包括如下步骤：

步骤S21：利用待提取指标文本中的公司简称与预先建立的公司全称- 简称对照表进行匹配，获得相应的公司名称并替换待提取指标文本中的公司简称。

本发明实施例中，计算机设备在进行待提取指标文本的语句结构分析时，可以对公司简称进行替换，替换成完整的公司名称。其中，替换过程中该计算机设备利用获取的公司简称类别项与预先建立的公司全称-简称对照表进行匹配，从而获得相应的公司全称，并进行替换。上述公司全称-简称对照表可以由工作人员进行录入，或者该计算机设备通过互联网获取公司全称生成该表。

本发明实施例中，该计算机设备利用待提取指标文本中的公司简称与预先建立的公司全称-简称对照表进行匹配的过程可以通过算法或应用程序来实现，例如可以在计算机设备中设置有匹配应用程序，在计算机设备获取待提取指标文本类别项的公司名称后，可以利用该公司名称与全称-简称对照表进行匹配，并可以判断当前是否为全称，当不是公司全称时进行替换。

步骤S22：对待提取指标文本中的时间进行归一化处理。

本发明实施例中，还可以进行该待提取指标文本的时间归一化处理，将重复的时间文字进行合并，减少待提取指标文本的文字冗余。其中，计算机进行时间归一化处理的过程可以利用算法或应用程序来实现，例如可以在计算机设备中设置有归一化应用程序，计算机设备可以将进行公司全称替换处理后的待提取指标文本输入至该应用程序中，进行时间归一化处理。

步骤S23：对待提取指标文本根据预设规则进行分句处理，获得待提取指标语句。

本发明实施例中，该计算机设备还将对待提取指标文本进行分句处理，获得待提取指标语句。其中，该计算机设备可以根据预设规则识别待提取指标文本中进行分句的位置，例如计算机设备可以识别符号“。”以及文字换行，在符号“。”以及文字换行的位置进行分句处理，获得待提取指标语句。其中，该计算机进行分句处理的过程可以利用算法或应用程序来实现，例如可以在计算机设备中设置有分句处理用的算法或应用程序，这里不做限定。其中，进行分句获得待提取指标语句可以将待提取指标文本不同的指标值、相应指标名称和限定类别项分开，以便后续获得正确的提取数据结果。优选地，在时间的归一化处理之后再进行分句处理，有利于时间的归一化处理中对时间的抽取。

步骤S24：确定待提取指标语句中所有类别项的位置。

本发明实施例中，该计算机设备还可以通过定位算法或应用程序确定该待提取指标语句中所有类别项的位置，例如在待提取指标语句“江苏中南建设集团股份有限公司房地产业务2018年7月份合同销售金额140.9亿元，同比增长135％；销售面积101.2万平米，同比增长74％。”中，可以获得以下类别项的位置表：

步骤S25：以指标值在待提取指标语句中的位置为锚点，向前定位待提取指标语句中所有相应限定类别项。

本发明实施例中，该计算机设备可以以指标值在待提取指标语句中的位置为锚点，向前定位待提取指标语句中所有相应限定类别项。提取过程中可能会匹配到多于一个的同种类类别项，如上述待提取指标语句中，若以指标值“74％”为锚点，则可定位“同比增长”、“销售面积”、“合同销售金额”、“2018年7月份”、“房地产业务”以及“江苏中南建设集团股份有限公司”这些限定类别项，其中“销售面积”和“合同销售金额”均属于“指标名称”这一类别项。此时，只定位离指标值最近的类别项，因此，上述待提取指标语句中若以指标值“74％”为锚点，最终作为后续的提取结果，则可定位“同比增长”、“销售面积”、“2018年7月份”、“房地产业务”以及“江苏中南建设集团股份有限公司”。

本发明实施例中，上述向前定位待提取指标语句中相应限定类别项的过程可以利用算法或应用程序来实现，例如可以在计算机设备中设置有应用程序，利用该应用程序以及所有类别项的位置进行定位。

实施例3

图3是本发明实施例3提供的一种指标数据提取方法的语句结构分析的流程图，包括如下步骤：

步骤S31：利用待提取指标文本中的公司简称与预先建立的公司全称- 简称对照表进行匹配，获得相应的公司名称并替换待提取指标文本中的公司简称。

此步骤与上述步骤S21一致，在此不再赘述。

步骤S32：对待提取指标文本中的时间进行归一化处理。

此步骤与上述步骤S22一致，在此不再赘述。

步骤S33：对待提取指标文本根据预设规则进行分句处理，获得待提取指标语句。

此步骤与上述步骤S23一致，在此不再赘述。

步骤S34：在获得待提取指标语句后，判断待提取指标语句是否为并列式结构语句。

本发明实施例中，计算机设备在获取待提取指标语句后，还可以判断待提取指标语句是否为并列式结构语句，例如该计算机设备可以通过识别待提取指标语句中的符号“/”以及文字“或”来判断待提取指标语句是否为并列式结构语句。例如“上半年茅台酒/系列酒收入294亿元/40亿元，同比增长35.9％/56.7％。”中则可以通过符号“/”确定为并列式结构语句。其中，该判断过程可以利用算法或应用程序来实现，这里不做限定。

步骤S35：当待提取指标语句为列式结构语句时，根据待提取指标语句中并列的类别项对待提取指标语句进行拆分处理，获得至少两个并列的待提取指标语句。

本发明实施例中，当计算机设备确定待提取指标语句为并列式结构语句时，可以根据并列的类别项对该待提取指标语句进行拆分处理，获得至少两个并列的待提取指标语句。例如，上述“上半年茅台酒/系列酒收入294 亿元/40亿元，同比增长35.9％/56.7％。”则可拆分为“上半年茅台酒收入294 亿元，同比增长35.9％。”和“上半年系列酒收入40亿元，同比增长56.7％。” 拆分后的句子为独立的待提取指标语句。

步骤S36：确定待提取指标语句中所有类别项的位置。

此步骤与上述步骤S24一致，在此不再赘述。

步骤S37：以指标值在待提取指标语句中的位置为锚点，向前定位待提取指标语句中所有相应限定类别项。

此步骤与上述步骤S25一致，在此不再赘述。

实施例4

图4是本发明实施例4提供的一种指标数据提取方法的流程图，该方法包括如下步骤：

步骤S41：获取待提取指标文本，对待提取指标文本进行类别项识别，获取待提取指标文本中所有类别项。

此步骤与上述步骤S11一致，在此不再赘述。

步骤S42：在获取待提取指标文本中所有类别项后，判断所有类别项中是否包括有指标名称。

步骤S43：当所有类别项中未包括有指标名称时，确定待提取指标文本的指标数据提取无效，并生成提取无效提示。

本发明实施例中，该计算机设备还可以在获取指标文本中的所有类别项后，判断所有类别项中是否包括有指标名称，当无指标名称时，则可确定该待提取指标文本中无指标数据可提取，并生成该待提取指标文本的提取无效提示。其中，上述判断过程可以利用算法或应用程序来实现，这里不做限定。

步骤S44：对待提取指标文本进行语句结构分析，获取所有类别项中指标值相应的限定类别项。

此步骤与上述步骤S12一致，在此不再赘述。

步骤S45：根据待提取指标文本中的至少一个指标值以及至少一个指标值的相应限定类别项生成指标数据提取结果。

此步骤与上述步骤S13一致，在此不再赘述。

实施例5

图5是本发明实施例5提供的一种指标数据提取装置的结构示意图。

该指标数据提取装置500包括：

类别项获取模块510，用于获取待提取指标文本，对所述待提取指标文本进行类别项识别，获取所述待提取指标文本中所有类别项。

语句结构分析模块520，用于对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项。

指标数据提取模块530，用于根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。

如图6所示，该语句结构分析模块520包括：

简称替换单元521，用于利用所述待提取指标文本中的公司简称与预先建立的公司全称-简称对照表进行匹配，获得相应的所述公司名称并替换所述待提取指标文本中的公司简称。

时间归一化单元522，用于对所述待提取指标文本中的所述时间进行归一化处理。

还包括：

文本分句单元523，用于对所述待提取指标文本根据预设规则进行分句处理，获得待提取指标语句。

位置确定单元524，用于确定所述待提取指标语句中所有所述类别项的位置。

类别项定位单元525，用于以所述指标值在所述待提取指标语句中的位置为锚点，向前定位所述待提取指标语句中所有所述相应限定类别项。

本发明实施例中，上述各个模块或单元更加详细的功能描述可以参考前述实施例中相应部分的内容，在此不再赘述。

此外，本发明还提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器可用于存储计算机程序，处理器通过运行所述计算机程序，从而使计算机设备执行上述方法或者上述指标数据提取装置中的各个模块的功能。

存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本实施例还提供了一种计算机存储介质，用于储存上述计算机设备中使用的计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种指标数据提取方法，其特征在于，包括：

2.根据权利要求1所述的指标数据提取方法，其特征在于，所述“对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项”包括：

对所述待提取指标文本中的时间进行归一化处理。

3.根据权利要求1所述的指标数据提取方法，其特征在于，所述“对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项”还包括：

确定所述待提取指标语句中所有所述类别项的位置；

4.根据权利要求1所述的指标数据提取方法，其特征在于，所述“对所述待提取指标文本进行语句结构分析，获取所述所有类别项中指标值相应的限定类别项”还包括：

5.根据权利要求1所述的指标数据提取方法，其特征在于，所述类别项包括指标名称、指标趋势、指标值、行业名称、业务名称、产品名称、时间以及公司名称中的至少一种。

6.根据权利要求5所述的指标数据提取方法，其特征在于，还包括：

7.一种指标数据提取装置，其特征在于，包括：

8.根据权利要求7所述的指标数据提取装置，其特征在于，所述语句结构分析模块包括：

9.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行根据权利要求1至5中任一项所述的指标数据提取方法。

10.一种计算机存储介质，其特征在于，其存储有权利要求9所述的计算机设备中所使用的计算机程序。