CN109885658A - 指标数据提取方法、装置和计算机设备 - Google Patents

指标数据提取方法、装置和计算机设备 Download PDF

Info

Publication number
CN109885658A
CN109885658A CN201910125008.3A CN201910125008A CN109885658A CN 109885658 A CN109885658 A CN 109885658A CN 201910125008 A CN201910125008 A CN 201910125008A CN 109885658 A CN109885658 A CN 109885658A
Authority
CN
China
Prior art keywords
index
extracted
text
sentence
achievement data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910125008.3A
Other languages
English (en)
Other versions
CN109885658B (zh
Inventor
任宁
晋耀红
李德彦
刘子博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tai Yue Xiang Sheng Software Co Ltd
Original Assignee
Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tai Yue Xiang Sheng Software Co Ltd filed Critical Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority to CN201910125008.3A priority Critical patent/CN109885658B/zh
Publication of CN109885658A publication Critical patent/CN109885658A/zh
Application granted granted Critical
Publication of CN109885658B publication Critical patent/CN109885658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种指标数据提取方法、装置和计算机设备,该指标数据提取方法包括:获取待提取指标文本,对所述待提取指标文本进行类别项识别,获取所述待提取指标文本中所有类别项;对所述待提取指标文本进行语句结构分析,获取所述所有类别项中指标值相应的限定类别项;根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。本发明的指标数据提取方法,可以对文本中数据所有相对应的限定类别项进行挖掘,并进行提取整理后结构化地输出结果,从而充分挖掘出文本中数据相关所有的有效信息。

Description

指标数据提取方法、装置和计算机设备
技术领域
本发明涉及数据分析领域,具体而言,涉及一种指标数据提取方法、 装置、计算机设备和计算机存储介质。
背景技术
目前,在新闻、研报、公告、工作报告等文本中都存在大量指标数据, 这些数据是以非结构化的形式存在的,数据中存在着大量的有效信息需要 进行挖掘。
现有的指标数据挖掘方法中,仅仅挖掘文本指标数据中的指标值以及 指标名称,而其它的限定成分并不进行挖掘,使挖掘过程中丢失大量的有 效信息。
发明内容
鉴于上述问题,本发明提供了一种指标数据提取方法、装置、计算机 设备和计算机存储介质,以充分挖掘出文本中数据相关所有的有效信息。
为了实现上述目的,本发明采用如下的技术方案:
一种指标数据提取方法,包括:
获取待提取指标文本,对所述待提取指标文本进行类别项识别,获取 所述待提取指标文本中所有类别项;
对所述待提取指标文本进行语句结构分析,获取所述所有类别项中指 标值相应的限定类别项;
根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标 值的相应限定类别项生成指标数据提取结果。
优选地,所述“对所述待提取指标文本进行语句结构分析,获取所述所 有类别项中指标值相应的限定类别项”包括:
利用所述待提取指标文本中的公司简称与预先建立的公司全称-简称对 照表进行匹配,获得相应的公司名称并替换所述待提取指标文本中的公司 简称;和/或
对所述待提取指标文本中的时间进行归一化处理。
优选地,所述“对所述待提取指标文本进行语句结构分析,获取所述所 有类别项中指标值相应的限定类别项”还包括:
对所述待提取指标文本根据预设规则进行分句处理,获得待提取指标 语句;
确定所述待提取指标语句中所有所述类别项的位置;
以所述指标值在所述待提取指标语句中的位置为锚点,向前定位所述 待提取指标语句中所有所述相应限定类别项。
优选地,所述“对所述待提取指标文本进行语句结构分析,获取所述所 有类别项中指标值相应的限定类别项”还包括:
在获得待提取指标语句后,判断所述待提取指标语句是否为并列式结 构语句;
当所述待提取指标语句为列式结构语句时,根据所述待提取指标语句 中并列的所述类别项对所述待提取指标语句进行拆分处理,获得至少两个 并列的所述待提取指标语句。
优选地,所述类别项包括指标名称、指标趋势、指标值、行业名称、 业务名称、产品名称、时间以及公司名称中的至少一种。
优选地,所述的指标数据提取方法,还包括:
在获取所述待提取指标文本中所有类别项后,判断所述所有类别项中 是否包括有所述指标名称;
当所述所有类别项中未包括有所述指标名称时,确定所述待提取指标 文本的指标数据提取无效,并生成提取无效提示。
本发明还提供一种指标数据提取装置,包括:
类别项获取模块,用于获取待提取指标文本,对所述待提取指标文本 进行类别项识别,获取所述待提取指标文本中所有类别项;
语句结构分析模块,用于对所述待提取指标文本进行语句结构分析, 获取所述所有类别项中指标值相应的限定类别项;
指标数据提取模块,用于根据所述待提取指标文本中的至少一个指标 值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。
优选地,所述语句结构分析模块包括:
简称替换单元,用于利用所述待提取指标文本中的公司简称与预先建 立的公司全称-简称对照表进行匹配,获得相应的公司名称并替换所述待提 取指标文本中的公司简称;
时间归一化单元,用于对所述待提取指标文本中的时间进行归一化处 理。
本发明还提供一种计算机设备,包括存储器以及处理器,所述存储器 用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设 备执行所述的指标数据提取方法。
本发明还提供一种计算机存储介质,其存储有所述的计算机设备中所 使用的计算机程序。
本发明提供一种指标数据提取方法,该指标数据提取方法包括:获取 待提取指标文本,对所述待提取指标文本进行类别项识别,获取所述待提 取指标文本中所有类别项;对所述待提取指标文本进行语句结构分析,获 取所述所有类别项中指标值相应的限定类别项;根据所述待提取指标文本 中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标 数据提取结果。本发明的指标数据提取方法,可以对文本中数据所有相对 应的限定类别项进行挖掘,并进行提取整理后结构化地输出结果,从而充 分挖掘出文本中数据相关所有的有效信息。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实 施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些 实施例,因此不应被看作是对本发明范围的限定。
图1是本发明实施例1提供的一种指标数据提取方法的流程图;
图2是本发明实施例2提供的一种指标数据提取方法的语句结构分析 的流程图;
图3是本发明实施例3提供的一种指标数据提取方法的语句结构分析 的流程图;
图4是本发明实施例4提供的一种指标数据提取方法的流程图;
图5是本发明实施例5提供的一种指标数据提取装置的结构示意图;
图6是本发明实施例5提供的一种指标数据提取装置的语句结构分析 模块的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组 件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本 发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅 仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护 的范围。
实施例1
图1是本发明实施例1提供的一种指标数据提取方法的流程图,该方 法包括如下步骤:
步骤S11:获取待提取指标文本,对待提取指标文本进行类别项识别, 获取待提取指标文本中所有类别项。
本发明实施例中,可以利用计算机设备进行指标数据的提取。其中, 该指标数据包括文本中的一些非结构化数据,该数据中可以有许多其它限 定成分,例如,在一句研报中:“中南建设发布2018年7月经营数据:公 司房地产业务2018年7月份合同销售金额140.9亿元,同比增长135%”, 就有许多有用的非结构化数据,如指标值“140.9亿元”、“135%”相应的指 标名称“合同销售金额”,相应的指标趋势“同比增长”,相应的业务名称“房 地产业务”以及相应的公司名称“中南建设”,该公司名称、指标名称、业务 名称以及指标趋势等均为指标值的限定,均为该研报中的有用信息,进行 整理提取能够挖掘大量有用信息。其中,该待提取指标文本包括研报、新 闻、公告以及工作报告等文本。
本发明实施例中,该类别项包括指标名称、指标趋势、指标值、行业 名称、业务名称、产品名称、时间以及公司名称等的至少一种。例如,在 研报“江苏中南建设集团股份有限公司房地产业务2018年7月份合同销售 金额140.9亿元”中,公司名称为“江苏中南建设集团股份有限公司”,时间 为“2018年7月”,业务名称为“房地产业务”,指标名称为“合同销售金额”, 指标值为“140.9亿元”,上述均为该研报的类别项。在同一个文本中,可能 同时存在多个同种类类别项或不同种类类别项。例如前面提及的“140.9亿 元”、“135%”都是指标值,属于同一类的类别项。“江苏中南建设集团股 份有限公司”属于公司名称类别,“2018年7月”属于时间类别,这两项属 于不同类的类别项。值得说明的是,类别项可以通过建设正则表达式的方 式进行抽取。在某个类别下可以建设一个或者多个正则表达式。文章内容如果匹配到该表达式,则把匹配到的部分抽取出来。并把正则表达式所在 的类别赋以该内容。如,“2018年7月”可以匹配到模型中属于时间类别的 “\d+年\d+月(\d+日)”这个正则表达式,就把“2018年7月”认为是时间 类别的类别项。
步骤S12:对待提取指标文本进行语句结构分析,获取所有类别项中指 标值相应的限定类别项。
本发明实施例中,在获取待提取指标文本的所有类别项后,该计算机 设备还将进行该待提取指标文本的语句结构分析,获得所有类别项中相互 之间的限定关系,确定指标值相对应的限定类别项。例如语句“公司房地产 业务2018年7月份合同销售金额140.9亿元”中指标值是“140.9亿元”,其 中对“140.9亿元”进行限定关系的类别项有“公司房地产业务”、“2018年7 月”以及“同销售金额”,因此可以获得指标值“140.9亿元”相应的限定类别项 “公司房地产业务”、“2018年7月”以及“同销售金额”。
本发明实施例中,该计算机设备进行待提取指标文本的语句结构分析 的过程可以通过算法或应用程序来实现,例如,可以在计算机设备中设置 有应用程序,该应用程序可以对待提取指标文本进行语句结构分析,获取 待提取指标文本中所有类别项之间的相互关系,从而获得所有类别项中指 标值的所有相应限定类别项。
步骤S13:根据待提取指标文本中的至少一个指标值以及至少一个指标 值的相应限定类别项生成指标数据提取结果。
本发明实施例中,计算机设备在获取指标值的所有相应限定类别项后, 可以就一个指标值以及相应的限定类别项进行组合生成一个指标数据提取 结果。其中,该待提取指标文本中应有至少一个指标值,因此可以生成至 少一个指标值相应数量的指标数据提取结果。例如,研报“江苏中南建设集 团股份有限公司房地产业务2018年7月份合同销售金额140.9亿元,同比 增长135%;销售面积101.2万平米,同比增长74%”可以生成两条指标数据 提取结果:1、江苏中南建设集团股份有限公司房地产业务2018年7月份 合同销售金额140.9亿元,同比增长135%;2、江苏中南建设集团股份有限 公司房地产业务2018年7月份销售面积101.2万平米,同比增长74%。其 中,上述指标数据提取结果还可以通过列表的形式在计算机设备中进行呈 现,如指标数据提取结果1列表为:
本发明实施例中,上述生成指标数据提取结果的过程可以在计算机设 备中利用算法或应用程序来实现,例如可以在计算机设备中设置有应用程 序,该应用程序可以通过语法将指标值以及相应限定类别项生成指标数据 提取结果,或者通过应用程序生成指标数据提取结果的各类别项的列表。
实施例2
图2是本发明实施例2提供的一种指标数据提取方法的语句结构分析 的流程图,包括如下步骤:
步骤S21:利用待提取指标文本中的公司简称与预先建立的公司全称- 简称对照表进行匹配,获得相应的公司名称并替换待提取指标文本中的公 司简称。
本发明实施例中,计算机设备在进行待提取指标文本的语句结构分析 时,可以对公司简称进行替换,替换成完整的公司名称。其中,替换过程 中该计算机设备利用获取的公司简称类别项与预先建立的公司全称-简称对 照表进行匹配,从而获得相应的公司全称,并进行替换。上述公司全称-简 称对照表可以由工作人员进行录入,或者该计算机设备通过互联网获取公 司全称生成该表。
本发明实施例中,该计算机设备利用待提取指标文本中的公司简称与 预先建立的公司全称-简称对照表进行匹配的过程可以通过算法或应用程序 来实现,例如可以在计算机设备中设置有匹配应用程序,在计算机设备获 取待提取指标文本类别项的公司名称后,可以利用该公司名称与全称-简称 对照表进行匹配,并可以判断当前是否为全称,当不是公司全称时进行替 换。
步骤S22:对待提取指标文本中的时间进行归一化处理。
本发明实施例中,还可以进行该待提取指标文本的时间归一化处理, 将重复的时间文字进行合并,减少待提取指标文本的文字冗余。其中,计 算机进行时间归一化处理的过程可以利用算法或应用程序来实现,例如可 以在计算机设备中设置有归一化应用程序,计算机设备可以将进行公司全 称替换处理后的待提取指标文本输入至该应用程序中,进行时间归一化处 理。
步骤S23:对待提取指标文本根据预设规则进行分句处理,获得待提取 指标语句。
本发明实施例中,该计算机设备还将对待提取指标文本进行分句处理, 获得待提取指标语句。其中,该计算机设备可以根据预设规则识别待提取 指标文本中进行分句的位置,例如计算机设备可以识别符号“。”以及文字换 行,在符号“。”以及文字换行的位置进行分句处理,获得待提取指标语句。 其中,该计算机进行分句处理的过程可以利用算法或应用程序来实现,例 如可以在计算机设备中设置有分句处理用的算法或应用程序,这里不做限 定。其中,进行分句获得待提取指标语句可以将待提取指标文本不同的指 标值、相应指标名称和限定类别项分开,以便后续获得正确的提取数据结 果。优选地,在时间的归一化处理之后再进行分句处理,有利于时间的归 一化处理中对时间的抽取。
步骤S24:确定待提取指标语句中所有类别项的位置。
本发明实施例中,该计算机设备还可以通过定位算法或应用程序确定 该待提取指标语句中所有类别项的位置,例如在待提取指标语句“江苏中 南建设集团股份有限公司房地产业务2018年7月份合同销售金额140.9亿 元,同比增长135%;销售面积101.2万平米,同比增长74%。”中,可以 获得以下类别项的位置表:
步骤S25:以指标值在待提取指标语句中的位置为锚点,向前定位待提 取指标语句中所有相应限定类别项。
本发明实施例中,该计算机设备可以以指标值在待提取指标语句中的 位置为锚点,向前定位待提取指标语句中所有相应限定类别项。提取过程 中可能会匹配到多于一个的同种类类别项,如上述待提取指标语句中,若 以指标值“74%”为锚点,则可定位“同比增长”、“销售面积”、“合同销售 金额”、“2018年7月份”、“房地产业务”以及“江苏中南建设集团股份有限 公司”这些限定类别项,其中“销售面积”和“合同销售金额”均属于“指标名称”这一类别项。此时,只定位离指标值最近的类别项,因此,上述待提 取指标语句中若以指标值“74%”为锚点,最终作为后续的提取结果,则可定 位“同比增长”、“销售面积”、“2018年7月份”、“房地产业务”以及“江苏中 南建设集团股份有限公司”。
本发明实施例中,上述向前定位待提取指标语句中相应限定类别项的 过程可以利用算法或应用程序来实现,例如可以在计算机设备中设置有应 用程序,利用该应用程序以及所有类别项的位置进行定位。
实施例3
图3是本发明实施例3提供的一种指标数据提取方法的语句结构分析 的流程图,包括如下步骤:
步骤S31:利用待提取指标文本中的公司简称与预先建立的公司全称- 简称对照表进行匹配,获得相应的公司名称并替换待提取指标文本中的公 司简称。
此步骤与上述步骤S21一致,在此不再赘述。
步骤S32:对待提取指标文本中的时间进行归一化处理。
此步骤与上述步骤S22一致,在此不再赘述。
步骤S33:对待提取指标文本根据预设规则进行分句处理,获得待提取 指标语句。
此步骤与上述步骤S23一致,在此不再赘述。
步骤S34:在获得待提取指标语句后,判断待提取指标语句是否为并列 式结构语句。
本发明实施例中,计算机设备在获取待提取指标语句后,还可以判断 待提取指标语句是否为并列式结构语句,例如该计算机设备可以通过识别 待提取指标语句中的符号“/”以及文字“或”来判断待提取指标语句是否为并 列式结构语句。例如“上半年茅台酒/系列酒收入294亿元/40亿元,同比增 长35.9%/56.7%。”中则可以通过符号“/”确定为并列式结构语句。其中,该 判断过程可以利用算法或应用程序来实现,这里不做限定。
步骤S35:当待提取指标语句为列式结构语句时,根据待提取指标语句 中并列的类别项对待提取指标语句进行拆分处理,获得至少两个并列的待 提取指标语句。
本发明实施例中,当计算机设备确定待提取指标语句为并列式结构语 句时,可以根据并列的类别项对该待提取指标语句进行拆分处理,获得至 少两个并列的待提取指标语句。例如,上述“上半年茅台酒/系列酒收入294 亿元/40亿元,同比增长35.9%/56.7%。”则可拆分为“上半年茅台酒收入294 亿元,同比增长35.9%。”和“上半年系列酒收入40亿元,同比增长56.7%。” 拆分后的句子为独立的待提取指标语句。
步骤S36:确定待提取指标语句中所有类别项的位置。
此步骤与上述步骤S24一致,在此不再赘述。
步骤S37:以指标值在待提取指标语句中的位置为锚点,向前定位待提 取指标语句中所有相应限定类别项。
此步骤与上述步骤S25一致,在此不再赘述。
实施例4
图4是本发明实施例4提供的一种指标数据提取方法的流程图,该方 法包括如下步骤:
步骤S41:获取待提取指标文本,对待提取指标文本进行类别项识别, 获取待提取指标文本中所有类别项。
此步骤与上述步骤S11一致,在此不再赘述。
步骤S42:在获取待提取指标文本中所有类别项后,判断所有类别项中 是否包括有指标名称。
步骤S43:当所有类别项中未包括有指标名称时,确定待提取指标文本 的指标数据提取无效,并生成提取无效提示。
本发明实施例中,该计算机设备还可以在获取指标文本中的所有类别 项后,判断所有类别项中是否包括有指标名称,当无指标名称时,则可确 定该待提取指标文本中无指标数据可提取,并生成该待提取指标文本的提 取无效提示。其中,上述判断过程可以利用算法或应用程序来实现,这里 不做限定。
步骤S44:对待提取指标文本进行语句结构分析,获取所有类别项中指 标值相应的限定类别项。
此步骤与上述步骤S12一致,在此不再赘述。
步骤S45:根据待提取指标文本中的至少一个指标值以及至少一个指标 值的相应限定类别项生成指标数据提取结果。
此步骤与上述步骤S13一致,在此不再赘述。
实施例5
图5是本发明实施例5提供的一种指标数据提取装置的结构示意图。
该指标数据提取装置500包括:
类别项获取模块510,用于获取待提取指标文本,对所述待提取指标文 本进行类别项识别,获取所述待提取指标文本中所有类别项。
语句结构分析模块520,用于对所述待提取指标文本进行语句结构分 析,获取所述所有类别项中指标值相应的限定类别项。
指标数据提取模块530,用于根据所述待提取指标文本中的至少一个指 标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。
如图6所示,该语句结构分析模块520包括:
简称替换单元521,用于利用所述待提取指标文本中的公司简称与预先 建立的公司全称-简称对照表进行匹配,获得相应的所述公司名称并替换所 述待提取指标文本中的公司简称。
时间归一化单元522,用于对所述待提取指标文本中的所述时间进行归 一化处理。
还包括:
文本分句单元523,用于对所述待提取指标文本根据预设规则进行分句 处理,获得待提取指标语句。
位置确定单元524,用于确定所述待提取指标语句中所有所述类别项的 位置。
类别项定位单元525,用于以所述指标值在所述待提取指标语句中的位 置为锚点,向前定位所述待提取指标语句中所有所述相应限定类别项。
本发明实施例中,上述各个模块或单元更加详细的功能描述可以参考 前述实施例中相应部分的内容,在此不再赘述。
此外,本发明还提供了一种计算机设备,该计算机设备包括存储器和 处理器,存储器可用于存储计算机程序,处理器通过运行所述计算机程序, 从而使计算机设备执行上述方法或者上述指标数据提取装置中的各个模块 的功能。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操 作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功 能等)等;存储数据区可存储根据计算机设备的使用所创建的数据(比如 音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器, 还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或 其他易失性固态存储器件。
本实施例还提供了一种计算机存储介质,用于储存上述计算机设备中 使用的计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法, 也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的, 例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上, 流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分, 所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注 的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框 实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所 涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及 结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用 的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形 成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模 块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人 计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、 磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可 轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明 的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种指标数据提取方法,其特征在于,包括:
获取待提取指标文本,对所述待提取指标文本进行类别项识别,获取所述待提取指标文本中所有类别项;
对所述待提取指标文本进行语句结构分析,获取所述所有类别项中指标值相应的限定类别项;
根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。
2.根据权利要求1所述的指标数据提取方法,其特征在于,所述“对所述待提取指标文本进行语句结构分析,获取所述所有类别项中指标值相应的限定类别项”包括:
利用所述待提取指标文本中的公司简称与预先建立的公司全称-简称对照表进行匹配,获得相应的公司名称并替换所述待提取指标文本中的公司简称;和/或
对所述待提取指标文本中的时间进行归一化处理。
3.根据权利要求1所述的指标数据提取方法,其特征在于,所述“对所述待提取指标文本进行语句结构分析,获取所述所有类别项中指标值相应的限定类别项”还包括:
对所述待提取指标文本根据预设规则进行分句处理,获得待提取指标语句;
确定所述待提取指标语句中所有所述类别项的位置;
以所述指标值在所述待提取指标语句中的位置为锚点,向前定位所述待提取指标语句中所有所述相应限定类别项。
4.根据权利要求1所述的指标数据提取方法,其特征在于,所述“对所述待提取指标文本进行语句结构分析,获取所述所有类别项中指标值相应的限定类别项”还包括:
在获得待提取指标语句后,判断所述待提取指标语句是否为并列式结构语句;
当所述待提取指标语句为列式结构语句时,根据所述待提取指标语句中并列的所述类别项对所述待提取指标语句进行拆分处理,获得至少两个并列的所述待提取指标语句。
5.根据权利要求1所述的指标数据提取方法,其特征在于,所述类别项包括指标名称、指标趋势、指标值、行业名称、业务名称、产品名称、时间以及公司名称中的至少一种。
6.根据权利要求5所述的指标数据提取方法,其特征在于,还包括:
在获取所述待提取指标文本中所有类别项后,判断所述所有类别项中是否包括有所述指标名称;
当所述所有类别项中未包括有所述指标名称时,确定所述待提取指标文本的指标数据提取无效,并生成提取无效提示。
7.一种指标数据提取装置,其特征在于,包括:
类别项获取模块,用于获取待提取指标文本,对所述待提取指标文本进行类别项识别,获取所述待提取指标文本中所有类别项;
语句结构分析模块,用于对所述待提取指标文本进行语句结构分析,获取所述所有类别项中指标值相应的限定类别项;
指标数据提取模块,用于根据所述待提取指标文本中的至少一个指标值以及所述至少一个指标值的相应限定类别项生成指标数据提取结果。
8.根据权利要求7所述的指标数据提取装置,其特征在于,所述语句结构分析模块包括:
简称替换单元,用于利用所述待提取指标文本中的公司简称与预先建立的公司全称-简称对照表进行匹配,获得相应的公司名称并替换所述待提取指标文本中的公司简称;
时间归一化单元,用于对所述待提取指标文本中的时间进行归一化处理。
9.一种计算机设备,其特征在于,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算机设备执行根据权利要求1至5中任一项所述的指标数据提取方法。
10.一种计算机存储介质,其特征在于,其存储有权利要求9所述的计算机设备中所使用的计算机程序。
CN201910125008.3A 2019-02-19 2019-02-19 指标数据提取方法、装置和计算机设备 Active CN109885658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910125008.3A CN109885658B (zh) 2019-02-19 2019-02-19 指标数据提取方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910125008.3A CN109885658B (zh) 2019-02-19 2019-02-19 指标数据提取方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN109885658A true CN109885658A (zh) 2019-06-14
CN109885658B CN109885658B (zh) 2021-10-26

Family

ID=66928490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910125008.3A Active CN109885658B (zh) 2019-02-19 2019-02-19 指标数据提取方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN109885658B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472037A (zh) * 2019-08-21 2019-11-19 北京大学第三医院(北京大学第三临床医学院) 一种医学文献的指标和数值的提取方法及系统
CN111310423A (zh) * 2020-02-28 2020-06-19 中科鼎富(北京)科技发展有限公司 一种文本信息生成方法及装置
CN111353271A (zh) * 2020-02-28 2020-06-30 中科鼎富(北京)科技发展有限公司 一种合同文本的处理方法、装置、存储介质和电子设备
CN114139883A (zh) * 2021-11-10 2022-03-04 云南电网有限责任公司信息中心 一种电力企业物资域评价指标的计算方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049675A1 (en) * 2000-06-05 2001-12-06 Benjamin Mandler File system with access and retrieval of XML documents
US20030061229A1 (en) * 2001-09-08 2003-03-27 Lusen William D. System for processing objects for storage in a document or other storage system
CN101114277A (zh) * 2007-08-21 2008-01-30 南京大学 一种利用地理信息系统与遥感技术进行生态功能区划的方法
CN101596109A (zh) * 2009-06-12 2009-12-09 深圳先进技术研究院 获取脑部特征参数的方法、系统及溶栓指征生成系统与方法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN101719237A (zh) * 2009-12-09 2010-06-02 南京联创科技集团股份有限公司 基于全业务指标规则配置的数据质量监控方法
CN101937471A (zh) * 2010-09-21 2011-01-05 上海大学 关键词提取算法的多维空间评价方法
CN102402732A (zh) * 2010-09-14 2012-04-04 中国船舶工业综合技术经济研究院 科研项目评估方法及系统
CN102542262A (zh) * 2012-01-04 2012-07-04 东南大学 一种基于高铁运行特征工况波形库的波形识别方法
CN102722577A (zh) * 2012-06-05 2012-10-10 中兴通讯股份有限公司 指标动态权重的确定方法及装置
US20130159277A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Target based indexing of micro-blog content
CN103488746A (zh) * 2013-09-22 2014-01-01 成都锐理开创信息技术有限公司 一种获取业务信息的方法及装置
CN105225074A (zh) * 2015-11-06 2016-01-06 国网上海市电力公司 一种智能配用电系统低碳性能综合评价系统
CN105550940A (zh) * 2015-11-25 2016-05-04 中国南方电网有限责任公司电网技术研究中心 一种电网设备标准指标数据的挖掘提取方法
CN107545934A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 数值型指标的提取方法和装置
CN107545023A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 文本型指标的提取方法和装置
CN108269189A (zh) * 2017-07-05 2018-07-10 中国中投证券有限责任公司 指标数据监控方法、装置、存储介质和计算机设备

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010049675A1 (en) * 2000-06-05 2001-12-06 Benjamin Mandler File system with access and retrieval of XML documents
US20030061229A1 (en) * 2001-09-08 2003-03-27 Lusen William D. System for processing objects for storage in a document or other storage system
CN101114277A (zh) * 2007-08-21 2008-01-30 南京大学 一种利用地理信息系统与遥感技术进行生态功能区划的方法
CN101596109A (zh) * 2009-06-12 2009-12-09 深圳先进技术研究院 获取脑部特征参数的方法、系统及溶栓指征生成系统与方法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN101719237A (zh) * 2009-12-09 2010-06-02 南京联创科技集团股份有限公司 基于全业务指标规则配置的数据质量监控方法
CN102402732A (zh) * 2010-09-14 2012-04-04 中国船舶工业综合技术经济研究院 科研项目评估方法及系统
CN101937471A (zh) * 2010-09-21 2011-01-05 上海大学 关键词提取算法的多维空间评价方法
US20130159277A1 (en) * 2011-12-14 2013-06-20 Microsoft Corporation Target based indexing of micro-blog content
CN102542262A (zh) * 2012-01-04 2012-07-04 东南大学 一种基于高铁运行特征工况波形库的波形识别方法
CN102722577A (zh) * 2012-06-05 2012-10-10 中兴通讯股份有限公司 指标动态权重的确定方法及装置
CN103488746A (zh) * 2013-09-22 2014-01-01 成都锐理开创信息技术有限公司 一种获取业务信息的方法及装置
CN105225074A (zh) * 2015-11-06 2016-01-06 国网上海市电力公司 一种智能配用电系统低碳性能综合评价系统
CN105550940A (zh) * 2015-11-25 2016-05-04 中国南方电网有限责任公司电网技术研究中心 一种电网设备标准指标数据的挖掘提取方法
CN107545934A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 数值型指标的提取方法和装置
CN107545023A (zh) * 2017-05-11 2018-01-05 新华三大数据技术有限公司 文本型指标的提取方法和装置
CN108269189A (zh) * 2017-07-05 2018-07-10 中国中投证券有限责任公司 指标数据监控方法、装置、存储介质和计算机设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472037A (zh) * 2019-08-21 2019-11-19 北京大学第三医院(北京大学第三临床医学院) 一种医学文献的指标和数值的提取方法及系统
CN111310423A (zh) * 2020-02-28 2020-06-19 中科鼎富(北京)科技发展有限公司 一种文本信息生成方法及装置
CN111353271A (zh) * 2020-02-28 2020-06-30 中科鼎富(北京)科技发展有限公司 一种合同文本的处理方法、装置、存储介质和电子设备
CN111310423B (zh) * 2020-02-28 2023-11-03 鼎富智能科技有限公司 一种文本信息生成方法及装置
CN114139883A (zh) * 2021-11-10 2022-03-04 云南电网有限责任公司信息中心 一种电力企业物资域评价指标的计算方法
CN114139883B (zh) * 2021-11-10 2024-03-29 云南电网有限责任公司信息中心 一种电力企业物资域评价指标的计算方法

Also Published As

Publication number Publication date
CN109885658B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN109885658A (zh) 指标数据提取方法、装置和计算机设备
US20200110806A1 (en) Methods, devices and systems for data augmentation to improve fraud detection
CN106844407A (zh) 基于数据集相关性的标签网络产生方法和系统
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN106708940A (zh) 用于处理图片的方法和装置
CN105630924A (zh) 异步数据处理方法和异步数据处理系统
JP2016206878A (ja) 営業員育成支援システムおよび営業員育成支援方法
CN107329770A (zh) 针对软件安全性bug修复的个性化推荐方法
CN110489424A (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN112668323B (zh) 基于自然语言处理的文本要素提取方法及其文本审查系统
CN110046648A (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN114626731A (zh) 风险识别方法、装置、电子设备及计算机可读存储介质
CN106997350A (zh) 一种数据处理的方法及装置
CN112686026B (zh) 基于信息熵的关键词提取方法、装置、设备及介质
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
Mahmud et al. Comparison of machine learning algorithms for sentiment classification on fake news detection
CN113362162A (zh) 基于网络行为数据的风控识别方法、装置、电子设备及介质
Sadman et al. Understanding the pandemic through mining covid news using natural language processing
Ramaciotti et al. Embedding social graphs from multiple national settings in common empirical opinion spaces
CN110347806A (zh) 原创文本甄别方法、装置、设备与计算机可读存储介质
KR102607383B1 (ko) 자금세탁의심거래 파악 방법 및 그 장치
CN110599195B (zh) 一种识别刷单的方法
CN114708073A (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
Bhat et al. Predicting private company exits using qualitative data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant