CN107391695A - 一种基于大数据的信息提取方法 - Google Patents

一种基于大数据的信息提取方法 Download PDF

Info

Publication number
CN107391695A
CN107391695A CN201710619417.XA CN201710619417A CN107391695A CN 107391695 A CN107391695 A CN 107391695A CN 201710619417 A CN201710619417 A CN 201710619417A CN 107391695 A CN107391695 A CN 107391695A
Authority
CN
China
Prior art keywords
data
information
rule
application message
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710619417.XA
Other languages
English (en)
Inventor
王振宇
郑祥智
林建忙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou Lucheng District New Research Institute Of Advanced Technology
Original Assignee
Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou Lucheng District New Research Institute Of Advanced Technology filed Critical Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority to CN201710619417.XA priority Critical patent/CN107391695A/zh
Publication of CN107391695A publication Critical patent/CN107391695A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的信息提取方法,基于大数据的信息提取方法包括以下步骤:A、从全文数据库系统TRS中提取原始数据;B、从提取的原始数据中提取公共字段和用户代理User‑Agent内容,并从User‑Agent内容获取应用信息;C、根据应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息;D、将位置信息与公共字段合并为有效数据。本发明的用户只需通过输入评价数据就可以指示查询内容和查询范围,操作简便,且由于仅查询指定范围的信息并且对查询结果信息进行排序,故查询准确度高且节省网络资源,同时其最后仅返回与特征信息相匹配的查询结果信息,故提高了查询的针对性和效率。

Description

一种基于大数据的信息提取方法
技术领域
本发明涉及信息提取技术领域,具体为一种基于大数据的信息提取方法。
背景技术
随着大数据时代的到来,数据成为商业活动中的一种重要资源,基于数据的科学决策和精细化管理将成为现代商业管理发展的必然趋势,在电子商务领域,海量的商品评论数据蕴含着巨大的社会价值和商业价值,对海量商品评论中产品特征数据进行分析挖掘,可为潜在消费者提供商品属性粒度级别的购买决策依据,为企业提供产品设计的依据和其他企业的竞争情报,还能对用户的需求和产品的改进方向做出有效反应,提高企业竞争力,但现有技术对评价数据的检索准确度低、操作复杂、并且网络资源利用率低,为此,我们提出一种基于大数据的信息提取方法。
发明内容
本发明的目的在于提供一种基于大数据的信息提取方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大数据的信息提取方法,基于大数据的信息提取方法包括以下步骤:
A、从全文数据库系统TRS中提取原始数据;
B、从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从User-Agent内容获取应用信息;
C、根据应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息;
D、将位置信息与公共字段合并为有效数据;
E、将有效数据输出到业务数据库和/或bcp文件,并基于用户输入的评价标识数据构造查询请求;
F、将查询请求传送到数据处理服务器,以完成后续的查询操作;
G、针对查询结果信息执行排序操作,从而构造查询结果;
H、将查询结果传送回信息提取装置。
优选的,所述应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息,还包括:当User-Agent内容为空,以及预先设定的规则数据库中没有与应用信息对应的提取规则时,使用通用规则从原始数据中提取位置信息。
优选的,所述将有效数据输出到业务数据库和/或bcp文件之后,还包括:接收用户的查询请求,返回查询请求数据。
优选的,所述管理TRS中的数据源,包括修改数据源、删除数据源、添加数据源、查询数据源,管理应用信息数据库,包括修改应用信息、删除应用信息、添加应用信息、查询应用信息,管理预先设定的规则数据库,包括修改提取规则、删除提取规则、添加提取规则、查询提取规则。
优选的,所述在将位置信息与公共字段合并为有效数据之后,在将有效数据输出到业务数据库和bcp文件之前,还包括:过滤错误数据以及相同数据。
优选的,所述原始数据提取模块用于从全文数据库系统TRS中提取原始数据,应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从User-Agent内容获取应用信息,位置信息提取模块,用于根据应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息,有效数据合并模块,用于将位置信息与公共字段合并为有效数据,有效数据输出模块,用于将有效数据输出到业务数据库和/或bcp文件。
优选的,所述信息提取方法还包括:
A、用户接口,所述用户接口接收用户输入的所述评价标识数据,并将评价标识数据传送到标识数据解析模块;
B、标识数据解析模块,所述标识数据解析模块解析评价标识数据以获得查询内容和查询范围;
C、查询处理模块,所述查询处理模块基于查询内容和查询范围构造查询请求,并将查询请求传送到数据处理服务器,其中,查询请求包括查询内容和查询范围。
优选的,所述数据处理服务器接收来自信息提取装置的查询请求,并基于查询请求从数据库获取查询结果信息,并针对查询结果信息执行排序操作,从而构造查询结果,并将查询结果传送回信息提取装置。
优选的,所述过滤错误数据以及相同数据包括以下步骤:
A、获取错误数据和相同数据信息;
B、对错误数据和相同数据进行识别,并获取错误数据和相同数据的特征文本值;
C、当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时,检测已存储特征文本值是否被标记为已处理;
D、若是,则将特征文本值对应的错误数据和相同数据信息过滤。
与现有技术相比,本发明的有益效果如下:
本发明的用户只需通过输入评价数据就可以指示查询内容和查询范围,操作简便,且由于仅查询指定范围的信息并且对查询结果信息进行排序,故查询准确度高且节省网络资源,同时其最后仅返回与特征信息相匹配的查询结果信息,故提高了查询的针对性和效率。
附图说明
图1为本发明流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于大数据的信息提取方法,基于大数据的信息提取方法包括以下步骤:
A、从全文数据库系统TRS中提取原始数据;
B、从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从User-Agent内容获取应用信息;
C、根据应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息;
D、将位置信息与公共字段合并为有效数据;
E、将有效数据输出到业务数据库和/或bcp文件,并基于用户输入的评价标识数据构造查询请求;
F、将查询请求传送到数据处理服务器,以完成后续的查询操作;
G、针对查询结果信息执行排序操作,从而构造查询结果;
H、将查询结果传送回信息提取装置。
应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息,还包括:当User-Agent内容为空,以及预先设定的规则数据库中没有与应用信息对应的提取规则时,使用通用规则从原始数据中提取位置信息。
将有效数据输出到业务数据库和/或bcp文件之后,还包括:接收用户的查询请求,返回查询请求数据。
管理TRS中的数据源,包括修改数据源、删除数据源、添加数据源、查询数据源,管理应用信息数据库,包括修改应用信息、删除应用信息、添加应用信息、查询应用信息,管理预先设定的规则数据库,包括修改提取规则、删除提取规则、添加提取规则、查询提取规则。
在将位置信息与公共字段合并为有效数据之后,在将有效数据输出到业务数据库和bcp文件之前,还包括:过滤错误数据以及相同数据。
原始数据提取模块用于从全文数据库系统TRS中提取原始数据,应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从User-Agent内容获取应用信息,位置信息提取模块,用于根据应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息,有效数据合并模块,用于将位置信息与公共字段合并为有效数据,有效数据输出模块,用于将有效数据输出到业务数据库和/或bcp文件。
信息提取方法还包括:
A、用户接口,用户接口接收用户输入的评价标识数据,并将评价标识数据传送到标识数据解析模块;
B、标识数据解析模块,标识数据解析模块解析评价标识数据以获得查询内容和查询范围;
C、查询处理模块,查询处理模块基于查询内容和查询范围构造查询请求,并将查询请求传送到数据处理服务器,其中,查询请求包括查询内容和查询范围。
数据处理服务器接收来自信息提取装置的查询请求,并基于查询请求从数据库获取查询结果信息,并针对查询结果信息执行排序操作,从而构造查询结果,并将查询结果传送回信息提取装置。
过滤错误数据以及相同数据包括以下步骤:
A、获取错误数据和相同数据信息;
B、对错误数据和相同数据进行识别,并获取错误数据和相同数据的特征文本值;
C、当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时,检测已存储特征文本值是否被标记为已处理;
D、若是,则将特征文本值对应的错误数据和相同数据信息过滤。
使用时,用户只需通过输入评价数据就可以指示查询内容和查询范围,操作简便,且由于仅查询指定范围的信息并且对查询结果信息进行排序,故查询准确度高且节省网络资源,同时其最后仅返回与特征信息相匹配的查询结果信息,故提高了查询的针对性和效率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于大数据的信息提取方法,其特征在于:基于大数据的信息提取方法包括以下步骤:
A、从全文数据库系统TRS中提取原始数据;
B、从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从User-Agent内容获取应用信息;
C、根据应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息;
D、将位置信息与公共字段合并为有效数据;
E、将有效数据输出到业务数据库和/或bcp文件,并基于用户输入的评价标识数据构造查询请求;
F、将查询请求传送到数据处理服务器,以完成后续的查询操作;
G、针对查询结果信息执行排序操作,从而构造查询结果;
H、将查询结果传送回信息提取装置。
2.根据权利要求1所述的一种基于大数据的信息提取方法,其特征在于:所述应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息,还包括:当User-Agent内容为空,以及预先设定的规则数据库中没有与应用信息对应的提取规则时,使用通用规则从原始数据中提取位置信息。
3.根据权利要求1所述的一种基于大数据的信息提取方法,其特征在于:所述将有效数据输出到业务数据库和/或bcp文件之后,还包括:接收用户的查询请求,返回查询请求数据。
4.根据权利要求1所述的一种基于大数据的信息提取方法,其特征在于:所述管理TRS中的数据源,包括修改数据源、删除数据源、添加数据源、查询数据源,管理应用信息数据库,包括修改应用信息、删除应用信息、添加应用信息、查询应用信息,管理预先设定的规则数据库,包括修改提取规则、删除提取规则、添加提取规则、查询提取规则。
5.根据权利要求4所述的一种基于大数据的信息提取方法,其特征在于:所述在将位置信息与公共字段合并为有效数据之后,在将有效数据输出到业务数据库和bcp文件之前,还包括:过滤错误数据以及相同数据。
6.根据权利要求1所述的一种基于大数据的信息提取方法,其特征在于:所述原始数据提取模块用于从全文数据库系统TRS中提取原始数据,应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从User-Agent内容获取应用信息,位置信息提取模块,用于根据应用信息在预先设定的规则数据库中提取与应用信息对应的提取规则,并根据提取规则从原始数据中提取位置信息,有效数据合并模块,用于将位置信息与公共字段合并为有效数据,有效数据输出模块,用于将有效数据输出到业务数据库和/或bcp文件。
7.根据权利要求1所述的一种基于大数据的信息提取方法,其特征在于:所述信息提取方法还包括:
A、用户接口,所述用户接口接收用户输入的所述评价标识数据,并将评价标识数据传送到标识数据解析模块;
B、标识数据解析模块,所述标识数据解析模块解析评价标识数据以获得查询内容和查询范围;
C、查询处理模块,所述查询处理模块基于查询内容和查询范围构造查询请求,并将查询请求传送到数据处理服务器,其中,查询请求包括查询内容和查询范围。
8.根据权利要求1所述的一种基于大数据的信息提取方法,其特征在于:所述数据处理服务器接收来自信息提取装置的查询请求,并基于查询请求从数据库获取查询结果信息,并针对查询结果信息执行排序操作,从而构造查询结果,并将查询结果传送回信息提取装置。
9.根据权利要求5所述的一种基于大数据的信息提取方法,其特征在于:所述过滤错误数据以及相同数据包括以下步骤:
A、获取错误数据和相同数据信息;
B、对错误数据和相同数据进行识别,并获取错误数据和相同数据的特征文本值;
C、当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时,检测已存储特征文本值是否被标记为已处理;
D、若是,则将特征文本值对应的错误数据和相同数据信息过滤。
CN201710619417.XA 2017-07-26 2017-07-26 一种基于大数据的信息提取方法 Pending CN107391695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710619417.XA CN107391695A (zh) 2017-07-26 2017-07-26 一种基于大数据的信息提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710619417.XA CN107391695A (zh) 2017-07-26 2017-07-26 一种基于大数据的信息提取方法

Publications (1)

Publication Number Publication Date
CN107391695A true CN107391695A (zh) 2017-11-24

Family

ID=60342736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710619417.XA Pending CN107391695A (zh) 2017-07-26 2017-07-26 一种基于大数据的信息提取方法

Country Status (1)

Country Link
CN (1) CN107391695A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021644A (zh) * 2017-11-29 2018-05-11 广州迈安信息科技有限公司 一种云数据整理方法
CN109902959A (zh) * 2019-02-28 2019-06-18 浪潮软件股份有限公司 一种基于业务系统的自动评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050046960A (ko) * 2003-11-15 2005-05-19 한국전자통신연구원 3차원 에지 히스토그램을 이용한 단백질 구조 비교검색장치 및 방법
CN103678387A (zh) * 2012-09-19 2014-03-26 中国银联股份有限公司 用于信息提取的装置及方法
CN104516948A (zh) * 2014-12-08 2015-04-15 北京锐安科技有限公司 一种基于海量数据的位置信息提取方法和装置
CN104536965A (zh) * 2014-11-19 2015-04-22 北京思特奇信息技术股份有限公司 一种大数据条件下的数据查询展示系统及方法
CN106407350A (zh) * 2016-09-05 2017-02-15 广州视睿电子科技有限公司 错误日志信息过滤方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050046960A (ko) * 2003-11-15 2005-05-19 한국전자통신연구원 3차원 에지 히스토그램을 이용한 단백질 구조 비교검색장치 및 방법
CN103678387A (zh) * 2012-09-19 2014-03-26 中国银联股份有限公司 用于信息提取的装置及方法
CN104536965A (zh) * 2014-11-19 2015-04-22 北京思特奇信息技术股份有限公司 一种大数据条件下的数据查询展示系统及方法
CN104516948A (zh) * 2014-12-08 2015-04-15 北京锐安科技有限公司 一种基于海量数据的位置信息提取方法和装置
CN106407350A (zh) * 2016-09-05 2017-02-15 广州视睿电子科技有限公司 错误日志信息过滤方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021644A (zh) * 2017-11-29 2018-05-11 广州迈安信息科技有限公司 一种云数据整理方法
CN109902959A (zh) * 2019-02-28 2019-06-18 浪潮软件股份有限公司 一种基于业务系统的自动评价方法

Similar Documents

Publication Publication Date Title
CN102110170B (zh) 一种具有信息发布和搜索功能的系统及信息发布方法
CN104809117B (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
CN105468371B (zh) 一种基于主题聚类的业务流程图合并方法
CN105279535B (zh) 一种识别码智能分析处理系统及其处理方法
CN109446305A (zh) 智能旅游客服系统的构建方法以及系统
CN102419975B (zh) 一种基于语音识别的数据挖掘方法和系统
CN102542061B (zh) 一种产品的智能分类方法
US20190188478A1 (en) Method and apparatus for obtaining video public opinions, computer device and storage medium
CN109710767B (zh) 多语种大数据服务平台
CN104346480A (zh) 信息挖掘方法和装置
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN113409555B (zh) 一种基于物联网的实时报警联动方法及系统
CN108228664B (zh) 非结构化数据处理方法及装置
CN114817968B (zh) 无特征数据的路径追溯方法、装置、设备及存储介质
US20190188224A1 (en) Method and apparatus for obtaining picture public opinions, computer device and storage medium
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN114265957A (zh) 基于图数据库的多种数据源联合查询方法及系统
CN107391695A (zh) 一种基于大数据的信息提取方法
CN103929499A (zh) 一种物联网异构标识识别方法和系统
CN105677745A (zh) 一种通用高效自助数据查询系统及实现方法
CN105677888A (zh) 一种基于用户时间碎片的业务偏好识别方法
CN104268214A (zh) 一种基于微博用户关系的用户性别识别方法及系统
CN101286903B (zh) 一种网络审计领域提高会话完整性的方法
CN110704698A (zh) 一种非结构化海量网络安全数据的关联及查询方法
CN113378222A (zh) 一种基于数据内容识别的文件标密方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124

RJ01 Rejection of invention patent application after publication