CN107273461A - 一种自然语言信息处理方法及系统 - Google Patents

一种自然语言信息处理方法及系统 Download PDF

Info

Publication number
CN107273461A
CN107273461A CN201710407923.2A CN201710407923A CN107273461A CN 107273461 A CN107273461 A CN 107273461A CN 201710407923 A CN201710407923 A CN 201710407923A CN 107273461 A CN107273461 A CN 107273461A
Authority
CN
China
Prior art keywords
information
natural language
structuring
text
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710407923.2A
Other languages
English (en)
Inventor
张爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU LOYA INTERNATIONAL MARKETING RESEARCH Co Ltd
Original Assignee
GUANGZHOU LOYA INTERNATIONAL MARKETING RESEARCH Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU LOYA INTERNATIONAL MARKETING RESEARCH Co Ltd filed Critical GUANGZHOU LOYA INTERNATIONAL MARKETING RESEARCH Co Ltd
Priority to CN201710407923.2A priority Critical patent/CN107273461A/zh
Publication of CN107273461A publication Critical patent/CN107273461A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自然语言信息处理方法及系统。方法包括获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。本发明采用成熟的网络爬虫技术,从海量的网络公共信息中抓取特定行业的文字信息。经过文字清理、结构化处理技术将海量的、杂乱的信息变成结构化的,可统计分析的数据,并用于分析选定行业的现状、分析社会对选定行业的各种看法态度看法等,指导行业发展,修正行业的方向,为行业的相关企业提供的决策上的依据,助力企业发展。

Description

一种自然语言信息处理方法及系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种自然语言信息处理方法及系统。
背景技术
随着信息网络技术的发展,互联网中出现越来越多形式各异的数据资源。从海量异构的网络数据中准确高效地发现并获取用户所需的数据信息,需要对网络数据进行有效地组织管理。
信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。信息检索的涵义满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体包括人和检索工作单位,统称为信息检索系统Information Retrieval System,简称IRS。
如何对互联网中的各种信息进行分析处理,得到特定行业的分析数据成为亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种自然语言信息处理方法,包括:
获取原始网页;
对所述原始网页进行分析,提取网页中的自然语言信息;
从所述自然语言信息中获取指定行业的文字信息;
对所述文字信息进行清理;
对清理后的所述文字信息进行结构化处理;
根据结构化处理后的信息对指定行业进行分析。
进一步地,从所述自然语言信息中获取指定行业的文字信息之后,还包括:
将所述文字信息存储到Hadoop系统中。
进一步地,所述对所述文字信息进行清理,包括:
删除文字信息中的广告信息。
进一步地,所述对清理后的所述文字信息进行结构化处理之后,还包括:
将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
进一步地,所述根据结构化处理后的信息对指定行业进行分析包括:
从Hbase数据库中获取结构化处理后的信息;
从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
本发明还提供了一种自然语言信息处理系统,包括:
网页获取模块,用于获取原始网页;
自然语言提取模块,用于对所述原始网页进行分析,提取网页中的自然语言信息;
指定信息提取模块,用于从所述自然语言信息中获取指定行业的文字信息;
清理模块,用于对所述文字信息进行清理;
结构化处理模块,用于对清理后的所述文字信息进行结构化处理;
分析模块,用于根据结构化处理后的信息对指定行业进行分析。
进一步地,还包括:
第一存储模块,用于将所述文字信息存储到Hadoop系统中。
进一步地,所述清理模块包括:
广告删除单元,用于删除文字信息中的广告信息。
进一步地,还包括:
第二存储模块,用于将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
进一步地,所述分析模块包括:
获取单元,用于从Hbase数据库中获取结构化处理后的信息;
分析单元,用于从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
综上所述,本发明通过获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。本发明使用成熟的大数据存储系——Hadoop系统、Hbase数据库,为大数据的存储、操作提供便捷的服务。采用成熟的网络爬虫技术,从海量的网络公共信息中抓取特定行业的文字信息。经过文字清理、结构化处理技术将海量的、杂乱的信息变成结构化的,可统计分析的数据,并用于分析选定行业的现状、分析社会对选定行业的各种看法态度看法等,指导行业发展,修正行业的方向,为行业的相关企业提供的决策上的依据,助力企业发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是根据本发明实施例的自然语言信息处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的自然语言信息处理方法流程图;
图3是根据本发明实施例的自然语言信息处理系统的交互图;
图4是根据本发明实施例的自然语言信息处理系统的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种自然语言信息处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是根据本发明实施例的自然语言信息处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端100可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端100还可包括比图1中所示更多或者更少的组件,或者具有与图2所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的短文本分类方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的短文本分类方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端100的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本申请提供了如图2所示的自然语言信息处理方法。该方法可以应用于智能终端设备中,由智能终端设备中的处理器执行,智能终端设备可以是智能手机、平板电脑等。智能终端设备中安装有至少一个应用程序,本发明实施例并不限定应用程序的种类,可以为系统类应用程序,也可以为软件类应用程序。
图2是根据本发明实施例的自然语言信息处理方法的流程图。如图2所示,该自然语言信息处理方法的一种可选的方案包括如下步骤:
S101,获取原始网页。
面对当下海量的网络公共信息,我们采用多线程、非阻塞的下载方式,从网络中下载网络公共信息。优选采用网络爬虫获取原始网页,并对原始网页进行分析。
S102,对所述原始网页进行分析,提取网页中的自然语言信息。
对网络爬虫抓取下来的网页进行分析,提取里面的自然语言(文字)信息。
S103,从所述自然语言信息中获取指定行业的文字信息。
S104,对所述文字信息进行清理。
网络上爬取的公共信息,内含相当多的杂质、冗余信息,需进行有效清理。清理网络爬虫爬下来的海量公共信息。
S105,对清理后的所述文字信息进行结构化处理。
自然语言结构化处理,经清洗过的语言信息,经结构化处理后,存入Hbase数据库中用于统计分析使用。
S106,根据结构化处理后的信息对指定行业进行分析。
采用分布式计算的方式实现对海量数据的快速统计,及时对信息进行处理、反馈。
作为一种可选的实施例,从所述自然语言信息中获取指定行业的文字信息之后,还包括:
将所述文字信息存储到Hadoop系统中。
作为一种可选的实施例,所述对所述文字信息进行清理,包括:
删除文字信息中的广告信息。
作为一种可选的实施例,所述对清理后的所述文字信息进行结构化处理之后,还包括:
将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
作为一种可选的实施例,所述根据结构化处理后的信息对指定行业进行分析包括:
从Hbase数据库中获取结构化处理后的信息;
从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
本申请针对处理网络中海量自然语言,应用网络爬虫、网页分析、Hadoop系统、Hbase数据库、信息清洗技术、自然语言结构化处理技术,基于大数据的统计分析。通过网络爬虫、网页分析取得网络中的大量自然语言信息,提交Hadoop系统,后台文字清理系统、自然语言结构处理系统对自然语言信息进行分装进入Hbase数据库、统计分析。提供实时网络信息分析,及时掌握全面的网络信息。
具体来说,指定行业可通过输入行业关键字或在预设的多个行业关键字中选取。
其中,步骤S105中对清理后的所述文字信息进行结构化处理时,可针对发布网站、类型、主题、抓取时间、发表时间、客户端、所在地、日期、行业分类、所属国家、进口/国产等多个信息进行统计。
综上所述,本发明通过获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。本发明使用成熟的大数据存储系——Hadoop系统、Hbase数据库,为大数据的存储、操作提供便捷的服务。采用成熟的网络爬虫技术,从海量的网络公共信息中抓取特定行业的文字信息。对网络上中的各种文字信息,如新闻、评论、论坛等,进行收集、清理、结构化处理、分类存储、提取统计、分析。经过文字清理、结构化处理技术将海量的、杂乱的信息变成结构化的,可统计分析的数据,并用于分析选定行业的现状、分析社会对选定行业的各种看法态度看法等,指导行业发展,修正行业的方向,为行业的相关企业提供的决策上的依据,助力企业发展。
实施例2
图3是本发明实施例提供的自然语言信息处理系统的系统交互图;图4是本发明实施例提供的自然语言信息处理系统的结构框图。如图3、图4所示,本发明的系统包括:
网页获取模块,用于获取原始网页;
自然语言提取模块,用于对所述原始网页进行分析,提取网页中的自然语言信息;
指定信息提取模块,用于从所述自然语言信息中获取指定行业的文字信息;
清理模块,用于对所述文字信息进行清理;
结构化处理模块,用于对清理后的所述文字信息进行结构化处理;
分析模块,用于根据结构化处理后的信息对指定行业进行分析。
进一步地,还包括:
第一存储模块,用于将所述文字信息存储到Hadoop系统中。
进一步地,所述清理模块包括:
广告删除单元,用于删除文字信息中的广告信息。
进一步地,还包括:
第二存储模块,用于将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
进一步地,所述分析模块包括:
获取单元,用于从Hbase数据库中获取结构化处理后的信息;
分析单元,用于从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
综上所述,本发明通过获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。本发明使用成熟的大数据存储系——Hadoop系统、Hbase数据库,为大数据的存储、操作提供便捷的服务。采用成熟的网络爬虫技术,从海量的网络公共信息中抓取特定行业的文字信息。经过文字清理、结构化处理技术将海量的、杂乱的信息变成结构化的,可统计分析的数据,并用于分析选定行业的现状、分析社会对选定行业的各种看法态度看法等,指导行业发展,修正行业的方向,为行业的相关企业提供的决策上的依据,助力企业发展。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种自然语言信息处理方法,其特征在于,包括:
获取原始网页;
对所述原始网页进行分析,提取网页中的自然语言信息;
从所述自然语言信息中获取指定行业的文字信息;
对所述文字信息进行清理;
对清理后的所述文字信息进行结构化处理;
根据结构化处理后的信息对指定行业进行分析。
2.根据权利要求1所述的自然语言信息处理方法,其特征在于,从所述自然语言信息中获取指定行业的文字信息之后,还包括:
将所述文字信息存储到Hadoop系统中。
3.根据权利要求1所述的自然语言信息处理方法,其特征在于,所述对所述文字信息进行清理,包括:
删除文字信息中的广告信息。
4.根据权利要求1所述的自然语言信息处理方法,其特征在于,所述对清理后的所述文字信息进行结构化处理之后,还包括:
将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
5.根据权利要求4所述的自然语言信息处理方法,其特征在于,所述根据结构化处理后的信息对指定行业进行分析包括:
从Hbase数据库中获取结构化处理后的信息;
从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
6.一种自然语言信息处理系统,其特征在于,包括:
网页获取模块,用于获取原始网页;
自然语言提取模块,用于对所述原始网页进行分析,提取网页中的自然语言信息;
指定信息提取模块,用于从所述自然语言信息中获取指定行业的文字信息;
清理模块,用于对所述文字信息进行清理;
结构化处理模块,用于对清理后的所述文字信息进行结构化处理;
分析模块,用于根据结构化处理后的信息对指定行业进行分析。
7.根据权利要求6所述的自然语言信息处理系统,其特征在于,还包括:
第一存储模块,用于将所述文字信息存储到Hadoop系统中。
8.根据权利要求6所述的自然语言信息处理系统,其特征在于,所述清理模块包括:
广告删除单元,用于删除文字信息中的广告信息。
9.根据权利要求6所述的自然语言信息处理系统,其特征在于,还包括:
第二存储模块,用于将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。
10.根据权利要求6所述的自然语言信息处理系统,其特征在于,所述分析模块包括:
获取单元,用于从Hbase数据库中获取结构化处理后的信息;
分析单元,用于从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。
CN201710407923.2A 2017-06-02 2017-06-02 一种自然语言信息处理方法及系统 Pending CN107273461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710407923.2A CN107273461A (zh) 2017-06-02 2017-06-02 一种自然语言信息处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710407923.2A CN107273461A (zh) 2017-06-02 2017-06-02 一种自然语言信息处理方法及系统

Publications (1)

Publication Number Publication Date
CN107273461A true CN107273461A (zh) 2017-10-20

Family

ID=60065427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710407923.2A Pending CN107273461A (zh) 2017-06-02 2017-06-02 一种自然语言信息处理方法及系统

Country Status (1)

Country Link
CN (1) CN107273461A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473696A (zh) * 2013-09-03 2013-12-25 周吉 一种收集、分析和分发网络商业信息的方法和系统
CN104111997A (zh) * 2014-07-08 2014-10-22 广州爱拼信息科技有限公司 基于浏览器客户端的信息显示方法、装置和系统
US20150356127A1 (en) * 2011-02-03 2015-12-10 Linguastat, Inc. Autonomous real time publishing
CN106227885A (zh) * 2016-08-08 2016-12-14 星河互联集团有限公司 一种大数据的处理方法、装置及终端
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356127A1 (en) * 2011-02-03 2015-12-10 Linguastat, Inc. Autonomous real time publishing
CN103473696A (zh) * 2013-09-03 2013-12-25 周吉 一种收集、分析和分发网络商业信息的方法和系统
CN104111997A (zh) * 2014-07-08 2014-10-22 广州爱拼信息科技有限公司 基于浏览器客户端的信息显示方法、装置和系统
CN106227885A (zh) * 2016-08-08 2016-12-14 星河互联集团有限公司 一种大数据的处理方法、装置及终端
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法

Similar Documents

Publication Publication Date Title
CN109639481B (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN108170813A (zh) 一种全媒体内容智能审核的方法及其系统
CN104077402B (zh) 数据处理方法和数据处理系统
CN102486799B (zh) 一种环球信息网www页面处理方法和装置
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN108875091B (zh) 一种统一管理的分布式网络爬虫系统
CN103942210A (zh) 海量日志信息的处理方法、装置与系统
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN103902703A (zh) 基于移动互联网访问的文本内容分类方法
CN102201958A (zh) 一种物联网数据传输方法及设备
CN106547793A (zh) 获取代理服务器地址的方法和装置
CN103729446A (zh) 一种用户操作数据的处理方法、处理装置及服务器
CN105468664A (zh) 一种信息采集方法及装置
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN107239563A (zh) 舆情信息动态监控方法
CN104298782A (zh) 互联网用户主动访问行为轨迹的分析方法
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
CN108710670A (zh) 一种日志分析方法、装置、电子设备及可读存储介质
CN110910204A (zh) 一种基于人工智能的用户监测系统
CN102567344A (zh) 信息提供方法及装置
CN110865851A (zh) 一种Android应用数据自动采集方法及系统
CN114969303A (zh) 问卷调研方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171020