CN115238180A - 互联网大数据的信息推荐方法以及ai系统 - Google Patents
互联网大数据的信息推荐方法以及ai系统 Download PDFInfo
- Publication number
- CN115238180A CN115238180A CN202210875331.4A CN202210875331A CN115238180A CN 115238180 A CN115238180 A CN 115238180A CN 202210875331 A CN202210875331 A CN 202210875331A CN 115238180 A CN115238180 A CN 115238180A
- Authority
- CN
- China
- Prior art keywords
- information
- big data
- users
- data server
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种互联网大数据的信息推荐方法,包括:当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器;所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息;若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息;所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的第二信息渠道获取大数据信息;所述大数据服务器对所述大数据信息进行预处理;所述大数据服务器将处理后的所述大数据信息发送至所述手机。本发明提高获取的大数据信息的准确性。
Description
技术领域
本发明涉及互联网大数据信息技术领域,尤其涉及一种互联网大数据的信息推荐方法以及AI系统。
背景技术
大数据(big data),指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。随着互联网的发展,网络信息爆炸式增长,这些网络信息具有一定的使用价值,为了充分利用这些网络信息,大数据技术运用而生。
大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术,目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面。目前,大数据信息是一次性地从互联网获取得到,这些数据信息针对性不强而且容易获得大量的垃圾信息。
发明内容
鉴于此,为了在一定程度上解决相关技术中的技术问题之一,有必要提供一种互联网大数据的信息推荐方法以及AI系统,提高获取的大数据信息的准确性。
本发明第一方面提供一种互联网大数据的信息推荐方法,所述方法包括:
手机持续监听手机用户的输入信息;
当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容;
所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息;
所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度;
若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息;
所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息;
所述大数据服务器对所述大数据信息进行预处理;
所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
在一个优选的实施方式中,所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息之后,所述方法还包括:
判断获取的所述大数据信息的条目数是否达到设定值;
若所述大数据信息的条目数未达到设定值,则获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息;其中,其他用户的信息获取请求包括所述预设内容;
将基于其他用户的请求所获取的大数据信息并入到本次获取的大数据信息中以便于所述大数据服务器对合并后的大数据信息进行预处理。
在一个优选的实施方式中,所述方法还包括:
所述大数据服务器分析所述用户针对所述预设内容的偏好;
根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类;
所述获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息,包括:
获取具有相同偏好的其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息。
在一个优选的实施方式中,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
根据所述输入信息识别出输入信息所包括的预设内容的结构句中所包括的肯定/否定词和句尾词;
根据所述肯定/否定词和所述句尾词识别所述输入信息中针对所述预设内容属于肯定还是属于否定;
将针对所述预设内容属于肯定的用户归为同类;
将针对所述预设内容属于否定的用户归为不同类。
在一个优选的实施方式中,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
分析所述手机在过去第一预设时间段内监听到所述用户输入的所述预设内容的次数;
将过去第一预设时间段内监听到输入的所述预设内容的次数不小于第二预设值的用户归为同类;
将过去第一预设时间段内监听到输入的所述预设内容的次数小于第二预设值的用户归为不同类。
在一个优选的实施方式中,所述方法还包括:
所述手机收集所述用户在过去第二预设时间段内与所述其他用户的沟通内容,判断所述沟通内容与所述预设内容是否具有关联性;
若所述沟通内容与所述输入信息具有关联性,则将所述其他用户设定为关联用户,以便于当所述大数据信息的条目数未达到设定值时,获取所述其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息。
在一个优选的实施方式中,所述大数据服务器对所述大数据信息中除所述预设内容外的其他字段进行统计分析,将带有相同字段的数据信息合并得到数据集合,每一个数据集合带有相应的字段标识;
所述若所述大数据信息的条目数未达到设定值,则获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息,包括:
若所述大数据信息的条目数未达到设定值,则查询所述用户在过去第三预设时间段内与所述其他用户的沟通内容;
确定所述沟通内容中所包括除所述预设内容之外的字段;
获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息的数据集合,所述数据集合为带有对应字段标识的集合。
本发明第二方面提供一种互联网大数据的信息推荐AI系统,所述系统包括手机以及大数据服务器,所述系统能够实现所述的互联网大数据的信息推荐方法。
通过以上方案可知,本发明通过持续监听用户的输入信息,并且当输入信息包括预设内容时,通过大数据服务器获取相关的大数据信息,所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息,若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息,然后所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息,最终所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。本发明优选依据所述预设内容从第一信息渠道获取初始信息,所述大数据服务器对初始信息进行筛选,筛选出具有关联的筛选信息,从而从第一信息渠道得到新增的有用信息,然后依据所述筛选信息和所述预设信息再从第二信息渠道获取大数据信息,如此将从第二信息渠道得到相关性较高的大数据信息,可以提高获取的大数据信息的准确性。
附图说明
图1为本发明的第一实施例的方法流程示意图。
图2为本发明的第二实施例的方法流程示意图。
图3为本发明的第三实施例的方法流程示意图。
图4为本发明的第四实施例的方法流程示意图。
图5为本发明的第五实施例的方法流程示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得所有其他实施例,都属于本发明的保护范围。可以理解的是,附图仅仅提供参考与说明用,并非用来对本发明加以限制。
如图1所示,图1为本发明的第一实施例的方法流程图。本发明第一实施例提供的一种互联网大数据的信息推荐方法,所述方法包括以下步骤。
S101:手机持续监听手机用户的输入信息。
所述手机可以通过监听用户输入的声音信息或者用户触摸输入的文字信息。用户可以授权手机以让手机能够监听其输入信息。
S102:当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容。
当手机监听到输入的信息中包括预设内容时,将触发大数据信息获取流程,此时手机将向大数据服务器发送获取内容信息获取请求,所述大数据服务器将接收到所述请求。
以一个简单的示例,当所述手机监听到输入信息中包括购买衣服时,所述手机向所述大数据服务发送内容信息获取请求。
S103:所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息。
S104:所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度。
S105:若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息。
S106:所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息。
S107:所述大数据服务器对所述大数据信息进行预处理。
S108:所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
所述第一信息渠道和所述第二信息渠道为不同的渠道,所述第一信息渠道为感兴趣的专业渠道,所述第二信息渠道为目标渠道。
以上述简单的示例,大数据服务器会构造“购买衣服”在第一信息渠道的访问链接,通过网络爬虫技术,从第一信息渠道获取初始信息。所述第一信息渠道示例地如衣服论坛,所述初始信息简单示例,可以为“去天猫购买很好看的衣服”,“去学衣服穿搭”,“去旅游前购买衣服攻略”。
所述大数据将分析所述初始信息得到所述初始信息与所述预设内容的匹配度,筛选出匹配度达到第一预设值的所述初始信息。
以上简单示例,“去天猫购买很好看的衣服”以及“去旅游前购买衣服攻略”与所述预设内容匹配度高于第一预设值,而“去小红书学衣服穿搭”与所述预设内容匹配度低于第一预设值,则以“去天猫购买很好看的衣服”以及“去旅游前购买衣服攻略”作为有用的初始信息,而“去学衣服穿搭”则视为无用的初始信息。
所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息,以上示例性的,可以从有用的初始信息中筛选出“天猫”以及“旅游”。
所述大数据服务器则可以根据所述初始信息以及所述筛选信息构造在第二信息渠道的访问链接。示例性的,第二信息渠道是与衣服论坛不同的小红书网页,为目标渠道,通过网络爬虫技术从小红书网页获取大数据信息。如此,将获得具有与所述预设内容更大的相关性的大数据信息。
通过所述大数据服务器对所述大数据信息进行预处理,预处理方式可以按照预设方式进行,然后向手机发送,以向所述用户呈现预处理后的所述大数据信息。示例性的,所述预处理方式可以为统计处理,经过统计处理后,用户可以了解有关“购买衣服”在小红书网页上的信息分布情况。以上仅仅是示例性的,当所述预设内容的设定方式可以更为复杂。
本实施例所提供的互联网大数据的信息推荐方法,从一个现实的感兴趣的信息渠道自动获得与所述预设内容具有关联的筛选信息,这些筛选信息已存在于第一信息渠道当中,这些筛选信息不是通过AI自动拓展所得,获得到的筛选信息更符合互联网实际,以此在第二信息渠道构造访问链接时,以更符合互联网实际的方式从第二信息渠道获取大数据信息。特别是,从第一信息渠道可以获得当前新兴的数据信息,以当前新兴的数据信息在第二信息渠道构造访问链接时,得到的大数据更超前,使得大数据信息与预设内容更符合实际、关联性更大。
如图2所示,图2为本发明的第二实施例的方法流程图。本发明第二实施例提供的一种互联网大数据的信息推荐方法,所述方法包括以下步骤。
S201:手机持续监听手机用户的输入信息。
S202:当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容。
S203:所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息。
S204:所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度。
S205:若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息。
S206:所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息。
S207:判断获取的所述大数据信息的条目数是否达到设定值,若所述大数据信息的条目数未达到设定值,则执行步骤S208。
S208:获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息;其中,其他用户的信息获取请求包括所述预设内容。
S209:将基于其他用户的请求所获取的大数据信息并入到本次获取的大数据信息中。
合并处理时,可以将重复的数据信息剔除,保留不同的数据信息。
S210:所述大数据服务器对合并后的所述大数据信息进行预处理。
S211:所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
在一些特定的情况下,从第二信息渠道所获取的大数据信息的条目数可能较少,无法有效地进行数据分析和统计,另外,当前通过大数据服务器获取大数据时,一些之前的有效链接可能已被删除,当前无法获取该链接的数据信息,这些有用数据会被丢失,数据丢失会导致数据不全或有遗漏。
此时,可以获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息。
其他用户在之前的某个时间点向大数据服务器发送信息获取请求后,所述大数据服务器将按照第一实施例的方式获取大数据信息,这些大数据信息将存储在大数据服务器中,当前用户可以获取到已被删除的数据信息,实现数据的更有效、更全面的分析和统计。
如图3所示,图3为本发明的第三实施例的方法流程图。本发明第三实施例提供的一种互联网大数据的信息推荐方法,所述方法包括以下步骤。
S301:手机持续监听手机用户的输入信息。
S302:当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容。
S303:所述大数据服务器分析所述用户针对所述预设内容的偏好。
S304:根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类。
S305:所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息。
S306:所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度。
S307:若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息。
S308:所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息。
S309:判断获取的所述大数据信息的条目数是否达到设定值,若所述大数据信息的条目数未达到设定值,则执行步骤S310。
S310:获取具有相同偏好的其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息;其中,其他用户的信息获取请求包括所述预设内容。
S311:将基于其他用户的请求所获取的大数据信息并入到本次获取的大数据信息中。
S312:所述大数据服务器对合并后的所述大数据信息进行预处理。
S313:所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
相较于第二实施例而言,本实施例对所述用户的偏好进行分析,具有相同偏好的用户归为同类,如此,当通过第二信息渠道获得的大数据条目数未达到设定值时,大数据服务器将从数据库中调取具有相同偏好的其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息,同类用户偏好相同,获得大数据信息倾向性更为一致,最终相关性更高,可以减少垃圾数据。
在一具体实施方式中,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
根据所述输入信息识别出输入信息所包括的预设内容的结构句中所包括的肯定/否定词和句尾词。
根据所述肯定/否定词和所述句尾词识别所述输入信息中针对所述预设内容属于肯定还是属于否定。
将针对所述预设内容属于肯定的用户归为同类,将针对所述预设内容属于否定的用户归为不同类。
本实施方式以针对所述预设内容属于肯定还是属于否定来确定用户是否属于同类。
在另一具体实施方式中,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
分析所述手机在过去第一预设时间段内监听到所述用户输入的所述预设内容的次数。
将过去第一预设时间段内监听到输入的所述预设内容的次数不小于第二预设值的用户归为同类,将过去第一预设时间段内监听到输入的所述预设内容的次数小于第二预设值的用户归为不同类。
如图4所示,图4为本发明的第四实施例的方法流程图。本发明第四实施例提供的一种互联网大数据的信息推荐方法,所述方法包括以下步骤。
S401:手机持续监听手机用户的输入信息。
S402:当所述手机监听到的输入信息中包括预设内容时,所述手机收集所述用户在过去第二预设时间段内与所述其他用户的沟通内容。
S403:判断所述沟通内容与所述预设内容是否具有关联性,若所述沟通内容与所述输入信息具有关联性,则执行步骤S403。
S404:将所述其他用户设定为关联用户。
S405:所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容以及关联信息。
S406:所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息。
S407:所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度。
S408:若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息。
S409:所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息。
S410:判断获取的所述大数据信息的条目数是否达到设定值,若所述大数据信息的条目数未达到设定值,则执行步骤S210。
S411:获取关联的其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息;其中,其他用户的信息获取请求包括所述预设内容。
S412:将基于其他用户的请求所获取的大数据信息并入到本次获取的大数据信息中。
S413:所述大数据服务器对合并后的所述大数据信息进行预处理。
S414:所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
本实施例中,通过判断所述沟通内容与所述预设内容是否具有关联性来确定其他用户是否为关联用户,如果所述沟通内容与所述预设内容具有关联性,则可以视为两个用户对所述预设内容具有相同的兴趣,通过获取其他用户通过爬虫技术所获得的大数据信息更符合当前用户的实际需求,得到的数据关联性进一步加强。
如图5所示,图5为本发明的第五实施例的方法流程图。本发明第五实施例提供的一种互联网大数据的信息推荐方法,所述方法包括以下步骤。
S501:手机持续监听手机用户的输入信息。
S502:当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容。
S503:所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息。
S504:所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度。
S505:若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息。
S506:所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息。
在当前用户请求获取大数据信息之前,所述大数据服务器将对其他用户请求获取的所述大数据信息中除所述预设内容外的其他字段进行统计分析,将带有相同字段的数据信息合并得到数据集合,每一个数据集合带有相应的字段标识。
以简单的示例,其他用户请求获取关于“购买衣服”的大数据信息,大数据服务器依据第一实施例的方式获取到大数据信息,大数据服务器剔除预设内容,对大数据信息进行统计分析,最终统计得出这些大数据信息中频率最高的字段为“天猫”,频率次之的为“旅游”等,将带有“天猫”字段的数据信息合并到一个数据集合,这个数据集合带有“天猫”字段标识,将带有“旅游”字段的数据信息合并到另一个数据集合,这个数据集合带有“旅游”字段标识。
S507:判断获取的所述大数据信息的条目数是否达到设定值,若所述大数据信息的条目数未达到设定值,则执行步骤S210。
S508:查询所述用户在过去第三预设时间段内与所述其他用户的沟通内容。
S509:确定所述沟通内容中所包括除所述预设内容之外的字段。
S510:获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息的数据集合,其中,所述数据集合为带有对应字段标识的集合,其他用户的信息获取请求包括所述预设内容。
S511:将所述数据集合并入到本次获取的大数据信息中。
S512:所述大数据服务器对合并后的所述大数据信息进行预处理。
S513:所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
本实施例对用户获取的大数据信息进行了统计分析,剔除预设内容后,将带有相同字段的数据信息合并得到数据集合,每一个数据集合带有相应的字段标识。
当当前用户基于所述预设内容请求所获得的大数据信息的条目数未达到设定值时,查询所述用户在过去第三预设时间段内与所述其他用户的沟通内容,并确定所述沟通内容中所包括除所述预设内容之外的字段,然后获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息的数据集合,以此方式获得的大数据信息将更为精准,更符合当前用户的需求。
本发明还提供一种互联网大数据的信息推荐AI系统,所述系统包括手机以及大数据服务器,所述系统能够实现如以上任一实施例中所述的互联网大数据的信息推荐方法。
本发明还提供一种互联网大数据的信息推荐装置,所述装置包括:
监听模块,用于手机持续监听手机用户的输入信息。
请求模块,用于当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容。
第一获取模块,用于所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息。
匹配模块,用于所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度。
筛选模块,用于当所述初始信息与预设内容的匹配度达到第一预设值时,所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息。
第二获取模块,用于所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息。
预处理模块,用于所述大数据服务器对所述大数据信息进行预处理。
发送模块,用于所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
进一步的,所述装置还包括:
判断模块,用于在所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息之后,判断获取的所述大数据信息的条目数是否达到设定值。
第三获取模块,用于当所述大数据信息的条目数未达到设定值时,获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息;其中,其他用户的信息获取请求包括所述预设内容。
合并模块,将基于其他用户的请求所获取的大数据信息并入到本次获取的大数据信息中以便于所述大数据服务器对合并后的大数据信息进行预处理。
进一步的,所述装置还包括:
分析模块,用于所述大数据服务器分析所述用户针对所述预设内容的偏好。
归类模块,用于根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类。
所述获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息,包括:
获取具有相同偏好的其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息。
进一步的,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
根据所述输入信息识别出输入信息所包括的预设内容的结构句中所包括的肯定/否定词和句尾词;
根据所述肯定/否定词和所述句尾词识别所述输入信息中针对所述预设内容属于肯定还是属于否定;
将针对所述预设内容属于肯定的用户归为同类;
将针对所述预设内容属于否定的用户归为不同类。
进一步的,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
分析所述手机在过去第一预设时间段内监听到所述用户输入的所述预设内容的次数;
将过去第一预设时间段内监听到输入的所述预设内容的次数不小于第二预设值的用户归为同类;
将过去第一预设时间段内监听到输入的所述预设内容的次数小于第二预设值的用户归为不同类。
进一步的,所述装置还包括:
收集模块,用于所述手机收集所述用户在过去第二预设时间段内与所述其他用户的沟通内容,判断所述沟通内容与所述预设内容是否具有关联性;
关联模块,用于当所述沟通内容与所述输入信息具有关联性时,将所述其他用户设定为关联用户,以便于当所述大数据信息的条目数未达到设定值时,获取所述其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息。
进一步的,所述大数据服务器对所述大数据信息中除所述预设内容外的其他字段进行统计分析,将带有相同字段的数据信息合并得到数据集合,每一个数据集合带有相应的字段标识;
所述若所述大数据信息的条目数未达到设定值,则获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息,包括:
若所述大数据信息的条目数未达到设定值,则查询所述用户在过去第三预设时间段内与所述其他用户的沟通内容;
确定所述沟通内容中所包括除所述预设内容之外的字段;
获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息的数据集合,所述数据集合为带有对应字段标识的集合。
本申请的说明书和权利要求书中,词语“包括/包含”和词语“具有/包括”及其变形,用于指定所陈述的特征、数值、步骤或部件的存在,但不排除存在或添加一个或多个其他特征、数值、步骤、部件或它们的组合。
本发明的一些特征,为阐述清晰,分别在不同的实施例中描述,然而,这些特征也可以结合于单一实施例中描述。相反,本发明的一些特征,为简要起见,仅在单一实施例中描述,然而,这些特征也可以单独或以任何合适的组合于不同的实施例中描述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包括在本发明的保护范围之内。
Claims (8)
1.一种互联网大数据的信息推荐方法,其特征在于,所述方法包括:
手机持续监听手机用户的输入信息;
当所述手机监听到的输入信息中包括预设内容时,所述手机将所述用户的内容信息获取请求发送至大数据服务器,所述内容信息获取请求包括所述预设内容;
所述大数据服务器根据所述预设内容并通过网络爬虫技术从互联网的第一信息渠道获取初始信息;
所述大数据服务器分析所述初始信息得到所述初始信息与所述预设内容的匹配度;
若所述初始信息与预设内容的匹配度达到第一预设值,则所述大数据服务器从所述初始信息中筛选出与所述预设内容具有关联的筛选信息;
所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息;
所述大数据服务器对所述大数据信息进行预处理;
所述大数据服务器将处理后的所述大数据信息发送至所述手机以向所述用户呈现预处理后的所述大数据信息。
2.根据权利要求1所述的互联网大数据的信息推荐方法,其特征在于,所述大数据服务器根据所述初始信息以及所述筛选信息并通过网络爬虫技术从互联网的与所述第一信息渠道不同的第二信息渠道获取大数据信息之后,所述方法还包括:
判断获取的所述大数据信息的条目数是否达到设定值;
若所述大数据信息的条目数未达到设定值,则获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息;其中,其他用户的信息获取请求包括所述预设内容;
将基于其他用户的请求所获取的大数据信息并入到本次获取的大数据信息中以便于所述大数据服务器对合并后的大数据信息进行预处理。
3.根据权利要求2所述的互联网大数据的信息推荐方法,其特征在于,所述方法还包括:
所述大数据服务器分析所述用户针对所述预设内容的偏好;
根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类;
所述获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息,包括:
获取具有相同偏好的其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息。
4.根据权利要求3所述的互联网大数据的信息推荐方法,其特征在于,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
根据所述输入信息识别出输入信息所包括的预设内容的结构句中所包括的肯定/否定词和句尾词;
根据所述肯定/否定词和所述句尾词识别所述输入信息中针对所述预设内容属于肯定还是属于否定;
将针对所述预设内容属于肯定的用户归为同类;
将针对所述预设内容属于否定的用户归为不同类。
5.根据权利要求3所述的互联网大数据的信息推荐方法,其特征在于,所述大数据服务器分析所述用户针对所述预设内容的偏好,根据所述偏好将所述用户进行归类处理,相同偏好的用户归为同类,包括:
分析所述手机在过去第一预设时间段内监听到所述用户输入的所述预设内容的次数;
将过去第一预设时间段内监听到输入的所述预设内容的次数不小于第二预设值的用户归为同类;
将过去第一预设时间段内监听到输入的所述预设内容的次数小于第二预设值的用户归为不同类。
6.根据权利要求2所述的互联网大数据的信息推荐方法,其特征在于,所述方法还包括:
所述手机收集所述用户在过去第二预设时间段内与所述其他用户的沟通内容,判断所述沟通内容与所述预设内容是否具有关联性;
若所述沟通内容与所述输入信息具有关联性,则将所述其他用户设定为关联用户,以便于当所述大数据信息的条目数未达到设定值时,获取所述其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息。
7.根据权利要求2所述的互联网大数据的信息推荐方法,其特征在于,所述大数据服务器对所述大数据信息中除所述预设内容外的其他字段进行统计分析,将带有相同字段的数据信息合并得到数据集合,每一个数据集合带有相应的字段标识;
所述若所述大数据信息的条目数未达到设定值,则获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息,包括:
若所述大数据信息的条目数未达到设定值,则查询所述用户在过去第三预设时间段内与所述其他用户的沟通内容;
确定所述沟通内容中所包括除所述预设内容之外的字段;
获取其他用户曾经向所述大数据服务器发送信息获取请求后通过网络爬虫技术所获取的大数据信息的数据集合,所述数据集合为带有对应字段标识的集合。
8.一种互联网大数据的信息推荐AI系统,所述系统包括手机以及大数据服务器,其特征在于,所述系统能够实现如权利要求1-7任一项所述的互联网大数据的信息推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210875331.4A CN115238180B (zh) | 2022-07-25 | 2022-07-25 | 互联网大数据的信息推荐方法以及ai系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210875331.4A CN115238180B (zh) | 2022-07-25 | 2022-07-25 | 互联网大数据的信息推荐方法以及ai系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115238180A true CN115238180A (zh) | 2022-10-25 |
CN115238180B CN115238180B (zh) | 2023-08-15 |
Family
ID=83676161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210875331.4A Active CN115238180B (zh) | 2022-07-25 | 2022-07-25 | 互联网大数据的信息推荐方法以及ai系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238180B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526807A (zh) * | 2017-08-22 | 2017-12-29 | 中国联合网络通信集团有限公司 | 信息推荐方法及装置 |
CN111159570A (zh) * | 2019-12-16 | 2020-05-15 | 聚好看科技股份有限公司 | 一种信息推荐方法及服务器 |
CN112000884A (zh) * | 2020-08-13 | 2020-11-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种用户内容推荐方法及装置、服务器、存储介质 |
CN113742592A (zh) * | 2021-09-08 | 2021-12-03 | 平安信托有限责任公司 | 舆情信息推送方法、装置、设备及存储介质 |
CN114491259A (zh) * | 2022-01-26 | 2022-05-13 | 深圳易思智科技有限公司 | 一种数据推荐方法、装置、终端及存储介质 |
-
2022
- 2022-07-25 CN CN202210875331.4A patent/CN115238180B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526807A (zh) * | 2017-08-22 | 2017-12-29 | 中国联合网络通信集团有限公司 | 信息推荐方法及装置 |
CN111159570A (zh) * | 2019-12-16 | 2020-05-15 | 聚好看科技股份有限公司 | 一种信息推荐方法及服务器 |
CN112000884A (zh) * | 2020-08-13 | 2020-11-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种用户内容推荐方法及装置、服务器、存储介质 |
CN113742592A (zh) * | 2021-09-08 | 2021-12-03 | 平安信托有限责任公司 | 舆情信息推送方法、装置、设备及存储介质 |
CN114491259A (zh) * | 2022-01-26 | 2022-05-13 | 深圳易思智科技有限公司 | 一种数据推荐方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115238180B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6708717B2 (ja) | ニュース推薦方法及び装置 | |
EP2065850B1 (en) | Method, system and apparatus for collecting user information | |
JP2020509449A (ja) | 警告するための方法と装置 | |
Smura et al. | A framework for analysing the usage of mobile services | |
CA2420382A1 (en) | A method for searching and analysing information in data networks | |
KR101078175B1 (ko) | 이동 단말 사용자들의 가상 그룹을 형성하는 시스템 및방법 | |
CN107977678B (zh) | 用于输出信息的方法和装置 | |
CN107767153B (zh) | 一种数据处理方法及装置 | |
CN106156362A (zh) | 一种针对预警提示自动提供解决方案的方法及装置 | |
CN104540163B (zh) | 一种基于地图显示基站的方法及系统 | |
US20120147179A1 (en) | Method and system for providing intelligent access monitoring, intelligent access monitoring apparatus | |
CN110489531A (zh) | 高频问题的确定方法和装置 | |
CN115238180B (zh) | 互联网大数据的信息推荐方法以及ai系统 | |
CN105491136A (zh) | 消息发送方法和装置 | |
WO2017086710A1 (ko) | 창업을 위한 사업성 평가 지원 서비스 제공 시스템 및 그 방법 | |
CN104573008B (zh) | 一种网络信息的监控方法及装置 | |
CN103476001B (zh) | 一种获取营销信息的方法及装置 | |
CN114139098A (zh) | 一种基于大数据的舆情系统 | |
CN108777878B (zh) | 用于确定无线接入点的类别的方法及装置 | |
WO2016122016A1 (ko) | 사용자 관심 콘텐츠 제공 장치 | |
CN103078910B (zh) | 一种网页分割的方法及装置 | |
CN106302936B (zh) | 一种用户标识的标记方法、装置和系统 | |
CN202929626U (zh) | 一种信息订制搜索系统 | |
CN117454015B (zh) | 一种信息推荐方法及装置 | |
CN109783736A (zh) | 一种意图推测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230725 Address after: 830011 Rooms 2801-2805, 28th Floor, Block A, Broadway Mansions, No. 430, Hebei East Road, High tech Zone (Xinshi District), UErvmqi, Xinjiang Applicant after: XINJIANG YINENG ZHONGCHENG HIGH-TECH CO.,LTD. Address before: 518000 floors 3 and 5, industrial building 1, quanxinyuan Industrial Zone, Tongsheng community, Dalang street, Longhua District, Shenzhen, Guangdong Applicant before: SHENZHEN TIANLONG CENTURY TECHNOLOGY DEVELOPMENT Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |