CN115544348A - 一种基于互联网大数据的海量信息智能搜索系统 - Google Patents

一种基于互联网大数据的海量信息智能搜索系统 Download PDF

Info

Publication number
CN115544348A
CN115544348A CN202211104858.3A CN202211104858A CN115544348A CN 115544348 A CN115544348 A CN 115544348A CN 202211104858 A CN202211104858 A CN 202211104858A CN 115544348 A CN115544348 A CN 115544348A
Authority
CN
China
Prior art keywords
retrieval
data
keywords
auxiliary
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211104858.3A
Other languages
English (en)
Inventor
李鑫
徐文航
杨华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211104858.3A priority Critical patent/CN115544348A/zh
Publication of CN115544348A publication Critical patent/CN115544348A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于互联网大数据的海量信息智能搜索系统,包括输入模块、检索模块、显示模块和服务器;所述输入模块用于用户输入需要检索的关键词,获得对应的检索数据,将检索数据发送给检索模块;所述检索模块用于根据检索数据进行数据检索,识别检索数据中的检索关键词,根据识别的检索关键词进行数据检索,获得第一数据;识别检索数据中的辅助关键词组,将辅助关键词组进行分类,并打上对应的分类标签,识别对应筛选的辅助关键词组,标记为筛选词组,根据筛选词组对第一数据进行筛选,获得第二数据;将辅助关键词组中非筛选词组的辅助关键词标记为排序关键词,基于排序关键词组对第二数据进行排序,获得推荐检索数据。

Description

一种基于互联网大数据的海量信息智能搜索系统
技术领域
本发明属于物联网检索技术领域,具体是一种基于互联网大数据的海量信息智能搜索系统。
背景技术
随着互联网技术的快速发展,当前互联网已经融入到人们生活、生产中的方方面面,通过利用互联网给人们带来了极大的便利,如在海量的信息中进行数据检索,极大的方便了人们对想要数据的查找;但是当前的搜索系统因此对应运营公司的需要,往往推荐的检索数据充斥着大量的广告数据,且推荐的关联度并不高,导致用户需要耗费较多的时间进行目标数据的筛选,效率较低;因此为了解决这个问题,本发明提供了一种基于互联网大数据的海量信息智能搜索系统。
发明内容
为了解决上述方案存在的问题,本发明提供了一种基于互联网大数据的海量信息智能搜索系统。
本发明的目的可以通过以下技术方案实现:
一种基于互联网大数据的海量信息智能搜索系统,包括输入模块、检索模块、显示模块和服务器;
所述输入模块用于用户输入需要检索的关键词,获得对应的检索数据,将检索数据发送给检索模块;
所述检索模块用于根据检索数据进行数据检索,接收输入模块发送的检索数据,识别检索数据中的检索关键词,根据识别的检索关键词进行数据检索,获得第一数据;识别检索数据中的辅助关键词组,将辅助关键词组进行分类,并打上对应的分类标签,识别对应筛选的辅助关键词组,标记为筛选词组,根据筛选词组对第一数据进行筛选,获得第二数据;将辅助关键词组中非筛选词组的辅助关键词标记为排序关键词,基于排序关键词组对第二数据进行排序,获得推荐检索数据,将推荐检索数据发送给显示模块;
所述显示模块将接收到的推荐检索数据进行显示。
进一步地,输入模块的工作方法包括:
设置文本单元和语音单元,用户通过文本单元输入检索关键词,在输入完检索关键词后,用户通过语音单元输入语音辅助检索内容,语音单元识别用户输入的语音辅助检索内容,提取语音辅助检索内容中的关键词,整合标记为辅助关键词组,将辅助关键词组和检索关键词整合为检索数据,将检索数据发送给检索模块。
进一步地,语音单元内设置有语音参照模板,所述语音参照模板用于当用户进行语音辅助检索内容输入时提供参照。
进一步地,设置语音参照模板的方法包括:
识别用户输入的检索关键词,根据识别的检索关键词基于大数据分析获取对应的历史筛分条件,计算各个历史筛分条件的排序值,根据计算的排序值进行排序,选择排序后的前N个筛分条件作为参照条件,其中N为正整数;建立标准模板,将参照条件补充到标准模板中,获得语音参照模板。
进一步地,计算各个历史筛分条件的排序值的方法包括:
设置时间尺度表,获取对应历史筛分条件的使用次数以及使用时对应的使用时间,根据获取的使用时间和时间尺度表将对应的使用次数分布到时间尺度表中的各个时间跨度中,将时间跨度标记为i,其中i=1、2、……、n,n为正整数;获取各个时间跨度中使用次数,标记为SCi,根据时间尺度表识别对应时间跨度的权重系数,标记为βi,根据公式
Figure BDA0003841248720000021
计算排序值。
进一步地,将参照条件补充到标准模板中的方法为:
建立标准模板,将对应的参照条件按照对应的条数扩充为对应的句子,将扩充为句子的参照条件补充到标准模板中。
与现有技术相比,本发明的有益效果是:通过输入模块、检索模块和显示模块之间的相互配合,实现根据用户需要的精准检索,推荐符合用户需要的检索数据,并剔除大量的非必要数据,提高用户的搜索效率,并提高用户的使用体验;通过在输入模块中补充语音单元,便于用户根据需要进行相应的检索要求补充,便于进行检索限定,通过避免某些不便书写的原因导致不能对检索目标进行进一步的限定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于互联网大数据的海量信息智能搜索系统,包括输入模块、检索模块、显示模块和服务器;
输入模块、检索模块和显示模块均与服务器之间通信连接;
所述输入模块用于用户输入需要检索的关键词,具体方法包括:
设置文本单元和语音单元,所述文本单元用于用户输入文本关键词,所述语音单元用于用户输入语音辅助检索内容;用户通过文本单元输入检索关键词,在输入完检索关键词后,用户通过语音单元输入语音辅助检索内容,语音单元识别用户输入的语音辅助检索内容,提取语音辅助检索内容中的关键词,整合标记为辅助关键词组,将辅助关键词组和检索关键词整合为检索数据,将检索数据发送给检索模块。
文本单元和语音单元的具体输入功能和识别功能均可通过现有的相关技术进行实现,在语音单元内提取对应的辅助关键词,可以通过人工的方式建立对应的神经网络模型,进而进行相关的辅助关键词组的提取,使得提取的辅助关键词更加的适合本发明,便于进一步的对检索结果进行限定,如不要包含具有广告链接的检索内容,限定发文日期区间。
语音单元内设置有语音参照模板,所述语音参照模板用于当用户进行语音辅助检索内容输入时提供参照,通过设置语音参照模板进行指引,便于用户进行相关内容的叙述。
设置语音参照模板的方法包括:
识别用户输入的检索关键词,根据识别的检索关键词基于大数据分析获取对应的历史筛分条件,已进行相应的去重,计算各个历史筛分条件的排序值,根据计算的排序值进行排序,选择排序后的前N个筛分条件作为参照条件,其中N为正整数;建立标准模板,将参照条件补充到标准模板中,获得语音参照模板。
根据识别的检索关键词基于大数据分析获取对应的历史筛分条件,通过现有的大数据分析技术可以获取历史检索过程中对相应检索结果进行筛选的历史记录。
计算各个历史筛分条件的排序值的方法包括:
设置时间尺度表,获取对应历史筛分条件的使用次数以及使用时对应的使用时间,指的是一个历史筛分条件,不是统计所有种类的历史筛分条件,根据获取的使用时间和时间尺度表将对应的使用次数分布到时间尺度表中的各个时间跨度中,将时间跨度标记为i,其中i=1、2、……、n,n为正整数;获取各个时间跨度中使用次数,标记为SCi,根据时间尺度表识别对应时间跨度的权重系数,标记为βi,根据公式
Figure BDA0003841248720000051
计算排序值。
时间尺度表即为从当前时间开始,将历史时间分为若干个时间段,并标记各个时间段的权重系数,可以通过专家组讨论的方式设置一个标准时间尺度表,在基于标准时间尺度表通过人工的方式设置训练集,基于CNN网络或DNN网络建立对应的时间尺度模型,通过设置的训练集进行训练,通过训练成功的时间尺度模型进行动态的时间尺度表更新。
建立标准模板,将参照条件补充到标准模板中,其中,标准模板是通过人工的方式进行设置的,将参照条件补充到标准模板中,即为将对应的参照条件按照对应的条数扩充为对应的句子,通过现有的技术可以进行相应的扩充,将扩充为句子的参照条件补充到标准模板中。
所述检索模块用于根据检索数据进行数据检索,具体方法包括:
接收输入模块发送的检索数据,识别检索数据中的检索关键词,根据识别的检索关键词进行数据检索,获得第一数据;识别检索数据中的辅助关键词组,将辅助关键词组进行分类,并打上对应的分类标签,识别对应筛选的辅助关键词组,即需要从第一数据中进行剔除的相关数据,代表禁止需要分类的辅助关键词;标记为筛选词组,根据筛选词组对第一数据进行筛选,获得第二数据;将辅助关键词组中非筛选词组的辅助关键词标记为排序关键词,基于排序关键词组对第二数据进行排序,获得推荐检索数据,将推荐检索数据发送给显示模块。
根据检索关键词进行数据检索,通过现有检索技术可以实现,根据筛选词组对第一数据进行筛选,即为将符合筛选词组条件的第一数据进行删除,通过现有技术同样可以实现;
将辅助关键词组进行分类,一般分为禁止需要、可以具有等分类,如不需要全是广告的检索数据,检索数据中可以具有广告链接等,具体的通过专家组讨论设置具有的分类,进行相应的匹配后进行分类。
基于排序关键词组对第二数据进行排序的方法包括:
将第二数据中的单一检索数据标记为单项数据,就是一条检索数据,设置各个排序关键词的关联值,标记为GZj,其中j表示排序关联词,j=1、2、……、m,m为正整数;计算各个排序关联词与单项数据之间的符合度,标记为FDj,根据公式
Figure BDA0003841248720000061
计算优先值,其中αj为分类系数,有益分类为+1,不利分类为-1,即根据对应排序关键词所属分类进行匹配的,具体分类的有益还是不利通过现有常识可以直接进行划分,根据计算的优先值进行排序。
设置各个排序关键词的关联值的方法为:由专家组设置各个辅助关键词分类对应的关联值区间,因为不同的分类代表的用户目标不同,如关于常见的广告链接,在用户目标中可以具有,但是指代含义最好没有,因此在排序中将会向后排序,该分类对应的关联值区间将会较低,关联值变小,具体的由专家组根据进行设置;基于各个分类对应的关联值区间采用人工的方式根据可能具有的排序关键词设置对应的训练集,基于CNN网络或DNN网络建立对应的关联值模型,通过设置的训练集进行训练,通过训练成功后的关联值模型对各个排序关键词进行分析,获得对应的关联值。
计算排序关联词与单项数据之间的符合度,即为判断对应的单项数据与排序关联词之间的符合度,判断单项数据符合对应排序关联词的程度,具体的可以通过现有技术进行计算,或者采用人工的方式建立对应的AI神经网络模型进行智能分析。
所述显示模块用于将接收到的推荐检索数据进行显示。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (6)

1.一种基于互联网大数据的海量信息智能搜索系统,其特征在于,包括输入模块、检索模块、显示模块和服务器;
所述输入模块用于用户输入需要检索的关键词,获得对应的检索数据,将检索数据发送给检索模块;
所述检索模块用于根据检索数据进行数据检索,接收输入模块发送的检索数据,识别检索数据中的检索关键词,根据识别的检索关键词进行数据检索,获得第一数据;识别检索数据中的辅助关键词组,将辅助关键词组进行分类,并打上对应的分类标签,识别对应筛选的辅助关键词组,标记为筛选词组,根据筛选词组对第一数据进行筛选,获得第二数据;将辅助关键词组中非筛选词组的辅助关键词标记为排序关键词,基于排序关键词组对第二数据进行排序,获得推荐检索数据,将推荐检索数据发送给显示模块;
所述显示模块将接收到的推荐检索数据进行显示。
2.根据权利要求1所述的一种基于互联网大数据的海量信息智能搜索系统,其特征在于,输入模块的工作方法包括:
设置文本单元和语音单元,用户通过文本单元输入检索关键词,在输入完检索关键词后,用户通过语音单元输入语音辅助检索内容,语音单元识别用户输入的语音辅助检索内容,提取语音辅助检索内容中的关键词,整合标记为辅助关键词组,将辅助关键词组和检索关键词整合为检索数据,将检索数据发送给检索模块。
3.根据权利要求2所述的一种基于互联网大数据的海量信息智能搜索系统,其特征在于,语音单元内设置有语音参照模板,所述语音参照模板用于当用户进行语音辅助检索内容输入时提供参照。
4.根据权利要求3所述的一种基于互联网大数据的海量信息智能搜索系统,其特征在于,设置语音参照模板的方法包括:
识别用户输入的检索关键词,根据识别的检索关键词基于大数据分析获取对应的历史筛分条件,计算各个历史筛分条件的排序值,根据计算的排序值进行排序,选择排序后的前N个筛分条件作为参照条件,其中N为正整数;建立标准模板,将参照条件补充到标准模板中,获得语音参照模板。
5.根据权利要求4所述的一种基于互联网大数据的海量信息智能搜索系统,其特征在于,计算各个历史筛分条件的排序值的方法包括:
设置时间尺度表,获取对应历史筛分条件的使用次数以及使用时对应的使用时间,根据获取的使用时间和时间尺度表将对应的使用次数分布到时间尺度表中的各个时间跨度中,将时间跨度标记为i,其中i=1、2、……、n,n为正整数;获取各个时间跨度中使用次数,标记为SCi,根据时间尺度表识别对应时间跨度的权重系数,标记为βi,根据公式
Figure FDA0003841248710000021
计算排序值。
6.根据权利要求4所述的一种基于互联网大数据的海量信息智能搜索系统,其特征在于,将参照条件补充到标准模板中的方法为:
建立标准模板,将对应的参照条件按照对应的条数扩充为对应的句子,将扩充为句子的参照条件补充到标准模板中。
CN202211104858.3A 2022-09-09 2022-09-09 一种基于互联网大数据的海量信息智能搜索系统 Withdrawn CN115544348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211104858.3A CN115544348A (zh) 2022-09-09 2022-09-09 一种基于互联网大数据的海量信息智能搜索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211104858.3A CN115544348A (zh) 2022-09-09 2022-09-09 一种基于互联网大数据的海量信息智能搜索系统

Publications (1)

Publication Number Publication Date
CN115544348A true CN115544348A (zh) 2022-12-30

Family

ID=84726015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211104858.3A Withdrawn CN115544348A (zh) 2022-09-09 2022-09-09 一种基于互联网大数据的海量信息智能搜索系统

Country Status (1)

Country Link
CN (1) CN115544348A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455861A (zh) * 2023-04-17 2023-07-18 江苏鑫翊翔智能化工程有限公司 一种基于大数据的计算机网络安全监测系统及方法
CN116595069A (zh) * 2023-05-18 2023-08-15 广东玖诚网络科技有限公司 一种基于大数据的过滤展示方法及系统
CN116738036A (zh) * 2023-02-03 2023-09-12 上海陟明信息技术有限责任公司 基于大数据的用户行为分析方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738036A (zh) * 2023-02-03 2023-09-12 上海陟明信息技术有限责任公司 基于大数据的用户行为分析方法及系统
CN116738036B (zh) * 2023-02-03 2024-03-22 上海陟明信息技术有限责任公司 基于大数据的用户行为分析方法及系统
CN116455861A (zh) * 2023-04-17 2023-07-18 江苏鑫翊翔智能化工程有限公司 一种基于大数据的计算机网络安全监测系统及方法
CN116455861B (zh) * 2023-04-17 2023-11-24 福建数智闽政科技有限公司 一种基于大数据的计算机网络安全监测系统及方法
CN116595069A (zh) * 2023-05-18 2023-08-15 广东玖诚网络科技有限公司 一种基于大数据的过滤展示方法及系统

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN115544348A (zh) 一种基于互联网大数据的海量信息智能搜索系统
CN110135504B (zh) 一种基于人工智能的大学生兼职精确匹配方法
CN108573031A (zh) 一种基于内容的投诉分类方法和系统
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN111104466A (zh) 一种海量数据库表快速分类的方法
WO2001093102A1 (en) Method and apparatus for making predictions about entities represented in documents
CN110020327A (zh) 一种基于垂直搜索引擎的简历解析系统
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
TW202111569A (zh) 高擴展性、多標籤的文本分類方法和裝置
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN109446394A (zh) 针对网络舆情事件的基于模块化的舆情监测方法及系统
CN114004218A (zh) 一种针对政府工作报告的nlp识别方法
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法
CN112000807A (zh) 一种建议提案精确分类方法
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN115936389A (zh) 一种基于大数据技术的评审专家与评审材料的匹配方法
CN112800219B (zh) 客服日志反馈回流数据库的方法及系统
CN113673210B (zh) 文档生成系统
CN115712720A (zh) 一种基于知识图谱的降雨动态预警方法
CN111209375B (zh) 一种通用的条款与文档匹配方法
CN114780599A (zh) 基于小麦品比试验数据的综合分析系统
CN112818122A (zh) 一种面向对话文本的事件抽取方法及系统
CN117077005B (zh) 一种城市微更新潜力的优化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221230

WW01 Invention patent application withdrawn after publication