CN108345686A - 一种基于搜索引擎技术的数据分析方法及系统 - Google Patents

一种基于搜索引擎技术的数据分析方法及系统 Download PDF

Info

Publication number
CN108345686A
CN108345686A CN201810190927.4A CN201810190927A CN108345686A CN 108345686 A CN108345686 A CN 108345686A CN 201810190927 A CN201810190927 A CN 201810190927A CN 108345686 A CN108345686 A CN 108345686A
Authority
CN
China
Prior art keywords
data analysis
user
search
keyword
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810190927.4A
Other languages
English (en)
Other versions
CN108345686B (zh
Inventor
刘冶
林志远
彭楠
张允聪
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou He Da Da Data Technology Co Ltd
Sun Yat Sen University
Original Assignee
Guangzhou He Da Da Data Technology Co Ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou He Da Da Data Technology Co Ltd, Sun Yat Sen University filed Critical Guangzhou He Da Da Data Technology Co Ltd
Priority to CN201810190927.4A priority Critical patent/CN108345686B/zh
Publication of CN108345686A publication Critical patent/CN108345686A/zh
Priority to PCT/CN2018/108769 priority patent/WO2019169858A1/zh
Application granted granted Critical
Publication of CN108345686B publication Critical patent/CN108345686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于搜索引擎技术的数据分析方法及系统,包括如下步骤:获取用户输入的搜索语句;根据搜索语句获取关键词集合;根据该关键词集合获取匹配的数据分析资源集合;根据匹配的数据分析资源集合,生成并显示数据分析结果集合。相比于现有技术,本发明用户只需要输入搜索语句,即可获取相匹配的数据分析资源,无需用户多次点击操作各个功能模块,也无需用户熟悉阅读复杂的使用说明,操作门槛低,操作方便快捷。

Description

一种基于搜索引擎技术的数据分析方法及系统
技术领域
本发明涉及数据分析领域,特别是涉及一种基于搜索引擎技术的数据分析方法及系统。
背景技术
数据分析系统通过对数据信息进行加工和整理,可计算得到各种分析指标,转变为易于被人们所接受的信息形式,因其能够让用户快速、明晰地读取业务数据,为相关项目的运营与决策提供数据支撑,因此,获得越来越多用户的青睐。
目前的数据分析系统,通常是通过模块提供各项数据分析功能入口,用户根据需要点击功能入口执行数据分析指令。然而,随着互联网和人工智能的发展,数据处理技术及功能日趋多样化,这种传统模块化的数据分析系统在快速准确定位目标数据上越显乏力。一方面,数据分析系统呈现出多源异构的特性,新用户需要耗费大量的时间与精力阅读使用说明文档,才能熟练地运用数据分析系统;另一方面,即使是已经熟练操作数据分析系统的用户,由于数据分析系统功能的多层级模块化,用户通常需要通过多次繁琐的操作才能获得所需结果。
发明内容
基于此,本发明的目的在于,提供一种基于搜索引擎技术的数据分析方法,其具有无需用户多次点击操作各个功能模块,也无需用户熟悉阅读复杂的使用说明,只需要用户输入搜索语句即可获取相匹配的数据分析资源,操作门槛低,操作方便快捷。
一种基于搜索引擎技术的数据分析方法,包括如下步骤:
获取用户输入的搜索语句;
根据搜索语句获取关键词集合;
根据该关键词集合获取匹配的数据分析资源集合;
根据匹配的数据分析资源集合,生成并显示数据分析结果集合。
相比于现有技术,本发明用户只需要输入搜索语句,即可获取相匹配的数据分析资源,无需用户多次点击操作各个功能模块,也无需用户熟悉阅读复杂的使用说明,操作门槛低,操作方便快捷。
进一步地,所述根据搜索语句获取关键词集合,包括:将搜索语句输入已训练的关键词获取模型,根据语料库并通过该关键词获取模型解析出关键词集合。其中,所述关键词获取模型的训练建立方式为:通过输入大量的搜索语句,并进行动宾语句的识别以及词义解析识别的训练后建立。通过关键词获取模型,可从用户输入的搜索语句中快速准确地获取关键词,实现精准定位数据分析资源。
进一步地,所述获取用户输入的搜索语句之后,还包括:获取搜索语句中的最后一个字,并调用数据分析资源索引词库,以在数据分析资源索引词库中获取与该字匹配的补全词汇集合,并在搜索栏的下拉框处显示该补全词汇集合;所述补全词汇集合的显示顺序为:以与搜索语句最后一个字往前数的连续匹配字数的多少,由多到少依序显示各个补全词汇。
进一步地,所述获取用户输入的搜索语句之后,还包括:判断所述搜索语句是否包含易错词汇,若包含易错词汇,则调用数据分析资源索引词库,将易错词汇替换为关键词汇,且在搜索栏下方显示易错词汇替换为关键词汇后的搜索语句。
通过数据分析资源索引词库,对用户输入的搜索语句进行补全和纠正,并在搜索栏的下拉框处动态显示匹配的补全和纠正词汇,可使用户快速智能输入便于搜索的关键词,提高后续关键词检索的准确性。
进一步地,所述生成并显示数据分析结果集合之前,还包括:判断关键词集合中的各关键词是否均匹配有对应的数据分析资源,若是,则根据该数据分析资源集合和设定的匹配参数生成并显示数据分析结果集合;否则,获取关键词集合内未匹配的关键词,以形成未匹配的关键词集合,并在该未匹配的关键词集合中检索判断是否存在匹配参数,若存在匹配参数,则根据该数据匹配指令集合和该匹配参数生成并显示数据分析结果集合;若不存在匹配参数,则根据该数据匹配指令集合和设定的匹配参数生成并显示数据分析结果集合。结合数据分析资源和匹配参数来生成数据分析结果,提高了数据分析结果获取的准确性。
进一步地,在所述获取用户输入的搜索语句之前,还获取用户的身份信息,并根据用户的身份信息生成用户标识符。
进一步地,所述执行该数据分析资源集合之前,还包括:根据用户标识符,判断用户是否有权限执行该数据分析资源集合,若无权限执行该数据分析资源集合,则生成并显示该数据分析资源集合的链接;若有权限执行该数据分析资源集合,则生成并显示数据分析结果集合。
进一步地,所述生成并显示数据分析结果集合之后,还包括:根据用户标识符和用户搜索语句统计用户搜索历史,并显示生成用户热门搜索语句;所述统计用户搜索历史,包括:将用户标识符与用户搜索语句绑定存储至用户搜索日志,并统计生成用户热门搜索语句;在用户无输入并点击搜索栏时,在搜索栏的下拉框处显示该用户的热门搜索语句。
进一步地,所述生成并显示数据分析结果集合之后,还包括:将用户自定义的搜索语句与用户指定的数据分析资源相映射存储,在用户输入自定义的搜索语句时,获取匹配指定的数据分析资源集合,以生成并显示数据分析结果。
通过统计用户搜索历史和自定义搜索语句,以显示用户热门搜索语句和自定义指定的数据分析资源,进而实现个性化的推荐和定位,从而使操作更加便捷。
本发明还同时提供一种基于搜索引擎技术的数据分析系统,包括处理器,适于实现各指令;以及存储器,适于存储多条指令,所述指令适于由处理器加载并执行:
获取用户输入的搜索语句;
根据搜索语句获取关键词集合;
根据该关键词集合获取匹配的数据分析资源集合;
根据匹配的数据分析资源集合,生成并显示数据分析结果集合。
相比于现有技术,本发明用户只需要输入搜索语句,即可获取相匹配的数据分析资源,无需用户多次点击操作各个功能模块,也无需用户熟悉阅读复杂的使用说明,操作门槛低,操作方便快捷。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例中基于搜索引擎技术的数据分析方法的流程图。
具体实施方式
请参阅图1,其为本发明实施例中基于搜索引擎技术的数据分析方法的流程图。该基于搜索引擎技术的数据分析方法,包括如下步骤:
步骤S1:获取用户输入的搜索语句。
在一个实施例中,所述获取用户输入的搜索语句之后,还包括:获取搜索语句中的最后一个字,并调用数据分析资源索引词库,以在数据分析资源索引词库中获取与该字匹配的补全词汇集合,并在搜索栏的下拉框处显示该补全词汇集合;所述补全词汇集合的显示顺序为:以与搜索语句最后一个字往前数的连续匹配字数的多少,由多到少依序显示各个补全词汇。
在一个实施例中,所述搜索语句包括多个依序输入的搜索字,所述获取用户输入的搜索语句,包括:实时获取用户输入的每个搜索字,并实时调用数据分析资源索引词库,以在数据分析资源索引词库中获取与该搜索字匹配的补全词汇集合,并在搜索栏的下拉框处动态显示该匹配的补全词汇集合,以使用户快速智能输入便于搜索的关键词,提高后续检索关键词的准确性。
在一个实施例中,所述获取用户输入的搜索语句之后,还包括:判断所述搜索语句是否包含易错词汇,若包含易错词汇,则调用数据分析资源索引词库,将易错词汇替换为关键词汇,且在搜索栏下方显示易错词汇替换为关键词汇后的搜索语句。
在一个实施例中,在所述获取用户输入的搜索语句之前,还获取用户的身份信息,并根据用户的身份信息生成用户标识符。其中,获取用户的身份信息的方式可通过用户登录本申请的基于搜索引擎技术的数据分析系统来识别,而用户登录方式可包括口令识别、人脸识别、指纹识别、虹膜识别和静脉识别等。
步骤S2:根据搜索语句获取关键词集合。
所述根据搜索语句获取关键词集合,包括:将搜索语句输入已训练好的关键词获取模型,根据语料库并通过该关键词获取模型可从该搜索语句中解析出关键词集合;其中,所述关键词获取模型的训练建立方式为:通过在关键词获取模块中输入大量的搜索语句,并进行动宾语句的识别以及词义解析识别后建立,训练时采用的搜索语句为数据分析资源索引词库中的索引词集合。
所述语料库相当于自然语言库,可往语料库中添加保留词汇,动态修改语料库;将搜索语句在所述语料库中进行查询,可将用户所可能采用的自然语言表达的搜索词查询对应到数据分析资源索引词库中的关键词。
步骤S3:根据该关键词集合获取匹配的数据分析资源集合。
所述数据分析资源集合包括:数据分析图表、实时大数据云图、底层数据自助查询数据画板和数据分析相关说明文档等。其中,对于数据分析图表、实时大数据云图、底层数据自助查询数据画板这类数据分析资源,通过读取数据分析资源的配置文件,辅以爬取对应web页面的指标,获取上述三种数据分析资源的索引词;对于数据分析相关说明文档,通过提取数据分析说明文档中的关键词,建立数据分析相关说明文档的索引词。
本实施例中,通过调用数据分析资源索引词库,将关键词集合的各个关键词与数据分析资源索引词库的各索引词进行匹配,以获取各索引词对应的数据分析资源,进而将各个数据分析资源拼接形成数据分析资源集合。其中,一个关键词可匹配到多个数据分析资源,多个关键词就可以匹配到多个数据分析资源,通过获取这些关键词的交集进而获取数据分析资源集合,如关键词A匹配到的数据分析资源为S1和S2;关键词B匹配到的数据分析资源为S2,则拼接后形成的数据分析资源即为A∩B=S2。
步骤S4:根据匹配的数据分析资源集合,生成并显示数据分析结果集合。
在一个实施例中,所述生成并显示数据分析结果集合之前,还包括:根据用户标识符,判断用户是否有权限执行该数据分析资源集合,若无权限执行该数据分析资源集合,则生成并显示该数据分析资源集合的链接。若有权限执行该数据分析资源集合则生成并显示数据分析结果。
在一个实施例中,所述生成并显示数据分析结果集合之前,还包括:判断关键词集合中的各关键词是否均匹配有对应的数据分析资源,若是,则根据该数据分析资源集合和设定的匹配参数生成并显示数据分析结果集合;否则,获取关键词集合内未匹配的关键词,并形成未匹配的关键词集合,并在该未匹配的关键词集合中检索判断是否存在匹配参数,若存在匹配参数,则根据该数据匹配指令集合和该匹配参数生成并显示数据分析结果集合;若不存在匹配参数,则根据该数据匹配指令集合和设定的匹配参数生成并显示数据分析结果集合。其中,所述的数据分析结果生成过程,是在数据分析指令集合生成的结果中进一步筛选出具有匹配参数的结果,然后再显示具有该匹配参数的数据分析结果。所述数据分析结果可以在后台配置相关指令集合的展示权重,权重高的优先展示,否则按默认读取的顺序展示。
所述匹配参数包括时间参数、地域参数等。
本实施例中,在识别未匹配的关键词集合中的时间参数时,先判断是否通过校验函数可将关键词转化成正常的日期参数,若能,则将转换成的日期参数作为时间参数;若不能,则在自定义的时间文本集合中看是否存在匹配的文字,若存在,则对应的关键词即为时间参数。其他参数的做法也可按照上述方式进行识别。
例如,用户查询语句为“近一个月广州地区游戏平台新增用户”,获取到这个查询语句对应的关键词集合包括“近一个月”、“广州地区”、“游戏平台”和“新增用户”;其中,根据“游戏平台”和“新增用户”匹配索引到“游戏平台新增用户”的数据分析资源集合;而未匹配的“近一个月”和“广州地区”则形成未匹配的关键词集合,在该未匹配的关键词集合中,通过进一步检索判断是否存在与预设的时间、地域等参数类型相匹配的关键字,本例中识别出未匹配的关键词集合中存在时间参数“近一个月”和地域参数“广州地区”,进而根据数据分析资源集合、时间参数和地域参数在搜索栏下方的结果显示栏处显示出近一个月广州地区游戏平台新增用户的数据统计图。
在另一实施例中,所述生成并显示数据分析结果集合之后,还包括:根据用户标识符和用户搜索语句统计用户搜索历史,并显示生成用户热门搜索语句。所述统计用户搜索历史,包括:将用户标识符与用户搜索语句绑定存储至用户搜索日志,并统计生成用户热门搜索语句;在用户无输入并点击搜索栏时,在搜索栏的下拉框处显示该用户的热门搜索语句。
在另一实施例中,所述生成并显示数据分析结果集合之后,还包括:将用户自定义的搜索语句与用户指定的数据分析资源相映射存储,在用户输入自定义的搜索语句时,获取匹配指定的数据分析资源集合,再生成并显示数据分析结果。
本发明同时提供一种基于搜索引擎技术的数据分析系统,包括处理器,适于实现各指令;以及存储器,适于存储多条指令,所述指令适于由处理器加载并执行:获取用户输入的搜索语句;根据搜索语句获取关键词集合;根据该关键词集合获取匹配的数据分析资源集合;根据匹配的数据分析资源集合,生成并显示数据分析结果集合。
在一个实施例中,所述处理器获取用户输入的搜索语句之后,所述处理器还加载并执行:获取搜索语句中的最后一个字,并调用数据分析资源索引词库,以在数据分析资源索引词库中获取与该字匹配的补全词汇集合,并在搜索栏的下拉框处显示该补全词汇集合;所述补全词汇集合的显示顺序为:以与搜索语句最后一个字往前数的连续匹配字数的多少,由多到少依序显示各个补全词汇。
在一个实施例中,所述搜索语句包括多个依序输入的搜索字,所述处理器获取用户输入的搜索语句时,所述处理器还加载并执行:实时获取用户输入的每个搜索字,并实时调用数据分析资源索引词库,以在数据分析资源索引词库中获取与该搜索字匹配的补全词汇集合,并在搜索栏的下拉框处动态显示该匹配的补全词汇集合,以使用户快速智能输入便于搜索的关键词,提高后续检索关键词的准确性。
在一个实施例中,所述处理器获取用户输入的搜索语句之后,所述处理器还加载并执行:判断所述搜索语句是否包含易错词汇,若包含易错词汇,则调用数据分析资源索引词库,将易错词汇替换为关键词汇,且在搜索栏下方显示易错词汇替换为关键词汇后的搜索语句。
在一个实施例中,在所述处理器获取用户输入的搜索语句之前,所述处理器还加载并执行:获取用户的身份信息,并根据用户的身份信息生成用户标识符。其中,获取用户的身份信息的方式可通过用户登录本申请的基于搜索引擎技术的数据分析系统来识别,而用户登录方式可包括口令识别、人脸识别、指纹识别、虹膜识别和静脉识别等。
所述根据搜索语句获取关键词集合,包括:将搜索语句输入已训练好的关键词获取模型,根据语料库并通过该关键词获取模型可从该搜索语句中解析出关键词集合;其中,所述关键词获取模型的训练建立方式为:通过在关键词获取模块中输入大量的搜索语句,并进行动宾语句的识别以及词义解析识别后建立,训练时采用的搜索语句为数据分析资源索引词库中的索引词集合。
所述语料库相当于自然语言库,可往语料库中添加保留词汇,动态修改语料库;将搜索语句在所述语料库中进行查询,可将用户所可能采用的自然语言表达的搜索词查询对应到数据分析资源索引词库中的关键词。
所述数据分析资源集合包括:数据分析图表、实时大数据云图、底层数据自助查询数据画板和数据分析相关说明文档等。其中,对于数据分析图表、实时大数据云图、底层数据自助查询数据画板这类数据分析资源,通过读取数据分析资源的配置文件,辅以爬取对应web页面的指标,获取上述三种数据分析资源的索引词;对于数据分析相关说明文档,通过提取数据分析说明文档中的关键词,建立数据分析相关说明文档的索引词。
本实施例中,通过调用数据分析资源索引词库,将关键词集合的各个关键词与数据分析资源索引词库的各索引词进行匹配,以获取各索引词对应的数据分析资源,进而将各个数据分析资源拼接形成数据分析资源集合。其中,一个关键词可匹配到多个数据分析资源,多个关键词就可以匹配到多个数据分析资源,通过获取这些关键词的交集进而获取数据分析资源集合,如关键词A匹配到的数据分析资源为S1和S2;关键词B匹配到的数据分析资源为S2,则拼接后形成的数据分析资源即为A∩B=S2。
在一个实施例中,所述处理器生成并显示数据分析结果集合之前,所述处理器还加载并执行:根据用户标识符,判断用户是否有权限执行该数据分析资源集合,若无权限执行该数据分析资源集合,则生成并显示该数据分析资源集合的链接。若有权限执行该数据分析资源集合则生成并显示数据分析结果,如可视化的数据分析图表。
在一个实施例中,所述处理器生成数据分析结果集合之前,所述处理器还加载并执行:判断关键词集合中的各关键词是否均匹配有对应的数据分析资源,若是,则根据该数据分析资源集合和设定的匹配参数生成并显示数据分析结果集合;否则,获取关键词集合内未匹配的关键词,并形成未匹配的关键词集合,并在该未匹配的关键词集合中检索判断是否存在匹配参数,若存在匹配参数,则根据该数据匹配指令集合和该匹配参数生成并显示数据分析结果集合;若不存在匹配参数,则根据该数据匹配指令集合和设定的匹配参数生成并显示数据分析结果集合。其中,所述的数据分析结果生成过程,是在数据分析指令集合生成的结果中进一步筛选出具有匹配参数的结果,然后再显示具有该匹配参数的数据分析结果。所述数据分析结果可以在后台配置相关指令集合的展示权重,权重高的优先展示,否则按默认读取的顺序展示。
所述匹配参数包括时间参数、地域参数等。
本实施例中,在识别未匹配的关键词集合中的时间参数时,先判断是否通过校验函数可将关键词转化成正常的日期参数,若能,则将转换成的日期参数作为时间参数;若不能,则在自定义的时间文本集合中看是否存在匹配的文字,若存在,则对应的关键词即为时间参数。其他参数的做法也可按照上述方式进行识别。
例如,用户查询语句为“近一个月广州地区游戏平台新增用户”,获取到这个查询语句对应的关键词集合包括“近一个月”、“广州地区”、“游戏平台”和“新增用户”;其中,根据“游戏平台”和“新增用户”匹配索引到“游戏平台新增用户”的数据分析资源集合;而未匹配的“近一个月”和“广州地区”则形成未匹配的关键词集合,在该未匹配的关键词集合中,通过进一步检索判断是否存在与预设的时间、地域等参数类型相匹配的关键字,本例中识别出未匹配的关键词集合中存在时间参数“近一个月”和地域参数“广州地区”,进而根据数据分析资源集合、时间参数和地域参数在搜索栏下方的结果显示栏处显示出近一个月广州地区游戏平台新增用户的数据统计图。
在另一实施例中,所述处理器生成并显示数据分析结果集合之后,所述处理器还加载并执行:根据用户标识符和用户搜索语句统计用户搜索历史,并显示生成用户热门搜索语句。所述统计用户搜索历史,包括:将用户标识符与用户搜索语句绑定存储至用户搜索日志,并统计生成用户热门搜索语句;在用户无输入并点击搜索栏时,在搜索栏的下拉框处显示该用户的热门搜索语句。
在另一实施例中,所述处理器生成并显示数据分析结果集合之后,所述处理器还加载并执行:将用户自定义的搜索语句与用户指定的数据分析资源相映射存储,在用户输入自定义的搜索语句时,获取匹配指定的数据分析资源集合,再生成并显示数据分析结果。
相比于现有技术,本发明用户只需要输入搜索语句,即可获取相匹配的数据分析资源,无需用户多次点击操作各个功能模块,也无需用户熟悉阅读复杂的使用说明,操作门槛低,操作方便快捷。
进一步地,通过关键词获取模型,可从用户输入的搜索语句中快速准确地获取关键词,实现精准定位数据分析资源;通过数据分析资源索引词库,对用户输入的搜索语句进行补全和纠正,并在搜索栏的下拉框处动态显示匹配的补全和纠正词汇,可使用户快速智能输入便于搜索的关键词,提高后续关键词检索的准确性;结合数据分析资源和匹配参数来生成数据分析结果,提高了数据分析结果获取的准确性。通过统计用户搜索历史和自定义搜索语句,以显示用户热门搜索语句和自定义指定的数据分析资源,进而实现个性化的推荐和定位,从而使操作更加便捷。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种基于搜索引擎技术的数据分析方法,其特征在于,包括如下步骤:
获取用户输入的搜索语句;
根据搜索语句获取关键词集合;
根据该关键词集合获取匹配的数据分析资源集合;
根据匹配的数据分析资源集合,生成并显示数据分析结果集合。
2.根据权利要求1所述的基于搜索引擎技术的数据分析方法,其特征在于,所述根据搜索语句获取关键词集合,包括:将搜索语句输入已训练的关键词获取模型,根据语料库并通过该关键词获取模型解析出关键词集合,其中,所述关键词获取模型的训练建立方式为:通过输入大量的搜索语句,并进行动宾语句的识别以及词义解析识别的训练后建立。
3.根据权利要求1所述的基于搜索引擎技术的数据分析方法,其特征在于,所述获取用户输入的搜索语句之后,还包括:获取搜索语句中的最后一个字,并调用数据分析资源索引词库,以在数据分析资源索引词库中获取与该字匹配的补全词汇集合,并在搜索栏的下拉框处显示该补全词汇集合;所述补全词汇集合的显示顺序为:以与搜索语句最后一个字往前数的连续匹配字数的多少,由多到少依序显示各个补全词汇。
4.根据权利要求1所述的基于搜索引擎技术的数据分析方法,其特征在于,所述获取用户输入的搜索语句之后,还包括:判断所述搜索语句是否包含易错词汇,若包含易错词汇,则调用数据分析资源索引词库,将易错词汇替换为关键词汇,且在搜索栏下方显示易错词汇替换为关键词汇后的搜索语句。
5.根据权利要求1所述的基于搜索引擎技术的数据分析方法,其特征在于,所述生成并显示数据分析结果集合之前,还包括:判断关键词集合中的各关键词是否均匹配有对应的数据分析资源,若是,则根据该数据分析资源集合和设定的匹配参数生成并显示数据分析结果集合;否则,获取关键词集合内未匹配的关键词,以形成未匹配的关键词集合,并在该未匹配的关键词集合中检索判断是否存在匹配参数,若存在匹配参数,则根据该数据匹配指令集合和该匹配参数生成并显示数据分析结果集合;若不存在匹配参数,则根据该数据匹配指令集合和设定的匹配参数生成并显示数据分析结果集合。
6.根据权利要求1所述的基于搜索引擎技术的数据分析方法,其特征在于,在所述获取用户输入的搜索语句之前,还获取用户的身份信息,并根据用户的身份信息生成用户标识符。
7.根据权利要求6所述的基于搜索引擎技术的数据分析方法,其特征在于,所述执行该数据分析资源集合之前,还包括:根据用户标识符,判断用户是否有权限执行该数据分析资源集合,若无权限执行该数据分析资源集合,则生成并显示该数据分析资源集合的链接;若有权限执行该数据分析资源集合,则生成并显示数据分析结果集合。
8.根据权利要求6所述的基于搜索引擎技术的数据分析方法,其特征在于,所述生成并显示数据分析结果集合之后,还包括:根据用户标识符和用户搜索语句统计用户搜索历史,并显示生成用户热门搜索语句;所述统计用户搜索历史,包括:将用户标识符与用户搜索语句绑定存储至用户搜索日志,并统计生成用户热门搜索语句;在用户无输入并点击搜索栏时,在搜索栏的下拉框处显示该用户的热门搜索语句。
9.根据权利要求6所述的基于搜索引擎技术的数据分析方法,其特征在于,所述生成并显示数据分析结果集合之后,还包括:将用户自定义的搜索语句与用户指定的数据分析资源相映射存储,在用户输入自定义的搜索语句时,获取匹配指定的数据分析资源集合,以生成并显示数据分析结果。
10.一种基于搜索引擎技术的数据分析系统,其特征在于,包括处理器,适于实现各指令;以及存储器,适于存储多条指令,所述指令适于由处理器加载并执行:
获取用户输入的搜索语句;
根据搜索语句获取关键词集合;
根据该关键词集合获取匹配的数据分析资源集合;
根据匹配的数据分析资源集合,生成并显示数据分析结果集合。
CN201810190927.4A 2018-03-08 2018-03-08 一种基于搜索引擎技术的数据分析方法及系统 Active CN108345686B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810190927.4A CN108345686B (zh) 2018-03-08 2018-03-08 一种基于搜索引擎技术的数据分析方法及系统
PCT/CN2018/108769 WO2019169858A1 (zh) 2018-03-08 2018-09-29 一种基于搜索引擎技术的数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810190927.4A CN108345686B (zh) 2018-03-08 2018-03-08 一种基于搜索引擎技术的数据分析方法及系统

Publications (2)

Publication Number Publication Date
CN108345686A true CN108345686A (zh) 2018-07-31
CN108345686B CN108345686B (zh) 2021-12-28

Family

ID=62957531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810190927.4A Active CN108345686B (zh) 2018-03-08 2018-03-08 一种基于搜索引擎技术的数据分析方法及系统

Country Status (2)

Country Link
CN (1) CN108345686B (zh)
WO (1) WO2019169858A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801138A (zh) * 2019-01-21 2019-05-24 口碑(上海)信息技术有限公司 商品图片的搜索方法及装置
CN110147887A (zh) * 2019-04-19 2019-08-20 平安科技(深圳)有限公司 信息推荐方法、装置、介质、电子设备
WO2019169858A1 (zh) * 2018-03-08 2019-09-12 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及系统
CN110990422A (zh) * 2019-12-11 2020-04-10 微创(上海)网络技术股份有限公司 一种基于自然语言的智能数据处理系统
CN111475536A (zh) * 2019-01-23 2020-07-31 百度在线网络技术(北京)有限公司 基于搜索引擎的数据分析方法和装置
WO2020248378A1 (zh) * 2019-06-12 2020-12-17 平安科技(深圳)有限公司 业务查询方法、装置及存储介质、计算机设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160007B (zh) * 2019-12-13 2023-04-07 中国平安财产保险股份有限公司 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN112765962B (zh) * 2021-01-15 2022-08-30 上海微盟企业发展有限公司 一种文本纠错方法、装置及介质
CN113325959A (zh) * 2021-05-26 2021-08-31 北京沃东天骏信息技术有限公司 一种输入语料的推荐方法和装置
CN116091000B (zh) * 2023-02-14 2023-12-08 宁波紫熙物联科技有限公司 一种基于oa系统的资源智能化管理系统及方法
CN118069933B (zh) * 2024-04-22 2024-08-09 天津英信科技有限公司 一种基于机器智能的应用系统集成方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079066A (zh) * 2007-06-29 2007-11-28 深圳市中科新业信息科技发展有限公司 一种网络审计中的数据分析系统及其方法
CN101196900A (zh) * 2007-12-27 2008-06-11 中国移动通信集团湖北有限公司 一种基于元数据的信息检索方法
US20100058210A1 (en) * 2008-01-02 2010-03-04 Simon Johnson Online Investing
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN103116649A (zh) * 2013-02-28 2013-05-22 用友软件股份有限公司 数据分析系统和数据分析方法
CN106919557A (zh) * 2017-02-22 2017-07-04 中山大学 一种结合主题模型的文档向量生成方法
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430446B2 (en) * 2016-08-16 2019-10-01 Ebay Inc. Semantic reverse search indexing of publication corpus
CN108345686B (zh) * 2018-03-08 2021-12-28 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079066A (zh) * 2007-06-29 2007-11-28 深圳市中科新业信息科技发展有限公司 一种网络审计中的数据分析系统及其方法
CN101196900A (zh) * 2007-12-27 2008-06-11 中国移动通信集团湖北有限公司 一种基于元数据的信息检索方法
US20100058210A1 (en) * 2008-01-02 2010-03-04 Simon Johnson Online Investing
CN101789006A (zh) * 2010-01-29 2010-07-28 华东电网有限公司 基于智能搜索的电网企业信息集成系统的快速检索方法
CN103116649A (zh) * 2013-02-28 2013-05-22 用友软件股份有限公司 数据分析系统和数据分析方法
CN106919557A (zh) * 2017-02-22 2017-07-04 中山大学 一种结合主题模型的文档向量生成方法
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
印鉴 等: "搜索引擎技术研究与发展", 《计算机工程》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019169858A1 (zh) * 2018-03-08 2019-09-12 广州赫炎大数据科技有限公司 一种基于搜索引擎技术的数据分析方法及系统
CN109801138A (zh) * 2019-01-21 2019-05-24 口碑(上海)信息技术有限公司 商品图片的搜索方法及装置
CN111475536A (zh) * 2019-01-23 2020-07-31 百度在线网络技术(北京)有限公司 基于搜索引擎的数据分析方法和装置
CN111475536B (zh) * 2019-01-23 2023-10-17 百度在线网络技术(北京)有限公司 基于搜索引擎的数据分析方法和装置
CN110147887A (zh) * 2019-04-19 2019-08-20 平安科技(深圳)有限公司 信息推荐方法、装置、介质、电子设备
WO2020248378A1 (zh) * 2019-06-12 2020-12-17 平安科技(深圳)有限公司 业务查询方法、装置及存储介质、计算机设备
CN110990422A (zh) * 2019-12-11 2020-04-10 微创(上海)网络技术股份有限公司 一种基于自然语言的智能数据处理系统

Also Published As

Publication number Publication date
WO2019169858A1 (zh) 2019-09-12
CN108345686B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及系统
US10990767B1 (en) Applied artificial intelligence technology for adaptive natural language understanding
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
JP6309644B2 (ja) スマート質問回答の実現方法、システム、および記憶媒体
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN110222045B (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
Angeli et al. Leveraging linguistic structure for open domain information extraction
CN105740228B (zh) 一种互联网舆情分析方法及系统
CN104636465B (zh) 网页摘要生成方法、展示方法及相应装置
CN109918489A (zh) 一种多策略融合的知识问答方法和系统
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN110162593A (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
WO2020233386A1 (zh) 基于aiml的智能问答方法、装置、计算机设备及存储介质
CN109408811A (zh) 一种数据处理方法及服务器
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN110909542B (zh) 智能语义串并分析方法及系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
CN111062832A (zh) 智能提供专利答辩意见的辅助分析方法及装置
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant