CN106095838A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN106095838A
CN106095838A CN201610384096.5A CN201610384096A CN106095838A CN 106095838 A CN106095838 A CN 106095838A CN 201610384096 A CN201610384096 A CN 201610384096A CN 106095838 A CN106095838 A CN 106095838A
Authority
CN
China
Prior art keywords
target
hot spot
term
module
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610384096.5A
Other languages
English (en)
Inventor
孙博
吴勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
With Special Care Online (beijing) Technology Co Ltd
Original Assignee
With Special Care Online (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by With Special Care Online (beijing) Technology Co Ltd filed Critical With Special Care Online (beijing) Technology Co Ltd
Priority to CN201610384096.5A priority Critical patent/CN106095838A/zh
Publication of CN106095838A publication Critical patent/CN106095838A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理方法及装置,其中,方法包括:在接收到检索指令时,获取用户输入的检索词;基于检索词确定检索词的扩展词,并利用检索词以及扩展词在文献数据库中检索,获得多个目标文献;从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息;基于与各个目标文献对应的特征信息利用预设的预测规则预测热点技术,并将预测的热点技术反馈给用户。本申请提供的数据处理方法及装置,通过对检索词进行扩展,提高了文献的检全率,通过对检索结果进行处理可以预测出研究热点,从而为研究人员对课题的研究提供科学的参考依据。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
现有技术中,研究人员在课题研究初期,由于缺少有效的文献调研工作,无法准确获知相关领域的研究动态和研究热点,导致所整理的科研成果凌乱,数据结果缺少新颖性,最终导致文章质量一般,发表的期刊级别较低甚至无法发表。
由此可见,在进行课题研究的过程中,尤其是研究早期和中期,及时准确的获知科研信息,可以为学术成果的发表节省大量的时间和金钱。目前,研究人员在针对研究课题进行信息搜索时,搜索结果都是一些片段化的信息,通过这些信息无法准确获知具体的科研动向。
发明内容
有鉴于此,本发明提供了一种数据处理方法及装置,用以解决现有技术中研究人员在针对研究课题进行搜索时,搜索结果都是一些片段化的信息,通过这些信息无法准确获知具体的科研动向的问题,其技术方案如下:
一种数据处理方法,所述方法包括:
在接收到检索指令时,获取用户输入的检索词;
基于所述检索词确定所述检索词的扩展词,并利用所述检索词以及所述扩展词在文献数据库中检索,获得多个目标文献;
从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息;
基于与所述各个目标文献对应的特征信息利用预设的预测规则预测热点技术,并将所述预测的热点技术反馈给用户。
其中,预先构建语义词库;
所述基于所述检索词确定所述检索词的扩展词,包括:
利用所述检索词在预先设置的语义词库中获取与所述检索词具有相同语义和/或关联关系的词作为所述扩展词。
其中,所述基于与所述各个目标文献对应的特征信息利用预设的预测规则预测热点技术,包括:
对与所述各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果;
依据所述多个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
通过所述目标特征信息确定与所述目标特征信息对应的目标技术作为所述热点技术。
其中,所述特征信息至少包括:目标文献的关键词、发表时间、期刊和国籍;
则,对与所述各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果,具体为:
对所述多个目标文献分别按所述发表时间、所述期刊和所述国籍进行排序,获得三个排序结果;
依据所述多个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息,具体为:
依据所述三个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
则所述通过所述目标特征信息确定与所述目标特征信息对应的目标技术作为所述热点技术,具体为:
通过所述目标特征信息中的所述关键词确定与所述目标特征信息对应的目标技术作为所述热点技术。
优选地,所述方法还包括:
基于所述热点技术确定目标期刊;
在将所述预测的热点技术反馈给所述用户的同时,将为所述热点技术确定的所述目标期刊反馈给所述用户。
一种数据处理装置,所述装置包括:检索词获取模块、扩展词确定模块、检索模块、特征信息提取模块、热点技术预测模块和反馈模块;
所述检索词获取模块,用于在接收到检索指令时,获取用户输入的检索词;
所述扩展词确定模块,用于基于所述检索词获取模块获取的所述检索词确定所述检索词的扩展词;
所述检索模块,用于利用所述检索词获取模块获取的所述检索词以及所述扩展词确定模块确定的所述扩展词在文献数据库中检索,获得多个目标文献;
所述特征信息提取模块,用于从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息;
所述热点技术预测模块,用于基于所述特征信息提取模块提取的与所述各个目标文献对应的特征信息利用预设的预测规则预测热点技术;
所述反馈模块,用于将所述热点技术预测模块预测的所述热点技术反馈给用户。
其中,预先构建语义词库;
所述扩展词确定模块包括:获取子模块;
所述获取子模块,用于利用所述检索词在预先构建的语义词库中获取与所述检索词具有相同语义和/或关联关系的词作为所述扩展词。
其中,所述热点技术预测模块包括:排序子模块、目标特征确定子模块和热点技术确定子模块;
所述排序子模块,用于对与所述各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果;
所述目标特征确定子模块,用于依据所述多个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
所述热点技术确定子模块,用于通过所述目标特征信息确定与所述目标特征信息对应的目标技术作为所述热点技术。
其中,所述特征信息至少包括:目标文献的关键词、发表时间、期刊和国籍;
则,所述排序子模块,具体用于对所述多个目标文献分别按所述发表时间、所述期刊和所述国籍进行排序,获得三个排序结果;
则,所述目标特征确定子模块,具体用于依据所述三个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
则,所述热点技术确定子模块,具体用于通过所述目标特征信息中的所述关键词确定与所述目标特征信息对应的目标技术作为所述热点技术。
优选地,所述装置还包括:目标期刊确定模块;
所述目标期刊确定模块,用于基于所述热点技术确定目标期刊;
所述反馈模块,还用于在将所述预测的热点技术反馈给所述用户的同时,将所述目标期刊确定模块为所述热点技术确定的所述目标期刊反馈给所述用户。
上述技术方案具有如下有益效果:
本发明提供的数据处理方法及装置,能够对用户输入的检索词进行扩展,获得检索词的扩展词,并利用检索词以及检索词的扩展词在文献数据库中进行检索,获得多个目标文献,在获取到目标文献后,可从目标文献中提取出特征信息,并利用特征信息按预设的预测规则预测出热点技术。本发明提供的数据处理方法及装置,通过对检索词进行扩展,提高了文献的检全率,通过对检索结果进行处理可以预测出研究热点,从而为研究人员对于研究方向的选择、后续的实验设计、数据整理以及文章撰写等提供科学的参考依据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的数据处理方法的一流程示意图;
图2为本发明实施例提供的数据处理方法的另一流程示意图;
图3为本发明实施例提供的数据处理方法中,构建语义词库的流程示意图;
图4为本发明实施例提供的数据处理方法中,基于与各个目标文献对应的特征信息利用预设的预测规则预测热点技术的实现方式的流程示意图;
图5为本发明实施例提供的数据处理方法中,特征信息为目标文献的关键词、发表时间、期刊和国籍时,基于与各个目标文献对应的特征信息利用预设的预测规则预测热点技术的实现方式的流程示意图;
图6为本发明实施例提供的数据处理装置的一结构示意图;
图7为本发明实施例提供的数据处理装置的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,示出了本发明实施例提供的数据处理方法的一流程示意图,,该数据处理方法可以包括:
步骤S101:在接收到检索指令时,获取用户输入的检索词。
具体的,用户在检索界面上输入检索词触发检索。当用户触发检索时,接收到检索指令,获取用户在检索界面上输入的检索词。
步骤S102:基于检索词确定检索词的扩展词。
其中,检索词的扩展词可以为检索词的同义词、近义词、学名、俗称、旧称、简称、全称等等。
步骤S103:利用检索词以及扩展词在文献数据库中检索,获得多个目标文献。
在本实施例中,将用户输入的检索词以及该检索词的扩展词作为最终的检索词在数据库中检索,从而获得检索结果,
步骤S104:从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息。
示例性的,目标文献为发表在期刊上的文章,其中,与目标文献对应的特征信息可以为文章的发表时间、发表的期刊、国籍、关键词等。
步骤S105:基于与各个目标文献对应的特征信息利用预设的预测规则预测热点技术。
步骤S106:将预测的热点技术反馈给用户。
具体的,将预测出的热点技术在一显示界面进行显示。其中,预测出的热点技术可以为一个,也可能为多个。
本发明实施例提供的数据处理方法,能够对用户输入的检索词进行扩展,获得检索词的扩展词,并利用检索词以及检索词的扩展词在文献数据库中进行检索,获得多个目标文献,在获取到目标文献后,可从目标文献中提取出特征信息,并利用特征信息按预设的预测规则预测出热点技术。本发明实施例通过对检索词进行扩展,提高了文献的检全率,通过对检索结果进行处理可以预测出研究热点,从而为研究人员对于研究方向的选择、后续的实验设计、数据整理以及文章撰写等提供科学的参考依据。
请参阅图2,示出了本发明实施例提供的数据处理方法的另一流程示意图,该数据处理方法可以包括:
步骤S201:在接收到检索指令时,获取用户输入的检索词。
具体的,用户在检索界面上输入检索词触发检索。当用户触发检索时,接收到检索指令,获取用户在检索界面上输入的检索词。
步骤S202:基于检索词确定检索词的扩展词。
其中,检索词的扩展词可以为检索词的同义词、近义词、学名、俗称、旧称、简称、全称等等。
步骤S203:利用检索词以及扩展词在文献数据库中检索,获得多个目标文献。
在本实施例中,将用户输入的检索词以及该检索词的扩展词作为最终的检索词在数据库中检索,从而获得检索结果,
步骤S204:从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息。
示例性的,目标文献为发表在期刊上的文章,其中,与目标文献对应的特征信息可以为文章的发表时间、发表的期刊、国籍、关键词等。
步骤S205:基于与各个目标文献对应的特征信息利用预设的预测规则预测热点技术。
步骤S206:基于热点技术确定目标期刊。
步骤S207:将预测的热点技术,以及为热点技术确定的目标期刊反馈给用户。
具体的,将预测出的热点技术以及确定的目标期刊在一显示界面进行显示。其中,目标期刊即为推荐给用户的期刊,用户在选择期刊进行文章投递时,可将推荐的期刊作为参考。
本发明实施例提供的数据处理方法,能够对用户输入的检索词进行扩展,获得检索词的扩展词,并利用检索词以及检索词的扩展词在文献数据库中进行检索,获得多个目标文献,在获取到目标文献后,可从目标文献中提取出特征信息,利用特征信息按预设的预测规则预测出热点技术,并为预测的热点技术确定目标期刊。本发明实施例通过对检索词进行扩展,提高了文献的检全率,通过对检索结果进行处理可以预测出研究热点,从而为研究人员对于研究方向的选择、后续的实验设计、数据整理以及文章撰写等提供科学的参考依据,本发明实施例还可基于预测的热点技术为用户推荐可能投递的期刊,为研究人员日后发表文章时,选择投递期刊提供了参考依据。
在上述实施例中,基于检索词确定检索词的扩展词的方式有多种。在一种可能的实现方式,可预先构建语义词库。
请参阅图3,示出了构建语义词库的流程示意图,可以包括:
步骤S301:从目标数据库中获取目标数据源。
在一种可能的实现中,从目标数据库中获取目标数据源具体为:通过网络爬虫从目标文献数据库中爬取目标数据源。
步骤S302:从目标数据源中获取目标词和目标词的扩展词。
其中,目标词的扩展词为与目标词具有相同语义和/或关联关系的词。
在本实施中,可以通过深度挖掘和语义分析从目标数据源中获取目标词和目标词的扩展词。
其中,目标词可以为主题词,目标词的扩展词为入口词。主题词为规范化的词,而入口词为非规范化的词,例如,同义词、先组词、学名、俗称、旧称、简称、全称。
步骤S303:将从目标数据源中获取的目标词和目标词的扩展词构建语义词库。
在一种优选的实现方式中,在构建语义词库时,可将目标词以及该目标词的扩展词关联在一起,如果找到了目标词,就找到了该目标词的扩展词。
则上述实施例中,基于检索词确定检索词的扩展词,可以包括:利用检索词在预先设置的语义词库中获取与检索词具有相同语义和关联关系的词作为扩展词。具体的,在语义词库中搜索检索词,在搜索到检索词后,获取与该检索词关联在一起的词作为扩展词。
在本实施例中,当接收到检索指令时,可基于语义词库对用户输入的检索词进行扩展,由于语义词库中包括了具有相同语义或关联关系的词,因此,在对用户输入的检索词进行检索时,并不是单纯用使用用户输入的检索词进行检索,而是利用了用户输入的检索词以及与该检索词具有相同语义和关联关系的词进行检索,即扩展了检索范围,提高了查全率。
请参阅图4,示出了上述实施例中,基于与各个目标文献对应的特征信息利用预设的预测规则预测热点技术的实现方式的流程示意图,可以包括:
步骤S401:对与各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果。
步骤S402:依据多个排序结果从与各个目标文献对应的特征信息中确定目标特征信息。
步骤S403:通过目标特征信息确定与目标特征信息对应的目标技术作为热点技术。
下面通过一具体实例对上述预测热点技术的过程进行详细说明:
示例性的,从目标文献中提取的特征信息至少包括:目标文献的关键词、发表时间、期刊和国籍。
则请参阅图5,示出了特征信息为目标文献的关键词、发表时间、期刊和国籍时,基于与各个目标文献对应的特征信息利用预设的预测规则预测热点技术的实现方式的流程示意图,可以包括:
步骤S501:对多个目标文献分别按发表时间、期刊和国籍进行排序,获得三个排序结果。
本实施例并不限定对多个目标文献按发表时间、期刊和国籍进行排序的先后顺序,可先按发表时间排序、再按期刊排序、最后按国籍排序,当然三个排序过程也可同时进行,只要从这三个角度分别对多个目标文献进行排序都属于本发明实施例保护的范围。
步骤S502:依据三个排序结果从与各个目标文献对应的特征信息中确定目标特征信息。
对多个目标文献按发表时间进行排序时,可按降序的方式进行排序,由于热点技术一般为近几年研究较多的技术,因此需要重点关注近几年的文章发表情况。对目标文献按期刊进行排序时,可按期刊的级别高低进行排序,将级别较高的期刊排在前面,级别低的相应排在后面。对目标文献按国籍进行排序,可获取到各个国家对于技术的研究情况。在预测热点技术时,综合考虑三方面的情况,例如,如果某一技术频繁出现在近几年的发表的文章中,并且发表这些文章的期刊大部分都是级别相对较高的期刊,一些技术实力较强的国家也在研究该技术,那么该技术很可能是热点技术,则将该热点技术推荐给用户。示例性的,按发表时间对各个特征信息排序后,如果某一特征信息排较前的位置,在按期刊进行排名时,如果该特征信息同样出现在比较靠前的位置,再综合一下国籍的排序情况可确定该特征信息目标特征信息。
步骤S503:通过目标特征信息中的关键词确定与目标特征信息对应的目标技术作为热点技术。
示例性的,如果目标特征信息中的关键词频繁的出现在近几年的文章中,并且这类文章大部分都发表在级别较高的期刊上,那么可基于关键词去目标文献中获取与该关键词对应技术,将该技术作为热点技术推荐给用户,还可将涉及该热点技术的文章所发表的期刊作为目标期刊推荐给用户。
与上述方法相对应,本发明实施例还提供了一种数据处理装置,请参阅图6,示出了该数据处理装置的一结构示意图,该装置可以包括:检索词获取模块601、扩展词确定模块602、检索模块603、特征信息提取模块604、热点技术预测模块605和反馈模块606。其中:
检索词获取模块601,用于在接收到检索指令时,获取用户输入的检索词。
扩展词确定模块602,用于基于检索词获取模块601获取的所述检索词确定所述检索词的扩展词。
检索模块603,用于利用检索词获取模块601获取的检索词以及扩展词确定模块602确定的扩展词在文献数据库中检索,获得多个目标文献。
特征信息提取模块604,用于从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息。
热点技术预测模块605,用于基于特征信息提取模块604提取的与各个目标文献对应的特征信息利用预设的预测规则预测热点技术。
反馈模块606,用于将热点技术预测模块605预测的热点技术反馈给用户。
本发明实施例提供的数据处理装置,能够对用户输入的检索词进行扩展,获得检索词的扩展词,并利用检索词以及检索词的扩展词在文献数据库中进行检索,获得多个目标文献,在获取到目标文献后,可从目标文献中提取出特征信息,并利用特征信息按预设的预测规则预测出热点技术。本发明实施例提供的数据处理装置通过对检索词进行扩展,提高了文献的检全率,通过对检索结果进行处理可以预测出研究热点,从而为研究人员对于研究方向的选择、后续的实验设计、数据整理以及文章撰写等提供科学的参考依据。
请参阅图7,示出了本发明实施例提供的数据处理装置的另一结构示意图,该装置与上述实施例提供的装置的不同在于,除了可以包括上述实施例提供的检索词获取模块601、扩展词确定模块602、检索模块603、特征信息提取模块604、热点技术预测模块605和反馈模块606外,还包括目标期刊确定模块701。
其中,目标期刊确定模块701,用于基于热点技术预测模块605预测出的热点技术确定目标期刊。
则反馈模块,还用于在将预测的热点技术反馈给用户的同时,将目标期刊确定模块701为热点技术确定的目标期刊反馈给用户。
本发明实施例提供的数据处理装置,能够对用户输入的检索词进行扩展,获得检索词的扩展词,并利用检索词以及检索词的扩展词在文献数据库中进行检索,获得多个目标文献,在获取到目标文献后,可从目标文献中提取出特征信息,利用特征信息按预设的预测规则预测出热点技术,并为预测的热点技术确定目标期刊。本发明实施例提供的装置通过对检索词进行扩展,提高了文献的检全率,通过对检索结果进行处理可以预测出研究热点,从而为研究人员对于研究方向的选择、后续的实验设计、数据整理以及文章撰写等提供科学的参考依据,本发明实施例提供的装置还可基于预测的热点技术为用户推荐可能投递的期刊,为研究人员日后发表文章时,选择投递期刊提供了参考依据。
在上述任一实施例中,可预先构建语义词库。则所述扩展词确定模块502可以包括获取子模块。
获取子模块,用于利用检索词在预先构建的语义词库中获取与检索词具有相同语义和/或关联关系的词作为扩展词。
在上述任一实施例中,热点技术预测模块505包括:排序子模块、目标特征确定子模块和热点技术确定子模块。其中:
排序子模块,用于对与各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果。
目标特征确定子模块,用于依据多个排序结果从与各个目标文献对应的特征信息中确定目标特征信息。
热点技术确定子模块,用于通过目标特征信息确定与目标特征信息对应的目标技术作为热点技术。
在一种可能的实现方式中,特征信息至少包括:目标文献的关键词、发表时间、期刊和国籍。
则,排序子模块,具体用于对多个目标文献分别按发表时间、期刊和国籍进行排序,获得三个排序结果;
则,目标特征确定子模块,具体用于依据三个排序结果从与各个目标文献对应的特征信息中确定目标特征信息;
则,热点技术确定子模块,具体用于通过目标特征信息中的关键词确定与目标特征信息对应的目标技术作为热点技术。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,所述单元的划分,仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
在接收到检索指令时,获取用户输入的检索词;
基于所述检索词确定所述检索词的扩展词,并利用所述检索词以及所述扩展词在文献数据库中检索,获得多个目标文献;
从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息;
基于与所述各个目标文献对应的特征信息利用预设的预测规则预测热点技术,并将所述预测的热点技术反馈给用户。
2.根据权利要求1所述的方法,其特征在于,预先构建语义词库;
所述基于所述检索词确定所述检索词的扩展词,包括:
利用所述检索词在预先构建的语义词库中获取与所述检索词具有相同语义和/或关联关系的词作为所述扩展词。
3.根据权利要求1或2所述的方法,其特征在于,所述基于与所述各个目标文献对应的特征信息利用预设的预测规则预测热点技术,包括:
对与所述各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果;
依据所述多个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
通过所述目标特征信息确定与所述目标特征信息对应的目标技术作为所述热点技术。
4.根据权利要求3所述的方法,其特征在于,所述特征信息至少包括:目标文献的关键词、发表时间、期刊和国籍;
则,对与所述各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果,具体为:
对所述多个目标文献分别按所述发表时间、所述期刊和所述国籍进行排序,获得三个排序结果;
依据所述多个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息,具体为:
依据所述三个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
则所述通过所述目标特征信息确定与所述目标特征信息对应的目标技术作为所述热点技术,具体为:
通过所述目标特征信息中的所述关键词确定与所述目标特征信息对应的目标技术作为所述热点技术。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述热点技术确定目标期刊;
在将所述预测的热点技术反馈给所述用户的同时,将为所述热点技术确定的所述目标期刊反馈给所述用户。
6.一种数据处理装置,其特征在于,所述装置包括:检索词获取模块、扩展词确定模块、检索模块、特征信息提取模块、热点技术预测模块和反馈模块;
所述检索词获取模块,用于在接收到检索指令时,获取用户输入的检索词;
所述扩展词确定模块,用于基于所述检索词获取模块获取的所述检索词确定所述检索词的扩展词;
所述检索模块,用于利用所述检索词获取模块获取的所述检索词以及所述扩展词确定模块确定的所述扩展词在文献数据库中检索,获得多个目标文献;
所述特征信息提取模块,用于从各个目标文献中分别提取特征信息,其中,每个目标文献对应一特征信息;
所述热点技术预测模块,用于基于所述特征信息提取模块提取的与所述各个目标文献对应的特征信息利用预设的预测规则预测热点技术;
所述反馈模块,用于将所述热点技术预测模块预测的所述热点技术反馈给用户。
7.根据权利要求6所述的装置,其特征在于,预先构建语义词库;
所述扩展词确定模块包括:获取子模块;
所述获取子模块,用于利用所述检索词在预先构建的语义词库中获取与所述检索词具有相同语义和/或关联关系的词作为所述扩展词。
8.根据权利要求6或7所述的装置,其特征在于,所述热点技术预测模块包括:排序子模块、目标特征确定子模块和热点技术确定子模块;
所述排序子模块,用于对与所述各个目标文献对应的特征信息按多个排序规则分别进行排序,获得多个排序结果;
所述目标特征确定子模块,用于依据所述多个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
所述热点技术确定子模块,用于通过所述目标特征信息确定与所述目标特征信息对应的目标技术作为所述热点技术。
9.根据权利要求8所述的装置,其特征在于,所述特征信息至少包括:目标文献的关键词、发表时间、期刊和国籍;
则,所述排序子模块,具体用于对所述多个目标文献分别按所述发表时间、所述期刊和所述国籍进行排序,获得三个排序结果;
则,所述目标特征确定子模块,具体用于依据所述三个排序结果从所述与各个目标文献对应的特征信息中确定目标特征信息;
则,所述热点技术确定子模块,具体用于通过所述目标特征信息中的所述关键词确定与所述目标特征信息对应的目标技术作为所述热点技术。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:目标期刊确定模块;
所述目标期刊确定模块,用于基于所述热点技术确定目标期刊;
所述反馈模块,还用于在将所述预测的热点技术反馈给所述用户的同时,将所述目标期刊确定模块为所述热点技术确定的所述目标期刊反馈给所述用户。
CN201610384096.5A 2016-06-01 2016-06-01 一种数据处理方法及装置 Pending CN106095838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610384096.5A CN106095838A (zh) 2016-06-01 2016-06-01 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610384096.5A CN106095838A (zh) 2016-06-01 2016-06-01 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN106095838A true CN106095838A (zh) 2016-11-09

Family

ID=57448033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610384096.5A Pending CN106095838A (zh) 2016-06-01 2016-06-01 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106095838A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651580A (zh) * 2020-06-04 2020-09-11 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN113921082A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 基因搜索权重调整方法、计算机存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572779A (zh) * 2013-10-29 2015-04-29 镇江畅远信息科技有限公司 专利检索系统
CN104750819A (zh) * 2015-03-31 2015-07-01 大连理工大学 一种基于词分组排序算法的生物医学文献检索方法及系统
CN105069080A (zh) * 2015-07-31 2015-11-18 中国农业科学院农业信息研究所 一种文献检索方法及系统
CN105550216A (zh) * 2015-12-03 2016-05-04 百度在线网络技术(北京)有限公司 学术研究信息的搜索方法、挖掘方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572779A (zh) * 2013-10-29 2015-04-29 镇江畅远信息科技有限公司 专利检索系统
CN104750819A (zh) * 2015-03-31 2015-07-01 大连理工大学 一种基于词分组排序算法的生物医学文献检索方法及系统
CN105069080A (zh) * 2015-07-31 2015-11-18 中国农业科学院农业信息研究所 一种文献检索方法及系统
CN105550216A (zh) * 2015-12-03 2016-05-04 百度在线网络技术(北京)有限公司 学术研究信息的搜索方法、挖掘方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651580A (zh) * 2020-06-04 2020-09-11 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN111651580B (zh) * 2020-06-04 2024-05-03 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN113921082A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 基因搜索权重调整方法、计算机存储介质及电子设备

Similar Documents

Publication Publication Date Title
US10997678B2 (en) Systems and methods for image searching of patent-related documents
CA2899854C (en) Systems and methods for indentifying documents based on citation history
Dubreuil et al. YeastRGB: comparing the abundance and localization of yeast proteins across cells and libraries
US20090024612A1 (en) Full text query and search systems and methods of use
EP0722145A1 (en) Information retrieval system and method of operation
CN104484057B (zh) 联想结果的提供方法和装置
US9842158B2 (en) Clustering web pages on a search engine results page
CN103430172A (zh) 检索装置、检索方法及程序
CN104036261B (zh) 人脸识别方法和系统
CN104239382A (zh) 用于内容检索的上下文智能标记
CN106055540A (zh) 一种数据处理方法及装置
US11232137B2 (en) Methods for evaluating term support in patent-related documents
CN106156111A (zh) 专利文件检索方法、装置和系统
CN106095838A (zh) 一种数据处理方法及装置
CN106294785A (zh) 内容筛选方法以及系统
CN101957860A (zh) 一种发布、搜索信息的方法及装置
CN106484788A (zh) 基于行业关键词的专利检索系统
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
CN111078988B (zh) 一种电力服务信息热点检索方法、装置和电子设备
Brilakis et al. Multimodal image retrieval from construction databases and model-based systems
Park et al. Adaptive record extraction from web pages
US20150201104A1 (en) Three-dimensional image searching based on inputs collected by a mobile device
CN102110095A (zh) 专利申请人技术发展趋势分析方法
JP2017138931A (ja) 特許検索方法
KR101941693B1 (ko) 내용 기반 이미지 검색방법 및 그에 따른 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161109