CN106055540A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN106055540A
CN106055540A CN201610383323.2A CN201610383323A CN106055540A CN 106055540 A CN106055540 A CN 106055540A CN 201610383323 A CN201610383323 A CN 201610383323A CN 106055540 A CN106055540 A CN 106055540A
Authority
CN
China
Prior art keywords
word
target
term
module
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610383323.2A
Other languages
English (en)
Inventor
张玥
吴勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
With Special Care Online (beijing) Technology Co Ltd
Original Assignee
With Special Care Online (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by With Special Care Online (beijing) Technology Co Ltd filed Critical With Special Care Online (beijing) Technology Co Ltd
Priority to CN201610383323.2A priority Critical patent/CN106055540A/zh
Publication of CN106055540A publication Critical patent/CN106055540A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理方法及装置,方法包括:从目标数据库中获取包含医学统计学方法的文献作为目标数据源;从目标数据源中获取目标词和目标词的扩展词,目标词的扩展词为与目标词具有相同语义或关联关系的词;将从目标数据源中获取的词构建语义词库;通过语义分析将语义词库中的词进行归类,并将归类后的词存储至存储单元,每个分类中的词具有相同语义或关联关系;当接收到用户通过检索界面输入的检索词时,基于存储单元中存储的词从目标数据源中获取与检索词对应的目标文献并输出。本申请提供的数据处理方法及装置提高了检索医学统计学方法相关文献的查全率和查准率,用户体验较好。

Description

一种数据处理方法及装置
技术领域
本发明数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着医学研究的不断深入,研究人员对于研究结果的真实性、科学性和准确性的要求也在不断提高。医学统计学作为医学科研的重要辅助工具,与医学科研课题设计、实施及研究结果得出等方面存在密不可分的关系。
医学统计学教材是研究人员获取医学统计学相关信息的一种常用途径。然而,对于医学统计学的教材而言,其大多数以书籍的形式提供给学习者,这类教材存在着信息不全面、更新速度慢和示例片面化的问题。具体的,信息不全面体现在:书籍所能涵盖的内容有限,学习者只能被动地接受书中所提供的理论知识和示例解析,看过之后很可能依然不明白某种统计方法应该如何在自己的实际研究使用,结果是耗费很多时间却无法找到可以借鉴学习的内容;更新速度慢体现在:书籍和互联相比存在偏理论轻示例、信息更新慢的特点;示例片面化体现在:书中给出的示例往往是有头无尾,或只取部分,不能完整的从方法选择与使用、结果陈述和讨论分析等层面全面展开。
基于医学统计学教材所存在的问题,一些研究人员选择通过查询数据库的方式获得医学统计学的相关信息。然而,通过数据库查询医学统计学的相关信息又存在以下问题:现有数据库中信息量很大,在针对医学统计学的相关信息进行检索时,会出现漏检和检索精准度不高的问题,导致研究人员在数据库中反复检索,耗费大量时间。
发明内容
有鉴于此,本发明提供了一种数据处理方法及装置,用以解决现有技术中,利用数据库进行检索以获取医学统计学信息时,会出现漏检和检索精准度不高,进而导致研究人员在数据库中反复检索,耗费大量时间的问题,其技术方案如下:
一种数据处理方法,所述方法包括:
从目标数据库中获取包含医学统计学方法的文献作为目标数据源;
从所述目标数据源中获取目标词和所述目标词的扩展词,所述目标词的扩展词为与所述目标词具有相同语义或关联关系的词;
将从所述目标数据源中获取的词构建语义词库;
通过语义分析将所述语义词库中的词进行归类,并将归类后的词存储至存储单元,其中,每个分类中的词具有相同语义或关联关系;
当接收到用户通过检索界面输入的检索词时,基于所述存储单元中存储的词从所述目标数据源获取与所述检索词对应的目标文献并输出。
其中,所述基于所述存储单元中存储的词获取与所述检索词对应的目标文献并输出,包括:
从所述存储单元存储的词中查找所述检索词;
在查找到所述检索词之后,将所述检索词以及与所述检索词归为同一类的词作为目标检索词;
利用所述目标检索词在所述目标数据源中检索,获得所述目标文献并输出。
优选地,所述方法还包括:
在获取到所述目标文献之后,检测文献筛选指令;
当检测到所述文献筛选指令时,获取筛选条件;
依据所述筛选条件从所述目标文献中筛选出满足所述筛选条件的文献。
优选地,所述方法还包括:
统计所述检索界面上检索词的输入次数;
当所述检索词的输入次数大于预设次数时,将所述检索词的检索结果按预设方式推送至用户。
优选地,所述方法还包括:
接收用户针对至少一个检索词的文献订阅请求;
在接收到所述针对所述至少一个检索词的文献订阅请求之后,将与所述至少一个检索词对应的检索结果按预设方式推送至用户。
一种数据处理装置,所述装置包括:第一获取模块、第二获取模块、语义词库构建模块、语义分析模块、存储模块和检索模块;
所述第一获取模块,用于从目标数据库中获取包含医学统计学方法的文献作为目标数据源;
所述第二获取模块,用于从所述第一获取模块获取的所述目标数据源中获取目标词和所述目标词的扩展词,所述目标词的扩展词为与所述目标词具有相同语义或关联关系的词;
所述语义词库构建模块,用于将所述第二获取模块从所述目标数据源中获取的词构建语义词库;
所述语义分析模块,用于通过语义分析将所述语义词库构建模块构建的所述语义词库中的词进行分类,其中,每个分类中的词具有相同语义或关联关系;
所述存储模块,用于将经所述语义分析模块分析归类后的词存储至存储单元;
所述检索模块,用于当接收到用户通过检索界面输入的检索词时,基于所述存储单元中存储的词从所述目标数据源获取与所述检索词对应的目标文献并输出。
其中,所述检索模块包括:查找子模块、第一确定子模块、第二确定子模块和输出子模块;
所述查找子模块,用于从所述存储单元存储的词中查找所述检索词;
所述第一确定子模块,用于在所述查找子模块查找到所述检索词之后,将所述检索词以及与所述检索词归为同一类的词确定为目标检索词;
所述第二确定子模块,用于利用所述目标检索词在所述目标数据源中检索,获得所述目标文献;
所述输出子模块,用户输出所述第二确定子模块确定的所述目标文献。
优选地,所述装置还包括:检测模块、第三获取模块和筛选模块;
所述检测模块,用于在获取到所述目标文献之后,检测文献筛选指令;
所述第三获取模块,用于当所述检测模块检测到所述文献筛选指令时,获取筛选条件;
所述筛选模块,用于依据所述第三获取模块获取的所述筛选条件从所述目标文献中筛选出满足所述筛选条件的文献。
优选地,所述装置还包括:统计模块和第一推送模块;
所述统计模块,用于统计所述检索界面上检索词的输入次数;
所述第一推送模块,用于当所述统计模块统计出的所述检索词的输入次数大于预设次数时,将所述检索词的检索结果按预设方式推送至用户。
优选地,所述装置还包括:接收模块和第二推送模块;
所述接收模块,用于接收用户针对至少一个检索词的文献订阅请求;
所述第二推送模块,用于在所述接收模块接收到所述针对所述至少一个检索词的文献订阅请求之后,将与所述至少一个检索词对应的检索结果按预设方式推送至用户。
上述技术方案具有如下有益效果:
本发明提供的数据处理方法及装置,从目标数据源中获取目标词和目标词的扩展词,并将获取的目标词和目标词的扩展词组建语义词库,通过语义分析将语义词库中的词按语义归类,归类后的词存储到存储单元,当接收到检索指令时,可利用存储单元中存储的词对检索词进行扩展,利用检索词及检索词的扩展词从目标数据源中检索得到目标文献。一方面,由于目标数据源都是包含医学统计学方法的文献,因此,当对检索词进行检索时,相当于只在包含医学统计学方法的文献中进行检索,因此,检索结果的精准度大大提高;另一方面,由于存储单元中每个分类的词都是具有相同语义或关联关系的词,在利用检索词基于存储单元存储的词进行检索时,实际对检索词进行了扩展,并不是单纯用检索词进行检索,而是利用了检索词以及与检索词具有相同语义或关联关系的词进行检索,即扩展了检索范围,提高了查全率。查全率和查准率的提高使得用户不用反复检索,大大节省了用户的检索时间,用户体验较好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的数据处理方法的流程示意图;
图2为本发明实施例提供的数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种数据处理方法,请参阅图1,示出了该方法的流程示意图,该方法可以包括:
步骤S101:从目标数据库中获取包含医学统计学方法的文献作为目标数据源。
在一种可能的实现中,从目标数据库中获取包含医学统计学方法的文献作为目标数据源具体为:通过网络爬虫从目标文献数据库中爬取包含医学统计学方法的文献,将爬取的包含医学统计学方法的文献作为目标数据源。
需要说明的是,通过网络爬虫爬取到文献中可能存在与医学统计学方法无关的文献,在这种情况下,可进一步判断爬取到的文献中是否存在与医学统计学方法无关的文献,如果存在与医学统计学方法无关的文献,则将这些文献清除,以保证目标数据源中的文献均为与医学统计学方法相关的文献,这样能够提高后续检索结果的精准度。
步骤S102:从目标数据源中获取目标词和目标词的扩展词,并将获取的词与目标数据源中的对应文献关联。
其中,目标词的扩展词为与目标词具有相同语义或关联关系的词。
在本实施中,可以通过深度挖掘和语义分析从目标数据源中获取目标词和目标词的扩展词。
其中,目标词可以为主题词,目标词的扩展词为入口词。主题词为规范化的词,而入口词为非规范化的词,例如,同义词、先组词、学名、俗称、旧称、简称、全称。
需要说明的是,不管是目标词还是扩展词,其都可能会出现在多篇文献中,因此,与同一目标词或扩展词对应的文献可能不只一篇。
步骤S103:将从目标数据源中获取的词构建语义词库。
其中,每个分类中的词具有相同语义或关联关系。
步骤S104:通过语义分析将语义词库中的词进行分类,并将归类后的词按存储至存储单元。
由于语义词库中存在大量从目标数据源中提取的词,而这些词中的某些词是存在关系的,因此,本发明实施例通过语义分析将这些词进行归类,将具有相同语义或关联关系的词归类,即相当于将具有相同语义或关联关系的所有词关联到了一起,如果找到了其中一个词,即找到了与该词关联到一起的其它词,例如,找到了主题词A,就找到了主题词A的同义词、先组词、学名、俗称、旧称、简称、全称。
另外,需要说明的是,由于目标数据源库中的文献是不断更新的,为了保证用户能获得较新的数据,目标数据源也需要不断更新,相应的,语义词库、存储单元也需要随着更新。
步骤S105:当接收到用户通过检索界面输入的检索词时,基于存储单元中存储的词从目标数据源获取与检索词对应的目标文献并输出。
在本实施例中,将目标数据源存储至服务器,存储方式可以为hdfs存储、普通文本存储或NoSQL数据库存储,并将目标数据源中的每个文献的关键信息提取出来,例如文献的标题、作者、出版社、关键字等结构化信息,然后将这些结构化信息存储到结构化数据库中,基于搜索引擎技术对数据进行分词、索引,并提供搜索界面。需要说明的是,目标数据源中的文献与该文献标题、作者、出版社、关键字等信息实质上是关联到一起到,即通过文献标题、作者、出版社、关键字这些信息就可找到对应的文献。
具体的,当接收到用户通过检索界面输入的检索词时,利用检索词和存储单元中存储的词获取目标文献的过程可以包括:从存储单元存储的词中查找检索词;在查找到该检索词之后,将检索词以及与检索词归为同一类的词作为目标检索词;利用目标检索词从目标数据源中检索目标文献并输出。
示例性的,当用户在检索界面的检索输入框中输入检索词“方差分析”进行检索时,检测到检索指令之后,首先获取用户输入的检索词“方差分析”,然后从存储单元中查询“方差分析”,在查询到“方差分析”后,可获得与“方差分析”归类到一起的同义词、先组词、学名、俗称、旧称、简称、全称,最后将“方差分析”以及“方差分析”的同义词、先组词、学名、俗称、旧称、简称、全称作为最终的检索词在目标数据源中进行检索,具体的,在结构化数据库中查找“方差分析”以及“方差分析”的同义词、先组词、学名、俗称、旧称、简称、全称,在结构化数据库中查找到这些词之后,通过索引便可获得与这些词关联的文献,即获得了“方差分析”以及“方差分析”的同义词、先组词、学名、俗称、旧称、简称、全称的检索结果,该检索结果即为通过用户输入的检索词“方差分析”检索获得到检索结果,
本发明提供的数据处理方法,从目标数据源中获取目标词和目标词的扩展词,并将获取的目标词和目标词的扩展词组建语义词库,通过语义分析将语义词库中的词按语义归类,归类后的词存储到存储单元,当接收到检索指令时,可利用存储单元中存储的词对检索词进行扩展,利用检索词及检索词的扩展词从目标数据源中检索得到目标文献。一方面,由于目标数据源都是包含医学统计学方法的文献,因此,当对检索词进行检索时,相当于只在包含医学统计学方法的文献中进行检索,因此,检索结果的精准度大大提高;另一方面,由于存储单元中每个分类的词都是具有相同语义或关联关系的词,在利用检索词基于存储单元存储的词进行检索时,实际对检索词进行了扩展,并不是单纯用检索词进行检索,而是利用了检索词以及与检索词具有相同语义或关联关系的词进行检索,即扩展了检索范围,提高了查全率。查全率和查准率的提高使得用户不用反复检索,大大节省了用户的检索时间,用户体验较好。
上述实施例提供的数据处理方法还可以包括:在获取到目标文献之后,检测文献筛选指令;当检测到文献筛选指令时,获取筛选条件;依据筛选条件从目标文献中筛选出满足筛选条件的文献。
在本实施例中,研究人员可以从医学主题和医学统计学方法两个方向进行检索和筛选,得到所需要的文献。
具体的,当研究人员想要知道某一研究主题中医学统计学方法的选择和应用时,研究人员可直接利用该研究主题进行检索,检索到的文件即为与该研究主题有关的所有统计学方法的使用情况,在检索到文献后,研究人员还可以选择不同的研究分类作为筛选条件,获取具体研究类型下所使用的研究方法,例如,对于慢性阻塞性肺疾病COPD在动物实验、临床试验和现场调查等不同场景下所选择的医学统计方法,或者根据样本量、数据类型筛选某一种或几种和COPD有关的医学统计学方法。
通过检索某医学研究主题可获得包含适用于该主题的各类医学统计学方法的文献,从而可以帮助研究人员了解该医学研究主题所可能用到的各类医学统计学方法,研究人员还可以通过不同的筛选条件,进行进一步的筛选,以获得更精准的结果。
具体的,当研究人员想通过查阅文献的方式学习某一种医学统计学方法在各类医学研究中的使用情况时,可以利用该医学统计学方法的名称(主题词和入口词均可)进行检索,检索到的文件即为与该统计学方法有关所有医学研究文献,研究人员还可通过不同的筛选条件从与该统计学方法有关的所有文献中筛选出需要的文献,如,当输入方差分析或其简称、同义词和俗称等等,输出结果中就可以看到各类使用了方差分析的文献。
通过检索某医学统计学方法可获得该方法在不同医学研究主题中的应用,从而帮助研究人员学习该医学统计学方法在医学领域的使用情况,研究人员还可以通过不同条件(例如,所属学科等)筛选出更精准的结果,从而帮助研究人员通过阅读大量相关参考文献,学习如何选择和使用各种医学统计学方法。
在一种可能的实现方式中,检索结果界面上可设置筛选操作选项列表,用户可从筛选操作选项列表中选择筛选条件。示例性的,检索界面上的筛选操作选项列表可设置“医学统计学方法”和“医学研究主题”,“医学统计学方法”下可设置多个医学统计学方法的名称,当用户选择“医学统计学方法”下的某一医学统计学方法的名称时,接收到筛选指令,将用户选择的医学统计学方法的名称作为筛选词从检索到的目标文献中筛选出与该医学统计学方法相关的文献。同样的,“医学研究主题”下可设置多个医学研究主题的名称,当用户选择“医学研究主题”下的某一医学研究主题的名称时,接收到筛选指令,将用户选择的医学研究主题的名称作为筛选词从检索到的目标文献中筛选出与该医学统计学方法相关的文献。
在另一种可能的实现方法中,检索结果界面上可设置筛选输入框,用户可在筛选输入框中输入筛选词,当接收到筛选指令时,获取用户输入的筛选词,从检索到的目标文献中筛选出与用户输入的检索词相关的文献,例如,用户输入“慢性阻塞性肺疾病”,那么便可获得目标文献中与“慢性阻塞性肺疾病”相关的包含医学统计学方法的文献。
当然,检索结果界面还可同时设置筛选操作选项列表和筛选输入框,用户可选择任意一种方式从上述检索的目标文献中筛选出自己想要的文献。从目标文献中筛选文献相当于进行了二次检索,由于二次检索基于首次检索结果,因此,进一步提高了检索的精准度。
上述实施例提供的数据处理方法还可以包括:统计检索界面上检索词的输入次数;当检索词的输入次数大于预设次数时,将检索词的检索结果按预设方式推送至用户。
如果用户多次对某一检索词进行检索,那么说明用户对于该检索词相关的文献具有较高的关注度,那么,可将通过该检索词检索到的文献推送至用户。具体的,可采用邮件、短信等方式将文献推送至用户。
上述实施例提供的数据处理方法还可以包括:接收用户针对至少一个检索词的文献订阅请求;在接收到针对至少一个检索词的文献订阅请求之后,将至少一个检索词的检索结果按预设方式推送至用户。
需要说明的是,研究人员的文献订阅请求可针对一个检索词,也可针对多个检索词,当针对多个检索词时,会将与所有检索词相关的文献推送至研究人员,研究人员打开推送的信息后可自行选择点击查看所需要的文献。
其中,上述至少一个检索词的检索结果可采用邮件、短信等方式推送至用户。
在一种可能的实现方式中,检索界面上设置文献订阅,并针对文献订阅设置输入框,用户可在该输入框中输入检索词进行文献的订阅。在接收到文献订阅指令之后,获取用户输入的检索词,按预设时间间隔使用该检索词进行检索,并将检索结果推送至用户。另外,可每隔预设时间段利用该检索词检索一次,将检索结果与上一次的检索结果进行比较,如果有新的文献出现,那么可将新出现的文献通过邮件或短信的方式推送至用户,这样,用户便可获得自己所关注的主题的一些新技术。
除了上述文献订阅方式外,还有其它的订阅方式,例如,上述方法提到的将通过高频词检索得到的文献推送至用户后,如果用户对这些文献感兴趣,或想持续关注该类文献,那么可发送文献请阅请求进行文献订阅。
本发明实施例提供的数据处理方法能够帮助研究人员精准高效地获得所需要的文献,同时借助适当的筛选条件,满足不同场景下研究人员的需要,变被动接受相关知识与示例解析为灵活主动地获取大量具有时效性的信息,能够帮助研究者更好地学习和掌握医学统计学,提升科研能力,从而进一步挖掘更有价值的医学研究结果,带来更多有价值的研究成果。
与上述方法相对应,本发明实施例还提供了一种数据处理装置,请参阅图2,示出了该装置的结构示意图,该装置可以包括:第一获取模块201、第二获取模块202、语义词库构建模块203、语义分析模块204、存储模块205和检索模块206。其中:
第一获取模块201,用于从目标数据源库中获取包含医学统计学方法的文献作为目标数据源。
第二获取模块202,用于从第一获取模块201获取的目标数据源中获取目标词和目标词的扩展词,其中,目标词的扩展词为与目标词具有相同语义或关联关系的词。
语义词库构建模块203,用于将第二获取模块202从目标数据源中获取的词构建语义词库。
语义分析模块204,用于通过语义分析将语义词库构建模块203构建的语义词库中的词进行分类,每个分类中的词具有相同语义或关联关系。
存储模块205,用于将经语义分析模块204分析归类后的词存储至存储单元。
检索模块206,用于基于存储模块205存储至存储单元中的词从目标数据源中获取与检索词对应的目标文献并输出。
本发明提供的数据处理装置,从目标数据源中获取目标词和目标词的扩展词,并将获取的目标词和目标词的扩展词组建语义词库,通过语义分析将语义词库中的词按语义归类,归类后的词存储到存储单元,当接收到检索指令时,可利用存储单元中存储的词对检索词进行扩展,利用检索词及检索词的扩展词从目标数据源中检索得到目标文献。一方面,由于目标数据源都是包含医学统计学方法的文献,因此,当对检索词进行检索时,相当于只在包含医学统计学方法的文献中进行检索,因此,检索结果的精准度大大提高;另一方面,由于存储单元中每个分类的词都是具有相同语义或关联关系的词,在利用检索词基于存储单元存储的词进行检索时,实际对检索词进行了扩展,并不是单纯用检索词进行检索,而是利用了检索词以及与检索词具有相同语义或关联关系的词进行检索,即扩展了检索范围,提高了查全率。查全率和查准率的提高使得用户不用反复检索,大大节省了用户的检索时间,用户体验较好。
在上述实施例提供的数据处理装置中,检索模块208可以包括:查找子模块、第一确定子模块、第二确定子模块和输出子模块。其中:
查找子模块,用于从存储单元存储的词中查找检索词。
第一确定子模块,用于在查找子模块查找到检索词之后,将检索词以及与检索词归为同一类的词确定为目标检索词。
第二确定子模块,用于利用第一确定子模块确定的目标检索词在目标数据源中检索,获得目标文献。
输出子模块,用于输出第二确定子模块确定处的目标文献。
上述实施例提供的数据处理装置还可以包括:检测模块、第三获取模块和筛选模块。其中:
检测模块,用于在获取到目标文献之后,检测文献筛选指令。
第三获取模块,用于当检测模块检测到文献筛选指令时,获取筛选条件。
筛选模块,用于依据第三获取模块获取的筛选条件从目标文献中筛选出满足筛选条件的文献。
上述实施例提供的数据处理装置还可以包括:统计模块和第一推送模块。其中:
统计模块,用于统计检索界面上检索词的输入次数。
第一推送模块,用于当统计模块统计出的检索词的输入次数大于预设次数时,将检索词的检索结果按预设方式推送至用户。
上述实施例提供的数据处理装置还可以包括:接收模块和第二推送模块。其中:
接收模块,用于接收用户针对至少一个检索词的文献订阅请求。
第二推送模块,用于在接收模块接收到针对至少一个检索词的文献订阅请求之后,将与至少一个检索词对应的检索结果按预设方式推送至用户。
本发明实施例提供的数据处理装置能够帮助研究人员精准高效地获得所需要的文献,同时借助适当的筛选条件,满足不同场景下研究人员的需要,变被动接受相关知识与示例解析为灵活主动地获取大量具有时效性的信息,能够帮助研究者更好地学习和掌握医学统计学,提升科研能力,从而进一步挖掘更有价值的医学研究结果,带来更多有价值的研究成果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
从目标数据库中获取包含医学统计学方法的文献作为目标数据源;
从所述目标数据源中获取目标词和所述目标词的扩展词,所述目标词的扩展词为与所述目标词具有相同语义或关联关系的词;
将从所述目标数据源中获取的词构建语义词库;
通过语义分析将所述语义词库中的词进行归类,并将归类后的词存储至存储单元,其中,每个分类中的词具有相同语义或关联关系;
当接收到用户通过检索界面输入的检索词时,基于所述存储单元中存储的词从所述目标数据源获取与所述检索词对应的目标文献并输出。
2.根据权利要求1所述的方法,其特征在于,所述基于所述存储单元中存储的词获取与所述检索词对应的目标文献并输出,包括:
从所述存储单元存储的词中查找所述检索词;
在查找到所述检索词之后,将所述检索词以及与所述检索词归为同一类的词作为目标检索词;
利用所述目标检索词在所述目标数据源中检索,获得所述目标文献并输出。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在获取到所述目标文献之后,检测文献筛选指令;
当检测到所述文献筛选指令时,获取筛选条件;
依据所述筛选条件从所述目标文献中筛选出满足所述筛选条件的文献。
4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:
统计所述检索界面上检索词的输入次数;
当所述检索词的输入次数大于预设次数时,将所述检索词的检索结果按预设方式推送至用户。
5.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:
接收用户针对至少一个检索词的文献订阅请求;
在接收到所述针对所述至少一个检索词的文献订阅请求之后,将与所述至少一个检索词对应的检索结果按预设方式推送至用户。
6.一种数据处理装置,其特征在于,所述装置包括:第一获取模块、第二获取模块、语义词库构建模块、语义分析模块、存储模块和检索模块;
所述第一获取模块,用于从目标数据库中获取包含医学统计学方法的文献作为目标数据源;
所述第二获取模块,用于从所述第一获取模块获取的所述目标数据源中获取目标词和所述目标词的扩展词,所述目标词的扩展词为与所述目标词具有相同语义或关联关系的词;
所述语义词库构建模块,用于将所述第二获取模块从所述目标数据源中获取的词构建语义词库;
所述语义分析模块,用于通过语义分析将所述语义词库构建模块构建的所述语义词库中的词进行归类,其中,每个分类中的词具有相同语义或关联关系;
所述存储模块,用于将经所述语义分析模块分析归类后的词存储至存储单元;
所述检索模块,用于当接收到用户通过检索界面输入的检索词时,基于所述存储单元中存储的词从所述目标数据源获取与所述检索词对应的目标文献并输出。
7.根据权利要求6所述的装置,其特征在于,所述检索模块包括:查找子模块、第一确定子模块、第二确定子模块和输出子模块;
所述查找子模块,用于从所述存储单元存储的词中查找所述检索词;
所述第一确定子模块,用于在所述查找子模块查找到所述检索词之后,将所述检索词以及与所述检索词归为同一类的词确定为目标检索词;
所述第二确定子模块,用于利用所述目标检索词在所述目标数据源中检索,获得所述目标文献;
所述输出子模块,用户输出所述第二确定子模块确定的所述目标文献。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:检测模块、第三获取模块和筛选模块;
所述检测模块,用于在获取到所述目标文献之后,检测文献筛选指令;
所述第三获取模块,用于当所述检测模块检测到所述文献筛选指令时,获取筛选条件;
所述筛选模块,用于依据所述第三获取模块获取的所述筛选条件从所述目标文献中筛选出满足所述筛选条件的文献。
9.根据权利要求6至8中任意一项所述的装置,其特征在于,所述装置还包括:统计模块和第一推送模块;
所述统计模块,用于统计所述检索界面上检索词的输入次数;
所述第一推送模块,用于当所述统计模块统计出的所述检索词的输入次数大于预设次数时,将所述检索词的检索结果按预设方式推送至用户。
10.根据权利要求6至8中任意一项所述的装置,其特征在于,所述装置还包括:接收模块和第二推送模块;
所述接收模块,用于接收用户针对至少一个检索词的文献订阅请求;
所述第二推送模块,用于在所述接收模块接收到所述针对所述至少一个检索词的文献订阅请求之后,将与所述至少一个检索词对应的检索结果按预设方式推送至用户。
CN201610383323.2A 2016-06-01 2016-06-01 一种数据处理方法及装置 Pending CN106055540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610383323.2A CN106055540A (zh) 2016-06-01 2016-06-01 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610383323.2A CN106055540A (zh) 2016-06-01 2016-06-01 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN106055540A true CN106055540A (zh) 2016-10-26

Family

ID=57172995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610383323.2A Pending CN106055540A (zh) 2016-06-01 2016-06-01 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106055540A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547917A (zh) * 2016-11-29 2017-03-29 国网信息通信产业集团有限公司 一种信息处理方法及电子设备
CN107870985A (zh) * 2017-10-12 2018-04-03 深圳市金立通信设备有限公司 一种检索信息的方法、服务器及计算机可读存储介质
CN107908762A (zh) * 2017-11-17 2018-04-13 广州慧睿思通信息科技有限公司 一种自定义关键词串并历史数据的方法及系统
CN110110207A (zh) * 2018-01-18 2019-08-09 北京搜狗科技发展有限公司 一种信息推荐方法、装置及电子设备
CN111126034A (zh) * 2019-12-17 2020-05-08 南京医基云医疗数据研究院有限公司 医学变量关系的处理方法及装置、计算机介质和电子设备
CN112667781A (zh) * 2020-12-31 2021-04-16 北京万方数据股份有限公司 一种恶性肿瘤文献获取方法及装置
CN113722451A (zh) * 2021-07-12 2021-11-30 上海中医药大学 一种循证检索词推荐方法及其应用
CN115331823A (zh) * 2022-06-13 2022-11-11 目人(苏州)医学科技有限公司 分析临床数据的方法、系统、设备及存储介质
CN115658851A (zh) * 2022-12-27 2023-01-31 药融云数字科技(成都)有限公司 基于主题的医学文献检索方法、系统、存储介质及终端
CN117953875A (zh) * 2024-03-27 2024-04-30 成都启英泰伦科技有限公司 一种基于语义理解的离线语音命令词存储方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473283A (zh) * 2013-08-29 2013-12-25 中国测绘科学研究院 一种文本案例匹配方法
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104410717A (zh) * 2014-12-18 2015-03-11 百度在线网络技术(北京)有限公司 一种信息推送的方法和装置
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法
CN104572779A (zh) * 2013-10-29 2015-04-29 镇江畅远信息科技有限公司 专利检索系统
CN104699795A (zh) * 2015-03-17 2015-06-10 天脉聚源(北京)传媒科技有限公司 一种推送视频的方法及装置
CN105279270A (zh) * 2015-10-28 2016-01-27 丽水市睿鼎知识产权咨询有限公司 一种专利检索装置及其检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473283A (zh) * 2013-08-29 2013-12-25 中国测绘科学研究院 一种文本案例匹配方法
CN104572779A (zh) * 2013-10-29 2015-04-29 镇江畅远信息科技有限公司 专利检索系统
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
CN104410717A (zh) * 2014-12-18 2015-03-11 百度在线网络技术(北京)有限公司 一种信息推送的方法和装置
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法
CN104699795A (zh) * 2015-03-17 2015-06-10 天脉聚源(北京)传媒科技有限公司 一种推送视频的方法及装置
CN105279270A (zh) * 2015-10-28 2016-01-27 丽水市睿鼎知识产权咨询有限公司 一种专利检索装置及其检索方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547917A (zh) * 2016-11-29 2017-03-29 国网信息通信产业集团有限公司 一种信息处理方法及电子设备
CN107870985A (zh) * 2017-10-12 2018-04-03 深圳市金立通信设备有限公司 一种检索信息的方法、服务器及计算机可读存储介质
CN107908762A (zh) * 2017-11-17 2018-04-13 广州慧睿思通信息科技有限公司 一种自定义关键词串并历史数据的方法及系统
CN110110207A (zh) * 2018-01-18 2019-08-09 北京搜狗科技发展有限公司 一种信息推荐方法、装置及电子设备
CN110110207B (zh) * 2018-01-18 2023-11-03 北京搜狗科技发展有限公司 一种信息推荐方法、装置及电子设备
CN111126034A (zh) * 2019-12-17 2020-05-08 南京医基云医疗数据研究院有限公司 医学变量关系的处理方法及装置、计算机介质和电子设备
CN111126034B (zh) * 2019-12-17 2023-09-19 南京医基云医疗数据研究院有限公司 医学变量关系的处理方法及装置、计算机介质和电子设备
CN112667781A (zh) * 2020-12-31 2021-04-16 北京万方数据股份有限公司 一种恶性肿瘤文献获取方法及装置
CN113722451A (zh) * 2021-07-12 2021-11-30 上海中医药大学 一种循证检索词推荐方法及其应用
CN115331823A (zh) * 2022-06-13 2022-11-11 目人(苏州)医学科技有限公司 分析临床数据的方法、系统、设备及存储介质
CN115658851A (zh) * 2022-12-27 2023-01-31 药融云数字科技(成都)有限公司 基于主题的医学文献检索方法、系统、存储介质及终端
CN117953875A (zh) * 2024-03-27 2024-04-30 成都启英泰伦科技有限公司 一种基于语义理解的离线语音命令词存储方法

Similar Documents

Publication Publication Date Title
CN106055540A (zh) 一种数据处理方法及装置
Garfield et al. Algorithmic citation‐linked historiography—Mapping the literature of science
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
CN101490675A (zh) 用于重用数据访问和呈现元素的方法和装置
US20100174704A1 (en) Searching method and system
US11100151B2 (en) Interactive patent visualization systems and methods
Elliott Survey of author name disambiguation: 2004 to 2010
US20150269138A1 (en) Publication Scope Visualization and Analysis
Terveen et al. Finding and visualizing inter-site clan graphs
CN104657376A (zh) 基于节目关系的视频节目的搜索方法和装置
CN103226601A (zh) 一种图片搜索的方法和装置
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
Brilakis et al. Multimodal image retrieval from construction databases and model-based systems
Berendsohn et al. OpenUp! Creating a cross-domain pipeline for natural history data
KR100919757B1 (ko) 문서분석을 위한 사용자 인터페이스 시스템
JP2014102625A (ja) 情報検索システム、プログラム、および方法
CN103164491B (zh) 一种数据处理和检索的方法及设备
US20090006347A1 (en) Method and apparatus for conditional search operators
Cho Intellectual structure evolution of open access research observed through correlation index of keyword centrality
Wang et al. CKGSE: A prototype search engine for Chinese knowledge graphs
CN114780712A (zh) 一种基于质量评价的新闻专题生成方法及装置
Jäschke et al. Analysis of the publication sharing behaviour in BibSonomy
Lauw et al. TUBE (Text-cUBE) for discovering documentary evidence of associations among entities
KR100862440B1 (ko) 문서분석을 위한 사용자 인터페이스 시스템
Pani et al. An Approach to Multimedia Content Management.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161026

WD01 Invention patent application deemed withdrawn after publication