CN112835919B - 医学数据库更新方法、装置、计算机设备和存储介质 - Google Patents
医学数据库更新方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112835919B CN112835919B CN202110205604.XA CN202110205604A CN112835919B CN 112835919 B CN112835919 B CN 112835919B CN 202110205604 A CN202110205604 A CN 202110205604A CN 112835919 B CN112835919 B CN 112835919B
- Authority
- CN
- China
- Prior art keywords
- search
- determining
- search term
- retrieval
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及一种医学数据库更新方法、装置、计算机设备和存储介质,计算机设备获取各检索词对应的检索次数和编辑次数;然后,根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;最后,根据更新优先级参数,确定各检索词的更新优先级;其中,上述检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关。采用上述方法可以使得检索词被及时更新,提升了医学数据库的更新效率,以及提升医学数据库的可用性和可靠性。
Description
技术领域
本申请涉及数据库技术领域,特别是涉及一种医学数据库更新方法、装置、计算机设备和存储介质。
背景技术
随着医学技术的发展,患者可以通过浏览界面阅读医学检查报告。由于医学检查报告中通常包含有专业性较强的词汇,患者通过搜索引擎工具查询上述词汇时容易获得不准确甚至阐述相互背斥的医学解释。为了提升患者获得的可靠、准确具有指导意义的医学信息,需要在提供专业的医学知识数据库,使得患者可以在医学知识数据库中获取准确的医学信息。
医学知识的体系庞大,在数据库中收录所有的医学专业词汇相对困难,并且随着医学的不断发展,部分医学专业词汇也需要进行内容的维护。传统建立医学数据库的方法为利用大量的人力对医学专业词汇进行逐条编辑。
但是,上述方式会使得医学数据库的建立过程死板且效率低下,部分医学专业词汇缺少后续词条维护更新,影响医学数据库的可用性和可靠性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升数据库更新效率的医学数据库更新方法、装置、计算机设备和存储介质。
一种医学数据库更新方法,包括:
获取各检索词对应的检索次数和编辑次数;
根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关;
根据更新优先级参数,确定各检索词的更新优先级。
在其中一个实施例中,上述根据检索词的检索次数以及编辑次数,确定检索词的更新优先级参数,包括:
根据检索词的收录状态,确定检索词的分组类型;不同分组类型对应不同的更新优先级参数的计算方式;
根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数。
在其中一个实施例中,上述分组类型为未收录词汇和已收录词汇中的其中一种;根据检索词的收录状态,确定检索词的分组类型,包括:
若检索词已被收录在数据库中,则确定检索词的分组类型为已收录词汇;
若检索词未被收录在数据库中,则确定检索词的分组类型为未收录词汇。
在其中一个实施例中,上述确定检索词的分组类型为未收录词汇,包括:
在其他数据库中对检索词进行爬虫检索;其中,其他数据库为数据库之外用于存储医学词汇信息的公开数据库;
若在其他数据库中未爬虫检索到检索词,则确定检索词的分组类型为未收录词汇;
若在其他数据库中爬虫检索到检索词,则将爬虫检索的结果添加入数据库中,并确定检索词的分组类型为初始收录词汇。
在其中一个实施例中,上述述根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数,包括:
若检索词的分组类型为未收录词汇,则将检索次数确定为更新优先级参数;
若检索词的分组类型为初始收录词汇,则根据检索次数以及预设参数确定更新优先级参数;预设参数由检索次数的量级确定;
若检索词的分组类型为已收录词汇,则根据与编辑次数以及检索次数有关的关系式,确定检索词的更新优先级参数。
在其中一个实施例中,编辑次数随着检索词的编辑状态进行更新。
在其中一个实施例中,方法还包括:
对医学报告进行语义识别处理,获得检索词;
在医学数据库中对检索词进行检索,获得检索词的检索信息;
在医学报告中检索词所在位置,添加与检索信息对应的超链接。
一种医学数据库更新装置,装置包括:
获取模块,用于获取各检索词对应的检索次数和编辑次数;
确定模块,用于根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关;
排序模块,用于根据更新优先级参数,确定各检索词的更新优先级。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取各检索词对应的检索次数和编辑次数;
根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关;
根据更新优先级参数,确定各检索词的更新优先级。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取各检索词对应的检索次数和编辑次数;
根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关;
根据更新优先级参数,确定各检索词的更新优先级。
上述医学数据库更新方法、装置、计算机设备和存储介质,计算机设备获取各检索词对应的检索次数和编辑次数;然后,根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;最后,根据更新优先级参数,确定各检索词的更新优先级;其中,上述检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关。由于计算机设备获取了各个检索词对应的检索次数和编辑次数,从而可以根据检索次数和编辑次数获得检索词的更新优先级参数;进一步地,由于检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关,因此计算机设备可以将检索次数较多且未被编辑的检索词靠前排列,使得该检索词可以被及时更新,提升了数据库的更新效率,并提升数据库的可用性和可靠性。
附图说明
图1为一个实施例中医学数据库更新方法的应用环境图;
图2为一个实施例中医学数据库更新方法的流程示意图;
图3为一个实施例中医学数据库更新方法的流程示意图;
图4为另一个实施例中医学数据库更新方法的流程示意图;
图5为另一个实施例中医学数据库更新方法的流程示意图;
图6为一个实施例中医学数据库更新装置的结构框图;
图7为一个实施例中医学数据库更新装置的结构框图;
图8为一个实施例中医学数据库更新装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的医学数据库更新方法,可以应用于如图1所示的应用环境中。图1中的医学数据库200可以设置于计算机设备100中,也可以通过有线或无线连接的方式与计算机设备100连接;上述计算机设备可以用独立的服务器或者是多个服务器组成的服务器集群来实现;在此不做限定。
在一个实施例中,如图2所示,提供了一种医学数据库的更新方法,以该方法应用于图1中的计算机设备为例进行说明,包括:
S101、获取各检索词对应的检索次数和编辑次数。
本申请中待更新的医学数据库可以是存储医学知识的专有数据库,上述检索词可以是疾病诊断词汇,也可以是检查参数词汇,还可以是检验项目词汇、症状词汇、药物词汇等,对于上述检索词的类型在此不做限定。上述检索词可以是医学数据库中的所有词汇,也可以是在预设时长内被检索过的词汇,在此不做限定。
计算机设备可以获取预设时长内医学数据库中被检索过的检索词。具体地,计算机设备可以通过检索框获取用户输入的检索词,也可以通过识别用户点击的链接获取与该链接关联的检索词,对于上述检索词的获取方式在此不做限定。在一种实现方式中,用户可以在用户终端中,通过该医学数据库对应的搜索框输入检索词,以获得与该检索词对应的检索信息;用户终端通过搜索框获得检索词之后,可以通过用户终端与计算机设备之间的网络连接,将检索词发送至计算机设备。在另一种实现方式中,用户可以通过页面浏览医学报告,为了便于用户阅读,可以在医学报告的浏览界面上针对专业性强的医学词汇添加超链接,当用户点击上述超链接时,计算机设备可以获得用户需要查询的检索词。
可选地,计算机设备可以对医学报告进行语义识别处理,获得检索词;然后,在医学数据库中对所述检索词进行检索,获得检索词的检索信息;在医学报告中检索词所在位置,添加与该检索信息对应的超链接。计算机设备可以对医学报告进行语义识别,获得上述医学报告中专业性强的医学词汇,并将上述医学词汇作为检索词,在医学数据库中检索上述检索词的信息。具体地,计算机设备可以通过语义识别方法,对医学报告中的诊断、检查文本进行处理,识别一组词汇;每个识别到的词汇均可以包括词汇类型、起始位置以及结束位置。例如,医学报告文本为:“女,2岁,主因咳嗽、咳痰1周,加重伴发热3天;于2017年1月05日12:09以急性支气管炎收入院”,采用上述方法获得的识别结果可以如下表所示。进一步地,计算机设备可以对上述识别到的医学词汇进行筛选,获得检索词;计算机设备可以在医学数据库中检索上述各个检索词,获得检索词对应的检索信息以及在数据库中的标识;计算机设备可以根据检索词的起始位置和结束为止,采用文本替代的方式添加超链接。用户点击超链接后,可以通过上述专有的医学数据库直接查询到上述词汇对应的医学信息,而不需要在全网进行搜索,使得用户获得的医学信息更准确,检索效率更高;另外,上述医学数据库还可以为用户提供正确的科普知识,以及提供个性化的健康建议等。
词汇 | 起始位置 | 结束为止 | 词汇类型 |
咳嗽 | 9 | 11 | 症状和体征 |
咳痰 | 12 | 14 | 症状和体征 |
发热 | 20 | 22 | 症状和体征 |
急性支气管炎 | 43 | 49 | 疾病和诊断 |
计算机设备可以根据医学数据库的检索记录,记录各个检索词对应的检索次数。当医学数据库中的检索词被编辑之后,计算机设备还可以记录各个检索词被编辑的次数。
S102、根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关。
在上述步骤的基础上,计算机设备可以根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数。上述更新优先级参数用于确定医学数据库中各个检索词的更新优先级。计算机设备在根据检索次数和编辑次数确定更新优先级时,检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关。计算机设备可以认为,检索次数越大,则该检索词在医学报告中出现的频率更高;检索次数越小,则该检索词在医学报告中出现的频率越低;编辑次数越大,则该检索词在医学数据库中关联的信息越丰富;编辑次数越小,则该检索词在医学数据库中关联的信息越少。
计算机设备可以根据检索次数以及编辑次数对应的阈值区间,确定该检索词的更新优先级参数,也可以将检索次数和编辑次数代入预设公式,计算该检索词对应的更新优先级参数,对于上述更新优先级参数的确定方法在此不做限定。
S103、根据更新优先级参数,确定各检索词的更新优先级。
在获得各个检索词的更新优先级参数之后,计算机设备可以基于上述优先级参数确定该医学数据库中各检索词的更新优先级。上述更新优先级中可以包括需要更新的检索词,也可以包括医学数据库中所有的检索词,在此不做限定。
进一步地,计算机设备可以在更新顺序中提取更新优先级靠前的目标检索词;然后获取目标检索词的更新信息,并将更新信息添加入数据库中。在对目标检索词进行更新之后,计算机设备还可以更新目标检索词的编辑次数,也就是说,上述各个检索词的编辑次数可以随着检索词的编辑状态进行更新。
上述医学数据库更新方法,计算机设备获取各检索词对应的检索次数和编辑次数;然后,根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;最后,根据更新优先级参数,确定各检索词的更新顺序;其中,上述检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关。由于计算机设备获取了各个检索词对应的检索次数和编辑次数,从而可以根据检索次数和编辑次数获得检索词的更新优先级参数;进一步地,由于检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关,因此计算机设备可以将检索次数较多且未被编辑的检索词汇靠前排列,使得该词汇可以被及时更新,提升了医学数据库的更新效率,并提升医学数据库的可用性和可靠性。
图3为另一个实施例中医学数据库更新方法的流程示意图,本实施例涉及计算机设备确定检索词的更新优先级参数的一种实现方式,在上述实施例的基础上,如图3所示,上述S102包括:
S201、根据检索词的收录状态,确定检索词的分组类型;不同分组类型对应不同的更新优先级参数的计算方式。
其中,上述收录状态可以为检索词是否收录在该医学数据库中的状态。若数据库中包含该检索词,那么该检索词的收录状态为已被收录在数据库中;若数据库中不包含该检索词,那么该检索词的收录状态为未被收录在数据库中。
计算机设备可以根据检索词的收录状态确定检索词的分组类型,从而可以根据分组类型确定该检索词的更新优先级参数的计算方式。可选地,上述分组类型可以是未收录词汇和已收录词汇中的其中一种;若检索词已被收录在数据库中,则确定检索词的分组类型为已收录词汇;若检索词未被收录在数据库中,则确定检索词的分组类型为未收录词汇。
上述不同的计算方式可以是不同的计算公式。上述不同的计算公式中可以对应不同类型的参数,也可以是对应同一类型的参数的不同参数值,在此不做限定。
S202、根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数。
计算机设备获得检索词的分组类型之后,可以进一步确定该检索词对应的更新优先级参数的计算方式。具体地,计算机设备中可以包括分组类型与计算方式的对应关系,从而可以根据该对应关系确定检索词对应的更新优先级参数的计算方式。在确定了计算方式之后,计算机设备可以根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数。
上述医学数据库更新方法,计算机设备针对不同的分组类型确定不同的更新优先级参数的计算方式,从而可以对不同收录状态的检索词获得更匹配的更新优先级参数,进一步提升了医学数据库更新的有效性。
图4为另一个实施例中数据库更新方法的流程示意图,本实施例涉及计算机设备确定检索词的分组类型的一种实现方式,在上述实施例的基础上,如图4所示,上述S201包括:
S301、在其他数据库中对检索词进行爬虫检索;其中,其他数据库为数据库之外用于存储医学词汇信息的公开数据库。
计算机设备可以与多个数据库连接,当检索词未被收录在该数据库时,计算机设备可以在连接的其他数据库中对该检索词进行爬虫检索。上述其他数据库中可以存储医学词汇信息,可以是用于存储医学词汇信息的专有数据库,也可以是存储综合信息的公开数据库,在此不做限定。例如,上述数据库为医学报告关联的专有数据库,上述其他数据库为与医学报告系统具有信息获取协议关系的医学信息数据库;当专有数据库中不包含检索词的信息时,计算机设备可以在其他医学信息数据库爬虫检索该检索词。
S302、若在其他数据库中未爬虫检索到检索词,则确定检索词的分组类型为未收录词汇。
若在其他数据库中也未能检索到该检索词的信息,那么计算机设备可以确定该检索词的分组类型为未收录词汇。
进一步地,若在其他数据库中爬虫检索到检索词,则可以将爬虫检索的结果添加入该数据库中,并确定检索词的分组类型为初始收录词汇。
上述医学数据库更新方法,计算机设备通过在其他数据库中进行爬虫检索,可以快速获得检索词的信息,提升数据库更新效率。
在一个实施例中,检索词的分组类型为未收录词汇、初始收录词汇以及已收录词汇中的其中一种的情况下,计算机设备确定检索词的更新优先级参数的方法可以包括:若检索词的分组类型为未收录词汇,则将检索次数确定为更新优先级参数;若检索词的分组类型为初始收录词汇,则根据检索次数以及预设参数确定更新优先级参数;预设参数由检索次数的量级确定;若检索词的分组类型为已收录词汇,则根据与编辑次数以及检索次数有关的关系式,确定检索词的更新优先级参数。其中,上述关系式可以是对数关系式,也可以是指数关系式,还可以是其他形式的关系式,在此不做限定。
例如,上述更新优先级参数的计算方法中,在预设时长内获取的检索词的检索次数可以表示为Cori,更新优先级参数可以表示为Cmodify,编辑次数可以表示为Cedit。
若检索词的分组类型为未收录词汇,对应的更新优先级参数的计算方法可以为:Cmodify=Cori。
若检索词的分组类型为初始收录词汇,对应的更新优先级参数的计算方法可以为:Cmodify=k2(Cori+Coffset);其中,k2和Coffset为预设参数,k2<1。由上述公式可知,对于初始收录词汇,检索次数越高,更新优先级参数越大;而相对于未收录词汇,由于k2<1,则相对于未被收录词汇,计算机设备可以降低初始收录词汇的更新优先级。
若检索词的分组类型为已收录词汇,对应的更新优先级参数的计算方法可以为:Cmodify=k1logCeditCori;其中,k1为预设参数,k1>1。由上述公式可知,编辑次数越大,对应的更新优先级参数越小,也就是说当检索词被编辑多次之后,计算机设备认为该检索词被更新的需求较低。
上述预设参数由检索次数的量级确定。在一种实现方式中,对于医学报告数量较多的系统,上述医学报告中识别到的检索词的次数较多,当该系统中流行词汇的检索次数大于1000时,可以设置k1=1.5,k2<=0.1,Coffset=50。当该系统中的检索次数的量级发生变化,上述预设参数可以根据新的检索次数的量级进行调整。采用上述方法获得的更新优先级参数可以如下表所示:
C<sub>ori</sub> | 分组类型 | C<sub>edit</sub> | C<sub>modify</sub> | |
检索词1 | 32 | 已收录词汇 | 2 | 7.5 |
检索词2 | 32 | 初始收录词汇 | 1 | 8.2 |
检索词3 | 32 | 未收录词汇 | 0 | 32 |
检索词4 | 256 | 已收录词汇 | 2 | 12 |
检索词5 | 256 | 初始收录词汇 | 1 | 30.6 |
检索词6 | 256 | 未收录词汇 | 0 | 256 |
检索词7 | 1024 | 已收录词汇 | 2 | 10 |
检索词8 | 1024 | 初始收录词汇 | 1 | 152.4 |
检索词9 | 1024 | 未收录词汇 | 0 | 1024 |
检索词10 | 1024 | 已收录词汇 | 3 | 9.45 |
检索词11 | 16384 | 已收录词汇 | 3 | 13.2 |
计算机设备可以根据各个检索词对应的更新优先级参数,对检索词进行排序,确定更新优先级。上述更新优先级参数越大,更新优先级越高,对应的更新顺序越靠前。当数据库运行稳定之后,未收录词汇逐渐减少,初始收录词汇和未收录词汇的更新顺序位置靠前,使得工作人员可以及时对上述初始收录词汇和未收录词汇进行编辑。
上述医学数据库更新方法,计算机设备通过不同的计算方法计算不同分组类型的检索词的更新优先级参数,可以使未收录的检索词以及检索次数较多的初始收录的检索词对应的更新顺序靠前,使得上述检索词的信息可以被及时更新,提升数据库的更新效果。
在一个实施例中,在上述实施例的基础上,提供一种数据库更新方法,如图5所示,包括:
S401、获取各检索词对应的检索次数和编辑次数。
S402、确定检索词是否被收录在数据库中,若是,则执行S403,若否,则执行S404。
S403、确定检索词的分组类型为已收录词汇。
S404、在其他数据库中对检索词进行爬虫检索,确定是否爬虫检索到该检索词;若否,则执行S405;若是,则执行S406。
S405、确定检索词的分组类型为未收录词汇。
S406、将爬虫检索的结果添加入数据库中,然后执行S407。
S407、确定检索词的分组类型为初始收录词汇。
S408、根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数。
S409、根据更新优先级参数,确定各检索词的更新优先级。
上述医学数据库更新方法,其实现原理和技术效果与上述实施例类似,在此不做赘述。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种医学数据库更新装置,包括
获取模块10,用于获取各检索词对应的检索次数和编辑次数;
确定模块20,用于根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关;
排序模块30,用于根据更新优先级参数,确定各检索词的更新优先级。
上述提供的医学数据库更新装置,可以执行上述资源分配方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,在上述实施例的基础上,如图7所示,上述确定模块20包括:
分组单元201,用于根据检索词的收录状态,确定检索词的分组类型;不同分组类型对应不同的更新优先级参数的计算方式;
计算单元202,用于根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数。
在一个实施例中,在上述实施例的基础上,上述分组单元201具体用于:若检索词已被收录在数据库中,则确定检索词的分组类型为已收录词汇;若检索词未被收录在数据库中,则确定检索词的分组类型为未收录词汇。
在一个实施例中,在上述实施例的基础上,上述分组单元201具体用于:在其他数据库中对检索词进行爬虫检索;其中,其他数据库为数据库之外用于存储医学词汇信息的公开数据库;若在其他数据库中未爬虫检索到检索词,则确定检索词的分组类型为未收录词汇;若在其他数据库中爬虫检索到检索词,则将爬虫检索的结果添加入数据库中,并确定检索词的分组类型为初始收录词汇。
在一个实施例中,在上述实施例的基础上,上述计算单元202,具体用于:若检索词的分组类型为未收录词汇,则将检索次数确定为更新优先级参数;若检索词的分组类型为初始收录词汇,则根据检索次数以及预设参数确定更新优先级参数;预设参数由检索次数的量级确定;若检索词的分组类型为已收录词汇,则根据与编辑次数以及检索次数有关的关系式确定检索词的更新优先级参数。
在一个实施例中,在上述实施例的基础上,编辑次数随着检索词的编辑状态进行更新。
在一个实施例中,在上述实施例的基础上,如图8所示,上述装置还包括链接模块40,用于:对医学报告进行语义识别处理,获得检索词;在数据库中对检索词进行检索,获得检索词的检索信息;在医学报告中检索词所在位置,添加与检索信息对应的超链接。
关于医学数据库更新装置的具体限定可以参见上文中对于医学数据库更新方法的限定,在此不再赘述。上述医学数据库更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医学数据库更新数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医学数据库更新方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取各检索词对应的检索次数和编辑次数;
根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关;
根据更新优先级参数,确定各检索词的更新优先级。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据检索词的收录状态,确定检索词的分组类型;不同分组类型对应不同的更新优先级参数的计算方式;根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若检索词已被收录在数据库中,则确定检索词的分组类型为已收录词汇;若检索词未被收录在数据库中,则确定检索词的分组类型为未收录词汇。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在其他数据库中对检索词进行爬虫检索;其中,其他数据库为数据库之外用于存储医学词汇信息的公开数据库;若在其他数据库中未爬虫检索到检索词,则确定检索词的分组类型为未收录词汇;若在其他数据库中爬虫检索到检索词,则将爬虫检索的结果添加入数据库中,并确定检索词的分组类型为初始收录词汇。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若检索词的分组类型为未收录词汇,则将检索次数确定为更新优先级参数;若检索词的分组类型为初始收录词汇,则根据检索次数以及预设参数确定更新优先级参数;预设参数由检索次数的量级确定;若检索词的分组类型为已收录词汇,则根据与编辑次数以及检索次数有关的关系式确定检索词的更新优先级参数。
在一个实施例中,编辑次数随着检索词的编辑状态进行更新。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对医学报告进行语义识别处理,获得检索词;在数据库中对检索词进行检索,获得检索词的检索信息;在医学报告中检索词所在位置,添加与检索信息对应的超链接。
本实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取各检索词对应的检索次数和编辑次数;
根据检索词对应的检索次数以及编辑次数,确定检索词的更新优先级参数;检索次数与更新优先级参数正相关,编辑次数与更新优先级参数负相关;
根据更新优先级参数,确定各检索词的更新顺序。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据检索词的收录状态,确定检索词的分组类型;不同分组类型对应不同的更新优先级参数的计算方式;根据检索词的检索次数、编辑次数以及与分组类型匹配的计算方式,确定检索词的更新优先级参数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若检索词已被收录在数据库中,则确定检索词的分组类型为已收录词汇;若检索词未被收录在数据库中,则确定检索词的分组类型为未收录词汇。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在其他数据库中对检索词进行爬虫检索;其中,其他数据库为数据库之外用于存储医学词汇信息的公开数据库;若在其他数据库中未爬虫检索到检索词,则确定检索词的分组类型为未收录词汇。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若在其他数据库中爬虫检索到检索词,则将爬虫检索的结果添加入数据库中,并确定检索词的分组类型为初始收录词汇。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若检索词的分组类型为未收录词汇,则将检索次数确定为更新优先级参数;若检索词的分组类型为初始收录词汇,则根据检索次数以及预设参数确定更新优先级参数;预设参数由检索次数的量级确定;若检索词的分组类型为已收录词汇,则根据与编辑次数以及检索次数有关的关系式确定检索词的更新优先级参数。
在一个实施例中,编辑次数随着检索词的编辑状态进行更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对医学报告进行语义识别处理,获得检索词;在数据库中对检索词进行检索,获得检索词的检索信息;在医学报告中检索词所在位置,添加与检索信息对应的超链接。
本实施例提供的计算机存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种医学数据库更新方法,其特征在于,所述方法包括:
获取各检索词对应的检索次数和编辑次数;所述编辑次数为所述检索词在医学数据库中被编辑的次数;
根据所述检索词对应的检索次数以及编辑次数,确定所述检索词的更新优先级参数;所述检索次数与所述更新优先级参数正相关,所述编辑次数与所述更新优先级参数负相关;
根据所述更新优先级参数,确定所述各检索词的更新优先级。
2.根据权利要求1所述的方法,其特征在于,所述根据所述检索词的检索次数以及编辑次数,确定所述检索词的更新优先级参数,包括:
根据所述检索词的收录状态,确定所述检索词的分组类型;不同分组类型对应不同的更新优先级参数的计算方式;
根据所述检索词的检索次数、编辑次数以及与所述分组类型匹配的计算方式,确定所述检索词的更新优先级参数。
3.根据权利要求2所述的方法,其特征在于,所述分组类型为未收录词汇和已收录词汇中的其中一种;所述根据所述检索词的收录状态,确定所述检索词的分组类型,包括:
若所述检索词已被收录在所述医学数据库中,则确定所述检索词的分组类型为已收录词汇;
若所述检索词未被收录在所述医学数据库中,则确定所述检索词的分组类型为未收录词汇。
4.根据权利要求3所述的方法,其特征在于,所述确定所述检索词的分组类型为未收录词汇,包括:
在其他数据库中对所述检索词进行爬虫检索;其中,所述其他数据库为所述医学数据库之外用于存储医学词汇信息的公开数据库;
若在所述其他数据库中未爬虫检索到所述检索词,则确定所述检索词的分组类型为未收录词汇;
若在所述其他数据库中爬虫检索到所述检索词,则将所述爬虫检索的结果添加入所述医学数据库中,并确定所述检索词的分组类型为初始收录词汇。
5.根据权利要求4所述的方法,其特征在于,所述根据所述检索词的检索次数、编辑次数以及与所述分组类型匹配的计算方式,确定所述检索词的更新优先级参数,包括:
若所述检索词的分组类型为未收录词汇,则将所述检索次数确定为所述更新优先级参数;
若所述检索词的分组类型为初始收录词汇,则根据所述检索次数以及预设参数确定所述更新优先级参数;所述预设参数由所述检索次数的量级确定;
若所述检索词的分组类型为已收录词汇,则根据与所述编辑次数以及所述检索次数有关的关系式确定所述检索词的更新优先级参数。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述编辑次数随着所述检索词的编辑状态进行更新。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
对医学报告进行语义识别处理,获得所述检索词;
在所述医学数据库中对所述检索词进行检索,获得所述检索词的检索信息;
在所述医学报告中所述检索词所在位置,添加与所述检索信息对应的超链接。
8.一种医学数据库更新装置,其特征在于,所述装置包括:
获取模块,用于获取各检索词对应的检索次数和编辑次数;所述编辑次数为所述检索词在医学数据库中被编辑的次数;
确定模块,用于根据所述检索词对应的检索次数以及编辑次数,确定所述检索词的更新优先级参数;所述检索次数与所述更新优先级参数正相关,所述编辑次数与所述更新优先级参数负相关;
排序模块,用于根据所述更新优先级参数,确定所述各检索词的更新优先级。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205604.XA CN112835919B (zh) | 2021-02-24 | 2021-02-24 | 医学数据库更新方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110205604.XA CN112835919B (zh) | 2021-02-24 | 2021-02-24 | 医学数据库更新方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112835919A CN112835919A (zh) | 2021-05-25 |
CN112835919B true CN112835919B (zh) | 2022-04-26 |
Family
ID=75933125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110205604.XA Active CN112835919B (zh) | 2021-02-24 | 2021-02-24 | 医学数据库更新方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112835919B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933708A (zh) * | 2019-01-25 | 2019-06-25 | 平安科技(深圳)有限公司 | 信息检索方法、装置、存储介质及计算机设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005017682A2 (en) * | 2003-08-05 | 2005-02-24 | Cnet Networks, Inc. | Product placement engine and method |
CN101286150B (zh) * | 2007-04-10 | 2010-09-15 | 阿里巴巴集团控股有限公司 | 生成更新参数的方法和装置、展示相关关键词的方法和装置 |
CN105512226B (zh) * | 2015-11-30 | 2019-03-08 | 北大方正集团有限公司 | 一种查询优化方法及装置 |
CN105893626A (zh) * | 2016-05-10 | 2016-08-24 | 中广核工程有限公司 | 一种用于核电工程的索引库创建方法及其采用其方法的索引系统 |
CN107247798B (zh) * | 2017-06-27 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 构建搜索词库的方法和装置 |
CN111291249A (zh) * | 2020-03-04 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 信息处理的方法及装置 |
-
2021
- 2021-02-24 CN CN202110205604.XA patent/CN112835919B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933708A (zh) * | 2019-01-25 | 2019-06-25 | 平安科技(深圳)有限公司 | 信息检索方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112835919A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9317550B2 (en) | Query expansion | |
CN111178069B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN104769585B (zh) | 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法 | |
CN111445968A (zh) | 电子病历查询方法、装置、计算机设备和存储介质 | |
JP2015505629A (ja) | 情報検索を行う方法及びサーバ | |
US20130006975A1 (en) | System and method for matching entities and synonym group organizer used therein | |
CN113407623B (zh) | 数据的处理方法、装置及服务器 | |
US20160041975A1 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
CN112655047B (zh) | 对医学记录分类的方法 | |
CN113724815B (zh) | 基于决策分群模型的信息推送方法及装置 | |
CN115238173B (zh) | 基于大数据的行为分析与医疗服务推送方法、设备及介质 | |
CN109087688B (zh) | 患者信息采集方法、装置、计算机设备和存储介质 | |
CN114579839B (zh) | 一种基于网页的数据处理系统 | |
CN106874402A (zh) | 搜索方法和装置 | |
CN108228546A (zh) | 一种文本特征提取方法、装置、设备及可读存储介质 | |
CN113065018A (zh) | 一种音视频的索引库创建和检索方法、装置及电子设备 | |
US9152705B2 (en) | Automatic taxonomy merge | |
WO2020233381A1 (zh) | 基于语音识别的服务请求方法、装置及计算机设备 | |
CN107193996B (zh) | 相似病历匹配检索系统 | |
CN111091883A (zh) | 一种医疗文本处理方法、装置、存储介质及设备 | |
CN109065015B (zh) | 一种数据采集方法、装置、设备及可读存储介质 | |
CN112835919B (zh) | 医学数据库更新方法、装置、计算机设备和存储介质 | |
JP2011215984A (ja) | データ処理装置及びデータ処理方法及びプログラム | |
CN111640517B (zh) | 病历编码方法、装置、存储介质及电子设备 | |
CN112182261A (zh) | 影像存储方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |