CN116501969B - 一种基于个性化推荐算法的医药数据搜索系统 - Google Patents
一种基于个性化推荐算法的医药数据搜索系统 Download PDFInfo
- Publication number
- CN116501969B CN116501969B CN202310480600.1A CN202310480600A CN116501969B CN 116501969 B CN116501969 B CN 116501969B CN 202310480600 A CN202310480600 A CN 202310480600A CN 116501969 B CN116501969 B CN 116501969B
- Authority
- CN
- China
- Prior art keywords
- data information
- module
- data
- search
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 34
- 239000003814 drug Substances 0.000 title claims abstract description 19
- 229940079593 drug Drugs 0.000 title claims description 5
- 238000013480 data collection Methods 0.000 claims abstract description 23
- 238000010606 normalization Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000012986 modification Methods 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于个性化推荐算法的医药数据搜索系统,属于搜索引擎的技术领域,本发明主要设备包括:底层数据库,中层数据库,高层数据库,数据收集模块,数据标准化模块,数据审核模块,搜索模块,身份识别模块与系统程序模块,其中,系统程序模块能够控制身份识别模块对使用者的个人身份信息单元进行识别分析,并根据识别到的个人身份信息控制搜索模块为使用者提供符合使用者需求的数据信息,控制身份识别模块根据使用者在使用搜索模块时浏览的数据信息类型,不断完善个人身份信息,并通过不断完善的个人信息修改数据收集模块、数据标准化模块与数据审核模块的应用算法,使搜索系统能够满足使用者的需求。
Description
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种基于个性化推荐算法的医药数据搜索系统。
背景技术
搜索系统是指按照用户的需求与一定的算法,运用特定的策略从互联网检索制定的信息反馈给用户的一门检索数据技术。搜索系统基于网络爬虫技术、网页处理技术、大数据处理技术等技术手段,为信息检索用户提供快速、高效的信息服务,数据搜索系统在医疗器械行业中应用广泛,对于医疗器械行业的发展起到了关键性作用。
公告号CN110020091A公开了一种基于区块链的医疗搜索引擎系统,区块链搜索引擎系统包括操作系统和处理系统;操作系统包括搜索设置单元、搜索信息设定单元以及搜索信息筛选单元;搜索设置单元与搜索信息设定单元连接,搜索信息设定单元与医疗数据处理单元连接,医疗数据处理单元和查找单元连接,查找单元与医疗数据结果显示单元连接,医疗数据结果显示单元与搜索信息筛选单元连接;处理系统包括医疗数据处理单元和医疗数据结果显示单元;本发明通过简单的搜索程序可以在整个系统中进行全面的搜索,搜索信息准确,节省了搜索时间,方便搜索用户的使用。
以上系统未设置搜索模块与身份识别模块,无法根据识别到的个人身份信息为使用者提供符合使用者需求的数据信息,也无法根据使用者浏览的数据信息类型,不断完善个人身份信息,使搜索系统的搜索效果下降。
发明内容
为此,本发明提供一种基于个性化推荐算法的医药数据搜索系统,用以克服现有技术中无法根据识别到的个人身份信息为使用者提供符合使用者需求的数据信息,也无法根据使用者浏览的数据信息类型,不断完善个人身份信息,使搜索系统的搜索效果下降。
为实现上述目的,本发明提供一种基于个性化推荐算法的医药数据搜索系统,包括,
医药数据库,用于存储搜索系统中的全部数据信息;
数据收集模块,用于在互联网上收集医药相关的数据信息,并将数据信息传输至所述医药数据库中;
数据标准化模块,用于对医药数据库中的数据信息进行整理、提取、分类的标准化处理操作,并将原始数据信息构建为数据信息单元,使数据信息以单元为单位的组织形式存储在医药数据库中,并为每个数据信息单元编辑独立的单元编号;
数据审核模块,用于对医药数据库中完成标准化处理操作的信息进行审核;
搜索模块,用于识别使用者输入的搜索词,并根据搜索词对医药数据库中的数据信息进行搜索;
身份识别模块,用于对系统的使用者进行身份识别,并根据系统使用者不同的身份信息,制定出使用者的个人身份信息单元;
系统程序模块,用于协调控制所述医药数据库、所述数据收集模块、所述数据标准化模块、所述数据审核模块、所述搜索模块与所述身份识别模块进行组合工作,系统程序模块能够控制身份识别模块对使用者的个人身份信息单元进行识别分析,并根据识别到的个人身份信息控制搜索模块为使用者提供符合使用者需求的数据信息,并控制身份识别模块根据使用者在使用搜索模块时浏览的数据信息类型,不断完善个人身份信息,并通过不断完善的个人信息修改数据收集模块、数据标准化模块与数据审核模块的应用算法,使搜索系统能够满足使用者的需求。
进一步的,所述医药数据库,包括,
高层数据库,用于存储所述数据收集模块、所述数据标准化模块、所述数据审核模块、所述搜索模块、所述身份识别模块与所述系统程序模块的程序数据信息;
中层数据库,用于存储使用者的个人身份信息单元,并存储所述医药数据库中所有数据信息单元的单元编号;
底层数据库,用于存储所述数据收集模块从互联网上收集到的全部数据信息单元,并存储有医学名词词库;
所述各层级数据库相互连接。
进一步的,所述数据标准化模块能够对每个独立的数据信息单元中的数据信息进行识别,并判断数据信息单元中的数据信息是否具有标题,
若该数据信息单元中的数据信息具有标题,所述数据标准化模块直接将原标题作为该数据信息单元的标题;
若该数据信息单元中的数据信息不具有标题,所述数据标准化模块对该单元中的数据信息进行分析,根据对数据信息的分析,提取出医学相关的高频关键词,并为该数据信息单元设定标题。
进一步的,所述数据标准化模块具有数据分类算法,并能够对所述底层数据库中的全部数据信息单元进行分类;
所述数据标准化模块对数据信息单元标题中的医学名字进行提取,并将标题中具有同类医学名词的数据信息单元划分为以该医学名词作为标题的数据信息组;
所述数据标准化模块对每个数据信息组进行编号,数据信息组中保存有其类别下全部数据信息单元的单元编号,并且数据标准化模块将全部数据信息组存储在所述中层数据库中;
一个数据信息单元的标题中具有两个或两个以上的医学名词,该数据信息单元能够同时属于两个或两个以上的数据信息组;
所述数据标准化模块根据同一数据信息单元的标题中医学名词的数量,判定该数据信息单元的分类属性,
若同一数据信息单元的标题中仅具有一个医学名词,并仅属于一个数据信息组,所述数据标准化模块判定该数据信息单元的分类属性为单一类别数据信息单元;
若同一数据信息单元的标题中具有两个或两个以上的医学名词,并属于两个或两个以上的数据信息组,所述数据标准化模块判定该数据信息单元的分类属性为复合类别数据信息单元。
进一步的,所述身份识别模块具有使用者需求算法,使用者需求算法能够对使用者个人身份信息单元中的个人信息进行分析计算,并生成使用者需求单元;
所述身份识别模块对使用者个人身份信息单元中出现的医学名词进行提取,并将个人身份信息单元中出现的医学名词与各数据信息组的标题进行相似度计算,将计算结果记为使用者需求相似度,并根据使用者需求相似度的大小将各数据信息组进行排序,并提取出需求相似度排名第一的数据信息组的标题,保存在使用者需求单元中,作为使用者需求单元中的需求主词;
所述身份识别模块根据使用者使用所述搜索模块时,浏览的数据信息类型对使用者需求单元进行修改。
尤其,所述搜索模块能够接收使用者输入的搜索词,并将搜索词与各数据信息组的标题进行相似度计算,并将计算结果记为本次搜索中各数据信息组的关键词相似度,并且同一个数据信息组下属的全部数据信息单元与其所属的数据信息组具有相同的关键词相似度;
所述搜索模块内预设有关键词相似度参考值,搜索模块将各数据信息组的关键词相似度与关键词相似度参考值进行对比,
若数据信息组的关键词相似度大于或等于关键词相似度参考值,所述搜索模块判定该数据信息组为本次搜索范围内数据信息组;
若数据信息组的关键词相似度小于关键词相似度参考值,所述搜索模块判定该数据信息组不是本次搜索范围内数据信息组;
所述搜索模块将使用者的需求主词与本次搜索范围内数据信息组的标题进行相似度计算,并将计算结果记为需求主词相似度,并且同一个数据信息组下属的全部数据信息单元与其所属的数据信息组具有相同的需求主词相似度;
所述搜索模块在对复合类别数据信息单元进行关键词相似度与需求主词相似度计算时,从其所属的若干数据信息组标题中,计算出的关键词相似度与需求主词相似度数值最高的作为该复合类别数据信息单元的关键词相似度与需求主词相似度。
尤其,所述搜索模块将搜索范围内数据信息组下属的数据信息单元的分类属性进行评分,单一类别数据信息单元的分类属性评分大于复合类别数据信息单元的分类属性评分;
所述搜索模块内设有搜索结果排序算法,搜索结果排序算法中包括:关键词相似度权重、需求主词相似度权重与分类属性评分权重;
所述搜索模块能够将搜索范围内数据信息组下属的数据信息单元的关键词相似度、需求主词相似度与分类属性评分进行加权求和,计算出各数据信息单元的搜索结果排序评分,根据搜索结果排序评分将各数据信息单元进行初始排序。
所述搜索模块根据数据信息单元的初始排序,将前十位数据信息单元作为使用者搜索结果页面的首页信息。
进一步的,使用者浏览首页信息时,所述搜索模块记录下使用者浏览每个数据信息单元时的浏览时长,并提取浏览时长排名第一的数据信息单元,将该数据信息单元所属的数据信息组标题与搜索结果排序在十位之后的各数据信息单元标题进行相似度计算,并将计算结果对各数据信息单元的需求主词相似度进行重新赋值;
所述搜索模块对搜索结果排序在十位之后各数据信息单元重新计算搜索结果排序评分,并根据评分的大小对各数据信息单元进行排序,并将排序前十位的数据信息单元作为使用者搜索结果页面的第二页信息;
所述搜索模块对使用者浏览数据信息单元进行计时,并反复对未浏览的数据信息单元的需求主词相似度进行重新赋值,从而修改未浏览的数据信息单元的搜索结果排序评分。
尤其,其特征在于,所述搜索模块内设有使用者浏览偏好参考值;
使用者在浏览数据信息单元时,所述搜索模块能够对每一页信息中使用者浏览时长排名第一的数据信息单元进行记录,当同一数据信息组下属的数据信息单元成为使用者浏览时长排名第一的次数大于使用者浏览偏好参考值时,搜索模块将该数据信息单元所属的数据信息组标题设为使用者需求修改文件,并将使用者需求修改文件传输至所述系统程序模块;
所述系统程序模块能够将所述身份识别模块中该用户的需求主词替换为使用者需求修改文件中的标题。
尤其,所述身份识别模块能够对全部用户的需求主词进行统计分析,并将统计结果上传至所述系统程序模块;
所述系统程序模块根据需求主词的统计结果对使用者情况进行判定,调整所述数据收集模块对互联网信息的收集方向,并且控制所述数据审核模块将中层数据库中从未成作为使用者需求主词的数据信息组标题进行记录,并取消该数据信息组。
与现有技术相比,本发明的有益效果:本发明通过设置搜索模块与身份识别模块对身份识别模块中的个人身份信息单元进行识别分析,并根据识别到的个人身份信息控制搜索模块为使用者提供符合使用者需求的数据信息,并控制身份识别模块根据使用者在使用搜索模块时浏览的数据信息类型,不断完善个人身份信息,并通过不断完善的个人信息修改数据收集模块、数据标准化模块与数据审核模块的应用算法,使搜索系统能够满足使用者的需求,并提高使用者的搜索效率;
通过将医药数据库进行分层,使得数据信息单元存放在底层数据库中,数据信息单元的编号存放在中层数据库中,在数据标准化模块与搜索模块对数据信息单元进行提取时,能够直接从中层数据库中查找相应编号,极大程度的提高了搜索效率;
数据标准化模块通过分析数据信息单元标题中医学名词的数量,将数据信息单元进行区分,使得搜索模块在后续对数据信息单元进行排序时,能够将数据信息单元的专一性考虑到排序计算中,使得使用者搜索出的数据信息更具针对性;
身份识别模块通过设置需求主词,在使用者使用搜索系统时,能够为其提供与自身情况更加相关的数据信息,并能够根据需求的变化不断对信息排序的算法进行调整,随时满足了使用者需求;
搜索模块通过对使用者的浏览时长进行分析,从而及时调整后续提供的信息类别,提高了第一次排序的容错率,并且使得搜索系统为使用者提供的信息逐步符合使用者需求;
系统程序模块通过对使用者需求主词的统计分析,控制数据收集模块对信息的收集方向进行调整,从而使得搜索系统能够从基础信息收集时就满足使用者的需求,使得搜索系统中的内容更具针对性。
附图说明
图1为本发明实施例中一种基于个性化推荐算法的医药数据搜索系统的结构示意图;
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,图1为本发明实施例中一种基于个性化推荐算法的医药数据搜索系统的结构示意图;
本发明提供一种基于个性化推荐算法的医药数据搜索系统,包括,
医药数据库,用于存储搜索系统中的全部数据信息;
数据收集模块,用于在互联网上收集医药相关的数据信息,并将数据信息传输至所述医药数据库中;
数据标准化模块,用于对医药数据库中的数据信息进行整理、提取、分类的标准化处理操作,并将原始数据信息构建为数据信息单元,使数据信息以单元为单位的组织形式存储在医药数据库中,并为每个数据信息单元编辑独立的单元编号;
数据审核模块,用于对医药数据库中完成标准化处理操作的信息进行审核;
搜索模块,用于识别使用者输入的搜索词,并根据搜索词对医药数据库中的数据信息进行搜索;
身份识别模块,用于对系统的使用者进行身份识别,并根据系统使用者不同的身份信息,制定出使用者的个人身份信息单元;
系统程序模块,用于协调控制所述医药数据库、所述数据收集模块、所述数据标准化模块、所述数据审核模块、所述搜索模块与所述身份识别模块进行组合工作,系统程序模块能够控制身份识别模块对使用者的个人身份信息单元进行识别分析,并根据识别到的个人身份信息控制搜索模块为使用者提供符合使用者需求的数据信息,并控制身份识别模块根据使用者在使用搜索模块时浏览的数据信息类型,不断完善个人身份信息,并通过不断完善的个人信息修改数据收集模块、数据标准化模块与数据审核模块的应用算法,使搜索系统能够满足使用者的需求。
进一步的,所述医药数据库,包括,
高层数据库,用于存储所述数据收集模块、所述数据标准化模块、所述数据审核模块、所述搜索模块、所述身份识别模块与所述系统程序模块的程序数据信息;
中层数据库,用于存储使用者的个人身份信息单元,并存储所述医药数据库中所有数据信息单元的单元编号;
底层数据库,用于存储所述数据收集模块从互联网上收集到的全部数据信息单元,并存储有医学名词词库;
所述各层级数据库相互连接。
若不对医药数据库进行分层,搜索系统中所有的数据信息放在同一数据库中,在数据标准化模块对数据信息进行分类或提取时,需要从庞大的数据库中进行搜索,影响使用效率,通过将医药数据库进行分层,使得数据信息单元存放在底层数据库中,数据信息单元的编号存放在中层数据库中,在数据标准化模块与搜索模块对数据信息单元进行提取时,能够直接从中层数据库中查找相应编号,极大程度的提高了搜索效率。
进一步的,所述数据标准化模块能够对每个独立的数据信息单元中的数据信息进行识别,并判断数据信息单元中的数据信息是否具有标题,
若该数据信息单元中的数据信息具有标题,所述数据标准化模块直接将原标题作为该数据信息单元的标题;
若该数据信息单元中的数据信息不具有标题,所述数据标准化模块对该单元中的数据信息进行分析,根据对数据信息的分析,提取出医学相关的高频关键词,并为该数据信息单元设定标题。
进一步的,所述数据标准化模块具有数据分类算法,并能够对所述底层数据库中的全部数据信息单元进行分类;
所述数据标准化模块对数据信息单元标题中的医学名字进行提取,并将标题中具有同类医学名词的数据信息单元划分为以该医学名词作为标题的数据信息组;
所述数据标准化模块对每个数据信息组进行编号,数据信息组中保存有其类别下全部数据信息单元的单元编号,并且数据标准化模块将全部数据信息组存储在所述中层数据库中;
一个数据信息单元的标题中具有两个或两个以上的医学名词,该数据信息单元能够同时属于两个或两个以上的数据信息组;
所述数据标准化模块根据同一数据信息单元的标题中医学名词的数量,判定该数据信息单元的分类属性,
若同一数据信息单元的标题中仅具有一个医学名词,并仅属于一个数据信息组,所述数据标准化模块判定该数据信息单元的分类属性为单一类别数据信息单元;
若同一数据信息单元的标题中具有两个或两个以上的医学名词,并属于两个或两个以上的数据信息组,所述数据标准化模块判定该数据信息单元的分类属性为复合类别数据信息单元。
数据标准化模块通过分析数据信息单元标题中医学名词的数量,将数据信息单元进行区分,使得搜索模块在后续对数据信息单元进行排序时,能够将数据信息单元的专一性考虑到排序计算中,使得使用者搜索出的数据信息更具针对性。
进一步的,所述身份识别模块具有使用者需求算法,使用者需求算法能够对使用者个人身份信息单元中的个人信息进行分析计算,并生成使用者需求单元;
所述身份识别模块对使用者个人身份信息单元中出现的医学名词进行提取,并将个人身份信息单元中出现的医学名词与各数据信息组的标题进行相似度计算,将计算结果记为使用者需求相似度,并根据使用者需求相似度的大小将各数据信息组进行排序,并提取出需求相似度排名第一的数据信息组的标题,保存在使用者需求单元中,作为使用者需求单元中的需求主词;
所述身份识别模块根据使用者使用所述搜索模块时,浏览的数据信息类型对使用者需求单元进行修改。
身份识别模块若不设置需求主词,使用者在使用搜索系统时,搜索系统只能通过使用者输入的搜索词为使用者提供相关数据信息,无法根据使用者的自身情况提供更适合的数据信息,身份识别模块通过设置需求主词,在使用者使用搜索系统时,能够为其提供与自身情况更加相关的数据信息,并能够根据需求的变化不断对信息排序的算法进行调整,随时满足了使用者需求。
尤其,所述搜索模块能够接收使用者输入的搜索词,并将搜索词与各数据信息组的标题进行相似度计算,并将计算结果记为本次搜索中各数据信息组的关键词相似度,并且同一个数据信息组下属的全部数据信息单元与其所属的数据信息组具有相同的关键词相似度;
所述搜索模块内预设有关键词相似度参考值,搜索模块将各数据信息组的关键词相似度与关键词相似度参考值进行对比,
若数据信息组的关键词相似度大于或等于关键词相似度参考值,所述搜索模块判定该数据信息组为本次搜索范围内数据信息组;
若数据信息组的关键词相似度小于关键词相似度参考值,所述搜索模块判定该数据信息组不是本次搜索范围内数据信息组;
所述搜索模块将使用者的需求主词与本次搜索范围内数据信息组的标题进行相似度计算,并将计算结果记为需求主词相似度,并且同一个数据信息组下属的全部数据信息单元与其所属的数据信息组具有相同的需求主词相似度;
所述搜索模块在对复合类别数据信息单元进行关键词相似度与需求主词相似度计算时,从其所属的若干数据信息组标题中,计算出的关键词相似度与需求主词相似度数值最高的作为该复合类别数据信息单元的关键词相似度与需求主词相似度。
尤其,所述搜索模块将搜索范围内数据信息组下属的数据信息单元的分类属性进行评分,单一类别数据信息单元的分类属性评分大于复合类别数据信息单元的分类属性评分;
所述搜索模块内设有搜索结果排序算法,搜索结果排序算法中包括:关键词相似度权重、需求主词相似度权重与分类属性评分权重;
所述搜索模块能够将搜索范围内数据信息组下属的数据信息单元的关键词相似度、需求主词相似度与分类属性评分进行加权求和,计算出各数据信息单元的搜索结果排序评分,根据搜索结果排序评分将各数据信息单元进行初始排序。
所述搜索模块根据数据信息单元的初始排序,将前十位数据信息单元作为使用者搜索结果页面的首页信息。
进一步的,使用者浏览首页信息时,所述搜索模块记录下使用者浏览每个数据信息单元时的浏览时长,并提取浏览时长排名第一的数据信息单元,将该数据信息单元所属的数据信息组标题与搜索结果排序在十位之后的各数据信息单元标题进行相似度计算,并将计算结果对各数据信息单元的需求主词相似度进行重新赋值;
所述搜索模块对搜索结果排序在十位之后各数据信息单元重新计算搜索结果排序评分,并根据评分的大小对各数据信息单元进行排序,并将排序前十位的数据信息单元作为使用者搜索结果页面的第二页信息;
所述搜索模块对使用者浏览数据信息单元进行计时,并反复对未浏览的数据信息单元的需求主词相似度进行重新赋值,从而修改未浏览的数据信息单元的搜索结果排序评分。
搜索模块若在使用者浏览第二页信息时依旧使用初始排序对第二页信息进行排序,搜索模块在对数据信息单元进行初次排序不符合使用者需求的情况下,搜索系统就无法通过使用者的浏览时长对第二页的信息进行调整,从而导致搜索效果差,搜索系统的应变能力差,搜索模块通过对使用者的浏览时长进行分析,从而及时调整后续提供的信息类别,提高了第一次排序的容错率,并且使得搜索系统为使用者提供的信息逐步符合使用者需求。
尤其,其特征在于,所述搜索模块内设有使用者浏览偏好参考值;
使用者在浏览数据信息单元时,所述搜索模块能够对每一页信息中使用者浏览时长排名第一的数据信息单元进行记录,当同一数据信息组下属的数据信息单元成为使用者浏览时长排名第一的次数大于使用者浏览偏好参考值时,搜索模块将该数据信息单元所属的数据信息组标题设为使用者需求修改文件,并将使用者需求修改文件传输至所述系统程序模块;
所述系统程序模块能够将所述身份识别模块中该用户的需求主词替换为使用者需求修改文件中的标题。
尤其,所述身份识别模块能够对全部用户的需求主词进行统计分析,并将统计结果上传至所述系统程序模块;
所述系统程序模块根据需求主词的统计结果对使用者情况进行判定,调整所述数据收集模块对互联网信息的收集方向,并且控制所述数据审核模块将中层数据库中从未成作为使用者需求主词的数据信息组标题进行记录,并取消该数据信息组。
系统程序模块通过对使用者需求主词的统计分析,控制数据收集模块对信息的收集方向进行调整,从而使得搜索系统能够从基础信息收集时就满足使用者的需求,使得搜索系统中的内容更具针对性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (6)
1.一种基于个性化推荐算法的医药数据搜索系统,其特征在于,包括,
医药数据库,用于存储搜索系统中的全部数据信息;
数据收集模块,用于在互联网上收集医药相关的数据信息,并将数据信息传输至所述医药数据库中;
数据标准化模块,用于对医药数据库中的数据信息进行整理、提取、分类的标准化处理操作,并将原始数据信息构建为数据信息单元,使数据信息以单元为单位的组织形式存储在医药数据库中,并为每个数据信息单元编辑独立的单元编号;
数据审核模块,用于对医药数据库中完成标准化处理操作的信息进行审核;
搜索模块,用于识别使用者输入的搜索词,并根据搜索词对医药数据库中的数据信息进行搜索;
身份识别模块,用于对系统的使用者进行身份识别,并根据系统使用者不同的身份信息,制定出使用者的个人身份信息单元;
系统程序模块,用于协调控制所述医药数据库、所述数据收集模块、所述数据标准化模块、所述数据审核模块、所述搜索模块与所述身份识别模块进行组合工作,系统程序模块能够控制身份识别模块对使用者的个人身份信息单元进行识别分析,并根据识别到的个人身份信息控制搜索模块为使用者提供符合使用者需求的数据信息,控制身份识别模块根据使用者在使用搜索模块时浏览的数据信息类型,不断完善个人身份信息,并通过不断完善的个人信息修改数据收集模块、数据标准化模块与数据审核模块的应用算法,使搜索系统能够满足使用者的需求;
所述医药数据库,包括,
高层数据库,用于存储所述数据收集模块、所述数据标准化模块、所述数据审核模块、所述搜索模块、所述身份识别模块与所述系统程序模块的程序数据信息;
中层数据库,用于存储使用者的个人身份信息单元,并存储所述医药数据库中所有数据信息单元的单元编号;
底层数据库,用于存储所述数据收集模块从互联网上收集到的全部数据信息单元,并存储有医学名词词库;
所述各层级数据库相互连接;
所述数据标准化模块能够对每个独立的数据信息单元中的数据信息进行识别,并判断数据信息单元中的数据信息是否具有标题,
若该数据信息单元中的数据信息具有标题,所述数据标准化模块直接将原标题作为该数据信息单元的标题;
若该数据信息单元中的数据信息不具有标题,所述数据标准化模块对该单元中的数据信息进行分析,根据对数据信息的分析,提取出医学相关的高频关键词,并为该数据信息单元设定标题;
所述数据标准化模块具有数据分类算法,并能够对所述底层数据库中的全部数据信息单元进行分类;
所述数据标准化模块对数据信息单元标题中的医学名字进行提取,并将标题中具有同类医学名词的数据信息单元划分为以该医学名词作为标题的数据信息组;
所述数据标准化模块对每个数据信息组进行编号,数据信息组中保存有其类别下全部数据信息单元的单元编号,并且数据标准化模块将全部数据信息组存储在所述中层数据库中;
一个数据信息单元的标题中具有两个或两个以上的医学名词,该数据信息单元能够同时属于两个或两个以上的数据信息组;
所述数据标准化模块根据同一数据信息单元的标题中医学名词的数量,判定该数据信息单元的分类属性,
若同一数据信息单元的标题中仅具有一个医学名词,并仅属于一个数据信息组,所述数据标准化模块判定该数据信息单元的分类属性为单一类别数据信息单元;
若同一数据信息单元的标题中具有两个或两个以上的医学名词,并属于两个或两个以上的数据信息组,所述数据标准化模块判定该数据信息单元的分类属性为复合类别数据信息单元;
所述身份识别模块具有使用者需求算法,使用者需求算法能够对使用者个人身份信息单元中的个人信息进行分析计算,并生成使用者需求单元;
所述身份识别模块对使用者个人身份信息单元中出现的医学名词进行提取,并将个人身份信息单元中出现的医学名词与各数据信息组的标题进行相似度计算,将计算结果记为使用者需求相似度,并根据使用者需求相似度的大小将各数据信息组进行排序,并提取出需求相似度排名第一的数据信息组的标题,保存在使用者需求单元中,作为使用者需求单元中的需求主词;
所述身份识别模块根据使用者使用所述搜索模块时,浏览的数据信息类型对使用者需求单元进行修改。
2.根据权利要求1所述的基于个性化推荐算法的医药数据搜索系统,其特征在于,所述搜索模块能够接收使用者输入的搜索词,并将搜索词与各数据信息组的标题进行相似度计算,并将计算结果记为本次搜索中各数据信息组的关键词相似度,并且同一个数据信息组下属的全部数据信息单元与其所属的数据信息组具有相同的关键词相似度;
所述搜索模块内预设有关键词相似度参考值,搜索模块将各数据信息组的关键词相似度与关键词相似度参考值进行对比,
若数据信息组的关键词相似度大于或等于关键词相似度参考值,所述搜索模块判定该数据信息组为本次搜索范围内数据信息组;
若数据信息组的关键词相似度小于关键词相似度参考值,所述搜索模块判定该数据信息组不是本次搜索范围内数据信息组;
所述搜索模块将使用者的需求主词与本次搜索范围内数据信息组的标题进行相似度计算,并将计算结果记为需求主词相似度,并且同一个数据信息组下属的全部数据信息单元与其所属的数据信息组具有相同的需求主词相似度;
所述搜索模块在对复合类别数据信息单元进行关键词相似度与需求主词相似度计算时,从其所属的若干数据信息组标题中,计算出的关键词相似度与需求主词相似度数值最高的作为该复合类别数据信息单元的关键词相似度与需求主词相似度。
3.根据权利要求2所述的基于个性化推荐算法的医药数据搜索系统,其特征在于,所述搜索模块将搜索范围内数据信息组下属的数据信息单元的分类属性进行评分,单一类别数据信息单元的分类属性评分大于复合类别数据信息单元的分类属性评分;
所述搜索模块内设有搜索结果排序算法,搜索结果排序算法中包括:关键词相似度权重、需求主词相似度权重与分类属性评分权重;
所述搜索模块能够将搜索范围内数据信息组下属的数据信息单元的关键词相似度、需求主词相似度与分类属性评分进行加权求和,计算出各数据信息单元的搜索结果排序评分,根据搜索结果排序评分将各数据信息单元进行初始排序;
所述搜索模块根据数据信息单元的初始排序,将前十位数据信息单元作为使用者搜索结果页面的首页信息。
4.根据权利要求3所述的基于个性化推荐算法的医药数据搜索系统,其特征在于,使用者浏览首页信息时,所述搜索模块记录下使用者浏览每个数据信息单元时的浏览时长,并提取浏览时长排名第一的数据信息单元,将该数据信息单元所属的数据信息组标题与搜索结果排序在十位之后的各数据信息单元标题进行相似度计算,并将计算结果对各数据信息单元的需求主词相似度进行重新赋值;
所述搜索模块对搜索结果排序在十位之后各数据信息单元重新计算搜索结果排序评分,并根据评分的大小对各数据信息单元进行排序,并将排序前十位的数据信息单元作为使用者搜索结果页面的第二页信息;
所述搜索模块对使用者浏览数据信息单元进行计时,并反复对未浏览的数据信息单元的需求主词相似度进行重新赋值,从而修改未浏览的数据信息单元的搜索结果排序评分。
5.根据权利要求4所述的基于个性化推荐算法的医药数据搜索系统,其特征在于,所述搜索模块内设有使用者浏览偏好参考值;
使用者在浏览数据信息单元时,所述搜索模块能够对每一页信息中使用者浏览时长排名第一的数据信息单元进行记录,当同一数据信息组下属的数据信息单元成为使用者浏览时长排名第一的次数大于使用者浏览偏好参考值时,搜索模块将该数据信息单元所属的数据信息组标题设为使用者需求修改文件,并将使用者需求修改文件传输至所述系统程序模块;
所述系统程序模块能够将所述身份识别模块中使用者的需求主词替换为使用者需求修改文件中的标题。
6.根据权利要求5所述的基于个性化推荐算法的医药数据搜索系统,其特征在于,所述身份识别模块能够对全部使用者的需求主词进行统计分析,并将统计结果上传至所述系统程序模块;
所述系统程序模块根据需求主词的统计结果对使用者情况进行判定,调整所述数据收集模块对互联网信息的收集方向,并且控制所述数据审核模块将中层数据库中从未成作为使用者需求主词的数据信息组标题进行记录,并取消该数据信息组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310480600.1A CN116501969B (zh) | 2023-04-28 | 2023-04-28 | 一种基于个性化推荐算法的医药数据搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310480600.1A CN116501969B (zh) | 2023-04-28 | 2023-04-28 | 一种基于个性化推荐算法的医药数据搜索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501969A CN116501969A (zh) | 2023-07-28 |
CN116501969B true CN116501969B (zh) | 2024-01-30 |
Family
ID=87324441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310480600.1A Active CN116501969B (zh) | 2023-04-28 | 2023-04-28 | 一种基于个性化推荐算法的医药数据搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501969B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227880A (zh) * | 2016-08-01 | 2016-12-14 | 挂号网(杭州)科技有限公司 | 医生搜索推荐的实现方法 |
CN110020091A (zh) * | 2018-10-16 | 2019-07-16 | 陕西医链区块链集团有限公司 | 一种基于区块链的医疗搜索引擎系统 |
CN112163158A (zh) * | 2020-10-09 | 2021-01-01 | 贵州电网有限责任公司 | 一种基于搜索历史、浏览足迹的搜索推荐方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646092B (zh) * | 2013-12-18 | 2017-07-04 | 孙燕群 | 基于用户参与的搜索引擎排序方法 |
US11113315B2 (en) * | 2018-04-27 | 2021-09-07 | Branch Metrics, Inc. | Search keyword generation |
-
2023
- 2023-04-28 CN CN202310480600.1A patent/CN116501969B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227880A (zh) * | 2016-08-01 | 2016-12-14 | 挂号网(杭州)科技有限公司 | 医生搜索推荐的实现方法 |
CN110020091A (zh) * | 2018-10-16 | 2019-07-16 | 陕西医链区块链集团有限公司 | 一种基于区块链的医疗搜索引擎系统 |
CN112163158A (zh) * | 2020-10-09 | 2021-01-01 | 贵州电网有限责任公司 | 一种基于搜索历史、浏览足迹的搜索推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116501969A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
US6654742B1 (en) | Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics | |
CN106372226B (zh) | 信息检索装置及方法 | |
EP0704075B1 (en) | Method and apparatus for indexing searching and displaying data | |
US6665661B1 (en) | System and method for use in text analysis of documents and records | |
US6701318B2 (en) | Multiple engine information retrieval and visualization system | |
US6654744B2 (en) | Method and apparatus for categorizing information, and a computer product | |
CN100423004C (zh) | 基于内容的视频搜索调度系统 | |
CN108563773B (zh) | 基于知识图谱的法律条文精准搜索排序方法 | |
US20040172378A1 (en) | Method and apparatus for document filtering using ensemble filters | |
US20060288001A1 (en) | System and method for dynamically identifying the best search engines and searchable databases for a query, and model of presentation of results - the search assistant | |
US20030212663A1 (en) | Neural network feedback for enhancing text search | |
CN108073681A (zh) | 检索装置、检索方法以及检索程序 | |
CN115618014B (zh) | 一种应用大数据技术的标准文献分析管理系统及方法 | |
KR100973969B1 (ko) | 매체 편향의 효과를 완화하는 뉴스 서비스 시스템 및 방법 | |
US7249122B1 (en) | Method and system for automatic harvesting and qualification of dynamic database content | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
CN116501969B (zh) | 一种基于个性化推荐算法的医药数据搜索系统 | |
CN110609950B (zh) | 一种舆情系统搜索词推荐方法及系统 | |
CN112597370A (zh) | 指定需求范围的网页信息自主搜集筛选系统 | |
CN115630141B (zh) | 基于社区查询和高维向量检索的科技专家检索方法 | |
KR100407081B1 (ko) | 문서 검색 및 분류 방법 및 장치 | |
WO2010141477A2 (en) | Improved systems, methods, and interfaces for extending legal search results | |
Yuan et al. | Discovering latent aspects for diversity-induced image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |