CN116932859A - 一种医疗设备文档的搜索和浏览方法 - Google Patents
一种医疗设备文档的搜索和浏览方法 Download PDFInfo
- Publication number
- CN116932859A CN116932859A CN202311004506.5A CN202311004506A CN116932859A CN 116932859 A CN116932859 A CN 116932859A CN 202311004506 A CN202311004506 A CN 202311004506A CN 116932859 A CN116932859 A CN 116932859A
- Authority
- CN
- China
- Prior art keywords
- document
- data
- word
- page
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000010354 integration Effects 0.000 claims abstract description 88
- 230000011218 segmentation Effects 0.000 claims abstract description 66
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 230000004044 response Effects 0.000 claims abstract description 4
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 abstract 1
- 230000002776 aggregation Effects 0.000 abstract 1
- 238000012423 maintenance Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及医疗设备技术领域,特别是涉及一种医疗设备文档的搜索和浏览方法。所述方法包括:解析医疗设备的文档;将每一页文档对应的图片、每一页文档内的图片文字内容、每一页文档内的文本文字内容、及文档对应的医疗设备描述信息、文档描述信息、每一页的页描述信息整合为文档页整合数据保存,并通过分词构建所述文档页整合数据对应的分词数据;响应于第一搜索词,确定符合第一搜索词的文档页整合数据并提取信息作为用于显示的搜索结果数据;基于主观特征、客观特征和词频特征,使用预设的排序算法对各搜索结果数据进行排序;聚合后按序显示搜索结果数据。本申请的医疗设备文档的搜索和浏览方法,方便使用者快速高效地搜索和浏览信息。
Description
技术领域
本申请涉及医疗设备技术领域,特别是涉及一种医疗设备文档的搜索和浏览方法。
背景技术
随着医院建设水平和医疗设备技术的不断提高,各种功能特殊,结构复杂的医疗设备不断被研发并参与到实际的医疗诊断和手术过程中。医疗设备在使用过程中,往往会设置多个与医疗设备对应的文档信息,以便运维人员查看,然而随着医疗设备数目的增多、以及每个医疗设备对应的文档增多,再加上文档信息种类的繁杂,导致运维人员在网页端想要快速查找到自己想要的内容越来越困难,体验非常不好。
发明内容
为了解决现有技术存在的不足,本申请的目的在于提供一种医疗设备文档的搜索和浏览方法,以方便运维人员高效搜索浏览文档信息。
为实现上述目的,本申请提供一种医疗设备文档的搜索和浏览方法,包括:
解析医疗设备的每一文档为文档原始数据并保存,所述文档原始数据包括文档对应的图片格式数据、图片内文字数据和文本文字数据;其中,所述图片格式数据包括每一页文档对应的图片;所述图片内文字数据包括每一页文档内图片的图片文字内容;所述文本文字数据包括每一页文档内的文本文字内容;
将所述文档页原始数据中每一页文档对应的图片、每一页文档内的图片文字内容、每一页文档内的文本文字内容、及文档对应的医疗设备描述信息、文档描述信息、每一页的页描述信息整合为文档页整合数据保存,并通过分词构建所述文档页整合数据对应的分词数据;
响应于第一搜索词,生成所述第一搜索词对应的各分词,遍历所有文档页整合数据及对应的分词数据,确定包括所述第一搜索词或第一搜索词对应的分词的各文档页整合数据,并分别提取各文档页整合数据中的医疗设备描述信息、文档描述信息和页描述信息作为用于显示的搜索结果数据;
基于各文档页整合数据的主观特征、客观特征和各文档页整合数据关于所述第一搜索词对应的各分词的词频特征,使用预设的排序算法对各搜索结果数据进行排序;所述主观特征为文档上传人员对文档的评价量化值,所述客观特征为工程师对文档的评价量化值;
对排序后的搜索结果数据进行聚合,使各搜索结果数据中对于每一文档只存在排序最高的搜索结果数据,并确定聚合后各搜索结果数据对应的医疗设备描述信息;
组装搜索结果数据为列表,使用第一虚拟列表依序显示搜索结果数据为搜索结果,并通过所述聚合后各搜索结果数据对应的医疗设备描述信息对搜索结果进行筛选和再显示;
响应于对显示的搜索结果对应的内容的查看,确定所述搜索结果对应的文档、文档页码和文档对应的图片格式数据,并使用第二虚拟列表从所述文档页码开始显示所述图片格式数据。
进一步的,所述基于各文档页整合数据的主观特征、客观特征和各文档页整合数据关于所述第一搜索词对应分词的词频特征,使用预设的排序算法对各搜索结果数据进行排序的具体步骤包括:
确定文档页整合数据中各项子数据关于所述第一搜索词对应的各分词的词频特征;
对文档页整合数据中各项子数据关于所述第一搜索词对应的各分词的词频特征加权整合为文档页整合数据关于第一搜索词的词特征;
对所述文档页整合数据的主观特征、客观特征和所述文档页整合数据关于第一搜索词的词频特征进行加权整合,得到文档页整合数据对应的搜索结果数据的排序评分;
基于各搜索结果数据的排序评分,对文档页整合数据对应的搜索结果数据进行排序。
进一步的,所述对文档页整合数据中各项子数据关于所述第一搜索词对应的各分词的词频特征加权整合为文档页整合数据关于第一搜索词的词特征采用如下公式:
;
;
;
其中,S为第一搜索词,T为表示符合条件的文档页整合数据,为文档页整合数据T关于第一搜索词S的词特征,m为搜索词S的分词总数,n为文档页整合数据T的子数据项数,/>为第一搜索词S的逆文档频率,/>为数据项j关于分词i的词频特征,/>为数据项j的权重,docFreq表示符合条件的文档页整合数据的数量,docCount表示文档页数据的总数,freq表示分词i在数据项j中出现的频率,k1为词语频率饱和度,b为字段长度归约,为为分词j长度;avgFieldLength为所有分词的平均长度。
进一步的,所述对所述文档页整合数据的主观特征、客观特征和所述文档页整合数据关于第一搜索词的词频特征进行加权整合,得到文档页整合数据对应的搜索结果数据的排序评分采用如下公式:
;
其中,为文档页整合数据T对应的搜索结果数据的排序评分,/>为文档页整合数据T的主观特征,/>为文档页整合数据T的客观特征。
进一步的,所述医疗设备描述信息包括:设备型号、设备名称、设备品牌、设备一级分类信息、设备二级分类信息、设备三级分类信息和设备生产商信息;所述文档描述信息包括:文档标题、文档简介、文档类别、文档标识和文档总页数;所述页描述信息包括:文档当前页页码。
进一步的,所述提取各文档页整合数据中的医疗设备描述信息、文档描述信息和页描述信息作为用于显示的搜索结果数据包括:
提取各文档页整合数据中的设备型号、设备名称、设备品牌、设备一级分类信息、设备二级分类信息、设备三级分类信息、文档标题、文档总页码和当前页的页码作为用于显示的搜索结果数据。
进一步的,所述通过分词构建所述文档页整合数据对应的分词数据包括:
对所述文档页整合数据中的文档描述信息和设备描述信息进行默认分词生成第一分词数据;
对所述文档页整合数据中的文档描述信息和设备描述信息进行IK最细粒度分词和自定义分词生成第二分词数据;
对所述第一分词数据和所述第二分词数据进行转小写、语气词删除、同义词配置。
进一步的,所述第一搜索词包括至少一个关键词。
进一步的,所述方法还包括:
基于输入的搜索图,并进行OCR识别确定搜索图中的第一搜索词。
为实现上述目的,本申请提供的电子设备,包括:
处理器;
存储器,其上存储有一个或多个在所述处理器上运行的计算机程序指令;
其中,所述处理器运行所述计算机指令时,执行如上所述的医疗设备文档的搜索和浏览方法。
为实现上述目的,本申请提供的计算机可读存储介质,其上存储有计算机指令,当计算机指令被处理器运行时,执行如上所述的医疗设备文档的搜索和浏览方法的步骤。
本申请提供的医疗设备文档的搜索和浏览方法,通过对医疗设备的文档进行解析、整合等处理生成了文档页整合数据,并根据文档页整合数据适配地相设计了搜索排序算法,方便使用者快速高效的搜索和浏览信息。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,并与本申请的实施例一起,用于解释本申请,并不构成对本申请的限制。在附图中:
图1为本申请的一种医疗设备文档的搜索和浏览方法的结构示意图;
图2为本申请的构建文档页整合数据对应的分词数据的流程示意图;
图3为本申请的使用预设的排序算法对各搜索结果数据进行排序的流程示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。“多个”应理解为两个或以上。
下面,将参考附图详细地说明本申请的实施例。
实施例1
本申请的一个实施例,提供了一种医疗设备文档的搜索和浏览方法,便于快速高效搜索和浏览医疗设备信息。
图1为本申请的一种医疗设备文档的搜索和浏览方法的流程示意图,下面将参考图1对本申请的医疗设备文档的搜索和浏览方法进行详细描述,包括:
步骤S101:解析医疗设备的每一文档为文档原始数据并保存,文档原始数据包括文档对应的图片格式数据、图片内文字数据和文本文字数据;其中,图片格式数据包括每一页文档对应的图片;图片内文字数据包括每一页文档内图片的图片文字内容;文本文字数据包括每一页文档内的文本文字内容;
具体的,对于文本pdf格式的文档,使用PDFBox对文档进行逐页解析,提取每一页文档的文本文字内容存储,使用OCR工具Tess4j对每一页文档内的图片进行文字识别,识别后的文字作为图片文字内容存储,将每一页文档整体保存为图片,一个文档对应一个图片格式数据,图片格式数据由若干张图片有序组成。对于word格式的文档使用POI解析工具解析文档。对于图片类型的文档,使用OCR工具进行解析。
需要说明的是,一台医疗设备往往存在多个与其有关的文档,在解析前分别保存文档信息和医疗设备信息,在保存医疗设备信息时,会将医疗设备的医疗设备型号、名称、品牌、医疗器械一、二、三级分类、生产商、注册证号、铭牌照、设备照等信息保存到Mysql数据库中,并对每一医疗设备生成医疗设备ID;在保存文档信息时,会将医疗设备ID、文档标题、文档简介、文档类型(操作还是维修手册)、主观特征(1-5,5最高)和操作维修文档(PDF或Word格式)保存到Mysql数据库中,生成医疗设备文档ID。
步骤S102:将文档页原始数据中每一页文档对应的图片、每一页文档内的图片文字内容、每一页文档内的文本文字内容、及文档对应的医疗设备描述信息、文档描述信息、每一页的页描述信息整合为文档页整合数据保存,并通过分词构建文档页整合数据对应的分词数据;
在本实施方式中,文档页整合数据包括文档页ID、设备ID、设备型号、设备名称、设备品牌、医疗器械一、二、三级分类、设备生产商、医疗设备文档ID、主观特征、客观特征、文档类型、文档总页数、文档当前页码、文档当前页文本文字内容、文档当前页图片文字内容、文档当前页对应图片地址等信息。
可以理解的是,设备型号、设备名称、设备品牌、设备一级分类信息、设备二级分类信息、设备三级分类信息和设备生产商信息等为医疗设备描述信息。
可以理解的是,文档标题、文档简介、文档类别、文档标识和文档总页数为文档描述信息。
可以理解的是,文档当前页页码为页描述信息。
需要说明的是,主观特征为文档上传人员对文档的评价量化值,客观特征为工程师对文档的评价量化值。
在本实施方式中,客观特征会随着使用者的评价实时更新。
在本实施方式中,通过分词构建文档页整合数据对应的分词数据的步骤参阅图2,包括:
步骤S201:对文档页整合数据中的文档描述信息和设备描述信息进行默认分词生成第一分词数据;
可以理解的是,在进行分词前,会对数据进行出标签、字符替换等处理,以便于分词。
需要说明的是,默认分词即把词分为字,如“迈瑞呼吸机”对应的默认分词为:“迈”、“瑞”、“呼”、“吸”、“机”。
步骤S202:对文档页整合数据中的文档描述信息和设备描述信息进行IK最细粒度分词和自定义分词生成第二分词数据;
具体的,对于文档描述信息和设备描述信息,如对文档标题、文档简介、文档类别、设备型号、设备名称、设备品牌、医疗器械一、二、三级分类、设备生产商等信息,进行IK最细粒度分词和自定义分词。
示例性的,“迈瑞呼吸机”的IK最细粒度分词为:“迈”、“瑞”、“呼吸机”、“呼吸”、“机”。
示例性的,“迈瑞呼吸机”的IK最细粒度分词+自定义分词的分词为:“迈瑞”、 “呼吸机”、“呼吸”、“机”。
步骤S203:对第一分词数据和第二分词数据进行转小写、语气词删除、同义词配置。
示例性的,配置CT的同义词计算机断层扫描系统等。
需要说明的是,分词时不对图片文字内容和文本文字内容进行分词,而是处理成KEYWORD类型,该类型可以支持文字的精准匹配,因此在遍历所有文档页数据及对应的分词数据时,会对图片文字内容和文本文字内容进行精准匹配,比如当第一搜索词为“迈瑞呼吸机”时,只有图片文字内容和文本文字内容中包含“迈瑞呼吸机”时,即完整的且顺序一致的词才能被匹配。这样的设计能使搜索时更精准。
步骤S103:响应于第一搜索词,生成第一搜索词对应的各分词,遍历所有文档页整合数据及对应的分词数据,确定包括所述第一搜索词或第一搜索词对应的分词的各文档页整合数据,并分别提取各文档页整合数据中的医疗设备描述信息、文档描述信息和页描述信息作为用于显示的搜索结果数据;
在本实施方式中,提取各文档页整合数据中的医疗设备描述信息、文档描述信息和页描述信息作为用于显示的搜索结果数据包括:
提取各文档页整合数据中的设备型号、设备名称、设备品牌、设备一级分类信息、设备二级分类信息、设备三级分类信息、文档标题、文档总页码和当前页的页码作为用于显示的搜索结果数据。
在另外一些实施方式中,还可以提取文档页整合数据中的其他数据作为用于显示的搜索结果数据。
在本实施方式中,在确定搜索结果数据时,使用match半精确搜索查询方法对文档页整合数据中的医疗设备描述信息、文档描述信息进行遍历搜索,使用term精准搜索查询方法对图片文字内容和文本文字内容进行遍历搜索。
在本实施方式中,第一搜索词包括至少一个关键词。即第一搜索词可以是一个词,也可以是多个词。
可以理解的是,第一搜索词为用户输入的词,该词可能为设备型号、设备类别和设备名称等,
在另外一些实施方式中,用户还可以通过直接拍摄带有搜索信息的图片作为搜索图,去进行搜索。
具体的,即搜索信息的图片作为搜索图,进行OCR识别确定搜索图中的第一搜索词。
在本实施方式中,搜索图包括但不限于设备的铭牌图,设备标签图,带文字的logio图等。
步骤S104:基于各文档页整合数据的主观特征、客观特征和各文档页整合数据关于第一搜索词对应的各分词的词频特征,使用预设的排序算法对各搜索结果数据进行排序;主观特征为文档上传人员对文档的评价量化值,客观特征为工程师对文档的评价量化值;
在本实施方式中,基于各文档页整合数据的主观特征、客观特征和各文档页整合数据关于第一搜索词对应分词的词频特征,使用预设的排序算法对各搜索结果数据进行排序的具体步骤参阅图3,包括:
步骤S301:确定文档页整合数据中各项子数据关于第一搜索词对应的各分词的词频特征;
步骤S302:对文档页整合数据中各项子数据关于第一搜索词对应的各分词的词频特征加权整合为文档页整合数据关于第一搜索词的词特征;
具体的,对文档页整合数据中各项子数据关于第一搜索词对应的各分词的词频特征加权整合为文档页整合数据关于第一搜索词的词特征采用如下公式:
;
;
;
其中,S为第一搜索词,T为表示符合条件的文档页整合数据,为文档页整合数据T关于第一搜索词S的词特征,m为搜索词S的分词总数,n为文档页整合数据T的子数据项数,/>为第一搜索词S的逆文档频率,/>为数据项j关于分词i的词频特征,/>为数据项j的权重,docFreq表示符合条件的文档页整合数据的数量,docCount表示文档页数据的总数,freq表示分词i在数据项j中出现的频率,k1为词语频率饱和度,b为字段长度归约,为为分词j长度;avgFieldLength为所有分词的平均长度。
需要说明的是,k1用于控制词频对结果的影响,数值越低则词数量影响越小,其值一般介于1.2-2.0之间,默认为1.2。
需要说明的是,b用于控制文本长度对结果的影响,数值越大文本长度影响越小。其值在 0 和 1 之间,默认为0.75。
步骤S303:对文档页整合数据的主观特征、客观特征和文档页整合数据关于第一搜索词的词频特征进行加权整合,得到文档页整合数据对应的搜索结果数据的排序评分;
步骤S304:基于各搜索结果数据的排序评分,对文档页整合数据对应的搜索结果数据进行排序。
具体的,对文档页整合数据的主观特征、客观特征和文档页整合数据关于第一搜索词的词频特征进行加权整合,得到文档页整合数据对应的搜索结果数据的排序评分采用如下公式:
;
其中,为文档页整合数据T对应的搜索结果数据的排序评分,/>为文档页整合数据T的主观特征,/>为文档页整合数据T的客观特征。
在本实施的方式中,主观特征和客观特征的数值在1-5之间。
步骤S105:对排序后的搜索结果数据进行聚合,使各搜索结果数据中对于每一文档只存在排序最高的搜索结果数据;
步骤S106:组装搜索结果数据为列表,使用第一虚拟列表依序显示搜索结果数据为搜索结果,并通过所述聚合后各搜索结果数据对应的医疗设备描述信息对搜索结果进行筛选和再显示;
需要说明的是,虚拟列表技术是网页端优化渲染的一种实现方式,可以快速稳定的查看长列表网页。
在本实施方式中,使用第一虚拟列表依序显示搜索结果数据。
显示的搜索结果数据还可以通过设备型号、设备名称、设备品牌、设备一级分类信息、设备二级分类信息、设备三级分类信息和设备生产商信息等医疗设备描述信息对搜索结果进行筛选和再显示。
步骤S107:响应于对显示的搜索结果对应的内容的查看,确定搜索结果对应的文档、文档页码和文档对应的图片格式数据,并使用第二虚拟列表从文档页码开始显示图片格式数据。
实施例2
本实施例中,还提供一种电子设备,电子设备包括处理器和存储器。存储器用于存储非暂时性计算机可读指令(例如一个或多个计算机程序模块)。处理器用于运行非暂时性计算机可读指令,非暂时性计算机可读指令被处理器运行时可以执行上文的医疗设备文档的搜索和浏览方法的一个或多个步骤。
实施例3
本实施例中,还提供一种计算机可读存储介质,存储介质用于存储非暂时性计算机可读指令。例如,当非暂时性计算机可读指令由计算机执行时可以执行根据上文的医疗设备文档的搜索和浏览方法中的一个或多个步骤。
以上描述仅为本申请的部分实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (11)
1.一种医疗设备文档的搜索和浏览方法,其特征在于,所述方法包括:
解析医疗设备的每一文档为文档原始数据并保存,所述文档原始数据包括文档对应的图片格式数据、图片内文字数据和文本文字数据;其中,所述图片格式数据包括每一页文档对应的图片;所述图片内文字数据包括每一页文档内图片的图片文字内容;所述文本文字数据包括每一页文档内的文本文字内容;
将所述文档页原始数据中每一页文档对应的图片、每一页文档内的图片文字内容、每一页文档内的文本文字内容、及文档对应的医疗设备描述信息、文档描述信息、每一页的页描述信息整合为文档页整合数据保存,并通过分词构建所述文档页整合数据对应的分词数据;
响应于第一搜索词,生成所述第一搜索词对应的各分词,遍历所有文档页整合数据及对应的分词数据,确定包括所述第一搜索词或第一搜索词对应的分词的各文档页整合数据,并分别提取各文档页整合数据中的医疗设备描述信息、文档描述信息和页描述信息作为用于显示的搜索结果数据;
基于各文档页整合数据的主观特征、客观特征和各文档页整合数据关于所述第一搜索词对应的各分词的词频特征,使用预设的排序算法对各搜索结果数据进行排序;所述主观特征为文档上传人员对文档的评价量化值,所述客观特征为工程师对文档的评价量化值;
对排序后的搜索结果数据进行聚合,使各搜索结果数据中对于每一文档只存在排序最高的搜索结果数据,并确定聚合后各搜索结果数据对应的医疗设备描述信息;
组装搜索结果数据为列表,使用第一虚拟列表依序显示搜索结果数据为搜索结果,并通过所述聚合后各搜索结果数据对应的医疗设备描述信息对搜索结果进行筛选和再显示;
响应于对显示的搜索结果对应的内容的查看,确定所述搜索结果对应的文档、文档页码和文档对应的图片格式数据,并使用第二虚拟列表从所述文档页码开始显示所述图片格式数据。
2.根据权利要求1所述的医疗设备文档的搜索和浏览方法,其特征在于,所述基于各文档页整合数据的主观特征、客观特征和各文档页整合数据关于所述第一搜索词对应分词的词频特征,使用预设的排序算法对各搜索结果数据进行排序的具体步骤包括:
确定文档页整合数据中各项子数据关于所述第一搜索词对应的各分词的词频特征;
对文档页整合数据中各项子数据关于所述第一搜索词对应的各分词的词频特征加权整合为文档页整合数据关于第一搜索词的词特征;
对所述文档页整合数据的主观特征、客观特征和所述文档页整合数据关于第一搜索词的词频特征进行加权整合,得到文档页整合数据对应的搜索结果数据的排序评分;
基于各搜索结果数据的排序评分,对文档页整合数据对应的搜索结果数据进行排序。
3.根据权利要求2所述的医疗设备文档的搜索和浏览方法,其特征在于,所述对文档页整合数据中各项子数据关于所述第一搜索词对应的各分词的词频特征加权整合为文档页整合数据关于第一搜索词的词特征采用如下公式:
;
;
;
其中,S为第一搜索词,T为表示符合条件的文档页整合数据,为文档页整合数据T关于第一搜索词S的词特征,m为搜索词S的分词总数,n为文档页整合数据T的子数据项数,为第一搜索词S的逆文档频率,/>为数据项j关于分词i的词频特征,/>为数据项j的权重,docFreq表示符合条件的文档页整合数据的数量,docCount表示文档页数据的总数,freq表示分词i在数据项j中出现的频率,k1为词语频率饱和度,b为字段长度归约,为为分词j长度;avgFieldLength为所有分词的平均长度。
4.根据权利要求2所述的医疗设备文档的搜索和浏览方法,其特征在于,所述对所述文档页整合数据的主观特征、客观特征和所述文档页整合数据关于第一搜索词的词频特征进行加权整合,得到文档页整合数据对应的搜索结果数据的排序评分采用如下公式:
;
其中,为文档页整合数据T对应的搜索结果数据的排序评分,/>为文档页整合数据T的主观特征,/>为文档页整合数据T的客观特征。
5.根据权利要求1所述的医疗设备文档的搜索和浏览方法,其特征在于,所述医疗设备描述信息包括:设备型号、设备名称、设备品牌、设备一级分类信息、设备二级分类信息、设备三级分类信息和设备生产商信息;所述文档描述信息包括:文档标题、文档简介、文档类别、文档标识和文档总页数;所述页描述信息包括:文档当前页页码。
6.根据权利要求1所述的医疗设备文档的搜索和浏览方法,其特征在于,所述提取各文档页整合数据中的医疗设备描述信息、文档描述信息和页描述信息作为用于显示的搜索结果数据包括:
提取各文档页整合数据中的设备型号、设备名称、设备品牌、设备一级分类信息、设备二级分类信息、设备三级分类信息、文档标题、文档总页码和当前页的页码作为用于显示的搜索结果数据。
7.根据权利要求1所述的医疗设备文档的搜索和浏览方法,其特征在于,所述通过分词构建所述文档页整合数据对应的分词数据包括:
对所述文档页整合数据中的文档描述信息和设备描述信息进行默认分词生成第一分词数据;
对所述文档页整合数据中的文档描述信息和设备描述信息进行IK最细粒度分词和自定义分词生成第二分词数据;
对所述第一分词数据和所述第二分词数据进行转小写、语气词删除、同义词配置。
8.根据权利要求1所述的医疗设备文档的搜索和浏览方法,其特征在于,所述第一搜索词包括至少一个关键词。
9.根据权利要求1所述的医疗设备文档的搜索和浏览方法,其特征在于,所述方法还包括:
基于输入的搜索图,并进行OCR识别确定搜索图中的第一搜索词。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,其上存储有一个或多个在所述处理器上运行的计算机程序指令;
其中,所述处理器运行所述计算机指令时,执行权利要求1-9任一项所述的医疗设备文档的搜索和浏览方法。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,当计算机指令运行时执行权利要求1-9任一项所述的医疗设备文档的搜索和浏览方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004506.5A CN116932859A (zh) | 2023-08-10 | 2023-08-10 | 一种医疗设备文档的搜索和浏览方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004506.5A CN116932859A (zh) | 2023-08-10 | 2023-08-10 | 一种医疗设备文档的搜索和浏览方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116932859A true CN116932859A (zh) | 2023-10-24 |
Family
ID=88379113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311004506.5A Pending CN116932859A (zh) | 2023-08-10 | 2023-08-10 | 一种医疗设备文档的搜索和浏览方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932859A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421487A (zh) * | 2023-12-19 | 2024-01-19 | 西安康奈网络科技有限公司 | 一种基于人工智能的多种网络信息筛分管理系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599069A (zh) * | 2009-07-10 | 2009-12-09 | 腾讯科技(深圳)有限公司 | 电子文档的搜索方法及系统 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
CN110222203A (zh) * | 2019-06-19 | 2019-09-10 | 深圳前海微众银行股份有限公司 | 元数据搜索方法、装置、设备及计算机可读存储介质 |
CN111522905A (zh) * | 2020-04-15 | 2020-08-11 | 武汉灯塔之光科技有限公司 | 一种基于数据库的文档搜索方法和装置 |
CN113836918A (zh) * | 2021-09-29 | 2021-12-24 | 天翼物联科技有限公司 | 文档搜索方法、装置、计算机设备及计算机可读存储介质 |
CN113849723A (zh) * | 2021-08-31 | 2021-12-28 | 北京达佳互联信息技术有限公司 | 搜索方法及搜索装置 |
CN114880447A (zh) * | 2022-05-13 | 2022-08-09 | 平安科技(深圳)有限公司 | 信息检索方法、装置、设备及存储介质 |
CN114880426A (zh) * | 2022-04-20 | 2022-08-09 | 广州赛业百沐生物科技有限公司 | 生物医学资料搜索方法、系统、装置及存储介质 |
-
2023
- 2023-08-10 CN CN202311004506.5A patent/CN116932859A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599069A (zh) * | 2009-07-10 | 2009-12-09 | 腾讯科技(深圳)有限公司 | 电子文档的搜索方法及系统 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
CN110222203A (zh) * | 2019-06-19 | 2019-09-10 | 深圳前海微众银行股份有限公司 | 元数据搜索方法、装置、设备及计算机可读存储介质 |
CN111522905A (zh) * | 2020-04-15 | 2020-08-11 | 武汉灯塔之光科技有限公司 | 一种基于数据库的文档搜索方法和装置 |
CN113849723A (zh) * | 2021-08-31 | 2021-12-28 | 北京达佳互联信息技术有限公司 | 搜索方法及搜索装置 |
CN113836918A (zh) * | 2021-09-29 | 2021-12-24 | 天翼物联科技有限公司 | 文档搜索方法、装置、计算机设备及计算机可读存储介质 |
CN114880426A (zh) * | 2022-04-20 | 2022-08-09 | 广州赛业百沐生物科技有限公司 | 生物医学资料搜索方法、系统、装置及存储介质 |
CN114880447A (zh) * | 2022-05-13 | 2022-08-09 | 平安科技(深圳)有限公司 | 信息检索方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421487A (zh) * | 2023-12-19 | 2024-01-19 | 西安康奈网络科技有限公司 | 一种基于人工智能的多种网络信息筛分管理系统 |
CN117421487B (zh) * | 2023-12-19 | 2024-03-08 | 西安康奈网络科技有限公司 | 一种基于人工智能的多种网络信息筛分管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101981075B1 (ko) | 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체 | |
US9881037B2 (en) | Method for systematic mass normalization of titles | |
US20160147891A1 (en) | Building a Topical Learning Model in a Content Management System | |
KR102170206B1 (ko) | 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법 | |
US10503738B2 (en) | Generating recommendations for media assets to be displayed with related text content | |
US20220375246A1 (en) | Document display assistance system, document display assistance method, and program for executing said method | |
US9542474B2 (en) | Forensic system, forensic method, and forensic program | |
US9514496B2 (en) | System for management of sentiments and methods thereof | |
CN116932859A (zh) | 一种医疗设备文档的搜索和浏览方法 | |
WO2016114790A1 (en) | Reading difficulty level based resource recommendation | |
KR101667199B1 (ko) | 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치 | |
CN112269872A (zh) | 简历解析方法、装置、电子设备及计算机存储介质 | |
JP4787955B2 (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
JPWO2014049708A1 (ja) | 文書分析装置およびプログラム | |
US20170242851A1 (en) | Non-transitory computer readable medium, information search apparatus, and information search method | |
Kikuchi et al. | Generative colorization of structured mobile web pages | |
KR20190023503A (ko) | 이미지 기반 특허 검색 장치 | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning | |
CN115238709A (zh) | 一种政策公告网络评论情感分析方法、系统及设备 | |
US11636144B2 (en) | Cluster analysis method, cluster analysis system, and cluster analysis program | |
CN113869803A (zh) | 企业敏感信息风险评估方法、系统和存储介质 | |
Trigo et al. | Retrieval, visualization and validation of affinities between documents | |
CN109213830B (zh) | 专业性技术文档的文档检索系统 | |
CN117131301B (zh) | 一种医疗设备文档的网页端浏览方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |