CN103440261A - 基于内容和结构的生物医疗流程图检索的系统及方法 - Google Patents

基于内容和结构的生物医疗流程图检索的系统及方法 Download PDF

Info

Publication number
CN103440261A
CN103440261A CN201310330216XA CN201310330216A CN103440261A CN 103440261 A CN103440261 A CN 103440261A CN 201310330216X A CN201310330216X A CN 201310330216XA CN 201310330216 A CN201310330216 A CN 201310330216A CN 103440261 A CN103440261 A CN 103440261A
Authority
CN
China
Prior art keywords
process flow
flow diagram
module
content
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310330216XA
Other languages
English (en)
Inventor
罗笑南
姜涛
薛凯军
张伟忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Institute of Dongguan of Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
Institute of Dongguan of Sun Yat Sen University
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Dongguan of Sun Yat Sen University, National Sun Yat Sen University filed Critical Institute of Dongguan of Sun Yat Sen University
Priority to CN201310330216XA priority Critical patent/CN103440261A/zh
Publication of CN103440261A publication Critical patent/CN103440261A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于内容和结构的生物医疗流程图检索的系统及方法,该系统包括:结构提取模块、OCR文字识别模块、存储模块、LUCENE检索模块、相似性度量模块、手绘流程图输入模块、显示模块等。实施本发明,一是采用文字识别技术,提取出流程图中的文字,避免了传统的人工标注图像的方式,实施方便、快捷、错误率低;二是充分利用流程图的结构信息,将流程图特有的结构信息作为检索条件,提高流程图检索的准确性。

Description

基于内容和结构的生物医疗流程图检索的系统及方法
技术领域
本发明涉及计算机领域,具体涉及一种基于内容和结构的生物医疗流程图检索的系统及方法。
背景技术
随着社会的发展和计算机技术的进步,图形图像已经渗透到社会生活的方方面面,例如,人们因摄影爱好而拍摄的大量风景图、人物图、动物图等等;工业设计所产生的设计图形;艺术专业人士绘制的许多图像;医院检查病情所拍摄的大量CT、胸透、X光片,以及医院确定的疾病诊断、治疗流程图等等。
这些数量日益庞大的图像,种类繁多,是人们日常生活和工作中不可或缺的资源。人们可以找出一些风景图来确定旅游计划,可以借鉴已有的工业设计来改进出更完善的产品,可以根据医疗图像来判断自己的病情和治疗方法。因此,人们需要从庞大的图像库中查找出有用的图像集,图像检索已经成为人们关注的焦点。
从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文档的图像检索技术,利用文本描述的方式描述图像特征,如绘画作品的作者、年代、流派等。到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索。
在生物医疗图像领域,依然可以利用文本来描述图像,或者根据图像的颜色、纹理等内容进行检索。对于生物医疗流程图而言,它主要是指用流程图的方式来记录疾病的变化过程,或治疗步骤,由于其图像的特殊性,可以研究出一些更有针对性的检索方法,以提高检索的准确性。
生物医疗流程图,它以文字流程图的方法描述了疾病的变化阶段和治疗步骤,给医生确诊疾病、制定治疗方法提供了有用的参考信息。这样,结合医生的临床经验和医疗流程图的辅助,大大提高了疾病确诊的准确性,并制定出有效地治疗计划。对于生物医疗流程图的检索,由于它是文字图片而无法采用基于内容的检索,目前有一种解决方案是:利用疾病的名称等关键字来描述流程图,然后用关键字进行检索,从而查找出所需的医疗流程图。
采用关键字描述和检索医疗流程图,是一种基本的检索方法,其检索结果的准确性依赖于文本描述流程图的准确性。目前主要是以人工方式来赋予关键字,由于主观性和人工失误,因此这种方法的准确性有待提高。此外,由于流程图本身的特殊性,流程图本身的结构是非常重要的信息,仅依靠关键字来描述医疗流程图,就忽略了其结构信息,降低了检索结果的准确性。
发明内容
本发明提供了一种基于内容和结构的生物医疗流程图的检索系统及方法,利用微软提出的OCR文字识别技术,识别出医疗流程图中的文字,从而准确地表示流程图的内容,提高了图像标识的准确性;另一方面,提取出流程图的结构信息,并将这种结构信息作为检索时进行相似性判断的重要依据。通过结合生物医疗流程图的文字内容和结构信息,大大提高流程图系统检索的准确性。
相应的,本发明实施例提供了一种基于内容和结构的生物医疗流程图检索的系统,包括:
结构提取模块,用于负责对流程图进行切割,提取出其中的每个节点;
OCR文字识别模块,用于负责识别出流程图中的具体文字;
存储模块,用于将流程图的信息,包括名称、出处、类别信息合理地存储到数据库中;
LUCENE检索模块,用于利用文本检索方式对数据库中的流程图进行检索,查找出内容相似的流程图;
相似性度量模块,用于计算两个流程图之间的结构相似性,并量化这种相似性;
手绘流程图输入模块,用于提供给用户的输入界面,用户根据自己的需求,手动绘制一些流程图作为查询条件,系统接收用户输入,同时也要调用OCR文字识别模块、结构提取模块对查询条件进行解析,然后再进行系统检索;
显示模块,用于将系统检索的结果返回给用户,检索结果必须是内容相关,然后按照流程图结构相似性从高到低的顺序排列。
相应的,本发明实施例还提供了一种基于内容和结构的生物医疗流程图检索的方法,包括如下步骤:
对生物医疗流程图集合中的图像进行去噪等预处理;
对流程图切割,提取出节点,并记录结构信息;
OCR识别出每个流程图中的文字;
将流程图的文字和结构信息,以XML格式存储到数据库中;
用户在输入界面手绘医疗流程图,作为系统的查询条件;
手绘流程图的预处理;
提取手绘流程图的节点结构信息;
提取手绘流程图中的文字;
以手绘流程图中的文字作为查询条件,利用LUCENE在数据库中检索出具有匹配内容的流程图;
如果检索到内容匹配的流程图,利用存储的流程图结构信息和手绘流程图的结构信息进行对比,计算出相似性度量分数;
按照相似性分数从高到低的顺序输出,显示给用户;
如果检索不到内容匹配的医疗流程图,结束此次检索。
本发明具有如下有益效果,本发明有两个关键点,一是采用文字识别技术,提取出流程图中的文字,避免了传统的人工标注图像的方式,实施方便、快捷、错误率低;二是充分利用流程图的结构信息,将流程图特有的结构信息作为检索条件,提高流程图检索的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的基于内容和结构的生物医疗流程图检索的系统结构示意图;
图2是本发明实施例中的基于内容和结构的生物医疗流程图检索的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种基于内容和结构的生物医疗流程图检索的系统,利用微软提出的OCR文字识别技术,识别出医疗流程图中的文字,从而准确地表示流程图的内容,提高了图像标识的准确性;另一方面,提取出流程图的结构信息,并将这种结构信息作为检索时进行相似性判断的重要依据。通过结合生物医疗流程图的文字内容和结构信息,大大提高流程图系统检索的准确性。
图1示出了本发明实施例中基于内容和结构的生物医疗流程图检索的系统结构示意图,该系统主要包括结构提取模块、OCR文字识别模块、存储模块、LUCENE检索模块、相似性度量模块、显示模块、手绘流程图输入模块等,其中:
结构提取模块负责对流程图进行切割,提取出其中的每个节点。流程图是由多个节点,例如矩形框、椭圆形框,以及指向性的箭头或连线组成,因此可以按节点对流程图进行切割,每个节点是一个小的单元,同时也记录节点之间的相对位置关系。
OCR文字识别模块负责识别出流程图中的具体文字。相比传统的人工方式进行图像关键字标注,利用OCR文字识别技术,可以有效提取出流程图的内容,省时省力且准确性高。在构建本检索系统时,需要采用OCR文字识别模块预先对数据集中的每一张流程图进行文字提取。
存储模块是将流程图的信息,包括名称、出处、类别,特别是图中文字及其节点的结构信息,需要将这些信息合理地存储到数据库中。例如,对于名称、出处、类别等基本信息,可以简单存成数据库表项,而流程图节点中的文字及节点之间的关系可以存储成XML结构,用XML节点来存放流程图节点的内容,用XML节点的属性来存储流程图节点的位置关系。
LUCENE检索模块是利用文本检索方式对数据库中的流程图进行检索,查找出内容相似的流程图。内容匹配是本系统检索的第一步,只有内容相关的流程图才具有可比性。LUCENE是一个开源的全文检索引擎工具包,检索效率高,利用LUCENE进行文本检索,查找出内容相关的流程图,然后再利用相似性度量模块进行相似性计算。
相似性度量模块是计算两个流程图之间的结构相似性,并量化这种相似性,例如给定一个分数值。LUCENE检索模块得到的结果集是内容相关的流程图,在此基础上,计算出查询条件与LUCENE结果集中每张流程图的相似性,并按相似程度从高到低的顺序排列。
手绘流程图输入模块是提供给用户的输入界面,用户根据自己的需求,手动绘制一些流程图作为查询条件,系统接收用户输入,同时也要调用OCR文字识别模块、结构提取模块对查询条件进行解析,然后再进行系统检索。
显示模块是将系统检索的结果返回给用户,检索结果必须是内容相关,然后按照流程图结构相似性从高到低的顺序排列。
图2示出了本发明实施例中的基于内容和结构的生物医疗流程图检索方法,该方法具体流程如下:
第1步,对生物医疗流程图集合中的图像进行去噪等预处理。
第2步,对流程图切割,提取出节点,并记录结构信息。
第3步,OCR识别出每个流程图中的文字。
第4步,将流程图的文字和结构信息,以XML格式存储到数据库中。
第5步,用户在输入界面手绘医疗流程图,作为系统的查询条件。
第6步,手绘流程图的预处理。
第7步,提取手绘流程图的节点结构信息。
第8步,提取手绘流程图中的文字。
第9步,以手绘流程图中的文字作为查询条件,利用LUCENE在数据库中检索出具有匹配内容的流程图。
第10步,如果检索到内容匹配的流程图,利用存储的流程图结构信息和手绘流程图的结构信息进行对比,计算出相似性度量分数。
第11步,按照相似性分数从高到低的顺序输出,显示给用户。
第12步,如果检索不到内容匹配的医疗流程图,结束此次检索。
本发明具有如下有益效果,本发明有两个关键点,一是采用文字识别技术,提取出流程图中的文字,避免了传统的人工标注图像的方式,实施方便、快捷、错误率低;二是充分利用流程图的结构信息,将流程图特有的结构信息作为检索条件,提高流程图检索的准确性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
以上对本发明实施例所提供的一种基于智能盒的智能家居管理系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种基于内容和结构的生物医疗流程图检索的系统,其特征在于,包括:
结构提取模块,用于负责对流程图进行切割,提取出其中的每个节点;
OCR文字识别模块,用于负责识别出流程图中的具体文字;
存储模块,用于将流程图的信息,包括名称、出处、类别信息合理地存储到数据库中;
LUCENE检索模块,用于利用文本检索方式对数据库中的流程图进行检索,查找出内容相似的流程图;
相似性度量模块,用于计算两个流程图之间的结构相似性,并量化这种相似性;
手绘流程图输入模块,用于提供给用户的输入界面,用户根据自己的需求,手动绘制一些流程图作为查询条件,系统接收用户输入,同时也要调用OCR文字识别模块、结构提取模块对查询条件进行解析,然后再进行系统检索;
显示模块,用于将系统检索的结果返回给用户,检索结果必须是内容相关,然后按照流程图结构相似性从高到低的顺序排列。
2.一种基于内容和结构的生物医疗流程图检索的方法,其特征在于,包括如下步骤:
对生物医疗流程图集合中的图像进行去噪等预处理;
对流程图切割,提取出节点,并记录结构信息;
OCR识别出每个流程图中的文字;
将流程图的文字和结构信息,以XML格式存储到数据库中;
用户在输入界面手绘医疗流程图,作为系统的查询条件;
手绘流程图的预处理;
提取手绘流程图的节点结构信息;
提取手绘流程图中的文字;
以手绘流程图中的文字作为查询条件,利用LUCENE在数据库中检索出具有匹配内容的流程图;
如果检索到内容匹配的流程图,利用存储的流程图结构信息和手绘流程图的结构信息进行对比,计算出相似性度量分数;
按照相似性分数从高到低的顺序输出,显示给用户;
如果检索不到内容匹配的医疗流程图,结束此次检索。
CN201310330216XA 2013-07-31 2013-07-31 基于内容和结构的生物医疗流程图检索的系统及方法 Pending CN103440261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310330216XA CN103440261A (zh) 2013-07-31 2013-07-31 基于内容和结构的生物医疗流程图检索的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310330216XA CN103440261A (zh) 2013-07-31 2013-07-31 基于内容和结构的生物医疗流程图检索的系统及方法

Publications (1)

Publication Number Publication Date
CN103440261A true CN103440261A (zh) 2013-12-11

Family

ID=49693953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310330216XA Pending CN103440261A (zh) 2013-07-31 2013-07-31 基于内容和结构的生物医疗流程图检索的系统及方法

Country Status (1)

Country Link
CN (1) CN103440261A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632388A (zh) * 2013-12-19 2014-03-12 百度在线网络技术(北京)有限公司 图像语义标注的方法、装置和客户端
CN108280430A (zh) * 2018-01-24 2018-07-13 陕西科技大学 一种流程图像识别方法
CN108681529A (zh) * 2018-03-26 2018-10-19 山东科技大学 一种流程模型图的多语言文本及语音生成方法
CN112711362A (zh) * 2020-12-24 2021-04-27 北京华宇信息技术有限公司 手绘流程图标准化生成方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952935A (zh) * 2006-09-22 2007-04-25 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
CN101458695A (zh) * 2008-12-18 2009-06-17 西交利物浦大学 基于关键词和内容特征的混合图片索引构建和查询方法及其应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1952935A (zh) * 2006-09-22 2007-04-25 南京搜拍信息技术有限公司 综合利用图像及文字信息的搜索系统及搜索方法
CN101458695A (zh) * 2008-12-18 2009-06-17 西交利物浦大学 基于关键词和内容特征的混合图片索引构建和查询方法及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SONGHUA XU ET AL.: ""A new algorithm for context-based biomedical diagram similarity estimation"", 《BIOINFORMATICS》 *
SONGHUA XU ET AL.: ""Yale Image Finder (YIF): a new search engine for retrieving biomedical images"", 《BIOINFORMATICS》 *
夏定元: ""基于内容的图像检索通用技术研究及应用"", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632388A (zh) * 2013-12-19 2014-03-12 百度在线网络技术(北京)有限公司 图像语义标注的方法、装置和客户端
CN108280430A (zh) * 2018-01-24 2018-07-13 陕西科技大学 一种流程图像识别方法
CN108280430B (zh) * 2018-01-24 2021-07-06 陕西科技大学 一种流程图像识别方法
CN108681529A (zh) * 2018-03-26 2018-10-19 山东科技大学 一种流程模型图的多语言文本及语音生成方法
CN108681529B (zh) * 2018-03-26 2022-01-25 山东科技大学 一种流程模型图的多语言文本及语音生成方法
CN112711362A (zh) * 2020-12-24 2021-04-27 北京华宇信息技术有限公司 手绘流程图标准化生成方法及其装置

Similar Documents

Publication Publication Date Title
CN107391906B (zh) 基于神经网络和图谱结构的健康饮食知识网络构建方法
Chen et al. Using social media images as data in social science research
CN102156715A (zh) 面向医学影像数据库的基于多病灶区域特征的检索系统
CN106156111B (zh) 专利文件检索方法、装置和系统
Amato et al. The VISIONE video search system: exploiting off-the-shelf text search engines for large-scale video retrieval
CN106909684A (zh) 全景图像检索及展示方法
CN103440261A (zh) 基于内容和结构的生物医疗流程图检索的系统及方法
CN115129959A (zh) 一种档案智能鉴定方法、装置及系统
CN116909991A (zh) 一种基于nlp的科研档案管理方法及系统
CN112966053A (zh) 一种基于知识图谱的海洋领域专家库构建方法及装置
Sirisha et al. Semantic interdisciplinary evaluation of image captioning models
Martín-Valdivia et al. Using information gain to improve multi-modal information retrieval systems
Kambau et al. Concept-based multimedia information retrieval system using ontology search in cultural heritage
Truong et al. Video search based on semantic extraction and locally regional object proposal
Poornima et al. Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system
Girdhar et al. Benchmarking nas for article separation in historical newspapers
Rao et al. Deep learning-based image retrieval system with clustering on attention-based representations
Abu et al. Biodiversity image retrieval framework for monogeneans
Wanjale et al. Content based image retrieval for medical images techniques and storage methods-review paper
Ivasic-Kos Application of digital images and corresponding image retrieval paradigm
CN113972009A (zh) 一种基于临床检验医学大数据的医学检验咨询系统
Zeng et al. Constructing a mobile visual search framework for Dunhuang murals based on fine-tuned CNN and ontology semantic distance
Badghaiya et al. Image classification using tag and segmentation based retrieval
Zeng et al. Exploring the topic evolution of Dunhuang murals through image classification
Lu et al. Exploratory product image search with circle-to-search interaction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Luo Xiaonan

Inventor after: Xu Songhua

Inventor after: Jiang Tao

Inventor after: Xue Kaijun

Inventor after: Zhang Weizhong

Inventor before: Luo Xiaonan

Inventor before: Jiang Tao

Inventor before: Xue Kaijun

Inventor before: Zhang Weizhong

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: LUO XIAONAN JIANG TAO XUE KAIJUN ZHANG WEIZHONG TO: LUO XIAONAN XU SONGHUA JIANG TAO XUE KAIJUN ZHANG WEIZHONG

RJ01 Rejection of invention patent application after publication

Application publication date: 20131211

RJ01 Rejection of invention patent application after publication