CN110929503A - 基于医学同义词在线编辑检索系统 - Google Patents

基于医学同义词在线编辑检索系统 Download PDF

Info

Publication number
CN110929503A
CN110929503A CN201911183866.XA CN201911183866A CN110929503A CN 110929503 A CN110929503 A CN 110929503A CN 201911183866 A CN201911183866 A CN 201911183866A CN 110929503 A CN110929503 A CN 110929503A
Authority
CN
China
Prior art keywords
synonym
module
information
unit
integration module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911183866.XA
Other languages
English (en)
Inventor
罗金
李国强
孙炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Why Science And Technology Shanghai Co ltd
Shanghai Jiaotong University
Original Assignee
Why Science And Technology Shanghai Co ltd
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Why Science And Technology Shanghai Co ltd, Shanghai Jiaotong University filed Critical Why Science And Technology Shanghai Co ltd
Priority to CN201911183866.XA priority Critical patent/CN110929503A/zh
Publication of CN110929503A publication Critical patent/CN110929503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种基于医学同义词在线编辑检索系统,包括:同义词整合模块、数据库模块和服务器模块,其中:同义词整合模块与服务器模块相连并批量传输检索结果信息,同时提供针对开发人员定制的外部接口,数据库模块与同义词整合模块相连保存同义词整合模块提取的同义词信息也能传输检索的同义词信息,服务器模块与同义词整合模块相连并发起信息检索的请求和接受同义词整合模块传来的信息。本发明显著提升了工作效率和降低了人工筛查同义词的工作量,并提升了整体词库的准确性。

Description

基于医学同义词在线编辑检索系统
技术领域
本发明涉及的是一种信息处理领域的技术,具体涉及一种迭代自更新的医学同义词在线编辑检索系统。
背景技术
现有的人工智能在上面提到的图像分类、语音识别、知识问答、人机对弈、无人驾驶等领域都有不错的发展。而医疗领域,国内外的企业也有尝试和研究,诸如IBM的waston项目。但是在中国如果想发展借助人工智能的技术发展到医学领域,首先面临的问题就是医学非结构化文本的处理和知识关系的提取问题。这个问题加上中文本身语言的复杂性使得各种工作的开展遇到的非常大的阻力。
具体来说,人工智能在医学领域的发展需要建立在一个正确的范围广的中文医学知识库的基础上,而在中文医学同义词这个领域,受限于中文语言的复杂性和医学词汇的专业性以及中西医观点的异同,在推进中文医学同义词的标准化和利用中文医学同义词的方便性和准确性上缺乏准确好用的工具支持和内容支持。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于医学同义词在线编辑检索系统,满足人工智能在医疗领域上会遇到的中文医学知识、名字、实体的同义词和近义词的需要和检索,从而进行更进一步的分析和研究。开发者则可以通过API的形式,快速的获取一个集合的所有实体或者名词的同义词和近义词,进行快速分析和后续使用。过设计的迭代检索整合算法,用户可以通过网站和API接口的方式进行对医学同义词的检索编辑和整合。对于一般用户,可以采用网站浏览的形式,简单直观的看到一个医学名词相关的同义词和近义词,显著提升了工作效率和降低了人工筛查同义词的工作量,并提升了整体词库的准确性。
本发明是通过以下技术方案实现的:
本发明包括:同义词整合模块、数据库模块和服务器模块,其中:同义词整合模块与服务器模块相连并批量传输检索结果信息,同时提供针对开发人员定制的外部接口,数据库模块与同义词整合模块相连保存同义词整合模块提取的同义词信息也能传输检索的同义词信息,服务器模块与同义词整合模块相连并发起信息检索的请求和接受同义词整合模块传来的信息。
技术效果
与现有技术相比,本发明提供了带有自动整合和扩充中文医学同义词的一个中文医学同义词的服务器架构;由此产生技术效果包括:
1.在添加或者编辑医学同义词条的时候能够从知识源中自动获取其相关的所有医学同义词。省去了传统医学同义词库构建人工对添加词汇的扩充和归类工作。
2.同义词整合模块将上一步获取的同义词和整个同义词库进行整合,对已有的同义词库进行订正和合并。这一步可以自动连结之前同义词库没能发现的联系,对研究过程接下来的构建知识库关系-实体的过程意义重大,同时也能提升同义词库的精度和准度。
附图说明
图1为本发明系统示意图;
图2为实施例应用场景示意图;
图3至图5为实施例效果示意图。
具体实施方式
如图1所示,为本实施例涉及一种用到网络爬虫、Web技术,使用Elasticsearch非关系型数据库的迭代自更新的医学同义词在线编辑检索系统,包括:同义词整合模块、数据库模块和服务器模块,其中:同义词整合模块与服务器模块相连并批量传输检索结果信息,同时提供针对开发人员定制的外部接口,数据库模块与同义词整合模块相连保存同义词整合模块提取的同义词信息也能传输检索的同义词信息,服务器模块与同义词整合模块相连并发起信息检索的请求和接受同义词整合模块传来的信息。
所述的同义词整合模块从开源知识库中检索和整合添加或编辑后的单个医学词的全部同义词,并在判断各个词条之间是否冲突后进行词条合并,该模块包括:同义词提取单元、同义词整合单元和同义词缓冲单元,其中:同义词提取单元从已有的医学中心词和多个开源知识库提取医学相关的词条提取和整合得到医学同义词表;同义词整合单元针对日常业务的增删改查的情形,同步实现对本身的同义词库的词条进行动态调整,保证词条不因为业务修改部分词条而导致同义词库出现重复或者错误;同义词缓冲单元对同义词任务进行定期缓存以防止高频网络攻击和污染词库。
所述的数据库模块包括:同义词CURD接口、同义词批量查询单元、RESTful接口和同义词评分单元,其中:同义词CURD接口对基本的同义词增删改查,供开发者使用的同义词批量查询单元与同义词整合模块相连并发起批量查询的请求,批量查询的RESTful接口与同义词检索模块相连通过GET/POST等方式发起请求并接受传输的同义词信息,用于检索结果时候的评分排序的同义词评分单元与数据库模块相连根据检索词对输出结果进行评分排序然后传输给同义词整合模块信息,对于查询和检索内容有一定特征的医学领域同义词,特化改进的一个同义词评分工具。
所述的服务器模块包括:基于Flask框架的服务器和基于Bootstrap框架的交互单元,其中:基于Flask框架的服务器与数据库模块和同义词模块的交互并对整个医学同义词在线编辑检索平台的日常业务及数据的维护;基于Bootstrap框架的交互单元作为服务器的前端架构用于显示样式以及和用户进行交互的界面并传输用户信息给Flask服务器。
经过具体实际实验,在Ubuntu16的服务器配置并启动的的具体环境设置下,以正常参数启动医学同义词在线检索编辑系统,以搜索AIDS为例,对于最初构建的同义词库,搜索结果如图3所示。
而作为工作人员注意到检索结果的第二个词条和第一个词条表示的意思应该一样,这个时候只需在第一个词条AIDS里添加”HIV/AIDS”同义词,即可得到如图4所示结果。
之前的词条”HIV/AIDS”已经消失,而”AIDS”词条包括的内容也发生了变化,这是本系统的迭代自更新产生的结果,在已有的词条进行添加和编辑的时候,它会从网络上爬取筛选编辑词或添加词的同义词并对整个同义词库进行整合、更新已有的同义词库,并返回结果,可以在详情页里得到如图5所示结果:添加的”HIV/AIDS”词条已经添加进原本的”AIDS”词条,并且包含了根据该词在网络上的新的同义词。
与现有技术相比,当发生编辑或添加同义词操作后,本系统能够自动爬取整合网路上的相关的同义词资源并将其进行迭代更新和整合,一是减少了人工合并的成本,而是提升了该同义词库的准确性和可靠性,并保留了这个知识库的可拓展性,使得其能够不断更新更加准确。为智慧医疗领域的研究和发展提供了一个可靠的帮助。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (4)

1.一种基于医学同义词在线编辑检索系统,其特征在于,包括:同义词整合模块、数据库模块和服务器模块,其中:同义词整合模块与服务器模块相连并批量传输检索结果信息,同时提供针对开发人员定制的外部接口,数据库模块与同义词整合模块相连保存同义词整合模块提取的同义词信息也能传输检索的同义词信息,服务器模块与同义词整合模块相连并发起信息检索的请求和接受同义词整合模块传来的信息;
所述的同义词整合模块从开源知识库中检索和整合添加或编辑后的单个医学词的全部同义词,并在判断各个词条之间是否冲突后进行词条合并。
2.根据权利要求1所述的系统,其特征是,所述的同义词整合模块包括:同义词提取单元、同义词整合单元和同义词缓冲单元,其中:同义词提取单元从已有的医学中心词和多个开源知识库提取医学相关的词条提取和整合得到医学同义词表;同义词整合单元针对日常业务的增删改查的情形,同步实现对本身的同义词库的词条进行动态调整;同义词缓冲单元对同义词任务进行定期缓存以防止高频网络攻击和污染词库。
3.根据权利要求1所述的系统,其特征是,所述的数据库模块包括:同义词CURD接口、同义词批量查询单元、RESTful接口和同义词评分单元,其中:同义词CURD接口对基本的同义词增删改查,供开发者使用的同义词批量查询单元与同义词整合模块相连并发起批量查询的请求,批量查询的RESTful接口与同义词检索模块相连通过GET/POST等方式发起请求并接受传输的同义词信息,用于检索结果时候的评分排序的同义词评分单元与数据库模块相连根据检索词对输出结果进行评分排序然后传输给同义词整合模块信息。
4.根据权利要求1所述的系统,其特征是,所述的服务器模块包括:基于Flask框架的服务器和基于Bootstrap框架的交互单元,其中:基于Flask框架的服务器与数据库模块和同义词模块的交互并对整个医学同义词在线编辑检索平台的日常业务及数据的维护;基于Bootstrap框架的交互单元作为服务器的前端架构用于显示样式以及和用户进行交互的界面并传输用户信息给Flask服务器。
CN201911183866.XA 2019-11-27 2019-11-27 基于医学同义词在线编辑检索系统 Pending CN110929503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911183866.XA CN110929503A (zh) 2019-11-27 2019-11-27 基于医学同义词在线编辑检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911183866.XA CN110929503A (zh) 2019-11-27 2019-11-27 基于医学同义词在线编辑检索系统

Publications (1)

Publication Number Publication Date
CN110929503A true CN110929503A (zh) 2020-03-27

Family

ID=69847551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911183866.XA Pending CN110929503A (zh) 2019-11-27 2019-11-27 基于医学同义词在线编辑检索系统

Country Status (1)

Country Link
CN (1) CN110929503A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI831037B (zh) * 2021-08-09 2024-02-01 中國信託商業銀行股份有限公司 醫療整合查詢方法以及醫療整合查詢設備

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598814A (zh) * 2003-09-19 2005-03-23 鸿富锦精密工业(深圳)有限公司 同义词分类检索系统及方法
CN101248415A (zh) * 2005-05-06 2008-08-20 特拉多斯有限公司 利用机器翻译和翻译记忆库的电子服务翻译

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598814A (zh) * 2003-09-19 2005-03-23 鸿富锦精密工业(深圳)有限公司 同义词分类检索系统及方法
CN101248415A (zh) * 2005-05-06 2008-08-20 特拉多斯有限公司 利用机器翻译和翻译记忆库的电子服务翻译

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI831037B (zh) * 2021-08-09 2024-02-01 中國信託商業銀行股份有限公司 醫療整合查詢方法以及醫療整合查詢設備

Similar Documents

Publication Publication Date Title
KR101858206B1 (ko) 지능형 챗봇 기반 대화형 현장 지원 서비스 제공 방법
JP4654776B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8280722B1 (en) Automatic completion of fragments of text
US7720674B2 (en) Systems and methods for processing natural language queries
KR101646754B1 (ko) 모바일 시멘틱 검색 장치 및 그 방법
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
US20050187923A1 (en) Intelligent search and retrieval system and method
US7987416B2 (en) Systems and methods for modular information extraction
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
KR20060017765A (ko) 개념 네트워크
US20130124194A1 (en) Systems and methods for manipulating data using natural language commands
CN112860727B (zh) 基于大数据查询引擎的数据查询方法、装置、设备及介质
US20160140182A1 (en) Systems and methods for parsing search queries
JP2019121392A (ja) 情報検索システム
CN110633375A (zh) 一种基于政务工作的媒体信息整合利用的系统
Ai et al. Sensory: Leveraging code statement sequence information for code snippets recommendation
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN112486919A (zh) 文档管理方法、系统及存储介质
JP2008537809A (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
JP2001290840A (ja) キーワード検索装置
CN110929503A (zh) 基于医学同义词在线编辑检索系统
CN113297251A (zh) 多源数据检索方法、装置、设备及存储介质
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240419