CN106095754B - 一种医学术语词库词性标注方法 - Google Patents

一种医学术语词库词性标注方法 Download PDF

Info

Publication number
CN106095754B
CN106095754B CN201610405125.1A CN201610405125A CN106095754B CN 106095754 B CN106095754 B CN 106095754B CN 201610405125 A CN201610405125 A CN 201610405125A CN 106095754 B CN106095754 B CN 106095754B
Authority
CN
China
Prior art keywords
entry
speech tagging
identifying code
image
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610405125.1A
Other languages
English (en)
Other versions
CN106095754A (zh
Inventor
蒋君
冯前进
庞树茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou isomorphic Technology Co.,Ltd.
Original Assignee
Guangzhou Isomorphism Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Isomorphism Medical Technology Co Ltd filed Critical Guangzhou Isomorphism Medical Technology Co Ltd
Priority to CN201610405125.1A priority Critical patent/CN106095754B/zh
Publication of CN106095754A publication Critical patent/CN106095754A/zh
Application granted granted Critical
Publication of CN106095754B publication Critical patent/CN106095754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医学术语词库词性标注方法,包括以下步骤:S1、收集待标注词条:通过人工或算法收集待标注的词条,将这些词条保存到数据库或一个文件;S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;S4、验证码获取请求配发;S5、验证码校验请求响应;S6、词性标注结果确认;该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。

Description

一种医学术语词库词性标注方法
技术领域
本发明涉及一种自然语言词库的建立方法,尤其涉及一种医学术语词库词性标注方法。
背景技术
自然语言处理(NLP,Natural Language Process)是计算机科学领域与人工智能领域中的一个重要方向,相关研究的目的是实现人与计算机之间用自然语言进行有效通信。
计算机理解自然语言的第一步是分词。只有确定如何将句子断为词条(Term),才能确定词条间的修饰关系,进而“理解”句子要表达的意思。因此,词库是建立自然语言处理的基石。
在医学相关文本(例如电子病历、医学书籍)的计算机数据挖掘处理中,需要涉及医学术语的词性标注。例如:发热、咳嗽、头痛描述的是疾病的症状;肩周炎、骨质疏松描述的是疾病名称;磁共振、病理切片描述的是检查项目;鼻窦,颅底描述的是解剖部位。这就需要对医学词汇进行词性标注,使词汇与词性类别一一对应。传统的词性标注往往由一个团队手工完成,过程枯燥费时。后续如果要增加词汇量,只能重复这一过程。
发明内容
为解决背景技术中存在的技术问题,本发明提出一种便捷、准确的建立医学术语词库的方法,该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。
为此,本发明提供了一种医学术语词库词性标注方法,包括以下步骤:
S1、收集待标注词条:通过人工或算法收集待标注的词条,将这些词条保存到数据库或一个文件;
S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;
S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;
S4、验证码获取请求配发:开放词性标注验证码图像数据库访问接口,为有验证码需求的网站页面免费提供验证码,需求方发送验证码获取请求后,本地系统将随机从数据库抽取一幅图像,图像名与全球唯一识别号相同,并返回至需求方,需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容;
S5、验证码校验请求响应:远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果、验证图像全球唯一识别号一并以特定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对全球唯一识别号与用户输入内容的一致性,并刷新用户对该词条的词性标注结果及词性标注次数;
S6、词性标注结果确认:当某个词条被用户标注的次数达到一定阈值后,选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会删除该词条,不再对该词条进行标注。
本发明提出的一种便捷、准确的建立医学术语词库的方法,该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作,将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。
附图说明
图1为词条收集过程流程图;
图2为词条标注过程流程图;
图3为本地数据库表结构示例图;
图4为词性标注验证码图像数据库建立流程图;
图5为词性标注验证码图像分发与检验流程图;
图6为用户注册页面下利用验证码进行词性标注的页面示例图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明。
实施例:
参照图1至图6,本发明提出了一种便捷、准确的建立医学术语词库的方法,分别从词性标注验证码图像数据库的建立及应用两方面进行说明。
词性标注验证码图像数据库的建立过程如下:
1)收集待标注词条
通过人工或算法收集待标注的词条,将这些词条保存到数据库或一个文件,形成一个待标注词条的数据集。过程参考图1.
2)合成词性标注验证码图像
从数据库或文件中逐条读取待标注词条,将其转换为验证码图像。转换过程参考图4.其中,需要在程序中新建画板,将词条中的字逐字进行如下处理:a)旋转任意角度;b)绘制在画板上;c)添加干扰线。
3)建立词性标注验证码数据库
将词条及对应的验证码图像存储到数据库,并以全球唯一识别号(UniversallyUnique Identifier,全球唯一识别号)为主键。数据库表结构设计可参考图3及图中注释。
词性标注验证码图像数据库的应用
词性标注的过程实际上是本地系统和远程web应用的交互过程,过程参考图2.为了更详细的表述词性标注的过程,可将词性标注验证码图像的应用分为三大步骤(系统流程示意图见图5):
1)获取词性标注图像验证码
获取验证码的流程由用户端发起,某网站在需要验证码图像的网站页面(例如:网页注册页面。页面设计可参考图6)添加词性标注验证码图像数据库访问接口。网站用户刷新页面时,网页会向系统发送验证码获取请求,本地系统将随机从数据库抽取一幅图像(图像名与全球唯一识别号相同)并返回至需求方。需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容。
2)校验词性标注图像验证码
远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果(在哪个文本框输入的验证内容)、验证图像全球唯一识别号一并以指定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对全球唯一识别号与用户输入内容的一致性,并刷新用户对该词条的词性标注结果及词性标注次数。
3)确认词性标注结果
当用户对某个词条的标注次数没有达到指定阈值时,本地系统将刷新数据库中用户对该词条的词性标注结果及词性标注次数记录;一旦某个词条被用户标注的次数达到一定阈值,系统将选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会从词性标注验证码数据库中删除该词条,不再对该词条进行标注。
传统的词性标注往往由一个团队手工完成,过程枯燥费时,后续如果要增加词汇量,只能重复这一过程。本发明将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种医学术语词库词性标注方法,其特征在于,包括以下步骤:
S1、收集待标注词条:通过人工或算法收集待标注的词条,将这些词条保存到数据库或一个文件;
S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;
S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;
S4、验证码获取请求配发:开放词性标注验证码图像数据库访问接口,为有验证码需求的网站页面免费提供验证码,需求方发送验证码获取请求后,本地系统将随机从数据库抽取一幅图像,图像名与全球唯一识别号相同,并返回至需求方,需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容;
S5、验证码校验请求响应:远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果、验证图像全球唯一识别号一并以特定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对全球唯一识别号与用户输入内容的一致性,并刷新用户对该词条的词性标注结果及词性标注次数;
S6、词性标注结果确认:当某个词条被用户标注的次数达到一定阈值后,选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会删除该词条,不再对该词条进行标注。
CN201610405125.1A 2016-06-08 2016-06-08 一种医学术语词库词性标注方法 Active CN106095754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610405125.1A CN106095754B (zh) 2016-06-08 2016-06-08 一种医学术语词库词性标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610405125.1A CN106095754B (zh) 2016-06-08 2016-06-08 一种医学术语词库词性标注方法

Publications (2)

Publication Number Publication Date
CN106095754A CN106095754A (zh) 2016-11-09
CN106095754B true CN106095754B (zh) 2018-06-19

Family

ID=57228913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610405125.1A Active CN106095754B (zh) 2016-06-08 2016-06-08 一种医学术语词库词性标注方法

Country Status (1)

Country Link
CN (1) CN106095754B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN109062950B (zh) * 2018-06-22 2021-11-05 北京奇艺世纪科技有限公司 一种文本标注的方法及装置
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915254B1 (en) * 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
CN102004998A (zh) * 2010-12-03 2011-04-06 朱平 基于计算机验证码载体实现广告宣传的系统和方法
CN102054033A (zh) * 2010-12-25 2011-05-11 百度在线网络技术(北京)有限公司 表情搜索引擎、使用该表情搜索引擎的表情管理系统及表情管理方法
CN102855291A (zh) * 2012-08-09 2013-01-02 北京百度网讯科技有限公司 一种向输入法词库中添加词条的方法及装置
US8612261B1 (en) * 2012-05-21 2013-12-17 Health Management Associates, Inc. Automated learning for medical data processing system
CN104899499A (zh) * 2015-05-29 2015-09-09 南京理工大学 基于互联网图片搜索的Web验证码生成方法
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注系统及方法
CN105574103A (zh) * 2015-12-11 2016-05-11 浙江大学 基于分词编码自动构建医学术语映射关系的方法以及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915254B1 (en) * 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
CN102004998A (zh) * 2010-12-03 2011-04-06 朱平 基于计算机验证码载体实现广告宣传的系统和方法
CN102054033A (zh) * 2010-12-25 2011-05-11 百度在线网络技术(北京)有限公司 表情搜索引擎、使用该表情搜索引擎的表情管理系统及表情管理方法
US8612261B1 (en) * 2012-05-21 2013-12-17 Health Management Associates, Inc. Automated learning for medical data processing system
CN102855291A (zh) * 2012-08-09 2013-01-02 北京百度网讯科技有限公司 一种向输入法词库中添加词条的方法及装置
CN104899499A (zh) * 2015-05-29 2015-09-09 南京理工大学 基于互联网图片搜索的Web验证码生成方法
CN105260361A (zh) * 2015-10-28 2016-01-20 南京邮电大学 一种生物医学事件的触发词标注系统及方法
CN105574103A (zh) * 2015-12-11 2016-05-11 浙江大学 基于分词编码自动构建医学术语映射关系的方法以及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Assistive Tagging: A Survey of Multimedia Tagging with Human-Computer Joint Exploration;MENG WANG 等;《ACM Computing Surveys》;20120831;第44卷(第4期);25:1-25:24 *
PolySearch: a web-based text mining system for extracting relationships between human diseases, genes, mutations, drugs and metabolites;Dean Cheng 等;《Nucleic Acids Research》;20080516;第36卷;399-405 *
基于微信平台的患者就医服务系统开发与实现;葛善伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20160215;第2016年卷(第2期);I138-452 *

Also Published As

Publication number Publication date
CN106095754A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN110059320B (zh) 实体关系抽取方法、装置、计算机设备和存储介质
WO2022116417A1 (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
CN110909548A (zh) 中文命名实体识别方法、装置及计算机可读存储介质
CN112016279B (zh) 电子病历结构化方法、装置、计算机设备和存储介质
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN110781668B (zh) 文本信息的类型识别方法及装置
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN106095754B (zh) 一种医学术语词库词性标注方法
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
CN103838837B (zh) 基于语义模板的遥感元数据集成方法
WO2021151270A1 (zh) 图像结构化数据提取方法、装置、设备及存储介质
CN111680634A (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN107680661A (zh) 用于估计医疗资源需求的系统和方法
CN112001179A (zh) 命名实体识别方法、装置、电子设备及可读存储介质
JP2016201112A (ja) ウェブページ処理装置及びウェブページ処理方法
CN113987125A (zh) 基于神经网络的文本结构化信息提取方法、及其相关设备
WO2022073341A1 (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN103853845A (zh) 复杂表格动态解析方法
JPWO2008142791A1 (ja) 差分算出プログラム、差分算出装置および差分算出方法
CN104850580B (zh) 一种在互联网上标识和检索教学资源的方法
JP6095487B2 (ja) 質問応答装置、及び質問応答方法
CN111403011B (zh) 挂号科室推送方法、装置、系统、电子设备及存储介质
CN115994232B (zh) 在线多版本文献同一性鉴别方法、系统及计算机设备
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
Naeem et al. Hormonal, Histological, and Sperm Parameters: A Comparative Study between Amitriptyline and Escitalopram in Male Mice

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Jun

Inventor after: Feng Qianjin

Inventor after: Pang Shumao

Inventor before: Feng Qianjin

Inventor before: Jiang Jun

Inventor before: Pang Shumao

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 510000 room 611, 1933 Huaguan Road, Tianhe District, Guangzhou City, Guangdong Province (office only)

Patentee after: Guangzhou isomorphic Technology Co.,Ltd.

Address before: 510063 room 206, 15 Sicheng Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU TONGGOU MEDICAL TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method for Part of Speech Annotation in Medical Terminology Thesaurus

Effective date of registration: 20230516

Granted publication date: 20180619

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Tianhe branch

Pledgor: Guangzhou isomorphic Technology Co.,Ltd.

Registration number: Y2023980040874

PE01 Entry into force of the registration of the contract for pledge of patent right