CN111159977B - 一种人类表型标准用语确定方法及装置 - Google Patents

一种人类表型标准用语确定方法及装置 Download PDF

Info

Publication number
CN111159977B
CN111159977B CN202010265146.4A CN202010265146A CN111159977B CN 111159977 B CN111159977 B CN 111159977B CN 202010265146 A CN202010265146 A CN 202010265146A CN 111159977 B CN111159977 B CN 111159977B
Authority
CN
China
Prior art keywords
determining
word
description information
human
standard expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010265146.4A
Other languages
English (en)
Other versions
CN111159977A (zh
Inventor
周戬
孔令翔
杨姣博
贺增泉
王今安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN202010265146.4A priority Critical patent/CN111159977B/zh
Publication of CN111159977A publication Critical patent/CN111159977A/zh
Application granted granted Critical
Publication of CN111159977B publication Critical patent/CN111159977B/zh
Priority to IL288616A priority patent/IL288616B2/en
Priority to AU2020441876A priority patent/AU2020441876B2/en
Priority to JP2021571988A priority patent/JP7317146B2/ja
Priority to EP20930380.9A priority patent/EP4134864A4/en
Priority to PCT/CN2020/127048 priority patent/WO2021203694A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Saccharide Compounds (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种人类表型标准用语确定方法及装置,可以获得症状描述信息;将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与症状描述信息进行查询匹配,确定各人类表型标准用语与所述症状描述信息的匹配程度,分词组中包括:对该分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表,该分词列表包括至少一个分词;确定匹配程度满足预设匹配成功条件的人类表型标准用语。本发明将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配,筛选出符合该症状描述信息的人类表型标准用语,有助于技术人员之间对症状描述信息进行研究和交流,同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。

Description

一种人类表型标准用语确定方法及装置
技术领域
本发明涉及信息处理领域,尤其涉及一种人类表型标准用语确定方法及装置。
背景技术
人类表型标准用语(HPOHumanPhenotypeOntology)是一套描述人类疾病所致的异常表型的标准词语集。为了便于国内大部分医疗、科研工作者所使用的表型描述词语能够统一,国内成立了中文人类表型标准用语联盟,将以英文形式表现的HPO翻译为以中文形式表现的CHPOChineseHumanPhenotypeOntology,中文人类表型标准用语)。
在实际情况中,由于不同的医生在症状描述信息中对同一种人类表型标准用语对应的症状的描述多种多样,因此这为症状后续的临床研究和交流带来不便,同时也使对该症状进行数据分析和挖掘更加困难。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种人类表型标准用语确定方法及装置,相关技术方案如下:
一种人类表型标准用语确定方法,包括:
获得症状描述信息;
对预设人类表型标准用语库中的各人类表型标准用语中任一人类表型标准用语对应的分词组:对该分词组中的任一分词列表:在所述症状描述信息中查询该分词列表中的分词,将在所述症状描述信息中出现的该分词列表中的分词确定为共有词;确定该分词列表中共有词的数量以及各共有词在所述症状描述信息中的位置;根据该分词列表中共有词的数量和该分词列表中分词的数量,确定该分词列表与所述症状描述信息的第一相似度;根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度;
通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度;
根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度;
确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。
可选的,所述分词组中的各分词列表中的分词不同,同一分词列表中的各分词的字数相同。
可选的,在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后,所述方法还包括:
确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
检测与所述描述词汇相邻的相邻词汇是否为预设否定词,如果是,则对所述相邻词汇进行标记。
可选的,在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后,所述方法还包括:
确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
判断所述描述词汇与所述人类表型标准用语是否一致,如果一致,则确定所述人类表型标准用语与所述描述词汇为完全匹配,如果不一致,则确定所述人类表型标准用语与所述描述词汇为模糊匹配。
可选的,所述通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度,包括:
通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第三相似度;
将所述第三相似度乘以可调权重因子,确定该人类表型标准用语与所述症状描述信息的第二相似度。
可选的,所述根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度,包括:
根据各共有词在所述症状描述信息中的位置,确定该分词列表在所述症状描述信息中的第一位置向量;
根据各共有词在该人类表型标准用语中的位置,确定该分词列表在该人类表型标准用语中的第二位置向量;
根据各分词列表的第一位置向量和第二位置向量,确定该人类表型标准用语与所述症状描述信息之间的离散程度。
可选的,所述根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度,包括:
Figure 285915DEST_PATH_IMAGE001
其中,AEEV为该人类表型标准用语与所述症状描述信息的匹配程度,VAR为该人类表型标准用语与所述症状描述信息之间的离散程度,Score为该人类表型标准用语与所述症状描述信息的第二相似度,N为该分词组中包括分词列表的数量;
Score=γ×exp(preScore)
其中,γ为可调权重因子,preScore为第三相似度,
Figure 862390DEST_PATH_IMAGE002
其中,n为分词列表的编号,
Figure 54337DEST_PATH_IMAGE003
为分词列表n的第一相似度,其 中,1≤nN
Figure 134288DEST_PATH_IMAGE004
为调节因子,
Figure 19068DEST_PATH_IMAGE005
为分词列表n对应的归一化因子,
Figure 817259DEST_PATH_IMAGE006
为分词列表n对 应的权重,
Figure 804108DEST_PATH_IMAGE007
为分词列表n中共有词的数量和分词列表n中分词的数量的比值;
Figure 4145DEST_PATH_IMAGE009
其中,
Figure 794247DEST_PATH_IMAGE010
为分词列表n在所述症状描述信息中的第一位置向量,
Figure 345314DEST_PATH_IMAGE011
为分词列表n在该人类表型标准用语中的第二位置向量。
一种人类表型标准用语确定装置,包括:症状描述信息获得单元、匹配程度确定单元和人类表型标准用语确定单元,其中,所述匹配程度确定单元包括:共有词确定子单元,共有词数量确定子单元、共有词位置确定子单元、第一相似度确定子单元、离散程度确定子单元、第二相似度确定子单元和匹配程度确定子单元,
所述症状描述信息获得单元,用于获得症状描述信息;
所述共有词确定子单元,用于对预设人类表型标准用语库中的各人类表型标准用语中任一人类表型标准用语对应的分词组:对该分词组中的任一分词列表:在所述症状描述信息中查询该分词列表中的分词,将在所述症状描述信息中出现的该分词列表中的分词确定为共有词;
所述共有词数量确定子单元,用于确定该分词列表中共有词的数量;
所述共有词位置确定子单元,用于确定各共有词在所述症状描述信息中的位置;
所述第一相似度确定子单元,用于根据该分词列表中共有词的数量和该分词列表中分词的数量,确定该分词列表与所述症状描述信息的第一相似度;
所述离散程度确定子单元,用于根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度;
所述第二相似度确定子单元,用于通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度;
所述匹配程度确定子单元,用于根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度;
所述人类表型标准用语确定单元,用于确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。
可选的,所述装置还包括:描述词汇确定单元、否定词检测单元和否定词标记单元,
所述描述词汇确定单元,用于所述人类表型标准用语确定单元确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后,确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
所述否定词检测单元,用于检测与所述描述词汇相邻的相邻词汇是否为预设否定词,如果是,则触发所述否定词标记单元;
所述否定词标记单元,用于对所述相邻词汇进行标记。
可选的,所述装置还包括:描述词汇确定单元、词汇判断单元和词汇匹配确定单元,
所述描述词汇确定单元,用于确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
所述词汇判断单元,用于判断所述描述词汇与所述人类表型标准用语是否一致,如果一致,则触发所述词汇匹配确定单元,所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为完全匹配;如果不一致,则触发所述词汇匹配确定单元,所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为模糊匹配。
借由上述技术方案,本发明提供的一种人类表型标准用语确定方法及装置,可以获得症状描述信息;将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与症状描述信息进行查询匹配,确定各人类表型标准用语与所述症状描述信息的匹配程度,分词组中包括:对该分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表,该分词列表包括至少一个分词;确定匹配程度满足预设匹配成功条件的人类表型标准用语。本发明将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配,筛选出符合该症状描述信息的人类表型标准用语,有助于技术人员之间对症状描述信息进行研究和交流,同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种人类表型标准用语确定方法的流程示意图;
图2示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图;
图3示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图;
图4示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图;
图5示出了本发明实施例提供的一种对人类表型标准用语的输出结果的示意图;
图6示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图;
图7示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图;
图8示出了本发明实施例提供的另一种对人类表型标准用语的输出结果的示意图;
图9示出了本发明实施例提供的一种人类表型标准用语确定装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种人类表型标准用语确定方法,可以包括:
S100、获得症状描述信息。
其中,症状描述信息可以是医务人员对患者的疾病进行检查、诊断等医疗活动过程的记录。症状描述信息可以是由多个词汇组成的句子或段落。本发明实施例可以提供可供用户输入症状描述信息的界面,用户可以在该界面中编辑输入症状描述信息或上传已编辑有症状描述信息的文件。本发明实施例也可以通过文字扫描设备,扫描获得医务人员手写的症状描述信息。当然,本发明也可以从现有的诊疗系统(例如医院的各科室的电脑上安装的诊疗系统)中获取医务人员已经在诊疗系统中输入的症状描述信息。
S200、将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配,确定各人类表型标准用语与所述症状描述信息的匹配程度,其中,所述分词组中包括:对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表,所述分词列表包括至少一个分词。
其中,预设人类表型标准用语库可以是保存有各人类表型标准用语的数据库。在该数据库中可以包括各人类表型标准用语的中英文对照词汇。例如:CHPO:“肠扭转”与HPO:“Volvulus”互相对照。预设分词规则可以是技术人员将各人类表型标准用语按照一定的规范重新组合成词序列的规则。可选的,预设分词规则可以是基于统计语言模型(StatisticalLanguageModelSLM)的算法,也可以是技术人员自定义的分词规则。例如:本发明实施例可以基于统计语言模型的n-gram算法对人类表型标准用语进行分词。具体的,本发明实施例可以通过n-gram算法按照不同字符数对人类表型标准用语进行分词,获得不同字符数的分词。例如:假设一个汉字等于一个字符,那么本发明实施例可以对“肠扭转”分别按照字符数为1、字符数为2以及字符数为3进行分词,按照字符数为1进行分词获得的分词列表包括分词“肠”、“扭”和转”,按照字符数为2进行分词获得的分词列表包括分词“肠扭”和“扭转”,按照字符数为3进行分词获得的分词列表包括分词“肠扭转”。
可选的,所述分词组中的各分词列表中的分词不同,同一分词列表中的各分词的字数相同。
具体的,本发明实施例可以按照一定的规则对分词结果中的分词进行归类,获得分词列表。例如:本发明实施例可以按照字符数将分词结果中的分词进行归类,对于前述例子中对“肠扭转”的分词结果,可以将字符数均为1的分词“肠”、“扭”和“转”归为分词列表A,将字符数均为2的分词“肠扭”和“扭转”归为分词列表B,将字符数均为3的分词“肠扭转”归为分词列表C
可以理解的是,预设分词规则也可以是现有分词工具所使用的分词规则。现有分词工具可以包括:结巴(jieba)分词、语言技术平台(LanguageTechnologyPlatformLTP)以及自然语言处理与信息检索平台(NaturalLanguageProcessing & InformationRetrieva lSharingPlatformNLPIR)。
需要进行说明的是,以上举例仅为对人类表型标准用语以中文形式表达时的词汇进行说明,可以理解的是,本发明实施例还可以对包括英文在内的语言表达形式的人类表型标准用语进行分词。
可选的,基于图1所示的方法,如图2所示,本发明实施例提供的另一种人类表型标准用语确定方法,步骤S200可以包括:
S210、对各人类表型标准用语中任一人类表型标准用语对应的分词组:对该分词组中的任一分词列表:在所述症状描述信息中查询该分词列表中的分词,将在所述症状描述信息中出现的该分词列表中的分词确定为共有词;S211、确定该分词列表中共有词的数量以及各共有词在所述症状描述信息中的位置;S212、根据该分词列表中共有词的数量和该分词列表中分词的数量,确定该分词列表与所述症状描述信息的第一相似度;S213、根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度。
为了便于对步骤S210中的共有词进行理解,此处通过举例进行说明:当症状描述信息为“因肠旋转不良后死亡”时,在该症状描述信息中查询分词列表中的分词“肠”、“扭”和“转”,由于症状描述信息和分词列表均包括“肠”和“转”,所以“肠”和“转”可以确定为共有词。当然,若分词列表中的分词为“肠扭转”时,则该分词列表与该症状描述信息无共有词。
其中,步骤S212可以具体包括:根据该分词列表中共有词的数量与该分词列表中分词的数量的比值,确定该分词列表与症状描述信息的第一相似度。
例如:某分词列表中包括“肠”、“扭”和“转”三个分词,其中“肠”和“转”这两个分词 为该分词列表与症状描述信息的共有词,因此该分词列表与症状描述信息的第一相似度 为:
Figure 613484DEST_PATH_IMAGE012
可选的,基于图2所示的方法,如图3所示,本发明实施例提供的另一种人类表型标准用语确定方法,步骤S213可以包括:
S213a、根据各共有词在所述症状描述信息中的位置,确定该分词列表在所述症状描述信息中的第一位置向量。
其中,共有词在症状描述信息中的位置可以是字符序号。需要注意的是,字符序号可以与分词列表中各分词的字符数有关,例如:当分词列表中的各分词的字符数为1,则症状描述信息中的一个字符序号可以表示一个字符。当分词列表中各分词的字符数为2,则症状描述信息中的一个字符序号可以表示两个字符。为了便于理解,此处通过举例进一步说明:当症状描述信息为“长骨部分弯曲”时,若共有词为“长”和“弯”,则共有词“长”在该症状描述信息中的字符序号可以为“1”,共有词“弯”在该症状描述信息中的字符序号可以为“5”。若共有词为“弯曲”,则共有词“弯曲”在该症状描述信息中的字符序号可以为“5”。
其中,第一位置向量可以是由各共有词在症状描述信息中的字符序号组成的一维列表。为了便于理解,此处通过举例进行说明:当症状描述信息为“疑似患者,孕32周+5,胎儿骨干发育不良如孕26周,长骨部分弯曲。有家族遗传病史。”时,若某分词列表与该症状描述信息的共有词为“长”、“骨”、“弯”和“曲”,则该分词列表在该症状描述信息中的第一位置向量为[27,28,31,32]。若某分词列表与该症状描述信息的共有词为“长骨”、“骨弯”“弯曲”,则该分词列表在该人类表型标准用语中的第二位置向量为[1,2,3]。
S213b、根据各共有词在该人类表型标准用语中的位置,确定该分词列表在该人类表型标准用语中的第二位置向量。
其中,共有词在人类表型标准用语中的位置可以是字符序号。需要注意的是,字符序号可以与分词列表中各分词的字符数有关。例如:当分词列表中的各分词的字符数为1,则人类表型标准用语中的一个字符序号可以表示一个字符。当分词列表中各分词的字符数为2,则人类表型标准用语中的一个字符序号可以表示两个字符。为了便于理解,此处通过举例进一步说明:当人类表型标准用语为“长骨弯曲”时,若共有词为“长”和“弯”,则共有词“长”在该人类表型标准用语中的字符序号可以为“1”,共有词“弯”在该人类表型标准用语中的字符序号可以为“3”。若共有词为“弯曲”,则共有词“弯曲”在该人类表型标准用语中的字符序号可以为“3”。需要注意的是,标点符号也占用一个字符序号。
其中,第二位置向量可以是由各共有词在人类表型标准用语中的字符序号组成的一维列表。为了便于理解,此处通过举例进行说明:当人类表型标准用语为“长骨弯曲”时,若某分词列表与该症状描述信息的共有词为“长”,“骨”,“弯”和“曲”,则该分词列表在该人类表型标准用语中的第二位置向量为[1,2,3,4]。若某分词列表与该症状描述信息的共有词为“长骨”、“骨弯”“弯曲”,则该分词列表在该人类表型标准用语中的第二位置向量为[1,2,3]。
S213c、根据各分词列表的第一位置向量和第二位置向量,确定该人类表型标准用语与所述症状描述信息之间的离散程度。
可选的,步骤S213c可以包括:
Figure 464765DEST_PATH_IMAGE013
其中,VAR为该人类表型标准用语与所述症状描述信息之间的离散程度,N为该分 词组中包括分词列表的数量,
Figure 691347DEST_PATH_IMAGE014
为分词列表n在所述症状描述信息中的第一位置向量,
Figure 464131DEST_PATH_IMAGE015
为分词列表n在该人类表型标准用语中的第二位置向量。
S220、通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度。
可选的,基于图2所示的方法,如图4所示,本发明实施例提供的另一种人类表型标准用语确定方法,步骤S220可以包括:
S221、通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第三相似度。
S222、将所述第三相似度乘以可调权重因子,确定该人类表型标准用语与所述症状描述信息的第二相似度。
可选的,步骤S221可以包括:
Figure 535993DEST_PATH_IMAGE016
其中,n为分词列表的编号,preScore为第三相似度,
Figure 976201DEST_PATH_IMAGE017
为分词 列表n的第一相似度,其中,1≤nNN为该分词组中包括分词列表的数量,
Figure 842526DEST_PATH_IMAGE018
为调节因子,
Figure 371115DEST_PATH_IMAGE019
为分词列表n对应的归一化因子,
Figure 981088DEST_PATH_IMAGE020
为分词列表n对应的权重,
Figure 275803DEST_PATH_IMAGE021
为分词列表n中 共有词的数量和分词列表n中分词的数量的比值。
其中,调节因子可以由技术人员进行设定。技术人员可以在本发明实施例提供的人类表型标准用语确定方法每次执行完成后,根据每次的执行结果对调节因子进行调整。
其中,分词列表n对应的归一化因子可以表示为:
Figure 313029DEST_PATH_IMAGE022
其中,logp为数据
Figure 325985DEST_PATH_IMAGE023
,......,
Figure 5228DEST_PATH_IMAGE024
的平均值,可以表示为:
Figure 888870DEST_PATH_IMAGE025
其中,
Figure 628156DEST_PATH_IMAGE026
为数据
Figure 597249DEST_PATH_IMAGE027
,......,
Figure 814604DEST_PATH_IMAGE028
的方差,可以表示为:
Figure 818332DEST_PATH_IMAGE029
其中,各分词列表对应的权重可以由技术人员进行设定。技术人员可以在本发明实施例提供的人类表型标准用语确定方法每次执行完成后,根据每次的执行结果对各分词列表对应的权重进行调整。
而步骤S222可以包括:
Score=γ×exp(preScore)
其中,Score为该人类表型标准用语与所述症状描述信息的第二相似度,γ为可调权重因子。
需要进行说明的是,可调权重因子与人类表型标准用语有关。具体的,本发明实施例可以通过该人类表型标准用语的历史匹配数据,确定可调权重因子。具体的,本发明实施例可以通过历史匹配数据库中提取出该人类表型标准用语的历史匹配数据,该历史匹配数据可以包括:该人类表型标准用语被正确匹配的第一次数、该人类表型标准用语被错误匹配的第二次数以及该人类表型标准用语由人工补注的第三次数。本发明实施例可以将该第一次数、第二次数和第三次数进行加权求和,确定该可调权重因子。本发明实施例依据该人类表型标准用语的历史匹配数据,确定计算该人类表型标准用语与症状描述信息的匹配程度所用的可调权重因子,可以提升该人类表型标准用语被正确匹配的概率。
S230、根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度。
为了便于对各人类表型标准用语与症状描述信息的匹配程度进行理解,可选的,在本发明实施例提供的另一种人类表型标准用语确定方法,步骤S230可以包括:
Figure 462940DEST_PATH_IMAGE030
其中, AEEV为该人类表型标准用语与所述症状描述信息的匹配程度,VAR为该人类表型标准用语与所述症状描述信息之间的离散程度,Score为该人类表型标准用语与所述症状描述信息的第二相似度,N为该分词组中包括分词列表的数量;
Score=γ×exp(preScore)
其中,γ为可调权重因子,preScore为第三相似度,
Figure 919329DEST_PATH_IMAGE031
其中,n为分词列表的编号,
Figure 943304DEST_PATH_IMAGE032
为分词列表n的第一相似度,其 中,1≤nN
Figure 67118DEST_PATH_IMAGE033
为调节因子,
Figure 882627DEST_PATH_IMAGE034
为分词列表n对应的归一化因子,
Figure 91892DEST_PATH_IMAGE035
为分词列表n对应 的权重,
Figure 385470DEST_PATH_IMAGE036
为分词列表n中共有词的数量和分词列表n中分词的数量的比值;
Figure 363790DEST_PATH_IMAGE037
其中,
Figure 350201DEST_PATH_IMAGE038
为分词列表n在所述症状描述信息中的第一位置向量,
Figure 46761DEST_PATH_IMAGE039
为分词列表n在该人类表型标准用语中的第二位置向量。
S300、确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。
其中,预设匹配成功条件可以为当某人类表型标准用语与某症状描述信息的匹配程度大于预设的匹配程度阈值。为了便于理解,此处通过举例进行说明:若人类表型标准用语M与症状描述信息T的匹配程度为9,人类表型标准用语N与症状描述信息T的匹配程度为4,当预设的匹配程度阈值为8时,则人类表型标准用语M为满足预设匹配成功条件的人类表型标准用语。
本发明实施例可以将匹配程度不满足预设匹配成功条件的人类表型标准用语进行滤除,仅输出匹配程度满足预设匹配成功条件的人类表型标准用语。可以理解的是,如图5所示,本发明实施例提供的一种对人类表型标准用语的输出结果,该输出结果中可以包括匹配程度满足预设匹配成功条件的人类表型标准用语的中英文对照词汇,即本发明实施例可以同时输出该人类表型标准用语的CHPOHPO,其中,输出HPO时,还可以一并输出HPO对应的编号。可以理解的是,在实际情况中,可能有多个人类表型标准用语与同一症状描述信息的匹配程度均满足预设匹配成功条件,如图5所示,本发明实施例可以将该多个人类表型标准用语同时进行输出,并且使用预设对应标识(如箭头)将该多个人类表型标准用语在该症状描述信息中分别对应的描述词汇进行对应并输出。
本发明实施例提供的一种人类表型标准用语确定方法,可以获得症状描述信息;将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配,确定各人类表型标准用语与所述症状描述信息的匹配程度,其中,所述分词组中包括:对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表,所述分词列表包括至少一个分词;确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。本发明实施例可以将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配,确定各人类表型标准用语与症状描述信息的匹配程度,从而确定出符合该症状描述信息的人类表型标准用语,有助于技术人员之间对症状描述信息进行研究和交流,同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。
可选的,如图6所示,本发明实施例提供的另一种人类表型标准用语确定方法,在步骤S300之后,所述方法还包括:
S400、确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。
具体的,本发明实施例可以根据人类表型标准用语对应的各分词列表中的共有词在该症状描述信息中出现的离散程度,从而确定该位置的词汇为该人类表型标准用语在该症状描述信息中对应的描述词汇。例如:症状描述信息为“该患者患有肠胃炎,并伴有肠旋转”,人类表型标准用语“肠扭转”与该症状描述信息中的共有词为“肠”和“转”,尽管症状描述信息中“肠胃炎”和“肠旋转”中都有共有词“肠”,但是“肠旋转”还存在共有词“转”,因而“肠旋转”相对于“肠胃炎”而言,与共有词的离散程度更低,因此,人类表型标准用语“肠扭转”在该症状描述信息中对应的描述词汇为“肠旋转”。
S500、检测与所述描述词汇相邻的相邻词汇是否为预设否定词,如果是,则对所述相邻词汇进行标记。
其中,预设否定词可以包括:“无”、“未”、“没”、“不”、“非”、“别”、“勿”、“缺”、“否”等。本发明实施例可以检测与该描述词汇相邻且在该描述词汇前的相邻词汇是否为预设否定词。当该相邻词汇为预设否定词时,本发明实施例可以通过预设否定标识对该相邻词汇进行标记。例如:本发明实施例可以将该相邻词汇的字体加粗、更改该相邻词汇的字体颜色以及对该相邻词汇使用特殊符号指示。本发明实施例通过将为预设否定词的相邻词汇进行标记,可以方便用户清楚分辨该症状描述信息中的描述词汇所要表达的是肯定含义或是否定含义。当检测与所述描述词汇相邻的相邻词汇不是预设否定词时,本发明实施例可以不对所述相邻词汇进行标记。
可选的,如图7所示,本发明实施例提供的另一种人类表型标准用语确定方法,在步骤S300之后,所述方法还包括:
S600、确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。
步骤S600的说明可参照上述对步骤S400的说明,此处不再赘述。
S700、判断所述描述词汇与所述人类表型标准用语是否一致,如果一致,则执行步骤S800,如果不一致,则执行步骤S900。
S800、确定所述人类表型标准用语与所述描述词汇为完全匹配。
S900、确定所述人类表型标准用语与所述描述词汇为模糊匹配。
基于图5所示的输出结果,如图8所示,本发明实施例提供的另一种对人类表型标准用语的输出结果。本发明实施例可以在输出匹配程度满足预设匹配成功条件的人类表型标准用语时,输出该人类表型标准用语与描述词汇的匹配模式是完全匹配或是模糊匹配。
与上述方法实施例相对应,本发明实施例还提供一种人类表型标准用语确定装置,其结构如图9所示,可以包括:症状描述信息获得单元100、匹配程度确定单元200和人类表型标准用语确定单元300。
所述症状描述信息获得单元100,用于获得症状描述信息。
其中,症状描述信息可以是医务人员对患者的疾病进行检查、诊断等医疗活动过程的记录。症状描述信息可以是由多个词汇组成的句子或段落。本发明实施例可以提供可供用户输入症状描述信息的界面,用户可以在该界面中编辑输入症状描述信息或上传已编辑有症状描述信息的文件。本发明实施例也可以通过文字扫描设备,扫描获得医务人员手写的症状描述信息。当然,本发明也可以从现有的诊疗系统(例如医院的各科室的电脑上安装的诊疗系统)中获取医务人员已经在诊疗系统中输入的症状描述信息。
所述匹配程度确定单元200,用于将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配,确定各人类表型标准用语与所述症状描述信息的匹配程度,其中,所述分词组中包括:对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表,所述分词列表包括至少一个分词。
其中,预设人类表型标准用语库可以是保存有各人类表型标准用语的数据库。在该数据库中可以包括各人类表型标准用语的中英文对照词汇。可选的,预设分词规则可以是基于统计语言模型(StatisticalLanguageModelSLM)的算法,也可以是技术人员自定义的分词规则。
可选的,所述分词组中的各分词列表中的分词不同,同一分词列表中的各分词的字数相同。
具体的,本发明实施例可以按照一定的规则对分词结果中的分词进行归类,获得分词列表。
可以理解的是,预设分词规则也可以是现有分词工具所使用的分词规则。现有分词工具可以包括:结巴(jieba)分词、语言技术平台(LanguageTechnologyPlatformLTP)以及自然语言处理与信息检索平台(NaturalLanguageProcessing & InformationRetrieva lSharingPlatformNLPIR)。
可选的,本发明实施例提供的另一种人类表型标准用语确定装置,所述匹配程度确定单元200包括:共有词确定子单元,共有词数量确定子单元、共有词位置确定子单元、第一相似度确定子单元、离散程度确定子单元、第二相似度确定子单元和匹配程度确定子单元。
所述共有词确定子单元,用于对各人类表型标准用语中任一人类表型标准用语对应的分词组:对该分词组中的任一分词列表:在所述症状描述信息中查询该分词列表中的分词,将在所述症状描述信息中出现的该分词列表中的分词确定为共有词。
所述共有词数量确定子单元,用于确定该分词列表中共有词的数量;
所述共有词位置确定子单元,用于确定各共有词在所述症状描述信息中的位置。
所述第一相似度确定子单元,用于根据该分词列表中共有词的数量和该分词列表中分词的数量,确定该分词列表与所述症状描述信息的第一相似度。
其中,所述第一相似度确定子单元可以具体用于根据该分词列表中共有词的数量与该分词列表中分词的数量的比值,确定该分词列表与症状描述信息的第一相似度。
所述离散程度确定子单元,用于根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度。
可选的,所述离散程度确定子单元还可以具体用于根据各共有词在所述症状描述信息中的位置,确定该分词列表在所述症状描述信息中的第一位置向量;根据各共有词在该人类表型标准用语中的位置,确定该分词列表在该人类表型标准用语中的第二位置向量;根据各分词列表的第一位置向量和第二位置向量,确定该人类表型标准用语与所述症状描述信息之间的离散程度。
其中,共有词在症状描述信息中的位置可以是字符序号。需要注意的是,字符序号可以与分词列表中各分词的字符数有关。
其中,第一位置向量可以是由各共有词在症状描述信息中的字符序号组成的一维列表。
其中,共有词在人类表型标准用语中的位置可以是字符序号。需要注意的是,字符序号可以与分词列表中各分词的字符数有关。
其中,第二位置向量可以是由各共有词在人类表型标准用语中的字符序号组成的一维列表。
可选的,所述离散程度确定子单元还可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息之间的离散程度:
Figure 409609DEST_PATH_IMAGE040
其中,VAR为该人类表型标准用语与所述症状描述信息之间的离散程度,N为该分 词组中包括分词列表的数量,
Figure 773595DEST_PATH_IMAGE041
为分词列表n在所述症状描述信息中的第一位置向量,
Figure 930906DEST_PATH_IMAGE042
为分词列表n在该人类表型标准用语中的第二位置向量。
所述第二相似度确定子单元,用于通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度。
可选的,所述第二相似度确定子单元还可以具体用于通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第三相似度;将所述第三相似度乘以可调权重因子,确定该人类表型标准用语与所述症状描述信息的第二相似度。
可选的,所述第二相似度确定子单元还可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息的第三相似度:
Figure 117693DEST_PATH_IMAGE043
其中,n为分词列表的编号,preScore为第三相似度,
Figure 753073DEST_PATH_IMAGE044
为分词列 表n的第一相似度,其中,1≤nNN为该分词组中包括分词列表的数量,
Figure 705986DEST_PATH_IMAGE045
为调节因子,
Figure 34199DEST_PATH_IMAGE046
为分词列表n对应的归一化因子,
Figure 439773DEST_PATH_IMAGE047
为分词列表n对应的权重,
Figure 410003DEST_PATH_IMAGE048
为分词列表n中共 有词的数量和分词列表n中分词的数量的比值。
其中,调节因子可以由技术人员进行设定。技术人员可以在本发明实施例提供的人类表型标准用语确定方法每次执行完成后,根据每次的执行结果对调节因子进行调整。
其中,分词列表n对应的归一化因子可以表示为:
Figure 951842DEST_PATH_IMAGE049
其中,logp为数据
Figure 716536DEST_PATH_IMAGE050
,......,
Figure 343827DEST_PATH_IMAGE051
的平均值,可以表示为:
Figure 586589DEST_PATH_IMAGE052
其中,
Figure 248515DEST_PATH_IMAGE053
为数据
Figure 184110DEST_PATH_IMAGE054
,......,
Figure 298696DEST_PATH_IMAGE055
的方差,可以表示为:
Figure 359798DEST_PATH_IMAGE056
其中,各分词列表对应的权重可以由技术人员进行设定。技术人员可以在本发明实施例提供的人类表型标准用语确定方法每次执行完成后,根据每次的执行结果对各分词列表对应的权重进行调整。
所述第二相似度确定子单元还可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息的第二相似度:
Score=γ×exp(preScore)
其中,Score为该人类表型标准用语与所述症状描述信息的第二相似度,γ为可调权重因子。
需要进行说明的是,可调权重因子与人类表型标准用语有关。具体的,本发明实施例可以通过该人类表型标准用语的历史匹配数据,确定可调权重因子。具体的,本发明实施例可以通过历史匹配数据库中提取出该人类表型标准用语的历史匹配数据,该历史匹配数据可以包括:该人类表型标准用语被正确匹配的第一次数、该人类表型标准用语被错误匹配的第二次数以及该人类表型标准用语由人工补注的第三次数。本发明实施例可以将该第一次数、第二次数和第三次数进行加权求和,确定该可调权重因子。本发明实施例依据该人类表型标准用语的历史匹配数据,确定计算该人类表型标准用语与症状描述信息的匹配程度所用的可调权重因子,可以提升该人类表型标准用语被正确匹配的概率。
所述匹配程度确定子单元,用于根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度。
可选的,所述匹配程度确定子单元可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息的匹配程度:
Figure 141809DEST_PATH_IMAGE057
其中,AEEV为该人类表型标准用语与所述症状描述信息的匹配程度,VAR为该人类表型标准用语与所述症状描述信息之间的离散程度,Score为该人类表型标准用语与所述症状描述信息的第二相似度,N为该分词组中包括分词列表的数量;
Score=γ×exp(preScore)
其中,γ为可调权重因子,preScore为第三相似度,
Figure 982726DEST_PATH_IMAGE058
其中,n为分词列表的编号,
Figure 850188DEST_PATH_IMAGE059
为分词列表n的第一相似度,其中,1 ≤nN
Figure 434753DEST_PATH_IMAGE060
为调节因子,
Figure 71271DEST_PATH_IMAGE061
为分词列表n对应的归一化因子,
Figure 83089DEST_PATH_IMAGE062
为分词列表n对应的权 重,
Figure 172268DEST_PATH_IMAGE063
为分词列表n中共有词的数量和分词列表n中分词的数量的比值;
Figure 826103DEST_PATH_IMAGE065
其中,
Figure 51548DEST_PATH_IMAGE066
为分词列表n在所述症状描述信息中的第一位置向量,
Figure 499847DEST_PATH_IMAGE067
为分词列表n在该人类表型标准用语中的第二位置向量。
所述人类表型标准用语确定单元300,用于确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。
其中,预设匹配成功条件可以为当某人类表型标准用语与某症状描述信息的匹配程度大于预设的匹配程度阈值。
本发明实施例可以将匹配程度不满足预设匹配成功条件的人类表型标准用语进行滤除,仅输出匹配程度满足预设匹配成功条件的人类表型标准用语。
本发明实施例提供的一种人类表型标准用语确定装置,可以获得症状描述信息;将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配,确定各人类表型标准用语与所述症状描述信息的匹配程度,其中,所述分词组中包括:对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表,所述分词列表包括至少一个分词;确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。本发明实施例可以将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配,确定各人类表型标准用语与症状描述信息的匹配程度,从而确定出符合该症状描述信息的人类表型标准用语,有助于技术人员之间对症状描述信息进行研究和交流,同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。
可选的,本发明实施例提供的另一种人类表型标准用语确定装置,还可以包括:描述词汇确定单元、否定词检测单元和否定词标记单元。
所述描述词汇确定单元,用于所述人类表型标准用语确定单元300确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后,确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。
具体的,本发明实施例可以根据人类表型标准用语对应的各分词列表中的共有词在该症状描述信息中出现的离散程度,从而确定该位置的词汇为该人类表型标准用语在该症状描述信息中对应的描述词汇。
所述否定词检测单元,用于检测与所述描述词汇相邻的相邻词汇是否为预设否定词,如果是,则触发所述否定词标记单元。
所述否定词标记单元,用于对所述相邻词汇进行标记。
本发明实施例可以检测与该描述词汇相邻且在该描述词汇前的相邻词汇是否为预设否定词。当该相邻词汇为预设否定词时,本发明实施例可以通过预设否定标识对该相邻词汇进行标记。
可选的,本发明实施例提供的另一种人类表型标准用语确定装置,还可以包括:描述词汇确定单元、词汇判断单元和词汇匹配确定单元。
所述描述词汇确定单元,用于确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。
所述词汇判断单元,用于判断所述描述词汇与所述人类表型标准用语是否一致,如果一致,则触发所述词汇匹配确定单元,所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为完全匹配;如果不一致,则触发所述词汇匹配确定单元,所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为模糊匹配。
所述人类表型标准用语确定装置包括处理器和存储器,上述症状描述信息获得单元100、匹配程度确定单元200和人类表型标准用语确定单元300等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配,确定各人类表型标准用语与症状描述信息的匹配程度,从而确定出符合该症状描述信息的人类表型标准用语。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述人类表型标准用语确定方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述人类表型标准用语确定方法。
本发明实施例提供了一种设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的人类表型标准用语确定方法。本文中的设备可以是服务器、PCPAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有所述人类表型标准用语确定方法步骤的程序。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种人类表型标准用语确定方法,其特征在于,包括:
获得症状描述信息,其中,所述症状描述信息是由多个词汇组成的句子或段落;
对预设人类表型标准用语库中的各人类表型标准用语中任一人类表型标准用语对应的分词组:对该分词组中的任一分词列表:在所述症状描述信息中查询该分词列表中的分词,将在所述症状描述信息中出现的该分词列表中的分词确定为共有词;确定该分词列表中共有词的数量以及各共有词在所述症状描述信息中的位置;根据该分词列表中共有词的数量和该分词列表中分词的数量,确定该分词列表与所述症状描述信息的第一相似度;根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度;
通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度;
根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度;
确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。
2.根据权利要求1所述的方法,其特征在于,所述分词组中的各分词列表中的分词不同,同一分词列表中的各分词的字数相同。
3.根据权利要求1所述的方法,其特征在于,在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后,所述方法还包括:
确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
检测与所述描述词汇相邻的相邻词汇是否为预设否定词,如果是,则对所述相邻词汇进行标记。
4.根据权利要求1所述的方法,其特征在于,在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后,所述方法还包括:
确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
判断所述描述词汇与所述人类表型标准用语是否一致,如果一致,则确定所述人类表型标准用语与所述描述词汇为完全匹配,如果不一致,则确定所述人类表型标准用语与所述描述词汇为模糊匹配。
5.根据权利要求1所述的方法,其特征在于,所述通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度,包括:
通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第三相似度;
将所述第三相似度乘以可调权重因子,确定该人类表型标准用语与所述症状描述信息的第二相似度。
6.根据权利要求1所述的方法,其特征在于,所述根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度,包括:
根据各共有词在所述症状描述信息中的位置,确定该分词列表在所述症状描述信息中的第一位置向量;
根据各共有词在该人类表型标准用语中的位置,确定该分词列表在该人类表型标准用语中的第二位置向量;
根据各分词列表的第一位置向量和第二位置向量,确定该人类表型标准用语与所述症状描述信息之间的离散程度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度,包括:
Figure 610743DEST_PATH_IMAGE001
其中,
Figure 809643DEST_PATH_IMAGE002
为该人类表型标准用语与所述症状描述信息的匹配程度,
Figure 787177DEST_PATH_IMAGE003
为该 人类表型标准用语与所述症状描述信息之间的离散程度,
Figure 780541DEST_PATH_IMAGE004
为该人类表型标准用语 与所述症状描述信息的第二相似度,N为该分词组中包括分词列表的数量;
Figure 534870DEST_PATH_IMAGE005
其中,γ为可调权重因子,preScore为第三相似度,
Figure 334199DEST_PATH_IMAGE006
其中,n为分词列表的编号,
Figure 857584DEST_PATH_IMAGE007
为分词列表n的第一相似度,其中,1≤nN
Figure 287428DEST_PATH_IMAGE008
为调节因子,
Figure 342103DEST_PATH_IMAGE009
为分词列表n对应的归一化因子,
Figure 617227DEST_PATH_IMAGE010
为分词列表n对应的权重,
Figure 260698DEST_PATH_IMAGE011
为分词列表n中共有词的数量和分词列表n中分词的数量的比值;
Figure 595864DEST_PATH_IMAGE013
其中,
Figure 387102DEST_PATH_IMAGE014
为分词列表n在所述症状描述信息中的第一位置向量,
Figure DEST_PATH_IMAGE015
为分词列表n在该 人类表型标准用语中的第二位置向量。
8.一种人类表型标准用语确定装置,其特征在于,包括:症状描述信息获得单元、匹配程度确定单元和人类表型标准用语确定单元,其中,所述匹配程度确定单元包括:共有词确定子单元,共有词数量确定子单元、共有词位置确定子单元、第一相似度确定子单元、离散程度确定子单元、第二相似度确定子单元和匹配程度确定子单元,
所述症状描述信息获得单元,用于获得症状描述信息,其中,所述症状描述信息是由多个词汇组成的句子或段落;
所述共有词确定子单元,用于对预设人类表型标准用语库中的各人类表型标准用语中任一人类表型标准用语对应的分词组:对该分词组中的任一分词列表:在所述症状描述信息中查询该分词列表中的分词,将在所述症状描述信息中出现的该分词列表中的分词确定为共有词;
所述共有词数量确定子单元,用于确定该分词列表中共有词的数量;
所述共有词位置确定子单元,用于确定各共有词在所述症状描述信息中的位置;
所述第一相似度确定子单元,用于根据该分词列表中共有词的数量和该分词列表中分词的数量,确定该分词列表与所述症状描述信息的第一相似度;
所述离散程度确定子单元,用于根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置,确定该人类表型标准用语与所述症状描述信息之间的离散程度;
所述第二相似度确定子单元,用于通过各分词列表的第一相似度,确定该人类表型标准用语与所述症状描述信息的第二相似度;
所述匹配程度确定子单元,用于根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量,确定该人类表型标准用语与所述症状描述信息的匹配程度;
所述人类表型标准用语确定单元,用于确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。
9.根据权利要求8所述的装置,其特征在于,还包括:描述词汇确定单元、否定词检测单元和否定词标记单元,
所述描述词汇确定单元,用于所述人类表型标准用语确定单元确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后,确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
所述否定词检测单元,用于检测与所述描述词汇相邻的相邻词汇是否为预设否定词,如果是,则触发所述否定词标记单元;
所述否定词标记单元,用于对所述相邻词汇进行标记。
10.根据权利要求8所述的装置,其特征在于,还包括:描述词汇确定单元、词汇判断单元和词汇匹配确定单元,
所述描述词汇确定单元,用于确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇;
所述词汇判断单元,用于判断所述描述词汇与所述人类表型标准用语是否一致,如果一致,则触发所述词汇匹配确定单元,所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为完全匹配;如果不一致,则触发所述词汇匹配确定单元,所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为模糊匹配。
CN202010265146.4A 2020-04-07 2020-04-07 一种人类表型标准用语确定方法及装置 Active CN111159977B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202010265146.4A CN111159977B (zh) 2020-04-07 2020-04-07 一种人类表型标准用语确定方法及装置
IL288616A IL288616B2 (en) 2020-04-07 2020-11-06 A method for determining a human phenotype ontology, and related devices
AU2020441876A AU2020441876B2 (en) 2020-04-07 2020-11-06 Method for determining human phenotype ontology, and related devices
JP2021571988A JP7317146B2 (ja) 2020-04-07 2020-11-06 ヒト表現型オントロジーの決定方法及び関連装置
EP20930380.9A EP4134864A4 (en) 2020-04-07 2020-11-06 METHOD FOR DETERMINING A STANDARD HUMAN PHENOTYPICAL TERM AND ASSOCIATED APPARATUS
PCT/CN2020/127048 WO2021203694A1 (zh) 2020-04-07 2020-11-06 一种人类表型标准用语确定方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010265146.4A CN111159977B (zh) 2020-04-07 2020-04-07 一种人类表型标准用语确定方法及装置

Publications (2)

Publication Number Publication Date
CN111159977A CN111159977A (zh) 2020-05-15
CN111159977B true CN111159977B (zh) 2020-09-08

Family

ID=70567751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010265146.4A Active CN111159977B (zh) 2020-04-07 2020-04-07 一种人类表型标准用语确定方法及装置

Country Status (6)

Country Link
EP (1) EP4134864A4 (zh)
JP (1) JP7317146B2 (zh)
CN (1) CN111159977B (zh)
AU (1) AU2020441876B2 (zh)
IL (1) IL288616B2 (zh)
WO (1) WO2021203694A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159977B (zh) * 2020-04-07 2020-09-08 深圳华大基因科技服务有限公司 一种人类表型标准用语确定方法及装置
CN114676229B (zh) * 2022-04-20 2023-01-24 国网安徽省电力有限公司滁州供电公司 一种技改大修工程档案管理系统及管理方法
CN115910213B (zh) * 2022-10-26 2023-12-29 广州金域医学检验中心有限公司 人类表型本体的筛选方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2419197A (en) * 2004-10-14 2006-04-19 3Com Corp A content addressable memory storing wide words partitioned into segments
CN109473169A (zh) * 2018-10-18 2019-03-15 安吉康尔(深圳)科技有限公司 一种疾病诊断方法、装置及终端设备
CN109753555A (zh) * 2018-11-30 2019-05-14 平安科技(深圳)有限公司 词语匹配方法、装置、设备及计算机可读存储介质
CN109949927A (zh) * 2019-02-18 2019-06-28 四川拾智联兴科技有限公司 一种基于深度神经网络的智能诊断方法及其系统
CN110021364A (zh) * 2017-11-24 2019-07-16 上海暖闻信息科技有限公司 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统
CN110335684A (zh) * 2019-06-14 2019-10-15 电子科技大学 基于主题模型技术的中医智能辨证辅助决策方法
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223852A (ja) 2008-03-19 2009-10-01 Fuji Xerox Co Ltd 検索装置
US9002857B2 (en) 2009-08-13 2015-04-07 Charite-Universitatsmedizin Berlin Methods for searching with semantic similarity scores in one or more ontologies
US20210375407A1 (en) * 2017-10-06 2021-12-02 The Trustees Of Columbia University In The City Of New York Diagnostic genomic predictions based on electronic health record data
CN110209808B (zh) * 2018-08-08 2023-03-10 腾讯科技(深圳)有限公司 一种基于文本信息的事件生成方法以及相关装置
CN109255021A (zh) * 2018-11-01 2019-01-22 北京京航计算通讯研究所 基于质量文本相似性的数据查询方法
CN111159977B (zh) * 2020-04-07 2020-09-08 深圳华大基因科技服务有限公司 一种人类表型标准用语确定方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2419197A (en) * 2004-10-14 2006-04-19 3Com Corp A content addressable memory storing wide words partitioned into segments
CN110021364A (zh) * 2017-11-24 2019-07-16 上海暖闻信息科技有限公司 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统
WO2019223103A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 文本相似度的获取方法、装置、终端设备及介质
CN109473169A (zh) * 2018-10-18 2019-03-15 安吉康尔(深圳)科技有限公司 一种疾病诊断方法、装置及终端设备
CN109753555A (zh) * 2018-11-30 2019-05-14 平安科技(深圳)有限公司 词语匹配方法、装置、设备及计算机可读存储介质
CN109949927A (zh) * 2019-02-18 2019-06-28 四川拾智联兴科技有限公司 一种基于深度神经网络的智能诊断方法及其系统
CN110335684A (zh) * 2019-06-14 2019-10-15 电子科技大学 基于主题模型技术的中医智能辨证辅助决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-level Similar Segment Matching Algorithm for Translation M;Emmanuel Planas.et al;《ResearchGate》;20001231;第1-7页 *
文本聚类及其在电子病历分析中的应用研究;张雪松;《中国优秀硕士学位论文全文数据库》;20180630;正文第1-30页 *

Also Published As

Publication number Publication date
EP4134864A4 (en) 2024-03-20
IL288616A (en) 2022-02-01
EP4134864A1 (en) 2023-02-15
JP2022535853A (ja) 2022-08-10
AU2020441876B2 (en) 2023-06-15
IL288616B1 (en) 2023-08-01
AU2020441876A1 (en) 2022-01-06
CN111159977A (zh) 2020-05-15
JP7317146B2 (ja) 2023-07-28
WO2021203694A1 (zh) 2021-10-14
IL288616B2 (en) 2023-12-01

Similar Documents

Publication Publication Date Title
CN111159977B (zh) 一种人类表型标准用语确定方法及装置
CN110993081B (zh) 一种医生在线推荐方法及系统
CN110459282B (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
US10910100B2 (en) System and method for generating descriptions of abnormalities in medical images
CN109670179A (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN110188357B (zh) 对象的行业识别方法及装置
CN103605691B (zh) 用于处理社交网络中发布内容的装置和方法
WO2021046536A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN110472049B (zh) 疾病筛查文本分类方法、计算机设备和可读存储介质
US11989518B2 (en) Normalized processing method and apparatus of named entity, and electronic device
CN114186070A (zh) 基于人工智能模型的医学术语归一化方法、装置
CN111292814A (zh) 一种医疗数据标准化的方法及装置
CN114912887B (zh) 一种基于电子病历的临床数据录入方法及录入装置
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN112347257A (zh) 一种患者症状口语化标准化方法和装置
CN110597760A (zh) 用于电子文档合规性判别的智能方法
CN111627561B (zh) 标准症状抽取方法、装置、电子设备和存储介质
CN113642562A (zh) 基于图像识别的数据解读方法、装置、设备及存储介质
CN112699230A (zh) 一种恶性肿瘤诊疗知识获取方法及装置
CN113343680A (zh) 一种基于多类型病历文本的结构化信息提取方法
CN109614494A (zh) 一种文本分类方法及相关装置
CN115146025A (zh) 一种问答语句分类方法、终端设备及存储介质
CN114238597A (zh) 一种信息抽取方法、装置、设备及存储介质
CN114388084A (zh) 一种人类表型本体术语提取系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant