CN111159977B

CN111159977B - 一种人类表型标准用语确定方法及装置

Info

Publication number: CN111159977B
Application number: CN202010265146.4A
Authority: CN
Inventors: 周戬; 孔令翔; 杨姣博; 贺增泉; 王今安
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-09-08
Anticipated expiration: 2040-04-07
Also published as: EP4134864A4; IL288616A; EP4134864A1; JP2022535853A; AU2020441876B2; IL288616B1; AU2020441876A1; CN111159977A; JP7317146B2; WO2021203694A1; IL288616B2

Abstract

本发明公开了一种人类表型标准用语确定方法及装置，可以获得症状描述信息；将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与症状描述信息进行查询匹配，确定各人类表型标准用语与所述症状描述信息的匹配程度，分词组中包括：对该分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表，该分词列表包括至少一个分词；确定匹配程度满足预设匹配成功条件的人类表型标准用语。本发明将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配，筛选出符合该症状描述信息的人类表型标准用语，有助于技术人员之间对症状描述信息进行研究和交流，同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。

Description

一种人类表型标准用语确定方法及装置

技术领域

本发明涉及信息处理领域，尤其涉及一种人类表型标准用语确定方法及装置。

背景技术

人类表型标准用语（HPO，HumanPhenotypeOntology）是一套描述人类疾病所致的异常表型的标准词语集。为了便于国内大部分医疗、科研工作者所使用的表型描述词语能够统一，国内成立了中文人类表型标准用语联盟，将以英文形式表现的HPO翻译为以中文形式表现的CHPO（ChineseHumanPhenotypeOntology，中文人类表型标准用语）。

在实际情况中，由于不同的医生在症状描述信息中对同一种人类表型标准用语对应的症状的描述多种多样，因此这为症状后续的临床研究和交流带来不便，同时也使对该症状进行数据分析和挖掘更加困难。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的一种人类表型标准用语确定方法及装置，相关技术方案如下：

一种人类表型标准用语确定方法，包括：

获得症状描述信息；

对预设人类表型标准用语库中的各人类表型标准用语中任一人类表型标准用语对应的分词组：对该分词组中的任一分词列表：在所述症状描述信息中查询该分词列表中的分词，将在所述症状描述信息中出现的该分词列表中的分词确定为共有词；确定该分词列表中共有词的数量以及各共有词在所述症状描述信息中的位置；根据该分词列表中共有词的数量和该分词列表中分词的数量，确定该分词列表与所述症状描述信息的第一相似度；根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置，确定该人类表型标准用语与所述症状描述信息之间的离散程度；

通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第二相似度；

根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度；

确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。

可选的，所述分词组中的各分词列表中的分词不同，同一分词列表中的各分词的字数相同。

可选的，在所述确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后，所述方法还包括：

确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇；

检测与所述描述词汇相邻的相邻词汇是否为预设否定词，如果是，则对所述相邻词汇进行标记。

判断所述描述词汇与所述人类表型标准用语是否一致，如果一致，则确定所述人类表型标准用语与所述描述词汇为完全匹配，如果不一致，则确定所述人类表型标准用语与所述描述词汇为模糊匹配。

可选的，所述通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第二相似度，包括：

通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第三相似度；

将所述第三相似度乘以可调权重因子，确定该人类表型标准用语与所述症状描述信息的第二相似度。

可选的，所述根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置，确定该人类表型标准用语与所述症状描述信息之间的离散程度，包括：

根据各共有词在所述症状描述信息中的位置，确定该分词列表在所述症状描述信息中的第一位置向量；

根据各共有词在该人类表型标准用语中的位置，确定该分词列表在该人类表型标准用语中的第二位置向量；

根据各分词列表的第一位置向量和第二位置向量，确定该人类表型标准用语与所述症状描述信息之间的离散程度。

可选的，所述根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度，包括：

其中，AEEV为该人类表型标准用语与所述症状描述信息的匹配程度，VAR为该人类表型标准用语与所述症状描述信息之间的离散程度，Score为该人类表型标准用语与所述症状描述信息的第二相似度，N为该分词组中包括分词列表的数量；

Score=γ×exp(preScore)

其中，γ为可调权重因子，preScore为第三相似度，

其中，n为分词列表的编号，

为分词列表n的第一相似度，其中，1≤n≤N，

为调节因子，

为分词列表n对应的归一化因子，

为分词列表n对应的权重，

为分词列表n中共有词的数量和分词列表n中分词的数量的比值；

其中，

为分词列表n在所述症状描述信息中的第一位置向量，

为分词列表n在该人类表型标准用语中的第二位置向量。

一种人类表型标准用语确定装置，包括：症状描述信息获得单元、匹配程度确定单元和人类表型标准用语确定单元，其中，所述匹配程度确定单元包括：共有词确定子单元，共有词数量确定子单元、共有词位置确定子单元、第一相似度确定子单元、离散程度确定子单元、第二相似度确定子单元和匹配程度确定子单元，

所述症状描述信息获得单元，用于获得症状描述信息；

所述共有词确定子单元，用于对预设人类表型标准用语库中的各人类表型标准用语中任一人类表型标准用语对应的分词组：对该分词组中的任一分词列表：在所述症状描述信息中查询该分词列表中的分词，将在所述症状描述信息中出现的该分词列表中的分词确定为共有词；

所述共有词数量确定子单元，用于确定该分词列表中共有词的数量；

所述共有词位置确定子单元，用于确定各共有词在所述症状描述信息中的位置；

所述第一相似度确定子单元，用于根据该分词列表中共有词的数量和该分词列表中分词的数量，确定该分词列表与所述症状描述信息的第一相似度；

所述离散程度确定子单元，用于根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置，确定该人类表型标准用语与所述症状描述信息之间的离散程度；

所述第二相似度确定子单元，用于通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第二相似度；

所述匹配程度确定子单元，用于根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度；

所述人类表型标准用语确定单元，用于确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。

可选的，所述装置还包括：描述词汇确定单元、否定词检测单元和否定词标记单元，

所述描述词汇确定单元，用于所述人类表型标准用语确定单元确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后，确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇；

所述否定词检测单元，用于检测与所述描述词汇相邻的相邻词汇是否为预设否定词，如果是，则触发所述否定词标记单元；

所述否定词标记单元，用于对所述相邻词汇进行标记。

可选的，所述装置还包括：描述词汇确定单元、词汇判断单元和词汇匹配确定单元，

所述描述词汇确定单元，用于确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇；

所述词汇判断单元，用于判断所述描述词汇与所述人类表型标准用语是否一致，如果一致，则触发所述词汇匹配确定单元，所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为完全匹配；如果不一致，则触发所述词汇匹配确定单元，所述词汇匹配确定单元用于确定所述人类表型标准用语与所述描述词汇为模糊匹配。

借由上述技术方案，本发明提供的一种人类表型标准用语确定方法及装置，可以获得症状描述信息；将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与症状描述信息进行查询匹配，确定各人类表型标准用语与所述症状描述信息的匹配程度，分词组中包括：对该分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表，该分词列表包括至少一个分词；确定匹配程度满足预设匹配成功条件的人类表型标准用语。本发明将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配，筛选出符合该症状描述信息的人类表型标准用语，有助于技术人员之间对症状描述信息进行研究和交流，同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种人类表型标准用语确定方法的流程示意图；

图2示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图；

图3示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图；

图4示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图；

图5示出了本发明实施例提供的一种对人类表型标准用语的输出结果的示意图；

图6示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图；

图7示出了本发明实施例提供的另一种人类表型标准用语确定方法的流程示意图；

图8示出了本发明实施例提供的另一种对人类表型标准用语的输出结果的示意图；

图9示出了本发明实施例提供的一种人类表型标准用语确定装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例提供的一种人类表型标准用语确定方法，可以包括：

S100、获得症状描述信息。

其中，症状描述信息可以是医务人员对患者的疾病进行检查、诊断等医疗活动过程的记录。症状描述信息可以是由多个词汇组成的句子或段落。本发明实施例可以提供可供用户输入症状描述信息的界面，用户可以在该界面中编辑输入症状描述信息或上传已编辑有症状描述信息的文件。本发明实施例也可以通过文字扫描设备，扫描获得医务人员手写的症状描述信息。当然，本发明也可以从现有的诊疗系统（例如医院的各科室的电脑上安装的诊疗系统）中获取医务人员已经在诊疗系统中输入的症状描述信息。

S200、将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配，确定各人类表型标准用语与所述症状描述信息的匹配程度，其中，所述分词组中包括：对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表，所述分词列表包括至少一个分词。

其中，预设人类表型标准用语库可以是保存有各人类表型标准用语的数据库。在该数据库中可以包括各人类表型标准用语的中英文对照词汇。例如：CHPO：“肠扭转”与HPO：“Volvulus”互相对照。预设分词规则可以是技术人员将各人类表型标准用语按照一定的规范重新组合成词序列的规则。可选的，预设分词规则可以是基于统计语言模型（StatisticalLanguageModel，SLM）的算法，也可以是技术人员自定义的分词规则。例如：本发明实施例可以基于统计语言模型的n-gram算法对人类表型标准用语进行分词。具体的，本发明实施例可以通过n-gram算法按照不同字符数对人类表型标准用语进行分词，获得不同字符数的分词。例如：假设一个汉字等于一个字符，那么本发明实施例可以对“肠扭转”分别按照字符数为1、字符数为2以及字符数为3进行分词，按照字符数为1进行分词获得的分词列表包括分词“肠”、“扭”和转”，按照字符数为2进行分词获得的分词列表包括分词“肠扭”和“扭转”，按照字符数为3进行分词获得的分词列表包括分词“肠扭转”。

具体的，本发明实施例可以按照一定的规则对分词结果中的分词进行归类，获得分词列表。例如：本发明实施例可以按照字符数将分词结果中的分词进行归类，对于前述例子中对“肠扭转”的分词结果，可以将字符数均为1的分词“肠”、“扭”和“转”归为分词列表A，将字符数均为2的分词“肠扭”和“扭转”归为分词列表B，将字符数均为3的分词“肠扭转”归为分词列表C。

可以理解的是，预设分词规则也可以是现有分词工具所使用的分词规则。现有分词工具可以包括：结巴（jieba）分词、语言技术平台（LanguageTechnologyPlatform，LTP）以及自然语言处理与信息检索平台（NaturalLanguageProcessing & InformationRetrieva lSharingPlatform，NLPIR）。

需要进行说明的是，以上举例仅为对人类表型标准用语以中文形式表达时的词汇进行说明，可以理解的是，本发明实施例还可以对包括英文在内的语言表达形式的人类表型标准用语进行分词。

可选的，基于图1所示的方法，如图2所示，本发明实施例提供的另一种人类表型标准用语确定方法，步骤S200可以包括：

S210、对各人类表型标准用语中任一人类表型标准用语对应的分词组：对该分词组中的任一分词列表：在所述症状描述信息中查询该分词列表中的分词，将在所述症状描述信息中出现的该分词列表中的分词确定为共有词；S211、确定该分词列表中共有词的数量以及各共有词在所述症状描述信息中的位置；S212、根据该分词列表中共有词的数量和该分词列表中分词的数量，确定该分词列表与所述症状描述信息的第一相似度；S213、根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置，确定该人类表型标准用语与所述症状描述信息之间的离散程度。

为了便于对步骤S210中的共有词进行理解，此处通过举例进行说明：当症状描述信息为“因肠旋转不良后死亡”时，在该症状描述信息中查询分词列表中的分词“肠”、“扭”和“转”，由于症状描述信息和分词列表均包括“肠”和“转”，所以“肠”和“转”可以确定为共有词。当然，若分词列表中的分词为“肠扭转”时，则该分词列表与该症状描述信息无共有词。

其中，步骤S212可以具体包括：根据该分词列表中共有词的数量与该分词列表中分词的数量的比值，确定该分词列表与症状描述信息的第一相似度。

例如：某分词列表中包括“肠”、“扭”和“转”三个分词，其中“肠”和“转”这两个分词为该分词列表与症状描述信息的共有词，因此该分词列表与症状描述信息的第一相似度为：

。

可选的，基于图2所示的方法，如图3所示，本发明实施例提供的另一种人类表型标准用语确定方法，步骤S213可以包括：

S213a、根据各共有词在所述症状描述信息中的位置，确定该分词列表在所述症状描述信息中的第一位置向量。

其中，共有词在症状描述信息中的位置可以是字符序号。需要注意的是，字符序号可以与分词列表中各分词的字符数有关，例如：当分词列表中的各分词的字符数为1，则症状描述信息中的一个字符序号可以表示一个字符。当分词列表中各分词的字符数为2，则症状描述信息中的一个字符序号可以表示两个字符。为了便于理解，此处通过举例进一步说明：当症状描述信息为“长骨部分弯曲”时，若共有词为“长”和“弯”，则共有词“长”在该症状描述信息中的字符序号可以为“1”，共有词“弯”在该症状描述信息中的字符序号可以为“5”。若共有词为“弯曲”，则共有词“弯曲”在该症状描述信息中的字符序号可以为“5”。

其中，第一位置向量可以是由各共有词在症状描述信息中的字符序号组成的一维列表。为了便于理解，此处通过举例进行说明：当症状描述信息为“疑似患者，孕32周+5，胎儿骨干发育不良如孕26周，长骨部分弯曲。有家族遗传病史。”时，若某分词列表与该症状描述信息的共有词为“长”、“骨”、“弯”和“曲”，则该分词列表在该症状描述信息中的第一位置向量为[27，28，31，32]。若某分词列表与该症状描述信息的共有词为“长骨”、“骨弯”“弯曲”，则该分词列表在该人类表型标准用语中的第二位置向量为[1，2，3]。

S213b、根据各共有词在该人类表型标准用语中的位置，确定该分词列表在该人类表型标准用语中的第二位置向量。

其中，共有词在人类表型标准用语中的位置可以是字符序号。需要注意的是，字符序号可以与分词列表中各分词的字符数有关。例如：当分词列表中的各分词的字符数为1，则人类表型标准用语中的一个字符序号可以表示一个字符。当分词列表中各分词的字符数为2，则人类表型标准用语中的一个字符序号可以表示两个字符。为了便于理解，此处通过举例进一步说明：当人类表型标准用语为“长骨弯曲”时，若共有词为“长”和“弯”，则共有词“长”在该人类表型标准用语中的字符序号可以为“1”，共有词“弯”在该人类表型标准用语中的字符序号可以为“3”。若共有词为“弯曲”，则共有词“弯曲”在该人类表型标准用语中的字符序号可以为“3”。需要注意的是，标点符号也占用一个字符序号。

其中，第二位置向量可以是由各共有词在人类表型标准用语中的字符序号组成的一维列表。为了便于理解，此处通过举例进行说明：当人类表型标准用语为“长骨弯曲”时，若某分词列表与该症状描述信息的共有词为“长”，“骨”，“弯”和“曲”，则该分词列表在该人类表型标准用语中的第二位置向量为[1，2，3，4]。若某分词列表与该症状描述信息的共有词为“长骨”、“骨弯”“弯曲”，则该分词列表在该人类表型标准用语中的第二位置向量为[1，2，3]。

S213c、根据各分词列表的第一位置向量和第二位置向量，确定该人类表型标准用语与所述症状描述信息之间的离散程度。

可选的，步骤S213c可以包括：

其中，VAR为该人类表型标准用语与所述症状描述信息之间的离散程度，N为该分词组中包括分词列表的数量，

为分词列表n在所述症状描述信息中的第一位置向量，

为分词列表n在该人类表型标准用语中的第二位置向量。

S220、通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第二相似度。

可选的，基于图2所示的方法，如图4所示，本发明实施例提供的另一种人类表型标准用语确定方法，步骤S220可以包括：

S221、通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第三相似度。

S222、将所述第三相似度乘以可调权重因子，确定该人类表型标准用语与所述症状描述信息的第二相似度。

可选的，步骤S221可以包括：

其中，n为分词列表的编号，preScore为第三相似度，

为分词列表n的第一相似度，其中，1≤n≤N，N为该分词组中包括分词列表的数量，

为调节因子，

为分词列表n对应的归一化因子，

为分词列表n对应的权重，

为分词列表n中共有词的数量和分词列表n中分词的数量的比值。

其中，调节因子可以由技术人员进行设定。技术人员可以在本发明实施例提供的人类表型标准用语确定方法每次执行完成后，根据每次的执行结果对调节因子进行调整。

其中，分词列表n对应的归一化因子可以表示为：

其中，logp为数据

，......，

的平均值，可以表示为：

其中，

为数据

，......，

的方差，可以表示为：

其中，各分词列表对应的权重可以由技术人员进行设定。技术人员可以在本发明实施例提供的人类表型标准用语确定方法每次执行完成后，根据每次的执行结果对各分词列表对应的权重进行调整。

而步骤S222可以包括：

Score=γ×exp(preScore)

其中，Score为该人类表型标准用语与所述症状描述信息的第二相似度，γ为可调权重因子。

需要进行说明的是，可调权重因子与人类表型标准用语有关。具体的，本发明实施例可以通过该人类表型标准用语的历史匹配数据，确定可调权重因子。具体的，本发明实施例可以通过历史匹配数据库中提取出该人类表型标准用语的历史匹配数据，该历史匹配数据可以包括：该人类表型标准用语被正确匹配的第一次数、该人类表型标准用语被错误匹配的第二次数以及该人类表型标准用语由人工补注的第三次数。本发明实施例可以将该第一次数、第二次数和第三次数进行加权求和，确定该可调权重因子。本发明实施例依据该人类表型标准用语的历史匹配数据，确定计算该人类表型标准用语与症状描述信息的匹配程度所用的可调权重因子，可以提升该人类表型标准用语被正确匹配的概率。

S230、根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度。

为了便于对各人类表型标准用语与症状描述信息的匹配程度进行理解，可选的，在本发明实施例提供的另一种人类表型标准用语确定方法，步骤S230可以包括：

其中， AEEV为该人类表型标准用语与所述症状描述信息的匹配程度，VAR为该人类表型标准用语与所述症状描述信息之间的离散程度，Score为该人类表型标准用语与所述症状描述信息的第二相似度，N为该分词组中包括分词列表的数量；

Score=γ×exp(preScore)

其中，γ为可调权重因子，preScore为第三相似度，

其中，n为分词列表的编号，

为分词列表n的第一相似度，其中，1≤n≤N，

为调节因子，

为分词列表n对应的归一化因子，

为分词列表n对应的权重，

其中，

为分词列表n在所述症状描述信息中的第一位置向量，

为分词列表n在该人类表型标准用语中的第二位置向量。

S300、确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。

其中，预设匹配成功条件可以为当某人类表型标准用语与某症状描述信息的匹配程度大于预设的匹配程度阈值。为了便于理解，此处通过举例进行说明：若人类表型标准用语M与症状描述信息T的匹配程度为9，人类表型标准用语N与症状描述信息T的匹配程度为4，当预设的匹配程度阈值为8时，则人类表型标准用语M为满足预设匹配成功条件的人类表型标准用语。

本发明实施例可以将匹配程度不满足预设匹配成功条件的人类表型标准用语进行滤除，仅输出匹配程度满足预设匹配成功条件的人类表型标准用语。可以理解的是，如图5所示，本发明实施例提供的一种对人类表型标准用语的输出结果，该输出结果中可以包括匹配程度满足预设匹配成功条件的人类表型标准用语的中英文对照词汇，即本发明实施例可以同时输出该人类表型标准用语的CHPO和HPO，其中，输出HPO时，还可以一并输出HPO对应的编号。可以理解的是，在实际情况中，可能有多个人类表型标准用语与同一症状描述信息的匹配程度均满足预设匹配成功条件，如图5所示，本发明实施例可以将该多个人类表型标准用语同时进行输出，并且使用预设对应标识（如箭头）将该多个人类表型标准用语在该症状描述信息中分别对应的描述词汇进行对应并输出。

本发明实施例提供的一种人类表型标准用语确定方法，可以获得症状描述信息；将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配，确定各人类表型标准用语与所述症状描述信息的匹配程度，其中，所述分词组中包括：对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表，所述分词列表包括至少一个分词；确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。本发明实施例可以将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配，确定各人类表型标准用语与症状描述信息的匹配程度，从而确定出符合该症状描述信息的人类表型标准用语，有助于技术人员之间对症状描述信息进行研究和交流，同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。

可选的，如图6所示，本发明实施例提供的另一种人类表型标准用语确定方法，在步骤S300之后，所述方法还包括：

S400、确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。

具体的，本发明实施例可以根据人类表型标准用语对应的各分词列表中的共有词在该症状描述信息中出现的离散程度，从而确定该位置的词汇为该人类表型标准用语在该症状描述信息中对应的描述词汇。例如：症状描述信息为“该患者患有肠胃炎，并伴有肠旋转”，人类表型标准用语“肠扭转”与该症状描述信息中的共有词为“肠”和“转”，尽管症状描述信息中“肠胃炎”和“肠旋转”中都有共有词“肠”，但是“肠旋转”还存在共有词“转”，因而“肠旋转”相对于“肠胃炎”而言，与共有词的离散程度更低，因此，人类表型标准用语“肠扭转”在该症状描述信息中对应的描述词汇为“肠旋转”。

S500、检测与所述描述词汇相邻的相邻词汇是否为预设否定词，如果是，则对所述相邻词汇进行标记。

其中，预设否定词可以包括：“无”、“未”、“没”、“不”、“非”、“别”、“勿”、“缺”、“否”等。本发明实施例可以检测与该描述词汇相邻且在该描述词汇前的相邻词汇是否为预设否定词。当该相邻词汇为预设否定词时，本发明实施例可以通过预设否定标识对该相邻词汇进行标记。例如：本发明实施例可以将该相邻词汇的字体加粗、更改该相邻词汇的字体颜色以及对该相邻词汇使用特殊符号指示。本发明实施例通过将为预设否定词的相邻词汇进行标记，可以方便用户清楚分辨该症状描述信息中的描述词汇所要表达的是肯定含义或是否定含义。当检测与所述描述词汇相邻的相邻词汇不是预设否定词时，本发明实施例可以不对所述相邻词汇进行标记。

可选的，如图7所示，本发明实施例提供的另一种人类表型标准用语确定方法，在步骤S300之后，所述方法还包括：

S600、确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。

步骤S600的说明可参照上述对步骤S400的说明，此处不再赘述。

S700、判断所述描述词汇与所述人类表型标准用语是否一致，如果一致，则执行步骤S800，如果不一致，则执行步骤S900。

S800、确定所述人类表型标准用语与所述描述词汇为完全匹配。

S900、确定所述人类表型标准用语与所述描述词汇为模糊匹配。

基于图5所示的输出结果，如图8所示，本发明实施例提供的另一种对人类表型标准用语的输出结果。本发明实施例可以在输出匹配程度满足预设匹配成功条件的人类表型标准用语时，输出该人类表型标准用语与描述词汇的匹配模式是完全匹配或是模糊匹配。

与上述方法实施例相对应，本发明实施例还提供一种人类表型标准用语确定装置，其结构如图9所示，可以包括：症状描述信息获得单元100、匹配程度确定单元200和人类表型标准用语确定单元300。

所述症状描述信息获得单元100，用于获得症状描述信息。

所述匹配程度确定单元200，用于将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配，确定各人类表型标准用语与所述症状描述信息的匹配程度，其中，所述分词组中包括：对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表，所述分词列表包括至少一个分词。

其中，预设人类表型标准用语库可以是保存有各人类表型标准用语的数据库。在该数据库中可以包括各人类表型标准用语的中英文对照词汇。可选的，预设分词规则可以是基于统计语言模型（StatisticalLanguageModel，SLM）的算法，也可以是技术人员自定义的分词规则。

具体的，本发明实施例可以按照一定的规则对分词结果中的分词进行归类，获得分词列表。

可选的，本发明实施例提供的另一种人类表型标准用语确定装置，所述匹配程度确定单元200包括：共有词确定子单元，共有词数量确定子单元、共有词位置确定子单元、第一相似度确定子单元、离散程度确定子单元、第二相似度确定子单元和匹配程度确定子单元。

所述共有词确定子单元，用于对各人类表型标准用语中任一人类表型标准用语对应的分词组：对该分词组中的任一分词列表：在所述症状描述信息中查询该分词列表中的分词，将在所述症状描述信息中出现的该分词列表中的分词确定为共有词。

所述共有词位置确定子单元，用于确定各共有词在所述症状描述信息中的位置。

所述第一相似度确定子单元，用于根据该分词列表中共有词的数量和该分词列表中分词的数量，确定该分词列表与所述症状描述信息的第一相似度。

其中，所述第一相似度确定子单元可以具体用于根据该分词列表中共有词的数量与该分词列表中分词的数量的比值，确定该分词列表与症状描述信息的第一相似度。

所述离散程度确定子单元，用于根据各共有词在所述症状描述信息中的位置和各共有词在该人类表型标准用语中的位置，确定该人类表型标准用语与所述症状描述信息之间的离散程度。

可选的，所述离散程度确定子单元还可以具体用于根据各共有词在所述症状描述信息中的位置，确定该分词列表在所述症状描述信息中的第一位置向量；根据各共有词在该人类表型标准用语中的位置，确定该分词列表在该人类表型标准用语中的第二位置向量；根据各分词列表的第一位置向量和第二位置向量，确定该人类表型标准用语与所述症状描述信息之间的离散程度。

其中，共有词在症状描述信息中的位置可以是字符序号。需要注意的是，字符序号可以与分词列表中各分词的字符数有关。

其中，第一位置向量可以是由各共有词在症状描述信息中的字符序号组成的一维列表。

其中，共有词在人类表型标准用语中的位置可以是字符序号。需要注意的是，字符序号可以与分词列表中各分词的字符数有关。

其中，第二位置向量可以是由各共有词在人类表型标准用语中的字符序号组成的一维列表。

可选的，所述离散程度确定子单元还可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息之间的离散程度：

为分词列表n在所述症状描述信息中的第一位置向量，

为分词列表n在该人类表型标准用语中的第二位置向量。

所述第二相似度确定子单元，用于通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第二相似度。

可选的，所述第二相似度确定子单元还可以具体用于通过各分词列表的第一相似度，确定该人类表型标准用语与所述症状描述信息的第三相似度；将所述第三相似度乘以可调权重因子，确定该人类表型标准用语与所述症状描述信息的第二相似度。

可选的，所述第二相似度确定子单元还可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息的第三相似度：

其中，n为分词列表的编号，preScore为第三相似度，

为调节因子，

为分词列表n对应的归一化因子，

为分词列表n对应的权重，

其中，分词列表n对应的归一化因子可以表示为：

其中，logp为数据

，......，

的平均值，可以表示为：

其中，

为数据

，......，

的方差，可以表示为：

所述第二相似度确定子单元还可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息的第二相似度：

Score=γ×exp(preScore)

所述匹配程度确定子单元，用于根据所述第二相似度、所述离散程度以及该分词组中分词列表的数量，确定该人类表型标准用语与所述症状描述信息的匹配程度。

可选的，所述匹配程度确定子单元可以具体用于根据以下公式确定该人类表型标准用语与所述症状描述信息的匹配程度：

Score=γ×exp(preScore)

其中，γ为可调权重因子，preScore为第三相似度，

其中，n为分词列表的编号，

为分词列表n的第一相似度，其中，1 ≤n≤N，

为调节因子，

为分词列表n对应的归一化因子，

为分词列表n对应的权重，

其中，

为分词列表n在所述症状描述信息中的第一位置向量，

为分词列表n在该人类表型标准用语中的第二位置向量。

所述人类表型标准用语确定单元300，用于确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。

其中，预设匹配成功条件可以为当某人类表型标准用语与某症状描述信息的匹配程度大于预设的匹配程度阈值。

本发明实施例可以将匹配程度不满足预设匹配成功条件的人类表型标准用语进行滤除，仅输出匹配程度满足预设匹配成功条件的人类表型标准用语。

本发明实施例提供的一种人类表型标准用语确定装置，可以获得症状描述信息；将预设人类表型标准用语库中的各人类表型标准用语对应的分词组与所述症状描述信息进行查询匹配，确定各人类表型标准用语与所述症状描述信息的匹配程度，其中，所述分词组中包括：对所述分词组对应的人类表型标准用语按照预设分词规则进行分词后获得的至少一个分词列表，所述分词列表包括至少一个分词；确定所述匹配程度满足预设匹配成功条件的人类表型标准用语。本发明实施例可以将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配，确定各人类表型标准用语与症状描述信息的匹配程度，从而确定出符合该症状描述信息的人类表型标准用语，有助于技术人员之间对症状描述信息进行研究和交流，同时也有利于对该症状描述信息上的症状进行数据分析和挖掘。

可选的，本发明实施例提供的另一种人类表型标准用语确定装置，还可以包括：描述词汇确定单元、否定词检测单元和否定词标记单元。

所述描述词汇确定单元，用于所述人类表型标准用语确定单元300确定所述匹配程度满足预设匹配成功条件的人类表型标准用语之后，确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。

具体的，本发明实施例可以根据人类表型标准用语对应的各分词列表中的共有词在该症状描述信息中出现的离散程度，从而确定该位置的词汇为该人类表型标准用语在该症状描述信息中对应的描述词汇。

所述否定词检测单元，用于检测与所述描述词汇相邻的相邻词汇是否为预设否定词，如果是，则触发所述否定词标记单元。

所述否定词标记单元，用于对所述相邻词汇进行标记。

本发明实施例可以检测与该描述词汇相邻且在该描述词汇前的相邻词汇是否为预设否定词。当该相邻词汇为预设否定词时，本发明实施例可以通过预设否定标识对该相邻词汇进行标记。

可选的，本发明实施例提供的另一种人类表型标准用语确定装置，还可以包括：描述词汇确定单元、词汇判断单元和词汇匹配确定单元。

所述描述词汇确定单元，用于确定所述人类表型标准用语在所述症状描述信息中对应的描述词汇。

所述人类表型标准用语确定装置包括处理器和存储器，上述症状描述信息获得单元100、匹配程度确定单元200和人类表型标准用语确定单元300等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来将症状描述信息与各人类表型标准用语对应的分词组进行查询匹配，确定各人类表型标准用语与症状描述信息的匹配程度，从而确定出符合该症状描述信息的人类表型标准用语。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述人类表型标准用语确定方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述人类表型标准用语确定方法。

本发明实施例提供了一种设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的人类表型标准用语确定方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有所述人类表型标准用语确定方法步骤的程序。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。