CN111428478A - 一种词条同义判别的寻证方法、装置、设备和存储介质 - Google Patents
一种词条同义判别的寻证方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN111428478A CN111428478A CN202010203381.9A CN202010203381A CN111428478A CN 111428478 A CN111428478 A CN 111428478A CN 202010203381 A CN202010203381 A CN 202010203381A CN 111428478 A CN111428478 A CN 111428478A
- Authority
- CN
- China
- Prior art keywords
- entry
- pair
- synonymy
- calculating
- pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000015654 memory Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 16
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 239000003814 drug Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 description 8
- 229940079593 drug Drugs 0.000 description 6
- 206010035664 Pneumonia Diseases 0.000 description 5
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000001015 abdomen Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 206010003757 Atypical pneumonia Diseases 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 206010070538 Gestational hypertension Diseases 0.000 description 1
- 201000005624 HELLP Syndrome Diseases 0.000 description 1
- 208000005347 Pregnancy-Induced Hypertension Diseases 0.000 description 1
- 206010057190 Respiratory tract infections Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 208000036335 preeclampsia/eclampsia 1 Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种词条同义判别的寻证方法、装置、设备和存储介质,涉及知识图谱技术领域。具体实现方案为:获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;将所述数据源中的文本按照设定粒度进行划分,得到多段文本;根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。本申请实施例将可能同义的词条对出现在的一段段文本提取出来,作为同义判别证据,从而依据词条对的共现进行初步的同义判别,提高同义判别证据的准确性和权威性。
Description
技术领域
本申请涉及计算机技术,尤其涉及知识图谱技术领域。
背景技术
有些行业中,描述行业内实体的术语别名较多,口语化的描述也差别很大。例如医疗领域中,对于检查、手术、临床、药物、疾病等的实体的标准名和别名较多,例如,感冒和上呼吸道感染描述的是同一疾病,妊高症和妊娠期高血压描述的是同一疾病。
在将智能项目落地时,需要对同一实体的标准名和别名进行统一,以便项目成功运行。目前主要通过本领域专家通过经验直接判断两个词条是否同义。
由于领域内实体的术语别名会不断增加和变化,专家的经验也不尽是正确的,单纯依据经验会使同义判断的依据不足,不够权威,难以评估同义判别的准确性。
发明内容
本申请实施例提供了一种词条同义判别的寻证方法、装置、设备和存储介质,以得到对词条对进行同义判别的证据,辅助相关人员进行同义判别,提高同义判别的准确性。
第一方面,本申请实施例提供了一种词条同义判别的寻证方法,包括:
获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;
将所述数据源中的文本按照设定粒度进行划分,得到多段文本;
根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;
如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。
本申请实施例根据词条对在每段文本中是否出现计算相关度,如果相关度满足设定条件,说明词条对可能是同义的,进而将可能同义的词条对出现在的一段段文本提取出来,作为同义判别证据,从而依据词条对的共现进行初步的同义判别,提高同义判别证据的准确性和权威性;本申请实施例对词条对所属领域的数据源按照设定粒度进行划分,进而以每段文本为单位得到相关度,以便根据相关度将词条对共现的文本段,即具体出处提取出来,而非在整个数据源中查找词条对;该文本段能够直接反映词条对是否同义,通过将该文本作为同义判别证据进行最终的同义判别,能够进一步提高同义判别证据的权威性和准确性。
可选的,根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度,包括:
根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率;
根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度。
上述申请中的一种可选实施方式,词条对的共现概率实质是两个词条的联合分布概率,每个词条的出现概率实质是每个词条的边缘分布概率,在概率论和信息论中,根据联合分布概率和边缘分布概率可以得到词条对的相关度,该相关度体现了两个词条之间的内在依赖性,能有效度量词条对是否同义。
可选地,所述数据源包括多个著作物;
所述根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率,包括:
根据所述词条对在每个著作物的每段文本中是否出现,计算所述词条对在每个著作物中的共现概率以及所述词条对中每个词条在每个著作物中的出现概率;
所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:
根据所述词条对在每个著作物中的共现概率以及每个词条在每个著作物中的出现概率,计算所述词条对在每个著作物中的相关度;
根据所述著作物的数量和所述词条对在每个著作物中的相关度,计算所述词条对在所述多个著作物中的平均相关度。
上述申请中的一种可选实施方式,通过引入多个著作物扩充了同义判别证据的数据源,从而有利于提供更多的证据;以著作物为单位得到词条对在每个著作物中的相关度,从而在每个著作物中全面衡量词条对是否可能同义;通过得到平均相关度,避免在有些著作物中相关度过高或过低,导致判断错误的情况。
可选地,在所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度之前,还包括:
根据所述词条对和所述词条对之间的同义关联词在所述多段文本的每段文本中是否出现,计算所述词条对和所述同义关联词的共现概率;
所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:
根据所述词条对的共现概率、每个词条的出现概率以及所述词条对和所述同义关联词的共现概率,计算所述词条对的相关度。
上述申请中的一种可选实施方式,在计算词条对的相关度时,除了词条对的共现概率和每个词条的出现概率之外,还引入了词条对和词条对之间的同义关联词的共现概率;显然,如果词条对和同义关联词共现能够直接表明词条对是同义的,因此通过根据词条对的共现概率、每个词条的出现概率以及词条对和同义关联词的共现概率能够得到更加准确的相关度,提高初步同义判断的准确性。
可选的,如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据,包括:
如果所述词条对的相关度超过设定阈值,将所述词条对共现的文本段作为所述词条对的同义判别证据。
上述申请中的一种可选实施方式,如果词条对的相关度小,即词条对几乎不相关,同义的概率性低;如果词条对的相关度大,即词条对很大可能相关,同义的概率高。通过对相关度设定阈值,从而以设定阈值为界对词条对进行同义判断。
可选的,在所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据之后,还包括:
根据所述同义判别证据的每个来源著作物的权威程度,确定每个来源著作物的权值;
根据所述词条对在每个来源著作物中的相关度以及每个来源著作物的权值,计算所述词条对在每个来源著作物中的加权相关度;
根据所述词条对在每个来源著作物中的加权相关度,对所述多个来源著作物的同义判别证据进行排序。
上述申请中的一种可选实施方式,通过按照加权相关度对同义判别证据进行排序,即按照每个来源著作物的权威程度对同义判别证据排序,来源著作物的权威程度越高,同义判别证据的参考价值和准确性越高。因此,通过对同义判别证据进行排序,能够定位到高参考价值和高准确性的证据,进而提高同义判别的准确率。
可选的,所述设定粒度包括句子、段落或篇章。
上述申请中的一种可选实施方式,通过将数据源中的文本按照句子、段落或者篇章划分,而句子、段落和篇章能够完整地表达某一个意思,出现同义词的概率较高,则通过以每个句子、段落或篇章为单位确定词条对是否出现,能够较准确地得到词条对的相关度;而且能够直接提取出词条对共现的句子、段落或篇章,获取到完整表达某一个意思的一段文本作为同义判别证据,提高证据的完整性和可用性。
可选的,获取待进行同义判别的词条对,包括:
获取输入词条和多个基准词条,所述输入词条和每个基准词条构成初始词条对;
从多个初始词条对中,筛选不满足设定冲突关系的候选词条对;
计算所述候选词条对的相似度,并将相似度满足设定相似条件的候选词条确定为所述待进行同义判别的词条对;
其中,所述设定冲突关系包括:原词条包含关系、重排词条包含关系、属性冲突关系、包含指定差异字符中的至少一种。
上述申请中的一种可选实施方式,通过筛选不满足设定冲突关系的候选词条对,对存在冲突关系的词条对排除,减少了后续同义判别的计算量,且通过原词条包含关系、重排词条包含关系、属性冲突关系、包含指定差异字符进行筛选,筛选方式简单易行且准确性高;通过对筛选出的词条对采用相似度计算是否是可能的同义词条,采用相似度判别词条对是否同义。
可选的,所述计算所述候选词条对的相似度,包括:
根据同义词典,对候选词条对进行同义转化;
计算同义转化后的候选词条对的相似度。
上述申请中的一种可选实施方式,通过对词条对进行同义转化,同义不同字的部分进行统一,有利于得到更准确的相似度。
可选的,所述计算所述候选词条对的相似度,包括:
计算所述候选词条对的属性之间的第一相似度;
计算所述候选词条对的分词之间的第二相似度;
计算所述候选词条对的字符之间的第三相似度;
根据所述第一相似度、所述第二相似度和所述第三相似度,计算所述候选词条对的相似度。
上述申请中的一种可选实施方式,从属性、分词和字符三个维度计算相似度,全面综合地衡量词条对的相似度。
可选的,所述获取输入词条,包括:
从医疗机构产生的文件中收集设定类型的多个实体名,所述设定类型包括疾病类型、检查类型、检验类型、药品类型和科室类型;
从所述多个实体名中,筛选在设定时段内的收集频率大于设定频率阈值的实体名;
从筛选出的实体名中选取满足规定医疗格式的任一实体名,作为所述输入词条。
上述申请中的一种可选实施方式,限定输入词条为医疗领域设定类型的实体名,而疾病、检查、检验、药品和科室是同义词集中的地方,而且通过筛选在设定时段内的收集频率大于设定频率阈值的实体名,将高频的实体名提取出来,从而将高需求的实体名优先进行统一,能够方便医疗项目的落地;通过选取满足规定医疗格式的实体名,有利于实体名的相似度判断和共现判断。
可选的,获取多个基准词条,包括:
从医疗知识图谱中,提取与所述输入词条的类型相同的多个实体通用名和/或实体别名,所述医疗知识图谱包括多个实体通用名节点,每个实体通用名节点的属性包括至少一个实体别名;
在所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据之后,还包括:
如果根据所述同义判别证据判定所述输入词条和一实体通用名或一实体别名同义,将所述输入词条添加到所述医疗知识图谱中,并与同义的所述实体通用名或实体别名建立关联关系。
上述申请中的一种可选实施方式,实体通用名和别名存储在医疗知识图谱中,从而方便、快速提取与输入词条同类型的实体通用名和实体别名,缩小同义判别范围,提高同义判别和相关证据的提供效率;通过在判定同义后,将输入词条添加到医疗知识图谱中,以扩充医疗知识图谱,以便后续对新的输入词条进行同义判定。
第二方面,本申请实施例还提供了一种词条同义判别的寻证装置,包括:
获取模块,用于获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;
划分模块,用于将所述数据源中的文本按照设定粒度进行划分,得到多段文本;
相关度计算模块,用于根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;
寻证模块,用于如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面实施例所提供的一种词条同义判别的寻证方法。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面实施例所提供的一种词条同义判别的寻证方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例一中的一种词条同义判别的寻证方法的流程图;
图2是本申请实施例二中的一种词条同义判别的寻证方法的流程图;
图3是本申请实施例三中的一种词条同义判别的寻证方法的流程图;
图4是本申请实施例四中的一种词条同义判别的寻证方法的流程图;
图5是本申请实施例五中的一种词条同义判别的寻证装置的结构图;
图6是用来实现本申请实施例的词条同义判别的寻证方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
图1是本申请实施例一中的一种词条同义判别的寻证方法的流程图,本申请实施例适用于寻找词条对的同义判别证据,以便依据同义判别证据进行同义判断的情况,该方法通过词条同义判别的寻证装置执行,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图1所示的一种词条同义判别的寻证方法,包括:
S110、获取待进行同义判别的词条对,以及词条对所属领域的数据源。
待进行同义判别的词条对包括两个词条,本实施例不限定进行同义判别的词条对的长度、语言、领域和类型。例如,词条对包括知识产权领域的审查意见通知书和驳回通知书,权利要求和权项;或者词条对包括医疗领域的新型冠状病毒肺炎和肺炎、非典和SARS。
本实施例预先构建各领域的数据源,以从词条对所属领域的数据源中获取同义判别证据。示例性的,医疗领域的数据源包括多个网站、论坛、书籍等著作物,医学专家常用网站如人卫助手、知网、医脉通等。
可选的,对数据源中的文本进行结构化处理,例如,将文本组织成json形式以方便后续处理。具体地,可将描述篇、章、节、标题等信息的内容块和具体描述详细的内容分别存储为json中的对象格式,对象的键为“检查”、“手术”、“治疗药物”等字段,对应的值分别为检查项目、手术名和治疗药物名称。
S120、将数据源中的文本按照设定粒度进行划分,得到多段文本。
S130、根据词条对在多段文本的每段文本中是否出现,计算词条对的相关度。
可选的,设定粒度包括句子、段落或篇章。具体可将数据源中的每个著作物划分为一个个句子、一个个段落或一个个篇章。
接着,在每段文本,即每个句子或每个段落或每个篇章中,判断词条对中的每个词条是否出现。如果词条对出现在的文本段数较多,则说明词条对的相关度高;如果词条对出现在的文本段数较少,则说明词条对的相关度低
S140、判断词条对的相关度是否满足设定条件,如果满足,跳转到S150,如果不满足,跳转到S160。
S150、将词条对共现的文本段作为词条对的同义判别证据。
S160、判定词条对不同义。
可选的,相关度可以为一个数值或者程度,例如低等、中等、高等。如果词条对的相关度小或程度低,即词条对几乎不相关,同义的概率性低;如果词条对的相关度大或程度高,即词条对很大可能相关,同义的概率高。通过对相关度设定阈值,从而以设定阈值为界对词条对进行同义判断。基于此,如果词条对的相关度超过设定阈值,如某个数值或者中等,将词条对共现的文本段作为词条对的同义判别证据。具体的,如果词条对的相关度超过设定阈值,将词条对共同出现的句子、段落或篇章作为词条对的同义判别证据,从而使专业人员能够依据同义判别证据对词条对进行最终的同义判定。如果词条对的相关度未超过设定阈值,则将词条对直接判定为不同义,没有必要选取同义判别证据。
本实施例根据词条对在每段文本中是否出现计算相关度,如果相关度满足设定条件,说明词条对可能是同义的,进而将可能同义的词条对出现在的一段段文本提取出来,作为同义判别证据,从而依据词条对的共现进行初步的同义判别,提高同义判别证据的准确性和权威性;本申请实施例对词条对所属领域的数据源按照设定粒度进行划分,进而以每段文本为单位得到相关度,以便根据相关度将词条对共现的文本段,即具体出处提取出来,而非在整个数据源中查找词条对;该文本段能够直接反映词条对是否同义,通过将该文本作为同义判别证据进行最终的同义判别,能够进一步提高同义判别证据的权威性和准确性
进一步的,通过将数据源中的文本按照句子、段落或者篇章划分,而句子、段落和篇章能够完整地表达某一个意思,出现同义词的概率较高,则通过以每个句子、段落或篇章为单位确定词条对是否出现,能够较准确地得到词条对的相关度;而且能够直接提取出词条对共现的句子、段落或篇章,获取到完整表达某一个意思的一段文本作为同义判别证据,提高证据的完整性和可用性。
实施例二
图2是本申请实施例二中的一种词条同义判别的寻证方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行优化。
可选的,将操作“根据词条对在多段文本的每段文本中是否出现,计算词条对的相关度”细化为“根据词条对在多段文本的每段文本中是否出现,计算词条对的共现概率以及词条对中每个词条的出现概率;根据词条对的共现概率以及每个词条的出现概率,计算词条对的相关度”,提供了一种相关度的计算方法。
如图2所示的一种词条同义判别的寻证方法,包括:
S210、获取待进行同义判别的词条对,以及词条对所属领域的数据源。
S220、将数据源中的文本按照设定粒度进行划分,得到多段文本。
S230、根据词条对在多段文本的每段文本中是否出现,计算词条对的共现概率以及词条对中每个词条的出现概率。
S240、根据词条对的共现概率以及每个词条的出现概率,计算词条对的相关度。
具体的,词条对共现在的文本段数除以文本总段数,得到词条对的共现概率,实质是两个词条的联合分布概率。词条对中每个词条出现在的文本段数除以文本总段数,得到每个词条的出现概率,实质是每个词条的边缘分布概率。相关度P计算的公式如式(1)所示:
其中,p(l)是词条l的出现概率,p(r)是词条r的出现概率,p(lr)是词条对lr的共现概率。在概率论和信息论中,根据联合分布概率和边缘分布概率可以得到词条对的相关度P,该相关度体现了两个词条之间的内在依赖性,能有效度量词条对是否同义。
可选的,考虑到数据源包括多个著作物,而不同著作物中词条对的共现情况不同,基于此,根据词条对在每个著作物的每段文本中是否出现,计算词条对在每个著作物中的共现概率以及词条对中每个词条在每个著作物中的出现概率;根据词条对在每个著作物中的共现概率以及每个词条在每个著作物中的出现概率,计算词条对在每个著作物中的相关度;根据著作物的数量和词条对在每个著作物中的相关度,计算词条对在多个著作物中的平均相关度。
具体的,词条对在每个著作物中的相关度Pj的计算公式如式(2)所示:
其中,p(lj)是词条l在第j个著作物中的出现概率,p(rj)是词条r在第j个著作物中的出现概率,p(ljrj)是词条对lr在第j个著作物中的共现概率。
平均相关度Q的计算公式如式(3)所示:
其中,N是著作物的数量。
S250、判断词条对的相关度是否满足设定条件,如果满足,跳转到S260,如果不满足,跳转到S270。
S260、将词条对共现的文本段作为词条对的同义判别证据。
S270、判定词条对不同义。
本实施例通过引入多个著作物扩充了同义判别证据的数据源,从而有利于提供更多的证据;以著作物为单位得到词条对在每个著作物中的相关度,从而在每个著作物中全面衡量词条对是否可能同义;通过得到平均相关度,避免在有些著作物中相关度过高或过低,导致判断错误的情况。
实施例三
图3是本申请实施例三中的一种词条同义判别的寻证方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行优化,提供另一种相关度的计算方法。
可选的,在操作“如果词条对的相关度满足设定条件,将词条对共现的文本段作为词条对的同义判别证据”之后,追加“根据同义判别证据的每个来源著作物的权威程度,确定每个来源著作物的权值;根据词条对在每个来源著作物中的相关度以及每个来源著作物的权值,计算词条对在每个来源著作物中的加权相关度;根据词条对在每个来源著作物中的加权相关度,对多个来源著作物的同义判别证据进行排序”,以对同义判别证据进行排序处理。
如图3所示的方法具体包括:
S310、获取待进行同义判别的词条对,以及词条对所属领域的数据源。
S320、将数据源中的文本按照设定粒度进行划分,得到多段文本。
S330、根据词条对在多段文本的每段文本中是否出现,计算词条对的共现概率以及词条对中每个词条的出现概率。
本操作详见实施例二中的相关描述此处不再赘述。
S340、根据词条对和词条对之间的同义关联词在多段文本的每段文本中是否出现,计算词条对和同义关联词的共现概率。
词条对之间的同义关联词为表示前后两个词条同义,且关联前后两个词条的词,例如:又称、又叫、即、也是、缩略为、口头叫法是等。
S350、根据词条对的共现概率、每个词条的出现概率以及词条对和同义关联词的共现概率,计算词条对的相关度。
具体的,词条对和同义关联词共现在的文本段数除以文本总段数,得到词条对和同义关联词的共现概率,实质是两个词条与同义关联词的联合分布概率。相关度P′计算的公式如式(4)所示:
其中,p(lkr)词条对lr与同义关联词k的共现概率。
可选的,考虑到数据源包括多个著作物,而不同著作物中词条对的共现情况不同,基于此,根据词条对在每个著作物的每段文本中是否出现,计算词条对在每个著作物中的共现概率、词条对中每个词条在每个著作物中的出现概率以及词条对和同义关联词在每个著作物中的共现概率;根据词条对在每个著作物中的共现概率、每个词条在每个著作物中的出现概率以及词条对和同义关联词在每个著作物中的共现概率,计算词条对在每个著作物中的相关度;根据著作物的数量和词条对在每个著作物中的相关度,计算词条对在多个著作物中的平均相关度。
具体的,词条对在每个著作物中的相关度P′j的计算公式如式(5)所示:
其中,p(ljkjrj)是词条对lr与同义关联词k在第j个著作物中的共现概率。
平均相关度Q′的计算公式如式(6)所示:
S360、判断词条对的相关度是否满足设定条件,如果满足,跳转到S370,如果不满足,跳转到S380。
S370、将词条对共现的文本段作为词条对的同义判别证据。继续执行S390。
S380、判定词条对不同义。
S390、根据同义判别证据的每个来源著作物的权威程度,确定每个来源著作物的权值。继续执行S391。
假设同义判别证据包括5个句子,前3个句子来源于著作物1,第4个句子来源于著作物2,第5个句子来源于著作物3,则同义判别证据的来源著作物包括著作物1、著作物2和著作物3。
如果来源著作物是网站或论坛,如果网站或论坛是官方认证,则权威程度较高;如果网站或论坛是民间开设,则权威程度一般;如果网站和论坛是个人开设,则权威程度较差。
如果来源著作物是书籍,如果书籍是教科书,则权威程度较高;如果书籍是大型出版社印制,则权威程度一般;如果书籍是个人印制,则权威程度较差。如果权威程度较高,则权值较大;如果权威程度一般,则权值适中;如果权威程度较差,则权值较小。例如,著作物1的权威程度较高,权值是9;著作物的权威程度一般,权值是5;著作物的权威程度较差,权值是1。
S391、根据词条对在每个来源著作物中的相关度以及每个来源著作物的权值,计算词条对在每个来源著作物中的加权相关度。
将每个来源著作物的权值乘以对应的相关度,得到每个来源著作物的加权相关度。接着上述示例,词条对在著作物1中的相关度是2,在著作物2中的相关度是3,在著作物3中的相关度是2.5。因此,著作物1的加权相关度是2×9=18,著作物2的加权相关度是3×5=15,著作物3的加权相关度是2.5×1=2.5。
S392、根据词条对在每个来源著作物中的加权相关度,对多个来源著作物的同义判别证据进行排序。
具体的,接着上述示例,将来源于著作物1的前3个句子同义判别证据排在首位,将来源于著作物2的第4个句子排在中位,将来源于著作物3的第5个句子排在末尾。对同义判别证据排序后,将按照排序的前后顺序关系依次将同义判别证据提供给专业人员进行同义判定。
本实施例中,通过按照加权相关度对同义判别证据进行排序,即按照每个来源著作物的权威程度对同义判别证据排序,来源著作物的权威程度越高,同义判别证据的参考价值和准确性越高。因此,通过对同义判别证据进行排序,能够定位到高参考价值和高准确性的证据,进而提高同义判别的准确率。
本实施例中,在计算词条对的相关度时,除了词条对的共现概率和每个词条的出现概率之外,还引入了词条对和词条对之间的同义关联词的共现概率;显然,如果词条对和同义关联词共现能够直接表明词条对是同义的,因此通过根据词条对的共现概率、每个词条的出现概率以及词条对和同义关联词的共现概率能够得到更加准确的相关度,提高初步同义判断的准确性。
实施例四
图4是本申请实施例四中的一种词条同义判别的寻证方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行优化。
可选的,将操作“获取待进行同义判别的词条对”细化为“获取输入词条和多个基准词条,输入词条和每个基准词条构成初始词条对;从多个初始词条对中,筛选不满足设定冲突关系的候选词条对;计算候选词条对的相似度,并将相似度满足设定相似条件的候选词条确定为待进行同义判别的词条对”。
如图4所示的一种词条同义判别的寻证方法,包括:
S410、获取输入词条和多个基准词条,输入词条和每个基准词条构成初始词条对。
具体的,从医疗机构产生的文件中收集设定类型的多个实体名,设定类型包括疾病类型、检查类型、检验类型、药品类型和科室类型;从多个实体名中,筛选在设定时段内的收集频率大于设定频率阈值的实体名;从筛选出的实体名中选取满足规定医疗格式的任一实体名,作为输入词条。
医疗机构产生的文件包括病历、处方、检查结果等。文件中的实体名带有类型标注,例如疾病类型、检查类型、检验类型、药品类型、症状类型、体征类型和科室类型。由于疾病、检查、检验、药品和科室是同义词集中的地方,限定输入词条为医疗领域疾病类型、检查类型、检验类型、药品类型和科室类型的实体名,过滤掉症状类型和体征类型的实体名。一般情况下,病历、处方、检查结果等文件均显示有日期,作为实体名的收集时间,基于实体名的收集时间可以得到每个实体名在设定时段内的收集频率。其中,设定时段和设定频率阈值可以自主设定。规定医疗格式可以是现有的国际医疗编号,如icd10,国药准字号。
可选的,本实施例接收超文本传输协议(HyperText Transfer Protocol,HTTP)的post请求,从post请求中提取输入词条。
本实施例中的多个基准词条从医疗知识图谱中获取。医疗知识图谱包括多个实体通用名节点,每个实体通用名节点的属性包括至少一个实体别名。根据实体通用名所属的药品、检查等的类型不同,将同类型的实体通用名节点连接该类型节点。例如医疗知识图谱包括疾病节点,疾病节点连接有新型冠状肺炎节点,新型冠状肺炎节点的属性包括新冠肺炎;疾病节点还连接SARS节点,SARS节点的属性包括非典型性肺炎和非典。可选的,从医疗知识图谱中提取与输入词条的类型相同的多个实体通用名和/或实体别名。
提取出来的多个实体通用名和/或实体别名将作为多个基准词条,每个基准词条与输入词条构成多个初始词条对。
S420、从多个初始词条对中,筛选不满足设定冲突关系的候选词条对。
设定冲突关系包括:原词条包含关系、重排词条包含关系、属性冲突关系、包含指定差异字符中的至少一种。其中,原词条包含关系指一个词条包含在另一个词条中,重排词条包含关系指将词条对按照拼音顺序重排后,重排后的一个词条包含在另一个词条中。属性冲突关系指词条对的两个词条的属性不同,属性包括部位、程度、方向、频率、数量和感官。部位包括肩、手等,程度包括轻型、重型等,方向包括上、下等,频率包含复发、始发、继发等,数量包括双肺、五处骨折,感官包含声音、气味、颜色等。指定差异字符包括:连接词,如和、与,以及否定词,如非、无等。词条对中两个词条的区别包括指定差异字符,则词条对具有设定冲突关系。
S430、计算候选词条对的相似度,并将相似度满足设定相似条件的候选词条确定为待进行同义判别的词条对。
本实施例对不具有设定冲突关系的候选词条对计算相似度。可选的,为了提高相似度的准确性,根据同义词典,对候选词条对进行同义转化;计算同义转化后的候选词条对的相似度。其中,同义词典包括对个同义词对,如目和眼睛、腹和肚子。将候选词条对中每个词条均进行同义转化,尽量减少候选词条对中差异字符的个数。通过对词条对进行同义转化,同义不同字的部分进行统一,有利于得到更准确的相似度。
可选的,计算候选词条对的属性之间的第一相似度,计算候选词条对的分词之间的第二相似度,计算候选词条对的字符之间的第三相似度,根据第一相似度、第二相似度和第三相似度,计算候选词条对的相似度。
本实施例从属性、分词和字符三个维度计算相似度,全面综合地衡量词条对的相似度。其中,相似度的计算可以采用余弦距离、杰卡德系数、闵可夫斯基距离或者欧氏距离等。可选地,将第一相似度、第二相似度和第三相似度相加或相乘,得到候选词条对的相似度。
设定相似条件包括大于相似度阈值或者排在设定位置之前。具体的,如果候选词条对的相似度大于相似度阈值,或者按照相似度由大到小的顺序排序,排在设定位置之前,将候选词条对确定为待进行同义判别的词条对。
S440、获取词条对所属领域的数据源。
S450、将数据源中的文本按照设定粒度进行划分,得到多段文本。
S460、根据词条对在多段文本的每段文本中是否出现,计算词条对的相关度。
S470、判断词条对的相关度是否满足设定条件,如果满足,跳转到S480,如果不满足,跳转到S490。
S480、将词条对共现的文本段作为词条对的同义判别证据。继续执行S491。
S490、判定词条对不同义。
S491、如果根据同义判别证据判定输入词条和一实体通用名或一实体别名同义,将输入词条添加到医疗知识图谱中,并与同义的实体通用名或实体别名建立关联关系。
如果输入词条与一实体通用名或实体别名同义,将输入词条作为一个与实体通用名节点连接的节点添加到医疗知识图谱中,或者,将输入词条作为实体通用名节点的属性添加到医疗知识图谱中,或者,将输入词条作为实体别名所属节点的属性添加到医疗知识图谱中。
可选的,在S410处获取到输入词条之后,优先对输入词条进行精准匹配。具体的,检测输入词条中的标点、括号和无关字符,无关字符包括类型后缀,例如宫腔镜检查中的检查、心脏搭桥术中的术、重度耳聋症中的症等;如果检测到,就删除检测到的标点、括号和无关字符,以减少干扰。接着,对输入词条和每个基准词条按照拼音顺序重排,对重排后的输入词条和每个基准词条按照字符进行一一匹配,即精准匹配;如果均能匹配上则判定词条对同义,不能匹配上,则执行从多个初始词条对中,筛选不满足设定冲突关系的候选词条对的操作,进入模糊匹配阶段。
本实施例中,通过筛选不满足设定冲突关系的候选词条对,对存在冲突关系的词条对排除,减少了后续同义判别的计算量,且通过原词条包含关系、重排词条包含关系、属性冲突关系、包含指定差异字符进行筛选,筛选方式简单易行且准确性高;通过对筛选出的词条对采用相似度计算是否是可能的同义词条,采用相似度判别词条对是否同义。
进一步的,本实施例限定输入词条为医疗领域设定类型的实体名,而疾病、检查、检验、药品和科室是同义词集中的地方,而且通过筛选在设定时段内的收集频率大于设定频率阈值的实体名,将高频的实体名提取出来,从而将高需求的实体名优先进行统一,能够方便医疗项目的落地;通过选取满足规定医疗格式的实体名,有利于实体名的相似度判断和共现判断。
进一步的,实体通用名和别名存储在医疗知识图谱中,从而方便、快速提取与输入词条同类型的实体通用名和实体别名,缩小同义判别范围,提高同义判别和相关证据的提供效率;通过在判定同义后,将输入词条添加到医疗知识图谱中,以扩充医疗知识图谱,以便后续对新的输入词条进行同义判定。
实施例五
图5是本申请实施例五中的一种词条同义判别的寻证装置的结构图,本申请实施例适用于寻找词条对的同义判别证据,以便依据同义判别证据进行同义判断的情况,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图5所示的一种词条同义判别的寻证装置500,包括:获取模块501、划分模块502、相关度计算模块503和寻证模块504;其中,
获取模块501,用于获取待进行同义判别的词条对,以及词条对所属领域的数据源;
划分模块502,用于将数据源中的文本按照设定粒度进行划分,得到多段文本;
相关度计算模块503,用于根据词条对在多段文本的每段文本中是否出现,计算词条对的相关度;
寻证模块504,用于如果词条对的相关度满足设定条件,将词条对共现的文本段作为词条对的同义判别证据。
本申请实施例根据词条对在每段文本中是否出现计算相关度,如果相关度满足设定条件,说明词条对可能是同义的,进而将可能同义的词条对出现在的一段段文本提取出来,作为同义判别证据,从而依据词条对的共现进行初步的同义判别,提高同义判别证据的准确性和权威性;本申请实施例对词条对所属领域的数据源按照设定粒度进行划分,进而以每段文本为单位得到相关度,以便根据相关度将词条对共现的文本段,即具体出处提取出来,而非在整个数据源中查找词条对;该文本段能够直接反映词条对是否同义,通过将该文本作为同义判别证据进行最终的同义判别,能够进一步提高同义判别证据的权威性和准确性。
进一步的,相关度计算模块503包括:第一概率计算单元和相关度计算单元。其中,第一概率计算单元用于根据词条对在多段文本的每段文本中是否出现,计算词条对的共现概率以及词条对中每个词条的出现概率;相关度计算单元用于根据词条对的共现概率以及每个词条的出现概率,计算词条对的相关度。
进一步的,数据源包括多个著作物,第一概率计算单元具体用于:根据词条对在每个著作物的每段文本中是否出现,计算词条对在每个著作物中的共现概率以及词条对中每个词条在每个著作物中的出现概率;相关度计算单元具体用于:根据词条对在每个著作物中的共现概率以及每个词条在每个著作物中的出现概率,计算词条对在每个著作物中的相关度;根据著作物的数量和词条对在每个著作物中的相关度,计算词条对在多个著作物中的平均相关度。
进一步的,相关度计算模块503还包括第二概率计算单元,具体用于:根据词条对和词条对之间的同义关联词在多段文本的每段文本中是否出现,计算词条对和同义关联词的共现概率。相关度计算单元具体用于:根据词条对的共现概率、每个词条的出现概率以及词条对和同义关联词的共现概率,计算词条对的相关度。
进一步的,该装置还包括排序模块,用于根据同义判别证据的每个来源著作物的权威程度,确定每个来源著作物的权值;根据词条对在每个来源著作物中的相关度以及每个来源著作物的权值,计算词条对在每个来源著作物中的加权相关度;根据词条对在每个来源著作物中的加权相关度,对多个来源著作物的同义判别证据进行排序。
进一步的,寻证模块504具体用于:如果词条对的相关度超过设定阈值,将词条对共现的文本段作为词条对的同义判别证据。
进一步的,设定粒度包括句子、段落或篇章。
进一步的,获取模块501在获取待进行同义判别的词条对时,具体用于:获取输入词条和多个基准词条,输入词条和每个基准词条构成初始词条对;从多个初始词条对中,筛选不满足设定冲突关系的候选词条对;计算候选词条对的相似度,并将相似度满足设定相似条件的候选词条确定为待进行同义判别的词条对;其中,设定冲突关系包括:原词条包含关系、重排词条包含关系、属性冲突关系、包含指定差异字符中的至少一种。
进一步的,获取模块501在计算候选词条对的相似度时,具体用于:根据同义词典,对候选词条对进行同义转化;计算同义转化后的候选词条对的相似度。
进一步的,获取模块501在计算候选词条对的相似度时,具体用于:计算候选词条对的属性之间的第一相似度;计算候选词条对的分词之间的第二相似度;计算候选词条对的字符之间的第三相似度;根据第一相似度、第二相似度和第三相似度,计算候选词条对的相似度。
进一步的,获取模块501在获取输入词条时,具体用于:从医疗机构产生的文件中收集设定类型的多个实体名,设定类型包括疾病类型、检查类型、检验类型、药品类型和科室类型;从多个实体名中,筛选在设定时段内的收集频率大于设定频率阈值的实体名;从筛选出的实体名中选取满足规定医疗格式的任一实体名,作为输入词条。
进一步的,获取模块501在获取多个基准词条时,具体用于:从医疗知识图谱中,提取与输入词条的类型相同的多个实体通用名和/或实体别名,医疗知识图谱包括多个实体通用名节点,每个实体通用名节点的属性包括至少一个实体别名。相应的,该装置还包括添加模块,用于如果根据同义判别证据判定输入词条和一实体通用名或实体别名同义,将输入词条添加到医疗知识图谱中,并与同义的实体通用名或实体别名建立关联关系。
上述词条同义判别的寻证装置可执行本申请任意实施例所提供的词条同义判别的寻证方法,具备执行词条同义判别的寻证方法相应的功能模块和有益效果。
实施例六
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是实现本申请实施例的词条同义判别的寻证方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的词条同义判别的寻证方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的词条同义判别的寻证方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的词条同义判别的寻证的方法对应的程序指令/模块(例如,附图5所示的包括获取模块501、划分模块502、相关度计算模块503和寻证模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的词条同义判别的寻证的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现词条同义判别的寻证方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至执行词条同义判别的寻证方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行词条同义判别的寻证方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与执行词条同义判别的寻证方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (15)
1.一种词条同义判别的寻证方法,其特征在于,包括:
获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;
将所述数据源中的文本按照设定粒度进行划分,得到多段文本;
根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;
如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度,包括:
根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率;
根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度。
3.根据权利要求2所述的方法,其特征在于,所述数据源包括多个著作物;
所述根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的共现概率以及所述词条对中每个词条的出现概率,包括:
根据所述词条对在每个著作物的每段文本中是否出现,计算所述词条对在每个著作物中的共现概率以及所述词条对中每个词条在每个著作物中的出现概率;
所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:
根据所述词条对在每个著作物中的共现概率以及每个词条在每个著作物中的出现概率,计算所述词条对在每个著作物中的相关度;
根据所述著作物的数量和所述词条对在每个著作物中的相关度,计算所述词条对在所述多个著作物中的平均相关度。
4.根据权利要求2所述的方法,其特征在于,在所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度之前,还包括:
根据所述词条对和所述词条对之间的同义关联词在所述多段文本的每段文本中是否出现,计算所述词条对和所述同义关联词的共现概率;
所述根据所述词条对的共现概率以及每个词条的出现概率,计算所述词条对的相关度,包括:
根据所述词条对的共现概率、每个词条的出现概率以及所述词条对和所述同义关联词的共现概率,计算所述词条对的相关度。
5.根据权利要求3所述的方法,其特征在于,在所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据之后,还包括:
根据所述同义判别证据的每个来源著作物的权威程度,确定每个来源著作物的权值;
根据所述词条对在每个来源著作物中的相关度以及每个来源著作物的权值,计算所述词条对在每个来源著作物中的加权相关度;
根据所述词条对在每个来源著作物中的加权相关度,对所述多个来源著作物的同义判别证据进行排序。
6.根据权利要求1所述的方法,其特征在于,所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据,包括:
如果所述词条对的相关度超过设定阈值,将所述词条对共现的文本段作为所述词条对的同义判别证据。
7.根据权利要求1所述的方法,其特征在于,所述设定粒度包括句子、段落或篇章。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述获取待进行同义判别的词条对,包括:
获取输入词条和多个基准词条,所述输入词条和每个基准词条构成初始词条对;
从多个所述初始词条对中,筛选不满足设定冲突关系的候选词条对;
计算所述候选词条对的相似度,并将相似度满足设定相似条件的候选词条确定为所述待进行同义判别的词条对;
其中,所述设定冲突关系包括:原词条包含关系、重排词条包含关系、属性冲突关系、包含指定差异字符中的至少一种。
9.根据权利要求8所述的方法,其特征在于,所述计算所述候选词条对的相似度,包括:
根据同义词典对所述候选词条对进行同义转化;
计算同义转化后的候选词条对的相似度。
10.根据权利要求8所述的方法,其特征在于,所述计算所述候选词条对的相似度,包括:
计算所述候选词条对的属性之间的第一相似度;
计算所述候选词条对的分词之间的第二相似度;
计算所述候选词条对的字符之间的第三相似度;
根据所述第一相似度、所述第二相似度和所述第三相似度,计算所述候选词条对的相似度。
11.根据权利要求8所述的方法,其特征在于,所述获取输入词条,包括:
从医疗机构产生的文件中收集设定类型的多个实体名,所述设定类型包括疾病类型、检查类型、检验类型、药品类型和科室类型;
从所述多个实体名中,筛选在设定时段内的收集频率大于设定频率阈值的实体名;
从筛选出的实体名中选取满足规定医疗格式的任一实体名,作为所述输入词条。
12.根据权利要求11所述的方法,其特征在于,所述获取多个基准词条,包括:
从医疗知识图谱中,提取与所述输入词条的类型相同的多个实体通用名和/或实体别名,所述医疗知识图谱包括多个实体通用名节点,每个实体通用名节点的属性包括至少一个实体别名;
在所述如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据之后,还包括:
如果根据所述同义判别证据判定所述输入词条和一实体通用名或一实体别名同义,将所述输入词条添加到所述医疗知识图谱中,并与同义的所述实体通用名或实体别名建立关联关系。
13.一种词条同义判别的寻证装置,其特征在于,包括:
获取模块,用于获取待进行同义判别的词条对,以及所述词条对所属领域的数据源;
划分模块,用于将所述数据源中的文本按照设定粒度进行划分,得到多段文本;
相关度计算模块,用于根据所述词条对在所述多段文本的每段文本中是否出现,计算所述词条对的相关度;
寻证模块,用于如果所述词条对的相关度满足设定条件,将所述词条对共现的文本段作为所述词条对的同义判别证据。
14.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的一种词条同义判别的寻证方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的一种词条同义判别的寻证方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010203381.9A CN111428478B (zh) | 2020-03-20 | 2020-03-20 | 一种词条同义判别的寻证方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010203381.9A CN111428478B (zh) | 2020-03-20 | 2020-03-20 | 一种词条同义判别的寻证方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111428478A true CN111428478A (zh) | 2020-07-17 |
CN111428478B CN111428478B (zh) | 2023-08-15 |
Family
ID=71548497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010203381.9A Active CN111428478B (zh) | 2020-03-20 | 2020-03-20 | 一种词条同义判别的寻证方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428478B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692006A (zh) * | 2022-06-01 | 2022-07-01 | 深圳市启程教育科技有限公司 | 一种基于大数据的教育资源共享系统及方法 |
CN116258138A (zh) * | 2023-03-15 | 2023-06-13 | 北京百度网讯科技有限公司 | 知识库构建方法、实体链接方法、装置及设备 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199906A (ja) * | 2006-01-25 | 2007-08-09 | Nomura Research Institute Ltd | キーワード対応関係分析装置及び分析方法 |
CN101872351A (zh) * | 2009-04-27 | 2010-10-27 | 阿里巴巴集团控股有限公司 | 识别同义词的方法、装置及利用其进行搜索的方法和装置 |
US20110119050A1 (en) * | 2009-11-18 | 2011-05-19 | Koen Deschacht | Method for the automatic determination of context-dependent hidden word distributions |
CN102722501A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN102982125A (zh) * | 2012-11-14 | 2013-03-20 | 百度在线网络技术(北京)有限公司 | 一种用于确定同义文本的方法和装置 |
CN103218409A (zh) * | 2013-03-25 | 2013-07-24 | 福州大学 | 一种自动识别同义术语的方法 |
CN103500208A (zh) * | 2013-09-30 | 2014-01-08 | 中国科学院自动化研究所 | 结合知识库的深层数据处理方法和系统 |
CN104317783A (zh) * | 2014-09-16 | 2015-01-28 | 北京航空航天大学 | 一种语义关系密切度的计算方法 |
CN104978356A (zh) * | 2014-04-10 | 2015-10-14 | 阿里巴巴集团控股有限公司 | 一种同义词的识别方法及装置 |
CN105824800A (zh) * | 2016-03-15 | 2016-08-03 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN107451212A (zh) * | 2017-07-14 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 基于相关搜索的同义挖掘方法和装置 |
CN108153735A (zh) * | 2017-12-28 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN109522396A (zh) * | 2018-10-22 | 2019-03-26 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的知识处理方法及系统 |
CN110309432A (zh) * | 2018-06-11 | 2019-10-08 | 腾讯科技(北京)有限公司 | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN110826328A (zh) * | 2019-11-06 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置、存储介质和计算机设备 |
-
2020
- 2020-03-20 CN CN202010203381.9A patent/CN111428478B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007199906A (ja) * | 2006-01-25 | 2007-08-09 | Nomura Research Institute Ltd | キーワード対応関係分析装置及び分析方法 |
CN101872351A (zh) * | 2009-04-27 | 2010-10-27 | 阿里巴巴集团控股有限公司 | 识别同义词的方法、装置及利用其进行搜索的方法和装置 |
US20110119050A1 (en) * | 2009-11-18 | 2011-05-19 | Koen Deschacht | Method for the automatic determination of context-dependent hidden word distributions |
CN102722501A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN102982125A (zh) * | 2012-11-14 | 2013-03-20 | 百度在线网络技术(北京)有限公司 | 一种用于确定同义文本的方法和装置 |
CN103218409A (zh) * | 2013-03-25 | 2013-07-24 | 福州大学 | 一种自动识别同义术语的方法 |
CN103500208A (zh) * | 2013-09-30 | 2014-01-08 | 中国科学院自动化研究所 | 结合知识库的深层数据处理方法和系统 |
CN104978356A (zh) * | 2014-04-10 | 2015-10-14 | 阿里巴巴集团控股有限公司 | 一种同义词的识别方法及装置 |
CN104317783A (zh) * | 2014-09-16 | 2015-01-28 | 北京航空航天大学 | 一种语义关系密切度的计算方法 |
CN105824800A (zh) * | 2016-03-15 | 2016-08-03 | 江苏科技大学 | 一种中文真词错误自动校对方法 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN107451212A (zh) * | 2017-07-14 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 基于相关搜索的同义挖掘方法和装置 |
CN108153735A (zh) * | 2017-12-28 | 2018-06-12 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
CN110309432A (zh) * | 2018-06-11 | 2019-10-08 | 腾讯科技(北京)有限公司 | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 |
CN109522396A (zh) * | 2018-10-22 | 2019-03-26 | 中国船舶工业综合技术经济研究院 | 一种面向国防科技领域的知识处理方法及系统 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN110826328A (zh) * | 2019-11-06 | 2020-02-21 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置、存储介质和计算机设备 |
Non-Patent Citations (4)
Title |
---|
ABDURRAHMAN等: "Effective Use of Augmentation Degree and Language Model for Synonym-based Text Augmentation on Indonesian Text Classification", 《2019 INTERNATIONAL CONFERENCE ON ADVANCED COMPUTER SCIENCE AND INFORMATION SYSTEMS (ICACSIS)》 * |
孙叔琦: "基于统计的词汇级语义相关计算研究" * |
张为泰: "基于词向量模型特征空间优化的同义词扩展研究与应用", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
王成龙: "基于文本分类的语义相似度研究" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692006A (zh) * | 2022-06-01 | 2022-07-01 | 深圳市启程教育科技有限公司 | 一种基于大数据的教育资源共享系统及方法 |
CN114692006B (zh) * | 2022-06-01 | 2022-08-30 | 深圳市启程教育科技有限公司 | 一种基于大数据的教育资源共享系统及方法 |
CN116258138A (zh) * | 2023-03-15 | 2023-06-13 | 北京百度网讯科技有限公司 | 知识库构建方法、实体链接方法、装置及设备 |
CN116258138B (zh) * | 2023-03-15 | 2024-01-02 | 北京百度网讯科技有限公司 | 知识库构建方法、实体链接方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111428478B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alzahrani et al. | Fuzzy semantic-based string similarity for extrinsic plagiarism detection | |
Shen et al. | Entity linking with a knowledge base: Issues, techniques, and solutions | |
US9881037B2 (en) | Method for systematic mass normalization of titles | |
Wu et al. | Automatic construction of target-specific sentiment lexicon | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
Faria et al. | OAEI 2016 results of AML | |
US9836985B2 (en) | Systems and methods for automated scoring of textual responses to picture-based items | |
US10474752B2 (en) | System and method for slang sentiment classification for opinion mining | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
Bejan et al. | Assertion modeling and its role in clinical phenotype identification | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN112507230B (zh) | 基于浏览器的网页推荐方法、装置、电子设备及存储介质 | |
JP2021114057A (ja) | 文書表示支援システム及び文書表示支援方法並びに該方法を実行するためのプログラム | |
Duque et al. | A keyphrase-based approach for interpretable ICD-10 code classification of Spanish medical reports | |
Alkadri et al. | Semantic feature based arabic opinion mining using ontology | |
CN111428478B (zh) | 一种词条同义判别的寻证方法、装置、设备和存储介质 | |
Duck et al. | Ambiguity and variability of database and software names in bioinformatics | |
Liebeskind et al. | Semiautomatic construction of cross-period thesaurus | |
Thompson et al. | HYPHEN: a flexible, hybrid method to map phenotype concept mentions to terminological resources | |
Wang et al. | Using a knowledge graph for hypernymy detection between Chinese symptoms | |
Gayen et al. | Automatic identification of Bengali noun-noun compounds using random forest | |
CN114664421A (zh) | 一种医患匹配方法、装置、电子设备、介质及产品 | |
Liebeskind et al. | An algorithmic scheme for statistical thesaurus construction in a morphologically rich language | |
Huetle-Figueroa et al. | Measuring semantic similarity of documents with weighted cosine and fuzzy logic | |
TW201822031A (zh) | 以文字資訊建立圖表索引方法及其電腦程式產品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |