CN109753555A - 词语匹配方法、装置、设备及计算机可读存储介质 - Google Patents
词语匹配方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109753555A CN109753555A CN201811463863.7A CN201811463863A CN109753555A CN 109753555 A CN109753555 A CN 109753555A CN 201811463863 A CN201811463863 A CN 201811463863A CN 109753555 A CN109753555 A CN 109753555A
- Authority
- CN
- China
- Prior art keywords
- word
- participle
- matched
- target
- comparing result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开一种词语匹配方法、装置、设备及计算机可读存储介质,所述方法包括:当接收到待匹配词语时,调用预设标准库中的各分词和待匹配词语进行对比,生成第一对比结果;逐一读取预设标准库中的各标准词,并调用各分词和各标准词进行对比,生成各第二对比结果;根据第一对比结果和各第二对比结果,确定与待匹配词语匹配的目标标准词,完成待匹配词语的匹配。通过对待匹配词语进行相似度匹配,由预设标准库中的分词分别与待匹配词语以及各标准词对比所生成的第一对比结果和第二对比结果,来精准体现待匹配词语和各标准词的含义;使得依据第一对比结果和各第二对比结果所确定的目标标准词具有较高的准确性,提高了待匹配词语匹配的准确度。
Description
技术领域
本发明主要涉及数据处理技术领域,具体地说,涉及一种词语匹配方法、装置、设备及计算机可读存储介质。
背景技术
医药领域中涉及到众多专有词语,且各专有词语的长度不一,存在某些包含众多字的专有词语;医疗人员在将该类包含众多字的专有词语输入到就诊人员的病历时,通常写简称,或者省略其中的个别字。医疗机构为了对病历进行规范化管理或者医保机构在依据病历进行医保报销时,均需要先为其中简写或省略的词语匹配专有词语。
目前在对医药领域中简写或省略的词语匹配专有词语时,通常将各专有词语逐个和简写或省略的词语进行对比匹配;因简写或省略的词语以多种形式存在,而专有词语则以固定形式存在,使得专有词语不能准确的表征各简写或省略的词语含义,导致为简写或省略的词语所匹配的专有词语不准确。
发明内容
本发明的主要目的是提供一种词语匹配方法、装置、设备及计算机可读存储介质,旨在解决现有技术中为医药领域中简写或省略的词语所匹配的专有词语不准确的问题。
为实现上述目的,本发明提供一种词语匹配方法,所述词语匹配方法包括以下步骤:
当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
优选地,所述根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词的步骤包括:
将所述第一对比结果和各所述第二对比结果传输到第一预设公式中,根据所述第一预设公式,生成所述第一对比结果和各所述第二对比结果之间的相似度得分,所述第一预设公式为:
其中,yi表示各所述相似度得分、ki表示各所述第二对比结果、x表示第一对比结果、len表示长度计算函数;
将各所述相似度得分进行对比,确定各所述相似度得分中的最大得分值,并将所述最大得分值对应的标准词确定为与所述待匹配词语匹配的目标标准词。
优选地,所述调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果的步骤包括:
读取所述预设标准库中的各分词,形成分词序列,并将所述分词序列中的各目标分词分别和所述待匹配词语进行对比,判断各所述目标分词是否存在于所述待匹配词语中;
若所述目标分词存在于所述待匹配词语中,则生成第一分词值,并将所述第一分词值配置到所述目标分词在所述分词序列中的位置;
若所述目标分词不存在于所述待匹配词语中,则生成第二分词值,并将所述第二分词值配置到所述目标分词在所述分词序列中的位置;
在检测到所述分词序列中各目标分词均和所述待匹配词语对比完成后,将配置到所述分词序列中各位置的所述第一分词值和所述第二分词值,形成第一对比结果。
优选地,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
若所述目标分词存在于所述待匹配词语中,则生成所述目标分词与所述待匹配词语之间的重合度;
将所述重合度和所述目标分词传输到第二预设公式,根据所述第二预设公式,生成第一分词值;
所述第二预设公式为:
其中,p表示所述第一分词值,m表示所述重合度,W表示所述目标分词、len表示长度计算函数。
优选地,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
若所述目标分词存在于所述待匹配词语中,则将所述目标分词传输到第三预设公式,根据所述第三预设公式,生成第一分词值;
所述第三预设公式为:
其中,p表示所述第一分词值、W表示所述目标分词、len表示长度计算函数、abs表示绝对值函数、n表示幂次方。
优选地,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
若所述目标分词存在于所述待匹配词语中,则为所述目标分词配置预设值,并将所述预设值确定为第一分词值。
优选地,所述当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比的步骤之前包括:
当接收到对词语进行匹配的触发请求时,读取所述触发请求中的标准库识别码;
将所述标准库识别码和预设标识码对比,确定各所述预设标识码中与所述标准库识别码对应的目标预设标识码,并将与所述目标预设标识码对应的标准库确定为预设标准库。
此外,为实现上述目的,本发明还提出一种词语匹配装置,所述词语匹配装置包括:
调用模块,用于当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
读取模块,用于逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
匹配模块,用于根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
此外,为实现上述目的,本发明还提出一种词语匹配设备,所述词语匹配设备包括:存储器、处理器、通信总线以及存储在所述存储器上的词语匹配程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述词语匹配程序,以实现以下步骤:
当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
本实施例的词语匹配方法,通过预先设置包括多个标准词的预设标准库,且预设标准库中将各标准词划分为各种长度的分词;当接收到待匹配词语,需要为待匹配词语匹配专有词语时,调用预设标准库中的各分词和该待匹配词语进行对比,生成第一对比结果;同时用各分词和各标准词进行对比,生成各个第二对比结果;其中第一对比结果表征了待匹配词语与各分词之间的匹配情况,而各个第二对比结果表征了各标准词与各分词之间的匹配情况;当标准词与各分词的匹配情况和待匹配词语与各分词的匹配情况越接近,则说明标准词与待匹配此越接近;从而可根据第一对比结果和第二对比结果,确定与待匹配词语匹配的目标标准词,完成待匹配词语与专有词语之间的匹配。因预设标准库中的分词由各标准词划分而来,且以各种长度存在,使得其与待匹配词语以及各标准词对比所生成的第一对比结果和第二对比结果,精准的体现了待匹配词语和各标准词的含义;从而依据第一对比结果和第二对比结果所确定的目标标准词具有较高的准确性,提高了待匹配词语匹配的准确度。
附图说明
图1是本发明的词语匹配方法第一实施例的流程示意图;
图2是本发明的词语匹配装置第一实施例的功能模块示意图;
图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种词语匹配方法。
请参照图1,图1为本发明词语匹配方法第一实施例的流程示意图。在本实施例中,所述词语匹配方法包括:
步骤S10,当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
本发明的词语匹配方法应用于服务器,适用于通过服务器对医药领域中简写或省略的词语进行专有词语的匹配;在医药领域中,各种疾病名称和药品名称均设置有专有词语,而各医疗人员在对就诊人员进行确诊时,往往采用简写或省略的词语;需要在简写或省略词语和专有词语之间进行匹配,如为省略词语“心梗”匹配专有词语“心肌梗塞”。为了实现对各简写或省略词语的匹配,本实施例预先设置有预设标准库,该预设标准库为医药领域中各专有词语的标准词集合;即预先将各专有词语作为标准词添加到预设标准库,形成标准词集合。再对预设标准库中的各标准词进行划分,形成多个不同长度的分词,如将标准词“高血压性心脏病心力衰竭”拆分为“高血压性”“心脏病”“心力衰竭”的分词。服务器与信息录入装置连接,当需要对简写或省略词语进行匹配时,通过该信息录入装置进行录入操作,并将录入的简写或省略词语作为需要匹配的待匹配词语。当服务器接收到该待匹配词语时,对预设标准库进行调用,并读取其中的各个分词;将各个分词和待匹配词语进行对比,生成第一对比结果。其中对比的过程为确定各分词与待匹配词语之间重合性的过程,具体的,调用预设标准库中的各分词和待匹配词语进行对比,生成第一对比结果的步骤包括:
步骤S11,读取所述预设标准库中的各分词,形成分词序列,并将所述分词序列中的各目标分词分别和所述待匹配词语进行对比,判断各所述目标分词是否存在于所述待匹配词语中;
对预设标准库中的各分词进行读取,并对各分词按照任意顺序进行排列,形成分词序列;也可直接按照读取各分词的顺序形成分词序列;在对待匹配词语匹配过程中,位于该分词序列中各分词的位置顺序不能变动,以使待匹配词语、各标准词均和具有同样位置顺序的各分词进行匹配。将位于分词序列中的各分词作为目标分词,并用各目标分词分别和待匹配词语进行对比,判断各目标分词是否存在于该待匹配词语中。
步骤S12,若所述目标分词存在于所述待匹配词语中,则生成第一分词值,并将所述第一分词值配置到所述目标分词在所述分词序列中的位置;
步骤S13,若所述目标分词不存在于所述待匹配词语中,则生成第二分词值,并将所述第二分词值配置到所述目标分词在所述分词序列中的位置;
因分词序列中涉及到多个目标分词,各目标分词不全部存在于待匹配词语中,针对目标分词存在和不存在于待匹配词语的两种情况,生成不同的分词值。具体地,当经对比判读出分词序列中的目标分词存在于待匹配词语中,则生成第一分词值;而当判断出分词序列中的目标分词不存在于待匹配词语中,则生成第二分词值。按照各第一分词值和第二分词值各自所来源目标分词在分词序列中的位置,将各第一分词值和第二分词值分别配置到分词序列中。其中第一分词值可用预先设定的预设值表征,具体地,若目标分词存在于待匹配词语中,则生成第一分词值的步骤包括:
步骤S121,若所述目标分词存在于所述待匹配词语中,则为所述目标分词配置预设值,并将所述预设值确定为第一分词值。
预先设定表征第一分词值的预设值,如预设值1;当判断出目标分词存在于待匹配词语中,则将该预设值确定为第一分词值,并对该预设值进行调用,配置到目标分词所在分词序列的位置。同样的可预先设定表征第二分词值的预设值,如预设值0;当判断出目标分词不存在于待匹配词语中,则将该预设值确定为第二分词值,并对该预设值进行调用,配置到目标分词所在分词序列的位置。如分词序列为[A1、A2、A3、A4],则将待匹配词语分别与A1、A2、A3、A4对比,判断出A1存在于待匹配词语中,A2不存在于待匹配词语中;则分别生成第一分词值1和第二分词值0,并将该1和0分别配置到A1和A2所在分词序列中的位置。
步骤S14,在检测到所述分词序列中各目标分词均和所述待匹配词语对比完成后,将配置到所述分词序列中各位置的所述第一分词值和所述第二分词值,形成第一对比结果。
进一步地,在待匹配词语均和各目标分词进行对比,生成第一分词值或第二分词值,并将所述生成的第一分词值和第二分词值均配置到分词序列各目标分词所在位置之后,由第一分词值和第二分词值所形成的数值序列即为第一对比结果。如对于上述分词序列[A1、A2、A3、A4],若判断出A3和A4均存在于待匹配词语中,则将预设值1配置到A3和A4所在分词序列中的位置,使得所形成的数值序列为[1、0、1、1],此数值序列即为待匹配词语和各目标分词进行对比所生成的第一对比结果。
步骤S20,逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
更进一步地,预设标准库还对其中的各标准词进行匹配,逐一读取各标准词,并用预设标准库中的各分词和标准词对比,生成第二对比结果;在一个标准词对比完成生成第二对比结果后,继续读取下一个标准词进行对比,直到预设标准库中所有标准词均进行对比,生成第二对比结果;所生成第二对比结果的数量和预设标准库中所具有标准词的数量一致,一个标准词对应一个第二对比结果。其中第二对比结果和第一对比结果的生成过程相似,读取在对待匹配词语对比过程中所生成的分词序列,用该分词序列中的各目标分词分别和标准词对比,判断各目标分词是否存在于标准词中,并基于判断结果生成第二对比结果,具体的生成第二对比结果的过程和生成第一对比结果的过程类似,在此不做赘述。
步骤S30,根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
进一步地,在生成第一对比结果和各第二对比结果后,第一对比结果表征了待匹配词语与预设标准库中各分词之间的匹配情况,而各第二对比结果表征了各个标准词与预设标准库中各分词之间的匹配情况;当标准词与各分词的匹配情况和待匹配词语与各分词的匹配情况越接近,则说明标准词与待匹配词语越接近。根据第一对比结果与各第二对比结果之间的匹配情况,确定与待匹配词语最为接近的标准词;因第一对比结果和各第二对比结果均为数值序列,当两者之间的数值序列越接近,则说明第一对比结果和第二对比结果越匹配,将匹配程度最高的第二对比结果所对应的标准词确定为与待匹配词语最为接近的目标标准词,完成为待匹配词语匹配专有词语。具体地,根据第一对比结果和各第二对比结果,确定与待匹配词语匹配的目标标准词的步骤包括:
步骤S31,将所述第一对比结果和各所述第二对比结果传输到第一预设公式中,根据所述第一预设公式,生成所述第一对比结果和各所述第二对比结果之间的相似度得分,所述第一预设公式为:
其中,yi表示各所述相似度得分、ki表示各所述第二对比结果、x表示第一对比结果、len表示长度计算函数;
将表征第一对比结果的数值序列和表征第二对比结果的各数值序列,分别传输到预设的第一预设公式中,替换其中的x和ki,计算所得到的结果yi即为第一对比结果和第二对比结果之间的相似度得分。i的取值为1、2、3等正整数,其不同取值表征不同的第二对比结果,所得到的相似度得分也因第二对比结果ki的不同而不同;当第一对比结果和第二对比结果越接近,则所得到的相似度得分越大。
步骤S32,将各所述相似度得分进行对比,确定各所述相似度得分中的最大得分值,并将所述最大得分值对应的标准词确定为与所述待匹配词语匹配的目标标准词。
更进一步地,所得到的相似度得分数量和第二对比结果的数量相同,将各个相似度得分进行对比,确定各相似度得分中的最大得分值。该最大得分值表征了和第一对比结果最接近的第二对比结果,而第二对比结果由各标准词生成;从而将生成该和第一对比结果最接近的第二对比结果的标准词确定为与待匹配词语匹配程度最高的目标标准词。该目标标准词即是作为简写或省略词语的待匹配词语所对应的专有词语,完成待匹配词语的匹配操作。
本实施例的词语匹配方法,通过预先设置包括多个标准词的预设标准库,且预设标准库中将各标准词划分为各种长度的分词;当接收到待匹配词语,需要为待匹配词语匹配专有词语时,调用预设标准库中的各分词和该待匹配词语进行对比,生成第一对比结果;同时用各分词和各标准词进行对比,生成各个第二对比结果;其中第一对比结果表征了待匹配词语与各分词之间的匹配情况,而各个第二对比结果表征了各标准词与各分词之间的匹配情况;当标准词与各分词的匹配情况和待匹配词语与各分词的匹配情况越接近,则说明标准词与待匹配此越接近;从而可根据第一对比结果和第二对比结果,确定与待匹配词语匹配的目标标准词,完成待匹配词语与专有词语之间的匹配。因预设标准库中的分词由各标准词划分而来,且以各种长度存在,使得其与待匹配词语以及各标准词对比所生成的第一对比结果和第二对比结果,精准的体现了待匹配词语和各标准词的含义;从而依据第一对比结果和第二对比结果所确定的目标标准词具有较高的准确性,提高了待匹配词语匹配的准确度。
进一步地,在本发明词语匹配方法另一实施例中,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
步骤S122,若所述目标分词存在于所述待匹配词语中,则生成所述目标分词与所述待匹配词语之间的重合度;
可理解地,分词序列中的各目标分词可能不完全存在于待匹配词语中,即目标分词中只有部分字存在于待匹配词语中,此时第一分词值的生成与目标分词与待匹配词语之间的重合度相关。当经对比判断出分词序列中的目标分词存在于待匹配词语时,该存在为目标分词中具有任意字存在于待匹配词语中即可;则进一步生成目标分词与待匹配词语之间的重合度,该重合度表征了目标分词与待匹配词语之间所具有相同字的个数。如目标分词为高血压,待匹配词语为高血压性心脏病,则目标分词中的字全部存在于待匹配词语中,两者之间的重合度为1。统计两者之间相同字的个数,并用两者之间相同字的个数与目标分词本身所具有字的个数做比值,比值所得到的结果即为目标分词与待匹配词语之间的重合度。而当经对比判断出目标分词中不具有任意字存在于待匹配词语中,则生成第二分词值,该第二分词值为预先设置的数值,优选为0。
步骤S123,将所述重合度和所述目标分词传输到第二预设公式,根据所述第二预设公式,生成第一分词值;
所述第二预设公式为:
其中,p表示所述第一分词值,m表示所述重合度,W表示所述目标分词、len表示长度计算函数。
将所生成的重合度以及目标分词传输到预设的第二预设公式中,替换其中的m和W,经第二预设公式计算所得到的p即为第一分词值。将该生成的第一分词值配置到目标分词所在分词序列中的位置,并读取下一目标分词判断其是否存在于待匹配词语中,生成下一第一分词值或第二分词值,直到所有目标分词均生成第一分词值或第二分词值。
进一步地,在本发明词语匹配方法另一实施例中,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
步骤S124,若所述目标分词存在于所述待匹配词语中,则将所述目标分词传输到第三预设公式,根据所述第三预设公式,生成第一分词值;
所述第三预设公式为:
其中,p表示所述第一分词值、W表示所述目标分词、len表示长度计算函数、abs表示绝对值函数、n表示幂次方。
更进一步地,本实施例中第一分词值的生成仅与目标分词的长度相关,当经判断出分词序列中的目标分词存在于待匹配词语中时,则进一步将目标分词传输到预设的第三预设公式中,替换其中的W,经第三预设公式计算所得到的p即为第一分词值。其中第三预设公式中幂次方n为经多次测试而确定的预设测试值。当判断出目标分词不存在于待匹配词语中时,则生成第二分词值,该第二分词值为预先设置的数值,优选为0。将针对目标分词所生成的第一分词值或第二分词值配置到目标分词所在分词序列中的位置,并读取下一目标分词判断其是否存在于待匹配词语中,生成下一第一分词值或第二分词值,直到所有目标分词均生成第一分词值或第二分词值。
需要说明的是,在对第一分词值进行生成的过程中,可采用为目标分词设置预设值、第二预设公式和第三预设公式中的任意一种方式生成,也可选取其中的两种或三种方式进行生成。在采用其中两种或三种方式进行生成时,对应所得到的第一对比结果也涉及到两种或三种;为了确定与第一对比结果最为接近的第二对比结果,在对各标准词生成第二对比结果的过程中,也采用和生成第一对比结果对应的两种或三种方式确定第二对比结果,使得第二对比结果也涉及到两种或三种。进而由采用相同方式生成的第一对比结果和各第二对比结果之间的相似度,确定与待匹配词语匹配的目标标准词。因第一对比结果和各第二对比结果所生成的方式涉及到两种或三种,使得所确定的目标标准词也涉及到两个或三个;当该两个或三个目标标准词相同时,则直接将其确定为与待匹配词语匹配的目标标准词,而当该两个或三个目标标准词不相同时,则由各自所对应相似度得分中的最大值,来确定与待匹配词语匹配的目标标准词。
进一步地,在本发明词语匹配方法另一实施例中,所述当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比的步骤之前包括:
步骤S40,当接收到对词语进行匹配的触发请求时,读取所述触发请求中的标准库识别码;
可理解地,在医学领域中涉及到多种类型的专有词语,如与诊断相关的专有词语、与手术操作相关的专有名字以及与药品相关的专有词语等。不同类型的专有词语对应于不同的标准库,其中对应诊断相关的标准库为ICD10诊断编码库,对应手术操作相关的标准库为ICD9-CM手术操作编码库,对应药品相关的标准库为药品ATC编码库等,也可以依据需求将不同类型的标准词形成标准库。将此类在医学领域中所使用的标准库均作为预设标准库,且不同的标准库对应用不同的预设标识码进行标识区分。在接收到需要匹配的待匹配词语,而需要调用预设标准库进行匹配前,需要确定预设标准库的具体类型。具体地,通过与服务器连接的信息录入装置发送对词语进行匹配的触发请求,并将所需要匹配的预设编码库的标准库识别码添加到该触发请求中;服务器在接收到该对词语进行匹配的触发请求后,读取其中的标准库识别码,以由该标准库识别码确定用于匹配的预设标准库。
步骤S50,将所述标准库识别码和预设标识码对比,确定各所述预设标识码中与所述标准库识别码对应的目标预设标识码,并将与所述目标预设标识码对应的标准库确定为预设标准库。
进一步地,将读取的标准库识别码和预先设置的各预设标识码进行对比,确定各预设标识码中与该标准库识别码一致的目标预设识别码,该目标预设标识码所对应的标准库即为对待匹配词语进行匹配所需要使用的预设标准库。在接收到待匹配词语,而具有对待匹配词语的匹配需求时,则对该预设标准库进行调用,以用该预设标准库中的标准词以及各标准词的分词对待匹配词语进行匹配。
此外,请参照图2,本发明提供一种词语匹配装置,在本发明词语匹配装置第一实施例中,所述词语匹配装置包括:
调用模块10,用于当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
读取模块20,用于逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
匹配模块30,用于根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
本实施例的词语匹配装置,通过预先设置包括多个标准词的预设标准库,且预设标准库中将各标准词划分为各种长度的分词;当接收到待匹配词语,需要为待匹配词语匹配专有词语时,调用模块10调用预设标准库中的各分词和该待匹配词语进行对比,生成第一对比结果;同时读取模块20用各分词和各标准词进行对比,生成各个第二对比结果;其中第一对比结果表征了待匹配词语与各分词之间的匹配情况,而各个第二对比结果表征了各标准词与各分词之间的匹配情况;当标准词与各分词的匹配情况和待匹配词语与各分词的匹配情况越接近,则说明标准词与待匹配此越接近;从而匹配模块30可根据第一对比结果和第二对比结果,确定与待匹配词语匹配的目标标准词,完成待匹配词语与专有词语之间的匹配。因预设标准库中的分词由各标准词划分而来,且以各种长度存在,使得其与待匹配词语以及各标准词对比所生成的第一对比结果和第二对比结果,精准的体现了待匹配词语和各标准词的含义;从而依据第一对比结果和第二对比结果所确定的目标标准词具有较高的准确性,提高了待匹配词语匹配的准确度。
进一步地,在本发明词语匹配装置另一实施例中,所述匹配模块还包括:
传输单元,用于将所述第一对比结果和各所述第二对比结果传输到第一预设公式中,根据所述第一预设公式,生成所述第一对比结果和各所述第二对比结果之间的相似度得分,所述第一预设公式为:
其中,yi表示各所述相似度得分、ki表示各所述第二对比结果、x表示第一对比结果、len表示长度计算函数;
匹配单元,用于将各所述相似度得分进行对比,确定各所述相似度得分中的最大得分值,并将所述最大得分值对应的标准词确定为与所述待匹配词语匹配的目标标准词。
进一步地,在本发明词语匹配装置另一实施例中,所述调用模块还包括:
读取单元,用于读取所述预设标准库中的各分词,形成分词序列,并将所述分词序列中的各目标分词分别和所述待匹配词语进行对比,判断各所述目标分词是否存在于所述待匹配词语中;
生成单元,用于若所述目标分词存在于所述待匹配词语中,则生成第一分词值,并将所述第一分词值配置到所述目标分词在所述分词序列中的位置;
配置单元,用于若所述目标分词不存在于所述待匹配词语中,则生成第二分词值,并将所述第二分词值配置到所述目标分词在所述分词序列中的位置;
检测单元,用于在检测到所述分词序列中各目标分词均和所述待匹配词语对比完成后,将配置到所述分词序列中各位置的所述第一分词值和所述第二分词值,形成第一对比结果。
进一步地,在本发明词语匹配装置另一实施例中,所述生成单元还用于:
若所述目标分词存在于所述待匹配词语中,则生成所述目标分词与所述待匹配词语之间的重合度;
将所述重合度和所述目标分词传输到第二预设公式,根据所述第二预设公式,生成第一分词值;
所述第二预设公式为:
其中,p表示所述第一分词值,m表示所述重合度,W表示所述目标分词、len表示长度计算函数。
进一步地,在本发明词语匹配装置另一实施例中,所述生成单元还用于:
若所述目标分词存在于所述待匹配词语中,则将所述目标分词传输到第三预设公式,根据所述第三预设公式,生成第一分词值;
所述第三预设公式为:
其中,p表示所述第一分词值、W表示所述目标分词、len表示长度计算函数、abs表示绝对值函数、n表示幂次方。
进一步地,在本发明词语匹配装置另一实施例中,所述生成单元还用于:
若所述目标分词存在于所述待匹配词语中,则为所述目标分词配置预设值,并将所述预设值确定为第一分词值。
进一步地,在本发明词语匹配装置另一实施例中,所述词语匹配装置还包括:
接收模块,用于当接收到对词语进行匹配的触发请求时,读取所述触发请求中的标准库识别码;
确定模块,用于将所述标准库识别码和预设标识码对比,确定各所述预设标识码中与所述标准库识别码对应的目标预设标识码,并将与所述目标预设标识码对应的标准库确定为预设标准库。
其中,上述词语匹配装置的各虚拟功能模块存储于图3所示词语匹配设备的存储器1005中,处理器1001执行词语匹配程序时,实现图2所示实施例中各个模块的功能。
参照图3,图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明实施例词语匹配设备可以是PC(personal computer,个人计算机),也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。
如图3所示,该词语匹配设备可以包括:处理器1001,例如CPU(CentralProcessing Unit,中央处理器),存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM(random accessmemory,随机存取存储器),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该词语匹配设备还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi(Wireless Fidelity,无线宽带)模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的词语匹配设备结构并不构成对词语匹配设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及词语匹配程序。操作系统是管理和控制词语匹配设备硬件和软件资源的程序,支持词语匹配程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与词语匹配设备中其它硬件和软件之间通信。
在图3所示的词语匹配设备中,处理器1001用于执行存储器1005中存储的词语匹配程序,实现上述词语匹配方法各实施例中的步骤。
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述词语匹配方法各实施例中的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种词语匹配方法,其特征在于,所述词语匹配方法包括以下步骤:
当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
2.如权利要求1所述的词语匹配方法,其特征在于,所述根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词的步骤包括:
将所述第一对比结果和各所述第二对比结果传输到第一预设公式中,根据所述第一预设公式,生成所述第一对比结果和各所述第二对比结果之间的相似度得分,所述第一预设公式为:
其中,yi表示各所述相似度得分、ki表示各所述第二对比结果、x表示第一对比结果、len表示长度计算函数;
将各所述相似度得分进行对比,确定各所述相似度得分中的最大得分值,并将所述最大得分值对应的标准词确定为与所述待匹配词语匹配的目标标准词。
3.如权利要求1所述的词语匹配方法,其特征在于,所述调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果的步骤包括:
读取所述预设标准库中的各分词,形成分词序列,并将所述分词序列中的各目标分词分别和所述待匹配词语进行对比,判断各所述目标分词是否存在于所述待匹配词语中;
若所述目标分词存在于所述待匹配词语中,则生成第一分词值,并将所述第一分词值配置到所述目标分词在所述分词序列中的位置;
若所述目标分词不存在于所述待匹配词语中,则生成第二分词值,并将所述第二分词值配置到所述目标分词在所述分词序列中的位置;
在检测到所述分词序列中各目标分词均和所述待匹配词语对比完成后,将配置到所述分词序列中各位置的所述第一分词值和所述第二分词值,形成第一对比结果。
4.如权利要求3所述的词语匹配方法,其特征在于,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
若所述目标分词存在于所述待匹配词语中,则生成所述目标分词与所述待匹配词语之间的重合度;
将所述重合度和所述目标分词传输到第二预设公式,根据所述第二预设公式,生成第一分词值;
所述第二预设公式为:
其中,p表示所述第一分词值,m表示所述重合度,W表示所述目标分词、len表示长度计算函数。
5.如权利要求3所述的词语匹配方法,其特征在于,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
若所述目标分词存在于所述待匹配词语中,则将所述目标分词传输到第三预设公式,根据所述第三预设公式,生成第一分词值;
所述第三预设公式为:
其中,p表示所述第一分词值、W表示所述目标分词、len表示长度计算函数、abs表示绝对值函数、n表示幂次方。
6.如权利要求3所述的词语匹配方法,其特征在于,所述若所述目标分词存在于所述待匹配词语中,则生成第一分词值的步骤包括:
若所述目标分词存在于所述待匹配词语中,则为所述目标分词配置预设值,并将所述预设值确定为第一分词值。
7.如权利要求1-6任一项所述的词语匹配方法,其特征在于,所述当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比的步骤之前包括:
当接收到对词语进行匹配的触发请求时,读取所述触发请求中的标准库识别码;
将所述标准库识别码和预设标识码对比,确定各所述预设标识码中与所述标准库识别码对应的目标预设标识码,并将与所述目标预设标识码对应的标准库确定为预设标准库。
8.一种词语匹配装置,其特征在于,所述词语匹配装置包括:
调用模块,用于当接收到待匹配词语时,调用预设标准库中的各分词和所述待匹配词语进行对比,生成第一对比结果;
读取模块,用于逐一读取所述预设标准库中的各标准词,并调用各所述分词和各所述标准词进行对比,生成各第二对比结果;
匹配模块,用于根据所述第一对比结果和各所述第二对比结果,确定与所述待匹配词语匹配的目标标准词,完成所述待匹配词语的匹配。
9.一种词语匹配设备,其特征在于,所述词语匹配设备包括:存储器、处理器、通信总线以及存储在所述存储器上的词语匹配程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述词语匹配程序,以实现如权利要求1-7中任一项所述的词语匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有词语匹配程序,所述词语匹配程序被处理器执行时实现如权利要求1-7中任一项所述的词语匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811463863.7A CN109753555B (zh) | 2018-11-30 | 2018-11-30 | 词语匹配方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811463863.7A CN109753555B (zh) | 2018-11-30 | 2018-11-30 | 词语匹配方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109753555A true CN109753555A (zh) | 2019-05-14 |
CN109753555B CN109753555B (zh) | 2023-07-07 |
Family
ID=66403480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811463863.7A Active CN109753555B (zh) | 2018-11-30 | 2018-11-30 | 词语匹配方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753555B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717158A (zh) * | 2019-09-06 | 2020-01-21 | 平安普惠企业管理有限公司 | 信息验证方法、装置、设备及计算机可读存储介质 |
CN111159977A (zh) * | 2020-04-07 | 2020-05-15 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN111859972A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
CN112507107A (zh) * | 2019-09-16 | 2021-03-16 | 深圳中兴网信科技有限公司 | 术语匹配方法、装置、终端和计算机可读存储介质 |
CN115859965A (zh) * | 2023-02-24 | 2023-03-28 | 北京广联达天下科技有限公司 | 一种基于数据对照的企业资产处理方法、系统、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722498A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN102760134A (zh) * | 2011-04-28 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种同义词的挖掘方法和装置 |
CN106598953A (zh) * | 2016-12-28 | 2017-04-26 | 上海博辕信息技术服务有限公司 | 地址解析方法及装置 |
-
2018
- 2018-11-30 CN CN201811463863.7A patent/CN109753555B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722498A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN102760134A (zh) * | 2011-04-28 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种同义词的挖掘方法和装置 |
CN106598953A (zh) * | 2016-12-28 | 2017-04-26 | 上海博辕信息技术服务有限公司 | 地址解析方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717158A (zh) * | 2019-09-06 | 2020-01-21 | 平安普惠企业管理有限公司 | 信息验证方法、装置、设备及计算机可读存储介质 |
CN110717158B (zh) * | 2019-09-06 | 2024-03-01 | 冉维印 | 信息验证方法、装置、设备及计算机可读存储介质 |
CN112507107A (zh) * | 2019-09-16 | 2021-03-16 | 深圳中兴网信科技有限公司 | 术语匹配方法、装置、终端和计算机可读存储介质 |
WO2021051763A1 (zh) * | 2019-09-16 | 2021-03-25 | 深圳中兴网信科技有限公司 | 术语匹配方法、装置、终端和计算机可读存储介质 |
CN111159977A (zh) * | 2020-04-07 | 2020-05-15 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
CN111159977B (zh) * | 2020-04-07 | 2020-09-08 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及装置 |
WO2021203694A1 (zh) * | 2020-04-07 | 2021-10-14 | 深圳华大基因科技服务有限公司 | 一种人类表型标准用语确定方法及相关设备 |
AU2020441876B2 (en) * | 2020-04-07 | 2023-06-15 | Bgi Genomics Co., Ltd | Method for determining human phenotype ontology, and related devices |
IL288616B1 (en) * | 2020-04-07 | 2023-08-01 | Bgi Genomics Co Ltd | A method for determining a human phenotype ontology, and related devices |
CN111859972A (zh) * | 2020-07-28 | 2020-10-30 | 平安科技(深圳)有限公司 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
CN111859972B (zh) * | 2020-07-28 | 2024-03-15 | 平安科技(深圳)有限公司 | 实体识别方法、装置、计算机设备及计算机可读存储介质 |
CN115859965A (zh) * | 2023-02-24 | 2023-03-28 | 北京广联达天下科技有限公司 | 一种基于数据对照的企业资产处理方法、系统、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109753555B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753555A (zh) | 词语匹配方法、装置、设备及计算机可读存储介质 | |
CN109785919B (zh) | 名词匹配方法、装置、设备及计算机可读存储介质 | |
CN101996117B (zh) | 计算机测试系统及方法 | |
WO2015131804A1 (en) | Call stack relationship acquiring method and apparatus | |
US20180253230A1 (en) | Secure data entry via a virtual keyboard | |
US20100312541A1 (en) | Program test device and program | |
CN110515755A (zh) | 接口功能验证方法、装置、设备及计算机可读存储介质 | |
CN109784339A (zh) | 图片识别测试方法、装置、计算机设备及存储介质 | |
CN103593575B (zh) | 医嘱提醒方法和医嘱提醒系统 | |
CN111475494A (zh) | 一种海量数据处理方法、系统、终端及存储介质 | |
CN110362416B (zh) | 页面组件加载方法及装置、电子设备、存储介质 | |
CN109753648B (zh) | 词链模型的生成方法、装置、设备及计算机可读存储介质 | |
CN111949470A (zh) | 一种芯片验证方法、装置、电子设备及存储介质 | |
US10324822B1 (en) | Data analytics in a software development cycle | |
CN111352997A (zh) | 一种测试环境校验方法及系统 | |
CN110502513A (zh) | 数据采集方法、装置、设备及计算机可读存储介质 | |
CN116089256B (zh) | 终端测试方法、装置及存储介质 | |
CN111638439A (zh) | 通信模块测试方法、装置、计算机设备和存储介质 | |
CN109598378A (zh) | 医保费用预测方法、装置、设备及计算机可读存储介质 | |
CN112363875B (zh) | 一种系统缺陷检测方法、设备、电子设备和存储介质 | |
CN111931161B (zh) | 基于risc-v处理器的芯片验证方法、设备及存储介质 | |
CN109766539B (zh) | 标准词库分词方法、装置、设备及计算机可读存储介质 | |
US9824175B1 (en) | Method and system of evaluation of validity of a refinement rule for a hardware emulation | |
CN112035617A (zh) | 基于数据比对的系统测试方法、装置、计算机设备和介质 | |
CN108235324B (zh) | 一种短信模板的测试方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |