CN109753648B - 词链模型的生成方法、装置、设备及计算机可读存储介质 - Google Patents
词链模型的生成方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109753648B CN109753648B CN201811462225.3A CN201811462225A CN109753648B CN 109753648 B CN109753648 B CN 109753648B CN 201811462225 A CN201811462225 A CN 201811462225A CN 109753648 B CN109753648 B CN 109753648B
- Authority
- CN
- China
- Prior art keywords
- word
- standard
- target
- level
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种词链模型的生成方法、装置、设备及计算机可读存储介质,所述方法包括:读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。本方案将标准词依据划分的标准分词形成词链模型,通过词链模型中各标准分词之间的相关性实现对非标准词的匹配,简化了匹配操作,同时提高匹配的效率以及自动化程度。
Description
技术领域
本发明主要涉及数据处理技术领域,具体地说,涉及一种词链模型的生成方法、装置、设备及计算机可读存储介质。
背景技术
医药领域中涉及到众多表征疾病名称、药品名称、诊断手段的标准词,而市面上也涉及到多种表征标准词的非标准词;为了规范化管理,通常需要为各非标准词匹配对应的标准词;在匹配前将各标准词划分为各个分词,而通过各个分词实现对非标准词的匹配。
在用各标准词的分词为非标准词匹配对应的标准词时,匹配的准确性与分词结果相关;因非标准词的形式多种多样,而分词的形式较为固定,使得在匹配的过程中需要针对不同的非标准词调整分词结果,来确保匹配的准确性。此调整的过程增加了匹配的复杂性,降低了匹配效率,匹配的自动化程度低。
发明内容
本发明的主要目的是提供一种词链模型的生成方法、装置、设备及计算机可读存储介质,旨在解决现有技术中通过调整分词结果来对非匹配词进行匹配,导致匹配过程复杂,匹配效率低的问题。
为实现上述目的,本发明提供一种词链模型的生成方法,所述词链模型的生成方法包括以下步骤:
读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。
优选地,所述根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型的步骤包括:
将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;
统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型。
优选地,所述将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合的步骤包括:
读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;
判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;
若各所述目标汉字在各层级上均形成所述字链集合,则将各所述字链集合确定为所述标准词在各层级上的分词集合。
优选地,所述根据所述分词集合,形成所述标准词的词链模型的步骤包括:
将所述标准词和各层级上分词集合中的目标标准分词对比,从各层级上的分词集合中确定包括各个数量所述目标汉字的目标分词集合;
当所述目标分词集合中的目标标准分词包括所述目标汉字的数量和所述标准词中汉字数量一致时,将各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
优选地,所述将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型的步骤之后包括:
判断所述目标汉字中是否存在重复汉字,若存在所述重复汉字,则对存在所述重复汉字的所述目标汉字,在各层级上字链模型中的目标标准分词设置字链权重。
优选地,所述将各所述目标分词集合形成所述标准词在各所述层级上的词链模型的步骤包括:
检测各所述目标分词集合中是否包括携带有预设权重标识符的权重标准分词,若包括携带有预设权重标识符的权重标准分词,则读取与所述预设权重标识符对应的字链权重;
将对应的所述字链权重添加到各所述目标分词集合中的权重标准分词上,并将经添加所述字链权重后的各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
优选地,所述形成所述标准词的词链模型的步骤之后包括:
对所述标准词添加完成标识符,并判断所述预设标准词库中的标准词是否均携带所述完成标识符;
若均携带所述完成标识符,则完成所述预设标准词库中各所述标准词的词链模型的生成;
若不均携带所述完成标识符,执行读取预设标准词库中的标准词以及与所述标准词对应的各目标分词的步骤,且所读取的标准词为不携带完成标识符的标准词。
此外,为实现上述目的,本发明还提出一种词链模型的生成装置,所述词链模型的生成装置包括:
拆分模块,用于读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
确定模块,用于根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
生成模块,用于将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。
此外,为实现上述目的,本发明还提出一种词链模型的生成设备,所述词链模型的生成设备包括:存储器、处理器、通信总线以及存储在所述存储器上的词链模型的生成程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述词链模型的生成程序,以实现以下步骤:
读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:
读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。
本实施例的词链模型的生成方法,通过读取预设标准词库中的标准词,以及与标准词对应的各目标分词,并将各目标分词拆分为单个的目标汉字;进而由预设标准词库中的各标准分词,确定各目标汉字在各层级上的字链模型;再将各目标汉字在各层级上的字链模型进行合并操作,生成标准词在各层级上的分词集合,实现由该分词集合形成标准词的词链模型。词链模型表征了标准词中各目标汉字与各标准分词之间的相关性,通过词链模型中各标准分词之间的相关性实现对非标准词的匹配,避免了对标准库中分词结果的调整,可简化匹配操作,同时提高匹配的效率以及自动化程度。
附图说明
图1是本发明的词链模型的生成方法第一实施例的流程示意图;
图2是本发明的词链模型的生成装置第一实施例的功能模块示意图;
图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种词链模型的生成方法。
请参照图1,图1为本发明词链模型的生成方法第一实施例的流程示意图。在本实施例中,所述词链模型的生成方法包括:
步骤S10,读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
本发明的词链模型的生成方法应用于服务器,适用于通过服务器对标准词库中的各个标准词生成词链模型;该标准词库为各种领域中的标准词所形成的集合,一个标准词库对应一个领域中一类标准词。本实施例以医药领域中的标准词库进行说明,医药领域中的标准词库包括但不限于ICD10诊断编码库、ICD9-CM手术操作编码库和药品ATC编码库,也可以由医疗机构根据需求建立标准词库。将需要生成词链模型的标准词库作为预设标准词库,预设标准词库中包括多个需要生成词链模型的标准词,各标准词预先划分为具有不同长度的标准分词;如标准词“高血压性心脏病心力衰竭”所划分的标准分词“高血压性”、“心脏病”和“心力衰竭”。服务器对预设标准词库中的标准词进行读取,同时读取与该标准词对应的目标分词,该目标分词为预设标准词库中预先对读取的标准词进行划分所得到的各个标准分词。将该读取的各目标分词进行拆分,得到单个的目标汉字;其中拆分的方式可以是顺序拆分、倒序拆分或随机拆分等;顺序拆分为按照汉字在各目标分词中的排列顺序进行拆分,倒序拆分为按照汉字在各目标分词中排列顺序的倒序进行拆分,随机拆分为将各目标分词中的汉字以随机的方式进行拆分。
步骤S20,根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
进一步地,在对标准词的各目标分词进行拆分,得到各目标汉字后;可依据预设标准词库中所包括的各标准分词,确定各目标汉字在各层级上的字链模型。字链模型表征预设标准词库中与各目标汉字具有相关性的标准分词集合,层级表征标准词中汉字的数量,一个汉字对应层级一,两个汉字对应层级二,依次进行类推。目标汉字在各层级上的字链模型其实质为由各个数量的汉字所组成的与目标汉字具有相关性的标准分词集合,其中相关性表征的是标准分词中携带有目标汉字;如目标汉字在层级二上的字链模型即为由两个汉字组成的标准分词所形成的集合,且该集合中所包括的标准分词均携带有目标汉字;若目标汉字“心”在层级二上的字链模型为“心脏”、“心肌”、“心率”、“心绞”等。因不同层级具有不同的汉字数量,在形成各层级上的字链模型时,需要依据标准词中汉字的数量进行;具体的,根据预设标准词库中的各标准分词,确定各目标汉字在各层级上的字链模型的步骤包括:
步骤S21,将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;
为了确定预设标准词库中具有各目标汉字的标准分词,将各目标汉字和各标准分词进行对比,确定各标准分词中包含各目标汉字的目标标准分词。因涉及到的目标汉字有多个,需要将各个目标汉字逐一和各标准分词对比,而确定与各个目标汉字分别对应的目标标准分词。如对于目标分词“心脏病”所划分的目标汉字“心”、“脏”和“病”,经对比确定包含“心”的目标标准分词为:心脏、心率、心悸、心脏病、心绞痛、冠心病,包含“脏”的目标标准分词为:心脏、脏腑、肝脏、心脏病、肝脏瘤、脾脏炎,包含“病”的目标标准分词为:心病、胃病、疾病、病毒、心脏病、精神病、白化病。
步骤S22,统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型。
可理解地,因各目标汉字在各层级上的字链模型依据层级,即不同的字数进行划分,而经对比所确定的用于形成字链模型的目标标准分词涉及到不同的字数;从而需要依据各目标标准分词中所包含的字数,形成目标汉字在各层级上的字链模型。具体地,先对各目标标准分词中所包括的汉字个数进行计数统计,再将具有相同汉字个数的目标标准分词划分到一个组类,形成目标汉字在该相同汉字个数所表征层级上的字链模型。如对于上述目标汉字“心”,其目标标准分词包括心脏、心率、心悸、心脏病、心绞痛、冠心病,经统计其中心脏、心率、心悸的汉字个数为2,而心脏病、心绞痛、冠心病的汉字个数为3;从而将心脏、心率、心悸形成“心”在层级二上的字链模型,而将心脏病、心绞痛、冠心病形成“心”在层级三上的字链模型。当将各目标标准分词中具有各个汉字个数的目标标准分词均划分到不同组类,而形成各目标汉字在各层级上的字链模型之后,则完成对目标汉字的字链模型的生成,而可由该字链模型进一步生成标准词的词链模型,以通过词链模型实现非标准词的匹配。
步骤S30,将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。
进一步地,标准词的词链模型为包括标准词中至少两个汉字的标准分词集合,其中标准分词中所包括标准词汉字的个数,表征了词链模型的层级;如标准分词所形成的集合中,各标准分词包括标准词中的两个汉字,则说明该集合为标准词在层级二上的词链模型;而当各标准分词包括标准词中的三个汉字,则说明该集合为标准词在层级三上的词链模型。因生成的标准词中各目标汉字在各层级上的字链模型,各目标汉字所对应的字链模型中均包括各目标汉字本身;而各个目标汉字来源于标准词所划分的目标分词,使得标准词由各个目标汉字组成。从而可由标准词中各目标汉字在各层级上所对应的字链模型,来生成标准词在各层级上的词链模型;当目标汉字在层级二上的字链模型中存在某一个目标标准分词除了包含该目标汉字之外,包含的另一个汉字也存在于标准词中,则可判定该目标标准分词可用于形成标准词在层级二上的词链模型。如标准词“心脏病”,其中目标汉字“心”在层级二上的目标标准分词“心病”;因“病”为存在于标准词“心脏病”中的汉字,而可将“心病”用于形成标准词的词链模型。因标准词中不同目标汉字所对应的字链模型不一样,先对各字链模型进行合并操作,且合并依据层级关系进行,即将相同层级上的各字链模型进行合并,以形成标准词在各个层级上的词链模型。具体地,将各目标汉字在各层级上的字链模型进行合并,生成标准词在各层级上的分词集合的步骤包括:
步骤S31,读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;
依据层级的关系,读取标准词中所具有的目标汉字在各个相同层级上所生成的字链模型;如标准词“高血压”中目标汉字“高”、“血”、“压”所生成的词链模型包括P1、P2、P3、W1、W2和W3,其中P1、P2和P3为在层级二上的字链模型,而W1、W2和W3为在层级三上的字链模型;则读取三者在同一层级二上的字链模型P1、P2、P3,以及在同一层级三上的字链模型W1、W2、W3。将读取的各个在同一层级上的字链模型作为目标字链模型,并对各个目标字链模型进行合并操作;将各目标字链模型中所包括的目标标准分词合并成为目标标准分词集,并将该目标标准分词集作为字链集合。
步骤S32,判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;
因不同的目标字链模型中所包括的目标标准分词可能存在重复的情况,如目标汉字“心”对应的目标字链模型中包括目标标准分词“心脏”,而目标汉字“脏”对应的目标字链模型中也包括目标标准分词“心脏”;使得由各目标标准分词合并所形成的字链集合中存在重复的目标标准分词。对经合并的字链集合进行重复性检测,判断字链集合中是否存在重复的目标标准分词;若存在重复的目标标准分词,则将该重复的目标标准分词删除,以确保字链模型中各目标标准分词的唯一性。同时检测各目标汉字在各个层级上是否均生成字链集合,以确保对各层级上的目标字链模型均进行了合并操作。
步骤S33,若各所述目标汉字在各层级上均形成所述字链集合,则将各所述字链集合确定为所述标准词在各层级上的分词集合。
当判断出对各目标汉字在各层级上的目标字链模型均进行合并操作,而生成目标汉字在各层级上的字链集合后;该各个字链集合表征了以标准词中所包括汉字数量为最大层级,生成了包括各个汉字数量的字链集合,且各个字链集合均涉及到标准词中的目标汉字;从而将该各个字链集合确定为标准词在各个层级上的分词集合,进而由分词集合对应的各目标标准分词中所涉及到目标汉字的数量,来形成标准词在各层级上的词链模型。如形成分词集合的字链集合中包括目标标准分词“糖尿病”,而对于标准词“胰岛素依赖型糖尿病”,其涉及到目标汉字的数量为三个,则可将“糖尿病”形成“胰岛素依赖型糖尿病”在层级三上的词链模型,以依据分词集合中所包括的各个目标标准分词来形成标准词在各层级上的词链模型。具体地,根据分词集合,形成标准词的词链模型的步骤包括:
步骤S34,将所述标准词和各层级上分词集合中的目标标准分词对比,从各层级上的分词集合中确定包括各个数量所述目标汉字的目标分词集合;
更进一步地,将标准词和各层级上分词集合中的目标标准分词进行对比,确定各分词集合中包括各个数量目标汉字的目标分词集合,即该目标分词集合中的目标标准分词包含有标准词中各个数量的目标汉字。如对于标准词“心脏病”,目标汉字“心”在层级二上的字链模型为心脏、心率、心悸,在层级三上的字链模型为心脏病、心绞痛、冠心病;目标汉字“脏”在层级二上的字链模型为心脏、脏腑、肝脏,在层级三上的字链模型为心脏病、肝脏瘤、脾脏炎;目标汉字“病”在层级二上的字链模型为心病、胃病、疾病、病毒,在层级三上的字链模型为心脏病、精神病、白化病;对该各个字链模型进行合并,生成在层级二上的分词集合:心脏、心率、心悸、脏腑、肝脏、心病、胃病、疾病、病毒,在层级三上的分词集合:心脏病、心绞痛、冠心病、肝脏瘤、脾脏炎、精神病、白化病;将标准词“心脏病”和各层级上的分词集合对比,确定包括标准词中两个目标汉字的目标分词集合“心脏、心病”,以及包括标准词中三个目标汉字的目标分词集合“心脏病”。
步骤S35,当所述目标分词集合中的目标标准分词包括所述目标汉字的数量和所述标准词中汉字数量一致时,将各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
可理解地,因标准词中所包含的目标汉字的数量一定,形成目标分词集合中各目标标准分词的汉字个数不会超过该标准词的目标汉字的数量;在从各层级上的分词集合中确定目标分词集合时,需要统计形成的目标分词集合中目标标准分词所包含的目标汉字数量,并将统计的各目标汉字数量和标准词中所具有的汉字数量对比,判断两者是否一致;当两者一致时,则判定目标分词集合形成完成,而当两者不一致时,则判定目标分词集合尚未形成完成,继续将各标准词和各层级上分词集合中的目标标准分词对比,以确定目标分词集合。如对于上述标准词“心脏病”,目标分词集合“心脏、心病”中目标标准分词包括目标汉字的数量为二,与标准词“心脏病”的汉字数量三不一致,目标分词集合尚未形成完成;而目标分词集合“心脏病”中目标标准分词包括的目标汉字数量为三,与标准词“心脏病”的汉字数量三一致,目标分词集合形成完成。也可以预先设定所形成目标分词集合中目标标准分词所包括目标汉字的数量,如设定目标分词集合中目标标准分词所包括目标汉字的数量为标准词中汉字数量减一,若标准词中的汉字数量为5,则可设定目标分词集合中目标标准分词所包括目标汉字的数量为4;具体地,目标分词集合中目标标准分词所包括目标汉字的数量可根据实际需求进行设定。在目标分词集合形成完成后,所形成的包含各个数量目标汉字的目标分词集合,表征了标准词在各个层级上的分词集合,即在各层级上的词链模型;将各个目标分词集合作为标准词在各层级上的词链模型,一个目标分词集合对应一个层级上的词链模型,且各目标分词集合中目标标准分词的字数和层级的级数一致。
本实施例的词链模型的生成方法,通过读取预设标准词库中的标准词,以及与标准词对应的各目标分词,并将各目标分词拆分为单个的目标汉字;进而由预设标准词库中的各标准分词,确定各目标汉字在各层级上的字链模型;再将各目标汉字在各层级上的字链模型进行合并操作,生成标准词在各层级上的分词集合,实现由该分词集合形成标准词的词链模型。词链模型表征了标准词中各目标汉字与各标准分词之间的相关性,通过词链模型中各标准分词之间的相关性实现对非标准词的匹配,避免了对标准库中分词结果的调整,可简化匹配操作,同时提高匹配的效率以及自动化程度。
进一步地,在本发明词链模型的生成方法的另一实施例中,所述将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型的步骤之后包括:
步骤S23,判断所述目标汉字中是否存在重复汉字,若存在所述重复汉字,则对存在所述重复汉字的所述目标汉字,在各层级上字链模型中的目标标准分词设置字链权重。
可理解地,各标准词所划分的标准分词中可能涉及到重复的汉字,如标准分词“冠心病伴心肌缺血”中的汉字“心”;针对该类具有重复汉字的标准词,在形成字链模型时,设置有对重复汉字分配权重的机制,以表征该重复汉字在标准词中所出现的重要程度。具体地,在将与读取的标准词对应的目标分词划分为目标汉字,并将各目标标准分词形成目标汉字在各层级上的字链模型之后,判断划分的各目标汉字中是否存在重复的汉字;若存在重复的汉字,则针对该重复的目标汉字,在形成其各层级上字链模型中的目标标准分词设置字链权重。如对于上述标准分词“冠心病伴心肌缺血”,各目标汉字中存在重复汉字“心”,若形成“心”在层级二上字链模型的目标标准分词为心脏、心率、心悸,而在层级三上字链模型的目标标准分词为心脏病、心绞痛;则对目标标准分词心脏、心率、心悸,以及心脏病、心绞痛均设置字链权重。其中字链权重为预先设置的数值,如2、√2等。
进一步地,因词链模型由字链模型形成而来,在对存在重复汉字的目标汉字在各层级上字链模型中的目标标准分词设置字链权重,对该目标汉字所具有字链模型的字链权重进行更新后;由该字链模型所形成的词链模型需要对应的进行字链权重的更新。具体地,将各目标分词集合形成标准词在各层级上的词链模型的步骤包括:
步骤S351,检测各所述目标分词集合中是否包括携带有预设权重标识符的权重标准分词,若包括携带有预设权重标识符的权重标准分词,则读取与所述预设权重标识符对应的字链权重;
在目标分词集合形成完成,而将各目标分词集合形成标准词在各层级上的词链模型时,先判断所形成的各目标分词集合中是否包括携带有预设权重标识符的权重标准分词;其中预设权重标识符为预先设定用于表征字链模型进行了权重调整更新操作的标识符,而权重标准分词表征携带有预设权重标识符的目标标准分词。当字链模型所对应的目标汉字为重复汉字,而需要对该字链模型进行权重调整时,则对该字链模型配置预先设置的预设权重标识符;该预设权重标识符与字链权重具有对应关系,通过该对应关系来表征为字链模型所配置的字链权重大小。针对字链模型所配置的预设权重标识符,其实质为字链模型的目标标准分词配置预设权重标识符,即字链模型中的各目标标准分词均携带有该预设权重标识符;将该携带有预设权重标识符的目标标准分词作为权重标准分词,为各权重标准分词建立预设权重标识符与字链权重之间的对应关系。当各目标标准分词集合中包括携带有预设权重标识符的权重标准分词时,则根据预设权重标识符与字链权重之间的对应关系,读取与该携带的预设权重标识符所对应的字链权重,以依据该读取的字链权重为形成的词链模型进行权重更新。
步骤S352,将对应的所述字链权重添加到各所述目标分词集合中的权重标准分词上,并将经添加所述字链权重后的各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
更进一步地,在读取到与预设权重标识符对应的字链权重之后,将该读取的字链权重添加到目标分词集合中具有预设权重标识符的权重标准分词上,并将各经字链权重添加操作的目标分词集合形成各标准词在各层级上的词链模型。如对于上述目标标准分词心脏、心率、心悸,以及心脏病、心绞痛均设置字链权重,若其中所携带的预设权重标识符为f1,而与f1对应的字链权重为√2;则对于包含两个目标汉字的目标分词集合“心脏、心病”,以及包含三个目标汉字的目标分词集合“心脏病”中均包括携带有预设权重标识符f1的权重标准分词“心脏”和“心脏病”,且读取对应的字链权重√2;对包含两个目标汉字的目标分词集合中的“心脏”以及包含三个目标汉字的目标分词集合中的“心脏病”均添加字链权重√2。将经添加字链权重的包含两个目标汉字的目标分词集合作为标准词在层级二上的词链模型,而将经添加字链权重的包含三个目标汉字的目标分词集合作为标准词在层级三上的词链模型,实现将包含各个目标汉字的的目标分词集合形成标准词在各个层级上的词链模型;通过携带有字链权重的词链模型为各非标准词匹配对应的标准词,可提高匹配的准确性。
进一步地,在本发明词链模型的生成方法的另一实施例中,所述形成所述标准词的词链模型的步骤之后包括:
步骤S50,对所述标准词添加完成标识符,并判断所述预设标准词库中的标准词是否均携带所述完成标识符;
步骤S60,若均携带所述完成标识符,则完成所述预设标准词库中各所述标准词的词链模型的生成;
步骤S70,若不均携带所述完成标识符,执行读取预设标准词库中的标准词以及与所述标准词对应的各目标分词的步骤,且所读取的标准词为不携带完成标识符的标准词。
可理解地,预设标准词库中涉及到多个标准词,对各个标准词逐一进行读取并形成词链模型,当读取的标准词形成词链模型后,对该标准词添加完成标识符,以表征对该标准词形成了词链模型。判断预设标准词库中的标准词是否均携带有完成标识符,即各个标准词均形成了词链模型;若各个标准词均携带有完成标识符,则说明各个标准词均形成了词链模型,而完成预设标准词库中各标准词的词链模型的生成。而当判断出各标准词不均携带有完成标识符,则说明预设标准词库中有部分标准词尚未形成词链模型,则执行读取预设标准词库中的标准词以及与所述标准词对应的各目标分词的步骤;该读取的标准词为预设标准词库中不携带有完成标识符的标准词,以对预设标准词库中尚未形成词链模型的标准词形成词链模型。
此外,请参照图2,本发明提供一种词链模型的生成装置,在本发明词链模型的生成装置第一实施例中,所述词链模型的生成装置包括:
拆分模块10,用于读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
确定模块20,用于根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
生成模块30,用于将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型。
本实施例的词链模型的生成装置,通过拆分模块10读取预设标准词库中的标准词,以及与标准词对应的各目标分词,并将各目标分词拆分为单个的目标汉字;进而确定模块20由预设标准词库中的各标准分词,确定各目标汉字在各层级上的字链模型;生成模块30再将各目标汉字在各层级上的字链模型进行合并操作,生成标准词在各层级上的分词集合,实现由该分词集合形成标准词的词链模型。词链模型表征了标准词中各目标汉字与各标准分词之间的相关性,通过词链模型中各标准分词之间的相关性实现对非标准词的匹配,避免了对标准库中分词结果的调整,可简化匹配操作,同时提高匹配的效率以及自动化程度。
进一步地,在本发明词链模型的生成装置另一实施例中,所述确定模块包括:
第一对比单元,用于将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;
统计单元,用于统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型。
进一步地,在本发明词链模型的生成装置另一实施例中,所述生成模块还包括:
读取单元,用于读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;
判断单元,用于判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;
确定单元,用于若各所述目标汉字在各层级上均形成所述字链集合,则将各所述字链集合确定为所述标准词在各层级上的分词集合。
进一步地,在本发明词链模型的生成装置另一实施例中,所述生成模块还包括:
第二对比单元,用于将所述标准词和各层级上分词集合中的目标标准分词对比,从各层级上的分词集合中确定包括各个数量所述目标汉字的目标分词集合;
生成单元,用于当所述目标分词集合中的目标标准分词包括所述目标汉字的数量和所述标准词中汉字数量一致时,将各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
进一步地,在本发明词链模型的生成装置另一实施例中,所述确定模块还包括:
设置单元,用于判断所述目标汉字中是否存在重复汉字,若存在所述重复汉字,则对存在所述重复汉字的所述目标汉字,在各层级上字链模型中的目标标准分词设置字链权重。
进一步地,在本发明词链模型的生成装置另一实施例中,所述生成单元还用于:
检测各所述目标分词集合中是否包括携带有预设权重标识符的权重标准分词,若包括携带有预设权重标识符的权重标准分词,则读取与所述预设权重标识符对应的字链权重;
将对应的所述字链权重添加到各所述目标分词集合中的权重标准分词上,并将经添加所述字链权重后的各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
进一步地,在本发明词链模型的生成装置另一实施例中,所述词链模型的生成装置还包括:
添加模块,用于对所述标准词添加完成标识符,并判断所述预设标准词库中的标准词是否均携带所述完成标识符;
完成模块,用于若均携带所述完成标识符,则完成所述预设标准词库中各所述标准词的词链模型的生成;
执行模块,用于若不均携带所述完成标识符,执行读取预设标准词库中的标准词以及与所述标准词对应的各目标分词的步骤,且所读取的标准词为不携带完成标识符的标准词。
其中,上述词链模型的生成装置的各虚拟功能模块存储于图3所示词链模型的生成设备的存储器1005中,处理器1001执行词链模型的生成程序时,实现图2所示实施例中各个模块的功能。
参照图3,图3是本发明实施例方法涉及的硬件运行环境的设备结构示意图。
本发明实施例词链模型的生成设备可以是PC(personal computer,个人计算机),也可以是智能手机、平板电脑、电子书阅读器、便携计算机等终端设备。
如图3所示,该词链模型的生成设备可以包括:处理器1001,例如CPU(CentralProcessing Unit,中央处理器),存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM(random accessmemory,随机存取存储器),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,该词链模型的生成设备还可以包括用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi(Wireless Fidelity,无线宽带)模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的词链模型的生成设备结构并不构成对词链模型的生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及词链模型的生成程序。操作系统是管理和控制词链模型的生成设备硬件和软件资源的程序,支持词链模型的生成程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与词链模型的生成设备中其它硬件和软件之间通信。
在图3所示的词链模型的生成设备中,处理器1001用于执行存储器1005中存储的词链模型的生成程序,实现上述词链模型的生成方法各实施例中的步骤。
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述词链模型的生成方法各实施例中的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (8)
1.一种词链模型的生成方法,其特征在于,所述词链模型的生成方法包括以下步骤:
读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型;
所述根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型的步骤包括:
将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;
统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型;
所述将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合的步骤包括:
读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;
判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;
若各所述目标汉字在各层级上均形成所述字链集合,则将各所述字链集合确定为所述标准词在各层级上的分词集合。
2.如权利要求1所述的词链模型的生成方法,其特征在于,所述根据所述分词集合,形成所述标准词的词链模型的步骤包括:
将所述标准词和各层级上分词集合中的目标标准分词对比,从各层级上的分词集合中确定包括各个数量所述目标汉字的目标分词集合;
当所述目标分词集合中的目标标准分词包括所述目标汉字的数量和所述标准词中汉字数量一致时,将各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
3.如权利要求2所述的词链模型的生成方法,其特征在于,所述将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型的步骤之后包括:
判断所述目标汉字中是否存在重复汉字,若存在所述重复汉字,则对存在所述重复汉字的所述目标汉字,在各层级上字链模型中的目标标准分词设置字链权重。
4.如权利要求3所述的词链模型的生成方法,其特征在于,所述将各所述目标分词集合形成所述标准词在各所述层级上的词链模型的步骤包括:
检测各所述目标分词集合中是否包括携带有预设权重标识符的权重标准分词,若包括携带有预设权重标识符的权重标准分词,则读取与所述预设权重标识符对应的字链权重;
将对应的所述字链权重添加到各所述目标分词集合中的权重标准分词上,并将经添加所述字链权重后的各所述目标分词集合形成所述标准词在各所述层级上的词链模型。
5.如权利要求1-4任一项所述的词链模型的生成方法,其特征在于,所述形成所述标准词的词链模型的步骤之后包括:
对所述标准词添加完成标识符,并判断所述预设标准词库中的标准词是否均携带所述完成标识符;
若均携带所述完成标识符,则完成所述预设标准词库中各所述标准词的词链模型的生成;
若不均携带所述完成标识符,执行读取预设标准词库中的标准词以及与所述标准词对应的各目标分词的步骤,且所读取的标准词为不携带完成标识符的标准词。
6.一种词链模型的生成装置,其特征在于,所述词链模型的生成装置包括:
拆分模块,用于读取预设标准词库中的标准词以及与所述标准词对应的各目标分词,将各所述目标分词拆分为单个的目标汉字;
确定模块,用于根据所述预设标准词库中的各标准分词,确定各所述目标汉字在各层级上的字链模型,其中所述层级的级数与所述标准词中汉字的数量对应;
生成模块,用于将各所述目标汉字在各层级上的字链模型进行合并,生成所述标准词在各层级上的分词集合,并根据所述分词集合,形成所述标准词的词链模型;
所述确定模块包括对比单元及统计单元,所述对比单元用于将各所述目标汉字和各所述标准分词对比,确定包含各所述目标汉字的目标标准分词;所述统计单元用于统计各所述目标标准分词中所包括的汉字个数,将具有相同所述汉字个数的各目标标准分词形成各所述目标汉字在各层级上的字链模型;
所述生成模块包括合并单元、判断单元以及确定单元,所述合并单元用于读取各所述目标汉字所生成的各所述字链模型中在同一层级上的目标字链模型,并将各所述目标字链模型中所具有的所述目标标准分词进行合并,形成字链集合;所述判断单元用于判断所述字链集合中是否存在重复的所述目标标准分词,若存在重复的所述目标标准分词,则将重复的所述目标标准分词从所述字链集合中删除,并检测各所述目标汉字在各层级上是否均形成所述字链集合;若各所述目标汉字在各层级上均形成所述字链集合,则所述确定单元用于将各所述字链集合确定为所述标准词在各层级上的分词集合。
7.一种词链模型的生成设备,其特征在于,所述词链模型的生成设备包括:存储器、处理器、通信总线以及存储在所述存储器上的词链模型的生成程序;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述词链模型的生成程序,以实现如权利要求1-5中任一项所述的词链模型的生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有词链模型的生成程序,所述词链模型的生成程序被处理器执行时实现如权利要求1-5中任一项所述的词链模型的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811462225.3A CN109753648B (zh) | 2018-11-30 | 2018-11-30 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811462225.3A CN109753648B (zh) | 2018-11-30 | 2018-11-30 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109753648A CN109753648A (zh) | 2019-05-14 |
CN109753648B true CN109753648B (zh) | 2022-12-20 |
Family
ID=66403471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811462225.3A Active CN109753648B (zh) | 2018-11-30 | 2018-11-30 | 词链模型的生成方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109753648B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021227059A1 (zh) | 2020-05-15 | 2021-11-18 | 深圳市世强元件网络有限公司 | 一种基于多叉树的搜索词推荐方法及系统 |
CN111737986A (zh) * | 2020-05-15 | 2020-10-02 | 深圳市世强元件网络有限公司 | 一种基于多叉树的搜索词推荐方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093478A (zh) * | 2007-07-25 | 2007-12-26 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及系统 |
CN101458694A (zh) * | 2008-10-09 | 2009-06-17 | 浙江大学 | 一种基于树形词库的中文分词方法 |
CN103678262A (zh) * | 2013-12-27 | 2014-03-26 | 中西亚通医疗信息科技(北京)有限公司 | 一种文本处理方法和文本处理装置 |
CN107526795A (zh) * | 2017-08-17 | 2017-12-29 | 晶赞广告(上海)有限公司 | 知识库的构建方法及装置、存储介质、计算设备 |
CN107784057A (zh) * | 2017-03-03 | 2018-03-09 | 平安医疗健康管理股份有限公司 | 医疗数据匹配方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5459214B2 (ja) * | 2008-08-20 | 2014-04-02 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
JP5986883B2 (ja) * | 2012-10-23 | 2016-09-06 | 日本電信電話株式会社 | 言語モデル評価方法とその装置とプログラム |
CN107220300B (zh) * | 2017-05-05 | 2018-07-20 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
CN107832291B (zh) * | 2017-10-26 | 2020-03-31 | 平安科技(深圳)有限公司 | 人机协作的客服方法、电子装置及存储介质 |
-
2018
- 2018-11-30 CN CN201811462225.3A patent/CN109753648B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093478A (zh) * | 2007-07-25 | 2007-12-26 | 中国科学院计算技术研究所 | 一种根据实体的汉语简称识别汉语全称的方法及系统 |
CN101458694A (zh) * | 2008-10-09 | 2009-06-17 | 浙江大学 | 一种基于树形词库的中文分词方法 |
CN103678262A (zh) * | 2013-12-27 | 2014-03-26 | 中西亚通医疗信息科技(北京)有限公司 | 一种文本处理方法和文本处理装置 |
CN107784057A (zh) * | 2017-03-03 | 2018-03-09 | 平安医疗健康管理股份有限公司 | 医疗数据匹配方法和装置 |
CN107526795A (zh) * | 2017-08-17 | 2017-12-29 | 晶赞广告(上海)有限公司 | 知识库的构建方法及装置、存储介质、计算设备 |
Non-Patent Citations (1)
Title |
---|
关于书面汉语中词链问题的分析和处理;黄祥喜;《情报科学》;19881031;第9卷(第5期);第28-35页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109753648A (zh) | 2019-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165249B (zh) | 数据处理模型构建方法、装置、服务器和用户端 | |
CN107908485B (zh) | 接口参数传递方法、装置、设备及计算机可读存储介质 | |
CN108459964B (zh) | 测试用例选择方法、装置、设备以及计算机可读存储介质 | |
US20220318945A1 (en) | Optimizing compilation of shaders | |
US10459704B2 (en) | Code relatives detection | |
CN109785919B (zh) | 名词匹配方法、装置、设备及计算机可读存储介质 | |
KR20150064063A (ko) | 컴퓨팅 장치의 보안 식별 및 보안 식별 방법 | |
WO2021217846A1 (zh) | 接口数据处理方法、装置、计算机设备和存储介质 | |
CN109753648B (zh) | 词链模型的生成方法、装置、设备及计算机可读存储介质 | |
CN107807841B (zh) | 服务器模拟方法、装置、设备及可读存储介质 | |
KR20230014802A (ko) | 지정 항목 추천 방법 | |
CN109829073B (zh) | 一种图像搜索的方法及装置 | |
CN112637008B (zh) | 链路模拟测试方法、装置、系统、计算机设备和存储介质 | |
CN110990008B (zh) | 更新页面的方法、装置、存储介质以及电子设备 | |
CN113782093B (zh) | 一种基因表达填充数据的获取方法及装置、存储介质 | |
CN109740074B (zh) | 参数配置信息的处理方法、装置及设备 | |
WO2023160001A1 (zh) | 算法应用元的运行框架和数据处理方法、设备、存储介质和计算机程序产品 | |
CN112988913B (zh) | 一种数据处理方法和相关装置 | |
CN109766539B (zh) | 标准词库分词方法、装置、设备及计算机可读存储介质 | |
CN112799955B (zh) | 模型变更的检测方法、装置和存储介质及电子设备 | |
CN112256252B (zh) | 接口生成方法、装置、存储介质及电子设备 | |
CN109460255B (zh) | 内存地址的查询方法及装置 | |
CN109150951B (zh) | Android系统Activity的启动方法和装置 | |
CN107122164B (zh) | 函数地址获取及应用其的方法、装置、设备及存储介质 | |
CN110427544B (zh) | 一种数据采集方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |