CN114020880B - 提取上位词的方法、系统、电子装置和存储介质 - Google Patents
提取上位词的方法、系统、电子装置和存储介质 Download PDFInfo
- Publication number
- CN114020880B CN114020880B CN202210007982.1A CN202210007982A CN114020880B CN 114020880 B CN114020880 B CN 114020880B CN 202210007982 A CN202210007982 A CN 202210007982A CN 114020880 B CN114020880 B CN 114020880B
- Authority
- CN
- China
- Prior art keywords
- word
- searched
- words
- hypernyms
- segmentation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims abstract description 67
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种提取上位词的方法、系统、电子装置和存储介质,通过获取待查词语,以及待查词语的知识库词条;在知识库词条中包含短解释的情况下,对短解释进行分词,获得第一分词结果;提取第一分词结果中最后一个名词,作为待查词语的上位词,由于知识库中几乎涵盖所有待查词语的词条,可以满足更广泛的中文上位词的查询需求,且知识库可以及时更新新词,可以满足对新词进行上位词查询的需要,解决了基于WordNet查询上位词,无法满足更广泛的中文上位词的查询需求,以及无法满足对新词进行上位词查询的需要的问题。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及提取上位词的方法、系统、电子装置和存储介质。
背景技术
随着网络技术的发展,网络搜索技术得到了不断的完善,通过网络搜索技术可以从互联网上获取各种信息。例如,用户提交一个待查词语,网站向用户返回一个与该待查词语相关的搜索结果。其中,搜索结果中可以包含该待查词语对应的上位词的结果,若待查词语为“鲜花”,则对应的上位词为“花”,因此,如何确定某一个词对应的上位词是一个重要的环节。
而相关技术中,在NLP(自然语言处理)领域,目前提取上位词的方案主要是WordNet,WordNet是由Princeton大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典,具有查询上位词的功能。然而,WordNet主要是针对英语,其汉语版本较英文的上位词要少很多,无法满足更广泛的中文上位词的查询需求,且WordNet诞生于20世纪80年代,其中的词汇是固定的,比较陈旧,缺乏很多新词,无法满足对新词进行上位词查询的需要。
目前针对相关技术中基于WordNet查询上位词,无法满足更广泛的中文上位词的查询需求,以及无法满足对新词进行上位词查询的需要的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种提取上位词的方法、系统、电子装置和存储介质,以至少解决相关技术中基于WordNet查询上位词,无法满足更广泛的中文上位词的查询需求,以及无法满足对新词进行上位词查询的需要的问题。
第一方面,本申请实施例提供了一种提取上位词的方法,所述方法包括:
获取待查词语,以及所述待查词语的知识库词条;
在所述知识库词条中包含短解释的情况下,对所述短解释进行分词,获得第一分词结果;
提取所述第一分词结果中最后一个名词,作为所述待查词语的上位词。
在其中一些实施例中,在所述知识库词条中不包含短解释的情况下,所述方法包括:
判断所述待查词语是否可进行分词;
在所述待查词语可进行分词的情况下,对所述待查词语进行分词,获得第二分词结果;
提取所述第二分词结果中最后一个名词,作为所述待查词语的上位词。
在其中一些实施例中,在所述待查词语不可进行分词的情况下,所述方法还包括:
获取所述知识库词条的第一个自然段内包含所述待查词语的句子;
在所述句子中包含判断动词的情况下,根据所述句子中的判断动词,获取所述句子中的解释表语;
根据所述解释表语中的名词,获取所述待查词语的上位词。
在其中一些实施例中,在所述句子中不包含判断动词的情况下,所述方法包括:
排除所述句子中包含所述待查词语,和/或,包含动词的第一子句,获得余下的第二子句;
判断所述余下的第二子句是否为名词短语,将为名词短语的第二子句作为所述句子的解释表语;
根据所述解释表语中的名词,获取所述待查词语的上位词。
在其中一些实施例中,判断所述余下的第二子句是否为名词短语包括:
获取所述第二子句中的分词结果;
若所述第二子句的分词结果中最后一个词为名词,则所述第二子句为名词短语。
在其中一些实施例中,根据所述解释表语中的名词,获取所述待查词语的上位词包括:
获取所述解释表语的分词结果,根据所述解释表语的分词结果,判断所述解释表语中最后一个词是否为预设词语,以及所述解释表语中是否有顿号;
若所述解释表语中最后一个词为预设词语,则从所述解释表语中去掉所述预设词语获得新的解释表语;
若所述解释表语中有顿号,则根据顿号位置分割所述解释表语,获得多个新的解释表语;
根据所述新的解释表语中的名词,获取所述待查词语的上位词。
在其中一些实施例中,根据所述新的解释表语中的名词,获取所述待查词语的上位词包括:
获取所述新的解释表语的分词结果,根据所述新的解释表语的分词结果,判断所述新的解释表语中最后预设值个词是否都为名词;
若判断结果为是,则将所述新的解释表语中最后预设值个词组合作为所述待查词语的上位词;
若判断结果为否,则获取所述新的解释表语中最后一个名词作为上位词。
第二方面,本申请实施例提供了一种提取上位词的系统,所述系统包括获取模块、分词模块和提取模块,
所述获取模块,用于获取待查词语,以及所述待查词语的知识库词条;
所述分词模块,用于在所述知识库词条中包含短解释的情况下,对所述短解释进行分词,获得第一分词结果;
所述提取模块,用于提取所述第一分词结果中最后一个名词,作为所述待查词语的上位词。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的提取上位词的方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的提取上位词的方法。
相比于相关技术,本申请实施例提供的提取上位词的方法,通过获取待查词语,以及待查词语的知识库词条;在知识库词条中包含短解释的情况下,对短解释进行分词,获得第一分词结果;提取第一分词结果中最后一个名词,作为待查词语的上位词,由于知识库中几乎涵盖所有待查词语的词条,可以满足更广泛的中文上位词的查询需求,且知识库可以及时更新新词,可以满足对新词进行上位词查询的需要,解决了基于WordNet查询上位词,无法满足更广泛的中文上位词的查询需求,以及无法满足对新词进行上位词查询的需要的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的提取上位词的方法的流程图;
图2是根据本申请第一实施例的知识库词条显示界面的局部示意图;
图3是根据本申请第二实施例的提取上位词的方法的流程图;
图4是根据本申请第三实施例的提取上位词的方法的流程图;
图5是根据本申请第二实施例的知识库词条显示界面的局部示意图;
图6是根据本申请第四实施例的提取上位词的方法的流程图;
图7是根据本申请第三实施例的知识库词条显示界面的局部示意图;
图8是根据本申请实施例的提取上位词的系统的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种提取上位词的方法,图1是根据本申请第一实施例的提取上位词的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取待查词语,以及待查词语的知识库词条;其中,待查词语指要查其上位词的词,如果要查询“宇宙飞船”的上位词,那么“宇宙飞船”就是待查词语,知识库指百度百科、维基百科或其他带有词语解释功能的知识集合,待查词语的知识库词条为在知识库中查询待查词语后得到的词条。
步骤S102,在知识库词条中包含短解释的情况下,对短解释进行分词,获得第一分词结果;其中,短解释为知识库词条中待查词语后面紧跟着的括号内的短语,起简洁的解释作用。
步骤S103,提取第一分词结果中最后一个名词,作为待查词语的上位词。
示例性的,图2是根据本申请第一实施例的知识库词条显示界面的局部示意图,如图2所示,待查词语为“宇宙飞船”,其短解释为“运送航天员、货物往返太空的航天器”,通过分词工具对短解释进行分词,获得的第一分词结果为:[pair('运送', 'v'), pair('航天员', 'n'), pair('、', 'x'), pair('货物', 'n'), pair('往返', 'v'), pair('太空','n'), pair('的', 'uj'), pair('航天器', 'n')],“n”表示名词,提取第一分词结果中最后一个名词“航天器”,作为待查词语的上位词。
通过步骤S101至步骤S103,相对于相关技术中基于WordNet查询上位词,无法满足更广泛的中文上位词的查询需求,以及无法满足对新词进行上位词查询的需要的问题,本实施例通过获取待查词语的知识库词条,在知识库词条中包含短解释的情况下,对短解释进行分词,获得第一分词结果,提取第一分词结果中最后一个名词,作为待查词语的上位词,由于知识库中几乎涵盖所有待查词语的词条,可以满足更广泛的中文上位词的查询需求,且知识库可以及时更新新词,可以满足对新词进行上位词查询的需要,解决了基于WordNet查询上位词,无法满足更广泛的中文上位词的查询需求,以及无法满足对新词进行上位词查询的需要的问题。
在其中一些实施例中,图3是根据本申请第二实施例的提取上位词的方法的流程图,如图3所示,在知识库词条中不包含短解释的情况下,该方法包括如下步骤:
步骤S301,判断待查词语是否可进行分词;本实施例中,若待查词语的分词结果是几个词语的组合而非其本身,则判断为待查词语可进行分词,例如,待查词语为“苹果”,其分词结果仍然为“苹果”,则判断为“苹果”不可进行分词。
步骤S302,在待查词语可进行分词的情况下,对待查词语进行分词,获得第二分词结果;
步骤S303,提取第二分词结果中最后一个名词,作为待查词语的上位词。示例性的,待查词语为“北斗卫星导航系统”,判断出该待查词语可进行分词,对该待查词语进行分词,获得的第二分词结果为[pair('北斗', 'nr'), pair('卫星', 'nr'), pair('导航系统', 'n')],提取第二分词结果中最后一个名词“导航系统”,作为待查词语的上位词。
本实施例中,可以先判断“北斗卫星导航系统”有无短解释,在无短解释的情况下,再通过对待查词语进行分词的方法提取上位词,也可以在判断出该待查词语可进行分词时,直接通过对待查词语进行分词的方法提取上位词,或者先判断待查词语是否可进行分词,若为否,再通过获取短解释的方式进行分词。
通过步骤S301至步骤S303,在知识库词条中不包含短解释的情况下,通过对待查词语进行分词的方法提取上位词,即可以通过多种方式提取待查词语的上位词,解决了相关技术中提取不到上位词的情况,提高了上位词的提取效率。
在其中一些实施例中,图4是根据本申请第三实施例的提取上位词的方法的流程图,如图4所示,该方法包括如下步骤:
步骤S401,获取知识库词条的第一个自然段内包含待查词语的句子;其中,知识库词条中至少包含一个自然段,每个自然段也至少包含一个包含待查词语的句子,本实施例中,可以优选选择获取知识库词条的第一个自然段内包含待查词语的句子,当然,也可以选择知识库词条的其他自然段包含待查词语的句子。
步骤S402,在句子中包含判断动词的情况下,根据句子中的判断动词,获取句子中的解释表语;判断动词不表动作,仅仅是判断的“标志”,即准备对主语做出判断,判断主语“是什么”、“怎么样”,判断的具体内容由后面的表语来完成。判断动词包括“为”、“是”、“作为”、“指”和“特指”等词语,将判断动词后面的内容称为待查词语的解释表语,解释表语是对待查词语进行解释的,可能包含上位词的表语。
步骤S403,根据解释表语中的名词,获取待查词语的上位词。由于上位词一般为名词,故可以将解释表语中最后一个名词,作为待查词语的上位词。
示例性的,图5是根据本申请第二实施例的知识库词条显示界面的局部示意图,如图5所示,待查词语为“神州十三号”,第一个自然段内包含待查词语的句子是“神舟十三号,简称“神十三”,为中国载人航天工程发射的第十三艘飞船,是中国空间站关键技术验证阶段第六次飞行,也是该阶段最后一次飞行任务,按照计划部署,神舟十三号航天员乘组在轨驻留六个月。”对该句子进行分词后,得到该句子包含的判断动词有“为”、“是”和“也是”,则其后的解释表语为“中国载人航天工程发射的第十三艘飞船”、“中国空间站关键技术验证阶段第六次飞行”和“该阶段最后一次飞行任务”,上述解释表语中最后一个名词“飞船”、“任务”即可作为“神舟十三号”的上位词。
在其中一些实施例中,图6是根据本申请第四实施例的提取上位词的方法的流程图,如图6所示,在句子中不包含判断动词的情况下,该方法包括如下步骤:
步骤S601,排除句子中包含待查词语,和/或,包含动词的第一子句,获得余下的第二子句;
步骤S602,判断余下的第二子句是否为名词短语,将为名词短语的第二子句作为句子的解释表语;
步骤S603,根据解释表语中的名词,获取待查词语的上位词。由于上位词一般为名词,故可以将解释表语中最后一个名词,作为待查词语的上位词。
示例性的,图7是根据本申请第三实施例的知识库词条显示界面的局部示意图,如图7所示,待查词语为“张三”,第一个自然段内包含待查词语的句子是“张三(XXX),XXX年X月X日出生于北京,中国流行乐女歌手、影视演员,中国国家一级演员。”子句为逗号分隔的句子,排除包含待查词语的第一子句“张三(XXX)”,以及包含动词的第一子句“XXX年X月X日出生于北京”,获得的余下的第二子句为“中国流行乐女歌手、影视演员”,“中国国家一级演员”,其中,“中国流行乐女歌手”、“影视演员”和“中国国家一级演员”都为名词短语,因此都为句子的解释表语,上述解释表语中最后一个名词“女歌手”、“演员””即可作为“张三”的上位词。
可选的,判断余下的第二子句是否为名词短语包括:获取第二子句中的分词结果;若第二子句的分词结果中最后一个词为名词,则第二子句为名词短语。示例性的,“中国国家一级演员”的分词结果为[pair('中国', 'ns'), pair('国家一级', 'b'), pair('演员', 'n')],分词结果中最后一个词为名词“演员”,则“中国国家一级演员”为名词短语。
在其中一些实施例中,根据解释表语中的名词,获取待查词语的上位词包括:
获取解释表语的分词结果,根据解释表语的分词结果,判断解释表语中最后一个词是否为预设词语,以及解释表语中是否有顿号;若解释表语中最后一个词为预设词语,则从解释表语中去掉预设词语获得新的解释表语;若解释表语中有顿号,则根据顿号位置分割解释表语,获得多个新的解释表语;根据新的解释表语中的名词,获取待查词语的上位词。
本实施例中,预设词语包括“简称”、“名称”和“总称”等,预设词语不限于上述三种,用户可以根据需求添加预设词语,当解释表语的分词结果中最后一个词是“简称”、“名称”或“总称”,则去掉这个词,并去掉其前面的“的”,剩下的作为新的解释表语,若新的解释表语中有顿号,根据顿号位置分割解释表语,获得多个新的解释表语,再根据每个新的解释表语中的名词,获取待查词语的上位词。
示例性的,待查词语为“个人所得税”时,其知识库词条的第一个自然段内包含待查词语的句子为“个人所得税(personal income tax)是调整征税机关与自然人(居民、非居民人)之间在个人所得税的征纳与管理过程中所发生的社会关系的法律规范的总称。”则去掉“总称”后新的解释表语为“调整征税机关与自然人(居民、非居民人)之间在个人所得税的征纳与管理过程中所发生的社会关系的法律规范”,再根据每个新的解释表语中的名词,获取待查词语的上位词。
待查词语为“张三”时,解释表语为“中国流行乐女歌手、影视演员”,“中国国家一级演员”,根据顿号位置分割解释表语,获得的多个新的解释表语为“中国流行乐女歌手”、“影视演员”和“中国国家一级演员”,再根据每个新的解释表语中的名词,获取待查词语的上位词。
可选的,根据新的解释表语中的名词,获取待查词语的上位词包括:获取新的解释表语的分词结果,根据新的解释表语的分词结果,判断新的解释表语中最后预设值个词是否都为名词;若判断结果为是,则将新的解释表语中最后预设值个词组合作为待查词语的上位词;若判断结果为否,则获取新的解释表语中最后一个名词作为上位词。
示例性的,预设值为2,待查词语“个人所得税”新的解释表语为“调整征税机关与自然人(居民、非居民人)之间在个人所得税的征纳与管理过程中所发生的社会关系的法律规范”时,其分词结果为[pair('调整', 'vn'), pair('征税', 'v'), pair('机关', 'n'), pair('与', 'p'), pair('自然人', 'l'), pair('(', 'x'), pair('居民', 'n'),pair('、', 'x'), pair('非', 'h'), pair('居民', 'n'), pair('人', 'n'), pair(')', 'x'), pair('之间', 'f'), pair('在', 'p'), pair('个人所得税', 'l'), pair('的', 'uj'), pair('征纳', 'v'), pair('与', 'p'), pair('管理', 'vn'), pair('过程', 'n'), pair('中', 'f'), pair('所', 'c'), pair('发生', 'v'), pair('的','uj'), pair('社会关系', 'l'), pair('的', 'uj'), pair('法律', 'n'), pair('规范', 'n')],因此,“法律规范”为“个人所得税”的上位词。
待查词语“张三”新的解释表语为“中国流行乐女歌手”、“影视演员”和“中国国家一级演员”,其分词结果分别为[pair('中国', 'ns'), pair('流行乐', 'n'), pair('女歌手', 'n')]、[pair('影视', 'n'), pair('演员', 'n')]和[pair('中国', 'ns'),pair('国家', 'ns'), pair('一级', 'n'),pair('演员', 'n')],因此,“张三”的上位词为“流行乐女歌手”、“影视演员”和“一级演员”。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种提取上位词的系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是根据本申请实施例的提取上位词的系统的结构框图,如图8所示,该系统包括获取模块81、分词模块82和提取模块83,获取模块81用于获取待查词语,以及待查词语的知识库词条;分词模块82用于在知识库词条中包含短解释的情况下,对短解释进行分词,获得第一分词结果;提取模块83用于提取第一分词结果中最后一个名词,作为待查词语的上位词,由于知识库中几乎涵盖所有待查词语的词条,可以满足更广泛的中文上位词的查询需求,且知识库可以及时更新新词,可以满足对新词进行上位词查询的需要,解决了基于WordNet查询上位词,无法满足更广泛的中文上位词的查询需求,以及无法满足对新词进行上位词查询的需要的问题。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的提取上位词的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种提取上位词的方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提取上位词的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种提取上位词的方法,其特征在于,所述方法包括:
获取待查词语,以及所述待查词语的知识库词条;
在所述知识库词条中包含短解释的情况下,对所述短解释进行分词,获得第一分词结果,其中,所述短解释为知识库词条中待查词语后面紧跟着的括号内的短语;
提取所述第一分词结果中最后一个名词,作为所述待查词语的上位词。
2.根据权利要求1所述的方法,其特征在于,在所述知识库词条中不包含短解释的情况下,所述方法包括:
判断所述待查词语是否可进行分词;
在所述待查词语可进行分词的情况下,对所述待查词语进行分词,获得第二分词结果;
提取所述第二分词结果中最后一个名词,作为所述待查词语的上位词。
3.根据权利要求2所述的方法,其特征在于,在所述待查词语不可进行分词的情况下,所述方法还包括:
获取所述知识库词条的第一个自然段内包含所述待查词语的句子;
在所述句子中包含判断动词的情况下,根据所述句子中的判断动词,获取所述句子中的解释表语;
根据所述解释表语中的名词,获取所述待查词语的上位词。
4.根据权利要求3所述的方法,其特征在于,在所述句子中不包含判断动词的情况下,所述方法包括:
排除所述句子中包含所述待查词语,和/或,包含动词的第一子句,获得余下的第二子句;
判断所述余下的第二子句是否为名词短语,将为名词短语的第二子句作为所述句子的解释表语;
根据所述解释表语中的名词,获取所述待查词语的上位词。
5.根据权利要求4所述的方法,其特征在于,判断所述余下的第二子句是否为名词短语包括:
获取所述第二子句中的分词结果;
若所述第二子句的分词结果中最后一个词为名词,则所述第二子句为名词短语。
6.根据权利要求3至5任一项所述的方法,其特征在于,根据所述解释表语中的名词,获取所述待查词语的上位词包括:
获取所述解释表语的分词结果,根据所述解释表语的分词结果,判断所述解释表语中最后一个词是否为预设词语,以及所述解释表语中是否有顿号;
若所述解释表语中最后一个词为预设词语,则从所述解释表语中去掉所述预设词语获得新的解释表语;
若所述解释表语中有顿号,则根据顿号位置分割所述解释表语,获得多个新的解释表语;
根据所述新的解释表语中的名词,获取所述待查词语的上位词。
7.根据权利要求6所述的方法,其特征在于,根据所述新的解释表语中的名词,获取所述待查词语的上位词包括:
获取所述新的解释表语的分词结果,根据所述新的解释表语的分词结果,判断所述新的解释表语中最后预设值个词是否都为名词;
若判断结果为是,则将所述新的解释表语中最后预设值个词组合作为所述待查词语的上位词;
若判断结果为否,则获取所述新的解释表语中最后一个名词作为上位词。
8.一种提取上位词的系统,其特征在于,所述系统包括获取模块、分词模块和提取模块,
所述获取模块,用于获取待查词语,以及所述待查词语的知识库词条;
所述分词模块,用于在所述知识库词条中包含短解释的情况下,对所述短解释进行分词,获得第一分词结果,其中,所述短解释为知识库词条中待查词语后面紧跟着的括号内的短语;
所述提取模块,用于提取所述第一分词结果中最后一个名词,作为所述待查词语的上位词。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的提取上位词的方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的提取上位词的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210007982.1A CN114020880B (zh) | 2022-01-06 | 2022-01-06 | 提取上位词的方法、系统、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210007982.1A CN114020880B (zh) | 2022-01-06 | 2022-01-06 | 提取上位词的方法、系统、电子装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114020880A CN114020880A (zh) | 2022-02-08 |
CN114020880B true CN114020880B (zh) | 2022-04-19 |
Family
ID=80069800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210007982.1A Active CN114020880B (zh) | 2022-01-06 | 2022-01-06 | 提取上位词的方法、系统、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020880B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628821A (zh) * | 2017-03-21 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 一种词汇挖掘方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10102274B2 (en) * | 2014-03-17 | 2018-10-16 | NLPCore LLC | Corpus search systems and methods |
CN106569993A (zh) * | 2015-10-10 | 2017-04-19 | 中国移动通信集团公司 | 一种挖掘领域术语间上下位关系的方法及装置 |
CN110196982B (zh) * | 2019-06-12 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 上下位关系抽取方法、装置及计算机设备 |
CN111611796A (zh) * | 2020-05-20 | 2020-09-01 | 腾讯科技(武汉)有限公司 | 下位词的上位词确定方法、装置、电子设备及存储介质 |
CN113591469A (zh) * | 2021-06-15 | 2021-11-02 | 杭州费尔斯通科技有限公司 | 一种基于词语解释的文本增强的方法和系统 |
-
2022
- 2022-01-06 CN CN202210007982.1A patent/CN114020880B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628821A (zh) * | 2017-03-21 | 2018-10-09 | 腾讯科技(深圳)有限公司 | 一种词汇挖掘方法及装置 |
Non-Patent Citations (1)
Title |
---|
"Acquisition of Hypernymy-Hyponymy Relation between Nouns for WordNet Building";Gunawan 等;《2010 International Conference on Asian Language Processing》;20101030;第114-117页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114020880A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11929066B2 (en) | Intent-based conversational knowledge graph for spoken language understanding system | |
EP1450267A2 (en) | Methods and systems for language translation | |
KR20160060247A (ko) | 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈 | |
KR20150116675A (ko) | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 | |
KR20150017507A (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
US20090276438A1 (en) | System and method for a data dictionary | |
CN113743090B (zh) | 一种关键词提取方法及装置 | |
CN114020880B (zh) | 提取上位词的方法、系统、电子装置和存储介质 | |
Berquand et al. | Space mission design ontology: extraction of domain-specific entities and concepts similarity analysis | |
Tukeyev et al. | Lexicon-free stemming for Kazakh language information retrieval | |
Aasha et al. | Machine translation from English to Malayalam using transfer approach | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
CN110427626B (zh) | 关键词的提取方法及装置 | |
CN108920452B (zh) | 一种信息处理方法及装置 | |
Nair et al. | Sanskrit stemmer design: A literature perspective | |
CN106844648A (zh) | 一种基于图片构建资源稀缺语言可比语料库的方法及系统 | |
Goh | Using named entity recognition for automatic indexing | |
KR20160052506A (ko) | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 | |
Singh | GPStemmer—a gurmukhi punjabi stemmer | |
Kharb et al. | Efficiency of a machine translation system | |
Mandal et al. | Bengali and Hindi to English Cross-language Text Retrieval under Limited Resources. | |
Gupta et al. | Stemming Techniques on English Language and Devanagari Script: A Review | |
Chen et al. | English-Chinese cross-language IR using bilingual dictionaries | |
Kumar et al. | TelStem: An unsupervised telugu stemmer with heuristic improvements and normalized signatures | |
Tarish et al. | Text correction algorithms for correct grammar and lex-ical errors in the English language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |