CN110263342A - 实体的上下位关系的挖掘方法和装置、电子设备 - Google Patents

实体的上下位关系的挖掘方法和装置、电子设备 Download PDF

Info

Publication number
CN110263342A
CN110263342A CN201910539202.6A CN201910539202A CN110263342A CN 110263342 A CN110263342 A CN 110263342A CN 201910539202 A CN201910539202 A CN 201910539202A CN 110263342 A CN110263342 A CN 110263342A
Authority
CN
China
Prior art keywords
entity
excavated
word
sets
atom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910539202.6A
Other languages
English (en)
Inventor
郭辉
史亚冰
徐伟建
彭卫华
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910539202.6A priority Critical patent/CN110263342A/zh
Publication of CN110263342A publication Critical patent/CN110263342A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种实体的上下位关系的挖掘方法,该方法包括:确定获取到的待挖掘实体集合的原子词,确定待挖掘实体集合中各个待挖掘实体的分词信息,确定待挖掘实体集合中各个待挖掘实体的类型信息,根据原子词、分词信息、类型信息和预设的分类模型确定待挖掘实体集合中各个待挖掘实体的上下位关系,其中,分类模型中的样本实体包括原子词、分词信息和类型信息。本公开还提供了一种实体的上下位关系的挖掘装置、电子设备和计算机可读介质。

Description

实体的上下位关系的挖掘方法和装置、电子设备
技术领域
本公开实施例涉及计算机技术领域,特别涉及实体的上下位关系的挖掘方法和装置、电子设备和计算机可读介质。
背景技术
目前相同实体类别的实体之间存在同义、无关系和上下位关系三种关联关系。
在现有技术中,对相同实体类别的实体之间的上下位关系的挖掘主要通过人为的方式实现。如,对于疾病的实体类别的实体的上下位关系进行挖掘时,由医生对每个实体进行标注,得到实体之间的上下位关系。
发明内容
本公开实施例提供一种实体的上下位关系的挖掘方法和装置、电子设备和计算机可读介质。
第一方面,本公开实施例提供了一种实体的上下位关系的挖掘方法,包括:
确定获取到的待挖掘实体集合的原子词,所述原子词为所述待挖掘实体集合的实体类别中具有意图的最小粒度的实体名称;
确定所述待挖掘实体集合中各个待挖掘实体的分词信息;
确定所述待挖掘实体集合中各个待挖掘实体的类型信息;
根据所述原子词、所述分词信息、所述类型信息和预设的分类模型确定所述待挖掘实体集合中各个待挖掘实体的上下位关系,其中,所述分类模型中的样本实体包括原子词、分词信息和类型信息。
在一些实施例中,所述确定获取到的待挖掘实体集合的原子词,包括:
分别确定所述待挖掘实体集合中各个待挖掘实体的词序列,所述词序列包括至少一个词,每个词包括待挖掘实体的实体名称中的至少两个字;
根据各个待挖掘实体的词序列确定所述原字词。
在一些实施例中,所述根据各个待挖掘实体的词序列确定所述原字词,包括:
响应于至少两个待挖掘实体的词序列中包含相同的词,则从所述相同的词中选取字数最少的词作为所述原字词。
在一些实施例中,在所述分别确定所述待挖掘实体集合中各个待挖掘实体的词序列之后,还包括:
将不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词从所述词序列中删除;
以及所述根据各个待挖掘实体的词序列确定所述原字词,包括:
从已删除不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词的词序列中确定所述原字词。
在一些实施例中,所述根据所述原子词、所述分词信息、所述类型信息和预设的分类模型确定所述待挖掘实体集合中各个待挖掘实体的上下位关系,包括:
对所述原子词、所述分词信息和所述类型信息分别进行向量转换处理;
根据所述分类模型以及,经过向量转换处理的所述原子词、所述分词信息和所述类型信息确定所述待挖掘实体集合中各个待挖掘实体的上下位关系。
第二方面,本公开实施例还提供了一种实体的上下位关系的挖掘装置,包括:
原子词确定模块,用于确定获取到的待挖掘实体集合的原子词,所述原子词为所述待挖掘实体集合的实体类别中具有意图的最小粒度的实体名称;
分词信息确定模块,用于确定所述待挖掘实体集合中各个待挖掘实体的分词信息;
类型信息确定模块,用于确定所述待挖掘实体集合中各个待挖掘实体的类型信息;
上下位关系确定模块,用于根据所述原子词、所述分词信息、所述类型信息和预设的分类模型确定所述待挖掘实体集合中各个待挖掘实体的上下位关系,其中,所述分类模型中的样本实体包括原子词、分词信息和类型信息。
在一些实施例中,所述原子词确定模块具体用于:
分别确定所述待挖掘实体集合中各个待挖掘实体的词序列,所述词序列包括至少一个词,每个词包括待挖掘实体的实体名称中的至少两个字;
根据各个待挖掘实体的词序列确定所述原字词。
在一些实施例中,所述原子词确定模块具体用于:
响应于至少两个待挖掘实体的词序列中包含相同的词,则从所述相同的词中选取字数最少的词作为所述原字词。
在一些实施例中,还包括:
删除模块,用于在所述分别确定所述待挖掘实体集合中各个待挖掘实体的词序列之后,将不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词从所述词序列中删除;以及,
所述原子词模块具体用于,从已删除不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词的词序列中确定所述原字词。
在一些实施例中,所述上下位关系确定模块具体用于:
对所述原子词、所述分词信息和所述类型信息分别进行向量转换处理;
根据所述分类模型以及,经过向量转换处理的所述原子词、所述分词信息和所述类型信息确定所述待挖掘实体集合中各个待挖掘实体的上下位关系。
第三方面,本公开实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一实施例所述的方法。
第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上任一实施例所述的方法。
本公开实施例提供一种实体的上下位关系的挖掘方法,该方法包括:确定获取到的待挖掘实体集合的原子词,确定待挖掘实体集合中各个待挖掘实体的分词信息,确定待挖掘实体集合中各个待挖掘实体的类型信息,根据原子词、分词信息、类型信息和预设的分类模型确定待挖掘实体集合中各个待挖掘实体的上下位关系,其中,分类模型中的样本实体包括原子词、分词信息和类型信息。通过本公开实施例提供的上述方案,避免了现有技术中通过人工的方式对实体上下位关系进行挖掘时造成的误差大,效率低的技术弊端,实现了节约人工成本,提高挖掘的效率的技术效果。
附图说明
附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。
通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为根据本公开实施例的实体的上下位关系的挖掘方法的流程示意图;
图2为根据本公开实施例的确定获取到的待挖掘实体集合的原子词的方法的流程示意图;
图3为根据本公开实施例的根据原子词、分词信息、类型信息和预设的分类模型确定待挖掘实体集合中各个待挖掘实体的上下位关系的方法的流程示意图;
图4为根据本公开实施例的实体的上下位关系的挖掘装置的框架示意图;
图5为本公开实施例的实体的上下位关系的挖掘装置的示意图;
图6为本公开另一实施例的实体的上下位关系的挖掘装置的示意图;
附图标记:
1、原子词确定模块,2、分词信息确定模块,3、类型信息确定模块,4、上下位关系确定模块,5、删除模块,11、处理单元(或处理器),12、存储器,13、总线,14、RAM,15、高速缓存,16、存储系统,17、程序组件,18、实用工具,19、外部设备,20、显示器,21、I/O接口,22、网络适配器。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的实体的上下位关系的挖掘方法和装置、电子设备和计算机可读介质进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
根据本公开实施例的一个方面,本公开实施例提供了一种实体的上下位关系的挖掘方法。
请参阅图1,图1为根据本公开实施例的实体的上下位关系的挖掘方法的流程示意图。
如图1所示,该方法包括:
S1:确定获取到的待挖掘实体集合的原子词。
其中,待挖掘实体集合中包括多个待挖掘实体,且各个待挖掘实体分别包括实体名称和属性信息。
需要说明的是,待挖掘实体集合中的各个待挖掘实体属于相同的实体类别,且该类别即为待挖掘实体集合的实体类别,实体类别用于对不同领域或行业等的实体进行区分,如,医疗器械的实体类别,疾病的实体类别等。
可以理解的是,具体的实体类别的区分可以基于实际的需求和经验进行划分,且具体划分方法可参见现有技术,此处不再赘述。
示范性地,若待挖掘实体集合中的各个待挖掘实体属于疾病的实体类别,待挖掘实体的实体名称为感冒,属性信息为症状,例如头疼和流鼻涕等。
其中,原字词为待挖掘实体集合的实体类别中具有意图的最小粒度的实体名称。以上述示例进行说明如下:
待挖掘实体的实体名称为感冒,比感冒还小的粒度为“感”和“冒”但是,在疾病的实体类别中,无法基于“感”和“冒”确定患者具体患有何种疾病,即在疾病的实体类别中,“感”和“冒”均不存在意图,而基于“感冒”可确定患者患有的疾病,即“感冒”为在待挖掘实体集合的实体类别中具有意图的最小粒度的实体名称,因此,感冒即为原字词。
需要说明的是,待挖掘实体集合的原字词可能为待挖掘实体集合中的一个或多个待挖掘实体的实体名称,也可能为至少一个待挖掘实体的实体名称的至少两个字。因此,上述示例只是用于示范性地说明,以对本公开实施例进行深刻的理解,而不能将其理解为对本公开实施例的保护范围的限定。
S2:确定待挖掘实体集合中各个待挖掘实体的分词信息。
在该步骤中,可基于现有技术中的方式对各个待挖掘实体的分词信息进行确定,如:分别确定各个待挖掘实体的词性信息,其中,词性信息包括性质词、时间词、中心词和修饰词等;基于词性信息将与其对应的待挖掘实体进行划分,得到相应的分词信息。详细方法可参见现有技术,此处不再赘述。
S3:确定待挖掘实体集合中各个待挖掘实体的类型信息。
其中,类型信息用于将相同的实体类别中的不同类型的待挖掘实体进行区分,同理,类型信息也可以基于实际需求和经验进行设定。如:实体名称为感冒的待挖掘实体的类型为感冒,实体名称为流行感冒的待挖掘实体的类型亦为感冒。
具体地,可预先基于人工的方式对各个待挖掘实体的类型信息进行标注,则在该步骤中,可直接提取各个待挖掘实体的类型信息;也可以预先设置待挖掘实体与类型信息的映射关系,以便根据映射关系确定与任一待挖掘实体的类型信息。
S4:根据原子词、分词信息、类型信息和预设的分类模型确定待挖掘实体集合中各个待挖掘实体的上下位关系,其中,分类模型中的样本实体包括原子词、分词信息和类型信息。
具体地,将原子词、分词信息、类型信息均作为分类模型的输入特征,分类模型中的样本实体以原子词、分词信息和类型信息为训练特征,通过包括训练特征的分类模型对输入特征进行训练,得到待挖掘实体集合中各个待挖掘实体的上下位关系。
在一些实施例中,分类模型采用神经网络模型,具体可采用BiLSTM(Bi-directional Long Short-Term Memory,双向长短期记忆)模型或CNN(ConvolutionalNeural Network,卷积神经网络)模型等。
基于上述分析可知,在本公开实施例中,提供了一种实体的上下位关系的挖掘方法,该方法包括:确定获取到的待挖掘实体集合的原子词,确定待挖掘实体集合中各个待挖掘实体的分词信息,确定待挖掘实体集合中各个待挖掘实体的类型信息,根据原子词、分词信息、类型信息和预设的分类模型确定待挖掘实体集合中各个待挖掘实体的上下位关系,其中,分类模型中的样本实体包括原子词、分词信息和类型信息。通过本公开实施例提供的上述方案,避免了现有技术中通过人工的方式对实体上下位关系进行挖掘时造成的误差大,效率低的技术弊端,实现了节约人工成本,提高挖掘的效率的技术效果。
结合图2可知,在一些实施例中,S1包括:
S1-1:分别确定待挖掘实体集合中各个待挖掘实体的词序列,词序列包括至少一个词,每个词包括待挖掘实体的实体名称中的至少两个字。
示范性地,待挖掘实体集合中包括两个待挖掘实体,且其中一个待挖掘实体的实体名称为右下腹痛,属性信息为腹部的右下部分疼痛,另一个待挖掘实体的实体名称为左下腹痛,属性信息为腹部的左下部分疼痛。实体名称为上腹痛的待挖掘实体的词序列包括:右腹痛、右下腹痛、下腹痛和腹痛。实体名称为左下腹痛的待挖掘实体的词序列包括:左腹痛、左下腹痛、下腹痛和腹痛。
S1-2:根据各个待挖掘实体的词序列确定原字词。
基于上述示例可知,在该步骤中,根据实体名称为腹痛的待挖掘实体的词序列和实体名称为左下腹痛的待挖掘实体的词序列确定原字词。即,根据词序列{右腹痛、右下腹痛、下腹痛和腹痛},以及词序列{左腹痛、左下腹痛、下腹痛和腹痛}确定原字词。
在本公开实施例中,通过先确定各个待挖掘实体的词序列,再从确定的词序列中对原子词进行确定,可避免遗漏待挖掘实体的现象,进而实现获取原子词的可靠性和精确性。
在一些实施例中,S1-2包括:
响应于至少两个待挖掘实体的词序列中包含相同的词,则从相同的词中选取字数最少的词作为原字词。
现以S1-1中的示例进行阐述如下:
序列{右腹痛、右下腹痛、下腹痛和腹痛},以及词序列{左腹痛、左下腹痛、下腹痛和腹痛}存在相同的词“腹痛”和“下腹痛”,则选取“腹痛”作为原字词。
需要说明的是,当相同的词的为一个时,则将该词作为原字词。
在本公开实施中,由于采用了从相同的词中筛选得到原子词的方案,一方面,由于对原子词进行了筛选,可确保原子词的可靠性;另一方面,由于删除了重复的原子词,还可降低后续分类模型的计算量,以便快速高效的确定挖掘结果(即实体的上下位关系)。
在一些实施例中,在S1-1之后,还包括:
S1-1’:将不能被解析得到在待挖掘实体集合的实体类别中包括意图的词从词序列中删除。
其中,意图是待挖掘实体集合的实体类别中包括具体含义的词。
示例性地,实体名称为“偏头疼”的待挖掘实体的词序列包括{偏疼、头疼、偏头疼},在疾病的实体类别中,无法根据“偏疼”确定患者的疾病种类,即“偏疼”是一个没有具体含义的词,没有意图,因此,将偏疼从实体名称为偏头疼的待挖掘实体的词序列中删除。
在本公开实施例中,通过S1-1’对词序列进行清洗处理,可实现提高确定原子词的效率,节约运算量的技术效果。
以及,S1-2包括:从已删除不能被解析得到在待挖掘实体集合的实体类别中包括意图的词的词序列中确定原字词。
结合图3可知,在一些实施例中,S4包括:
S4-1:对原子词、分词信息和类型信息分别进行向量转换处理。
在该步骤中,分别对原子词、分词信息和类型信息进行向量转换处理,以便得到与原子词对应的向量特征,与分词信息对应的向量特征,以及类型信息对应的向量特征。也就是说,输入至分类模型的特征为向量特征。
其中,进行向量转换处理的方法可采用现有技术中的方法实现,此处不再赘述。
S4-2:根据分类模型以及,经过向量转换处理的原子词、分词信息和类型信息确定待挖掘实体集合中各个待挖掘实体的上下位关系。
请参阅图4,图4为根据本公开实施例的实体的上下位关系的挖掘装置的框架示意图。
其中,图4显示的实体的上下位关系的挖掘装置仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,实体的上下位关系的挖掘装置以通用计算设备的形式表现。实体的上下位关系的挖掘装置的组件可以包括但不限于:一个或者多个处理器或者处理单元11,存储器12,连接不同组件(包括存储器12和处理单元11)的总线13。
总线13表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
实体的上下位关系的挖掘装置典型地包括多种计算机系统可读介质。这些介质可以是任何能够被实体的上下位关系的挖掘装置访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器12可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)14和/或高速缓存15(即高速缓存存储器)。实体的上下位关系的挖掘装置可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统16可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线13相连。存储器12可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序组件17的程序/实用工具18,可以存储在例如存储器12中,这样的程序组件17包括但不限于操作系统、一个或者多个应用程序、其它程序组件以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序组件17通常执行本发明所描述的实施例中的功能和/或方法。
实体的上下位关系的挖掘装置也可以与一个或多个外部设备19(例如键盘、指向设备、显示器20等)通信,还可与一个或者多个使得用户能与该实体的上下位关系的挖掘装置交互的设备通信,和/或与使得该实体的上下位关系的挖掘装置能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口21进行。并且,实体的上下位关系的挖掘装置还可以通过网络适配器22与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器22通过总线13与实体的上下位关系的挖掘装置的其它组件通信。应当明白,尽管图中未示出,可以结合实体的上下位关系的挖掘装置使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元11通过运行存储在存储器12中的多个程序中的至少一个程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的实体的上下位关系的挖掘方法。
根据本公开实施例的另一个方面,本公开实施例还提供了一种实体的上下位关系的挖掘装置。
请参阅图5,图5为本公开实施例的实体的上下位关系的挖掘装置的示意图。
如图5所述,该实体的上下位关系的挖掘装置包括:
原子词确定模块1,用于确定获取到的待挖掘实体集合的原子词,原子词为待挖掘实体集合的实体类别中具有意图的最小粒度的实体名称;
分词信息确定模块2,用于确定待挖掘实体集合中各个待挖掘实体的分词信息;
类型信息确定模块3,用于确定待挖掘实体集合中各个待挖掘实体的类型信息;
上下位关系确定模块4,用于根据原子词、分词信息、类型信息和预设的分类模型确定待挖掘实体集合中各个待挖掘实体的上下位关系,其中,分类模型中的样本实体包括原子词、分词信息和类型信息。
在一些实施例中,原子词确定模块1具体用于:
分别确定待挖掘实体集合中各个待挖掘实体的词序列,词序列包括至少一个词,每个词包括待挖掘实体的实体名称中的至少两个字;
根据各个待挖掘实体的词序列确定原字词。
在一些实施例中,原子词确定模块1具体用于:
响应于至少两个待挖掘实体的词序列中包含相同的词,则从相同的词中选取字数最少的词作为原字词。
结合图6可知,在一些实施例中,还包括:
删除模块5,用于在分别确定所述待挖掘实体集合中各个待挖掘实体的词序列之后,将不能被解析得到在待挖掘实体集合的实体类别中包括意图的词从词序列中删除;以及,
原子词模块1具体用于,从已删除不能被解析得到在待挖掘实体集合的实体类别中包括意图的词的词序列中确定原字词。
在一些实施例中,上下位关系确定模块4具体用于:
对原子词、分词信息和类型信息分别进行向量转换处理;
根据分类模型以及,经过向量转换处理的原子词、分词信息和类型信息确定待挖掘实体集合中各个待挖掘实体的上下位关系。
在一些实施例中,本公开实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一实施例所述的方法。
在一些实施例中,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上任一实施例所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

Claims (12)

1.一种实体的上下位关系的挖掘方法,包括:
确定获取到的待挖掘实体集合的原子词,所述原子词为所述待挖掘实体集合的实体类别中具有意图的最小粒度的实体名称;
确定所述待挖掘实体集合中各个待挖掘实体的分词信息;
确定所述待挖掘实体集合中各个待挖掘实体的类型信息;
根据所述原子词、所述分词信息、所述类型信息和预设的分类模型确定所述待挖掘实体集合中各个待挖掘实体的上下位关系,其中,所述分类模型中的样本实体包括原子词、分词信息和类型信息。
2.根据权利要求1所述的方法,其中,所述确定获取到的待挖掘实体集合的原子词,包括:
分别确定所述待挖掘实体集合中各个待挖掘实体的词序列,所述词序列包括至少一个词,每个词包括待挖掘实体的实体名称中的至少两个字;
根据各个待挖掘实体的词序列确定所述原字词。
3.根据权利要求2所述的方法,其中,所述根据各个待挖掘实体的词序列确定所述原字词,包括:
响应于至少两个待挖掘实体的词序列中包含相同的词,则从所述相同的词中选取字数最少的词作为所述原字词。
4.根据权利要求2所述的方法,其中,在所述分别确定所述待挖掘实体集合中各个待挖掘实体的词序列之后,还包括:
将不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词从所述词序列中删除;
以及所述根据各个待挖掘实体的词序列确定所述原字词,包括:
从已删除不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词的词序列中确定所述原字词。
5.根据权利要求1至4中任一项所述的方法,其中,所述根据所述原子词、所述分词信息、所述类型信息和预设的分类模型确定所述待挖掘实体集合中各个待挖掘实体的上下位关系,包括:
对所述原子词、所述分词信息和所述类型信息分别进行向量转换处理;
根据所述分类模型以及,经过向量转换处理的所述原子词、所述分词信息和所述类型信息确定所述待挖掘实体集合中各个待挖掘实体的上下位关系。
6.一种实体的上下位关系的挖掘装置,包括:
原子词确定模块,用于确定获取到的待挖掘实体集合的原子词,所述原子词为所述待挖掘实体集合的实体类别中具有意图的最小粒度的实体名称;
分词信息确定模块,用于确定所述待挖掘实体集合中各个待挖掘实体的分词信息;
类型信息确定模块,用于确定所述待挖掘实体集合中各个待挖掘实体的类型信息;
上下位关系确定模块,用于根据所述原子词、所述分词信息、所述类型信息和预设的分类模型确定所述待挖掘实体集合中各个待挖掘实体的上下位关系,其中,所述分类模型中的样本实体包括原子词、分词信息和类型信息。
7.根据权利要求6所述的装置,其中,所述原子词确定模块具体用于:
分别确定所述待挖掘实体集合中各个待挖掘实体的词序列,所述词序列包括至少一个词,每个词包括待挖掘实体的实体名称中的至少两个字;
根据各个待挖掘实体的词序列确定所述原字词。
8.根据权利要求7所述的装置,其中,所述原子词确定模块具体用于:
响应于至少两个待挖掘实体的词序列中包含相同的词,则从所述相同的词中选取字数最少的词作为所述原字词。
9.根据权利要求7所述的装置,其中,还包括:
删除模块,用于在所述分别确定所述待挖掘实体集合中各个待挖掘实体的词序列之后,将不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词从所述词序列中删除;以及,
所述原子词模块具体用于,从已删除不能被解析得到在所述待挖掘实体集合的实体类别中包括意图的词的词序列中确定所述原字词。
10.根据权利要求6至9中任一项所述的装置,其中,所述上下位关系确定模块具体用于:
对所述原子词、所述分词信息和所述类型信息分别进行向量转换处理;
根据所述分类模型以及,经过向量转换处理的所述原子词、所述分词信息和所述类型信息确定所述待挖掘实体集合中各个待挖掘实体的上下位关系。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1至5中任一所述的方法。
CN201910539202.6A 2019-06-20 2019-06-20 实体的上下位关系的挖掘方法和装置、电子设备 Pending CN110263342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539202.6A CN110263342A (zh) 2019-06-20 2019-06-20 实体的上下位关系的挖掘方法和装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539202.6A CN110263342A (zh) 2019-06-20 2019-06-20 实体的上下位关系的挖掘方法和装置、电子设备

Publications (1)

Publication Number Publication Date
CN110263342A true CN110263342A (zh) 2019-09-20

Family

ID=67920045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539202.6A Pending CN110263342A (zh) 2019-06-20 2019-06-20 实体的上下位关系的挖掘方法和装置、电子设备

Country Status (1)

Country Link
CN (1) CN110263342A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659351A (zh) * 2019-09-27 2020-01-07 北京百度网讯科技有限公司 用于挖掘实体上下位关系的方法和装置
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN107291811A (zh) * 2017-05-18 2017-10-24 浙江大学 一种基于云端知识融合的感认知增强机器人系统
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN107885719A (zh) * 2017-09-20 2018-04-06 北京百度网讯科技有限公司 基于人工智能的词汇类别挖掘方法、装置及存储介质
CN107944032A (zh) * 2017-12-13 2018-04-20 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN108197197A (zh) * 2017-12-27 2018-06-22 北京百度网讯科技有限公司 实体描述型标签挖掘方法、装置及终端设备
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN109325201A (zh) * 2018-08-15 2019-02-12 北京百度网讯科技有限公司 实体关系数据的生成方法、装置、设备及存储介质
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN109885697A (zh) * 2019-02-01 2019-06-14 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN107291811A (zh) * 2017-05-18 2017-10-24 浙江大学 一种基于云端知识融合的感认知增强机器人系统
CN107885719A (zh) * 2017-09-20 2018-04-06 北京百度网讯科技有限公司 基于人工智能的词汇类别挖掘方法、装置及存储介质
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN107944032A (zh) * 2017-12-13 2018-04-20 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN108197197A (zh) * 2017-12-27 2018-06-22 北京百度网讯科技有限公司 实体描述型标签挖掘方法、装置及终端设备
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN109325201A (zh) * 2018-08-15 2019-02-12 北京百度网讯科技有限公司 实体关系数据的生成方法、装置、设备及存储介质
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质
CN109885697A (zh) * 2019-02-01 2019-06-14 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王婷等: "基于症状构成成分的上下位关系自动抽取方法", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659351A (zh) * 2019-09-27 2020-01-07 北京百度网讯科技有限公司 用于挖掘实体上下位关系的方法和装置
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111401066B (zh) * 2020-03-12 2022-04-12 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置

Similar Documents

Publication Publication Date Title
CN105843703B (zh) 创建工作流以解决至少一个系统问题的方法和系统
US9336267B2 (en) Method and system for navigation and visualization of data in relational and/or multidimensional databases
Johnson et al. NIH-NSF visualization research challenges report
US9286571B2 (en) Machine learning for database migration source
US7895519B1 (en) Tracking use of interface and online assistance
CN109697066A (zh) 实现数据表拼接及自动训练机器学习模型的方法和系统
US9934069B2 (en) Managing provisioning of storage resources
CN106357719A (zh) 用于网络应用的基于页面的事件相关
CN110263342A (zh) 实体的上下位关系的挖掘方法和装置、电子设备
CN109726661A (zh) 图像处理方法及装置、介质和计算设备
US20180004642A1 (en) Using test workload run facts and problem discovery data as input for business analytics to determine test effectiveness
CN110379520A (zh) 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
CN1716264A (zh) 利用控制程序信息注释并呈现系统踪迹的方法和系统
US8711160B1 (en) System and method for efficient resource management of a signal flow programmed digital signal processor code
CN107368568A (zh) 一种笔记生成的方法、装置、设备和存储介质
US7603372B1 (en) Modeling file system operation streams
US10248668B2 (en) Mapping database structure to software
JP2006236331A (ja) 保存領域ネットワークの分析と問題報告の方法及び装置
CN107408029A (zh) 用于存储环境中的实时活动跟踪的方法和系统
TWI718563B (zh) 用於在多次執行指令之間保存及恢復機器狀態之電腦程式產品、電腦系統及電腦實施方法
Lucieri et al. Achievements and challenges in explaining deep learning based computer-aided diagnosis systems
Sinha et al. Foundations of Computing: Essential for Computing Studies, Profession And Entrance Examinations
CN110489613A (zh) 协同可视数据推荐方法及装置
CN110413598A (zh) 表格数据修改方法、装置、电子设备及存储介质
Churcher et al. Visualising class cohesion with virtual worlds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination