CN108304366B - 一种上位词检测方法及设备 - Google Patents

一种上位词检测方法及设备 Download PDF

Info

Publication number
CN108304366B
CN108304366B CN201710172589.7A CN201710172589A CN108304366B CN 108304366 B CN108304366 B CN 108304366B CN 201710172589 A CN201710172589 A CN 201710172589A CN 108304366 B CN108304366 B CN 108304366B
Authority
CN
China
Prior art keywords
candidate
sentence
hypernym
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710172589.7A
Other languages
English (en)
Other versions
CN108304366A (zh
Inventor
李潇
张锋
王策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710172589.7A priority Critical patent/CN108304366B/zh
Priority to PCT/CN2018/079111 priority patent/WO2018171499A1/zh
Publication of CN108304366A publication Critical patent/CN108304366A/zh
Application granted granted Critical
Publication of CN108304366B publication Critical patent/CN108304366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种上位词检测方法及设备,其方法包括:从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,目标候选对包括目标实体词和目标实体词对应的候选上位词;根据候选句子集合中的每个候选句子和预存的词向量集合,确定候选句子集合对应的句子集合向量;根据从词向量集合中获取的目标实体词对应的第一词向量和候选上位词对应的第二词向量,以及确定的句子集合向量,检测候选上位词是否为目标实体词的上位词。采用本发明,通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析,实现对候选上位词是否为实体词的上位词的检测,提高了上位词的检测效率。

Description

一种上位词检测方法及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种上位词检测方法及设备。
背景技术
随着网络技术的发展,网络搜索技术得到了不断的完善,通过网络搜索技术可以从互联网上获取各种信息。例如,用户提交一个查询关键词,网站向用户返回一个与该关键词相关的搜索结果。其中,搜索结果中可以包含该关键词对应的上位词的结果,或者该关键词对应的下位词的结果,若关键词是老虎,其上位词为动物;若关键词是动物,该关键词对应的下位词可以是老虎或者其他。因此,如何确定某一个词对应的上位词是一个重要的环节。而在现有的技术方案中,对于包含实体词和实体词对应的候选上位词的候选对而言,是通过手动整理和提取能够成为上位词对的特征,来确定该候选对中的候选上位词是否为该实体词的上位词的,这样需要较多的领域知识和人力,降低了上位词的检测效率。
发明内容
本发明实施例所要解决的技术问题在于,提供一种上位词检测方法及设备,通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析,实现对候选上位词是否为实体词的上位词的检测,提高了上位词的检测效率。
第一方面,本发明实施例提供了一种上位词检测方法,所述方法包括:
从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,所述目标候选对包括目标实体词和目标实体词对应的候选上位词;
根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量;
根据从所述词向量集合中获取的所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,以及确定的所述句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词。
第二方面,本发明实施例还提供了一种上位词检测设备,所述设备包括:
生成模块,用于从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,所述目标候选对包括目标实体词和目标实体词对应的候选上位词;
确定模块,用于根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量;
检测模块,用于根据从所述词向量集合中获取的所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,以及确定的所述句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词。
在本发明实施例中,首先从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,目标候选对包括目标实体词和目标实体词对应的候选上位词;根据候选句子集合中的每个候选句子和预存的词向量集合,确定候选句子集合对应的句子集合向量;根据从词向量集合中获取的目标实体词对应的第一词向量和候选上位词对应的第二词向量,以及句子集合向量,检测候选上位词是否为目标实体词的上位词。通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析,进而实现对候选上位词是否为实体词的上位词的检测,并避免了人工提取上位词特征,提高了上位词的检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种上位词检测方法的流程示意图;
图2是本发明实施例中的另一种上位词检测方法的流程示意图;
图3是本发明实施例提供的步骤205的一种流程示意图;
图4是本发明实施例提供的步骤206的一种流程示意图;
图5是本发明实施例提供的一种上位词检测方法的示例图;
图6是本发明实施例提供的一种上位词检测设备的结构示意图;
图7是本发明实施例提供的一种确定模块的结构示意图;
图8是本发明实施例提供的一种矩阵确定单元的结构示意图;
图9是本发明实施例提供的一种向量生成单元的结构示意图;
图10是本发明实施例提供的一种检测模块的结构示意图;
图11是本发明实施例提供的另一种上位词检测设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面将结合附图1-附图5,对本发明实施例提供的上位词检测方法进行详细介绍。
请参见图1,为本发明实施例提供了一种上位词检测方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤101-步骤103。
101,从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合。
具体的,上位词检测设备从预存句子集合中选取包含目标候选对的候选句子。其中,预存句子集合可以是由可供提取候选对的语料集组成的。所述目标候选对是多个候选对中的任意一个,每个候选对都可以通过本发明实施例所介绍的方案来实现对上位词的检测。所述目标候选对包括目标实体词和目标实体词对应的候选上位词。所述上位词检测设备先从预存句子集合中选择既包含目标实体词又包含候选上位词的候选句子,在将所选择的候选句子组合为候选句子集合,该候选句子集合是用于检测所述目标候选对中候选上位词是否为目标实体词的上位词的。
进一步的,在本发明实施例中,如果实体词和候选上位词存在上下位关系,则确定候选上位词为实体词的上位词,例如,实体词为老虎,候选上位词为动物,可以认为老虎是动物,因此动物是老虎的上位词。
可选的,所述目标候选对包含的目标实体词和候选上位词是所述上位词检测设备从实体词集合和候选上位词集合中分别随机选择一个而组合的。其中,实体词集合是包含至少一个实体词的集合,候选上位词集合包含至少一个候选上位词的集合。可以看出,在组合之前并未确定候选上位词是否为所述目标实体词的上位词,在本发明实施例中,通过以下执行动作可以实现上位词的检测功能。
102,根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量。
具体的,所述上位词检测设备根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量。可选的,所述上位词检测设备可以通过时间递归神经网络(Long Short-Term Memory,LSTM)将候选句子集合压缩为H维向量,其中,H是LSTM网络中隐藏层数量。在本发明实施例中能够通过句子集合向量来体现与目标候选对相关的候选句子的句子信息,以提高上位词检测的准确性。
103,根据从所述词向量集合中获取的所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,以及确定的所述句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词。
具体的,所述上位词检测设备从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,并根据所述第一词向量、所述第二词向量和确定的所述候选句子集合对应的句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词。这样既结合了目标实体词和候选上位词的信息,又考虑了包含目标实体词和候选上位词的候选句子的信息,进而能够更加准确地确定所述候选上位词是否为所述目标实体词的上位词。
其中,所述第一词向量和所述第二词向量是用于区分目标实体词和候选上位词对应的词向量的,可选的,词向量是将一个词用向量的方式表示,举个例子,“话筒”表示为词向量[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0……];“麦克”表示为词向量[0 0 0 0 0 0 0 01 0 0 0 0 0 0 0……];或者,词向量可以表示为[0.792,-0.177,-0.107,0.109,-0.542,……]。
可选的,所述上位词检测设备可以利用分类器对包含所述第一词向量、第二词向量和所述句子集合向量的数据进行分类,类别可以划分为表示所述候选上位词为所述目标实体词的上位词的第一分类,以及表示所述候选上位词不是所述目标实体词的上位词的第二分类,根据第一分类和第二分类的分类值确定所述候选上位词是否为所述目标实体词的上位词。
在本发明实施例中,首先从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,目标候选对包括目标实体词和目标实体词对应的候选上位词;根据候选句子集合中的每个候选句子和预存的词向量集合,确定候选句子集合对应的句子集合向量;根据从词向量集合中获取的目标实体词对应的第一词向量和候选上位词对应的第二词向量,以及句子集合向量,检测候选上位词是否为目标实体词的上位词。通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析,进而实现对候选上位词是否为实体词的上位词的检测,并避免了人工提取上位词特征,提高了上位词的检测效率。
请参见图2,为本发明实施例提供了另一种上位词检测方法的流程示意图。如图2所示,本发明实施例的所述方法可以包括以下步骤201-步骤209。
201,从预存句子集合中提取多个实体词,并生成包含所述多个实体词的实体词集合。
具体的,上位词检测设备从预存句子集合中提取多个实体词,并将提取到的多个实体词组成实体词集合。其中,预存句子集合可以用于提取多个实体词。可选的,所述上位词检测设备可以采用命名实体识别(Named Entity Recognition,NER)技术从预存句子集合中获取多个实体词,其中,NER能够识别预存句子集合中的人名、动物名、地名、组织机构名等实体词,例如,老虎、狮子、深圳等。
202,采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词,并生成包含所述多个候选上位词的候选上位词集合。
具体的,所述上位词检测设备采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词。可选的,所述上位词检测设备可以根据当前的词汇字典,对所述预存句子集合中的每个句子进行分词,例如,所述上位词检测设备可以采用但不限定于基于字符串匹配的分词方法、基于统计的分词方法等进行分词,以获得几十、几千甚至更多的词。其中,所述词汇字典是为分词准备的,所述词条词典中包含多个单词、词语和短语,进一步可选的,可以对词汇字典进行实时更新,这样能够将新的词汇更新到词汇字典中,使得预存句子集合中的新词汇不会被分开,保证了分词的准确性。
进一步可选的,所述预设词性可以包括名词和名词短语中的至少一项。另外,在本发明实施例中,如果实体词和候选上位词存在上下位关系,则确定候选上位词为实体词的上位词,例如,实体词为老虎,候选上位词为动物,可以认为老虎是动物,因此动物是老虎的上位词。由于介词、形容词、副词等词性的词语无法确定相对应的上位词,因此可以通过预设词性的方式将无法找到上位词的词性进行排除,以减少上位词检测的计算量和复杂度。
进一步的,在所述上位词检测设备提取到多个候选上位词之后,所述上位词检测设备将提取到的多个候选上位词组成候选上位词集合。
203,将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合,生成候选对。
具体的,所述上位词检测设备将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合,生成候选对。举例来说,如表一所示的实体词集合,该实体词集合中包含实体词A1、A2、A3、A4、A5;再如表二所示的候选上位词集合,该候选上位词集合中包含候选上位词B1、B2、B3。
表一
实体词集合 A1 A2 A3 A4 A5
表二
候选上位词集合 B1 B2 B3
由表一和表二组成的候选对包括A1-B1,A1-B2,A1-B3,A2-B1,A2-B2,A2-B3,A3-B1,A3-B2,A3-B3,A4-B1,A4-B2,A4-B3,A5-B1,A5-B2,A5-B3。可以看出,实体词集合中的每个实体词都可以与候选上位词集合中的每个候选上位词组合为一个候选对,以保证候选对的完整性。
204,从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合。
具体的,所述上位词检测设备从生成的至少一个候选对中选择一个确定为目标候选对,并从预存句子集合中选取包含目标候选对的候选句子。所述目标候选对包括目标实体词和目标实体词对应的候选上位词。所述上位词检测设备先从预存句子集合中选择既包含目标实体词又包含候选上位词的候选句子,在将所选择的候选句子组合为候选句子集合,该候选句子集合是用于检测所述目标候选对中候选上位词是否为目标实体词的上位词的。
205,根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵。
具体的,所述上位词检测设备根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵。请一并参见图3,为本发明实施例提供了一种步骤205的流程示意图,如图3所示,所述步骤205包括步骤2051和步骤2052。
2051,对所述候选句子集合中的每个候选句子进行分词,以提取所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量。
具体的,所述上位词检测设备对所述候选句子集合中的每个候选句子进行分词,进而提取到所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量。可选的,所述上位词检测设备可以按照包含多个单词、词语和短语的词条字典对每个候选句子进行划分以得到至少一个分词,并将该候选句子中的每个分词转变为词向量。
可选的,词向量是将一个词用向量的方式表示,所述上位词检测设备可以从预存的词向量集合中分别查找该候选句子中每个分词对应的词向量。举例来说,预存的词向量集合可以是通过词转化为向量的工具(如,word2vec方法)实现将一个词转化为词向量。
2052,按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
具体的,所述上位词检测设备按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
对于候选句子集合中的每个候选句子都可以按照步骤2051和步骤2052来确定每个候选句子对应的句子矩阵。以一个候选句子为例进行说明。
如,候选句子为“abc”;对该候选句子分词后得到“word1word2word3”,word1=a、word2=b、word3=c;接着在词向量集合中查找到分词对应的词向量,word1=wordembedding1、word2=word embedding2、word3=word embedding3;最后按照各分词在该候选句子中的顺序构造该候选句子对应的句子矩阵,句子矩阵如下所示,其中,由于候选句子中分词的数量为3,若每个分词对应的词向量为N维,则该句子矩阵为3*N。
Figure BDA0001250542550000081
206,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量。
具体的,所述上位词检测设备根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量。请一并参见图4,为本发明实施例提供了一种步骤206的流程示意图,如图4所示,所述步骤206包括步骤2061和步骤2062。
2061,基于用于上位词检测的时间递归神经网络,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量。
具体的,所述上位词检测设备通过LSTM,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量。其中,本发明实施例中的LSTM是用于上位词检测的。所述上位词检测设备可以通过LSTM将候选句子集合压缩为H维向量,其中,H是LSTM网络中预设的隐藏层数量,根据海量的正负候选对包含的候选句子集合,对LSTM进行训练,这样LSTM能够得到正负候选对所包含的一些语义特征,例如,句式的隐含信息、全局状态等特征,基于已经获得正负候选对所包含的语义特征之后,能够实现对目标候选对的检测。
可选的,所述LSTM学习正负候选对所包含的一些语义特征的具体过程为:以正候选对为例,输入海量的正候选对中每个正候选对,获取包含正候选对的候选句子集合,从候选句子集合中提取多类语义特征及各个特征对应的特征值;同样,对于负候选对也执行相同的操作,并以着大多数正候选对的特征值接近与预设标准值,大多数负候选对的特征值远离预设标准值的原则,确定用于上位词检测的LSTM。
需要说明的是,正候选对、负候选对于本发明实施例中目标候选对所包含的信息类型相同。正候选对包括一实体词和与该实体词对应的候选上位词,对于正候选对而言,候选上位词是该实体词的上位词。负候选对包括一实体词和与该实体词对应的候选上位词,对于负候选对而言,候选上位词不是该实体词的上位词。
2062,对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。
具体的,所述上位词检测设备对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。这样能够通过一句子集合向量上来表示包含该目标候选对的全部候选句子的句子信息。
其中,各个句子分量对应的加权值可以由所述上位词检测设备自由设定,还可以根据各个候选句子对应的等级进行设定,例如等级高的设定较大的加权值,等级低的设备较小的加权值。进一步可选的,每个候选句子的等级可以根据但不限定于候选句子的长度、包含的目标候选对中目标实体词和/或候选上位词的数量而确定。
举例来说,若所述候选句子集合中包含4个候选句子,且通过步骤2061确定的每个候选句子对应的句子向量分别为H1、H2、H3和H4;且各个句子分量的加权值均为1,则该候选句子集合对应的句子集合向量为:
Figure BDA0001250542550000091
207,从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量。
具体的,所述上位词检测设备从所述词向量集合中获取所述目标实体词对应的第一词向量,以及所述候选上位词的第二词向量。可选的,所述词向量集合中包含多个词对应的词向量。
208,将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量。
具体的,所述上位词检测设备将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量。其中,所述第一词向量和所述第二词向量是用于区分目标实体词和候选上位词对应的词向量的。
进一步的,将获取到的第一词向量、第二词向量以及步骤206中生成的句子集合向量进行合并,生成目标向量。举例来说,若第一词向量为N1,第二词向量为N2,句子集合词向量为Havg;则目标向量T为:
T=[N1,N2,Havg,]
209,采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。
具体的,所述上位词检测设备采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。可选的方案中,由于本发明实施例是为了检测候选上位词是否为所述目标实体词的上位词,因此,将分类器设定为两个分类,分别是第一分类和第二分类,其中,所述第一分类表示所述候选上位词是所述目标实体词的上位词;所述第二分类表示所述候选上位词不是所述目标实体词的上位词。通过预设分类器可以计算得到每个分类对应的分类值,并按照分类值确定检测结果。
举例来说,若任意一个词向量的维度为N维,句子集合向量的维度为H维,则在步骤208中确定的目标向量为(N+N+H)维,预设分类器包含第一分类和第二分类,该预设分类器可以通过一个(N+N+H)行*2列的参数矩阵,对目标向量进行计算,进而获得每个分类的分类值。其中,(N+N+H)行*2列的参数矩阵是所述上位词检测设备通过多个训练候选对训练获得的。
可选的,若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值,则确定所述候选上位词是所述目标实体词的上位词;若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值,则确定所述候选上位词不是所述目标实体词的上位词。举例来说,(N+N+H)行*2列的参数矩阵是通过正负候选对进行训练获得,使得大多数正候选对的第一分类对应的分类值较大,且大多数负候选对的第二分类对应的分类值较小。
可选的,所述预设分类器可以包括但不限定于softmax分类器。以softmax分类器举例来说,每个分类对应的分类值表示该分类可能出现的概率,且各个分类的可能出现的概率之和为1。若第一分类的概率为0.8,第二分类的概率为0.2;则由于第一分类的概率大于第二分类的概率,因此确定所述候选上位词是所述目标实体词的上位词。
除了采用上述通过第一分类对应的分类值与第二分类对应的分类值进行比较的方式来确定检测结果之外,还可以通过对第一分类对应的分类值进行判断以确定检测结果。例如,若采用预设分类器计算的所述第一分类对应的分类值大于第一阈值,则确定所述候选上位词是所述目标实体词的上位词;若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第一阈值,则确定所述候选上位词不是所述目标实体词的上位词。举例来说,(N+N+H)行*2列的参数矩阵是通过正负候选对进行训练获得,使得大多数正候选对的第一分类对应的分类值大于第一阈值,且大多数负候选对的第一分类对应的分类值大于所述第一阈值。
以及,还可以通过对第二分类对应的分类值进行判断以确定检测结果。例如,若采用预设分类器计算的所述第二分类对应的分类值大于第二阈值,则确定所述候选上位词不是所述目标实体词的上位词;若采用所述预设分类器计算的所述第二分类对应的分类值不大于所述第二阈值,则确定所述候选上位词是所述目标实体词的上位词。举例来说,(N+N+H)行*2列的参数矩阵是通过正负候选对进行训练获得,使得大多数正候选对的第二分类对应的分类值不大于所述第二阈值,且大多数负候选对的第二分类对应的分类值大于第二阈值。
为了更好的理解本发明实施例,请一并参见图5,为本发明实施例提供了一种上位词检测方法的示例图。如图5所示,在上位词检测设备中包括预存句子集合存储模块、词向量存储模块、LSTM模块、预设分类器模块。其中,所述预存句子集合存储模块,用于存储大量的语料数据,可以用于提取候选对并检测候选上位词是否为实体词的上位词。所述词向量存储模块可以用于存储由训练候选对训练生成的各个词对应的词向量,可以用于确定实体词、候选上位词、句子中的分词等的词向量。所述LSTM模块可以用于检测候选上位词是否为实体词的上位词,并将多个候选句子的句子矩阵压缩为句子集合向量,以通过向量的方式表示多个句子矩阵。预设分类器模块可以用于检测候选上位词是否为实体词的上位词。
基于图5的具体实现过程为,首先,获取输入的目标候选对,从上位词检测设备中的预存句子集合存储模块中获取包含目标候选对的候选句子,并将包含目标候选对的候选句子组合为候选句子集合;接着,通过对候选句子集合中的每个候选句子进行分词,以提取每个候选句子中包含的至少一个分词,并从词向量存储模块中确定至少一个分词中每个分词对应的词向量,按照每个分词在每个候选句子中的排列顺序,将每个分词对应的词向量进行组合,生成每个候选句子对应的句子矩阵;然后,基于LSTM模块,根据候选句子集合中每个候选句子对应的句子矩阵,确定每个候选句子对应的句子向量;对候选句子集合中每个候选句子对应的句子向量进行加权平均,生成候选句子集合对应的句子集合向量;以及从词向量存储模块中获取目标实体词对应的第一词向量和候选上位词的第二词向量;最后,通过预设分类器模块根据目标实体词对应的第一词向量、候选上位词的第二词向量和句子集合向量,确定检测结果,其中检测结果为候选上位词是否为目标实体词的上位词。
在本发明实施例中,首先从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,目标候选对包括目标实体词和目标实体词对应的候选上位词;根据候选句子集合中的每个候选句子和预存的词向量集合,确定候选句子集合对应的句子集合向量;根据从词向量集合中获取的目标实体词对应的第一词向量和候选上位词对应的第二词向量,以及句子集合向量,检测候选上位词是否为目标实体词的上位词。通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析,进而实现对候选上位词是否为实体词的上位词的检测,并避免了人工提取上位词特征,提高了上位词的检测效率。
请参见图6,为本发明实施例提供了一种上位词检测设备的结构示意图。如图6所示,本发明实施例的所述上位词检测设备1可以包括:生成模块11、确定模块12、检测模块13。
生成模块11,用于从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,所述目标候选对包括目标实体词和目标实体词对应的候选上位词。
具体的,所述生成模块11从生成的至少一个候选对中选择一个确定为目标候选对,并从预存句子集合中选取包含目标候选对的候选句子。所述目标候选对包括目标实体词和目标实体词对应的候选上位词。所述生成模块11先从预存句子集合中选择既包含目标实体词又包含候选上位词的候选句子,在将所选择的候选句子组合为候选句子集合,该候选句子集合是用于检测所述目标候选对中候选上位词是否为目标实体词的上位词的。
确定模块12,用于根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量。
具体的,请一并请参见图7,为本发明实施例提供了一种确定模块的结构示意图,如图9所示,所述确定模块12包括:矩阵确定单元121、向量生成单元122。
矩阵确定单元121,用于根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵。
具体的,请一并请参见图8,为本发明实施例提供了一种矩阵确定单元的结构示意图,如图8所示,所述矩阵确定单元121包括:词向量确定子单元1211、句子矩阵生成子单元1212。
词向量确定子单元1211,用于对所述候选句子集合中的每个候选句子进行分词,以提取所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量。
具体的,所述词向量确定子单元1211对所述候选句子集合中的每个候选句子进行分词,进而提取到所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量。可选的,所述词向量确定子单元1211可以按照包含多个单词、词语和短语的词条字典对每个候选句子进行划分以得到至少一个分词,并将该候选句子中的每个分词转变为词向量。
可选的,词向量是将一个词用向量的方式表示,所述词向量确定子单元1211可以从预存的词向量集合中分别查找该候选句子中每个分词对应的词向量。举例来说,预存的词向量集合可以是通过词转化为向量的工具(如,word2vec方法)实现将一个词转化为词向量。
句子矩阵生成子单元1212,用于按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
具体的,所述句子矩阵生成子单元1212按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
对于候选句子集合中的每个候选句子都可以按照词向量确定子单元1211、句子矩阵生成子单元1212来确定每个候选句子对应的句子矩阵。以一个候选句子为例进行说明。
如,候选句子为“abc”;对该候选句子分词后得到“word1word2word3”,word1=a、word2=b、word3=c;接着在词向量集合中查找到分词对应的词向量,word1=wordembedding1、word2=word embedding2、word3=word embedding3;最后按照各分词在该候选句子中的顺序构造该候选句子对应的句子矩阵,句子矩阵如下所示,其中,由于候选句子中分词的数量为3,若每个分词对应的词向量为N维,则该句子矩阵为3*N。
Figure BDA0001250542550000141
向量生成单元122,用于根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量。
具体的,请一并请参见图9,为本发明实施例提供了一种向量生成单元的结构示意图,如图9所示,所述向量生成单元122包括:类别确定单元1221、数量确定单元1222。
句子向量确定子单元1221,用于基于用于上位词检测的时间递归神经网络,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量。
具体的,所述句子向量确定子单元1221通过LSTM,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量。其中,本发明实施例中的LSTM是用于上位词检测的。所述句子向量确定子单元1221可以通过LSTM将候选句子集合压缩为H维向量,其中,H是LSTM网络中预设的隐藏层数量,根据海量的正负候选对包含的候选句子集合,对LSTM进行训练,这样LSTM能够得到正负候选对所包含的一些语义特征,例如,句式的隐含信息、全局状态等特征,基于已经获得正负候选对所包含的语义特征之后,能够实现对目标候选对的检测。
可选的,所述LSTM学习正负候选对所包含的一些语义特征的具体过程为:以正候选对为例,输入海量的正候选对中每个正候选对,获取包含正候选对的候选句子集合,从候选句子集合中提取多类语义特征及各个特征对应的特征值;同样,对于负候选对也执行相同的操作,并以着大多数正候选对的特征值接近与预设标准值,大多数负候选对的特征值远离预设标准值的原则,确定用于上位词检测的LSTM。
需要说明的是,正候选对、负候选对于本发明实施例中目标候选对所包含的信息类型相同。正候选对包括一实体词和与该实体词对应的候选上位词,对于正候选对而言,候选上位词是该实体词的上位词。负候选对包括一实体词和与该实体词对应的候选上位词,对于负候选对而言,候选上位词不是该实体词的上位词。
向量生成子单元1222,用于对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。
具体的,所述向量生成子单元1222对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。这样能够通过一句子集合向量上来表示包含该目标候选对的全部候选句子的句子信息。
其中,各个句子分量对应的加权值可以由所述上位词检测设备1自由设定,还可以根据各个候选句子对应的等级进行设定,例如等级高的设定较大的加权值,等级低的设定较小的加权值。进一步可选的,每个候选句子的等级可以根据但不限定于候选句子的长度、包含的目标候选对中目标实体词和/或候选上位词的数量而确定。
举例来说,若所述候选句子集合中包含4个候选句子,且通过类别确定单元1221确定的每个候选句子对应的句子向量分别为H1、H2、H3和H4;且各个句子分量的加权值均为1,则该候选句子集合对应的句子集合向量为:
Figure BDA0001250542550000151
检测模块13,用于根据从所述词向量集合中获取的所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,以及确定的所述句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词。
具体的,请一并请参见图10,为本发明实施例提供了一种检测模块的结构示意图,如图10所示,所述检测模块13包括:词向量获取单元131、目标向量生成单元132、上位词检测单元133。
词向量获取单元131,用于从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量。
具体的,所述上位词检测设备从所述词向量集合中获取所述目标实体词对应的第一词向量,以及所述候选上位词的第二词向量。可选的,所述词向量集合中包含多个词对应的词向量。
目标向量生成单元132,用于将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量。
具体的,所述上位词检测设备将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量。其中,所述第一词向量和所述第二词向量是用于区分目标实体词和候选上位词对应的词向量的。
进一步的,将获取到的第一词向量、第二词向量以及向量生成单元122中生成的句子集合向量进行合并,生成目标向量。举例来说,若第一词向量为N1,第二词向量为N2,句子集合词向量为Havg;则目标向量T为:
T=[N1,N2,Havg,]
上位词检测单元133,用于采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。
可选的,所述预设分类器包含第一分类和第二分类,所述第一分类表示所述候选上位词是所述目标实体词的上位词。所述第二分类表示所述候选上位词不是所述目标实体词的上位词。
所述上位词检测单元133,具体用于:若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值,则确定所述候选上位词是所述目标实体词的上位词。若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值,则确定所述候选上位词不是所述目标实体词的上位词。
可选的,若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值,则确定所述候选上位词是所述目标实体词的上位词;若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值,则确定所述候选上位词不是所述目标实体词的上位词。
可选的,所述预设分类器可以包括但不限定于softmax分类器。以softmax分类器举例来说,每个分类对应的分类值表示该分类可能出现的概率,且各个分类的可能出现的概率之和为1。若第一分类的概率为0.8,第二分类的概率为0.2;则由于第一分类的概率大于第二分类的概率,因此确定所述候选上位词是所述目标实体词的上位词。
除了采用上述通过第一分类对应的分类值与第二分类对应的分类值进行比较的方式来确定检测结果之外,还可以通过对第一分类对应的分类值进行判断以确定检测结果。例如,若采用预设分类器计算的所述第一分类对应的分类值大于第一阈值,则确定所述候选上位词是所述目标实体词的上位词;若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第一阈值,则确定所述候选上位词不是所述目标实体词的上位词。
以及,还可以通过对第二分类对应的分类值进行判断以确定检测结果。例如,若采用预设分类器计算的所述第二分类对应的分类值大于第二阈值,则确定所述候选上位词不是所述目标实体词的上位词;若采用所述预设分类器计算的所述第二分类对应的分类值不大于所述第二阈值,则确定所述候选上位词是所述目标实体词的上位词。
可选的,所述上位词检测设备1的生成模块11在执行从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合之前,还用于:从预存句子集合中提取多个实体词,并生成包含所述多个实体词的实体词集合;采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词,并生成包含所述多个候选上位词的候选上位词集合;将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合,生成候选对。可选的,所述预设词性可以包括名词和名词短语中的至少一项。另外,在本发明实施例中,如果实体词和候选上位词存在上下位关系,则确定候选上位词为实体词的上位词,例如,实体词为老虎,候选上位词为动物,可以认为老虎是动物,因此动物是老虎的上位词。由于介词、形容词、副词等词性的词语无法确定相对应的上位词,因此可以通过预设词性的方式将无法找到上位词的词性进行排除,以减少上位词检测的计算量和复杂度。
在本发明实施例中,首先从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,目标候选对包括目标实体词和目标实体词对应的候选上位词;根据候选句子集合中的每个候选句子和预存的词向量集合,确定候选句子集合对应的句子集合向量;根据从词向量集合中获取的目标实体词对应的第一词向量和候选上位词对应的第二词向量,以及句子集合向量,检测候选上位词是否为目标实体词的上位词。通过将包含候选对的句子和候选对中的实体词、候选上位词一并分析,进而实现对候选上位词是否为实体词的上位词的检测,并避免了人工提取上位词特征,提高了上位词的检测效率。
请参见图11,为本发明实施例提供了另一种上位词检测设备的结构示意图。如图11所示,所述上位词检测设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及上位词检测应用程序。
在图11所示的上位词检测设备1000中,处理器1001可以用于调用存储器1005中存储的上位词检测应用程序,并具体执行以下操作:
从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,所述目标候选对包括目标实体词和目标实体词对应的候选上位词;
根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量;
根据从所述词向量集合中获取的所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,以及确定的所述句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词。
在一个实施例中,所述处理器1001在执行从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合之前,还执行:
从预存句子集合中提取多个实体词,并生成包含所述多个实体词的实体词集合;
采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词,并生成包含所述多个候选上位词的候选上位词集合;
将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合,生成候选对。
在一个实施例中,所述预设词性为名词和名词短语中的至少一项。
在一个实施例中,所述处理器1001在执行根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量,具体执行:
根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵;
根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量。
在一个实施例中,所述处理器1001在执行根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵,具体执行:
对所述候选句子集合中的每个候选句子进行分词,以提取所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量;
按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
在一个实施例中,所述处理器1001在执行根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量,具体执行:
基于用于上位词检测的时间递归神经网络,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量;
对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。
在一个实施例中,所述处理器1001在执行根据从所述词向量集合中获取的所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,以及确定的所述句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词,具体执行:
从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量;
将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量;
采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。
在一个实施例中,所述预设分类器包含第一分类和第二分类,所述第一分类表示所述候选上位词是所述目标实体词的上位词;所述第二分类表示所述候选上位词不是所述目标实体词的上位词;
所述处理器1001在执行采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词,具体执行:
若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值,则确定所述候选上位词是所述目标实体词的上位词;
若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值,则确定所述候选上位词不是所述目标实体词的上位词。
需要说明的是,本发明实施例所描述的处理器1001所执行的动作可根据上述图1至图5所示方法实施例中的方法具体实现,此处不再赘述。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例终端中的模块或单元可以根据实际需要进行合并、划分和删减。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种上位词检测方法,其特征在于,包括:
从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,所述目标候选对包括目标实体词和目标实体词对应的候选上位词;
根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量;
从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量;
将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量;
采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。
2.根据权利要求1所述的方法,其特征在于,所述从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合之前,还包括:
从预存句子集合中提取多个实体词,并生成包含所述多个实体词的实体词集合;
采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词,并生成包含所述多个候选上位词的候选上位词集合;
将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合,生成候选对。
3.根据权利要求2所述的方法,其特征在于,所述预设词性为名词和名词短语中的至少一项。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量,包括:
根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵;
根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量。
5.根据权利要求4所述的方法,其特征在于,所述根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵,包括:
对所述候选句子集合中的每个候选句子进行分词,以提取所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量;
按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
6.根据权利要求4所述的方法,其特征在于,所述根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量,包括:
基于用于上位词检测的时间递归神经网络,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量;
对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。
7.根据权利要求1所述的方法,其特征在于,所述预设分类器包含第一分类和第二分类,所述第一分类表示所述候选上位词是所述目标实体词的上位词;所述第二分类表示所述候选上位词不是所述目标实体词的上位词;
所述采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词,包括:
若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值,则确定所述候选上位词是所述目标实体词的上位词;
若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值,则确定所述候选上位词不是所述目标实体词的上位词。
8.一种上位词检测设备,其特征在于,包括:
生成模块,用于从预存句子集合中选取包含目标候选对的候选句子,以生成候选句子集合,所述目标候选对包括目标实体词和目标实体词对应的候选上位词;
确定模块,用于根据所述候选句子集合中的每个候选句子和预存的词向量集合,确定所述候选句子集合对应的句子集合向量;
检测模块,用于根据从所述词向量集合中获取的所述目标实体词对应的第一词向量和所述候选上位词对应的第二词向量,以及确定的所述句子集合向量,检测所述候选上位词是否为所述目标实体词的上位词;
所述检测模块包括词向量获取单元、目标向量生成单元以及上位词检测单元,其中:
词向量获取单元,用于从所述词向量集合中获取所述目标实体词对应的第一词向量和所述候选上位词的第二词向量;
目标向量生成单元,用于将所述目标实体词对应的第一词向量、所述候选上位词的第二词向量和所述句子集合向量进行合并,生成目标向量;
上位词检测单元,用于采用预设分类器检测所述候选上位词是否为所述目标实体词的上位词。
9.根据权利要求8所述的设备,其特征在于,所述生成模块,还用于:
从预存句子集合中提取多个实体词,并生成包含所述多个实体词的实体词集合;
采用分词方式从所述预存句子集合中提取满足预设词性的多个候选上位词,并生成包含所述多个候选上位词的候选上位词集合;
将所述实体词集合中的每个实体词与所述候选上位词集合中的每个候选上位词进行组合,生成候选对。
10.根据权利要求9所述的设备,其特征在于,所述预设词性为名词和名词短语中的至少一项。
11.根据权利要求8-10任一项所述的设备,其特征在于,所述确定模块包括:
矩阵确定单元,用于根据预存的词向量集合,确定所述候选句子集合中每个候选句子对应的句子矩阵;
向量生成单元,用于根据所述候选句子集合中所述每个候选句子对应的句子矩阵,生成所述候选句子集合对应的句子集合向量。
12.根据权利要求11所述的设备,其特征在于,所述矩阵确定单元包括:
词向量确定子单元,用于对所述候选句子集合中的每个候选句子进行分词,以提取所述每个候选句子中包含的至少一个分词,并根据预存的词向量集合确定所述至少一个分词中每个分词对应的词向量;
句子矩阵生成子单元,用于按照所述每个分词在所述每个候选句子中的排列顺序,将所述每个分词对应的词向量进行组合,生成所述每个候选句子对应的句子矩阵。
13.根据权利要求11所述的设备,其特征在于,所述向量生成单元包括:
句子向量确定子单元,用于基于用于上位词检测的时间递归神经网络,根据所述候选句子集合中所述每个候选句子对应的句子矩阵,确定所述每个候选句子对应的句子向量;
向量生成子单元,用于对所述候选句子集合中所述每个候选句子对应的句子向量进行加权平均,生成所述候选句子集合对应的句子集合向量。
14.根据权利要求8所述的设备,其特征在于,所述预设分类器包含第一分类和第二分类,所述第一分类表示所述候选上位词是所述目标实体词的上位词;所述第二分类表示所述候选上位词不是所述目标实体词的上位词;
所述上位词检测单元,具体用于:
若采用预设分类器计算的所述第一分类对应的分类值大于所述第二分类对应的分类值,则确定所述候选上位词是所述目标实体词的上位词;
若采用所述预设分类器计算的所述第一分类对应的分类值不大于所述第二分类对应的分类值,则确定所述候选上位词不是所述目标实体词的上位词。
CN201710172589.7A 2017-03-21 2017-03-21 一种上位词检测方法及设备 Active CN108304366B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710172589.7A CN108304366B (zh) 2017-03-21 2017-03-21 一种上位词检测方法及设备
PCT/CN2018/079111 WO2018171499A1 (zh) 2017-03-21 2018-03-15 一种信息检测方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710172589.7A CN108304366B (zh) 2017-03-21 2017-03-21 一种上位词检测方法及设备

Publications (2)

Publication Number Publication Date
CN108304366A CN108304366A (zh) 2018-07-20
CN108304366B true CN108304366B (zh) 2020-04-03

Family

ID=62872084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710172589.7A Active CN108304366B (zh) 2017-03-21 2017-03-21 一种上位词检测方法及设备

Country Status (2)

Country Link
CN (1) CN108304366B (zh)
WO (1) WO2018171499A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196982B (zh) * 2019-06-12 2022-12-27 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备
CN110610000A (zh) * 2019-08-12 2019-12-24 央视国际网络无锡有限公司 一种关键人名语境错误检测方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365912B (zh) * 2012-04-06 2016-12-14 富士通株式会社 对实体关系模式进行聚类、提取的方法和设备
CN104268296A (zh) * 2014-10-27 2015-01-07 刘莎 一种上位词搜索的方法与装置
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106407211B (zh) * 2015-07-30 2019-08-06 富士通株式会社 对实体词的语义关系进行分类的方法和装置
CN105808525B (zh) * 2016-03-29 2018-06-29 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法
CN106126588B (zh) * 2016-06-17 2019-09-20 广州视源电子科技股份有限公司 提供相关词的方法和装置

Also Published As

Publication number Publication date
WO2018171499A1 (zh) 2018-09-27
CN108304366A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN106328147B (zh) 语音识别方法和装置
CN109165291B (zh) 一种文本匹配方法及电子设备
US10235624B2 (en) Information processing method and apparatus
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN107180084B (zh) 词库更新方法及装置
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN110502738A (zh) 中文命名实体识别方法、装置、设备和查询系统
CN111090719B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
CN110781673B (zh) 文档验收方法、装置、计算机设备及存储介质
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN107783958B (zh) 一种目标语句识别方法及装置
CN108304366B (zh) 一种上位词检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant