CN112149427A - 动词短语蕴含图谱的构建方法及相关设备 - Google Patents
动词短语蕴含图谱的构建方法及相关设备 Download PDFInfo
- Publication number
- CN112149427A CN112149427A CN202011083727.2A CN202011083727A CN112149427A CN 112149427 A CN112149427 A CN 112149427A CN 202011083727 A CN202011083727 A CN 202011083727A CN 112149427 A CN112149427 A CN 112149427A
- Authority
- CN
- China
- Prior art keywords
- verb
- noun
- phrase
- verb phrase
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000003860 storage Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 46
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 238000005065 mining Methods 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000001364 causal effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 abstract description 22
- 238000013473 artificial intelligence Methods 0.000 abstract description 17
- 238000003058 natural language processing Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 24
- 206010019233 Headaches Diseases 0.000 description 22
- 231100000869 headache Toxicity 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000000605 extraction Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- RYYVLZVUVIJVGH-UHFFFAOYSA-N caffeine Chemical compound CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000202 analgesic effect Effects 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 235000019580 granularity Nutrition 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 4
- 229960001138 acetylsalicylic acid Drugs 0.000 description 4
- 239000002585 base Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- LPHGQDQBBGAPDZ-UHFFFAOYSA-N Isocaffeine Natural products CN1C(=O)N(C)C(=O)C2=C1N(C)C=N2 LPHGQDQBBGAPDZ-UHFFFAOYSA-N 0.000 description 3
- 229960001948 caffeine Drugs 0.000 description 3
- VJEONQKOZGKCAK-UHFFFAOYSA-N caffeine Natural products CN1C(=O)N(C)C(=O)C2=C1C=CN2C VJEONQKOZGKCAK-UHFFFAOYSA-N 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 244000269722 Thea sinensis Species 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 239000012458 free base Substances 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- LQIAZOCLNBBZQK-UHFFFAOYSA-N 1-(1,2-Diphosphanylethyl)pyrrolidin-2-one Chemical compound PCC(P)N1CCCC1=O LQIAZOCLNBBZQK-UHFFFAOYSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000021015 bananas Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 235000012730 carminic acid Nutrition 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种动词短语蕴含图谱的构建方法及装置、计算机可读存储介质、电子设备。该方法包括:获取目标语料;从所述目标语料中抽取第一动词短语;拆解所述第一动词短语,获得第一动词和第一名词;获得与所述第一名词具有蕴含关系的第二名词;获得与所述第一动词具有蕴含关系的第二动词;根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语;将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。通过本公开实施例提供的技术方案,可以实现高效构建高准确率的动词短语蕴含图谱,属于人工智能领域的自然语言处理技术。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种动词短语蕴含图谱的构建方法及装置、计算机可读存储介质、电子设备。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
知识表示是人工智能范畴中重要而且基础的技术,对于人类和机器理解和认知世界都发挥着重要的作用。其中知识图谱(Knowledge Graph,KG)作为目前最广泛使用的知识表示的一种技术,将现实生活中的实体、属性、概念等作为有语义信息的节点,以及它们之间的关系作为边构建出巨大的语义网络。在此之上,可以基于定义的推理规则,推导出没有显式给出的知识从而补全知识图谱或者帮助自然语言处理(Natural LanguageProcessing,NLP)的相关任务。
然而基于动作、场景以及动词短语的知识图谱构建并没有成熟的解决方法,目前动词短语的知识图谱都是通过语言学家或者众包标注人员构建起来的,需要大量的标注人力以及领域相关的专业知识,导致容易出现人为错误,并且得到的知识库小并且难以泛化到真实场景使用。
因此,需要一种新的动词短语蕴含图谱的构建方法及装置、计算机可读存储介质、电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种动词短语蕴含图谱的构建方法及装置、计算机可读存储介质、电子设备,能够解决上述相关技术中存在的构建动词短语的知识图谱效率低下且准确率较低的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种动词短语蕴含图谱的构建方法,所述方法包括:获取目标语料;从所述目标语料中抽取第一动词短语;拆解所述第一动词短语,获得第一动词和第一名词;获得与所述第一名词具有蕴含关系的第二名词;获得与所述第一动词具有蕴含关系的第二动词;根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语;将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。
本公开实施例提供一种动词短语蕴含图谱的构建装置,所述装置包括:目标语料获取单元,用于获取目标语料;第一动词短语抽取单元,用于从所述目标语料中抽取第一动词短语;第一动词短语拆解单元,用于拆解所述第一动词短语,获得第一动词和第一名词;名词推理对获得单元,用于获得与所述第一名词具有蕴含关系的第二名词;动词推理对获得单元,用于获得与所述第一动词具有蕴含关系的第二动词;第二动词短语获得单元,用于根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语;第一图谱生成单元,用于将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。
在本公开的一些示例性实施例中,第一动词短语抽取单元包括:待处理句子获得单元,用于对所述目标语料进行预处理,获得待处理句子;依存句法分析单元,用于对所述待处理句子进行依存句法分析,获得所述待处理句子的句法解析;第一模板匹配单元,用于利用根据所述依存句法分析设计的第一动词短语模板,从所述待处理句子的句法解析中抽取获得所述第一动词短语。
在本公开的一些示例性实施例中,第一动词短语抽取单元包括:待处理句子获得单元,用于对所述目标语料进行预处理,获得待处理句子;语义角色标注单元,用于获得所述待处理句子的语义角色标注;第二模板匹配单元,用于利用根据所述语义角色标注设计的第二动词短语模板,从所述待处理句子的语义角色标注中抽取获得所述第一动词短语。
在本公开的一些示例性实施例中,所述第一动词短语和所述第二动词短语包括主语和谓语;或者,主语、谓语和宾语;或者,主语、谓语、宾语和介词状语;或者,主语、第一类型动词和形容词;或者,主语、系表动词和形容词。
在本公开的一些示例性实施例中,所述第一动词短语和所述第二动词短语还包括因果词。
在本公开的一些示例性实施例中,名词推理对获得单元包括:名词上下位图谱获得单元,用于获得目标名词上下位图谱;上下位名词查找单元,用于从所述目标名词上下位图谱中查找与所述第一名词具有蕴含关系的所述第二名词;或者,上下位名词挖掘单元,用于通过句式规则挖掘获得与所述第一名词具有蕴含关系的所述第二名词。
在本公开的一些示例性实施例中,动词推理对获得单元包括:动词蕴含关系规则获得单元,用于获得目标动词蕴含关系规则;推理动词获得单元,用于根据所述目标动词蕴含关系规则获得所述第一动词的推理动词;动词词向量计算单元,用于计算所述第一动词和所述推理动词的词向量;动词相似度计算单元,用于根据所述第一动词和所述推理动词的词向量,计算所述第一动词和所述推理动词之间的相似度;第二动词确定单元,用于根据所述第一动词和所述推理动词之间的相似度,从所述推理动词中确定所述第二动词。
在本公开的一些示例性实施例中,第二动词短语获得单元包括:名词共现频率互信息获得单元,用于获得所述第一名词和所述第二名词的共现频率的互信息;名词指标获得单元,用于根据所述第一名词和所述第二名词的共现频率的互信息,获得所述第一名词和所述第二名词的名词指标;目标距离指标计算单元,用于计算所述第一动词与所述第二动词之间的目标距离指标;动词指标获得单元,用于根据所述第一动词和所述第二动词的目标距离指标,获得所述第一动词和所述第二动词的动词指标;初始动词短语生成单元,用于组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语;综合指标获得单元,用于根据所述名词指标和所述动词指标,获得所述初始动词短语的综合指标;第二动词短语选择单元,用于选择综合指标大于卡阈值的所述初始动词短语作为所述第二动词短语。
在本公开的一些示例性实施例中,目标距离指标计算单元包括:第一距离指标计算单元,用于计算所述第一动词与所述第二动词之间的第一距离指标;第二距离指标计算单元,用于计算所述第一动词与所述第二动词之间的第二距离指标;目标距离指标获得单元,用于根据所述第一距离指标与所述第二距离指标,获得所述目标距离指标。
在本公开的一些示例性实施例中,第二动词短语获得单元包括:初始动词短语生成单元,用于组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语;第二动词短语确定单元,用于通过训练完成的神经网络模型处理所述初始动词短语,从所述初始动词短语中确定所述第二动词短语。
在本公开的一些示例性实施例中,所述装置还包括:训练数据集获得单元,用于获得训练数据集,所述训练数据集包括动词短语样本及其标签;预测输出获得单元,用于将所述动词短语样本输入至所述神经网络模型,获得所述动词短语样本的预测输出;神经网络模型训练单元,用于根据所述动词短语样本的预测输出及其标签训练所述神经网络模型。
在本公开的一些示例性实施例中,所述第一图谱中的节点采用第一语言。其中,所述装置还包括:第一语言向量获得单元,用于获取所述第一图谱中各节点的第一语言向量;第二语言向量获得单元,用于获取采用第二语言的第三动词短语的第二语言向量;第二图谱生成单元,用于匹配所述第一语言向量和所述第二语言向量,迁移所述第一图谱生成采用所述第二语言的第二图谱。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的动词短语蕴含图谱的构建方法。
本公开实施例提供了一种电子设备,包括:至少一个处理器;存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述实施例中所述的动词短语蕴含图谱的构建方法。
在本公开的一些实施例所提供的技术方案中,通过将从目标语料中抽取出的第一动词短语拆解获得第一动词和第一名词,分别获得与第一名词具有蕴含关系的第二名词和得与第一动词具有蕴含关系的第二动词,根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语,从而可以综合利用第一名词的蕴含关系和第一动词的蕴含关系进行语义的组合来实现第一动词短语蕴含关系的预测,充分考虑了名词语义结构对于动词短语关系预测的重要性,实现了一种高效地构建高准确率的动词短语蕴含图谱的方法,能够用于满足大规模的动作以及事件级别推理的需求,同时能够帮助从不同的粒度去理解动词短语的自身语义。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了相关技术中构建动词短语的示意图。
图2示出了相关技术中构建动词短语的示意图。
图3示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图4示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图5示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图6示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图7示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图8示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图9示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的示意图。
图10示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图11示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建装置的框图。
图12示出了可以应用本公开实施例的动词短语蕴含图谱的构建方法的示例性场景示意图。
图13示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在至少一个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在至少一个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
下面结合附图对本公开示例实施方式进行详细说明。
对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释。
1)深度学习(Deep Learning,DL):机器学习(Machine Learning,ML)领域中一个新的研究方向,被引入机器学习使其更接近于最初的目标—人工智能(AI)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息,对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
2)知识图谱(KG):对现实世界中的实体、概念、属性以及它们之间的关系进行建模的语义网络,是广泛使用的知识表示的一种方法,在信息检索、问答系统、推荐系统等需要知识的场景中发挥巨大的作用。
常见KG包括Freebase(是个创作共享类网站,Freebase中的条目都采用结构化数据的形式),Probase(一个数据驱动的语义网络,由数百万个细粒度概念及其关系组成),WordNet(一种基于认知语言学的英语词典。它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。WordNet的名词网络是第一个发展起来的,名词网络的主干是蕴涵关系的层次(上下位关系),它占据了关系中的将近80%)等。
在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
3)NLP:自然语言处理,是人工智能的分支,用于处理、分析以及应用自然语言的技术,包括文本理解和生成等关键任务。
4)Hypernymy/hyponymy:上下位关系是语言学概念,一般用于描述名词短语之间语义蕴含的带有层次结构关系,概括性较强的单词叫做特定性较强的单词的上位词(hypernym),特定性较强的单词叫做概括性较强的单词的下位词(hyponym)。
例如,苹果是一种水果,(苹果,水果)具有上下位关系。
再例如,猩红色、鲜红色、胭脂红、绯红色都是“红色”的下位词,而红色则是猩红色的上位词。
5)Predicate Entailment:谓词/动词推理,通常指的是用于描述关系的文本之间的推理,例如X marry Y(X与Y结婚)可以推理出X be the spouse of Y(X是Y的配偶)。(marry,be the spouse of)可以称之为一则谓词推理规则。
6)Distributional Inclusion Hypothesis(DIH):分布式包含假说,对于一则推理规则(premise->hypothesis,前提->假说),在大规模语料中,前提premise的内容(context)或者特征应该大体上包含假说hypothesis的对应的内容或者特征。此假说可以用于分布式的有监督的名词上下位关系或者谓词推理规则的预测。
7)Entailment Graph:蕴含关系图,利用蕴含关系的传递性将带有蕴含推理规则的文本对组织成图谱结构,方便进行推理和帮助自然语言处理任务。蕴含同“蕴涵”,是动词,指一个词包含了的内容。
例如:如果事件A发生必导致事件B发生,则称A蕴含了B,或者说B包含了A,记为A包含于B。蕴含的符号:A蕴含B,记为"A→B"。蕴含关系的传递性:如果A→B并且B→C,那么A→C,即如果A蕴含B并且B蕴含C,那么A蕴含C。
8)Dependency Parsing:依存句法分析,根据特定的语法规则将句子解析成树状结构。
9)Link Prediction:链路预测,用于预测一张图中任意两个节点之间是否存在边以及边的种类,在知识图谱中用于图谱的补全以及知识的蕴含推理等。
10)动词短语(verb pahrase):是有些动词可以和一些别的词构成短语(以动词为中心),表达一个概念,其作用和一个单独动词差不多的一种固定搭配。在实际使用中,通常会把动词短语当成一个整体。
11)文本信息抽取(Text Information Extraction)指的是从自然语言文本中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输出的文本处理技术。
相关技术中,动词短语的推理图谱的构建,从构建图谱的节点类型的不同可以分为两类,图1和图2两个不同的推理图谱的节点代表不同粒度的文本。
其中,第一类是如图1所示的谓词推理,和普通的动词推理不同的是图1中将谓词的主语和宾语都映射到他们各自的类型(也可以称之为typed predicate)。
例如,如图1所示,该推理图谱中包括X治愈Y(X cure Y),Y引起Y(X trigger Y),X治疗Y(X treat Y),X使感染Y(X affect Y)这四个节点,可以看出,图1的推理图谱中所有的动词所接的主语和宾语都是一样的类型,例如X是药物名,Y是疾病名。
第二类是如图2所示的主谓宾动词短语推理。为了表达更加准确的语义,它没有对主语和宾语进行如图1所示的类型的归一化,图2这一类的图谱保留了丰富的名词推理潜能,但极大地增加了图节点的数目,从而增大了构建和评估的难度。
如图2所示,根据“阿司匹林,消除,头痛”(aspirin,eliminate,headache),“阿司匹林,治愈,头痛”(aspirin,cure,headache),“头痛,被控制,阿司匹林”(headache,control with,aspirin)能够推理出“镇痛剂,赶走,头痛”(analgesic,banish,headache)和“头痛,作出反应,止痛药”(headache,respond to,painkiller)命题(proposition)。而根据“咖啡,改善,头痛”(coffee,help,headache)和“茶,缓解,头痛”(tea,soothe,headache)能够推理出“头痛,被处理,咖啡因”(headache,treat with,caffeine)。
进一步地,根据“镇痛剂,赶走,头痛”、“头痛,作出反应,止痛药”、“头痛,被处理,咖啡因”能够推理出“药物,治疗,头痛”(drug,treat,headache)和“药物,缓和,头痛”(drug,relieve,headache)。
从构建方法的角度,图1和图2都是基于局部预测和全局扩充的两步走的方法,首先使用链路预测的方法对于一对节点进行预测,然后根据推理规则语义的传递性(例如A->B,以及B->C可以推出A->C)进行全局的扩充。技术的难点在于随着图节点数目的增加,全局传递性的扩充算法复杂度太高,只能支持数百节点的计算,无法扩展到大规模的图谱构建。
图1和图2的技术方案在大规模动词短语推理图谱的构建中存在以下的缺点:
第一,动词短语的蕴含推理规则中包括动词和名词两部分,它们大多仅仅考虑了谓词/动词推理,忽视了名词上下位关系在动词短语蕴含关系的作用,导致缺失了很多重要的规则,例如I eat apples->I eat fruits。
第二,图2构建的图谱把通过OpenIE(Open Information Extraction,开放信息抽取)抽取的主谓宾结构的短语作为节点,仅仅保留了动词的二元关系短语(这里的二元关系指的是(主语,动词),(动词,宾语)这种主谓宾的二元关系),但实际情况中,修饰动词的可能还有时间、地点等状语,上述相关技术忽视了广泛存在的多元关系,如表达动作发生的时间、地点、方式等的介词短语,例如I eat lunch at home和I eat lunch at therestaurant表达不用的情景和语义。
第三,基于传递性的全局扩充算法例如ILP(Integer Linear Programming整型线性规划)复杂度太高,无法实现在大规模的推理图谱上的高效计算。使得上述两种方法构建的推理图谱节点数目少,也仅局限于特定领域的语料抽取(比如:医疗和新闻),无法推广到通用场景下的使用。
基于上述相关技术中存在的技术问题,本公开实施例提出了一种动词短语蕴含图谱的构建方法,以用于至少部分解决上述问题。本公开各实施例提供的方法可以由任意的电子设备来执行,例如服务器,或者终端,或者服务器与终端之间进行交互,本公开对此不做限定。
图3示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
如图3所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S310中,获取目标语料。
本公开实施例中,目标语料作为整套系统的输入,可以是大规模的任意一种或者多种语言的语料,本公开对此不做限定。在下面的举例说明中,以目标语料为英文语料进行举例说明,可以包括英文维基、新闻、商品评论等。
在步骤S320中,从所述目标语料中抽取第一动词短语。
本公开实施例中,经过对目标语料的预处理和模板匹配,可以抽取获得高质量的第一动词短语,本公开对第一动词短语的数量不做限制。其中,第一动词短语成分中可以包括核心的动词及其附属的主语、宾语,也可以包括各种介词状语。
在步骤S330中,拆解所述第一动词短语,获得第一动词和第一名词。
本公开实施例中,对各个第一动词短语进行解构映射,根据上述步骤S320抽取出来的第一动词短语包括不同的语义成分,从词性来将主要分为动词、名词以及形容词。本公开实施例提供的系统主要从动词和名词这两类具有显著推理规则的词性出发,将第一动词短语拆解成第一动词和第一名词两部分,本公开对第一动词和第一名词的数量不做限制。
在步骤S340中,获得与所述第一名词具有蕴含关系的第二名词。
本公开实施例中,获得与第一名词具有上下位关系的名词作为其第二名词,例如查找第一名词的上位词作为与第一名词具有蕴含关系的第二名词。
在步骤S350中,获得与所述第一动词具有蕴含关系的第二动词。
在步骤S360中,根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语。
在示例性实施例中,所述第一动词短语和所述第二动词短语可以包括主语和谓语;或者,主语、谓语和宾语;或者,主语、谓语、宾语和介词状语;或者,主语、第一类型动词和形容词;或者,主语、系表动词和形容词等。
本公开实施例基于推理规则,提出了一种高效构建大规模动词短语蕴含图谱的方法,在图谱节点上可以把动词的二元关系扩展到多元关系,丰富了动词短语语义的完整性和对于下游任务的高度匹配度。
在示例性实施例中,所述第一动词短语和所述第二动词短语还包括因果词。
本公开实施例中,可以定义更加丰富地模板(例如下述实施例中的第一动词短语模板和第二动词短语模板)来涵盖现实生活中的动作,情景以及时态等。
例如,模板可以考虑加入带因果的短语“due to/because”。如“I eat apple dueto its sweet.”(我吃苹果是因为它很甜。)
在步骤S370中,将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。
本公开实施例中,可以基于得到的各个第一动词短语和各个第二动词短语,将他们组织成具有蕴含推理关系的第一图谱。
例如,包括“I chew apple->I eat fruits”这样的规则。
本公开实施方式提供的动词短语蕴含图谱的构建方法,通过将从目标语料中抽取出的第一动词短语拆解获得第一动词和第一名词,分别获得与第一名词具有蕴含关系的第二名词和得与第一动词具有蕴含关系的第二动词,根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语,从而可以综合利用第一名词的蕴含关系和第一动词的蕴含关系进行语义的组合来实现第一动词短语蕴含关系的预测,充分考虑了名词语义结构对于动词短语关系预测的重要性,实现了一种高效地构建高准确率的动词短语蕴含图谱的方法,能够用于满足大规模的动作以及事件级别推理的需求,同时能够帮助从不同的粒度去理解动词短语的自身语义。
图4示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
如图4所示,本公开实施例提供的方法可以包括以下步骤。
图4实施例中步骤S310可以参照上述图3实施例的步骤S310。
图4实施例中,上述图3实施例中的步骤S320可以进一步包括步骤S321,还可以包括步骤S322和步骤S323、或者步骤S324和步骤S325。
在步骤S321中,对所述目标语料进行预处理,获得待处理句子。
例如,对于上述已有的英文的目标语料,先进行基本的清洗和简单的分词处理(Tokenization)等预处理,整理成以完整句子为单位的待处理句子。
在步骤S322中,对所述待处理句子进行依存句法分析,获得所述待处理句子的句法解析。
在步骤S323中,利用根据所述依存句法分析设计的第一动词短语模板,从所述待处理句子的句法解析中抽取获得所述第一动词短语。
本公开实施例中,可以将上述步骤S321获得的待处理句子输入至依存句法分析器进行句法解析。对于每句待处理句子生成的句法解析,利用定义好的第一动词短语模板抽取主要类型的动词短语作为第一动词短语。例如其中最主要的几种可以包括上述的“主语-谓语”,“主语-谓语-宾语”,“主语-谓语-宾语-介词状语”,“主语-be动词(即上述第一类型动词)-形容词”以及“主语-系表动词-形容词”。
例如:“I sleep”(我睡觉)这个第一动词短语包括主语和谓语。“I eat food”(我吃东西)这个第一动词短语包括主语、谓语和宾语。“I eat food at home”(我在家吃东西)这个第一动词短语包括主语、谓语、宾语和介词状语。“I be happy”(我很高兴)这个第一动词短语包括主语、be动词和形容词。“I seem happy”(我看起来很开心)这个第一动词短语包括主语、系表动词和形容词。
本公开实施例中,形容词或者介词状语等作为事件的重要组成成分,将这些抽取出来的事件作为第一图谱的节点的组成部分,其次因为介词状语和形容词难以定义出上下位蕴含关系,因此,本公开实施例主要是针对名词和动词构建,但形容词或者介词状语等本身是图谱的一部分。例如“apple is delicious->fruit is delicious”。
在步骤S324中,获得所述待处理句子的语义角色标注。
在步骤S325中,利用根据所述语义角色标注设计的第二动词短语模板,从所述待处理句子的语义角色标注中抽取获得所述第一动词短语。
本公开实施例中,第一动词短语的抽取,可以将依存句法分析设计的第一动词短语模板替换成利用SRL(Semantic Role Labeling,语义角色标注)的第二动词短语模板。
需要说明的是,如何获得第一动词短语的方式并不限于上述例举的两种方式,还可以采用其他方式获取。
图4实施例中的步骤S330可以参照上述图3实施例中的步骤S330。
图4实施例中,上述图3实施例中的步骤S340可以进一步包括步骤S341和步骤S342、或者步骤S343。
在步骤S341中,获得目标名词上下位图谱。
在步骤S342中,从所述目标名词上下位图谱中查找与所述第一名词具有蕴含关系的所述第二名词。
本公开实施例中,对于第一名词,系统可以从已有的目标名词上下位图谱(例如Probase)中找到相应的推理对以确定第二名词。
例如,“apple->fruit”(苹果是水果的一种),“apple->company”(苹果也可能是一个公司的名字)。
在步骤S343中,通过句式规则挖掘获得与所述第一名词具有蕴含关系的所述第二名词。
本公开实施例中,名词上下位关系的映射除了利用已有的目标名词上下位图谱来获取,还可以采用其他任意方式来获取,本公开对此不做限定。在其他实施例中,还可以通过句式规则来进行挖掘,例如“fruits such as apples and bananas.”就可以高效准确的挖掘出第一名词和第二名词之间的上下位关系。
图4实施例中的步骤S350-步骤S370可以参照上述图3实施例中的步骤S350-步骤S370。
本公开实施方式提供的动词短语蕴含图谱的构建方法,可以采用不同的方式来抽取获得第一动词短语,也可以采用不同的方式来获得与第一名词具有蕴含关系的第二名词。
图5示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。如图5所示,本公开实施例提供的方法可以包括以下步骤。
图5实施例中的步骤S310-步骤S340中可以参照上述图3和图4实施例中的步骤S310-步骤S340。
图5实施例中,上述实施例中的步骤S350可以进一步包括以下步骤S351-步骤S355。
在步骤S351中,获得目标动词蕴含关系规则。
在步骤S352中,根据所述目标动词蕴含关系规则获得所述第一动词的推理动词。
本公开实施例中,对于第一动词,系统可以从编辑的目标动词蕴含关系规则中找到对应的推理对以确定第一动词的推理动词,例如“chew->eat”(咀嚼->吃)。
在步骤S353中,计算所述第一动词和所述推理动词的词向量。
在步骤S354中,根据所述第一动词和所述推理动词的词向量,计算所述第一动词和所述推理动词之间的相似度。
在步骤S355中,根据所述第一动词和所述推理动词之间的相似度,从所述推理动词中确定所述第二动词。
本公开实施例中,由于动词的语义比较复杂以及编辑的动词推理对也存在较大的噪声,且下述实施例中在利用balprec(目标距离指标)计算动词蕴含关系时,两个动词对(第一动词和第二动词)中用来表征两个动词的特征过于稀疏,导致计算的效果不准确。
因此,本公开实施例中可以首先利用词向量来表达第一动词和各个推理动词。然后,计算每一个第一动词与其他各个推理动词的词向量之间的相似度(例如余弦相似度);从所有的余弦相似度中,选择相似度最高的例如前50个推理动词作为该第一动词的第二动词。
本公开实施例中,可以利用定向跳格(Directional skip-gram)模型显式区分单词嵌入的左右上下文(Explicitly distinguishing left and right context for wordembeddings)的方式获得第一动词和各个推理动词的词向量,本公开对如何计算各个第一动词和各个推理动词的词向量的方式不做限定。
图5实施例中的步骤S360-步骤S370中可以参照上述其他实施例中的步骤S360-步骤S370。
本公开实施方式提供的动词短语蕴含图谱的构建方法,创新地利用词向量对计算得到的动词蕴含关系进行筛选过滤以及进一步扩充,准确的动词蕴含关系也帮助了后续的动词短语蕴含规则的质量提升。
图6示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。如图6所示,本公开实施例提供的方法可以包括以下步骤。
图6实施例中的步骤S310-步骤S350可以参照上述其他实施例中的步骤S310-步骤S350。
图6实施例中,上述实施例中的步骤S360可以进一步包括以下步骤S361-步骤S367。
在步骤S361中,获得所述第一名词和所述第二名词的共现频率的互信息。
本公开实施例中,对于各个第一名词和各个第二名词之间的上下位关系的强弱,可以用他们在大规模语料(可以是上述目标语料,也可以是其他任意的语料)中的共现频率的互信息来表达,其表达给定下位词(例如第一名词用hypo表示)计算它对应上位词(例如第二名词用hyper表示)概率的公式可以为:
其中,上述公式(1)中,P(hyperhypo)表示第一名词与第二名词的共现频率的互信息,f(hypo)表示第一名词在该大规模语料中的出现频次,f(hyper)表示第二名词在该大规模语料中的出现频次,f(hyper,hypo)表示第一名词和第二名词在该大规模语料中共同出现的频次,即共现频率。
在步骤S362中,根据所述第一名词和所述第二名词的共现频率的互信息,获得所述第一名词和所述第二名词的名词指标。
本公开实施例中,根据上述步骤S361计算获得的各个第一名词与各个第二名词的共现频率的互信息的大小,可以给各个第一名词与各个第二名词分配一个名词指标,假设表示为s_noun,s_noun的大小与其对应的共现频率的互信息的大小正相关,即某个第一名词与某个第二名词之间的共现频率的互信息越大,则其分配的s_noun越大。
在步骤S363中,计算所述第一动词与所述第二动词之间的目标距离指标。
具体计算目标距离指标的方式可以参照下图7实施例。
在步骤S364中,根据所述第一动词和所述第二动词的目标距离指标,获得所述第一动词和所述第二动词的动词指标。
本公开实施例中,根据上述步骤S363计算获得的各个第一动词与各个第二动词的目标距离指标的大小,可以给各个第一动词与各个第二动词分配一个动词指标,假设表示为s_verb,s_verb的大小与其对应的目标距离指标的大小正相关,即某个第一动词与某个第二动词之间的目标距离指标越大,则其分配的s_verb越大。
在步骤S365中,组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语。
本公开实施例中,将任意一个第一名词与任意一个第二动词进行组合,也可以将任意一个第二名词与任意一个第一动词进行组合,还可以将任意一个第二名词与任意一个第二动词进行组合,获得所有的初始动词短语。
在步骤S366中,根据所述名词指标和所述动词指标,获得所述初始动词短语的综合指标。
本公开实施例中,在动词短语语义组合链路预测阶段,通过上述步骤分别得到了基于名词上下位和动词蕴含关系的强弱的表示(s_noun和s_verb),系统可以通过定义好的组合函数分别对于动词指标s_verb和名词指标s_noun进行综合打分,得到了任意一对初始名词短语的蕴含关系强弱的综合指标。
例如,可以通过以下组合函数计算获得综合指标:
综合指标=a * s_noun+(1-a)* s_verb (2)
上述公式(2)中的a为可以根据数据调节的参数,a的取值范围为(0,1)。
在步骤S367中,选择综合指标大于卡阈值的所述初始动词短语作为所述第二动词短语。
本公开实施例中,在得到所有可能的初始动词短语时,例如假设第一动词和第二动词包括chew和eat,第一名词和第二名词包括apple和fruit,那么可能存在合理的初始动词短语有eat apple,eat fruit,chew apple,chew fruit。系统就需要判断这些初始动词短语之间是否存在推理关系。
本公开实施例中,可以根据实际需求设置一个卡阈值,选择综合指标大于所设置的卡阈值的初始动词短语作为第二动词短语。
本公开实施例中,卡阈值是指给定一对初始动词短语,系统会返回他们具有推理关系的概率值(综合指标),用户可以根据自己的需求,选择符合他们要求的阈值作为卡阈值来筛选,例如在一些场景中0.8是一个可以接受的预测,但在其他的场景下可能需要0.9才是合理的。
图6实施例中的步骤S370可以参照上述其他实施例中的步骤S370。
本公开实施方式提供的动词短语蕴含图谱的构建方法,之前的步骤得到局部一对动词短语对之间的蕴含推理规则,但是没法在全局进行推广和扩充。局部的意思是指对于一张图来说,有边直接相连的一对节点。如果需要在图里做多条的到达的,就是全局的推理。本公开实施例不仅利用蕴含关系自身的语义传递性进行全局扩充构建图谱,还通过非监督式的方式计算综合指标,方便用户根据自己的需求进行卡阈值的选择和使用,有选择性地迭代地挑选名词上下位强的规则(即综合指标高的)接入到第一图谱中,即过滤掉综合指标较低的、蕴含关系较弱的初始动词短语,即可以有选择性的添加可推理的节点,从而增加置信度高的边不断加入,避免全局传递导致的高复杂度和噪声大的问题,可以构建出多达千万级别推理规则的蕴含图谱,可以用于帮助多种NLP下游任务。
例如,“he crew apple->he eat company”明显是错误的,系统可以通过统计eatcompany这样的搭配出现的频率就可以消除歧义。
图7示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。如图7所示,本公开实施例提供的方法可以包括以下步骤。
图7实施例中的步骤S310-步骤S350可以参照上述其他实施例中的步骤S310-步骤S350。图7实施例中的步骤S360也可以进一步包括图6实施例中的步骤S361-367,图7实施例中的步骤S361-362可以参照图6实施例中的步骤S361-362。
其中,图7实施例中,上述实施例中的步骤S363可以进一步包括以下步骤S361。
在步骤S3631中,计算所述第一动词与所述第二动词之间的第一距离指标。
本公开实施例中,由于动词蕴含关系的强弱无法通过特定的共现频率来计算,因此可以利用DIH分布式包含假说来计算。
可以计算第一动词和第二动词(用动词对(v1,v2)表示)之间的特征向量差异来间接衡量他们之间的关系,并定义v1以及v2的context分别为P1和P2,则可以通过以下公式来计算他们之间的第一距离指标lin:
在步骤S3632中,计算所述第一动词与所述第二动词之间的第二距离指标。
本公开实施例中,可以通过以下公式计算他们之间的第二距离指标weeds:
在步骤S3633中,根据所述第一距离指标与所述第二距离指标,获得所述目标距离指标。
本公开实施例中,可以通过以下公式计算他们之间的目标距离指标balprec:
利用上述公式(3),(4)和(5)分别计算各个第二动词与该第一动词之间的balprec值,balprec值越大,则表示对应的第二动词与该第一动词之间的动词蕴含关系越强。
需要说明的是,计算第一动词和第二动词的目标距离指标并不限于上述例举的方式,例如还可以采用cosine、Jaccard、Jensen-Shannon divergence(JS离散)等任意一种或者多种距离评价指标。
图7实施例中的步骤S364-367可以参照图6实施例中的步骤S364-367。
图7实施例中的步骤S370可以参照上述其他实施例中的步骤S370。
本公开实施方式提供的动词短语蕴含图谱的构建方法,通过上述目标距离指标来评价第一动词和第二动词之间的差异,可以准确地评估不同动词对之间的蕴含关系强弱,有助于后续找出动词蕴含关系强的动词对进行组合生成第二动词短语对。
图8示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。如图8所示,本公开实施例提供的方法可以包括以下步骤。
图8实施例中的步骤S310-步骤S350可以参考上述其他实施例中的步骤S310-步骤S350。
图8实施例中,上述实施例中的步骤S360可以进一步包括以下步骤S368-3612。
在步骤S368中,获得训练数据集,所述训练数据集可以包括动词短语样本及其标签。
本公开实施例中,可以预先获取一些动词短语作为动词短语样本,然后人工手动给每个动词短语样本打上标签,例如“0”表示某个动词短语样本之间的蕴含关系较弱,不能作为第一动词短语的第二动词短语,“1”表示某个动词短语样本之间的蕴含关系较强,可以作为第一动词短语的第二动词短语。
在步骤S369中,将所述动词短语样本输入至所述神经网络模型,获得所述动词短语样本的预测输出。
本公开实施例中的神经网络模型可以采用任意的神经网络算法或者深度学习算法构建,本公开对此不做限定。利用神经网络模型构建一个二分类器,将动词短语样本输入至该二分类器中,可以获得预测输出。
在步骤S3610中,根据所述动词短语样本的预测输出及其标签训练所述神经网络模型。
本公开实施例中,可以根据动词短语样本的预测输出及其标签构建一个损失函数,通过反向传播迭代更新神经网络模型的模型参数,迭代次数达到预设次数,或者损失函数收敛则停止迭代,确定此时的神经网络模型的模型参数,作为所需的二分类器。
在步骤S3611中,组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语。
在步骤S3612中,通过训练完成的神经网络模型处理所述初始动词短语,从所述初始动词短语中确定所述第二动词短语。
本公开实施例中,可以将各个初始动词短语输入至该二分类器中,则可以预测获得初始动词短语的蕴含关系强弱,由此确定哪些可以作为第二动词短语。
图8实施例中的步骤S370可以参考上述其他实施例中的步骤S370。
本公开实施方式提供的动词短语蕴含图谱的构建方法,在动词短语组合链路预测阶段,除了可以采用图7实施例提供的利用非监督式的卡阈值的办法以外,还可以通过人工标注一定的训练数据进行训练,然后得到其相应的二分类器,之后的链路预测就可以通过分类的置信度来获得。
图9实施例是从大规模的目标语料中挖掘动词短语以及构建高质量动词短语蕴含推理规则图谱即第一图谱的系统框架流程图,构建过程中假设引用外部已有的KG作为目标名词上下位图谱(例如名词上下位的Probase)和目标动词蕴含关系规则(例如动词蕴含的WordNet),并采用已有的词向量资源。
如图9所示,以目标语料为英文语料为例进行举例说明,通过模板匹配和依存句法分析从目标语料中抽取第一动词短语,并将第一动词短语拆解获得第一名词和第一动词,然后基于目标名词上下位图谱获得第一名词的名词上下位关系对以确定第二名词,基于目标动词蕴含关系规则获得第一动词的推理动词,然后基于各个第一动词和推理动词的词向量获得动词蕴含关系对,以用于从推理动词中确定第二动词;接着可以根据名词上下位关系对和动词蕴含关系对进行局部链路预测以确定动词短语蕴含关系对即第一动词短语和第二动词短语;再根据语义传递性进行全局扩充,生产动词短语蕴含规则图谱作为第一图谱。
图9的任务描述可以为:整套系统的输入是大规模的英文目标语料,经过对目标语料的预处理和模板匹配抽取得到高质量的第一动词短语,基于得到的第一动词短语,将他们组织成具有蕴含推理关系的第一图谱。
第一图谱构建的主要步骤可以包括:
(1)目标语料的预处理和依存句法分析:对于已有的英文的目标语料,先进行基本的清洗和简单的分词处理,然后整理成以完整的待处理句子为单位交给依存句法分析器进行句法解析。对于每句待处理句子生成的句法解析,利用定义好的第一动词短语模板抽取主要类型的动词短语,其中最主要的几种包括“主语-谓语”,“主语-谓语-宾语”,“主语-谓语-宾语-介词状语”,“主语-be动词-形容词”以及“主语-系表动词-形容词”。
首先形容词或者介词作为事件的重要组成成分,这些抽取出来的事件作为第一图谱的节点,其次因为介词和形容词难以定义出上下位蕴含关系,因此下文对第一名词和第一动词构建,但他们本身是第一图谱的一部分。
(2)动词短语的解构映射:上述步骤抽取出来的第一动词短语包括不同的语义成分,从词性来讲主要分为动词,名词以及形容词。本公开实施例中的系统主要从动词和名词这两类具有显著推理规则的词性出发,将第一动词短语拆解成第一动词和第一名词两部分。对于第一名词,系统从已有的目标名词上下位图谱中找到相应的推理对,同样对于第一动词,系统从编辑的目标动词蕴含关系规则中找到对应的推理对。由于动词的语义比较复杂,以及编辑的动词推理对也存在较大的噪声,需要后续的步骤来进来处理。
(3)动词推理规则的增强:名词之间上下位强弱可以用他们在大规模语料中共现频率的互信息来表达,其表达给定下位词计算它对应上位词概率的公式可以参照上述公式(1)。
而动词蕴含关系的强弱无法通过特定的共现频率来计算,因此利用DIH分布式包含假说,计算动词对之间的特征向量差异来间接衡量他们之间的关系,具体可以参照上述公式(3)-(5)。
考虑到balprec计算动词蕴含关系时,两个动词对的特征过于稀疏,导致计算的效果不准确,可以通过准确的词向量对于计算得到的动词蕴含关系进行筛选和过滤,其做法可以为对于每一个第一动词和推理动词通过余弦相似度召回相似度最高的50个推理动词作为第二动词,然后再计算。
(4)动词短语语义组合链路预测:步骤(3)分别得到了基于名词上下位和动词蕴含关系的强弱的表示,系统通过定义好的组合函数分别对于动词指标和名词指标计算综合指标,得到了一对第一动词短语和第二动词短语的蕴含关系强弱的分数。给出所有可能的动词短语对的蕴含关系强弱的综合指标,方便用户根据自己的需求进行卡阈值的设置,以进行选择和使用。
(5)语义传递性的全局扩充:之前的步骤只能得到局部一对动词短语对之间的蕴含推理规则,但是没法在全局进行推广和扩充,本公开实施例可以利用蕴含关系自身的语义传递性,有选择性的迭代地挑选名词上下位强的规则加入到图谱中,例如“he crewapple”和“he eat company”明显是错误的,系统可以通过动词短语的搭配消除歧义,从而增加置信度高的边不断加入。
本公开实施例还可以包括对于生成的推理规则的评估,因为系统分步骤的错误累计会使得最终的结果偏差较大,以及难以对中间的结果进行调试分析。基于这样的考虑,本公开实施例设计了以下的评估准则:
(一)第一图谱构建的每一步都可以引入少量的人工标注数据来衡量其质量,其中包括名词上下位和动词蕴含的映射,局部链路预测的分类,以及全局传递性的扩充。
例如,评估时在每一步都随机采样一些数据,然后在标注平台,让例如5个人来评估这样的动词短语对是否合理,标出“0”或者“1”这样的标签,如果有4分以及以上就认为这条规则是正确的。
(二)对于不同模板抽取的第一动词短语需要分别抽样进行质量的评估,以使得对算法在不同难度的动词短语推理上有清晰的认识。
(三)对于最终构建出来的大规模第一图谱采样一个子图,分别运行之前相关工作的算法来比较效果和性能。
基于上述提出来的评估准则可以较好的衡量质量和控制构建过程。
图10示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建方法的流程图。
图10实施例中的步骤S310-步骤S370可以参照上述其他实施例中的步骤S310-步骤S370。
图10实施例中,假设所述第一图谱中的节点采用第一语言,例如英文,其可以进一步包括以下步骤。
在步骤S1010中,获取所述第一图谱中各节点的第一语言向量。
在步骤S1020中,获取采用第二语言的第三动词短语的第二语言向量。
在步骤S1030中,匹配所述第一语言向量和所述第二语言向量,迁移所述第一图谱生成采用所述第二语言的第二图谱。
上述实施例提供的动词短语蕴含图谱的构建方法,整个系统的方法同样适用于除英文以外的其它语言,可以轻易泛化拓展到其它语言的动词短语的蕴含关系图谱(第二图谱)的构建中,所有使用上述实施例提供的方法构建的其它语种的图谱都在本公开的保护范围之内,包括使用跨语言迁移等方式。
例如,可以通过跨语言词向量的映射来做多语言的动词短语的对齐。如是中英文词向量的对齐,就可以很容易做迁移了,“苹果”和“apple”的词向量(分别称之为第一语言向量和第二语言向量)在中英文各自的向量空间是接近的。其他的词语是类似的。
本公开实施方式提供的动词短语蕴含图谱的构建方法,提出了一种高效构建大规模动词短语蕴含推理规则图谱的非监督式和监督式的方法,一方面,通过在图谱节点上把动词的二元关系扩展到多元关系,丰富了动词短语语义的完整性和对于下游任务的高度匹配度。同时,在构建方法上,将动词短语拆解出动词和名词,分别利用名词上下位和动词蕴含关系进行语义的组合来实现对于动词短语蕴含关系的预测,充分考虑了名词语义结构对于动词短语关系预测的重要性。此外还创新地利用词向量对于动词蕴含关系进行筛选过滤以及进一步扩充,准确的动词蕴含关系也帮助了后续的动词短语蕴含规则的质量提升。另一方面,在全局扩充的构建图谱中,我们利用语义的传递性,有选择性的添加可推理的节点,避免全局传递导致的高复杂度和噪声大的问题,从而可以构建出多达千万级别推理规则的蕴含图谱,可以用于帮助多种NLP下游任务。
图11示意性示出了根据本公开的一实施例的动词短语蕴含图谱的构建装置的框图。如图11所示,本公开实施例提供的动词短语蕴含图谱的构建装置1100可以包括目标语料获取单元1110、第一动词短语抽取单元1120、第一动词短语拆解单元1130、名词推理对获得单元1140、动词推理对获得单元1150、第二动词短语获得单元1160以及第一图谱生成单元1170。
本公开实施例中,目标语料获取单元1110可以用于获取目标语料;第一动词短语抽取单元1120可以用于从所述目标语料中抽取第一动词短语。第一动词短语拆解单元1130可以用于拆解所述第一动词短语,获得第一动词和第一名词。名词推理对获得单元1140可以用于获得与所述第一名词具有蕴含关系的第二名词。动词推理对获得单元1150可以用于获得与所述第一动词具有蕴含关系的第二动词。第二动词短语获得单元1160可以用于根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语。第一图谱生成单元1170可以用于将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。
本公开实施方式提供的动词短语蕴含图谱的构建装置,通过将从目标语料中抽取出的第一动词短语拆解获得第一动词和第一名词,分别获得与第一名词具有蕴含关系的第二名词和得与第一动词具有蕴含关系的第二动词,根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语,从而可以综合利用第一名词的蕴含关系和第一动词的蕴含关系进行语义的组合来实现第一动词短语蕴含关系的预测,充分考虑了名词语义结构对于动词短语关系预测的重要性,实现了一种高效地构建高准确率的动词短语蕴含图谱的方法,能够用于满足大规模的动作以及事件级别推理的需求,同时能够帮助从不同的粒度去理解动词短语的自身语义。
在示例性实施例中,第一动词短语抽取单元1120可以包括:待处理句子获得单元,可以用于对所述目标语料进行预处理,获得待处理句子;依存句法分析单元,可以用于对所述待处理句子进行依存句法分析,获得所述待处理句子的句法解析;第一模板匹配单元,可以用于利用根据所述依存句法分析设计的第一动词短语模板,从所述待处理句子的句法解析中抽取获得所述第一动词短语。
在示例性实施例中,第一动词短语抽取单元1120可以包括:待处理句子获得单元,可以用于对所述目标语料进行预处理,获得待处理句子;语义角色标注单元,可以用于获得所述待处理句子的语义角色标注;第二模板匹配单元,可以用于利用根据所述语义角色标注设计的第二动词短语模板,从所述待处理句子的语义角色标注中抽取获得所述第一动词短语。
在示例性实施例中,所述第一动词短语和所述第二动词短语可以包括主语和谓语;或者,主语、谓语和宾语;或者,主语、谓语、宾语和介词状语;或者,主语、第一类型动词和形容词;或者,主语、系表动词和形容词。
在示例性实施例中,所述第一动词短语和所述第二动词短语还可以包括因果词。
在示例性实施例中,名词推理对获得单元1140可以包括:名词上下位图谱获得单元,可以用于获得目标名词上下位图谱;上下位名词查找单元,可以用于从所述目标名词上下位图谱中查找与所述第一名词具有蕴含关系的所述第二名词;或者,上下位名词挖掘单元,可以用于通过句式规则挖掘获得与所述第一名词具有蕴含关系的所述第二名词。
在示例性实施例中,动词推理对获得单元1150可以包括:动词蕴含关系规则获得单元,可以用于获得目标动词蕴含关系规则;推理动词获得单元,可以用于根据所述目标动词蕴含关系规则获得所述第一动词的推理动词;动词词向量计算单元,可以用于计算所述第一动词和所述推理动词的词向量;动词相似度计算单元,可以用于根据所述第一动词和所述推理动词的词向量,计算所述第一动词和所述推理动词之间的相似度;第二动词确定单元,可以用于根据所述第一动词和所述推理动词之间的相似度,从所述推理动词中确定所述第二动词。
在示例性实施例中,第二动词短语获得单元1160可以包括:名词共现频率互信息获得单元,可以用于获得所述第一名词和所述第二名词的共现频率的互信息;名词指标获得单元,可以用于根据所述第一名词和所述第二名词的共现频率的互信息,获得所述第一名词和所述第二名词的名词指标;目标距离指标计算单元,可以用于计算所述第一动词与所述第二动词之间的目标距离指标;动词指标获得单元,可以用于根据所述第一动词和所述第二动词的目标距离指标,获得所述第一动词和所述第二动词的动词指标;初始动词短语生成单元,可以用于组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语;综合指标获得单元,可以用于根据所述名词指标和所述动词指标,获得所述初始动词短语的综合指标;第二动词短语选择单元,可以用于选择综合指标大于卡阈值的所述初始动词短语作为所述第二动词短语。
在示例性实施例中,目标距离指标计算单元可以包括:第一距离指标计算单元,可以用于计算所述第一动词与所述第二动词之间的第一距离指标;第二距离指标计算单元,可以用于计算所述第一动词与所述第二动词之间的第二距离指标;目标距离指标获得单元,可以用于根据所述第一距离指标与所述第二距离指标,获得所述目标距离指标。
在示例性实施例中,第二动词短语获得单元1160可以包括:初始动词短语生成单元,可以用于组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语;第二动词短语确定单元,可以用于通过训练完成的神经网络模型处理所述初始动词短语,从所述初始动词短语中确定所述第二动词短语。
在示例性实施例中,动词短语蕴含图谱的构建装置1100还可以包括:训练数据集获得单元,可以用于获得训练数据集,所述训练数据集包括动词短语样本及其标签;预测输出获得单元,可以用于将所述动词短语样本输入至所述神经网络模型,获得所述动词短语样本的预测输出;神经网络模型训练单元,可以用于根据所述动词短语样本的预测输出及其标签训练所述神经网络模型。
在示例性实施例中,所述第一图谱中的节点可以采用第一语言。其中,动词短语蕴含图谱的构建装置1100还可以包括:第一语言向量获得单元,可以用于获取所述第一图谱中各节点的第一语言向量;第二语言向量获得单元,可以用于获取采用第二语言的第三动词短语的第二语言向量;第二图谱生成单元,可以用于匹配所述第一语言向量和所述第二语言向量,迁移所述第一图谱生成采用所述第二语言的第二图谱。
本公开实施例的动词短语蕴含图谱的构建装置的其它内容可以参照上述实施例。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
本公开实施例提供的方法或者装置,可以作为文本理解和推理中的重要模块,能够用于帮助智能问答系统的高效实现以及用于对话系统生成有逻辑的文本,可以在AI的基础NLP工具链中以及开放域的对话系统中投入使用。
以本公开实施例提供的动词短语蕴含图谱的构建方法应用于智能问答系统为例进行举例说明,实现智能问答系统的电子设备可以是各种类型的终端或服务器。
其中,服务器可以是独立的服务器,也可以是多个服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为智能问答服务,即云端的服务器封装有提供智能问答的程序。用户通过终端调用云服务中的智能问答服务,以使部署在云端的服务器调用封装的智能问答的程序,根据问题生成问题对应的答案,基于问题以及对应的答案构建知识图谱,后续基于知识图谱响应问答服务请求。
图12示出了可以应用本公开实施例的动词短语蕴含图谱的构建方法的示例性场景示意图。
参见图12,终端1220通过网络1230连接服务器1210,网络1230可以是广域网或者局域网,又或者是二者的组合。
终端1220(运行有客户端,例如教育学习客户端、搜索客户端等)可以被用来获取问答服务请求(包括用户提出的问题),例如,用户在教育学习客户端中输入问题,输入完成后,终端自动获取问答服务请求。
在一些实施例中,终端中运行的客户端中可以植入有智能问答插件,用以在客户端本地实现基于人工智能的智能问答方法。例如,终端1220获取问答服务请求后,调用智能问答插件,以实现基于人工智能的智能问答方法,根据问题,生成与问题对应的答案,基于问题以及对应的答案构建知识图谱,并基于知识图谱搜索用于响应问答服务请求的答案,例如,对于教育学习应用,在基于问题、相似问题以及对应的答案构建知识图谱后,学生提出问题,则在知识图谱中查询到与该提出的问题对应的答案,并将查询到的答案反馈给学生。
在一些实施例中,终端1220获取问答服务请求后,调用服务器1210的问答处理接口(可以提供为云服务的形式,即智能问答服务),服务器1210根据问题,生成与问题对应的答案,基于问题以及对应的答案构建知识图谱,并基于知识图谱搜索用于响应问答服务请求的答案,例如,对于搜索应用,在基于问题以及对应的答案构建知识图谱后,用户在搜索框中输入问题,则在知识图谱中查询与该提出的问题对应的答案时,将查询到的答案反馈给用户。
在实际NLP应用场景中,对于动词短语推理的需求是广泛存在的,例如智能问答系统需要响应问答服务请求:“哪家公司拥有掌控了领英?”而通过现存语料的知识抽取只能获取“微软以236亿美元收购了领英。”那么智能问答系统在具备(收购->拥有)这样一条规则之后就很容易检索出答案。
同样的场景也会在对话系统里面大量出现,因此本公开实施例致力于提出一种高效的构建高准确率的动词短语的推理图谱的方法,用来满足大规模的动作以及事件级别推理的需求,同时能够帮助从不同的粒度去理解动词短语的自身语义。
基于实体和概念的知识图谱在自然语言理解等相关任务中已经取得显著的效果,并且可以在搜索、推荐等商业场景下落地使用。
本公开实施例提供的构建图谱的方法和生成的大规模准确的推理规则可以带来以下有效效果:
1)高效简单的构造出大规模动词短语这类动作,包括事件级别的推理规则的图谱,填补了这方面图谱构建的空白,对于理解事件之间的抽象关系有巨大的帮助。
2)构建出来的大规模的图谱可以帮助无监督的智能问答系统的高效实现,涉及到问题和包含答案句子之间准确非模糊的匹配,同样在工业级别和现实场景中有非常广泛的应用价值,在一定程度上减少了特定领域数据的标注成本,无监督的方式也可以实现较高的准确率。
3)构建出来的图谱同样对于文本生成和故事生成有巨大的帮助,目前基于端对端的故事生成算法没有事件之间的逻辑推理关系,文不对题,基于动词短语蕴含推理规则的生成可以让故事有逻辑和条理,从而也可以在商业产品中提升用户体验,让讲故事的机器人更加智能。
需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何需要对视频中的敏感元素进行遮挡处理的场景。
下面参考图13,其示出了适于用来实现本申请实施例的电子设备的结构示意图。图13示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
参照图13,本公开实施例提供的电子设备可以包括:处理器1301、通信接口1302、存储器1303和通信总线1304。
其中处理器1301、通信接口1302和存储器1303通过通信总线1304完成相互间的通信。
可选的,通信接口1302可以为通信模块的接口,如GSM(Global System forMobile communications,全球移动通信系统)模块的接口。处理器1301用于执行程序。存储器1303用于存放程序。程序可以包括计算机程序,该计算机程序包括计算机操作指令。其中,程序中可以包括:游戏客户端的程序。
处理器1301可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。
存储器1303可以包含高速RAM(random access memory,随机存取存储器)存储器,也可以还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,程序可具体用于:获取目标语料;从所述目标语料中抽取第一动词短语;拆解所述第一动词短语,获得第一动词和第一名词;获得与所述第一名词具有蕴含关系的第二名词;获得与所述第一动词具有蕴含关系的第二动词;根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语;将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。
需要理解的是,在本公开附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (15)
1.一种动词短语蕴含图谱的构建方法,其特征在于,包括:
获取目标语料;
从所述目标语料中抽取第一动词短语;
拆解所述第一动词短语,获得第一动词和第一名词;
获得与所述第一名词具有蕴含关系的第二名词;
获得与所述第一动词具有蕴含关系的第二动词;
根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语;
将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。
2.根据权利要求1所述的方法,其特征在于,从所述目标语料中抽取第一动词短语,包括:
对所述目标语料进行预处理,获得待处理句子;
对所述待处理句子进行依存句法分析,获得所述待处理句子的句法解析;
利用根据所述依存句法分析设计的第一动词短语模板,从所述待处理句子的句法解析中抽取获得所述第一动词短语。
3.根据权利要求1所述的方法,其特征在于,从所述目标语料中抽取第一动词短语,包括:
对所述目标语料进行预处理,获得待处理句子;
获得所述待处理句子的语义角色标注;
利用根据所述语义角色标注设计的第二动词短语模板,从所述待处理句子的语义角色标注中抽取获得所述第一动词短语。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述第一动词短语和所述第二动词短语包括主语和谓语;或者,主语、谓语和宾语;或者,主语、谓语、宾语和介词状语;或者,主语、第一类型动词和形容词;或者,主语、系表动词和形容词。
5.根据权利要求4所述的方法,其特征在于,所述第一动词短语和所述第二动词短语还包括因果词。
6.根据权利要求1所述的方法,其特征在于,获得与所述第一名词具有蕴含关系的第二名词,包括:
获得目标名词上下位图谱;
从所述目标名词上下位图谱中查找与所述第一名词具有蕴含关系的所述第二名词;或者,
通过句式规则挖掘获得与所述第一名词具有蕴含关系的所述第二名词。
7.根据权利要求1所述的方法,其特征在于,获得与所述第一动词具有蕴含关系的第二动词,包括:
获得目标动词蕴含关系规则;
根据所述目标动词蕴含关系规则获得所述第一动词的推理动词;
计算所述第一动词和所述推理动词的词向量;
根据所述第一动词和所述推理动词的词向量,计算所述第一动词和所述推理动词之间的相似度;
根据所述第一动词和所述推理动词之间的相似度,从所述推理动词中确定所述第二动词。
8.根据权利要求1所述的方法,其特征在于,根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语,包括:
获得所述第一名词和所述第二名词的共现频率的互信息;
根据所述第一名词和所述第二名词的共现频率的互信息,获得所述第一名词和所述第二名词的名词指标;
计算所述第一动词与所述第二动词之间的目标距离指标;
根据所述第一动词和所述第二动词的目标距离指标,获得所述第一动词和所述第二动词的动词指标;
组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语;
根据所述名词指标和所述动词指标,获得所述初始动词短语的综合指标;
选择综合指标大于卡阈值的所述初始动词短语作为所述第二动词短语。
9.根据权利要求8所述的方法,其特征在于,计算所述第一动词与所述第二动词之间的目标距离指标,包括:
计算所述第一动词与所述第二动词之间的第一距离指标;
计算所述第一动词与所述第二动词之间的第二距离指标;
根据所述第一距离指标与所述第二距离指标,获得所述目标距离指标。
10.根据权利要求1所述的方法,其特征在于,根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语,包括:
组合所述第一名词、所述第二名词、所述第一动词和所述第二动词,生成初始动词短语;
通过训练完成的神经网络模型处理所述初始动词短语,从所述初始动词短语中确定所述第二动词短语。
11.根据权利要求10所述的方法,其特征在于,还包括:
获得训练数据集,所述训练数据集包括动词短语样本及其标签;
将所述动词短语样本输入至所述神经网络模型,获得所述动词短语样本的预测输出;
根据所述动词短语样本的预测输出及其标签训练所述神经网络模型。
12.根据权利要求1所述的方法,其特征在于,所述第一图谱中的节点采用第一语言;其中,所述方法还包括:
获取所述第一图谱中各节点的第一语言向量;
获取采用第二语言的第三动词短语的第二语言向量;
匹配所述第一语言向量和所述第二语言向量,迁移所述第一图谱生成采用所述第二语言的第二图谱。
13.一种动词短语蕴含图谱的构建装置,其特征在于,包括:
目标语料获取单元,用于获取目标语料;
第一动词短语抽取单元,用于从所述目标语料中抽取第一动词短语;
第一动词短语拆解单元,用于拆解所述第一动词短语,获得第一动词和第一名词;
名词推理对获得单元,用于获得与所述第一名词具有蕴含关系的第二名词;
动词推理对获得单元,用于获得与所述第一动词具有蕴含关系的第二动词;
第二动词短语获得单元,用于根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语;
第一图谱生成单元,用于将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至12任一项所述的方法。
15.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,配置为存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如权利要求1至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011083727.2A CN112149427B (zh) | 2020-10-12 | 2020-10-12 | 动词短语蕴含图谱的构建方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011083727.2A CN112149427B (zh) | 2020-10-12 | 2020-10-12 | 动词短语蕴含图谱的构建方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149427A true CN112149427A (zh) | 2020-12-29 |
CN112149427B CN112149427B (zh) | 2024-02-02 |
Family
ID=73951438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011083727.2A Active CN112149427B (zh) | 2020-10-12 | 2020-10-12 | 动词短语蕴含图谱的构建方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149427B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784574A (zh) * | 2021-02-02 | 2021-05-11 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN112965909A (zh) * | 2021-03-19 | 2021-06-15 | 湖南大学 | 测试数据、测试用例生成方法及系统、存储介质 |
CN115827884A (zh) * | 2022-07-27 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、介质及程序产品 |
CN116227601A (zh) * | 2023-05-09 | 2023-06-06 | 济南云微软件科技有限公司 | 一种基于动词时态的泛化因果网络构建方法、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522418A (zh) * | 2018-11-08 | 2019-03-26 | 杭州费尔斯通科技有限公司 | 一种半自动的知识图谱构建方法 |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN111553160A (zh) * | 2020-04-24 | 2020-08-18 | 北京北大软件工程股份有限公司 | 一种获取法律领域问句答案的方法和系统 |
US20200272696A1 (en) * | 2019-02-27 | 2020-08-27 | International Business Machines Corporation | Finding of asymmetric relation between words |
-
2020
- 2020-10-12 CN CN202011083727.2A patent/CN112149427B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN109522418A (zh) * | 2018-11-08 | 2019-03-26 | 杭州费尔斯通科技有限公司 | 一种半自动的知识图谱构建方法 |
US20200272696A1 (en) * | 2019-02-27 | 2020-08-27 | International Business Machines Corporation | Finding of asymmetric relation between words |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN111553160A (zh) * | 2020-04-24 | 2020-08-18 | 北京北大软件工程股份有限公司 | 一种获取法律领域问句答案的方法和系统 |
Non-Patent Citations (1)
Title |
---|
林子琦;倪晚成;赵美静;杨一平;: "基于概念知识树的双宾短语分析", 中文信息学报, no. 05 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784574A (zh) * | 2021-02-02 | 2021-05-11 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN112784574B (zh) * | 2021-02-02 | 2023-09-15 | 网易(杭州)网络有限公司 | 一种文本分割方法、装置、电子设备及介质 |
CN112965909A (zh) * | 2021-03-19 | 2021-06-15 | 湖南大学 | 测试数据、测试用例生成方法及系统、存储介质 |
CN112965909B (zh) * | 2021-03-19 | 2024-04-09 | 湖南大学 | 测试数据、测试用例生成方法及系统、存储介质 |
CN115827884A (zh) * | 2022-07-27 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、介质及程序产品 |
CN116227601A (zh) * | 2023-05-09 | 2023-06-06 | 济南云微软件科技有限公司 | 一种基于动词时态的泛化因果网络构建方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112149427B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149427B (zh) | 动词短语蕴含图谱的构建方法及相关设备 | |
US8301438B2 (en) | Method for processing natural language questions and apparatus thereof | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
CN114417004A (zh) | 一种知识图谱和事理图谱的融合方法、装置和系统 | |
CN111339269B (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
US11687826B2 (en) | Artificial intelligence (AI) based innovation data processing system | |
CN112417846B (zh) | 文本自动化生成方法、装置、电子设备及存储介质 | |
CN115292457B (zh) | 知识问答方法、装置、计算机可读介质及电子设备 | |
CN116561538A (zh) | 问答评分方法、问答评分装置、电子设备及存储介质 | |
US20220237383A1 (en) | Concept system for a natural language understanding (nlu) framework | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Gangemi et al. | Identifying motifs for evaluating open knowledge extraction on the Web | |
Bassa et al. | GerIE-An Open Information Extraction System for the German Language. | |
Liu et al. | Unsupervised knowledge graph generation using semantic similarity matching | |
Malhar et al. | Deep learning based Answering Questions using T5 and Structured Question Generation System’ | |
Datta et al. | Optimization of an automated examination generation system using hybrid recurrent neural network | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
CN110929501B (zh) | 文本分析方法和装置 | |
Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders | |
Zouaoui et al. | Ontological Approach Based on Multi-Agent System for Indexing and Filtering Arabic Docu-ments | |
Arora | Minimizing the costs in generalized interactive annotation learning | |
Zhang et al. | Intent-aware prompt learning for medical question summarization | |
Liu et al. | PrimeNet: A Framework for Commonsense Knowledge Representation and Reasoning Based on Conceptual Primitives | |
Wang et al. | Text Reasoning Chain Extraction for Multi-Hop Question Answering | |
Meng et al. | The Context-Oriented System Based on ELECTRA for Solving Math Word Problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |