CN109977235A - 一种触发词的确定方法和装置 - Google Patents
一种触发词的确定方法和装置 Download PDFInfo
- Publication number
- CN109977235A CN109977235A CN201910270159.8A CN201910270159A CN109977235A CN 109977235 A CN109977235 A CN 109977235A CN 201910270159 A CN201910270159 A CN 201910270159A CN 109977235 A CN109977235 A CN 109977235A
- Authority
- CN
- China
- Prior art keywords
- instance
- node
- target
- structure chart
- trigger word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 101150034459 Parpbp gene Proteins 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000003625 skull Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 210000005036 nerve Anatomy 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种触发词的确定方法,包括:识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;确定所述依存关系结构图中对应节点的关联规则;依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;依据所述目标综合重要性分数,确定所述目标文本句中的触发词。上述的方法,在触发词的确定过程中,不需要依赖词典,不受应用领域的限制,可移植性强。
Description
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种触发词的确定方法和装置。
背景技术
为了使搜索引擎更加智能化、网络信息更加结构化,Google公司于2012年提出知识图谱概念。知识图谱在本质上是由实体以及实体间关系构成的语义网络,手工提取实体以及实体关系是无法完成的,因此在构建知识图谱的过程中,重要的一步就是信息抽取技术。正确地抽取实体关系触发词有助于后续关系类别的判断,有助于指导实体关系抽取,提高抽取性能。
现有的触发词发现方法是基于词典的触发词发现方法,该方法是将句子中关系所在的语义词或语义短语作为触发词候选列表,与已有的词库进行匹配,找到最后的关系触发词。
发明人对现有的触发词发现方法进行研究发现,基于词典的触发词发现方法操作简单,不需要复杂的学习和抽取过程,但构建的词典领域性较强,基于词典的关系抽取方法效果取决于词典的质量,可移植性较差。
发明内容
有鉴于此,本发明提供了一种触发词的确定方法和装置,用以解决现有技术中基于词典的触发词发现方法操作简单,不需要复杂的学习和抽取过程,但构建的词典领域性较强,基于词典的关系抽取方法效果取决于词典的质量,可移植性较差问题。具体方案如下:
一种触发词的确定方法,包括:
识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;
若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;
确定所述依存关系结构图中对应节点的关联规则;
依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;
依据所述目标综合重要性分数,确定所述目标文本句中的触发词。
上述的方法,可选的,还包括:
若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间包含介词,则判定所述介词为所述目标文本句中的触发词。
上述的方法,可选的,确定所述依存关系结构图中对应节点的关联规则包括:
获取所述依存关系结构图中包含的各个节点;
分别在所述各个节点中,选取第一节点和第二节点,其中,所述第一节点和所述第二节点的交集为空;
计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。
上述的方法,可选的,依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数,包括:
计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数;
计算每一个节点相对所述第一实体和所述第二实体的置信度;
对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。
上述的方法,可选的,依据所述目标综合重要性分数,确定所述目标文本句中的触发词,包括:
对所述依存关系结构图中的各个节点进行聚类,得到类簇;
计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值;
在各个类簇中选取平均值最大的类簇作为目标类簇,将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。
上述的方法,可选的,对所述依存关系结构图中的各个节点进行聚类,得到类簇之前还包括:
对所述依存关系结构中的各个节点进行过滤。
一种触发词的确定装置,包括:
识别模块,用于识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;
构建模块,用于若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;
第一确定模块,用于确定所述依存关系结构图中对应节点的关联规则;
计算模块,用于依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;
第二确定模块,用于依据所述目标综合重要性分数,确定所述目标文本句中的触发词。
上述的装置,可选的,所述第一确定模块包括:
获取单元,用于获取所述依存关系结构图中包含的各个节点;
选取单元,用于分别在所述各个节点中,选取第一节点和第二节点,其中,所述第一节点和所述第二节点的交集为空;
第一计算单元,用于计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。
上述的装置,可选的,所述计算模块包括:
第二计算单元,用于计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数;
第三计算单元,用于计算每一个节点相对所述第一实体和所述第二实体的置信度;
加权求和单元,用于对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。
上述的装置,可选的,所述第二确定模块包括:
聚类单元,用于对所述依存关系结构图中的各个节点进行聚类,得到类簇;
第四计算单元,用于计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值;
确定单元,用于在各个类簇中选取平均值最大的类簇作为目标类簇,将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。
与现有技术相比,本发明包括以下优点:
本发明公开了一种触发词的确定方法,包括:识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;确定所述依存关系结构图中对应节点的关联规则;依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;依据所述目标综合重要性分数,确定所述目标文本句中的触发词。上述的方法,在触发词的确定过程中,不需要依赖词典,不受应用领域的限制,可移植性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种触发词的确定方法的流程图;
图2为本申请实施例公开的一种触发词的确定方法的又一方法流程图;
图3为本申请实施例公开的一种依存故障逆袭结构图;
图4为本申请实施例公开的一种触发词的确定方法的又一方法流程图;
图5为本申请实施例公开的一种触发词的确定装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种触发词确定方法,所述方法应用在知识图谱构建过程中的实体关系抽取,其中,实体关系抽取:从非结构文本中提取出三元组(ei,rij,ej),ei和ej表示两个有关系的实体,rij表示这两个实体之间的关系。知识图谱在本质上是由实体以及实体间关系构成的语义网络,其应用领域非常广泛,包括在线学习、语义搜索、机器问答、情报检索等等。以机器问答为例,实体关系抽取能为机器问答系统的构建提供数据支持。当用户向机器问答系统提问时,自动问答系统能从其结构化数据库中快速准确地检索到答案并提供给用户。其中,实体关系抽取:从非结构文本中提取出三元组(ei,rij,ej),ei和ej表示两个有关系的实体,rij表示这两个实体之间的关系。而rij的确定取决于触发词,触发词:是指那些具有触发某种关系或者某种时间的词语或短语,在事件抽取中,常常被用作是发生自然事件的指向词;在关系抽取中,一般指的是实体对间的关系关键词,具有指向某种关系的词语,具有激活某种关系模式的语义信息,充当这些关系模式的概念锚点。信息抽取是从自然语言文本中抽取指定类型的实体、属性、关系等事实信息,并形成结构化数据输出的文本处理技术。主要包含三大部分的内容:实体抽取、属性抽取、关系抽取;其中,实体抽取是属性抽取和关系抽取的前提条件。实体关系抽取用于发现实体之间的关系,并生成描述关系的语义信息的三元组。正确地抽取实体关系触发词有助于后续关系类别的判断,有助于指导实体关系抽取,提高抽取性能。
所述触发词的确定方法的执行流程如图1所示,包括步骤:
S101、识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;
本发明实施例中,所述目标文本句为当前需要确定触发词的文本句,识别所述目标文本句中的目标试题对,例如:在句子“邓超和孙俪是一对非常恩爱的夫妻。”中,实体是“邓超”,“孙俪”,都是“PER”类的实体。
S102、若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;
本发明实施例中,判断所述第一实体和所述第二试题之间的距离是否大于等于预设的阈值,优选的,本发明实施例中所述预设的阈值为5,若是,构建所述目标文本句的依存关系结构图,若否,判断所述第一实体和所述第二实体之间是否包含介词,若是则该介词为触发词,若否,构建所述目标文本句的依存关系结构图。
其中,依存句法分析是自然语言处理中的关键技术之一,其基本任务是分析句子的结构,从语法上描述句子中词与词之间的依存关系。直观来讲,依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。对一个句子进行句法分析,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。依存关系用一个有向弧表示,叫做依存弧。依存弧的方向一般为由从属词指向支配词。由依存弧连接起来的文本,构成了依存关系结构图,本文利用依存关系结构图来发现关系实例的触发词。
处理英文依存句法分析常用的工具是Stanford parser,它是基于概率统计句法分析的一个JAVA实现,由斯坦福大学自然语言处理小组开发的开源句法分析器。其中包含acomp,advcl,amod,conj以及appos等49种依存关系。句子“The surgeon cuts a smallhole in the skull and lifts the edge of the brain to expose the nerve.”中两两单词间对应的依存关系对如表1所示。
表1.依存关系对.
依存关系名 | 依存关系对 | 依存关系名 | 依存关系对 |
det | (surgen,The) | nsubj | (cuts,surgen) |
det | (hole,a) | amod | (hole,small) |
dobj | (cuts,hole) | case | (skull,in) |
det | (skull,the) | nmod | (hole,skull) |
cc | (cuts,and) | conj | (cuts,lifts) |
det | (edge,the) | dobj | (lifts,edge) |
case | (brain,of) | det | (brain,the) |
nmod | (edge,brain) | mark | (expose,to) |
advcl | (lifts,expose) | det | (nerve,the) |
dobj | (expose,nerve) |
其中,中文依存关系对如2所示:
S103、确定所述依存关系结构图中对应节点的关联规则;
本发明实施例中,所述依存关系结构图中包含多个节点,节点之间包含关联规则,节点其语义词或者语义短语。其中,本发明实施例中以两个节点的关联规则为例进行说明,但对节点的数量不作具体的限制。
S104、依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;
本发明实施例中,依据对应的关联规则,计算每一个节点相对于所述目标实体对的目标综合重要性分数,其中,所述目标综合重要性分数由节点相对于所述目标实体对的综合重要性分数和节点相对于所述目标实体对的置信度共同决定。
S105、依据所述目标综合重要性分数,确定所述目标文本句中的触发词。
本发明实施例中,对所述依存关系结构图中的各个节点进行聚类,得到多个类簇,计算每一个类簇中各个节点相对于所述目标实体对的目标综合重要性分数总和之后取平均值,在平均值最高的类簇中,查找目标综合重要性分数最高的节点,该节点中包含的词作为所述目标文本句中的触发词。
其中,在句子“邓超和孙俪是一对非常恩爱的夫妻。”中,实体是“邓超”,“孙俪”,都是“PER”类的实体,该实体对间的关系类型属于“per:per”,即一个人物——人物类的关系类型,通过大量此类关系类型的关系实例分析得到“夫妻”就是该类关系实例的触发词之一。属于夫妻关系的触发词还有“丈夫”、“妻子”、“结婚”、“未婚妻”、“伉俪”、“配偶”、“夫妇”、“连理”等等。
其中,优选的,在进行聚类之前还可以为各个节点进行过滤,过滤掉所述目标文本句中的目标实体对和除名词、动词、形容词、副词和介词以外的词。
本发明公开了一种触发词的确定方法,包括:识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;确定所述依存关系结构图中对应节点的关联规则;依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;依据所述目标综合重要性分数,确定所述目标文本句中的触发词。上述的方法,在触发词的确定过程中,不需要依赖词典,不受应用领域的限制,可移植性强。
本发明实施例中,确定所述依存关系结构图中对应节点的关联规则的方法流程图如图2所示,包括步骤:
S201、获取所述依存关系结构图中包含的各个节点;
本发明实施例中,若所述目标文本句为“长春市吉林大学和东北师范大学成立联合科研学习小组,迅速开展学术科研活动。”则其对应的依存关系结构图如图3所示,获取该依存关系结构图中的各个节点。
S202、分别在所述各个节点中,选取第一节点和第二节点,其中,所述第一节点和所述第二节点的交集为空;
本发明实施例中,一个事务数据库中的关联规则挖掘可以描述如下:设I={i1,i2,…,im}是一个由m个不同项目组成的项目集合,D={t1,t2,…,tn}是由一系列具有唯一标识TID的事务组成的事务数据库,每个事务ti(i=1,2,…,n)都对应I上的一个子集。每个ik(k=1,2,…,m)为一个“属性-值”对,称为数据项(Item),数据项的集合I称为数据项集,简称项集,包含k个数据项的项集就称为k-项集。在本发明实施例中I是词库,D是由单词构成的句子集合,一个事务ti就是一个句子,数据项ik表示单词与其对应标识。关联规则R表现为,在数据项集合I中选取项集X和项集Y,项集X在某一事务中出现时,导致Y也会以一定的概率出现,公式表示为:
R:X=>Y (1)
其中,X和Y都是I的子集,并且X与Y交集为空。关联规则的衡量标准有两个,分别是支持度和置信度。
S203、计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。
本发明实施例中,项集X的支持度support(X)反映项集X出现在事务数据库D中的概率。关联规则R的支持度support(R)反映项集X和项集Y同时出现的概率。即:
其中,表示D中包含X的事务数目。count(X∩Y)表示在事务数据库D中,同时包含项集X和项集Y的事务数目,|D|表示D中事务的总数。
关联规则R的置信度confidence(R)反映如果事务中包含项集X,则该事务包含项集Y的概率。即:
其中,support(R)表示规则R的支持度,support(X)表示项集X的支持度。一般来说,支持度和置信度较高的关联规则,应用意义越大。
本发明实施例中,依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数的方法里程如图4所示,包括步骤:
S301、计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数;
本发明实施例中,结合关联规则的置信度值,来计算每一个节点相对于实体对的综合重要性分数,而关系触发词作为连接实体对间关系的词语,与两个实体均有关联,故需要计算每个节点vj相对于第一实体Ent1和第二实体Ent2的综合重要性分数。公式如下:
I(vj|{Ent1,Ent2})=I(vj|Ent1)+I(vj|Ent2)+I(vj|Ent1)·I(vj|Ent2) (5)
其中,I(v|Ent)表示节点vj相对于实体节点Ent的重要性分数。
S302、计算每一个节点相对所述第一实体和所述第二实体的置信度;
本发明实施例中,利用关联规则挖掘算法得出,规则为{vj}=>{Ent1,Ent2},计算每个节点vj相对于两个实体Ent1和Ent2的综合重要性分数R(vj|{Ent1,Ent2}),即置信度,公式如下:
S303、对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。
本发明实施例中,综上所述,对两个算法得到的综合重要性分数计算加权值Total(vj|{Ent1,Ent2}),公式如下:
Totαl(vj|{Ent1,Ent2})=α*I(vj|{Ent1,Ent2})+(1-α)*R(vj|{Ent1,Ent2})......(7)
其中,α为权重,优选的,d=0.5
本发明实施例中,在依存句法图上进行关系关键词的选取,降低后续分类模型训练的复杂度,减少训练时间。对于任何含有实体对的句子,都能通过句子本身获得关系关键词,进行关系小类的判定。能够提高实体关系抽取性能,降低对训练集的要求。
本发明实施例中,基于上述的一种触发词的确定方法,还提供了一种触发词的确定装置,所述确定装置的结构框图如图5所示,包括:
识别模块401、构建模块402、第一确定模块403、计算模块404和第二确定模块405。
其中,
所述识别模块401,用于识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;
所述构建模块402,用于若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;
所述第一确定模块403,用于确定所述依存关系结构图中对应节点的关联规则;
所述计算模块404,用于依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;
所述第二确定模块405,用于依据所述目标综合重要性分数,确定所述目标文本句中的触发词。
本发明公开了一种触发词的确定装置,包括:识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;确定所述依存关系结构图中对应节点的关联规则;依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;依据所述目标综合重要性分数,确定所述目标文本句中的触发词。上述的装置,在触发词的确定过程中,不需要依赖词典,不受应用领域的限制,可移植性强。
本本发明实施例中,所述第一确定模块403包括:
获取单元406、选取单元407和第一计算单元408。
其中,
所述获取单元406,用于获取所述依存关系结构图中包含的各个节点;
所述选取单元407,用于分别在所述各个节点中,选取第一节点和第二节点,其中,所述第一节点和所述第二节点的交集为空;
所述第一计算单元408,用于计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。
本发明实施例中,所述计算模块404包括:
第二计算单元409、第三计算单元410和加权求和单元411。
其中,
所述第二计算单元409,用于计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数;
所述第三计算单元410,用于计算每一个节点相对所述第一实体和所述第二实体的置信度;
所述加权求和单元411,用于对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。
本发明实施例中,所述第二确定模块405包括:
聚类单元412,第四计算单元413和确定单元414。
所述聚类单元412,用于对所述依存关系结构图中的各个节点进行聚类,得到类簇;
所述第四计算单元413,用于计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值;
所述确定单元414,用于在各个类簇中选取平均值最大的类簇作为目标类簇,将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种触发词的确定方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种触发词的确定方法,其特征在于,包括:
识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;
若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;
确定所述依存关系结构图中对应节点的关联规则;
依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;
依据所述目标综合重要性分数,确定所述目标文本句中的触发词。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间包含介词,则判定所述介词为所述目标文本句中的触发词。
3.根据权利要求1所述的方法,其特征在于,确定所述依存关系结构图中对应节点的关联规则包括:
获取所述依存关系结构图中包含的各个节点;
分别在所述各个节点中,选取第一节点和第二节点,其中,所述第一节点和所述第二节点的交集为空;
计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。
4.根据权利要求1所述的方法,其特征在于,依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数,包括:
计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数;
计算每一个节点相对所述第一实体和所述第二实体的置信度;
对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。
5.根据权利要求1所述的方法,其特征在于,依据所述目标综合重要性分数,确定所述目标文本句中的触发词,包括:
对所述依存关系结构图中的各个节点进行聚类,得到类簇;
计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值;
在各个类簇中选取平均值最大的类簇作为目标类簇,将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。
6.根据权利要求5所述的方法,其特征在于,对所述依存关系结构图中的各个节点进行聚类,得到类簇之前还包括:
对所述依存关系结构中的各个节点进行过滤。
7.一种触发词的确定装置,其特征在于,包括:
识别模块,用于识别目标文本句中的目标实体对,其中,所述目标实体对包含第一实体和第二实体;
构建模块,用于若所述第一实体和所述第二实体间的距离大于等于预设的阈值或若所述第一实体和所述第二实体间的距离小于预设的阈值且所述第一实体和所述第二实体之间不包含介词,构建所述目标文本句的依存关系结构图;
第一确定模块,用于确定所述依存关系结构图中对应节点的关联规则;
计算模块,用于依据对应的关联规则,计算每一个节点相对所述目标实体对的目标综合重要性分数;
第二确定模块,用于依据所述目标综合重要性分数,确定所述目标文本句中的触发词。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
获取单元,用于获取所述依存关系结构图中包含的各个节点;
选取单元,用于分别在所述各个节点中,选取第一节点和第二节点,其中,所述第一节点和所述第二节点的交集为空;
第一计算单元,用于计算所述第一节点出现时所述第二节点也出现的概率对应的关联度和置信度。
9.根据权利要求7所述的装置,其特征在于,所述计算模块包括:
第二计算单元,用于计算每一个节点相对所述第一实体和所述第二实体的综合重要性分数;
第三计算单元,用于计算每一个节点相对所述第一实体和所述第二实体的置信度;
加权求和单元,用于对所述综合重要性分数和所述置信度进行加权求和得到目标综合性重要分数。
10.根据权利要求7所述的装置,其特征在于,所述第二确定模块包括:
聚类单元,用于对所述依存关系结构图中的各个节点进行聚类,得到类簇;
第四计算单元,用于计算每一个类簇中各个节点相对于所述第一实体和所述第二实体综合重要性分数的平均值;
确定单元,用于在各个类簇中选取平均值最大的类簇作为目标类簇,将所述目标类簇中综合重要性分数最大值所属节点中的词作为所述目标文本句中的触发词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910270159.8A CN109977235B (zh) | 2019-04-04 | 2019-04-04 | 一种触发词的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910270159.8A CN109977235B (zh) | 2019-04-04 | 2019-04-04 | 一种触发词的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977235A true CN109977235A (zh) | 2019-07-05 |
CN109977235B CN109977235B (zh) | 2022-10-25 |
Family
ID=67083064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910270159.8A Expired - Fee Related CN109977235B (zh) | 2019-04-04 | 2019-04-04 | 一种触发词的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977235B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461004A (zh) * | 2020-03-31 | 2020-07-28 | 北京邮电大学 | 基于图注意力神经网络的事件检测方法、装置和电子设备 |
CN112231494A (zh) * | 2020-12-16 | 2021-01-15 | 完美世界(北京)软件科技发展有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137919A1 (en) * | 2009-12-09 | 2011-06-09 | Electronics And Telecommunications Research Institute | Apparatus and method for knowledge graph stabilization |
CN104298683A (zh) * | 2013-07-18 | 2015-01-21 | 佳能株式会社 | 主题挖掘方法和设备、以及查询扩展方法和设备 |
US20180067923A1 (en) * | 2016-09-07 | 2018-03-08 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
CN107784125A (zh) * | 2017-11-24 | 2018-03-09 | 中国银行股份有限公司 | 一种实体关系抽取方法及装置 |
CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
-
2019
- 2019-04-04 CN CN201910270159.8A patent/CN109977235B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137919A1 (en) * | 2009-12-09 | 2011-06-09 | Electronics And Telecommunications Research Institute | Apparatus and method for knowledge graph stabilization |
CN104298683A (zh) * | 2013-07-18 | 2015-01-21 | 佳能株式会社 | 主题挖掘方法和设备、以及查询扩展方法和设备 |
US20180067923A1 (en) * | 2016-09-07 | 2018-03-08 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
CN107784125A (zh) * | 2017-11-24 | 2018-03-09 | 中国银行股份有限公司 | 一种实体关系抽取方法及装置 |
CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
SEN HU等: "Answering Natural Language Questions by Subgraph Matching over Knowledge Graphs", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
刘峤等: "知识图谱构建技术综述", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461004A (zh) * | 2020-03-31 | 2020-07-28 | 北京邮电大学 | 基于图注意力神经网络的事件检测方法、装置和电子设备 |
CN111461004B (zh) * | 2020-03-31 | 2023-08-22 | 北京邮电大学 | 基于图注意力神经网络的事件检测方法、装置和电子设备 |
CN112231494A (zh) * | 2020-12-16 | 2021-01-15 | 完美世界(北京)软件科技发展有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN112231494B (zh) * | 2020-12-16 | 2021-08-03 | 完美世界(北京)软件科技发展有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109977235B (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4650072B2 (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
US7509313B2 (en) | System and method for processing a query | |
CN106202034B (zh) | 一种基于依存约束和知识的形容词词义消歧方法和装置 | |
US10229193B2 (en) | Collecting event related tweets | |
CN106844331A (zh) | 一种句子相似度计算方法和系统 | |
EP2080125A1 (en) | System and method for processing a query | |
KR20180042710A (ko) | 유사도 분석 기반 이음 동의 항목 관리 방법 및 장치 | |
CN102890702A (zh) | 一种面向网络论坛的意见领袖挖掘方法 | |
US11657076B2 (en) | System for uniform structured summarization of customer chats | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
Stock et al. | Context-aware automated interpretation of elaborate natural language descriptions of location through learning from empirical data | |
CN109582761A (zh) | 一种基于网络平台的词语相似度的中文智能问答系统方法 | |
Pennacchiotti et al. | Automatic induction of FrameNet lexical units | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
CN109977235A (zh) | 一种触发词的确定方法和装置 | |
An et al. | Exploring characteristics of highly cited authors according to citation location and content | |
CN106202036B (zh) | 一种基于依存约束和知识的动词词义消歧方法和装置 | |
Ramisch et al. | Web-based and combined language models: a case study on noun compound identification | |
CN106126501B (zh) | 一种基于依存约束和知识的名词词义消歧方法和装置 | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
CN106202033B (zh) | 一种基于依存约束和知识的副词词义消歧方法和装置 | |
US20110071973A1 (en) | Content summarizing and search method and system | |
Nguyen et al. | A vietnamese natural language interface to database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221025 |
|
CF01 | Termination of patent right due to non-payment of annual fee |