CN110969022A - 语义确定方法及相关设备 - Google Patents
语义确定方法及相关设备 Download PDFInfo
- Publication number
- CN110969022A CN110969022A CN201811145809.8A CN201811145809A CN110969022A CN 110969022 A CN110969022 A CN 110969022A CN 201811145809 A CN201811145809 A CN 201811145809A CN 110969022 A CN110969022 A CN 110969022A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- keyword
- uniform resource
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 101000734214 Homo sapiens Unconventional prefoldin RPB5 interactor 1 Proteins 0.000 description 15
- 102100033622 Unconventional prefoldin RPB5 interactor 1 Human genes 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种语义确定方法,利用基于知识图谱构建的关键词词典,在目标文件中识别目标关键词,关键词词典中的关键词具有统一资源标识符,统一资源标识符指向关键词在知识图谱中所对应的信息节点,如果目标关键词的统一资源标识符为多个,则说明该目标关键词存在歧义,进而依据每个统一资源标识符所对应的信息节点在知识图谱中的语义关系,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,以消除目标关键词的歧义含义,进而明确目标关键词指向知识图谱中哪个具体的实体信息节点,也即明确目标关键词在目标文件语境中的实际含义。另外,本申请还提供了语义确定相关装置,以保证上述方法在实际中的应用及实现。
Description
技术领域
本发明涉及自然语言处理处理技术领域,更具体地,是语义确定方法及相关设备。
背景技术
互联网中存在大量的数据文本,如新闻、论文、微博文章等等。这些数据文本中包含有实体指称,用户在浏览数据文本时,可能想要查看这些实体指称的一些关联信息。但是,由于自然语言表达方式的多样性及歧义性,从字面含义上来看,同一实体指称可能对应多个不同含义的实体对象,不同实体对象的关联信息是不同的。
例如,用户浏览一篇介绍汽车的新闻时,新闻中出现了一款名为“阳光”的汽车,但从字面含义上来看,“阳光”这一实体指称可能指自然界的太阳光,也可能指某一款具体型号的汽车。
在一些应用场景中,需要对数据文本中的实体指称执行与应用场景相关的处理。因此,需要一种技术方案,来明确文本中的实体指称所指代的真实含义。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语义确定方法。
第一方面,本申请提供了一种语义确定方法,包括:
获得目标文件;
获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
第二方面,本申请提供了一种语义确定装置,包括:
目标文件获得单元,用于获得目标文件;
关键词词典获得单元,用于获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
目标关键词匹配单元,用于使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
节点信息确定单元,用于根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
语义确定单元,用于根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
第三方面,本申请提供了一种存储介质,其上存储有程序,所述程序被处理器执行时实现语义确定方法。
第四方面,本申请提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行语义确定方法。
借由上述技术方案,本申请提供了一种语义确定方法,利用基于知识图谱构建的关键词词典,在目标文件中识别目标关键词,关键词词典中的关键词具有统一资源标识符,统一资源标识符指向关键词在知识图谱中所对应的信息节点,在目标关键词的统一资源标识符指向的信息节点中确定符合目标关键词在目标文件中语境的目标节点,目标节点包含的信息用于表示目标关键词在目标文件中的语义,从而确定出目标文件中词语的准确含义。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了汽车领域的知识图谱的一个示例图;
图2示出了本申请提供的语义确定方法的一个流程图;
图3示出了本申请提供的语义确定方法的另一个流程图;
图4示出了本申请提供的语义确定装置的一个结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在一种实际应用场景中,用户在浏览网页时,想要对网页中包含的某个实体指称进行更多的了解。例如,用户浏览某个汽车新闻网页时,网页中出现了型号名称为“阳光”的一辆轿车,用户想要了解该轿车的一些相关信息如厂商、性能、价格等等。为了满足用户的上述需求,需要对网页文本进行分析,以明确出网页文本中所包含的实体指称,并为这些实体指称检索相关信息。
当然,以上应用场景仅仅是一种示例说明。本申请提供的语义确定方法并不局限于上述应用场景,只要是需要利用文本数据中的实体指称的任何场景均可,语义确定方法均可以准确地确定文本数据中的实体指称的含义。
现有的实体识别或抽取方法,主要是使用字符串词典识别文本数据中的字符串。但是,字符串词典中包含的字符串之间是独立的,并不具有语义信息,因此所识别出的实体信息可能存在形同义不同的情况,即实体指称具有多种实体含义,其中除了包含符合文本数据语境的实体含义之外,还包含其他的实体含义。
例如,使用字符串词典在网页文本中可以匹配出“阳光”这个字符串,但其不能确定该字符串的准确含义,因此所检索到的关联信息可能包含太阳光的信息,也包含汽车“阳光”的信息。
对此,本申请提供了一种语义确定方法,该方法基于具有语义信息的知识图谱来确定关键词以及关键词的关联信息,从而可以有效避免上述问题。
为了便于理解技术方案,首先对知识图谱的构建进行说明。
首先确定知识图谱所应用到的领域如通用领域或垂直行业领域。根据所要提供的关联信息的内容及内容边界,构建知识图谱的结构。需要说明的是,从结构上来看,知识图谱包括:信息节点、信息节点的属性、信息节点之间的关联关系。
信息节点可以表示概念及实体,其中实体是一个具体对象,概念是实体的上位描述。例如,张三、李四等是具体的人,男性、女性是人的上位描述,在现实世界中并不存在男性、女性这种具体对象。
见图1,其示出了汽车领域的一个知识图谱示例。如图1所示,该知识图谱中,每个方框表示一个信息节点,其中包含圆形符号的方框表示概念节点如汽车厂商、门户网站等,包含菱形符号的方框表示实体节点如福克斯、奥迪Q3。点击方框后可以看到方框所表示的信息节点的属性信息,如点击轮胎厂商后,可以看到轮胎厂商的属性信息包括:厂商名称、厂商别名、厂商地址、厂商商标等。
方框之间的连线,表示该两个方框所表示的信息节点之间具有语义关系,该语义关系可以包括上下位关系,如厂商和轮胎厂商之间的关系,或者语义关系也可以包括其他形式,这些语义关系在知识图谱数据模式层设计的时候进行预定义。另外,信息节点之间的语义关系可以简称为信息节点之间的关系。
通过知识图谱的示例可知,知识图谱所构建的知识体系是某一个具体领域的知识体系,且信息节点之间具有语义上的关联关系。
以上结构仅仅是知识图谱的数据模式(schema)层,知识图谱还需要添加数据(data)层。数据层是架构层所指代的具体内容。例如,汽车厂商具有有哪些,每个汽车厂商的属性是什么样。将这些数据添加至知识图谱中。数据层可以来源于但不局限于数据库中的数据表。另外,数据层也可以称为实体层。
基于知识图谱可以构建关键词词典,使用哪个领域的知识图谱得到的关键词词典,则关键词词典便属于哪个领域。例如,使用汽车领域的知识图谱得到的关键词词典,则关键词词典是与汽车领域相关的。
关键词词典的构建方式为,获得知识图谱;从所述知识图谱中,提取预设的信息节点的目标属性,并提取所述预设的信息节点在所述知识图谱中的统一资源标识符;其中所述预设的信息节点包括以下类型中的任意一种或多种:实体类型、概念类型、关系类型;以及将所述目标属性作为关键词,并建立所述关键词与所述统一资源标识符之间的对应关系。其中,预设的信息节点可以称为目标信息节点,目标属性也可以称为预设属性。需要说明的是,如果不存在已经构建好的知识图谱,则需要首先进行知识图谱构建。
前已述及,知识图谱中包含信息节点,信息节点具有属性信息,从这些属性信息中提取预设的一些属性,构建成关键词词典。关键词词典用来识别目标文件中包含哪些关键词,关键词也即目标文件中的实体指称。
预设属性具体为哪些,可以根据实际需求设置。本申请提供一个具体示例进行说明。例如,若信息节点为表示实体的信息节点,则所提取的预设属性可以包括该实体的名称、别名等;若信息节点为表示概念的信息节点,则所提取的预设属性可以包括概念关键词;若信息节点为表示数值型的实体数据,则所提取的预设属性可以包括数值属性以及单位属性,其中数值属性还可以包括数据值、最大值及最小值等内容,其中数值属性表示的是与车辆相关的数值,如车身长度、耗油量等等,单位属性指的是数值属性对应的单位;若信息节点为实体节点或概念节点,则所提取的预设属性还可以包括关系属性。具体所提取的预设属性参见下表1所示,其中信息节点表示的是知识图谱中的信息节点,所需属性表示的是提取的信息节点哪些方面的属性。
表1
前已述及,知识图谱的数据层可以存储在数据库中,因此可以使用数据库查询语句,从数据库中查询上述几种类型的预设属性。或者,知识图谱以OWL(Web OntologyLanguage,网络本体语言)文件形式存储,使用SparQL查询语言查询上述几种类型的预设属性。需要说明的是,查询预设属性具体指的是查询预设属性的属性值,将查询到的属性值作为关键词。需要说明的是,预设属性的属性值可以直接作为关键词,也可以经过拼接处理后作为关键词。具体来讲,对于数值型的信息节点,提取到数值属性及单位属性后,将数值属性及单位属性拼接得到关键词。例如,数值属性为2.1,单位属性为m(米),拼接后得到的关键词为2.1m。
需要说明的是,每个预设属性所对应的信息节点在知识图谱中具有一个唯一的统一资源标识符(URI),统一资源标识符表示信息节点为知识图谱中哪个环节的信息节点,为了便于描述,统一资源标识符也可以称为地址标识符。在将预设属性的属性值作为关键词后,还要提取该预设属性所对应的信息节点的统一资源标识符作为该关键词的统一资源标识符。
提取统一资源标识符的原因是,知识图谱中两个不同的节点可能包含某一相同内容的属性,但其所表示的语义含义是不同的,例如,知识图谱在两个不同节点分别存在“阳光”这个名称(name)属性的属性值,对某一个节点来说,名称属性的属性值“阳光”表示该节点是“太阳光”节点,另一个则表示的是“阳光”汽车这一车型节点。
因此需要使用统一资源标识符来表示关键词的来源。将预设属性所对应的信息节点的统一资源标识符作为关键词的统一资源标识符,用以表示关键词来源于知识图谱中的哪个信息节点的属性。
需要说明的是,从知识图谱中所提取的预设属性具有这样的特征,即能够指代它所归属的信息节点,信息节点在知识图谱中是具有语义信息的。因此将预设属性作为关键词后,提取这些信息节点的统一资源标识符,是为了给关键词增加语义信息,即为了帮助确定关键词是什么语义含义。
前已述及,由于知识图谱可能在多个不同的节点具有相同内容的关键词,不同环节点表示不同的信息节点,不同的信息节点具有不同的统一资源标识符,因此,同一关键词可能具有多个统一资源标识符,用以分别表示该关键词来源于知识图谱中的多个不同环节的信息节点。
为了便于理解关键词词典,以下对关键词词典的构建方式及表现形式进行说明。
关键词词典的构建方式可以表示为:
{
keyword:[URIs];//关键词在词典中的格式,分号前为关键词的内容,分号后为关键词的URI,URI可能为一个,也可能为多个
keywordSource:INDIVIDUAL|QUANTITATIVE_INDIVIDUAL|CLASS|RELATION//关键词来源于知识图谱中哪些类型的信息节点,与上述表1中的关键词来源列对应,分别表示普通实体、数值型实体、概念、关系
}
以阳光这个关键词为例。知识图谱中包含车系实体:阳光(该实体在知识图谱中的URI为URI1),也包含自然界的太阳光这个实体(该实体在知识图谱中的URI为URI2),因此,在从知识图谱中提取到阳光这个关键词后,会得到两个URI,该关键词在关键词词典中的格式就是,“阳光”:[URI1,URI2]。
以下分别对从每种类型的信息节点中所获得的关键词进行举例说明。
1.来自于数值型实体(QuantitativeValue)的关键词:
{
keyword:“3000rpm”
URIs:[“http://www.gridsum.com/2018/auto#maxTorqueRotationalSpeedValue1”]
keywordSource:QUANTITATIVE_INDIVIDUAL
}
2.来自于普通实体(Individual)的关键词:
{
keyword:“福克斯”
URIs:[“http://www.gridsum.com/2018/auto#Focus”,“http://www.gridsum.com/2018/finance#20thCenturyFoxFilmCorporation”,…]//可以看出这个关键词有多个统一资源标识符,分别指向知识图谱中不同的信息节点
keywordSource:INDIVIDUAL
}
3.来自于概念(Class)的关键词:
{
keyword:“车型”
URIs:[“http://www.gridsum.com/2018/auto#AutoModel”]
keywordSource:CLASS
}
4.来自于关系(ObjectProperty/relation)的关键词:
{
keyword:“前轮距”
URIs:[“http://www.gridsum.com/2018/auto#FrontWheelTread”]
keywordSource:RELATION
}
基于上述构建的知识图谱以及关键词词典,本申请提供了一种语义确定方法。
见图2,其示出了语义确定方法的一个流程。如图2所示,该流程可以具体包括步骤S201~S205。
S201:获得目标文件。
其中,目标文件可以是任意形式,如新闻、微博文章、论文等等。目标文件也可以称为待识别文件。在实际应用中,目标文件可以是接收到的外部系统发送的文件,或者是由输入设备输入的文件,或者也可以是从网络上抓取到的文件等等。
S202:获得预先构建的关键词词典,关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点。
其中,关键词词典中包含关键词,从上述关键词词典的构建过程可以看出,关键词词典中的关键词来源于知识图谱,知识图谱的信息节点之间具有语义关系,那么关键词在知识图谱中也会与其他信息节点存在语义关系。信息节点在知识图谱中具有确定其含义的统一资源标识符。信息节点的统一资源标识符赋予关键词,用来为关键词添加其在知识图谱中的语义关系。关键词的统一资源标识符表示的是,关键词可以与统一资源标识符所指向的信息节点对应。
S203:使用关键词词典,在目标文件中匹配出包含在关键词词典中的目标关键词。
其中,将目标文件中的各个词分别与关键词词典中的关键词进行匹配,如果发现与关键词相同,则对目标文件中的词进行识别。为了便于描述,可以将所识别的词称为目标关键词。也就是说,本步骤是在确定目标文件中出现了关键词词典中的哪些词。识别的具体方式可以包括但不局限于字符串多模式匹配方法,具体例如Aho-Corasick自动机结合Double Array Tire的字符串多模式匹配方法。
在得到目标关键词后,同时也可以获得目标关键词在关键词词典中所对应的统一资源标识符。本步骤仅仅是使用关键词词典,判断出了目标文件中包含有关键词词典中的哪些关键词而已。
为了便于理解,提供一个使用机器语言表示上述识别结果的示例。
从示例中可以看出,从目标文本“上海大众的途观车型是非常棒的一款城市SUV”中识别到了“上海大众”这个关键词,这个关键词位于目标文本的0-3位置处,且可以看出该关键词对应有URI1及URI2两个统一资源标识符。
S204:根据目标关键词的统一资源标识符所指向的信息节点,确定目标关键词所对应的目标节点及目标节点包含的信息。
其中,目标关键词的统一资源标识符可能有一个,也可能有多个。因此,目标关键词的统一资源标识符所指向的信息节点也可能是一个,也可能是多个。不论指向的信息节点数量有多少,需要在这些信息节点中确定一个信息节点,该信息节点即目标关键词所对应的节点,为了便于描述,该信息节点可以称为目标节点。
确定目标节点的一种方式是在知识图谱中进行确定。如果所指向的信息节点为一个,则可以将该信息节点直接作为目标节点;如果指向的信息节点为多个,则可以根据每个信息节点与其他信息节点之间的语义关系,在该多个信息节点中选择一个信息节点作为目标节点。选择的依据是,该信息节点与其他信息节点之间的语义关系最符合目标关键词在目标文件中与其他词语之间的语义关系。该种确定方式可以具体参见下述图3所示的实施例,此处并不赘述。
在实际应用中,确定目标节点的方式并不局限于上述说明,还可以包含其他。例如,关键词词典中的关键词,除了具有统一资源标识符之外,也可以具有语义信息,也就是说,关键词词典记录有关键词的语义信息,该语义信息表示的是关键词词典中各个关键词之间的语义联系。关键词词典中的语义信息是从知识图谱中抽取出来的。根据关键词词典所记录的语义信息,在目标关键词的统一资源标识符所指向的信息节点中,确定目标关键词所对应的目标节点。
可见,不论何种确定目标节点的方式,都可以认为利用的是信息节点在知识图谱中的语义关系。
目标节点中包含节点信息,节点信息也就是信息节点自身的内容,例如目标节点为“车系”,节点信息即车系。不论使用何种方式确定出目标节点,提取目标节点所包含的信息即可。
S205:根据目标节点包含的信息,确定目标关键词在目标文件中的语义。
需要说明的是,知识图谱中的信息节点包含有节点信息,目标节点包含的节点信息表示的是目标关键词在目标文件中的语义。因此,在确定目标节点之后,提取该目标节点对应的节点信息,将提取到的节点信息作为目标关键词在目标文件中的含义。
由以上技术方案可知,本申请提供了一种语义确定方法,利用基于知识图谱构建的关键词词典,在目标文件中识别目标关键词,关键词词典中的关键词具有统一资源标识符,统一资源标识符指向关键词在知识图谱中所对应的信息节点,在目标关键词的统一资源标识符指向的信息节点中确定符合目标关键词在目标文件中语境的目标节点,目标节点包含的信息用于表示目标关键词在目标文件中的语义,从而确定出目标文件中词语的准确含义。
见图3,其示出了语义确定方法的另一个流程。如图3所示,该流程可以具体包括步骤S301~S308。
S301:获得目标文件。
S302:获得关键词词典,关键词词典中的关键词由知识图谱中的信息节点的目标属性生成,且关键词具有统一资源标识符,统一资源标识符表示的是信息节点在知识图谱中的地址。
其中,从上述关键词词典的构建过程可以看出,关键词是从知识图谱中提取信息节点的预设属性得到的,预设属性也可以称为目标属性。知识图谱的信息节点之间具有语义关系,那么关键词在知识图谱中也会与其他信息节点存在语义关系。信息节点在知识图谱中具有确定其含义的统一资源标识符。关键词词典中的关键词是从知识图谱的信息节点的相关属性中提取到的。将关键词所来源的信息节点的统一资源标识符赋予关键词,用来为关键词添加其在知识图谱中的语义关系。
S303:使用关键词词典,在目标文件中匹配出包含在关键词词典中的目标关键词。
S304:判断目标关键词的统一资源标识符为一个还是多个,若为一个,则执行步骤S305,若为多个,则执行步骤S306。
其中,根据上述对关键词词典构建过程的说明可知,如果在构建关键词词典时,从知识图谱的多个不同的环节点提取到相同内容的预设属性,则该预设属性作为关键词后,关键词会有多个统一资源标识符。进而,使用关键词词典在目标文件中识别出的目标关键词,也具有多个统一资源标识符。
本步骤判断目标关键词的统一资源标识符为一个还是多个,如果为一个,就说明目标关键词的含义是唯一的清楚的,如果为多个,就说明目标关键词具有多重含义,需要明确其在目标文件语境下的实际含义。
S305:将统一资源标识符确定为目标统一资源标识符。
S306:依据每个统一资源标识符所对应的信息节点在知识图谱中的语义关系,在多个统一资源标识符中确定一个符合目标文件语境的目标统一资源标识符。
其中,传统的关键词词典中,关键词是独立的,相互之间并不具有上下位关系或其他语义关系,使用关键词词典所匹配出的目标关键词也并不带有其他先验知识如关系、属性、类别等,仅仅根据目标关键词并不能确定该目标关键词的具体含义。但是,本申请使用的关键词词典中,关键词具有其在知识图谱中对应信息节点的统一资源标识符,由于知识图谱中的信息节点之间具有语义关系,因此可以根据信息节点之间的语义关系,来确定目标关键词的实际含义。
具体地,需要对目标关键词所对应的统一资源标识符进行语义判定,以选择该目标关键词在目标文件的语境环境中,实际所对应的统一资源标识符为哪个。这个步骤也可以称为目标关键词消歧。目标关键词最主要来源于知识图谱中实体类型的信息节点,因此可以将目标关键词称为实体指称,进而本步骤可以称为实体消歧。
一种具体的实现方式为,确定每个所述统一资源标识符在所述知识图谱中所指向的信息节点,将所确定出的每个信息节点作为候选信息节点;确定每个候选信息节点在所述知识图谱中具有直接语义关系的信息节点,将所确定出的信息节点作为候选信息节点的直接相关信息节点;若某个候选信息节点的直接相关信息节点出现在所述目标关键词的上下文窗口中,则将所述某个候选信息节点的统一资源标识符确定为符合所述目标文件语境的目标统一资源标识符。
简单来讲,首先确定每个统一资源标识符在知识图谱中所指向的信息节点,这些信息节点作为候选信息节点。由于每个统一资源标识符均会得到一个候选信息节点,则可知候选信息节点也为多个。
然后确定出每个候选信息节点在知识图谱中所直接关联的信息节点,如果某个候选信息节点的直接关联信息节点出现在了目标关键词的周围(即预设长度的上下文窗口中),则可以确定出该某个候选信息节点为该目标关键词所实际对应的信息节点,换句话说,该信息节点在知识图谱中的含义符合目标文件的语境,因此将该信息节点的统一资源标识符作为该目标关键词最终对应的统一资源标识符。为了便于描述,可以将最终所确定的统一资源标识符称为目标统一资源标识符或目标统一资源标识符。
在目标关键词为实体指称的情况下,如果实体指称在知识图谱中的统一资源标识符为多个,说明实体指称存在歧义,需要对实体指称消除歧义。可以理解的是,实体指称在知识图谱中的统一资源标识符为一个,则说明实体指称不存在歧义。实体消歧可以通过以下步骤实现,以下以任一具有歧义的实体指称为例进行说明。需要说明的是,歧义实体指称的每个统一资源标识符在知识图谱中所指向的实体节点可以称为候选实体。
第一,在知识图谱中查找歧义实体指称的每个候选实体具有直接语义关系的节点,这些节点可以称为直接相关节点。获得直接相关节点的统一资源标识符,组成直接相关节点的统一资源标识符列表。可见,每个候选实体都会有一个对应的直接相关实体统一资源标识符列表。
在歧义实体指称在目标文件的上下文窗口中,查找是否存在其他实体指称。如果存在其他实体指称,则获得其他实体指称在知识图谱中的统一资源标识符。如果其他实体指称在知识图谱中的统一资源标识符唯一且包含在上述某一候选实体的直接相关节点统一资源标识符列表中,则将该某一候选实体确定为所述歧义实体指称对应的目标实体。
例如,目标文本为“东风日产发布了今年的新款阳光”,上下文窗口的预设大小为10。假设使用关键词词典从该目标文本中可以识别到两个实体指称,分别为“东风日产”及“阳光”。“东风日产”具有唯一的URI,“阳光”具有两个URI,一个指向知识图谱中的阳光车系这个信息节点,一个指向知识图谱中的自然界阳光这个信息节点。
为了确定实体指称“阳光”在目标文本的语境下所实际指向的信息节点,需要执行的操作是,在知识图谱中查找阳光车系这个信息节点的直接相关节点,假设“东风日产”这个实体指称是阳光车系这个信息节点的直接相关节点中的一个,从目标文本中可以看出,“东风日产”在“阳光”的上下文窗口中,因此,可以确定阳光车系这个信息节点为“阳光”这个实体指称所实际表示的实体对象。
第二,同第一步骤的实现过程,在歧义实体指称在目标文件的上下文窗口中,查找是否存在其他实体指称,但是不同的是,如果其他实体指称在知识图谱中的URI并不唯一,但是有且只有某一个URI出现在了某个候选实体的直接相关节点URI列表中,则将该某一候选实体确定为所述歧义实体指称对应的目标实体。
需要说明的是,其他实体指称的该某一个URI出现在了某个候选实体的直接相关节点URI列表中,则说明该其他实体指称与该歧义实体指称之间具有语义相关性,同时也可以直接对该其他实体指称进行歧义消除。
例如,目标文本为“福特发布了今年的新款福克斯”,上下文窗口的预设大小为10。假设使用关键词词典从该目标文本中可以识别到“福特”和“福克斯”两个实体指称。从目标文本中可以看出,该两个实体指称均位于各自的上下文窗口中。
假设“福克斯”这个实体指称在知识图谱中有三个URI,分别指向车系这个信息节点,公司这个信息节点,以及杂志这个信息节点。这些信息节点作为三个候选实体。
假设“福特”这个实体指称在知识图谱中有两个URI,分别指向长安福特这个信息节点,以及美国第38任总统福特这个信息节点。
在对“福克斯”这个实体指称进行歧义消除时,查找“福克斯”的三个候选实体在知识图谱中的直接相关实体,假设车系这个信息节点的直接相关实体中,包含有长安福特这个信息节点,且长安福特这个信息节点是“福克斯”的上下文窗口中出现的实体指称“福特”指向的信息节点。假设实体指称“福特”有且只有长安福特这一个信息节点的URI是和“福克斯”的车系候选实体直接相关,因此,可以直接确定车系作为“福克斯”的目标实体对象,且同时可以确定实体指称“福特”的目标实体对象为长安福特。
第三,如果同第一步骤的实现过程,在歧义实体指称在目标文件的上下文窗口中,查找是否存在其他实体指称,但是不同的是,如果其他实体指称在知识图谱中的URI并不唯一,但是有多个URI出现在了某个候选实体的直接相关节点URI列表中,则将该某一候选实体确定为所述歧义实体指称对应的目标实体。
与第二步骤不同的是,并不能同时对该其他实体指称进行歧义消除。举例解释,即实体指称A所指向的一个候选实体为A1,实体指称A在目标文本中的上下文窗口中存在其他实体指称B,该其他实体指称B指向多个候选实体B1及B2,候选实体B1及B2在知识图谱中都和候选实体A1直接相关,那么能确定实体指称A是目标实体为A1,而不能确定实体指称B的目标实体是B1还是B2。
需要说明的是,在另一种实现方式中,语义关系也可以存储在关键词词典中,从而可以根据统一资源标识符所对应的信息节点在关键词词典中的语义关系,在多个统一资源标识符中确定一个符合目标文件语境的目标统一资源标识符。因此,不论何种方式,本申请使用的是统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定目标统一资源标识符。
需要说明的是,如果上述方式并不能从候选统一资源标识符中确定出符合目标文件语境的目标统一资源标识符,则可以确定知识图谱中的规则节点,所述规则节点中记录有语义消歧规则;使用所述语义消歧规则,在多个统一资源标识符中确定出一个符合所述目标文件语境的目标统一资源标识符。
具体来讲,知识图谱中除了包含实体、概念及关系等类型的信息节点外,还包含规则节点,其表示的是关键词的判定规则。规则节点中记录有关键词语义消歧规则,可以使用该类节点,来判断关键词实际对应的实体节点。具体的判定规则可以如下表2所示。
表2
具体来讲,规则节点具有若干个属性,属性名如表2最左一列所示,属性值类型如表2中间一列所示,属性含义如表2最右一列所示。表2中的每一行为一个属性,一个属性表示一个判断条件。
分析不同类型的目标关键词,需要使用的判断条件可能不同,且多个判断条件可以结合使用,结合方式可以或逻辑,也可以是与逻辑。为了能够分析各种类型的目标关键词,则预先确定出目标关键词可能有哪些类型,并根据这些类型设置相对应的判断规则。例如,判断某个类型目标关键词需要第一行属性表示的判断条件以及第二行属性表示的判断条件,则选择两个属性并将两者之间的关系设置为与逻辑。当然,这仅仅是一个示例说明,判断其他类型的目标关键词时,可以选择其他的属性以及其他的逻辑关系。
举例说明如何应用判断规则对目标关键词进行判断。例如,某个新闻文本为“全新福克斯十月份正式上市”,该新闻文本中出现的目标关键词“福克斯”指代车系,但根据另一新闻文本“国际影视剧市场中,诸如21世纪福克斯、派拉蒙等国际影业剧透,并不热衷于上市”可知,“福克斯”也可能指代公司。知识图谱中可能既包含有指代公司的“福克斯”节点,也可能包含有指代车系的“福克斯”节点,在获取该目标关键词的关联信息之前,需要准确确定第一个新闻文本中出现的“福克斯”在本语境下的含义。
针对车系为“福克斯”的目标关键词,预先设置的判断规则为“当文本中的‘福克斯’前后20个字符串之内同时出现‘全新’,‘上市’这两个词,并且‘全新’在‘上市’之前时,可判断‘福克斯’为车系”。也就是说,将车系在知识图谱中的统一资源标识符确定为目标关键词“福克斯”的目标统一资源标识符。
需要说明的是,本申请中的消歧是指,在多个信息节点中确定某一个信息节点作为目标关键词在目标文件语境下对应的信息节点。知识图谱中的信息节点包括概念也包括实体,以上表2主要针对的是实体这种情况,也就是说,确定目标关键词具体为知识图谱中的哪个实体节点所表示的实体。表2所对应的实现方式可以与上述实体消歧方式结合使用,即上述实体消歧没有确定出目标统一资源标识符的情况下,使用表2所对应的实现方式。
S307:将目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点。
其中,在确定目标统一资源标识符后,将目标统一资源标识符在知识图谱中所指向的信息节点确定为目标关键词所实际对应的节点。需要说明的是,实际对应的节点也即表示该目标关键词在目标文件语境下所实际指代的实体对象。
需要说明的是,以上语义确定方法流程中,步骤S305及S306可以确定出一个符合目标文件语境的统一资源标识符,进而步骤S307可以将该统一资源标识符在知识图谱中对应的信息节点确定为目标关键词对应的目标节点。
S308:根据目标节点包含的信息,确定目标关键词在目标文件中的语义。
需要说明的是,本实施例中的步骤说明可以参见上述图2所示实施例中的相同步骤的说明,此处并不赘述。
由以上技术方案可知,本申请提供了一种语义确定方法,利用基于知识图谱构建的关键词词典,在目标文件中识别目标关键词,关键词词典中的关键词具有统一资源标识符,统一资源标识符指向关键词在知识图谱中所对应的信息节点,如果目标关键词的统一资源标识符为多个,则说明该目标关键词存在歧义,进而依据每个统一资源标识符所对应的信息节点在知识图谱中的语义关系,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,以消除目标关键词的歧义含义,进而明确目标关键词指向知识图谱中哪个具体的实体信息节点,也即明确目标关键词在目标文件语境中的实际含义。
作为一种应用场景,在确定出目标关键词所对应的目标节点后,还可以展示目标节点的信息。具体地,在所述知识图谱中,查找与所述目标节点具有语义关系的信息节点,并输出所查找到的信息节点。
需要说明的是,关键词与目标节点之间的语义关系可以包括直接语义关系,在此基础上,还可以进一步包括间接语义关系。具体包括哪些间接语义关系,可以由用户想要查看的信息的边界所决定。例如,为用户展示某个车型的关联信息,可以仅介绍该车型的性能属性,或者还可以介绍该车型关联的厂商的相关信息,或者还可以进一步介绍与该车型相关的其他信息,具体介绍哪些信息是由用户需求决定的。
为了所提供关联信息的丰富性,可以将直接关联的信息节点以及间接相关联的信息节点均作为目标节点。
具体地,在知识图谱中,确定与目标关键词直接对应的信息节点以及与直接对应的信息节点具有语义关系的信息节点;将确定出的信息节点作为目标信息节点。
其中,在知识图谱中首先确定出与目标关键词所直接对应的信息节点。在一个示例中,确定目标关键词直接对应的信息节点的一种方式为,根据目标关键词对应的统一资源标识符,在知识图谱中,定位目标关键词直接对应的目标属性,将定位到的目标属性所归属的信息节点作为目标关键词直接对应的信息节点。例如,目标关键词为“福克斯”,该目标关键词对应的目标属性为一个车型名称为“福克斯”的信息节点,则直接定位到的信息节点为该信息节点。
在得到目标关键词直接对应的信息节点之后,还可以获得这些信息节点具有语义关系的信息节点。例如,得到“福克斯”这一信息节点后,还可以获得与该信息节点具有关联关系的“车系”这个信息节点。
然后,抽取目标信息节点在知识图谱中的相关属性信息,作为目标文件的关联信息。其中,确定目标信息节点后,在知识图谱中提取目标信息节点的相关属性信息,并将提取到的相关属性信息作为目标文件的关联信息。需要说明的是,提取哪些相关属性信息也是预设的,具体是根据需要为用户展示的关联信息的边界设置的。例如,车系这个信息节点包含有5个属性信息,如果只要为用户展示3个属性信息,则只需要提取目标信息节点在知识图谱中的该3个属性信息。
在这种展示关联信息的场景中,由于知识图谱中的信息节点之间具有语义关系,因此在目标文件中识别出关键词后,为关键词所查找到的信息节点以及所抽取出的关联信息会更加符合目标文本的表达语境,进而为用户所提供的关联信息更加准确。
见图4,其示出了本申请提供的一种语义确定装置的结构。如图4所示,该语义确定装置可以具体包括:目标文件获得单元401、关键词词典获得单元402、目标关键词匹配单元403、节点信息确定单元404、语义确定单元405。
目标文件获得单元401,用于获得目标文件;
关键词词典获得单元402,用于获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
目标关键词匹配单元403,用于使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
节点信息确定单元404,用于根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
语义确定单元405,用于根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
在一种实现方式中,节点信息确定单元包括:第一节点信息确定子单元。
第一节点信息确定子单元,用于若目标关键词的统一资源标识符为多个,则依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符;若确定出,则将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
在一种实现方式中,节点信息确定单元还包括:第二节点信息确定子单元。
第二节点信息确定子单元,用于若目标关键词的统一资源标识符为一个,则将所述统一资源标识符确定为目标统一资源标识符,并将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
在一种实现方式中,第一节点信息确定子单元依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,包括:
第一节点信息确定子单元,具体用于确定每个所述统一资源标识符在所述知识图谱中所指向的信息节点,将所确定出的每个信息节点作为候选信息节点;确定每个候选信息节点在所述知识图谱中具有直接语义关系的信息节点,将所确定出的信息节点作为候选信息节点的直接相关信息节点;以及若某个候选信息节点的直接相关信息节点出现在所述目标关键词的预设上下文窗口中,则将所述某个候选信息节点的统一资源标识符确定为符合所述目标文件语境的目标统一资源标识符。
在一种实现方式中,语义确定装置还包括:规则节点处理单元。
规则节点处理单元,用于若未确定出任何符合所述目标文件语境的目标统一资源标识符,则确定所述知识图谱中的规则节点,所述规则节点中记录有语义消歧规则;以及使用所述语义消歧规则,在多个统一资源标识符中确定出一个符合所述目标文件语境的目标统一资源标识符。
在一种实现方式中,语义确定装置还包括:信息节点输出单元。
信息节点输出单元,用于在所述知识图谱中,查找与所述目标节点具有语义关系的信息节点,并输出所查找到的信息节点。
在一种实现方式中,语义确定装置还包括:关键词词典构建单元。
关键词词典构建单元,用于获得知识图谱;从所述知识图谱中,提取预设的信息节点的目标属性,并提取所述预设的信息节点在所述知识图谱中的统一资源标识符;以及将所述目标属性作为关键词,并建立所述关键词与所述统一资源标识符之间的对应关系,得到所述关键词词典。
本发明实施例提供的司法问答装置包括处理器和存储器,上述目标文件获得单元401、关键词词典获得单元402、目标关键词匹配单元403、节点信息确定单元404、语义确定单元405等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定目标文件中关键词的语义。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述语义确定方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述语义确定方法。
本发明实施例提供了一种设备,该设备可以是服务器、PC、PAD、手机等。设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获得目标文件;
获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
可选地,根据所述目标关键词的统一资源标识符所指向的信息节点中,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息,包括:若目标关键词的统一资源标识符为多个,则依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符;若确定出,则将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
可选地,语义确定方法还包括:若目标关键词的统一资源标识符为一个,则将所述统一资源标识符确定为目标统一资源标识符,并将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
可选地,所述依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,包括:确定每个所述统一资源标识符在所述知识图谱中所指向的信息节点,将所确定出的每个信息节点作为候选信息节点;确定每个候选信息节点在所述知识图谱中具有直接语义关系的信息节点,将所确定出的信息节点作为候选信息节点的直接相关信息节点;若某个候选信息节点的直接相关信息节点出现在所述目标关键词的预设上下文窗口中,则将所述某个候选信息节点的统一资源标识符确定为符合所述目标文件语境的目标统一资源标识符。
可选地,语义确定方法还包括:若未确定出任何符合所述目标文件语境的目标统一资源标识符,则确定所述知识图谱中的规则节点,所述规则节点中记录有语义消歧规则;使用所述语义消歧规则,在多个统一资源标识符中确定出一个符合所述目标文件语境的目标统一资源标识符。
可选地,语义确定方法还包括:在所述知识图谱中,查找与所述目标节点具有语义关系的信息节点,并输出所查找到的信息节点。
可选地,所述关键词词典的构建方式包括:获得知识图谱;从所述知识图谱中,提取预设的信息节点的目标属性,并提取所述预设的信息节点在所述知识图谱中的统一资源标识符;将所述目标属性作为关键词,并建立所述关键词与所述统一资源标识符之间的对应关系,得到所述关键词词典。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种语义确定方法,其特征在于,包括:
获得目标文件;
获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
2.根据权利要求1所述的语义确定方法,其特征在于,根据所述目标关键词的统一资源标识符所指向的信息节点中,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息,包括:
若目标关键词的统一资源标识符为多个,则依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符;
若确定出,则将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
3.根据权利要求2所述的语义确定方法,其特征在于,还包括:
若目标关键词的统一资源标识符为一个,则将所述统一资源标识符确定为目标统一资源标识符,并将所述目标统一资源标识符所对应的信息节点确定为目标关键词对应的目标节点,所述目标统一资源标识符所对应的信息节点中的信息为所述目标节点包含的信息。
4.根据权利要求2所述的语义确定方法,其特征在于,所述依据每个统一资源标识符所对应的信息节点的语义信息,在多个统一资源标识符中确定一个符合所述目标文件语境的目标统一资源标识符,包括:
确定每个所述统一资源标识符在所述知识图谱中所指向的信息节点,将所确定出的每个信息节点作为候选信息节点;
确定每个候选信息节点在所述知识图谱中具有直接语义关系的信息节点,将所确定出的信息节点作为候选信息节点的直接相关信息节点;
若某个候选信息节点的直接相关信息节点出现在所述目标关键词的预设上下文窗口中,则将所述某个候选信息节点的统一资源标识符确定为符合所述目标文件语境的目标统一资源标识符。
5.根据权利要求2所述的语义确定方法,其特征在于,还包括:
若未确定出任何符合所述目标文件语境的目标统一资源标识符,则确定所述知识图谱中的规则节点,所述规则节点中记录有语义消歧规则;
使用所述语义消歧规则,在多个统一资源标识符中确定出一个符合所述目标文件语境的目标统一资源标识符。
6.根据权利要求1所述的语义确定方法,其特征在于,还包括:
在所述知识图谱中,查找与所述目标节点具有语义关系的信息节点,并输出所查找到的信息节点。
7.根据权利要求1所述的语义确定方法,其特征在于,所述关键词词典的构建方式包括:
获得知识图谱;
从所述知识图谱中,提取预设的信息节点的目标属性,并提取所述预设的信息节点在所述知识图谱中的统一资源标识符;
将所述目标属性作为关键词,并建立所述关键词与所述统一资源标识符之间的对应关系,得到所述关键词词典。
8.一种语义确定装置,其特征在于,包括:
目标文件获得单元,用于获得目标文件;
关键词词典获得单元,用于获得预先构建的关键词词典,所述关键词词典是根据知识图谱构建的词典,且关键词词典中的关键词具有统一资源标识符,统一资源标识符指向知识图谱中的信息节点;
目标关键词匹配单元,用于使用所述关键词词典,在所述目标文件中匹配出包含在所述关键词词典中的目标关键词;
节点信息确定单元,用于根据所述目标关键词的统一资源标识符所指向的信息节点,确定所述目标关键词所对应的目标节点及所述目标节点包含的信息;
语义确定单元,用于根据所述目标节点包含的信息,确定所述目标关键词在所述目标文件中的语义。
9.一种存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的语义确定方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1~7中任一项所述的语义确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145809.8A CN110969022B (zh) | 2018-09-29 | 2018-09-29 | 语义确定方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145809.8A CN110969022B (zh) | 2018-09-29 | 2018-09-29 | 语义确定方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110969022A true CN110969022A (zh) | 2020-04-07 |
CN110969022B CN110969022B (zh) | 2023-10-27 |
Family
ID=70027220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811145809.8A Active CN110969022B (zh) | 2018-09-29 | 2018-09-29 | 语义确定方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110969022B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930967A (zh) * | 2020-10-13 | 2020-11-13 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
CN112100343A (zh) * | 2020-08-17 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 一种扩充知识图谱的方法、电子设备及存储介质 |
CN112232085A (zh) * | 2020-10-15 | 2021-01-15 | 海南大学 | 面向本质计算与推理的跨dikw模态文本歧义处理方法 |
CN112256885A (zh) * | 2020-10-23 | 2021-01-22 | 上海恒生聚源数据服务有限公司 | 一种标签消歧方法、装置、设备和计算机可读存储介质 |
CN112966119A (zh) * | 2021-02-25 | 2021-06-15 | 青岛海信网络科技股份有限公司 | 一种信息获取方法、设备及介质 |
CN113488034A (zh) * | 2020-04-27 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
US20150095331A1 (en) * | 2012-12-21 | 2015-04-02 | Cloud Computing Center Chinese Academy Of Sciences | Establishing and querying methods of knowledge library engine based on emergency management |
CN105868227A (zh) * | 2015-11-20 | 2016-08-17 | 乐视致新电子科技(天津)有限公司 | 一种地址栏下拉菜单的显示方法及装置 |
-
2018
- 2018-09-29 CN CN201811145809.8A patent/CN110969022B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
US20150095331A1 (en) * | 2012-12-21 | 2015-04-02 | Cloud Computing Center Chinese Academy Of Sciences | Establishing and querying methods of knowledge library engine based on emergency management |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN105868227A (zh) * | 2015-11-20 | 2016-08-17 | 乐视致新电子科技(天津)有限公司 | 一种地址栏下拉菜单的显示方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488034A (zh) * | 2020-04-27 | 2021-10-08 | 海信集团有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
CN112100343A (zh) * | 2020-08-17 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 一种扩充知识图谱的方法、电子设备及存储介质 |
CN111930967A (zh) * | 2020-10-13 | 2020-11-13 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
CN111930967B (zh) * | 2020-10-13 | 2021-02-09 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
CN112232085A (zh) * | 2020-10-15 | 2021-01-15 | 海南大学 | 面向本质计算与推理的跨dikw模态文本歧义处理方法 |
CN112232085B (zh) * | 2020-10-15 | 2021-10-08 | 海南大学 | 面向本质计算与推理的跨dikw模态文本歧义处理方法 |
WO2022078145A1 (zh) * | 2020-10-15 | 2022-04-21 | 海南大学 | 面向本质计算与推理的跨dikw模态文本歧义处理方法 |
CN112256885A (zh) * | 2020-10-23 | 2021-01-22 | 上海恒生聚源数据服务有限公司 | 一种标签消歧方法、装置、设备和计算机可读存储介质 |
CN112256885B (zh) * | 2020-10-23 | 2023-10-27 | 上海恒生聚源数据服务有限公司 | 一种标签消歧方法、装置、设备和计算机可读存储介质 |
CN112966119A (zh) * | 2021-02-25 | 2021-06-15 | 青岛海信网络科技股份有限公司 | 一种信息获取方法、设备及介质 |
CN112966119B (zh) * | 2021-02-25 | 2022-11-25 | 青岛海信网络科技股份有限公司 | 一种信息获取方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110969022B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969022B (zh) | 语义确定方法及相关设备 | |
US11176142B2 (en) | Method of data query based on evaluation and device | |
CN106383887B (zh) | 一种环保新闻数据采集和推荐展示的方法及系统 | |
TWI652584B (zh) | 文本資訊的匹配、業務對象的推送方法和裝置 | |
US8001106B2 (en) | Systems and methods for tokenizing and interpreting uniform resource locators | |
CN107341183B (zh) | 一种基于暗网网站综合特征的网站分类方法 | |
US10606556B2 (en) | Rule-based system and method to associate attributes to text strings | |
US20120016863A1 (en) | Enriching metadata of categorized documents for search | |
US20110202533A1 (en) | Dynamic Search Interaction | |
US8316006B2 (en) | Creating an ontology using an online encyclopedia and tag cloud | |
US20110307432A1 (en) | Relevance for name segment searches | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN110990696B (zh) | 搜索意图推荐的方法及装置 | |
CN104715064A (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
US20130117716A1 (en) | Function Extension for Browsers or Documents | |
CN107491465A (zh) | 用于搜索内容的方法和装置以及数据处理系统 | |
US11182441B2 (en) | Hypotheses generation using searchable unstructured data corpus | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
CN108460131B (zh) | 一种分类标签处理方法及装置 | |
CN111401047A (zh) | 法律文书的争议焦点生成方法、装置及计算机设备 | |
CN110968691B (zh) | 司法热点确定方法及装置 | |
Gupta et al. | Comparison of semantic and syntactic information retrieval system on the basis of precision and recall | |
CN112925873A (zh) | 面向文本搜索需求的形式化表达方法、装置及存储介质 | |
CN110020029B (zh) | 一种文档与查询词的相关性获取方法和装置 | |
CN110188301A (zh) | 用于网站的信息聚合方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |