CN102436442A - 一种基于上下文语境的词的语义相关性度量方法 - Google Patents

一种基于上下文语境的词的语义相关性度量方法 Download PDF

Info

Publication number
CN102436442A
CN102436442A CN2011103431227A CN201110343122A CN102436442A CN 102436442 A CN102436442 A CN 102436442A CN 2011103431227 A CN2011103431227 A CN 2011103431227A CN 201110343122 A CN201110343122 A CN 201110343122A CN 102436442 A CN102436442 A CN 102436442A
Authority
CN
China
Prior art keywords
speech
context
semantic dependency
text
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103431227A
Other languages
English (en)
Inventor
张晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority to CN2011103431227A priority Critical patent/CN102436442A/zh
Publication of CN102436442A publication Critical patent/CN102436442A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及自然语言处理、文本语义分析技术领域,具体是一种基于上下文语境度量的词的语义相关性的方法。该方法旨在克服现有的语义相关性度量方法无法反映词在特定上下文语境中的含义的缺点。为此,本发明的方法包括:基于统计方法度量词自身的语义相关性;度量词在上下文语境中的语义相关性;以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值。由于将词自身的语义相关性和词在上下文语境中的语义相关性进行了有效融合,本发明的方法能够更准确、更全面地度量词在特定上下文语境中的语义相关性。

Description

一种基于上下文语境的词的语义相关性度量方法
技术领域
本发明涉及自然语言处理、文本语义分析技术领域,具体是一种基于上下文语境度量的词的语义相关性的方法。
背景技术
随着信息技术的发展,人类已经步入一个高度信息化的时代,各种纷繁芜杂的信息不断涌现,充斥着人类生活的方方面面。信息的急速膨胀一方面开阔了人们的视野、丰富了人们的生活、促进了文明进步,另一方面也使人们迷失在信息的汪洋大海中,难以高效地获取自己真正想要的数据。为了使人们能够有效地利用各种信息,需要一套行之有效的信息组织、整理和检索技术,而词的语义相关性度量是上述技术的核心所在。
目前,在度量词的语义相关性方面的研究主要分为两大类,即基于词典的方法和基于统计的方法。
基于词典的方法主要借助结构化的词典来计算词与词之间的语义相关性。结构化的词典可以来自于预先定义好的语义结构集合。例如,WordNet是计算词与词之间的语义相关性时广泛采用的一种结构化词典,它是由Princeton大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典,它不仅将词以字母顺序排列,而且按照词的语义组成一个“词的网络”。在WordNet中,名词、动词、形容词和副词各自被组织成一个同义词网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也通过各种关系连接。针对一些特定领域的词,也可以利用机器学习的方法,通过训练集中的已标注信息来获取结构化词典(例如在文献标引和检索中常用的词表)。
基于词典的方法虽然可以方便地获取词与词之间的语义相关性,但是构建一个结构合理的词典是相当费时费力的过程,并且需要丰富的专业知识和大量的标注数据,因而基于词典的方法使用代价过高。此外,词的数量是极其庞大并且不断增长的,而词典的规模则是有限的,因而基于词典的方法必然无法度量任意两个词的语义相关性,这在很大程度上影响了该方法的可靠性。
基于统计的方法是数据驱动(data-driven)的,其主要思想是从词与词的共生关系(即两个词出现在同一文档)中挖掘词的语义相关性。一般而言,具有较高共生频率的两个词具有较强的语义相关性,所以词与词的共生关系可以有效地反映两者之间的语义相关性。目前,归一化谷歌距离(NormalizedGoogle Distance,简称NGD)是利用共生关系度量词的语义相关性的一种常用方法,它借助Google搜索引擎获取两个词在网络文档中各自出现和同时出现的相关信息,并由此计算词的语义相关性。用p(w1)表示词w1出现的概率,p(w2)表示词w2出现的概率,p(w1|w2)表示在词w2出现的条件下词w1也出现的概率,p(w2|w1)表示在词w1出现的条件下词w2也出现的概率,因而词w1与词w2之间的NGD的最原始表示形式为:
NGD0(w1,w2)=max{1/p(w1|w2),1/p(w2|w1)}    (1)
对公式(1)进行取对数操作,并进行归一化之后,NGD可以表示为:
NGD ( w 1 , w 2 ) = max { log 1 / p ( w 1 / w 2 ) , log 1 / p ( w 2 | w 1 ) } max { log 1 / p ( w 1 ) , log 1 / p ( w 2 ) } - - - ( 2 )
假设被Google索引的所有网页数为M,则在此基础上可以将词w1出现的次数n(w1)、词w2出现的次数n(w2)、词w1与w2同时出现的次数n(w1,w2)表示为:
n(w1)=Mp(w1)
n(w2)=Mp(w2)    (3)
n(w1,w2)=Mp(w1,w2)
从而,
p(w1|w2)=n(w1,w2)/n(w2)
(4)
p(w2|w1)=n(w1,w2)/n(w1)
最终,公式(2)所示的NGD可以重写为:
NGD ( w 1 , w 2 ) = max { log n ( w 1 ) , log n ( w 2 ) } - log n ( w 1 , w 2 ) log M - min { log n ( w 1 ) , log n ( w 2 ) } - - - ( 5 )
在计算NGD时,n(w1)是将w1作为查询词时Google搜索引擎所返回的结果数,而n(w1,w2)则是同时将w1与w2作为查询词所返回的结果数。
与基于词典的方法相比,基于统计的方法并不依赖于任何现有词库,因而无需预先构建词典,大大降低了工作量。同时,基于统计的方法适用于度量任意两个词之间的语义相关性,因而对不断出现的新兴词汇具有普遍的适用性和良好的可扩展性。
然而,在度量词的语义相关性时,上述方法仅仅考虑了词自身的语义,事实上,特定的上下文语境也是一个非常有价值的信息,对于界定判别多义词的语义、推断词在特定语境中的引申义等能够起到关键性的作用。例如,当我们考虑两个词“jaguar(美洲豹)”与“cheetah(猎豹)”之间的相互关系时,如果是在“animal(动物)”的上下文语境中,则两者的语义相关性很强;但如果是在“automobile(汽车)”的上下文语境中,“jaguar”表示的是一种汽车品牌,则它与“cheetah”的语义相关性将大大减弱。由此可见,有效利用特定的上下文语境对于准确、全面地度量词的语义相关性具有至关重要的作用。
发明内容
本发明旨在解决上述现有技术中存在的问题,为此,本发明从词自身的语义出发,综合分析特定的上下文语境,从而准确、全面地度量词与词之间的语义相关性。
具体而言,在度量词自身的语义相关性时,本发明对基于统计的方法NGD进行了改进,用几何平均值函数代替了最大值函数,一方面同时考虑了p(w1|w2)和p(w2|w1)两种条件概率,另一方面也使最终的度量表达式大大简化,提高了运行效率。在度量词在特定上下文语境中的语义相关性时,本发明分别度量两个词与特定上下文中的每个关键词的语义相关性,并将度量结果组织成“上下文直方图”或“上下文向量”,从而将词在特定上下文语境中的语义相关性度量这一抽象问题转变成为直方图距离或向量距离度量的问题。
更具体地说,根据本发明的一个方面,提供一种基于上下文语境度量词的语义相关性的方法,该方法包括基于统计方法度量词自身的语义相关性,该方法的特征在于还包括如下步骤:度量词在上下文语境中的语义相关性;以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值。
在优选实施方式中,度量词在上下文语境中的语义相关性进一步包括如下步骤:从上下文中提取关键词,并用提取出的关键词构成的关键词集来表示该上下文语境;以及分别计算待度量的两个词与关键词集中的每个关键词之间的语义相关性。
在更优选的实施方式中,度量词在上下文语境中的语义相关性还包括如下步骤:将计算出的待度量词与关键词之间的语义相关性组织成上下文直方图或上下文向量;以及通过度量上下文直方图的距离或上下文向量的距离,获取词在上下文语境中的语义相关性度量值。
在更优选的实施方式中,基于统计方法度量词自身的语义相关性进一步包括如下步骤:用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式;以及将待度量的两个词作为查询词分别以及共同输入网络搜索引擎,获得返回的相应结果数,并且将返回的相应结果数输入所述度量表达式,从而计算出词自身的语义相关性。
在进一步优选的实施方式中,根据下列公式来度量词自身的语义相关性:
Sim word ( w 1 , w 2 ) = 1 2 log n 2 ( w 1 , w 2 ) n ( w 1 ) n ( w 2 )
其中,w1、w2分别是待度量的两个词;n(w1)、n(w2)分别是将词w1和词w2作为查询词输入网络搜索引擎而获得的返回结果数;n(w1,w2)是将词w1和词w2同时作为查询词输入网络搜索引擎而获得的返回结果数;而Simword(w1,w2)是词自身的语义相关性。
在进一步优选的实施方式中,所述上下文直方图的距离是下述距离中的至少一种:欧氏距离、交集距离、二次方距离、EMD距离;并且/或者所述上下文向量的距离是下述距离中的至少一种:欧氏距离、绝对距离、明氏距离、马氏距离。
在进一步优选的实施方式中,根据下列公式来融合词自身的语义相关性和词在上下文语境中的语义相关性:
Sim(w1,w2)=αSimword(w1,w2)+βSimcontext(w1,w2)
其中,w1、w2分别是待度量的两个词;Simword(w1,w2)是词自身的语义相关性,Simcontext(w1,w2)是词在上下文语境中的语义相关性;α、β是可调参数,用于调节两种语义相关性的权重;而Sim(w1,w2)是融合之后的词的语义相关性。
根据本发明的另一个方面,提供一种基于上下文语境度量词的语义相关性的方法,该方法的特征在于包括如下步骤:用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式;将待度量的两个词作为查询词分别以及共同输入网络搜索引擎,获得返回的相应结果数,并且将返回的相应结果数输入所述度量表达式,从而计算出词自身的语义相关性;度量词在上下文语境中的语义相关性;以及将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值。
本发明的方法综合考虑了词自身的语义相关性和词在特定上下文语境中的语义相关性,因而可以更加准确而全面地反映词与词之间的语义相关性。
附图说明
通过结合附图来理解本发明的优选实施方式,本发明上述以及其他特征和优点将变得更清楚,附图中:
图1是根据本发明的基于上下文语境的词的语义相关性度量方法的流程图。
图2是根据本发明确定的词在特定上下文语境中的语义相关性图表的一个示例。
具体实施方式
下面对本发明的优选实施方式的描述本质上仅仅是示例性的,并非旨在限制本发明、其应用或用途。应当指出的是,尽管该优选实施方式披露了本发明的各种具体参数和细节,但是本领域技术人员容易理解的是,本发明的保护范围不限于这些参数和细节,在不偏离本发明的基本原理的情况下,本领域技术人员能够对这些参数和细节做出修改或等同替换,修改或替换后的实施方案也将落入本发明的保护范围之内。
如上所述,词的语义不仅取决于词自身的语义,而且还受到特定上下文语境的影响,因此,在度量词与词之间的语义相关性时,有必要同时考虑词自身的语义相关性以及词在特定上下文语境中的语义相关性。根据本发明,分别计算词自身的语义相关性和词在特定上下文语境中的语义相关性,在此基础上将两者进行融合,最终获得基于上下文语境的词的语义相关性。
如图1所示,根据本发明的基于上下文语境度量的词的语义相关性的方法包括如下步骤:(1)基于统计方法度量词自身的语义相关性;(2)度量词在上下文语境中的语义相关性;以及(3)将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值。下面结合附图来详细描述各个步骤的具体示例性操作。
在度量词自身的语义相关性方面,本发明对基于统计的方法NGD进行了改进,从NGD的原始表示形式出发,在公式(1)中用几何平均值函数(xy)1/2代替最大值函数max{x,y}:
NGD 0 ( w 1 , w 2 ) = 1 / p ( w 1 | w 2 ) · p ( w 2 | w 1 ) - - - ( 6 )
这样,一方面在表达式中同时考虑了两种概率,另一方面也可以使后续推导所得的度量表达式形式更为简单。
由于词的语义相关性与距离成反比,因此,对公式(6)取倒数,从而得到:
Sim word ( w 1 , w 2 ) = p ( w 1 | w 2 ) · p ( w 2 | w 1 ) - - - ( 7 )
对公式(6)进行取对数操作,并结合公式(3)、(4),可得到词自身的语义相关性的度量值:
Sim word ( w 1 , w 2 ) = 1 2 log n 2 ( w 1 , w 2 ) n ( w 1 ) n ( w 2 ) - - - ( 8 )
将词w1和词w2分别作为查询词提交到网络搜索引擎-例如但不限于Google搜索引擎,获得所返回的结果数n(w1)和n(w2);将词w1和词w2同时作为查询词提交到Google搜索引擎,获得所返回的结果数n(w1,w2)。依据公式(8),可计算出词w1和词w2自身的语义相关性Simword(w1,w2),其值越大,表示词w1和词w2自身的语义相关性越强。
就度量一个词w在特定上下文语境中的语义相关性而言,特定上下文语境本质上就是一些词的集合,这些词限定或丰富了词w的语义,对于准确而全面地理解词w的语义具有重要作用。
本发明从特定上下文中提取关键词,并用这些关键词的集合Context={k1,k2,...,kn}来表示该上下文语境。本领域技术人员容易理解的是,也可以用上下文中所有词的集合来表示上下文语境,但这样会导致上下文语境过于庞大,同时一些无关词、次要词的引入也会影响上下文语义相关性的度量。对于词w1,计算它与每一个关键词ki∈Context的自身语义相关性Simword(w1,ki);对于词w2,同样计算它与每一个关键词ki∈Context的自身语义相关性Simword(w2,ki)。计算结果的集合{Simword(w1,ki)}和{Simword(w2,ki)}(1≤i≤n)可按照上下文直方图或上下文向量两种方式进行组织。
关于上下文直方图,如图2所示,将集合{Simword(w1,ki)}和{Simword(w2,ki)}(1≤i≤n)分别组织成直方图:Histogram1和Histogram2。Histogram1中第i个柱形的高度对应于Simword(w1,ki)的数值,同理,Histogram2中第i个柱形的高度对应于Simword(w2,ki)的数值。这样,便将词在特定上下文语境中的语义相关性度量问题转变成为直方图Histogram1和Histogram2的距离Disthistogram(Histogram1,Histogram2)的度量问题,具体可采用的方法包括但不局限于:欧氏距离、交集距离、二次方距离、EMD距离等。
如上所述,也可以将集合{Simword(w1,ki)}和{Simword(w2,ki)}(1≤i≤n)分别组织成向量:
Vector1=(Simword(w1,k1),Simword(w1,k2),...,Simword(w1,kn))
(9)
Vector2=(Simword(w2,k1),Simword(w2,k2),...,Simword(w2,kn))
这样,便将词在特定上下文语境中的语义相关性的度量问题转变成为向量Vector1和Vector2的距离Distvector(Vector1,Vector2)的度量问题,具体可采用的方法包括但不局限于:欧氏距离、绝对距离、明氏距离、马氏距离等。
由于语义相关性与距离成反比,因此,对计算所得的距离取负对数,从而得到词在特定上下文语境中的语义相关性的度量:
Simcontext(w1,w2)=-log(Disthistogram(Histogram1,Histogram2))(10)
Simcontext(w1,w2)=-log(Distvector(Vector1,Vector2))(11)
其中,Simcontext(w1,w2)的值越大,表示词w1和词w2在特定上下文语境中的语义相关性越强。
接下来,在获得词自身的语义相关性和词在特定上下文语境中的语义相关性的基础上,本发明对两者进行融合,最终获得基于上下文语境的词的语义相关性度量。例如,可按照下列公式对两种相关性进行融合:
Sim(w1,w2)=αSimword(w1,w2)+(1-α)Simcontext(w1,w2)(12)
其中,α(0≤α≤1)是可调参数,用于调节两种语义相关性的权重。在度量词的语义相关性时,如果较为关注词自身固有的语义,则选择较大的α值(特别地,当α=1时,则完全等价于词自身的语义相关性,而忽略上下文语境的影响);如果较为关注词在上下文语境中的特定语义,则选择较小的α值(特别地,当α=0时,则完全等价于词在特定上下文语境中的语义相关性,而忽略词自身的语义),尤其适用于生僻词、新生词等自身语义并不非常明确的词的语义相关性度量。
此外,也可以采用非线性融合的方式对词自身的语义相关性和词在特定上下文语境中的语义相关性进行融合,具体的模型和相应的参数可以基于经验给定或者通过训练获得。
尽管已参照优选实施方式描述了本发明的技术方案,但是本领域技术人员容易理解的是,本发明的保护范围并不局限于这些具体实施方式,在不偏离本发明的基本原理的情况下,可以对所述实施方式以及其中的具体技术特征进行拆分、组合或改变,拆分、组合或改变后的技术方案仍将落入本发明的保护范围之内。

Claims (10)

1.一种基于上下文语境度量词的语义相关性的方法,包括基于统计方法度量词自身的语义相关性,该方法的特征在于还包括如下步骤:
度量词在上下文语境中的语义相关性;以及
将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值。
2.根据权利要求1所述的方法,其特征在于,度量词在上下文语境中的语义相关性进一步包括如下步骤:
从上下文中提取关键词,并用提取出的关键词构成的关键词集来表示该上下文语境;以及
分别计算待度量的两个词与关键词集中的每个关键词之间的语义相关性。
3.根据权利要求2所述的方法,其特征在于,度量词在上下文语境中的语义相关性还包括如下步骤:
将计算出的待度量词与关键词之间的语义相关性组织成上下文直方图或上下文向量;以及
通过度量上下文直方图的距离或上下文向量的距离,获取词在上下文语境中的语义相关性度量值。
4.根据权利要求3所述的方法,其特征在于,基于统计方法度量词自身的语义相关性进一步包括如下步骤:
用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式;以及
将待度量的两个词作为查询词分别以及共同输入网络搜索引擎,获得返回的相应结果数,并且将返回的相应结果数输入所述度量表达式,从而计算出词自身的语义相关性。
5.根据权利要求4所述的方法,其特征在于,根据下列公式来度量词自身的语义相关性:
Sim word ( w 1 , w 2 ) = 1 2 log n 2 ( w 1 , w 2 ) n ( w 1 ) n ( w 2 )
其中,w1、w2分别是待度量的两个词;n(w1)、n(w2)分别是将词w1和词w2作为查询词输入网络搜索引擎而获得的返回结果数;n(w1,w2)是将词w1和词w2同时作为查询词输入网络搜索引擎而获得的返回结果数;而Simword(w1,w2)是词自身的语义相关性。
6.根据权利要求3至5中任一项所述的方法,其特征在于,所述上下文直方图的距离是下述距离中的至少一种:欧氏距离、交集距离、二次方距离、EMD距离;并且/或者所述上下文向量的距离是下述距离中的至少一种:欧氏距离、绝对距离、明氏距离、马氏距离。
7.根据权利要求1至5中任一项所述的方法,其特征在于,根据下列公式来融合词自身的语义相关性和词在上下文语境中的语义相关性:
Sim(w1,w2)=αSimword(w1,w2)+(1-α)Simcontext(w1,w2)
其中,w1、w2分别是待度量的两个词;Simword(w1,w2)是词自身的语义相关性,Simcontext(w1,w2)是词在上下文语境中的语义相关性;α是调节两种语义相关性的权重的可调参数且0≤α≤1;而Sim(w1,w2)是融合之后的词的语义相关性。
8.一种基于上下文语境度量词的语义相关性的方法,其特征在于包括如下步骤:
用几何平均值函数代替最大值函数来获取词自身的语义相关性的度量表达式;
将待度量的两个词作为查询词分别以及共同输入网络搜索引擎,获得返回的相应结果数,并且将返回的相应结果数输入所述度量表达式,从而计算出词自身的语义相关性;
度量词在上下文语境中的语义相关性;以及
将词自身的语义相关性和词在上下文语境中的语义相关性进行融合,从而获得基于上下文语境的词的语义相关性度量值。
9.根据权利要求8所述的方法,其特征在于,度量词在上下文语境中的语义相关性进一步包括如下步骤:
从上下文中提取关键词,并用提取出的关键词构成的关键词集来表示该上下文语境;以及
分别计算待度量的两个词与关键词集中的每个关键词之间的语义相关性。
10.根据权利要求8或9所述的方法,其特征在于,根据下列公式来融合词自身的语义相关性和词在上下文语境中的语义相关性:
Sim(w1,w2)=αSimword(w1,w2)+(1-α)Simcontext(w1,w2)
其中,w1、w2分别是待度量的两个词;Simword(w1,w2)是词自身的语义相关性,Simcontext(w1,w2)是词在上下文语境中的语义相关性;α是调节两种语义相关性的权重的可调参数且0≤α≤1;而Sim(w1,w2)是融合之后的词的语义相关性。
CN2011103431227A 2011-11-03 2011-11-03 一种基于上下文语境的词的语义相关性度量方法 Pending CN102436442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103431227A CN102436442A (zh) 2011-11-03 2011-11-03 一种基于上下文语境的词的语义相关性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103431227A CN102436442A (zh) 2011-11-03 2011-11-03 一种基于上下文语境的词的语义相关性度量方法

Publications (1)

Publication Number Publication Date
CN102436442A true CN102436442A (zh) 2012-05-02

Family

ID=45984509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103431227A Pending CN102436442A (zh) 2011-11-03 2011-11-03 一种基于上下文语境的词的语义相关性度量方法

Country Status (1)

Country Link
CN (1) CN102436442A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819601A (zh) * 2012-08-15 2012-12-12 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN103390004A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN104035973A (zh) * 2014-05-22 2014-09-10 百度在线网络技术(北京)有限公司 一种向用户提供目标信息的方法与装置
TWI477979B (zh) * 2012-09-25 2015-03-21 Inst Information Industry 社群網路資訊建議方法、系統及其電腦可讀取紀錄媒體
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN106372062A (zh) * 2016-09-18 2017-02-01 长沙军鸽软件有限公司 一种通讯消息中非文明用语的识别方法及装置
CN107957990A (zh) * 2017-11-20 2018-04-24 东软集团股份有限公司 一种触发词扩展方法、装置以及事件提取方法及系统
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN111191458A (zh) * 2019-12-20 2020-05-22 中国科学院软件研究所 一种基于上下文的语义匹配方法和系统
CN112765998A (zh) * 2019-11-01 2021-05-07 华为技术有限公司 机器翻译方法、机器翻译模型训练方法、装置及存储介质
CN113535805A (zh) * 2021-06-17 2021-10-22 科大讯飞股份有限公司 数据挖掘方法及相关装置和电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
CN101957835A (zh) * 2010-08-16 2011-01-26 无锡市浏立方科技有限公司 一种面向复杂关系和上下文语境信息的语义数据模型
CN102138140A (zh) * 2008-07-01 2011-07-27 多斯维公司 利用综合语义语境的信息处理

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
CN102138140A (zh) * 2008-07-01 2011-07-27 多斯维公司 利用综合语义语境的信息处理
CN101957835A (zh) * 2010-08-16 2011-01-26 无锡市浏立方科技有限公司 一种面向复杂关系和上下文语境信息的语义数据模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOYU ZHANG ET AL: "Automatic Semantic Annotation for Video Blogs", 《IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》, 26 June 2008 (2008-06-26), pages 2 *
XIAOYU ZHANG ET AL: "Effective Annotation and Search for Video Blogs with Integration of Context and Content Analysis", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 11, no. 2, 28 February 2009 (2009-02-28), pages 3 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390004B (zh) * 2012-05-11 2018-03-02 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN103390004A (zh) * 2012-05-11 2013-11-13 北京百度网讯科技有限公司 一种语义冗余的确定方法和装置、对应的搜索方法和装置
CN102819601B (zh) * 2012-08-15 2015-07-01 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN102819601A (zh) * 2012-08-15 2012-12-12 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
TWI477979B (zh) * 2012-09-25 2015-03-21 Inst Information Industry 社群網路資訊建議方法、系統及其電腦可讀取紀錄媒體
CN104035973A (zh) * 2014-05-22 2014-09-10 百度在线网络技术(北京)有限公司 一种向用户提供目标信息的方法与装置
CN105975507A (zh) * 2016-04-28 2016-09-28 南京理工大学 一种基于多源网络新闻数据的多媒体问答方法
CN106372062A (zh) * 2016-09-18 2017-02-01 长沙军鸽软件有限公司 一种通讯消息中非文明用语的识别方法及装置
CN107957990A (zh) * 2017-11-20 2018-04-24 东软集团股份有限公司 一种触发词扩展方法、装置以及事件提取方法及系统
CN107957990B (zh) * 2017-11-20 2021-04-02 东软集团股份有限公司 一种触发词扩展方法、装置以及事件提取方法及系统
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN108564106B (zh) * 2018-02-28 2020-10-20 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力分析方法
CN112765998A (zh) * 2019-11-01 2021-05-07 华为技术有限公司 机器翻译方法、机器翻译模型训练方法、装置及存储介质
CN111191458A (zh) * 2019-12-20 2020-05-22 中国科学院软件研究所 一种基于上下文的语义匹配方法和系统
CN113535805A (zh) * 2021-06-17 2021-10-22 科大讯飞股份有限公司 数据挖掘方法及相关装置和电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN102436442A (zh) 一种基于上下文语境的词的语义相关性度量方法
Lehrberger Sublanguage analysis
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN103324700B (zh) 一种基于Web信息的本体概念属性学习方法
CN102567306B (zh) 一种不同语言间词汇相似度的获取方法及系统
CN101710343A (zh) 一种基于文本挖掘的本体自动构建系统及方法
US20190171713A1 (en) Semantic parsing method and apparatus
CN106055623A (zh) 一种跨语言推荐方法和系统
CN103077157B (zh) 一种文本集合相似性的可视化方法和装置
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN104133855A (zh) 一种输入法智能联想的方法及装置
US8914378B2 (en) Specification document check method, program, and system
Gao et al. Text classification research based on improved Word2vec and CNN
Na et al. Automatically generation and evaluation of stop words list for Chinese patents
CN112183059A (zh) 一种中文结构化事件抽取方法
CN109189820B (zh) 一种煤矿安全事故本体概念抽取方法
Singh et al. Statistical tagger for Bhojpuri (employing support vector machine)
CN103455638A (zh) 一种结合推理和半自动学习的行为知识提取方法和装置
Liu et al. Knowledge Graph Construction and Application of Spatial Arrangement of Underground Powerhouse
Christophe et al. A methodology supporting syntactic, lexical and semantic clarification of requirements in systems engineering
CN109828775B (zh) 一种多语言翻译文本内容的web管理系统及方法
Tianwen et al. Evaluate the chinese version of machine translation based on perplexity analysis
Zou et al. Diachronic corpus based word semantic variation and change mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120502