CN104008092A - 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 - Google Patents
一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 Download PDFInfo
- Publication number
- CN104008092A CN104008092A CN201410255166.8A CN201410255166A CN104008092A CN 104008092 A CN104008092 A CN 104008092A CN 201410255166 A CN201410255166 A CN 201410255166A CN 104008092 A CN104008092 A CN 104008092A
- Authority
- CN
- China
- Prior art keywords
- relation
- vector
- semantic
- entity
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于文本语义处理技术领域,具体为一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。本发明对于待抽取关系的实体对:首先对包含二者的语句进行语法依存分析;然后将分析结果视作Graph,并计算Graph中对应这两个实体的结点间最短路径,来抽取出实体间关系;继而将路径上的词语向语义空间投影并进行累积,获得该关系在语义空间上的向量表示;对于多组实体对的场景,使用聚类方法对关系进行聚类并构建关系模型;依据表征输入实体对间关系的语义向量与关系模型之间的语义相似度实现关系的识别。本发明克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,提高了关系比较准确性和处理的灵活性。
Description
技术领域
本发明属于文本语义信息处理技术领域,具体涉及一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。
背景技术
随着计算机的普及与网络技术的发展,各种海量的数据以电子文本的形式呈现出来,如何从中抽取出用户所关心的语义信息至关重要,除了实体抽取,用户往往会更加关心实体间的语义关系究竟是什么,因为语义关系才真正反映了数据互联的本质,将纷繁的实体世界有机地结合在一起,它在诸多领域都具有重要的应用价值:如在信息检索系统中,实体关系抽取技术使实现类似于“Which city is the capital of China”这样的语义检索功能成为可能;在自动应答系统中,实体关系抽取技术能够自动关联问题和相关的答案;在本体学习过程中,实体关系抽取技术能够发现新的实体间关系并用来进一步丰富本体结构;在语义网标注任务中,关系抽取能够自动关联语义网知识单元,等等。
然而,目前的实体关系抽取技术主要是基于种子模式迭代搜索的方法或者是基于自然语言处理的方法,它们最终抽取出的是一种确定性的关系描述,而这种确定性描述在词语变形、同义词变化、语法形式变化等情况下的鲁棒性不强,导致在此基础上的关系间语义比较的准确性不高,从而给后续的应用需求如关系聚类或识别带来了困难。
发明内容
本发明针对当前实体间语义关系抽取技术背景的不足,提出了一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统。
本发明提出的基于语义空间映射的语义关系表征、聚类及识别的方法,具体步骤为:
1、输入实体对及语句,即输入待查询的实体对,及同时包含该对实体的语句;
2、抽取实体间关系,对于待抽取关系的实体对,对同时包含它们的语句进行语法依存关系分析;包括语法依存关系分析和最短路径计算;其中:
语法依存关系分析是对输入的语句进行语法依存分析,获得文本单元间的语法依赖关系。
最短路径计算是将语法依存树看作是一个Graph,并将输入实体对看作是Graph中的两个感兴趣结点,同时令各结点间的边的权值均为1;采用最短路径算法求解出该两个感兴趣结点间的最短路径,并用该路径来描述两个结点之间发生关系的实质内容;
3、关系语义向量表征,即对路径上的词语进行过滤处理,去除其中无语义的停用词;然后对每一个单词,获取其在语义空间中的投影向量,并将这些语义向量进行累加,获得该关系在语义空间上的向量表示;
4、关系聚类,
在关系向量化的基础上,对于多实体对的场景,使用聚类方法并结合向量相似性度量,进行关系聚类;
5、关系模型构建模块,对于完成聚类的实体对的每一类关系,根据其向量集合构建关系模型,
6、最后,进行关系识别,即依据该向量与预先标定关系的语义距离实现关系的识别。
具体是,对于待查询实体对,在按步骤(1)-(3)所述获得其关系向量表征后,将该向量与关系模型库中的关系模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
根据上述输出的类别,从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对,从而完成了关系的识别过程。
本发明提供的基于上述方法的系统,由六大模块组成:实体对及语句输入模块、实体间关系抽取模块、关系语义向量表征模块、关系聚类模块、关系模型构建模块、关系识别模块,其中,实体间关系抽取模块又包括两个子模块:语法依存关系分析子模块和最短路径计算子模块。
其具体内容如下:
(1)实体对及语句输入模块,用于输入待查询的实体对,及同时包含该对实体的语句;所述语句既可以是单句,也可以是从语句资源库中筛选出的满足条件的多句。
(2)实体间关系抽取模块,具体包括以下两个子模块:
语法依存关系分析子模块和最短路径计算子模块:
(2.1)语法依存关系分析子模块,用于对输入的语句进行语法依存分析,获得文本单元间的语法依赖关系。这里,凡是具备语法依存分析功能的工具均可使用,优选地,可使用美国斯坦福大学的Stanford Parser (http://nlp.stanford.edu/software/index.shtml);
(2.2)最短路径计算子模块,具体内容如下:
(2.2.1)将语法依存树看作是一个Graph,并将输入实体对看作是Graph中的两个感兴趣结点,同时令各结点间的边的权值均为1;
(2.2.2)采用最短路径算法求解出该两个感兴趣结点间的最短路径,并用该路径来描述两个结点之间发生关系的实质内容;这里,最短路径求解算法有多种,如Dijkstra算法、A*算法、Floyd算法、Bellman-Ford算法、SPFA(Shortest Path Faster Algorithm)算法、Johnson算法等,优选地,采用Dijkstra算法。
(3)关系语义向量表征模块,具体内容如下:
(3.1)对路径上的词语进行过滤处理,去除其中无语义的停用词;
(3.2)对每一个单词,获取其在语义空间中的投影向量,并将这些语义向量进行累加。语义向量可通过多种方法计算获得,如Word2Vec方法、ESA(Explicit semantic analysis)方法、LSA(Latent semantic analysis)方法、共现词频率特征等等,优选地,采用Word2Vec方法(https://code.google.com/p/word2vec/,同时参见文献[1,2,3]);
[1] Tomas Mikolov, et al. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, et al. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
[3] Tomas Mikolov, et al. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013.
构建语义向量的训练数据可来源于各大知识库,优选地,采用维基百科知识库(http://www.wikipedia.org/)。
(4)关系聚类模块,具体内容如下:
关系聚类是在关系抽取基础上的进一步语义挖掘;
(4.1)对于一批实体对,按前述方法分别计算得到各自的关系向量;
(4.2)在此基础上,进一步地对它们进行关系聚类。聚类方法有多种,如Kmeans方法、层次聚类方法等,优选地,采用Kmeans方法。相似性度量可采用多种度量,如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
(5)关系模型构建模块,具体内容如下:
对于完成聚类的实体对的每一类关系,根据其向量集合构建关系模型,模型的构建可使用多种方法,如均值向量模型、高斯模型、人工神经网络、支持向量机等,优选地,使用均值向量模型;同时,人工为每一类关系标定出其对应的关系标签;
其中,m i,j 表示第i类中第j个向量,n i 为该类中的样本个数,为均值向量;
在模型构建完成后,将其添加进关系模型库。
(6)关系识别模块,具体内容如下:
(6.1)对于待查询实体对,在按模块(1)-(3)所述获得其关系向量表征后,将该向量与关系模型库中的关系模型依次进行比较,例如:对均值向量模型、高斯模型,可直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别。
以均值向量模型为例,输出的类别class为:
V为待识别关系的语义向量,为对应i类关系的均值向量,i∈{1,2,…,N},N为关系模型库中的模型数目,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量,如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度;
(6.2)根据上述模块输出的类别,从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对,从而完成了关系的识别过程。
本发明的有益效果
本发明通过将语义关系映射为向量,克服了传统方法在进行实体间关系比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点,不但便于进一步的关系聚类,而且易于实现关系的识别,在提高关系比较准确性的同时,也增强了处理的灵活性。
附图说明
图1:系统模块图。
具体实施方式
以下用实例来演示本发明的具体实施方式,系统各模块依次进行处理如下:
(1)实体对及语句输入
输入例句:
"Beijing is the capital of China."。
(2)实体间关系抽取
(2.1)语法依存关系分析
使用Standford Parser对例句进行语法依存关系分析,得到如下结果:
nsubj(capital-4, Beijing-1)
cop(capital-4, is-2)
det(capital-4, the-3)
root(ROOT-0, capital-4)
prep_of(capital-4, China-6)
(2.2)最短路径计算
将上述结果看作是Graph,被分析单元看作是Graph中的结点,然后采用Dijkstra算法计算两个感兴趣结点“Beijing”和 “China”间的最短路径,得到如下结果:
Shortest Path: [Beijing, capital, China]
也即,用“capital”可描述“Beijing”和“China”之间所发生的最本质的语义关系。
(3)关系语义向量表征
基于整个英文维基库的文本语料,使用Word2Vec进行训练,训练输出的向量维度为500维。对于最短路径上的词语,分别从训练结果中取出对应的语义向量,然后再进行向量累加,从而得到该关系的语义向量表征。
(4)关系聚类
以FreeBase库(http://www.freebase.com/)作为关系比较的基准,从中选择10类关系,并为每种关系选出若干实体对,共计56对。
Germany/ Berlin
France/ Paris
Canada/ Ottawa
Russia/ Moscow
Italy/ Rome
England/ London
Netherlands/ Amsterdam
Spain/ Madrid
Austria/ Vienna
2." person/nationality":
Barack Obama/ United States of America
Bill Clinton/ United States of America
Margaret Thatcher/ United Kingdom
Jacques Chirac/ France
Nicolas Sarkozy/ France
Tony Blair/ United Kingdom
3." director/film":
Martin Scorsese/ Goodfellas
Quentin Tarantino/ Reservoir Dogs
Luc Besson/ Nikita
George Lucas/ Star Wars
Francis Ford Coppola/ The Godfather
4." olympic_host_city/olympics_hosted":
London/ 2012 Summer Olympics
Los Angeles/ 1984 Summer Olympics
Lillehammer/ 1994 Winter Olympics
Albertville/ 1992 Winter Olympics
Turin/ 2006 Winter Olympics
5." book_character/appears_in_book":
Shylock/ The Merchant of Venice
Heathcliff/ Wuthering Heights
Hester Prynne/ The Scarlet Letter
Alexandre Manette/ A Tale of Two Cities
6." Company/brand ":
Apple/ Macintosh
The Coca-Cola Company/ Coca-Cola
Nestlé/ Nescafé
Colgate-Palmolive/ Colgate
Kraft Foods/ Tang
PepsiCo/ Mountain Dew
Kimberly-Clark/ Kleenex
DuPont/ Teflon
7." river/mouth":
Yellow River/ Bohai Sea
Yangtze River/ East China Sea
Mississippi River/ Gulf of Mexico
Nile/ Mediterranean Sea
Volga River/ Caspian Sea
Danube/ Black Sea
8." award/presented_by":
Grammy Awards/ National Academy of Recording Arts and Sciences
Golden Globe Awards/ Hollywood Foreign Press Association
Academy Award/ Academy of Motion Picture Arts and Sciences
9." military_person/participated_in_conflicts":
Erwin Rommel/ World War II
10." orbital_relationship/orbits":
Moon/ Earth
Earth/ Sun
Mars/ Sun
Charon/ Pluto
Venus/ Sun
Saturn/ Sun
Jupiter/ Sun
Uranus/ Sun
Deimos/ Mars 。
从英文维基库语料中检索包含以上实体对的语句,最终为不同实体对搜索到的语句数目分别从2句到2980句不等,共计13349句。
对每一对实体对的语句集合,对其中每句分别进行语法依存关系分析、最短路径计算、关系语义向量表征后,计算其均值向量作为表征该实体对间关系的语义向量;
当遍历了所有实体对后,再对得到实体对关系表征的语义向量集合进行Kmeans聚类,聚类数目设定为10,经聚类实验后有51对实体的关系被正确聚类,聚类正确率为:51/56 = 91.1% 。
(5)关系模型构建
对每一类关系,选择半数的实体对用于关系的建模,模型标签则来自于FreeBase的关系定义,建模使用均值向量模型。
(6)关系识别
将关系建模剩下的另一半实体对用于关系识别的测试实验,相似性度量使用Cosine相似度。经实验,用于关系识别实验的28对实体对全部被贴上了正确的关系标签,识别正确率为:28/28 = 100% 。
Claims (4)
1.一种基于语义空间映射的语义关系表征、聚类及识别的方法,其特征在于具体步骤如下:
(1)输入实体对及语句,即输入待查询的实体对,及同时包含该对实体的语句;
(2)抽取实体间关系,即对于待抽取关系的实体对,对同时包含它们的语句进行语法依存关系分析;包括语法依存关系分析和最短路径计算;其中:
语法依存关系分析是对输入的语句进行语法依存分析,获得文本单元间的语法依赖关系;
最短路径计算是将语法依存树看作是一个Graph,并将输入实体对看作是Graph中的两个感兴趣结点,同时令各结点间的边的权值均为1;采用最短路径算法求解出该两个感兴趣结点间的最短路径,并用该路径来描述两个结点之间发生关系的实质内容;
(3)关系语义向量表征,即对路径上的词语进行过滤处理,去除其中无语义的停用词;然后对每一个单词,获取其在语义空间中的投影向量,并将这些语义向量进行累加,获得该关系在语义空间上的向量表示;
(4)关系聚类,
在关系向量化的基础上,对于多实体对的场景,使用聚类方法并结合向量相似性度量,进行关系聚类;
(5)关系模型构建模块,对于完成聚类的实体对的每一类关系,根据其向量集合构建关系模型,
(6)最后,进行关系识别,即依据该向量与预先标定关系的语义距离实现关系的识别。
2.根据权利要求1所述的基于语义空间映射的语义关系表征、聚类及识别的方法,其特征在于所述依据该向量与预先标定关系的语义距离实现关系的识别,是对于待查询实体对,在按步骤(1)-(3)所述获得其关系向量表征后,将该向量与关系模型库中的关系模型依次进行比较;对均值向量模型、高斯模型,直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,则是直接输出对应的类别;
根据上述输出的类别,从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对,从而完成了关系的识别过程。
3.基于权利要求2所述方法的基于语义空间映射的语义关系表征、聚类及识别的系统,其特征在于由下述六大模块组成:实体对及语句输入模块、实体间关系抽取模块、关系语义向量表征模块、关系聚类模块、关系模型构建模块、关系识别模块,其中:
(1)实体对及语句输入模块,用于输入待查询的实体对,及同时包含该对实体的语句;所述语句是单句,或者是从语句资源库中筛选出的满足条件的多句;
(2)实体间关系抽取模块,具体包括以下两个子模块:
语法依存关系分析子模块和最短路径计算子模块:
(2.1)语法依存关系分析子模块,用于对输入的语句进行语法依存分析,获得文本单元间的语法依赖关系;
(2.2)最短路径计算子模块:
(2.2.1)将语法依存树看作是一个Graph,并将输入实体对看作是Graph中的两个感兴趣结点,同时令各结点间的边的权值均为1;
(2.2.2)采用最短路径算法求解出该两个感兴趣结点间的最短路径,并用该路径来描述两个结点之间发生关系的实质内容;
(3)关系语义向量表征模块,具体内容如下:
(3.1)对路径上的词语进行过滤处理,去除其中无语义的停用词;
(3.2)对每一个单词,获取其在语义空间中的投影向量,并将这些语义向量进行累加;
(4)关系聚类模块,具体内容如下:
(4.1)对于一批实体对,按上述方法分别计算得到各自的关系向量;
(4.2)在此基础上,对它们进行关系聚类;
(5)关系模型构建模块,具体内容如下:
对于完成聚类的实体对的每一类关系,根据其向量集合构建关系模型;同时,人工为每一类关系标定出其对应的关系标签,
其中,m i,j 表示第i类中第j个向量,n i 为该类中的样本个数,为均值向量;
在模型构建完成后,将其添加进关系模型库;
(6)关系识别模块,具体内容如下:
(6.1)对于待查询实体对,在按模块(1)-(3)所述获得其关系向量表征后,将该向量与关系模型库中的关系模型依次进行比较,其中,对均值向量模型、高斯模型,直接比较向量间相似度或者是计算输入向量属于模型的概率值,遍历后取最高值对应的类别作为输出;对人工神经网络、支持向量机,直接输出对应的类别;
(6.2)根据上述模块输出的类别,从关系模型库中取出预先标注的相应类的关系标签赋给输入实体对,从而完成了关系的识别过程。
4.根据权利要求3所述的基于语义空间映射的语义关系表征、聚类及识别的系统,其特征在于对于均值向量模型,输出的类别为:
其中,V为待识别关系的语义向量,为对应i类关系的均值向量,i∈{1,2,…,N},N为关系模型库中的模型数目,Sim(a,b)表示向量a和向量b的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410255166.8A CN104008092B (zh) | 2014-06-10 | 2014-06-10 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410255166.8A CN104008092B (zh) | 2014-06-10 | 2014-06-10 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008092A true CN104008092A (zh) | 2014-08-27 |
CN104008092B CN104008092B (zh) | 2017-01-18 |
Family
ID=51368751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410255166.8A Expired - Fee Related CN104008092B (zh) | 2014-06-10 | 2014-06-10 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008092B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN106202010A (zh) * | 2016-07-12 | 2016-12-07 | 重庆兆光科技股份有限公司 | 基于深度神经网络构建法律文本语法树的方法和装置 |
CN107341252A (zh) * | 2017-07-10 | 2017-11-10 | 北京神州泰岳软件股份有限公司 | 一种挖掘规则关联模型未知关联关系的方法及装置 |
CN107562721A (zh) * | 2017-08-09 | 2018-01-09 | 刘聪 | 一种基于拓扑学的名词分类算法 |
CN107862620A (zh) * | 2017-12-11 | 2018-03-30 | 四川新网银行股份有限公司 | 一种基于社交数据的相似用户挖掘方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN109522407A (zh) * | 2018-10-26 | 2019-03-26 | 平安科技(深圳)有限公司 | 企业关系预测方法、装置、计算机设备和存储介质 |
CN110222250A (zh) * | 2019-05-16 | 2019-09-10 | 中国人民公安大学 | 一种面向微博的突发事件触发词识别方法 |
CN110750994A (zh) * | 2019-10-23 | 2020-02-04 | 北京字节跳动网络技术有限公司 | 一种实体关系抽取方法、装置、电子设备及存储介质 |
CN111061880A (zh) * | 2019-12-24 | 2020-04-24 | 成都迪普曼林信息技术有限公司 | 海量文本数据快速聚类方法 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN112771564A (zh) * | 2018-07-18 | 2021-05-07 | 邓白氏公司 | 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎 |
CN113705245A (zh) * | 2021-09-01 | 2021-11-26 | 北京邮电大学 | 语义通信方法、装置、系统、计算机设备及存储介质 |
CN114372138A (zh) * | 2022-01-11 | 2022-04-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
CN112771564B (zh) * | 2018-07-18 | 2024-06-04 | 邓白氏公司 | 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050182764A1 (en) * | 2004-02-13 | 2005-08-18 | Evans Lynne M. | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
CN101446944A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义关系树的构造和比较方法 |
JP2012043048A (ja) * | 2010-08-16 | 2012-03-01 | Kddi Corp | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
CN102799577A (zh) * | 2012-08-17 | 2012-11-28 | 苏州大学 | 一种中文实体间语义关系抽取方法 |
-
2014
- 2014-06-10 CN CN201410255166.8A patent/CN104008092B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050182764A1 (en) * | 2004-02-13 | 2005-08-18 | Evans Lynne M. | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
CN101446944A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义关系树的构造和比较方法 |
JP2012043048A (ja) * | 2010-08-16 | 2012-03-01 | Kddi Corp | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
CN102799577A (zh) * | 2012-08-17 | 2012-11-28 | 苏州大学 | 一种中文实体间语义关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
彭京 等: "一种基于语义内积空间模型的文本聚类算法", 《计算机学报》 * |
白秋产 等: "概念向量文本聚类算法", 《计算机工程与应用》 * |
黄晨 等: "基于卷积树核的无指导中文实体关系抽取研究", 《中文信息学报》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104809176B (zh) * | 2015-04-13 | 2018-08-07 | 中央民族大学 | 藏语实体关系抽取方法 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
CN106202010A (zh) * | 2016-07-12 | 2016-12-07 | 重庆兆光科技股份有限公司 | 基于深度神经网络构建法律文本语法树的方法和装置 |
CN106202010B (zh) * | 2016-07-12 | 2019-11-26 | 重庆兆光科技股份有限公司 | 基于深度神经网络构建法律文本语法树的方法和装置 |
CN107341252A (zh) * | 2017-07-10 | 2017-11-10 | 北京神州泰岳软件股份有限公司 | 一种挖掘规则关联模型未知关联关系的方法及装置 |
CN107562721B (zh) * | 2017-08-09 | 2020-11-03 | 刘聪 | 一种基于拓扑学的名词分类方法 |
CN107562721A (zh) * | 2017-08-09 | 2018-01-09 | 刘聪 | 一种基于拓扑学的名词分类算法 |
CN107862620A (zh) * | 2017-12-11 | 2018-03-30 | 四川新网银行股份有限公司 | 一种基于社交数据的相似用户挖掘方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN107992596B (zh) * | 2017-12-12 | 2021-05-18 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN112771564A (zh) * | 2018-07-18 | 2021-05-07 | 邓白氏公司 | 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎 |
CN112771564B (zh) * | 2018-07-18 | 2024-06-04 | 邓白氏公司 | 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎 |
CN109522407A (zh) * | 2018-10-26 | 2019-03-26 | 平安科技(深圳)有限公司 | 企业关系预测方法、装置、计算机设备和存储介质 |
CN110222250A (zh) * | 2019-05-16 | 2019-09-10 | 中国人民公安大学 | 一种面向微博的突发事件触发词识别方法 |
CN110222250B (zh) * | 2019-05-16 | 2021-07-27 | 中国人民公安大学 | 一种面向微博的突发事件触发词识别方法 |
CN110750994A (zh) * | 2019-10-23 | 2020-02-04 | 北京字节跳动网络技术有限公司 | 一种实体关系抽取方法、装置、电子设备及存储介质 |
CN111061880A (zh) * | 2019-12-24 | 2020-04-24 | 成都迪普曼林信息技术有限公司 | 海量文本数据快速聚类方法 |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111177383B (zh) * | 2019-12-24 | 2024-01-16 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111581954B (zh) * | 2020-05-15 | 2023-06-09 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN113705245A (zh) * | 2021-09-01 | 2021-11-26 | 北京邮电大学 | 语义通信方法、装置、系统、计算机设备及存储介质 |
CN114372138A (zh) * | 2022-01-11 | 2022-04-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104008092B (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104008092B (zh) | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
CN104035917B (zh) | 一种基于语义空间映射的知识图谱管理方法和系统 | |
CN105718586B (zh) | 分词的方法及装置 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
US10984318B2 (en) | Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN104484374B (zh) | 一种创建网络百科词条的方法及装置 | |
WO2014209810A2 (en) | Methods and apparatuses for mining synonymous phrases, and for searching related content | |
CN103699529A (zh) | 一种使用词义消歧的融合机器翻译系统的方法及装置 | |
CN102662923A (zh) | 一种基于机器学习的本体实例学习方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
Kumar et al. | Constructing knowledge graph from unstructured text | |
CN112949293B (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
Le Huy et al. | Keyphrase extraction model: a new design and application on tourism information | |
CN104123336A (zh) | 深度玻尔兹曼机模型及短文本主题分类系统和方法 | |
Sprugnoli | Arretium or Arezzo? a neural approach to the identification of place names in historical texts | |
Calvin et al. | Image captioning using convolutional neural networks and recurrent neural network | |
Chakrabarti et al. | Tableqna: Answering list intent queries with web tables | |
Zheng et al. | A novel hierarchical convolutional neural network for question answering over paragraphs | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
Murugathas et al. | Domain specific question & answer generation in tamil | |
CN108710607B (zh) | 文本改写方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170118 Termination date: 20190610 |