CN106777275A - 基于多粒度语义块的实体属性和属性值提取方法 - Google Patents
基于多粒度语义块的实体属性和属性值提取方法 Download PDFInfo
- Publication number
- CN106777275A CN106777275A CN201611241946.2A CN201611241946A CN106777275A CN 106777275 A CN106777275 A CN 106777275A CN 201611241946 A CN201611241946 A CN 201611241946A CN 106777275 A CN106777275 A CN 106777275A
- Authority
- CN
- China
- Prior art keywords
- attribute
- phrase
- property value
- entity
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于多粒度语义块的实体属性和属性值提取方法,属于Web挖掘和信息抽取技术领域;包括如下步骤:构建语料集并进行自由文本提取;对语料进行分词、词性标注以及短语识别;对语料进行语义角色标注;对语料进行依存句法分析;对语料进行语义依存分析;提取基于词语、短语和语义角色三种粒度的候选实体、属性及其属性值三元组;利用经训练的分类器对候选实体、属性和属性值三元组进行正确和错误分类。对比现有技术,本发明通过从自由文本中自动提取词语、短语和语义角色三种粒度的实体、属性和属性值,提高了实体的属性和属性值提取的准确性和效率,在主题检测、信息检索、自动文摘、问答系统等领域具有广阔的应用前景。
Description
技术领域
本发明属于Web挖掘和信息抽取技术领域,涉及一种基于多粒度语义块的实体属性和属性值提取方法及系统。本发明在信息检索、主题检测、自动问答等领域具有广阔的应用前景。
背景技术
实体属性和属性值知识提取是Web挖掘和信息抽取领域的重要研究课题。实体属性和属性值知识提取是指从文本中抽取实体、属性及其属性值三元组。
实体属性和属性值知识提取方法包括三类:基于规则的方法、基于统计的方法以及混合方法。基于规则的方法主要是根据网页的组织结构规则、页面内容的布局规则、自然语言的词汇句法规则来抽取知识。该方法的特点是不受领域限制,准确率较高,需要人工构建规则。卢汉等提出了一种基于属性元性质和正则表达式的数量型属性值提取方法(基于元性质的数量型属性值自动提取系统的实现.计算机研究与发展,2010)。Sanchez研制了一种基于模式和搜索引擎的方法来获取目标概念的属性和属性值(A Methodology to LearnOntological Attributes from the Web,Data and Knowledge Engineering,2010)。
基于统计的方法主要是利用统计度量或分类方法来抽取知识,该方法的特点是召回率较高,需要人工标注训练样本。Poesio等采用了一种基于分类器的属性提取方法(Identifying Concept Attributes Using a Classifier.The ACL-SIGLEX Workshop onDeep Lexical Acquisition,2005)。张铭等采用支持向量机和隐马尔科夫模型混合的方法来抽取论文的元数据信息(SVM+BiHMM:基于统计方法的元数据抽取混合模型,软件学报,2008)。
混合方法是基于规则和基于统计的方法的融合。Wong等针对以列表型文本为主的半结构化网页,提出了一种基于贝叶斯学习的信息抽取方法(Learning to Adapt WebInformation Extraction Knowledge and Discovering New Attributes via aBayesian Approach.IEEE Transactions on Knowledge and Data Engineering,2010)。
上述现有的实体属性和属性值知识提取方法主要是从结构化网页和以列表型文本为主的半结构化网页中抽取属性知识,对从以自由文本或非结构化文本为主的网页中获取属性知识研究较少。目前属性知识提取方法以抽取实体给定属性的属性值为主,对抽取实体的未给定属性及其属性值的研究较少。
现有实体属性知识提取方法主要以词语为粒度表示实体属性和属性值,导致属性值表达语义不完整;难以满足对同一知识不同粒度表示的需求服务。因此,迫切需要一种从自由文本或非结构化文本为主的网页中获取实体的未给定属性及其属性值的方法,以提供高质量的知识服务。
发明内容
本发明的目的是为解决现有实体属性和属性值知识提取方法的属性值语义不完整、难以提取未给定属性及其属性值、以及难以满足不同粒度知识需求服务等问题,提出一种基于多粒度语义块的实体属性和属性值提取方法。该方法从以非结构化文本为主的网页中提取实体的未给定属性及其属性值。
本发明的目的是通过以下技术方案实现的。
一种基于多粒度语义块的实体属性和属性值提取方法,包括如下步骤:
步骤1,构建实体的属性和属性值提取语料集;
采用网络爬虫爬取词条网页并对网页进行自由文本提取,而后保存到本地计算机,构建为实体的属性和属性值提取语料以供后续步骤使用。
步骤2,对属性和属性值提取语料集中自由文本的句子进行分词、词性标注和短语识别;
利用分词和词性标注工具对句子进行分词和词性标注,另外,利用短语识别工具对句子进行短语识别。
步骤3,对属性和属性值提取语料集中自由文本的句子进行语义角色标注;
语义角色是指句子中以谓语动词为中心的担当一个意义完整的语义成分。采用语义角色标注工具对句子进行语义角色标注。
步骤4,对属性和属性值提取语料集中自由文本的句子进行依存句法分析;
依存句法分析是指通过分析词语之间的依存关系来描述句子的句法结构。采用依存句法分析工具进行依存句法分析。
步骤5,对属性和属性值提取抽取语料集中自由文本的句子进行语义依存分析;
语义依存分析是指分析词语之间的语义关联,目标是挖掘词语的语义信息。采用语义依存分析工具进行语义依存分析。
步骤6:根据句子的分词、词性标注和语义角色标注结果,提取以语义角色为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组。
作为优选,本步骤通过以下过程实现:对于句子中的动词x1,若字符串y1为动词x1的表示主体的语义角色,则将字符串y1识别为候选实体;然后通过以下过程识别属性和属性值:
第一,若字符串z1为动词x1的表示客体的语义角色,则将字符串z1识别为候选属性值,将动词x1识别为候选属性,即得到候选实体、属性和属性值三元组(y1,x1,z1);
第二,若字符串z1为动词x1的除了主体和客体以外的语义角色s,则将字符串z1识别为候选属性值,候选属性为动词x1和语义角色s的组合,即得到候选实体、属性和属性值三元组(y1,x1+s,z1);所述s可能为时间、地点、程度、频率、方式、原因、条件、方向、扩展、主题、谓语动词、受益人、持有者、被持有、并列参数或附加标记语义角色,x1+s表示动词x1和语义角色s的组合。
步骤7:根据句子的分词、词性标注、短语识别和依存句法分析结果,提取以短语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组。
作为优选,本步骤通过以下过程实现:
首先,根据步骤2句子的短语识别结果,获取句子的非嵌套式短语识别结果。句子的非嵌套式短语识别结果是指不存在一短语内部包含另一短语的识别结果。句子的短语类型包括名词短语、动词短语、副词短语、形容词短语、限定词短语、量词短语、介词短语、方位词短语、修饰关系短语,以及所属关系短语。作为优选,获取句子的非嵌套式短语识别结果的过程如下:第一,对于名词短语、形容词短语、限定词短语、介词短语、量词短语、修饰关系短语、所属关系短语和方位词短语中任一短语嵌套另外短语的情形,则只保留最长字符串的短语标记,称为最长短语;第二,若一动词短语嵌套动词或另一动词短语,则去掉前一动词短语的标记;若一动词短语嵌套除了动词短语的其他短语,则保留动词短语的标记。
然后,对于句子依存句法分析结果中主谓关系SBV(y2,x2)和动宾关系VOB(y2,z2),将字符串x2所在的最长短语u识别为候选实体,将字符串y2识别为候选属性,将字符串z2所在的最长短语v识别为候选属性值。也就是,获取候选实体、属性和属性值三元组(u,y2,v)。
步骤8:根据句子的分词、词性标注和语义依存分析结果,提取以词语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组。
作为优选,本步骤通过以下过程实现:首先,对于句子中的动词x3,若词语y3与动词x3具有施事关系、当事关系、感事关系、领事关系、属事关系、或比较关系,则将词语y3识别为候选实体,然后通过以下两种方式获取属性和属性值:
第一,若词语z3与该动词x3具有受事关系、客事关系、成事关系、源事关系、涉事关系、或类事关系,则将词语z3识别为候选属性值。进一步,将动词x3识别为候选属性。由此,获取候选实体、属性和属性值三元组(y3,x3,z3)。
第二,若词语z3与该动词x3具有依据、缘故、意图、结局、方式、工具、材料、时间、空间、历程、趋向、范围、数量、频率、顺序、描写、程度、或宿主等关系r,则将该词语z3识别为候选属性值。进一步,候选属性为动词x3和依存关系r的组合。也就是,获取候选实体、属性和属性值三元组(y3,x3+r,z3)。其中,x3+r表示动词x3和依存关系r的组合。
步骤9:利用经训练的分类器对候选实体、属性和属性值三元组进行正确和错误分类;
作为优选,本步骤通过以下过程实现:
首先,在利用经训练的分类器进行分类前通过下述过程使用训练语料集训练分类器:
所述训练语料集可以从上述语料集中选取;
步骤9.1:通过以下过程构建词语、短语和语义角色三种粒度的实体、属性和属性值的种子三元组:首先,根据语料集中句子的分词、词性标注和语义依存分析结果,人工构建基于词语粒度的实体、属性和属性值种子三元组;其次,根据语料集中句子的分词、词性标注、短语识别和依存句法分析结果,人工构建基于短语粒度的实体、属性和属性值种子三元组;最后,根据语料集中句子的分词、词性标注和语义角色识别结果,人工构建基于语义角色粒度实体、属性和属性值种子三元组。
步骤9.2:通过以下过程构建训练样本:
对于实体、属性和属性值的种子三元组(e,a,v),在语料集中搜索包含字符串e,a,v的句子,其中e表示实体,a表示属性,v表示属性值;若能够从句子中提取三元组(e,a,v),则将该句子标注为正例训练句子,否则标注为负例训练句子。
步骤9.3:从正例训练句子和负例训练句子中提取分类特征,构建训练句子的特征向量;
分类特征包括:候选属性a和候选属性值v的左相邻和右相邻的三个词语及其词性;候选属性a和候选属性值v的顺序关系;候选属性a和候选属性值v的依存句法关系;候选属性a和候选属性值v间隔的词语的数目。
训练句子的特征向量为句子的所有分类特征的特征值构成的向量;分类标签为1或0,当句子为正例训练句子时,设分类标签为1;否则为0。
本实施例使用的分类器为支持向量机分类器。
然后,利用上述训练好的分类器通过以下过程进行识别:
步骤9.4:对于通过步骤6~步骤8提取的候选实体、属性和属性值三元组所在的句子,从该句子中按步骤9.3所述内容提取分类特征,构建该句子的特征向量。
步骤9.5:利用支持向量机分类器对候选实体、属性和属性值三元组所在句子的特征向量进行分类,类别包括1和0,分别表示候选三元组正确和候选三元组错误。
至此,就完成了本方法的全部过程,类别标注为1的候选三元组即是我们需要的实体属性和属性值知识自动提取结果。
基于上述方法构建的一种基于多粒度语义块的实体属性和属性值提取系统,包括语料采集模块、分词和短语识别模块、语义角色标注模块、依存句法分析模块、语义依存分析模块、基于语义角色粒度的属性知识提取模块、基于短语粒度的属性知识提取模块、基于词语粒度的属性知识提取模块,以及属性知识分类模块;语料采集模块分别与分词和短语识别模块、语义角色标注模块、依存句法分析模块、语义依存分析模块相连;分词和短语识别模块、语义角色标注模块分别与基于语义角色粒度的属性知识提取模块相连;分词和短语识别模块、依存句法分析模块分别与基于短语粒度的属性知识提取模块相连;分词和短语识别模块、语义依存分析模块分别与基于词语粒度的属性知识提取模块相连;基于语义角色粒度的属性知识提取模块、基于短语粒度的属性知识提取模块、基于词语粒度的属性知识提取模块分别与属性知识分类模块相连。
所述语料采集模块用于采集网络上的词条网页,并进行自由文本提取,构建为后续模块从中提取实体的属性和属性值的语料;
所述分词和短语识别模块用于对所述语料采集模块提取的自由文本的句子进行分词、词性标注和短语识别;
所述语义角色标注模块用于对所述语料采集模块提取的自由文本的句子进行语义角色标注;
所述依存句法分析模块用于对所述语料采集模块提取的自由文本的句子进行依存句法分析;
所述语义依存分析模块用于对所述语料采集模块提取的自由文本的句子进行语义依存分析;
所述基于语义角色粒度的属性知识提取模块用于对所述分词和短语识别模块和语义角色标注模块标注的自由文本的句子进行基于语义角色粒度的实体的属性和属性值提取;
所述基于短语粒度的属性知识提取模块用于对所述分词和短语识别模块和依存句法分析模块识别的句子进行基于短语粒度的实体的属性和属性值提取;
所述基于词语粒度的属性知识提取模块用于对所述分词和短语识别模块和语义依存分析模块识别的句子进行基于词语粒度的实体的属性和属性值提取;
所述属性知识分类模块用于使用经训练的分类器对所述语义角色粒度的属性知识提取模块、短语粒度的属性知识提取模块、词语粒度的属性知识提取模块提取的候选实体、属性和属性值进行分类判别。
有益效果
本发明的方法,针对现有实体属性和属性值提取方法从自由文本或非结构化文本中获取属性知识研究较少;现有实体属性和属性值知识提取方法的属性值语义不完整;难以提取未给定属性及其属性值;以及难以满足不同粒度知识需求服务等问题,提供一种基于多粒度语义块的实体属性和属性值提取方法,能够提高实体属性知识获取的正确性和效率,在主题检测、信息检索、自动文摘、问答系统等领域具有广阔的应用前景。与现有技术相比,该方法具有如下特点:
(1)选取维基百科、百度百科和互动百科网页自由文本作为实体属性知识获取的来源,具有实时性、全面性和海量性的特点。
(2)将自由文本句子中词语搭配、词性链接、句法依存和语义依存特点与分类器有机地结合,融合了基于规则和基于统计方法的特点。
(3)针对现有实体属性知识提取方法主要以词语为属性和属性值表示粒度的现状,本发明采用基于短语粒度和语义角色粒度的实体属性和属性值提取方法,解决了由于词语表达意义不完整而导致的提取准确率下降的问题。
(4)针对句子表达实体属性知识的复杂性、歧义性和灵活性,本发明提取基于词语粒度、短语粒度、语义角色粒度的实体属性和属性值,提供了实体属性和属性值知识的多粒度的描述,一方面提高了实体属性知识获取的准确率和效率,另一方面用户可以根据需求选择不同粒度的实体属性知识服务。
本发明中,将实体属性知识获取问题转化为多粒度的实体属性和属性值三元组的分类问题,对处理其他来源文本具有较强的鲁棒性,能够有效地提取实体候选属性和属性值的判别特征;通过提取三种粒度的实体属性和属性值知识,提高了实体属性知识服务的效率,满足了实体属性知识多层次的服务需求。
附图说明
图1为本发明实施例一种基于多粒度语义块的实体属性和属性值提取方法的流程示意图。
图2为本发明实施例一种基于多粒度语义块的实体属性和属性值提取系统的组成结构示意图。
具体实施方式
根据上述技术方案,下面结合附图与实施例对本发明的优选实施方式进行详细说明。
实施例1
步骤1:构建实体的属性和属性值提取语料集。
采用基于Python、Selenium和PhantomJS技术的网络爬虫采集维基百科、百度百科和互动百科中的词条网页,将其保存到本地计算机,构建为实体的属性和属性值提取语料。进一步,对网页进行自由文本提取,也就是,抽取网页的标题、自由文本,去除网页中的导航和图片等信息。例如,对于实体故宫,采集该实体在维基百科、百度百科和互动百科中的词条网页,并保存在本地计算机。
步骤2,对属性和属性值提取语料集中自由文本的句子进行分词、词性标注和短语识别。
利用哈尔滨工业大学语言技术平台LTP的分词和词性标注工具或其它工具或方法对自由文本进行分词和词性标注。另外,利用斯坦福大学Stanford Parser或其它工具或方法对自由文本进行短语识别。
例如,对于句子“北京故宫于明成祖永乐四年开始建设”,使用哈尔滨工业大学语言技术平台LTP的分词和词性标注工具,分词和词性标注后的结果为:“北京(ns)故宫(ns)于(p)明(nt)成祖(v)永乐四年(nt)开始(v)建设(v)”,其中,ns表示地理名称,p表示介词,nt表示时间名词,v表示动词。使用斯坦福大学Stanford Parser对该句子进行短语识别的结果为“北京故宫(NP),于明成祖永乐四年开始建设(VP),于明成祖永乐四年(PP),明成祖永乐四年(QP),明成祖永乐(NP),四年(QP),开始建设(VP)”,其中NP表示名词短语,PP表示介词短语,QP表示量词短语,VP表示动词短语。
步骤3:对属性和属性值提取语料集中自由文本的句子进行语义角色标注。
语义角色是指以谓语动词为中心的担当一个意义完整的语义成分。采用哈尔滨工业大学语言技术平台中语义角色标注工具或其它工具或方法进行语义角色标注。
例如,对于句子“北京故宫于明成祖永乐四年开始建设”,使用哈尔滨工业大学语言技术平台LTP的语义角色标注工具,语义角色标注结果为:“北京故宫(A0),于明成祖永乐四年(TMP),建设(v)”和“开始(v),建设(A1)”,其中,A0表示动作的施事,A1表示动作的影响,TMP表示时间。
步骤4:对属性和属性值提取语料集中自由文本的句子进行依存句法分析。
依存句法分析是指通过分析词语之间的依存关系来描述句子的句法结构。采用哈尔滨工业大学语言技术平台中依存句法分析工具或其它工具或方法进行依存句法分析。
例如,对于句子“北京故宫于明成祖永乐四年开始建设”,使用哈尔滨工业大学语言技术平台LTP的依存句法分析工具,依存句法分析结果为:“ATT(故宫,北京),POB(于,明),POB(于,永乐四年),ATT(永乐四年,成祖),ADV(开始,于),SBV(开始,故宫),VOB(开始,建设),WP(开始,。)”,其中,ATT表示定中关系,POB表示介宾关系,ADV表示状中结构,SBV表示主谓关系,VOB表示动宾关系,WP表示标点。
步骤5:对属性和属性值提取语料集中自由文本的句子进行语义依存分析。
语义依存分析是指分析词语之间的语义关联,目标是挖掘词语的语义信息。采用哈尔滨工业大学语言技术平台中语义依存分析工具或其它工具或方法进行语义依存分析。
例如,对于句子“故宫位于北京中轴线的中心”,使用哈尔滨工业大学语言技术平台LTP的语义依存分析工具,语义依存分析结果为:Exp(位于,故宫),Loc(位于,中心),Sco(中轴线,北京),mAux(中轴线,的),Poss(中心,中轴线),mPunc(位于,。),其中,Exp表示当事关系,Loc表示空间角色,Sco表示范围角色,mAux表示的字标记,Poss表示领事关系,mPunc表示标点标记。
步骤6:根据句子的分词、词性标注和语义角色标注结果,提取以语义角色为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组。
具体过程为:对于句子中的动词x1,若字符串y1为动词x1的表示主体的语义角色,则将字符串y1识别为候选实体。例如,y1可以为施事角色。然后通过以下过程识别属性和属性值:
第一,若字符串z1为动词x1的表示客体的语义角色,则将字符串z1识别为候选属性值;将动词x1识别为候选属性。例如,z1可以为客事角色。也就是,获取候选实体、属性和属性值三元组(y1,x1,z1)。第二,若字符串z1为动词x1的除了主体和客体以外的语义角色s,则将字符串z1识别为候选属性值,候选属性为动词x1和语义角色s的组合。也就是,获取候选实体、属性和属性值三元组(y1,x1+s,z1)。这里,s可能为时间、地点、程度、频率、方式、原因、条件、方向、扩展、主题、谓语动词、受益人、持有者、被持有、并列参数、或附加标记语义角色,x1+s表示动词x1和语义角色s的组合。
例如,对于句子“北京故宫于明成祖永乐四年开始建设”,根据与动词“建设”相关的语义角色标注结果“北京故宫(A0),于明成祖永乐四年(TMP)”,由于“北京故宫”的语义角色为施事(A0表示施事),即是为表示主体的语义角色,因此,构建“北京故宫”为候选实体。进一步,因为“于明成祖永乐四年”的语义角色为时间(TMP表示时间),因此,构建“于明成祖永乐四年”为候选属性值,候选属性为动词“建设”和语义角色“时间”的组合“建设时间”。由此,构建候选实体、属性和属性值三元组(北京故宫,建设时间,于明成祖永乐四年)。
步骤7:根据句子的分词、词性标注、短语识别和依存句法分析结果,提取以短语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组。
首先,根据步骤2句子的短语识别结果,获取句子的非嵌套式短语识别结果。句子的非嵌套式短语识别结果是指不存在一短语内部包含另一短语的识别结果。句子的短语类型包括名词短语、动词短语、副词短语、形容词短语、限定词短语、量词短语、介词短语、方位词短语、修饰关系短语,以及所属关系短语。
获取句子的非嵌套式短语识别结果的过程如下:第一,对于名词短语、形容词短语、限定词短语、介词短语、量词短语、修饰关系短语、所属关系短语和方位词短语中任一短语嵌套另外短语的情形,则只保留最长字符串的短语标记,称为最长短语;第二,若一动词短语嵌套动词或另一动词短语,则去掉前一动词短语的标记;若一动词短语嵌套除了动词短语的其他短语,则保留动词短语的标记。
例如:对于句子“故宫位于北京中轴线的中心”,短语识别结果如下:
也就是,句子包含名词短语NP“故宫”、动词短语VP“位于北京中轴线的中心”。该动词短语包含动词VV“位于”和名词短语NP“北京中轴线的中心”。该名词短语包括所属关系短语DNP“北京中轴线的”和名词短语NP“中心”。所属关系短语DNP“北京中轴线的”包含名词短语NP“北京”和名词短语NP“中轴线”。
该句子的非嵌套式短语识别结果的获取过程如下:由于动词短语“位于北京中轴线的中心”包含动词“位于”和名词短语“北京中轴线的中心”,因此,去掉“位于北京中轴线的中心”的动词短语标记。由于名词短语NP“北京中轴线的中心”嵌套一个所属关系短语DNP和多个名词短语NP,因此,只保留最长字符串“北京中轴线的中心”的短语标记。由此,句子的非嵌套式短语识别结果为:“故宫(NP),位于,北京中轴线的中心(NP)”。
然后,对于句子依存句法分析结果中主谓关系SBV(y2,x2)和动宾关系VOB(y2,z2),将字符串x2所在的最长短语u识别为候选实体,将字符串y2识别为候选属性,将字符串z2所在的最长短语v识别为候选属性值。也就是,获取候选实体、属性和属性值三元组(u,y2,v)。
例如:对于上述示例句子,该句子的依存句法分析结果为“SBV(位于,故宫),VOB(位于,中轴线),RAD(位于,的),ATT(中轴线,北京),ATT(中心,位于)”,其中RAD表示右附加关系。对于主谓关系“SBV(位于,故宫)”和动宾关系“VOB(位于,中轴线)”,将“故宫”所在的名词短语“故宫”识别为候选实体,将“位于”识别为候选属性,将“中轴线”所在的名词短语“北京中轴线的中心”识别为候选属性值。由此,构建候选实体、属性和属性值三元组(故宫,位于,北京中轴线的中心)。
步骤8:根据句子的分词、词性标注和语义依存分析结果,提取以词语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组。
具体过程如下:首先,对于句子中的动词x3,若词语y3与动词x3具有施事关系、当事关系、感事关系、领事关系、属事关系、或比较关系,则将词语y3识别为候选实体,然后通过以下两种方式获取属性和属性值:
第一,若词语z3与该动词x3具有受事关系、客事关系、成事关系、源事关系、涉事关系、或类事关系,则将词语z3识别为候选属性值。进一步,将动词x3识别为候选属性。由此,获取候选实体、属性和属性值三元组(y3,x3,z3)。
第二,若词语z3与该动词x3具有依据、缘故、意图、结局、方式、工具、材料、时间、空间、历程、趋向、范围、数量、频率、顺序、描写、程度、或宿主等关系r,则将该词语z3识别为候选属性值。进一步,候选属性为动词x3和依存关系r的组合。也就是,获取候选实体、属性和属性值三元组(y3,x3+r,z3)。其中,x3+r表示动词x3和依存关系r的组合。本实施例中句子的依存关系类型来自哈尔滨工业大学语言技术平台。
步骤9:利用分类器对候选实体、属性和属性值三元组进行正确和错误分类,具体过程如下:
首先,在利用分类器进行分类前通过下述过程使用训练语料集训练分类器:
所述训练语料集可以从上述语料集中选取;
步骤9.1:通过以下过程构建词语、短语和语义角色三种粒度的实体、属性和属性值的种子三元组:首先,根据语料集中句子的分词、词性标注和语义依存分析结果,人工构建基于词语粒度的实体、属性和属性值种子三元组;其次,根据语料集中句子的分词、词性标注、短语识别和依存句法分析结果,人工构建基于短语粒度的实体、属性和属性值种子三元组;最后,根据语料集中句子的分词、词性标注和语义角色识别结果,人工构建基于语义角色粒度实体、属性和属性值种子三元组。
步骤9.2:通过以下过程构建训练样本:
对于实体、属性和属性值的种子三元组(e,a,v),在语料集中搜索包含字符串e,a,v的句子,其中e表示实体,a表示属性,v表示属性值;若能够从句子中提取三元组(e,a,v),则将该句子标注为正例训练句子,否则标注为负例训练句子。
步骤9.3:从正例训练句子和负例训练句子中提取分类特征,构建训练句子的特征向量;
分类特征包括:候选属性a和候选属性值v的左相邻和右相邻的三个词语及其词性;候选属性a和候选属性值v的顺序关系;候选属性a和候选属性值v的依存句法关系;候选属性a和候选属性值v间隔的词语的数目。
训练句子的特征向量为句子的所有分类特征的特征值构成的向量。
本实施例使用的分类器为支持向量机分类器。
然后,利用上述训练好的分类器通过以下过程进行识别:
步骤9.4:对于通过步骤6~步骤8提取的候选实体、属性和属性值三元组所在的句子,从该句子中按步骤9.3所述内容提取分类特征,构建该句子的特征向量。
步骤9.5:利用支持向量机分类器对候选实体、属性和属性值三元组所在句子的特征向量进行分类,类别包括1和0,分别表示候选三元组正确和候选三元组错误。
至此,就完成了从自由文中自动提取实体、属性和属性值三元组知识的全过程。
实施例2
基于上述方法构建的一种基于多粒度语义块的实体属性和属性值提取系统,如图2所示,包括语料采集模块、分词和短语识别模块、语义角色标注模块、依存句法分析模块、语义依存分析模块、基于语义角色粒度的属性知识提取模块、基于短语粒度的属性知识提取模块、基于词语粒度的属性知识提取模块,以及属性知识分类模块;语料采集模块分别与分词和短语识别模块、语义角色标注模块、依存句法分析模块、语义依存分析模块相连;分词和短语识别模块、语义角色标注模块分别与基于语义角色粒度的属性知识提取模块相连;分词和短语识别模块、依存句法分析模块分别与基于短语粒度的属性知识提取模块相连;分词和短语识别模块、语义依存分析模块分别与基于词语粒度的属性知识提取模块相连;基于语义角色粒度的属性知识提取模块、基于短语粒度的属性知识提取模块、基于词语粒度的属性知识提取模块分别与属性知识分类模块相连。
所述语料采集模块用于采集网络上的词条网页,并进行自由文本提取,构建为后续模块从中提取实体的属性和属性值的语料;
所述分词和短语识别模块用于对所述语料采集模块提取的自由文本的句子进行分词、词性标注和短语识别;
所述语义角色标注模块用于对所述语料采集模块提取的自由文本的句子进行语义角色标注;
所述依存句法分析模块用于对所述语料采集模块提取的自由文本的句子进行依存句法分析;
所述语义依存分析模块用于对所述语料采集模块提取的自由文本的句子进行语义依存分析;
所述基于语义角色粒度的属性知识提取模块用于对所述分词和短语识别模块和语义角色标注模块标注的自由文本的句子进行基于语义角色粒度的实体的属性和属性值提取;
所述基于短语粒度的属性知识提取模块用于对所述分词和短语识别模块和依存句法分析模块识别的句子进行基于短语粒度的实体的属性和属性值提取;
所述基于词语粒度的属性知识提取模块用于对所述分词和短语识别模块和语义依存分析模块识别的句子进行基于词语粒度的实体的属性和属性值提取;
所述属性知识分类模块用于使用经训练的分类器对所述语义角色粒度的属性知识提取模块、短语粒度的属性知识提取模块、词语粒度的属性知识提取模块提取的候选实体、属性和属性值进行分类判别。
为说明本发明的实体属性和属性值提取效果,以句子“北京故宫于明成祖永乐四年开始建设”和“故宫位于北京中轴线的中心”为例,本发明的基于多粒度语义块的实体属性和属性值提取方法分别提取实体、属性和属性值三元组(北京故宫,建设时间,于明成祖永乐四年)和三元组(故宫,位于,北京中轴线的中心)。基于词语或短语的实体属性和属性值提取方法分别提取实体、属性和属性值三元组(北京故宫,开始,建设)和(故宫,位于空间,中心)。从自然语言语句表达实体属性知识的角度讲,描述实体的属性和属性值知识的语义单元可能为词语、短语或语义角色。本发明不仅提取了现有方法的以词语为粒度的实体属性知识,而且提取了以短语和语义角色为粒度的实体属性知识,克服了以词语为语义单元表示实体属性值带来的表达语义不完整问题。上述表明,本发明的实体属性和属性值提取方法比现有方法更加准确,提高了用户获取实体属性和属性值知识的效率。
为了说明本发明的内容及实施方式,本说明书给出了具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。
Claims (10)
1.一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:包括以下步骤:
步骤1,构建实体的属性和属性值提取语料集;
步骤2,对属性和属性值提取语料集中自由文本的句子进行分词、词性标注和短语识别;
步骤3,对属性和属性值提取语料集中自由文本的句子进行语义角色标注;
步骤4,对属性和属性值提取语料集中自由文本的句子进行依存句法分析;
步骤5,对属性和属性值提取抽取语料集中自由文本的句子进行语义依存分析;
步骤6:根据句子的分词、词性标注和语义角色标注结果,提取以语义角色为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组;
步骤7:根据句子的分词、词性标注、短语识别和依存句法分析结果,提取以短语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组;
步骤8:根据句子的分词、词性标注和语义依存分析结果,提取以词语为粒度的候选实体、属性和属性值,获取候选实体、属性和属性值三元组;
步骤9:利用经训练的分类器对由步骤6~步骤8获取的候选实体、属性和属性值三元组进行正确和错误分类以得到最终的实体属性和属性值提取结果。
2.根据权利要求1所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:所述步骤6通过以下过程实现:
对于句子中的动词x1,若字符串y1为动词x1的表示主体的语义角色,则将字符串y1识别为候选实体,然后通过以下过程识别属性和属性值:
第一,若字符串z1为动词x1的表示客体的语义角色,则将字符串z1识别为候选属性值,将动词x1识别为候选属性,即得到候选实体、属性和属性值三元组(y1,x1,z1);
第二,若字符串z1为动词x1的除了主体和客体以外的语义角色s,则将字符串z1识别为候选属性值,候选属性为动词x1和语义角色s的组合,即得到候选实体、属性和属性值三元组(y1,x1+s,z1);所述s可能为时间、地点、程度、频率、方式、原因、条件、方向、扩展、主题、谓语动词、受益人、持有者、被持有、并列参数或附加标记语义角色,x1+s表示动词x1和语义角色s的组合。
3.根据权利要求1所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:所述步骤7通过以下过程实现:
首先,根据步骤2所述句子的短语识别结果,获取句子的非嵌套式短语识别结果;
然后,对于句子依存句法分析结果中主谓关系SBV(y2,x2)和动宾关系VOB(y2,z2),将字符串x2所在的最长短语u识别为候选实体,将字符串y2识别为候选属性,将字符串z2所在的最长短语v识别为候选属性值,即获取候选实体、属性和属性值三元组(u,y2,v)。
4.根据权利要求3所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:所述获取句子的非嵌套式短语识别结果通过以下过程实现:
第一,对于名词短语、形容词短语、限定词短语、介词短语、量词短语、修饰关系短语、所属关系短语和方位词短语中任一短语嵌套另外短语的情形,则只保留最长字符串的短语标记;
第二,若一动词短语嵌套动词或另一动词短语,则去掉前一动词短语的标记;若一动词短语嵌套除了动词短语的其他短语,则保留动词短语的标记。
5.根据权利要求1所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:所述步骤8通过以下过程实现:
首先,对于句子中的动词x3,若词语y3与动词x3具有施事关系、当事关系、感事关系、领事关系、属事关系、或比较关系,则将词语y3识别为候选实体,然后通过以下两种方式获取属性和属性值:
第一,若词语z3与该动词x3具有受事关系、客事关系、成事关系、源事关系、涉事关系、或类事关系,则将词语z3识别为候选属性值,将动词x3识别为候选属性,由此,获取候选实体、属性和属性值三元组(y3,x3,z3);
第二,若词语z3与该动词x3具有依据、缘故、意图、结局、方式、工具、材料、时间、空间、历程、趋向、范围、数量、频率、顺序、描写、程度、或宿主关系r,则将该词语z3识别为候选属性值,候选属性为动词x3和依存关系r的组合,也就是,获取候选实体、属性和属性值三元组(y3,x3+r,z3),其中,x3+r表示动词x3和依存关系r的组合。
6.根据权利要求1-5任一所述的一种基于多粒度语义块的实体属性和属性值提取方法,其特征在于:所述步骤9通过以下过程实现:
首先,在利用经训练的分类器进行分类前通过下述过程使用训练语料集训练分类器:
步骤9.1:通过以下过程构建词语、短语和语义角色三种粒度的实体、属性和属性值的种子三元组:首先,根据语料集中句子的分词、词性标注和语义依存分析结果,人工构建基于词语粒度的实体、属性和属性值种子三元组;其次,根据语料集中句子的分词、词性标注、短语识别和依存句法分析结果,人工构建基于短语粒度的实体、属性和属性值种子三元组;最后,根据语料集中句子的分词、词性标注和语义角色识别结果,人工构建基于语义角色粒度的实体、属性和属性值种子三元组;
步骤9.2:通过以下过程构建训练样本:
对于实体、属性和属性值的种子三元组(e,a,v),在训练语料集中搜索包含字符串e,a,v的句子,其中e表示实体,a表示属性,v表示属性值;若能够从句子中提取三元组(e,a,v),则将该句子标注为正例训练句子,否则标注为负例训练句子;
步骤9.3:从正例训练句子和负例训练句子中提取分类特征,构建训练句子的特征向量;
分类特征包括:候选属性a和候选属性值v的左相邻和右相邻的三个词语及其词性;候选属性a和候选属性值v的顺序关系;候选属性a和候选属性值v的依存句法关系;候选属性a和候选属性值v间隔的词语的数目;
训练句子的特征向量为句子的所有分类特征的特征值构成的向量;分类标签为1或0,当句子为正例训练句子时,设分类标签为1;否则为0;
然后,利用上述训练好的分类器通过以下过程进行识别:
步骤9.4:对于通过步骤6~步骤8提取的候选实体、属性和属性值三元组所在的句子,从该句子中按步骤9.3所述内容提取分类特征,构建该句子的特征向量;
步骤9.5:利用分类器对候选实体、属性和属性值三元组所在句子的特征向量进行分类获得分类结果1或0,分别表示候选三元组正确或候选三元组错误。
7.一种基于多粒度语义块的实体属性和属性值提取系统,其特征在于:包括语料采集模块、分词和短语识别模块、语义角色标注模块、依存句法分析模块、语义依存分析模块、基于语义角色粒度的属性知识提取模块、基于短语粒度的属性知识提取模块、基于词语粒度的属性知识提取模块,以及属性知识分类模块;语料采集模块分别与分词和短语识别模块、语义角色标注模块、依存句法分析模块、语义依存分析模块相连;分词和短语识别模块、语义角色标注模块分别与基于语义角色粒度的属性知识提取模块相连;分词和短语识别模块、依存句法分析模块分别与基于短语粒度的属性知识提取模块相连;分词和短语识别模块、语义依存分析模块分别与基于词语粒度的属性知识提取模块相连;基于语义角色粒度的属性知识提取模块、基于短语粒度的属性知识提取模块、基于词语粒度的属性知识提取模块分别与属性知识分类模块相连;
所述语料采集模块用于采集网络上的词条网页,并进行自由文本提取,构建为后续模块从中提取实体的属性和属性值的语料;
所述分词和短语识别模块用于对所述语料采集模块提取的自由文本的句子进行分词、词性标注和短语识别;
所述语义角色标注模块用于对所述语料采集模块提取的自由文本的句子进行语义角色标注;
所述依存句法分析模块用于对所述语料采集模块提取的自由文本的句子进行依存句法分析;
所述语义依存分析模块用于对所述语料采集模块提取的自由文本的句子进行语义依存分析;
所述基于语义角色粒度的属性知识提取模块用于对所述分词和短语识别模块和语义角色标注模块标注的自由文本的句子进行基于语义角色粒度的实体的属性和属性值提取;
所述基于短语粒度的属性知识提取模块用于对所述分词和短语识别模块和依存句法分析模块识别的句子进行基于短语粒度的实体的属性和属性值提取;
所述基于词语粒度的属性知识提取模块用于对所述分词和短语识别模块和语义依存分析模块识别的句子进行基于词语粒度的实体的属性和属性值提取;
所述属性知识分类模块用于使用经训练的分类器对所述语义角色粒度的属性知识提取模块、短语粒度的属性知识提取模块、词语粒度的属性知识提取模块提取的候选实体、属性和属性值进行分类判别。
8.根据权利要求7所述的一种基于多粒度语义块的实体属性和属性值提取系统,其特征在于:所述语义角色粒度的属性知识提取模块通过权利要求2所述过程进行实体的属性和属性值提取。
9.根据权利要求7所述的一种基于多粒度语义块的实体属性和属性值提取系统,其特征在于:所述短语粒度的属性知识提取模块通过权利要求3所述过程进行实体的属性和属性值提取。
10.根据权利要求7-9任一所述的一种基于多粒度语义块的实体属性和属性值提取系统,其特征在于:所述词语粒度的属性知识提取模块通过权利要求5所述过程进行实体的属性和属性值提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611241946.2A CN106777275B (zh) | 2016-12-29 | 2016-12-29 | 基于多粒度语义块的实体属性和属性值提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611241946.2A CN106777275B (zh) | 2016-12-29 | 2016-12-29 | 基于多粒度语义块的实体属性和属性值提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106777275A true CN106777275A (zh) | 2017-05-31 |
CN106777275B CN106777275B (zh) | 2018-03-06 |
Family
ID=58923545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611241946.2A Active CN106777275B (zh) | 2016-12-29 | 2016-12-29 | 基于多粒度语义块的实体属性和属性值提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777275B (zh) |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423359A (zh) * | 2017-06-16 | 2017-12-01 | 兴业数字金融服务(上海)股份有限公司 | 一种基于领域分析的金融产品图片信息识别方法 |
CN107480125A (zh) * | 2017-07-05 | 2017-12-15 | 重庆邮电大学 | 一种基于知识图谱的关系链接方法 |
CN107679075A (zh) * | 2017-08-25 | 2018-02-09 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107729350A (zh) * | 2017-08-29 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 路线优劣查询方法、装置、设备及存储介质 |
CN107798136A (zh) * | 2017-11-23 | 2018-03-13 | 北京百度网讯科技有限公司 | 基于深度学习的实体关系抽取方法、装置及服务器 |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN108563617A (zh) * | 2018-03-12 | 2018-09-21 | 北京云知声信息技术有限公司 | 汉语句子混合模板的挖掘方法及装置 |
CN108573025A (zh) * | 2018-03-12 | 2018-09-25 | 北京云知声信息技术有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108595421A (zh) * | 2018-04-13 | 2018-09-28 | 北京神州泰岳软件股份有限公司 | 一种中文实体关联关系的抽取方法、装置及系统 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN108897810A (zh) * | 2018-06-19 | 2018-11-27 | 苏州大学 | 一种实体匹配方法、系统、介质及设备 |
CN109033166A (zh) * | 2018-06-20 | 2018-12-18 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN109215798A (zh) * | 2018-10-09 | 2019-01-15 | 北京科技大学 | 一种面向中医古文的知识库构建方法 |
CN109241289A (zh) * | 2017-07-04 | 2019-01-18 | 北京国双科技有限公司 | 实体信息图谱扩充方法及装置 |
CN109582800A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种训练结构化模型、文本结构化的方法及相关装置 |
CN109710914A (zh) * | 2017-10-26 | 2019-05-03 | 饶竹一 | 基于业务模型的语义训练系统及其方法 |
CN109783775A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种标记用户语料的内容的方法及系统 |
CN109902147A (zh) * | 2019-02-13 | 2019-06-18 | 北京百度网讯科技有限公司 | 用于查询处理的方法、装置、设备和存储介质 |
CN109902156A (zh) * | 2019-01-09 | 2019-06-18 | 北京小乘网络科技有限公司 | 实体检索方法、存储介质和电子设备 |
CN110162786A (zh) * | 2019-04-23 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 构建配置文件以及抽取结构化信息的方法、装置 |
CN110246593A (zh) * | 2018-03-08 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 一种电话随访方法、装置及计算机可读存储介质 |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
CN110276640A (zh) * | 2019-06-10 | 2019-09-24 | 北京云莱坞文化传媒有限公司 | 版权的多粒度拆分及其商业价值的挖掘方法 |
CN110377905A (zh) * | 2019-06-28 | 2019-10-25 | 北京百度网讯科技有限公司 | 语句的语义表示处理方法及装置、计算机设备及可读介质 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
CN110532567A (zh) * | 2019-09-04 | 2019-12-03 | 北京百度网讯科技有限公司 | 短语的提取方法、装置、电子设备及存储介质 |
CN110807096A (zh) * | 2018-08-02 | 2020-02-18 | 鼎复数据科技(北京)有限公司 | 一种小样本集上的信息对匹配方法及系统 |
CN110807311A (zh) * | 2018-07-18 | 2020-02-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110851560A (zh) * | 2018-07-27 | 2020-02-28 | 杭州海康威视数字技术股份有限公司 | 信息检索方法、装置及设备 |
CN110874534A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
CN111027323A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于主题模型和语义分析的实体指称项识别方法 |
CN111026885A (zh) * | 2019-12-23 | 2020-04-17 | 公安部第三研究所 | 一种基于文本语料的涉恐事件实体属性抽取系统及方法 |
CN111046656A (zh) * | 2019-11-15 | 2020-04-21 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111178066A (zh) * | 2019-12-18 | 2020-05-19 | 北京明略软件系统有限公司 | 一种实现信息处理的方法、装置、计算机存储介质及终端 |
CN111274792A (zh) * | 2020-01-20 | 2020-06-12 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111611799A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于字典和序列标注模型实体属性抽取方法、系统及设备 |
CN111753095A (zh) * | 2019-03-29 | 2020-10-09 | 富士通株式会社 | 用于生成知识库的方法和装置 |
CN111858866A (zh) * | 2019-04-30 | 2020-10-30 | 广东小天才科技有限公司 | 一种基于三元组的语义解析方法及装置 |
CN111858877A (zh) * | 2020-06-17 | 2020-10-30 | 平安科技(深圳)有限公司 | 多类型问题智能问答方法、系统、设备及可读存储介质 |
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN112036182A (zh) * | 2020-07-31 | 2020-12-04 | 中国科学院信息工程研究所 | 多角度引入属性语义的知识表示学习方法和系统 |
CN112131343A (zh) * | 2020-09-14 | 2020-12-25 | 杭州东信北邮信息技术有限公司 | 一种中文小说对话人物识别方法 |
CN112860781A (zh) * | 2021-02-05 | 2021-05-28 | 陈永朝 | 一种词汇搭配提取和语义分类相结合的挖掘和展示方法 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
CN113705198A (zh) * | 2021-10-21 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 场景图生成方法、装置、电子设备及存储介质 |
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
CN114186552A (zh) * | 2021-12-13 | 2022-03-15 | 北京百度网讯科技有限公司 | 文本分析方法、装置、设备及计算机存储介质 |
CN115982389A (zh) * | 2023-03-10 | 2023-04-18 | 北京国华众联科技有限公司 | 知识图谱生成方法、装置和设备 |
CN117195897A (zh) * | 2023-09-08 | 2023-12-08 | 北京三维天地科技股份有限公司 | 一种基于nlp的物料描述智能拆分方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040181389A1 (en) * | 2001-06-01 | 2004-09-16 | Didier Bourigault | Method and large syntactical analysis system of a corpus, a specialised corpus in particular |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105912625A (zh) * | 2016-04-07 | 2016-08-31 | 北京大学 | 一种面向链接数据的实体分类方法和系统 |
-
2016
- 2016-12-29 CN CN201611241946.2A patent/CN106777275B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040181389A1 (en) * | 2001-06-01 | 2004-09-16 | Didier Bourigault | Method and large syntactical analysis system of a corpus, a specialised corpus in particular |
CN104933027A (zh) * | 2015-06-12 | 2015-09-23 | 华东师范大学 | 一种利用依存分析的开放式中文实体关系抽取方法 |
CN105912625A (zh) * | 2016-04-07 | 2016-08-31 | 北京大学 | 一种面向链接数据的实体分类方法和系统 |
Non-Patent Citations (6)
Title |
---|
PABLO GAMALLO等: "Dependency-Based Open Information Extraction", 《PROCEEDINGS OF THE 13TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
ZHENGHUA LI等: "Joint Optimization for Chinese POS Tagging and Dependency Parsing", 《IEEE》 * |
刘挺 等: "语言技术平台", 《中文信息学报》 * |
张梅山: "中文词法句法语义联合分析模型研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
朱倩: "面向自由文本的细粒度关系抽取的关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 * |
秦兵 等: "无指导的中文开放式实体关系抽取", 《计算机研究与发展》 * |
Cited By (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423359A (zh) * | 2017-06-16 | 2017-12-01 | 兴业数字金融服务(上海)股份有限公司 | 一种基于领域分析的金融产品图片信息识别方法 |
CN109241289A (zh) * | 2017-07-04 | 2019-01-18 | 北京国双科技有限公司 | 实体信息图谱扩充方法及装置 |
CN107480125A (zh) * | 2017-07-05 | 2017-12-15 | 重庆邮电大学 | 一种基于知识图谱的关系链接方法 |
CN107480125B (zh) * | 2017-07-05 | 2020-08-04 | 重庆邮电大学 | 一种基于知识图谱的关系链接方法 |
CN107679075A (zh) * | 2017-08-25 | 2018-02-09 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107679075B (zh) * | 2017-08-25 | 2020-06-02 | 北京德塔精要信息技术有限公司 | 网络监控方法和设备 |
CN107729350A (zh) * | 2017-08-29 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 路线优劣查询方法、装置、设备及存储介质 |
CN109710914A (zh) * | 2017-10-26 | 2019-05-03 | 饶竹一 | 基于业务模型的语义训练系统及其方法 |
CN107798136B (zh) * | 2017-11-23 | 2020-12-01 | 北京百度网讯科技有限公司 | 基于深度学习的实体关系抽取方法、装置及服务器 |
CN107798136A (zh) * | 2017-11-23 | 2018-03-13 | 北京百度网讯科技有限公司 | 基于深度学习的实体关系抽取方法、装置及服务器 |
US10664660B2 (en) | 2017-11-23 | 2020-05-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for extracting entity relation based on deep learning, and server |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN110246593A (zh) * | 2018-03-08 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 一种电话随访方法、装置及计算机可读存储介质 |
CN108573025B (zh) * | 2018-03-12 | 2021-07-02 | 云知声智能科技股份有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108573025A (zh) * | 2018-03-12 | 2018-09-25 | 北京云知声信息技术有限公司 | 基于混合模板抽取句子分类特征的方法及装置 |
CN108563617A (zh) * | 2018-03-12 | 2018-09-21 | 北京云知声信息技术有限公司 | 汉语句子混合模板的挖掘方法及装置 |
CN108595421A (zh) * | 2018-04-13 | 2018-09-28 | 北京神州泰岳软件股份有限公司 | 一种中文实体关联关系的抽取方法、装置及系统 |
CN108595421B (zh) * | 2018-04-13 | 2022-04-08 | 鼎富智能科技有限公司 | 一种中文实体关联关系的抽取方法、装置及系统 |
CN108874778B (zh) * | 2018-06-15 | 2023-01-17 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN108874778A (zh) * | 2018-06-15 | 2018-11-23 | 广东蔚海数问大数据科技有限公司 | 语义实体关系抽取方法、装置及电子设备 |
CN108897810A (zh) * | 2018-06-19 | 2018-11-27 | 苏州大学 | 一种实体匹配方法、系统、介质及设备 |
CN109033166A (zh) * | 2018-06-20 | 2018-12-18 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN110807311B (zh) * | 2018-07-18 | 2023-06-23 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110807311A (zh) * | 2018-07-18 | 2020-02-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN110851560A (zh) * | 2018-07-27 | 2020-02-28 | 杭州海康威视数字技术股份有限公司 | 信息检索方法、装置及设备 |
CN110807096A (zh) * | 2018-08-02 | 2020-02-18 | 鼎复数据科技(北京)有限公司 | 一种小样本集上的信息对匹配方法及系统 |
CN110874534B (zh) * | 2018-08-31 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
CN110874534A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 数据处理方法和数据处理装置 |
CN109215798B (zh) * | 2018-10-09 | 2023-04-07 | 北京科技大学 | 一种面向中医古文的知识库构建方法 |
CN109215798A (zh) * | 2018-10-09 | 2019-01-15 | 北京科技大学 | 一种面向中医古文的知识库构建方法 |
CN109582800A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种训练结构化模型、文本结构化的方法及相关装置 |
CN109902156A (zh) * | 2019-01-09 | 2019-06-18 | 北京小乘网络科技有限公司 | 实体检索方法、存储介质和电子设备 |
CN109783775B (zh) * | 2019-01-18 | 2023-07-28 | 广东小天才科技有限公司 | 一种标记用户语料的内容的方法及系统 |
CN109783775A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种标记用户语料的内容的方法及系统 |
CN109902147A (zh) * | 2019-02-13 | 2019-06-18 | 北京百度网讯科技有限公司 | 用于查询处理的方法、装置、设备和存储介质 |
CN111753095A (zh) * | 2019-03-29 | 2020-10-09 | 富士通株式会社 | 用于生成知识库的方法和装置 |
CN110162786B (zh) * | 2019-04-23 | 2024-02-27 | 百度在线网络技术(北京)有限公司 | 构建配置文件以及抽取结构化信息的方法、装置 |
CN110162786A (zh) * | 2019-04-23 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 构建配置文件以及抽取结构化信息的方法、装置 |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
CN111858866A (zh) * | 2019-04-30 | 2020-10-30 | 广东小天才科技有限公司 | 一种基于三元组的语义解析方法及装置 |
CN110276640A (zh) * | 2019-06-10 | 2019-09-24 | 北京云莱坞文化传媒有限公司 | 版权的多粒度拆分及其商业价值的挖掘方法 |
CN110457676A (zh) * | 2019-06-26 | 2019-11-15 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110457676B (zh) * | 2019-06-26 | 2022-06-21 | 平安科技(深圳)有限公司 | 评价信息的提取方法及装置、存储介质、计算机设备 |
CN110377905A (zh) * | 2019-06-28 | 2019-10-25 | 北京百度网讯科技有限公司 | 语句的语义表示处理方法及装置、计算机设备及可读介质 |
CN110489538B (zh) * | 2019-08-27 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
CN110489538A (zh) * | 2019-08-27 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
CN110532567A (zh) * | 2019-09-04 | 2019-12-03 | 北京百度网讯科技有限公司 | 短语的提取方法、装置、电子设备及存储介质 |
CN111046656A (zh) * | 2019-11-15 | 2020-04-21 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111046656B (zh) * | 2019-11-15 | 2023-07-14 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN111027323A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于主题模型和语义分析的实体指称项识别方法 |
CN111178066B (zh) * | 2019-12-18 | 2023-05-09 | 北京明略软件系统有限公司 | 一种实现信息处理的方法、装置、计算机存储介质及终端 |
CN111178066A (zh) * | 2019-12-18 | 2020-05-19 | 北京明略软件系统有限公司 | 一种实现信息处理的方法、装置、计算机存储介质及终端 |
CN111026885B (zh) * | 2019-12-23 | 2023-09-01 | 公安部第三研究所 | 一种基于文本语料的涉恐事件实体属性抽取系统及方法 |
CN111144115B (zh) * | 2019-12-23 | 2023-10-20 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111026885A (zh) * | 2019-12-23 | 2020-04-17 | 公安部第三研究所 | 一种基于文本语料的涉恐事件实体属性抽取系统及方法 |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111274792A (zh) * | 2020-01-20 | 2020-06-12 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111274792B (zh) * | 2020-01-20 | 2023-06-27 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111611799B (zh) * | 2020-05-07 | 2023-06-02 | 北京智通云联科技有限公司 | 基于字典和序列标注模型实体属性抽取方法、系统及设备 |
CN111611799A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于字典和序列标注模型实体属性抽取方法、系统及设备 |
CN111858877A (zh) * | 2020-06-17 | 2020-10-30 | 平安科技(深圳)有限公司 | 多类型问题智能问答方法、系统、设备及可读存储介质 |
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
CN111897914A (zh) * | 2020-07-20 | 2020-11-06 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN111897914B (zh) * | 2020-07-20 | 2023-09-19 | 杭州叙简科技股份有限公司 | 用于综合管廊领域的实体信息抽取及知识图谱构建方法 |
CN112036182A (zh) * | 2020-07-31 | 2020-12-04 | 中国科学院信息工程研究所 | 多角度引入属性语义的知识表示学习方法和系统 |
CN112131343B (zh) * | 2020-09-14 | 2023-07-07 | 新讯数字科技(杭州)有限公司 | 一种中文小说对话人物识别方法 |
CN112131343A (zh) * | 2020-09-14 | 2020-12-25 | 杭州东信北邮信息技术有限公司 | 一种中文小说对话人物识别方法 |
CN112860781A (zh) * | 2021-02-05 | 2021-05-28 | 陈永朝 | 一种词汇搭配提取和语义分类相结合的挖掘和展示方法 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
CN113609838B (zh) * | 2021-07-14 | 2024-05-24 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
CN113705198B (zh) * | 2021-10-21 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 场景图生成方法、装置、电子设备及存储介质 |
CN113705198A (zh) * | 2021-10-21 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 场景图生成方法、装置、电子设备及存储介质 |
CN114186552B (zh) * | 2021-12-13 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本分析方法、装置、设备及计算机存储介质 |
CN114186552A (zh) * | 2021-12-13 | 2022-03-15 | 北京百度网讯科技有限公司 | 文本分析方法、装置、设备及计算机存储介质 |
CN115982389A (zh) * | 2023-03-10 | 2023-04-18 | 北京国华众联科技有限公司 | 知识图谱生成方法、装置和设备 |
CN117195897A (zh) * | 2023-09-08 | 2023-12-08 | 北京三维天地科技股份有限公司 | 一种基于nlp的物料描述智能拆分方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106777275B (zh) | 2018-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777275B (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN112329467B (zh) | 地址识别方法、装置、电子设备以及存储介质 | |
CN104679728B (zh) | 一种文本相似度检测方法 | |
CN101539907A (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN106202543A (zh) | 基于机器学习的本体匹配方法和系统 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
Zhang et al. | Rule-based extraction of spatial relations in natural language text | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN110348003A (zh) | 文本有效信息的抽取方法及装置 | |
CN105389303B (zh) | 一种异源语料自动融合方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN103678270B (zh) | 语义单元抽取方法和语义单元抽取设备 | |
Zhang et al. | SVM based extraction of spatial relations in text | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |