CN107977368B - 信息提取方法及系统 - Google Patents
信息提取方法及系统 Download PDFInfo
- Publication number
- CN107977368B CN107977368B CN201610920441.2A CN201610920441A CN107977368B CN 107977368 B CN107977368 B CN 107977368B CN 201610920441 A CN201610920441 A CN 201610920441A CN 107977368 B CN107977368 B CN 107977368B
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- candidates
- entities
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 375
- 238000000034 method Methods 0.000 claims abstract description 95
- 238000010586 diagram Methods 0.000 claims description 64
- 238000013507 mapping Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 206010011224 Cough Diseases 0.000 description 41
- 206010006451 bronchitis Diseases 0.000 description 41
- 208000006673 asthma Diseases 0.000 description 31
- 208000030603 inherited susceptibility to asthma Diseases 0.000 description 29
- 206010047924 Wheezing Diseases 0.000 description 24
- 239000000284 extract Substances 0.000 description 21
- 230000008569 process Effects 0.000 description 19
- 206010008479 Chest Pain Diseases 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 14
- 230000000241 respiratory effect Effects 0.000 description 13
- 206010002383 Angina Pectoris Diseases 0.000 description 11
- 206010003119 arrhythmia Diseases 0.000 description 11
- 230000006793 arrhythmia Effects 0.000 description 11
- 208000037656 Respiratory Sounds Diseases 0.000 description 5
- 208000023504 respiratory system disease Diseases 0.000 description 4
- 206010008469 Chest discomfort Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000000707 layer-by-layer assembly Methods 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种信息提取方法及系统,属于信息处理技术领域。该方法包括:根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,实体种子集由属于目标类别的多个实体种子构成;根据多个实体和多个属性候选,建立实体与属性的关联关系,多个实体包括多个实体种子和多个实体候选;根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性。本发明解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果。本发明用于信息提取。
Description
技术领域
本发明涉及信息处理技术领域,特别涉及一种信息提取方法及系统。
背景技术
随着电子技术的快速发展和大数据时代的到来,越来越多的数据以非结构化文本的形式存储在信息系统中,通过自然语言处理(英文:Natural Language Processing;简称:NLP)技术对非结构化文本进行处理可以使非结构化文本转化为结构化文本,而从非结构化文本中提取实体与属性是将非结构化文本转化为结构化文本的重要步骤。其中,非结构化文本是指诸如超文本标记语言(英文:HyperText Markup Language;简称:HTML)格式、可扩展标记语言(英文:Extensible Markup Language;简称:XML)格式等格式的文本,结构化文本是指按照某种预定义的文本对象模型构造的文本,结构化文本已经给文本定义了框架,使文本的各部分的作用一目了然,实体是指现实世界中的客观事物,是现实世界中任何可区分、可识别的事物,实体不仅可以指能触及的客观事物,还可以指抽象的事物,属性是指实体的一些基本特征,其有助于人们全面、客观地了解实体。
相关技术中,通常将实体提取与属性提取分成独立的两个阶段进行,然后根据提取到的实体和属性,将非结构化文本转化为结构化文本。具体实施时,首先,根据给定类别(目标类别)的实体种子集中的实体种子在给定语料(非结构化文本)中提取实体候选,根据实体候选在给定语料中的上下文计算实体候选与实体种子的相似度,将实体候选中与实体种子的相似度大于预设相似度的实体候选作为目标实体,然后,根据给定的属性种子集(目标类别的实体种 子集对应的属性种子集)中的属性种子,在该给定语料中提取属性候选,根据属性候选在该给定语料中的上下文计算属性候选与属性种子的相似度,将属性候选中与属性种子的相似度大于预设相似度的属性候选作为目标属性,最后,将提取的目标实体存储在目标实体集中,将提取的目标属性存储在与目标实体集关联的目标属性集中得到结构化文本,其中,目标实体集用于记录目标类别的实体,目标属性集用于记录目标实体集中的实体的属性。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
相关技术中的实体提取与属性提取是分开进行的,因此,信息提取过程存在“语义漂移”(将不属于目标类别的实体候选提取出来)的问题。
发明内容
为了解决信息提取过程存在“语义漂移”的问题,本发明提供一种信息提取方法及系统。所述技术方案如下:
第一方面,提供一种信息提取方法,所述方法包括:
根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;
根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;
根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性。
可选地,所述根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,包括:
根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;
根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目 标实体;
根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性。
可选地,所述实体与属性的关联关系以实体-属性关系图的形式表示,所述实体-属性关系图具有多个顶点和多条边,所述多个顶点中的每个顶点对应一个实体或一个所述属性候选,所述实体为所述实体种子或所述实体候选,所述多条边中的每条边为一个所述实体对应的顶点与一个所述属性候选对应的顶点的连线,所述每条边上具有一个权重,所述每条边上的权重用于表征位于所述每条边上的两个顶点对应的实体和属性候选的关联系数,
所述根据多个实体和所述多个属性候选,建立实体与属性的关联关系,包括:
将所述多个实体和所述多个属性候选中,存在关联关系的实体与属性候选连接,得到所述实体-属性关系图的多条边,所述多个实体和所述多个属性候选对应所述实体-属性关系图的多个顶点;
计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
将所述每条边上的两个顶点对应的实体与属性候选的关联系数,确定为所述每条边上的权重。
可选地,所述根据实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分,包括:
在对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分时,根据所述实体-属性关系图、所述多个属性候选中的每个属性候选在t时刻的得分和所述多个实体中的每个实体对应的实体打分系数,分别对所述多个实体中的每个实体进行打分,所述实体打分系数由实体与属性的关联系数确定,
根据所述实体-属性关系图、所述多个实体中的每个实体在t时刻的得分和 所述多个属性候选中的每个属性候选对应的属性打分系数,分别对所述多个属性候选中的每个属性候选进行打分,所述属性打分系数由实体与属性的关联系数确定;
重复执行上述打分的步骤直至达到打分终止条件。
可选地,所述根据所述实体-属性关系图、所述多个属性候选中的每个属性候选在t时刻的得分和所述多个实体中的每个实体对应的实体打分系数,分别对所述多个实体中的每个实体进行打分,包括:
根据所述实体-属性关系图和所述多个属性候选中的每个属性候选在t时刻的得分,采用实体打分公式分别对所述多个实体中的每个实体进行打分;
所述根据所述实体-属性关系图、所述多个实体中的每个实体在t时刻的得分和所述多个属性候选中的每个属性候选对应的属性打分系数,分别对所述多个属性候选中的每个属性候选进行打分,包括:
根据所述实体-属性关系图和所述多个实体中的每个实体在t时刻的得分,采用属性打分公式分别对所述多个属性候选中的每个属性候选进行打分。
所述St+1(ei)表示所述多个实体中的实体ei在t+1时刻的得分,所述St(aj)表示所述多个属性候选中的属性候选aj在t时刻的得分,所述为所述实体打分系数,所述wi,j表示所述实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述wk,j表示所述实体-属性关系图中实体ek对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述j的取值等于所述实体-属性关系图中包括所述实体ei对应的顶点的边的条数,所述k的取值等于所述实体-属性关系图中包括所述属性候选aj对应的顶点的边的条数,所述∑表示求和;
所述St+1(aj)表示所述多个属性候选中的属性候选aj在t+1时刻的得分,所述St(ei)表示所述多个实体中的实体ei在t时刻的得分,所述为所述属性打分系数,所述wi,p表示所述实体-属性关系图中实体ei对应的顶点与属性候选ap对应的顶点之间的边上的权重,所述i的取值等于所述实体-属性关系图中包括所述属性候选aj对应的顶点的边的条数,所述p的取值等于所述实体-属性关系图中包括所述实体ei对应的顶点的边的条数。
可选地,所述打分终止条件包括:
所述多个实体中的每个实体的得分收敛,且所述多个属性候选中的每个属性候选的得分收敛;或者,
所述多个实体中的每个实体的打分次数大于预设打分次数,且所述多个属性候选中的每个属性候选的打分次数大于预设打分次数。
可选地,所述根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体,包括:
获取达到所述打分终止条件时,所述多个实体中的每个实体的最终得分;
按照最终得分的高低,对所述多个实体进行排序;
将所述多个实体中,最终得分大于预设实体得分阈值的实体确定为目标实体,得到所述至少一个目标实体;
所述根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性,包括:
获取达到所述打分终止条件时,所述多个属性候选中的每个属性候选的最终得分;
按照最终得分的高低,对所述多个属性候选进行排序;
将所述多个属性候选中,最终得分大于预设属性得分阈值的属性候选确定 为目标属性,得到所述至少一个目标属性。
可选地,所述根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,包括:
根据所述实体种子集中的每个实体种子,从所述目标语料中提取实体提取模板,得到多个实体提取模板;
根据所述多个实体提取模板中的每个实体提取模板,从所述目标语料中提取实体候选,得到所述多个实体候选;
根据预设属性提取模板和所述多个实体候选中的每个实体候选,从所述目标语料中提取属性候选,得到所述多个属性候选。
可选地,所述根据所述实体种子集中的每个实体种子,从所述目标语料中提取实体提取模板,得到多个实体提取模板,包括:
根据所述实体种子集中的每个实体种子,以第一预设字符串长度从所述目标语料中搜索与所述每个实体种子相关的第一字符串,与所述每个实体种子相关的第一字符串包括所述每个实体种子和所述每个实体种子的属性;
根据与所述实体种子集中的每个实体种子相关的第一字符串,确定所述每个实体种子对应的实体提取模板,得到所述多个实体提取模板,所述每个实体种子对应的实体提取模板包括通用实体符号和所述每个实体种子的属性。
可选地,所述根据所述多个实体提取模板中的每个实体提取模板,从所述目标语料中提取实体候选,得到所述多个实体候选,包括:
以第二预设字符串长度从所述目标语料中搜索与所述多个实体提取模板中的每个实体提取模板相关的第二字符串,与所述每个实体提取模板相关的第二字符串包括实体候选和所述每个实体提取模板对应的实体种子的属性;
从与所述多个实体提取模板中的每个实体提取模板相关的第二字符串中,提取实体候选,得到所述多个实体候选。
可选地,所述根据预设属性提取模板和所述多个实体候选中的每个实体候选,从所述目标语料中提取属性候选,得到所述多个属性候选,包括:
根据所述多个实体候选中的每个实体候选,以第三字符串长度从所述目标语料中搜索与所述每个实体候选和所述预设属性提取模板都相关的第三字符串,与所述每个实体候选和所述预设属性提取模板都相关的第三字符串包括所述每个实体候选和所述每个实体候选的属性;
从与所述多个实体候选中的每个实体候选相关的第三字符串中,提取所述多个实体候选中的每个实体候选的属性,得到所述多个属性候选。
可选地,所述目标语料包括:至少一个非结构化的医学文本,所述实体种子集中的实体种子为医学实体。
可选地,在所述根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性之后,所述方法还包括:
将所述至少一个目标实体存储至目标实体集,所述目标实体集用于记录所述目标类别的实体;
将所述至少一个目标属性存储至与所述目标实体集关联的目标属性集,所述目标属性集用于记录所述目标类别的实体的属性。
可选地,所述计算所述每条边上的两个顶点对应的实体与属性候选的关联系数,包括:
根据所述每条边上的两个顶点对应的实体与属性候选在所述目标语料中的上下文,计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
通过神经网络将所述每条边上的两个顶点对应的实体与属性候选映射到指定语义空间,在所述指定语义空间中计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
将所述每条边上的两个顶点对应的实体与属性候选映射到指定概念空间,在所述指定概念空间中计算所述每条边上的两个顶点对应的实体与属性候选的 关联系数。
第二方面,提供一种信息提取系统,所述系统包括:
提取模块,用于根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;
建立模块,用于根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;
确定模块,用于根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性。
可选地,所述确定模块,包括:
打分子模块,用于根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;
第一确定子模块,用于根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;
第二确定子模块,用于根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性。
可选地,所述实体与属性的关联关系以实体-属性关系图的形式表示,所述实体-属性关系图具有多个顶点和多条边,所述多个顶点中的每个顶点对应一个实体或一个所述属性候选,所述实体为所述实体种子或所述实体候选,所述多条边中的每条边为一个所述实体对应的顶点与一个所述属性候选对应的顶点的连线,所述每条边上具有一个权重,所述每条边上的权重用于表征位于所述每条边上的两个顶点对应的实体和属性候选的关联系数,所述建立模块,包括:
连接子模块,用于将所述多个实体和所述多个属性候选中,存在关联关系的实体与属性候选连接,得到所述实体-属性关系图的多条边,所述多个实体和所述多个属性候选对应所述实体-属性关系图的多个顶点;
计算子模块,用于计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
确定子模块,用于将所述每条边上的两个顶点对应的实体与属性候选的关联系数,确定为所述每条边上的权重。
可选地,所述打分子模块,用于:
在对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分时,根据所述实体-属性关系图、所述多个属性候选中的每个属性候选在t时刻的得分和所述多个实体中的每个实体对应的实体打分系数,分别对所述多个实体中的每个实体进行打分,所述实体打分系数由实体与属性的关联系数确定,
根据所述实体-属性关系图、所述多个实体中的每个实体在t时刻的得分和所述多个属性候选中的每个属性候选对应的属性打分系数,分别对所述多个属性候选中的每个属性候选进行打分,所述属性打分系数由实体与属性的关联系数确定;
重复执行上述打分的步骤直至达到打分终止条件。
可选地,所述打分子模块,用于:
根据所述实体-属性关系图和所述多个属性候选中的每个属性候选在t时刻的得分,采用实体打分公式分别对所述多个实体中的每个实体进行打分;
根据所述实体-属性关系图和所述多个实体中的每个实体在t时刻的得分,采用属性打分公式分别对所述多个属性候选中的每个属性候选进行打分。
所述St+1(ei)表示所述多个实体中的实体ei在t+1时刻的得分,所述St(aj)表示 所述多个属性候选中的属性候选aj在t时刻的得分,所述为所述实体打分系数,所述wi,j表示所述实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述wk,j表示所述实体-属性关系图中实体ek对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述j的取值等于所述实体-属性关系图中包括所述实体ei对应的顶点的边的条数,所述k的取值等于所述实体-属性关系图中包括所述属性候选aj对应的顶点的边的条数,所述∑表示求和;
所述St+1(aj)表示所述多个属性候选中的属性候选aj在t+1时刻的得分,所述St(ei)表示所述多个实体中的实体ei在t时刻的得分,所述为所述属性打分系数,所述wi,p表示所述实体-属性关系图中实体ei对应的顶点与属性候选ap对应的顶点之间的边上的权重,所述i的取值等于所述实体-属性关系图中包括所述属性候选aj对应的顶点的边的条数,所述p的取值等于所述实体-属性关系图中包括所述实体ei对应的顶点的边的条数。
可选地,所述打分终止条件包括:
所述多个实体中的每个实体的得分收敛,且所述多个属性候选中的每个属性候选的得分收敛;或者,
所述多个实体中的每个实体的打分次数大于预设打分次数,且所述多个属性候选中的每个属性候选的打分次数大于预设打分次数。
可选地,所述第一确定子模块,用于:
获取达到所述打分终止条件时,所述多个实体中的每个实体的最终得分;
按照最终得分的高低,对所述多个实体进行排序;
将所述多个实体中,最终得分大于预设实体得分阈值的实体确定为目标实体,得到所述至少一个目标实体;
所述第二确定子模块,用于:
获取达到所述打分终止条件时,所述多个属性候选中的每个属性候选的最终得分;
按照最终得分的高低,对所述多个属性候选进行排序;
将所述多个属性候选中,最终得分大于预设属性得分阈值的属性候选确定为目标属性,得到所述至少一个目标属性。
可选地,所述提取模块,包括:
第一提取子模块,用于根据所述实体种子集中的每个实体种子,从所述目标语料中提取实体提取模板,得到多个实体提取模板;
第二提取子模块,用于根据所述多个实体提取模板中的每个实体提取模板,从所述目标语料中提取实体候选,得到所述多个实体候选;
第三提取子模块,用于根据预设属性提取模板和所述多个实体候选中的每个实体候选,从所述目标语料中提取属性候选,得到所述多个属性候选。
可选地,所述第一提取子模块,用于:
根据所述实体种子集中的每个实体种子,以第一预设字符串长度从所述目标语料中搜索与所述每个实体种子相关的第一字符串,与所述每个实体种子相关的第一字符串包括所述每个实体种子和所述每个实体种子的属性;
根据与所述实体种子集中的每个实体种子相关的第一字符串,确定所述每个实体种子对应的实体提取模板,得到所述多个实体提取模板,所述每个实体种子对应的实体提取模板包括通用实体符号和所述每个实体种子的属性。
可选地,所述第二提取子模块,用于:
以第二预设字符串长度从所述目标语料中搜索与所述多个实体提取模板中的每个实体提取模板相关的第二字符串,与所述每个实体提取模板相关的第二字符串包括实体候选和所述每个实体提取模板对应的实体种子的属性;
从与所述多个实体提取模板中的每个实体提取模板相关的第二字符串中,提取实体候选,得到所述多个实体候选。
可选地,所述第三提取子模块,用于:
根据所述多个实体候选中的每个实体候选,以第三字符串长度从所述目标语料中搜索与所述每个实体候选和所述预设属性提取模板都相关的第三字符串,与所述每个实体候选和所述预设属性提取模板都相关的第三字符串包括所述每个实体候选和所述每个实体候选的属性;
从与所述多个实体候选中的每个实体候选相关的第三字符串中,提取所述多个实体候选中的每个实体候选的属性,得到所述多个属性候选。
可选地,所述目标语料包括:至少一个非结构化的医学文本,所述实体种子集中的实体种子为医学实体。
可选地,所述系统还包括:
第一存储模块,用于将所述至少一个目标实体存储至目标实体集,所述目标实体集用于记录所述目标类别的实体;
第二存储模块,用于将所述至少一个目标属性存储至与所述目标实体集关联的目标属性集,所述目标属性集用于记录所述目标类别的实体的属性。
可选地,所述计算子模块,用于:
根据所述每条边上的两个顶点对应的实体与属性候选在所述目标语料中的上下文,计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
通过神经网络将所述每条边上的两个顶点对应的实体与属性候选映射到指定语义空间,在所述指定语义空间中计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
将所述每条边上的两个顶点对应的实体与属性候选映射到指定概念空间,在所述指定概念空间中计算所述每条边上的两个顶点对应的实体与属性候选的关联系数。
本发明提供的技术方案带来的有益效果是:
本发明提供的信息提取方法及系统,通过根据实体种子集中的多个实体种 子,从目标语料中提取多个实体候选和多个属性候选,根据多个实体和多个属性候选,建立实体与属性的关联关系,根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性,由于目标实体和目标属性都是根据实体与属性的关联关系确定的,因此,解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息提取方法的方法流程图;
图2-1是本发明实施例提供的另一种信息提取方法的方法流程图;
图2-2是图2-1所示实施例提供的一种根据实体种子从目标语料中提取实体候选和属性候选的方法流程图;
图2-3是图2-1所示实施例提供的一种根据实体种子从目标语料中提取实体提取模板的方法流程图;
图2-4是图2-1所示实施例提供的一种根据实体提取模板从目标语料中提取实体候选的方法流程图;
图2-5是图2-1所示实施例提供的一种根据预设属性提取模板和实体候选从目标语料中提取属性候选的方法流程图;
图2-6是图2-1所示实施例提供的一种建立实体与属性的关联关系的方法流程图;
图2-7是图2-1所示实施例提供的一种实体-属性关系图;
图2-8是图2-1所示实施例提供的一种实体-属性关系表;
图2-9是图2-1所示实施例提供的一种根据实体与属性的关联关系确定目标实体和目标属性的方法流程图;
图2-10是图2-1所示实施例提供的一种根据实体与属性的关联关系对实体和属性候选进行打分的方法流程图;
图2-11是图2-1所示实施例提供的一种根据实体的打分结果确定目标实体的方法流程图;
图2-12是图2-1所示实施例提供的一种根据属性候选的打分结果确定目标属性的方法流程图;
图2-13是图2-1所示实施例提供的一种根据目标实体和目标属性建立结构化文本的方法流程图;
图2-14是图2-1所示实施例提供的一种文本转化的流程示意图;
图3-1是本发明实施例提供的一种信息提取系统的框图;
图3-2是本发明实施例提供的一种确定模块的框图;
图3-3是本发明实施例提供的一种建立模块的框图;
图3-4是本发明实施例提供的一种提取模块的框图;
图3-5是本发明实施例提供的另一种信息提取系统的框图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参考图1,其示出了本发明实施例提供的一种信息提取方法的方法流程图,该信息提取方法可以由信息提取系统执行。参见图1,该方法可以包括:
步骤101、根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,实体种子集由属于目标类别的多个实体种子构成。
步骤102、根据多个实体和多个属性候选,建立实体与属性的关联关系,多个实体包括多个实体种子和多个实体候选。
步骤103、根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性。
综上所述,本发明实施例提供的信息提取方法,通过根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,根据多个实体和多个属性候选,建立实体与属性的关联关系,根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性,由于目标实体和目标属性都是根据实体与属性的关联关系确定的,因此,解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果。
请参考图2-1,其示出了本发明实施例提供的另一种信息提取方法的方法流程图,该信息提取方法可以由信息提取系统执行。参见图2-1,该方法可以包括:
步骤201、获取目标语料和实体种子集,实体种子集由属于目标类别的多个实体种子构成。
其中,目标语料可以包括各种非结构化文本,非结构化文本是指诸如HTML格式、XML格式等格式的文本,实体种子集由属于目标类别的多个实体种子构成,比如,实体种子集由属于目标类别的3至5个实体种子构成。
信息提取系统可以获取目标语料M和实体种子集ES,实体种子集ES可以为ES={ES1,ES2,ES3......},实体种子集ES中包括属于目标类别的实体种子ES1、ES2、ES3等等。本发明实施例中,在不同领域中,目标语料M、目标类别以及实体种子集ES都可以不同。比如,在政治领域中,目标语料M可以包括至少一个非结构化的政治文本,目标类别可以为“国家”,实体种子集ES可以为ES={中国,美国,俄罗斯......},该“中国”、“美国”、“俄罗斯”等都是属于目标类别“国家”的实体种子;再比如,在医学领域中,目标语料M可以包括至少一个非结构化的医学文本(如医学文献、电子病历等等),目标类别可以为“呼吸系统疾病”,实体种子集ES可以为ES={急性支气管炎......},该“急性支气管炎”等是属于目标类别“呼吸系统疾病”的实体种子,该实体种子是医学实体。
可选地,信息提取系统可以具有输入单元,用户可以通过该输入单元向信息提取系统输入目标语料M和实体种子集ES,信息提取系统通过接收用户输入的目标语料M和实体种子集ES,实现对目标语料M和实体种子集ES的获取,该输入单元可以包括但不限于:键盘、扫描仪等各种相关技术中提供的输入单元;再可选地,信息提取系统可以存储目标语料M和实体种子集ES,信息提取系统可以根据用户的操作读取自身存储的目标语料M和实体种子集ES,实现对目标语料M和实体种子集ES的获取,本发明实施例不对目标语料和实体种子集的获取方式做限定。
步骤202、根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选。
信息提取系统获取到目标语料和实体种子集后,可以根据实体种子集中的多个实体种子,从该目标语料中提取多个实体候选和多个属性候选。示例地,信息提取系统根据实体种子集ES中的实体种子ES1、ES2、ES3等多个实体种子,从目标语料M中提取多个实体候选和多个属性候选。可选地,请参考图2-2,其示出了图2-1所示实施例提供的一种根据实体种子从目标语料中提取实体候选和属性候选的方法流程图,参见图2-2,该方法包括:
子步骤2021、根据实体种子集中的每个实体种子,从目标语料中提取实体 提取模板,得到多个实体提取模板。
信息提取系统可以根据多个实体种子中的每个实体种子,从目标语料中提取实体提取模板,得到多个实体提取模板。示例地,信息提取系统根据实体种子ES1、ES2、ES3等多个实体种子中的每个实体种子,从目标语料M中提取实体提取模板。可选地,请参考图2-3,其示出了图2-1所示实施例提供的一种根据实体种子从目标语料中提取实体提取模板的方法流程图,参见图2-3,该方法包括:
子步骤20211、根据实体种子集中的每个实体种子,以第一预设字符串长度从目标语料中搜索与每个实体种子相关的第一字符串,与每个实体种子相关的第一字符串包括每个实体种子和每个实体种子的属性。
信息提取系统可以根据多个实体种子中的每个实体种子,以第一预设字符串长度从目标语料中搜索与每个实体种子相关的第一字符串,与每个实体种子相关的第一字符串包括每个实体种子和每个实体种子的属性。其中,第一预设字符串长度的具体取值可以根据实际需要设置,比如,该第一预设字符串长度可以为100个字符,本发明实施例对此不作限定。
可选地,信息提取系统根据实体种子ES1、ES2、ES3等多个实体种子中的每个实体种子,以第一预设字符串长度从目标语料M中搜索与实体种子ES1、ES2、ES3等多个实体种子中的每个实体种子相关的第一字符串,与实体种子ES1、ES2、ES3等多个实体种子中的每个实体种子相关的第一字符串包括每个实体种子和每个实体种子的属性。比如,与实体种子ES1相关的第一字符串包括实体种子ES1和实体种子ES1的属性。
示例地,以目标语料M包括至少一个非结构化的医学文本,实体种子为“急性支气管炎”为例,信息提取系统根据实体种子“急性支气管炎”,以第一预设字符串长度从目标语料M中搜索与实体种子“急性支气管炎”相关的第一字符串,该第一字符串可以为“急性支气管炎引起咳嗽、胸痛、呼吸受影响”, 该第一字符串“急性支气管炎引起咳嗽、胸痛、呼吸受影响”中包括实体种子“急性支气管炎”和该实体种子“急性支气管炎”的属性“咳嗽”、“胸痛”、“呼吸受影响”。
需要说明的是,信息提取系统根据多个实体种子中的每个实体种子,以第一预设字符串长度从目标语料中搜索第一字符串的具体实现过程可以参考相关技术,本发明实施例在此不再赘述。
子步骤20212、根据与实体种子集中的每个实体种子相关的第一字符串,确定每个实体种子对应的实体提取模板,得到多个实体提取模板,每个实体种子对应的实体提取模板包括通用实体符号和每个实体种子的属性。
信息提取系统搜索到与多个实体种子中的每个实体种子相关的第一字符串后,可以根据与实体种子集中的每个实体种子相关的第一字符串,确定每个实体种子对应的实体提取模板,进而根据与实体种子集中的多个实体种子相关的多个第一字符串得到多个实体提取模板。其中,一个实体种子可以对应多个实体提取模板,与每个实体种子对应的实体提取模板包括通用实体符号和每个实体种子的属性,该通用实体符号可以根据实际情况设置,示例地,通用实体符号可以为“*”。
可选地,信息提取系统可以采用通用实体符号“*”代替第一字符串中的实体种子,得到相应的实体提取模板。以一个实体种子对应一个实体提取模板为例进行说明,信息提取系统可以采用通用实体符号“*”代替与实体种子ES1相关的第一字符串中的实体种子ES1,得到实体种子ES1对应的实体提取模板B1,采用通用实体符号“*”代替与实体种子ES2相关的第一字符串中的实体种子ES2,得到实体种子ES2对应的实体提取模板B2,采用通用实体符号“*”代替与实体种子ES3相关的第一字符串中的实体种子ES3,得到实体种子ES3对应的实体提取模板B3,其中,实体提取模板B1包括通用实体符号“*”和实体种子ES1的属性,实体提取模板B2包括通用实体符号“*”和实体种子ES2的属性,实体提取 模板B3包括通用实体符号“*”和实体种子ES3的属性。
可选地,以实体种子为“急性支气管炎”为例,信息提取系统可以采用通用实体符号“*”代替与实体种子“急性支气管炎”相关的第一字符串“急性支气管炎引起咳嗽、胸痛、呼吸受影响”中的实体种子“急性支气管炎”,得到实体种子“急性支气管炎”对应的实体提取模板,该实体种子“急性支气管炎”对应的实体提取模板可以为“*引起咳嗽、胸痛、呼吸受影响”。
子步骤2022、根据多个实体提取模板中的每个实体提取模板,从目标语料中提取实体候选,得到多个实体候选。
信息提取系统得到多个实体提取模板后,可以根据多个实体提取模板中的每个实体提取模板,从目标语料中提取实体候选,得到多个实体候选。示例地,信息提取系统根据实体提取模板B1、B2、B3等多个实体提取模板中的每个实体提取模板,从目标语料M中提取实体候选。可选地,请参考图2-4,其示出了图2-1所示实施例提供的一种根据实体提取模板从目标语料中提取实体候选的方法流程图,参见图2-4,该方法包括:
子步骤20221、以第二预设字符串长度从目标语料中搜索与多个实体提取模板中的每个实体提取模板相关的第二字符串,与每个实体提取模板相关的第二字符串包括实体候选和每个实体提取模板对应的实体种子的属性。
信息提取系统可以以第二预设字符串长度从目标语料中搜索与多个实体提取模板中的每个实体提取模板相关的第二字符串,与每个实体提取模板相关的第二字符串包括实体候选和每个实体提取模板对应的实体种子的属性。其中,与每个实体提取模板相关的第二字符串可以有多个,第二预设字符串长度的具体取值可以根据实际需要设置,且该第二预设字符串长度与第一预设字符串长度可以相等或不等,本发明实施例对此不作限定。
可选地,信息提取系统以第二预设字符串长度从目标语料M中搜索与实体提取模板B1、B2、B3等多个实体提取模板中的每个实体提取模板相关的第二字符串,与实体提取模板B1、B2、B3等多个实体提取模板中的每个实体提取 模板相关的第二字符串包括实体候选和每个实体提取模板对应的实体种子的属性。比如,与实体提取模板B1相关的第二字符串包括实体候选和实体提取模板B1对应的实体种子ES1的属性。
示例地,以目标语料M包括至少一个非结构化的医学文本,实体提取模板为“*引起咳嗽、胸痛、呼吸受影响”为例,信息提取系统以第二预设字符串长度从目标语料M中搜索与实体提取模板“*引起咳嗽、胸痛、呼吸受影响”相关的第二字符串,该第二字符串可以为“支气管哮喘引起咳嗽、胸痛、呼吸受影响”,该第二字符串中包括实体候选“支气管哮喘”和实体提取模板“*引起咳嗽、胸痛、呼吸受影响”对应的实体种子“急性支气管炎”的属性“咳嗽”、“胸痛”、“呼吸受影响”。
需要说明的是,信息提取系统以第二预设字符串长度从目标语料中搜索与多个实体提取模板中的每个实体提取模板相关的第二字符串的具体实现过程可以参考相关技术,本发明实施例在此不再赘述。
子步骤20222、从与多个实体提取模板中的每个实体提取模板相关的第二字符串中提取实体候选,得到多个实体候选。
信息提取系统搜索到与每个实体提取模板相关的第二字符串后,可以从与每个实体提取模板相关的第二字符串中提取实体候选,进而根据与多个实体提取模板相关的第二字符串得到多个实体候选。
可选地,信息提取系统可以将第二字符串中与相应的实体提取模板进行比较,将实体提取模板中的通用实体符号在第二字符串中对应的字符确定为实体候选,进而提取该实体候选。以与每个实体提取模板相关的第二字符串为一个为例,信息提取系统可以将与实体提取模板B1相关的第二字符串与实体提取模板B1进行比较,将实体提取模板B1中的通用实体符号在该第二字符串中对应的字符确定为实体候选,并提取该实体候选,该实体候选可以为实体候选EC1,信息提取系统可以将与实体提取模板B2相关的第二字符串与实体提取模板B2进行比较,将实体提取模板B2中的通用实体符号在第二字符串中对应的字符确定为实体候选,并提取该实体候选,该实体候选可以为实体候选EC2,信息提取系统可以将与实体提取模板B3相关的第二字符串与实体提取模板B3进行比较,将实体提取模板B3中的通用实体符号在第二字符串中对应的字符确定为实体候选,并提取该实体候选,该实体候选可以为实体候选EC3。
示例地,以从与实体提取模板“*引起咳嗽、胸痛、呼吸受影响”相关的第二字符串中提取实体候选为例,信息提取系统将第二字符串“支气管哮喘引起咳嗽、胸痛、呼吸受影响”与实体提取模板“*引起咳嗽、胸痛、呼吸受影响”进行比较可以确定通用实体符号“*”在第二字符串“支气管哮喘引起咳嗽、胸痛、呼吸受影响”中对应的字符为“支气管哮喘”,因此,信息提取系统将“支气管哮喘”确定为实体候选,进而提取该实体候选。需要说明的是,采用同样的方法,信息提取系统还可以确定出“心律失常”等实体候选,本发明实施例在此不再赘述。
需要说明的是,信息提取系统提取到多个实体候选后,可以得到实体候选集EC,该实体候选集中包括提取到的多个实体候选。示例地,该实体候选集EC可以为EC={EC1,EC2,EC3……}。
还需要说明的是,信息提取系统提取到多个实体候选后,可以根据多个实体候选和实体种子集中的多个实体种子得到实体种子候选集E,该实体种子候选集E可以为E={e1,e2,e3,...,em}=EC∪ES={EC1,EC2,EC3,...,ES1,ES2,ES3...},由此可知,该实体种子候选集E中包括多个实体(m个实体,m为大于0的整数),该多个实体包括多个实体种子和多个实体候选。
子步骤2023、根据预设属性提取模板和多个实体候选中的每个实体候选,从目标语料中提取属性候选,得到多个属性候选。
信息提取系统得到多个实体候选后,可以根据预设属性提取模板和多个实体候选中的每个实体候选,从目标语料中提取属性候选。其中,预设属性提取模板是预先设置的,且预设属性提取模板为至少一个,本发明实施例对此不作限定。示例地,预设属性提取模板可以为“*引起#和#”,“*”表示通用实体 符号,“#”表示通用属性符号。示例地,信息提取系统根据预设属性提取模板“*引起#和#”和实体候选EC1、EC2、EC3等多个实体候选中的每个实体候选,从目标语料M中提取属性候选。
可选地,请参考图2-5,其示出了图2-1所示实施例提供的一种根据预设属性提取模板和实体候选从目标语料中提取属性候选的方法流程图,参见图2-5,该方法包括:
子步骤20231、根据多个实体候选中的每个实体候选,以第三字符串长度从目标语料中搜索与每个实体候选和预设属性提取模板都相关的第三字符串,与每个实体候选和预设属性提取模板都相关的第三字符串包括每个实体候选和每个实体候选的属性。
信息提取系统可以根据多个实体候选中的每个实体候选,以第三字符串长度从目标语料中搜索与每个实体候选和预设属性提取模板都相关的第三字符串,与每个实体候选和预设属性提取模板都相关的第三字符串包括每个实体候选和每个实体候选的属性。其中,与每个实体候选和预设属性提取模板都相关的第三字符串可以有多个,第三预设字符串长度的具体取值可以根据实际需要设置,且该第三预设字符串长度与第一预设字符串长度、第二预设字符串长度可以相等或不等,本发明实施例对此不作限定。
可选地,信息提取系统根据实体候选EC1、EC2、EC3等多个实体候选中的每个实体候选,以第三字符串长度从目标语料M中搜索与实体候选EC1、EC2、EC3等多个实体候选中的每个实体候选和预设属性提取模板都相关的第三字符串,与实体候选EC1、EC2、EC3等多个实体候选中的每个实体候选和预设属性提取模板都相关的第三字符串包括每个实体候选和每个实体候选的属性。比如,与实体候选EC1和预设属性提取模板都相关的第三字符串包括实体候选EC1和实体候选EC1的属性。
示例地,以目标语料M包括至少一个非结构化的医学文本,实体候选为“支气管哮喘”、预设属性提取模板为“*引起#和#”为例,信息提取系统根据实体 候选“支气管哮喘”,以第三预设字符串长度从目标语料M中搜索与实体候选“支气管哮喘”和预设属性提取模板“*引起#和#”都相关的第三字符串,该第三字符串可以为“支气管哮喘引起喘息和胸闷”,该第三字符串“支气管哮喘引起喘息和胸闷”中包括实体候选“支气管哮喘”和该实体候选“支气管哮喘”的属性“喘息”、“胸闷”。
需要说明的是,信息提取系统根据多个实体候选中的每个实体候选,以第三字符串长度从目标语料中搜索与每个实体候选和预设属性提取模板都相关的第三字符串的具体实现过程可以参考相关技术,本发明实施例在此不再赘述。
子步骤20232、从与多个实体候选中的每个实体候选相关的第三字符串中,提取多个实体候选中的每个实体候选的属性,得到多个属性候选。
信息提取系统搜索到与每个实体候选相关的第三字符串后,可以从与每个实体候选相关的第三字符串中提取每个实体候选的属性,进而根据与多个实体候选相关的第三字符串得到多个属性候选。
可选地,信息提取系统可以将第三字符串与实体候选以及相应的预设属性提取模板进行比较,将预设属性提取模板中的通用属性符号在第三字符串中对应的字符确定为属性候选,进而提取该属性候选。以与每个实体候选和预设属性提取模板都相关的第三字符串为一个为例,信息提取系统可以将与实体候选EC1相关的第三字符串,实体候选EC1以及预设属性提取模板进行比较,将预设属性提取模板中的通用属性符号在与实体候选EC1相关的第三字符串对应的字符确定为属性候选,进而提取该属性候选,该属性候选可以为a1,与此同理,信息提取系统还可以提取属性候选a2、a3等。
示例地,信息提取系统将第三字符串“支气管哮喘引起喘息和胸闷”与实体候选“支气管哮喘”以及预设属性提取模板“*引起#和#”进行比较,可以确定通用属性符号“#”在第三字符串中对应的字符为“喘息”和“胸闷”,因此,信息提取系统将“喘息”和“胸闷”确定为属性候选,进而提取该属性候选。
需要说明的是,信息提取系统提取到多个属性候选后,可以得到属性候选 集A,该属性候选集中包括提取到的多个属性候选。示例地,该属性候选集A可以为A={a1,a2,a3,...,an},该属性候选集A中包括n个属性候选,n为大于0的整数。
步骤203、根据多个实体和多个属性候选,建立实体与属性的关联关系,多个实体包括多个实体种子和多个实体候选。
信息提取系统得到多个实体候选和多个属性候选后,可以根据多个实体和多个属性候选建立实体与属性的关联关系,该多个实体包括多个实体种子和多个实体候选。示例地,该多个实体为步骤202中得到的实体种子候选集E={e1,e2,e3,...,em}中的m个实体,该多个属性候选为步骤202中得到的属性候选集A={a1,a2,a3,...,an}中的n个属性候选。
在本发明实施例中,实体与属性的关联关系可以以实体-属性关系图的形式表示,也可以以实体-属性关系表的形式表示,本实施例以实体与属性的关联关系以实体-属性关系图的形式表示为例进行说明。实体-属性关系图具有多个顶点和多条边,多个顶点中的每个顶点对应一个实体或一个属性候选,实体为实体种子或实体候选,多条边中的每条边为一个实体对应的顶点与一个属性候选对应的顶点的连线,每条边上具有一个权重,每条边上的权重用于表征位于每条边上的两个顶点对应的实体和属性候选的关联系数。
可选地,请参考图2-6,其示出了图2-1所示实施例提供的一种建立实体与属性的关联关系的方法流程图,该图2-6以实体与属性的关联关系采用实体-属性关系图的形式表示为例进行说明,也即是,该图2-6以建立实体-属性关系图为例进行说明,参见图2-6,该方法可以包括:
子步骤2031、将多个实体和多个属性候选中,存在关联关系的实体与属性候选连接,得到实体-属性关系图的多条边,多个实体和多个属性候选对应实体-属性关系图的多个顶点。
可选地,信息提取系统可以根据多个实体和多个属性候选在目标语料中的上下文来确定多个实体和多个属性候选中,存在关联关系的实体和属性候选, 也即是,信息提取系统在多个实体和多个属性候选中确定哪些实体与哪些属性候选存在关联关系,进而将存在关联关系的实体与属性候选连接,得到实体-属性关系图的多条边,使得多个实体和多个属性候选对应实体-属性关系图的多个顶点,其中,关联关系可以包括但不限于语义关系。示例地,信息提取系统根据实体种子候选集E={e1,e2,e3,...,em}中的m个实体和属性候选集A={a1,a2,a3,...,an}中的n个属性候选在目标语料M中的上下文来确定多个实体和多个属性候选中,存在关联关系的实体和属性候选,比如,信息提取系统根据实体e1在目标语料M中的上下文来确定实体e1与属性候选集A={a1,a2,a3,...,an}中的n个属性候选中的哪个属性候选存在关联关系,并将实体e1和与实体e1存在关联关系的属性候选连接,假设属性候选a1和属性候选a3都与实体e1存在关联关系,则信息提取系统将实体e1分别与属性候选a1和属性候选a3连接,得到实体-属性关系图的两条边,同理,信息提取系统可以得到与实体种子候选集E={e1,e2,e3,...,em}中的其他实体存在关联关系的属性候选,进而得到实体-属性关系图的多条边,实体e1,e2,e3,...,em和属性候选a1,a2,a3,...,an对应实体-属性关系图的多个顶点,也即是,实体-属性关系图的每个顶点对应一个实体或一个属性候选,实体-属性关系图的顶点的集合V=E∪A。
示例地,以多个实体包括:“急性支气管炎”、“支气管哮喘”和“心律失常”,多个属性候选包括“咳嗽”、“喘息”和“心绞痛”为例来建立实体-属性关系图为例进行说明。信息提取系统可以根据实体“急性支气管炎”、“支气管哮喘”和“心律失常”以及属性候选“咳嗽”、“喘息”和“心绞痛”在目标语料M中的上下文来确定实体“急性支气管炎”、“支气管哮喘”和“心律失常”以及属性候选“咳嗽”、“喘息”和“心绞痛”中,存在关联关系(例如,语义关系)的实体和属性候选,示例地,信息提取系统确定实体“急性支气管炎”与属性候选“咳嗽”和“喘息”存在关联关系,实体“支气管哮喘” 与属性候选“咳嗽”和“喘息”存在关联关系,实体“心律失常”与属性候选“喘息”和“心绞痛”存在关联关系,因此,信息提取系统将实体“急性支气管炎”分别与“咳嗽”和“喘息”连接得到实体-属性关系图的两条边,将实体“支气管哮喘”分别与“咳嗽”和“喘息”连接得到实体-属性关系图的两条边,将实体“心律失常”分别与“喘息”和“心绞痛”连接得到实体-属性关系图的两条边,而实体“急性支气管炎”、“支气管哮喘”、“心律失常”以及属性候选“咳嗽”、“喘息”、“心绞痛”对应实体-属性关系图的多个顶点,该实体-属性关系图如图2-7所示,由图2-7可知,该实体-属性关系图包括6个顶点和6条边。
子步骤2032、计算每条边上的两个顶点对应的实体与属性候选的关联系数。
信息提取系统得到实体-属性关系图的多条边后,可以计算每条边上的两个顶点对应的实体与属性候选的关联系数,该关联系数可以包括但不限于:语义相关度、语义相似度、实体与属性候选出现的频率、实体与属性候选相邻出现的概率等。比如,信息提取系统计算实体“急性支气管炎”与属性候选“咳嗽”的关联系数,实体“急性支气管炎”与属性候选“喘息”的关联系数,实体“支气管哮喘”与属性候选“咳嗽”的关联系数,实体“心律失常”与属性候选“心绞痛”的关联系数等等。在本发明实施例中,信息提取系统可以采用下述三种方法中的任意一种方法来计算每条边上的两个顶点对应的实体与属性候选的关联系数。
方法一、基于分布的方法。信息提取系统根据每条边上的两个顶点对应的实体与属性候选在目标语料中的上下文以及共现信息,计算每条边上的两个顶点对应的实体与属性候选的关联系数,其中,共现信息指的是共同出现的情况;示例地,信息提取系统根据实体“急性支气管炎”与属性候选“咳嗽”在目标语料M中的上下文以及实体“急性支气管炎”与属性候选“咳嗽”在目标语料M中的共现信息,计算实体“急性支气管炎”与属性候选“咳嗽”的关联系数(例如,语义相关度),该过程的具体实现方式可以参考相关技术,本发明实 施例在此不再赘述。
方法二、基于词嵌入(英文:Word Embedding)的方法。信息提取系统通过神经网络将每条边上的两个顶点对应的实体与属性候选映射到指定语义空间(潜在语义空间),在指定语义空间中计算每条边上的两个顶点对应的实体与属性候选的关联系数;示例地,信息提取系统通过神经网络将实体“急性支气管炎”与属性候选“咳嗽”映射到指定语义空间,在指定语义空间中计算实体“急性支气管炎”与属性候选“咳嗽”的关联系数(例如,语义相关度),该过程的具体实现方式可以参考相关技术,本发明实施例在此不再赘述。
方法三、基于显式语义分析(英文:Explicit Semantic Analysis)的方法。信息提取系统将每条边上的两个顶点对应的实体与属性候选映射到指定概念空间,在指定概念空间中计算每条边上的两个顶点对应的实体与属性候选的关联系数,该指定概念空间如维基百度等;示例地,信息提取系统将实体“急性支气管炎”与属性候选“咳嗽”映射到指定概念空间,在指定概念空间中计算实体“急性支气管炎”与属性候选“咳嗽”的关联系数(例如,语义相关度),该过程的具体实现方式可以参考相关技术,本发明实施例在此不再赘述。
子步骤2033、将每条边上的两个顶点对应的实体与属性候选的关联系数,确定为每条边上的权重。
信息提取系统计算得到每条边上的两个顶点对应的实体与属性候选的关联系数,可以将每条边上的两个顶点对应的实体与属性候选的关联系数确定为该每条边上的权重,该权重可以为wi,j,表示实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,其中,i小于或等于m,j小于或等于n。示例地,信息提取系统将实体“急性支气管炎”与属性候选“咳嗽”的关联系数,确定为由实体“急性支气管炎”与属性候选“咳嗽”连接形成的边上的权重。
可选地,实体-属性关系图的多条边上的权重可以如图2-7中所示,参见图图2-7,实体“急性支气管炎”对应的顶点与属性候选“咳嗽”对应的顶点之间 的边上的权重为0.8,实体“急性支气管炎”对应的顶点与属性候选“喘息”对应的顶点之间的边上的权重为0.5,实体“支气管哮喘”对应的顶点与属性候选“喘息”对应的顶点之间的边上的权重为0.6,实体“支气管哮喘”对应的顶点与属性候选“咳嗽”对应的顶点之间的边上的权重为0.7,依次类推。
需要说明的是,本发明实施例是以将多个实体与多个属性候选中,存在关联关系的实体与属性候选连接得到实体-属性关系图的多条边为例进行说明的,实际应用中,可以将每个实体与所有的属性候选都连接,将不存在关联关系的实体对应的顶点与属性候选对应的顶点之间的边上的权重确定为0即可,本发明实施例在此不再赘述。
还需要说明的是,本发明实施例是以实体与属性的关联关系以实体-属性关系图的形式表示为例进行说明,实际应用中,实体与属性的关联关系以实体-属性关系表的形式表示,该实体-属性关系表可以如图2-8所示。参见图2-8,实体“急性支气管炎”与属性候选“咳嗽”之间的关联系数为0.8,实体“急性支气管炎”与属性候选“喘息”之间的关联系数为0.5,实体“急性支气管炎”与属性候选“心绞痛”之间的关联系数为0,依次类推。其中,建立实体-属性关系表的过程可以参考上述建立实体-属性关系图的过程,本发明实施例在此不再赘述。
步骤204、根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性。
请参考图2-9,其示出了图2-1所示实施例提供的一种根据实体与属性的关联关系确定目标实体和目标属性的方法流程图,参见图2-9,该方法可以包括:
子步骤2041、根据实体与属性的关联关系中,各个实体与各个属性的关联系数,对多个实体中的每个实体和多个属性候选中的每个属性候选进行打分。
本实施例以实体与属性的关联关系以实体-属性关系图的形式表示为例进行说明,因此,信息提取系统可以根据实体-属性关系图,分别对多个实体中的每个实体和多个属性候选中的每个属性候选进行打分。
信息提取系统建立实体-属性关系图后,可以根据实体-属性关系图,分别对多个实体中的每个实体和多个属性候选中的每个属性候选进行打分。可选地,信息提取系统根据实体-属性关系图,对实体种子候选集E={e1,e2,e3,...,em}中的每个实体和属性候选集A={a1,a2,a3,...,an}中的每个属性候选进行打分。需要说明的是,在第一次打分时,可以将实体种子候选集E={e1,e2,e3,...,em}中的实体种子的得分确定为1分,实体候选的得分确定为0分,将属性候选集A={a1,a2,a3,...,an}中的每个属性候选的得分确定为0分。请参考图2-10,其示出了图2-1所示实施例提供的一种根据实体与属性的关联关系对实体和属性候选进行打分的方法流程图,参见图2-10,该方法可以包括:
子步骤20411、根据实体-属性关系图、多个属性候选中的每个属性候选在t时刻的得分和多个实体中的每个实体对应的实体打分系数,分别对多个实体中的每个实体进行打分,实体打分系数由实体与属性的关联系数确定。
可选地,信息提取系统可以根据实体-属性关系图和多个属性候选中的每个属性候选在t时刻的得分,采用实体打分公式分别对多个实体中的每个实体进行打分。其中,实体打分公式为:St+1(ei)表示实体种子候选集E={e1,e2,e3,...,em}的实体ei在t+1时刻的得分,St(aj)表示属性候选集A={a1,a2,a3,...,an}中的属性候选aj在t时刻的得分,为实体打分系数,wi,j表示实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,wk,j表示实体-属性关系图中实体ek对应的顶点与属性候选aj对应的顶点之间的边上的权重,j的取值等于实体-属性关系图中包括实体ei对应的顶点的边的条数,k的取值等于实体-属性关系图中包括属性候选aj对应的顶点的边的条数,∑表示求和。
需要说明的是,在打分的过程中,实体属于目标类别的可能性越大,则该实体的得分越高,例如,在医学领域中,当目标类别为“呼吸系统疾病”时,实体“支气管哮喘”的得分大于实体“心律失常”的得分。
以图2-7为例,假设实体ei=支气管哮喘,根据图2-7可知,与实体ei存在关联关系的属性候选包括属性候选“咳嗽”和“喘息”,包括实体ei对应的顶点的边的条数为2,因此,j的取值等于2,包括属性候选“咳嗽”对应的顶点的边的条数为2,包括属性候选“喘息”对应的顶点的边的条数为3,因此,k的取值分别等于2和3。假设属性候选“咳嗽”在t时刻的得分St(咳嗽)=0.8,属性候选“喘息”在t时刻的得分St(咳嗽)=0.5,则实体ei=支气管哮喘在t+1时刻的得分为:
与此同理,可以采用实体打分公式为实体“支气管哮喘”和“心律失常”打分,得到实体“支气管哮喘”和“心律失常”在t+1时刻的得分,本发明实施例在此不再赘述。需要说明的是,在打分的过程中,与实体ei相连的属性候选aj的得分越高,则实体ei的得分越高;实体ei与属性候选aj之间的关联关系越强,则实体ei的得分越高。
子步骤20412、根据实体-属性关系图、多个实体中的每个实体在t时刻的得分和多个属性候选中的每个属性候选对应的属性打分系数,分别对多个属性候选中的每个属性候选进行打分,属性打分系数由实体与属性的关联系数确定。
可选地,信息提取系统可以根据实体-属性关系图和多个实体中的每个实体 在t时刻的得分,采用属性打分公式分别对多个属性候选中的每个属性候选进行打分。其中,属性打分公式为:St+1(aj)表示多个属性候选中的属性候选aj在t+1时刻的得分,St(ei)表示多个实体中的实体ei在t时刻的得分,为属性打分系数,wi,j表示实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,wi,p表示实体-属性关系图中实体ei对应的顶点与属性候选ap对应的顶点之间的边上的权重,i的取值等于实体-属性关系图中包括属性候选aj对应的顶点的边的条数,p的取值等于实体-属性关系图中包括实体ei对应的顶点的边的条数,∑表示求和。
需要说明的是,在打分的过程中,属性候选属于目标类别的可能性越大,则该属性候选的得分越高,例如,在医学领域中,当目标类别为“呼吸系统疾病”时,属性候选“胸闷”的得分大于属性候选“心绞痛”的得分。
以图2-7为例,假设属性候选aj=咳嗽,根据图2-7可知,与属性候选aj存在关联关系的实体包括实体“急性支气管炎”和“支气管哮喘”,包括属性候选aj对应的顶点的边的条数为2,因此,i的取值等于2,包括实体“急性支气管炎”对应的顶点的边的条数为2,包括实体“支气管哮喘”对应的顶点的边的条数为2,因此,k的取值分别等于2和2。假设实体“急性支气管炎”在t时刻的得分St(急性支气管炎)=1,实体“支气管哮喘”在t时刻的得分St(支气管哮喘)=0,则属性候选aj=咳嗽在t+1时刻的得分为:
与此同理,可以采用属性打分公式为属性候选“喘息”和“心绞痛”打分,得到属性候选“喘息”和“心绞痛”在t+1时刻的得分,本发明实施例在此不再赘述。需要说明的是,在打分的过程中,与属性候选aj相连的实体ei的得分越高,则属性候选aj的得分越高;属性候选aj与实体ei之间的关联关系越强,则属性候选aj的得分越高。
子步骤20413、重复执行上述打分的步骤直至达到打分终止条件。
信息提取系统可以重复执行上述子步骤20411和子步骤20412,直至达到打分终止条件,信息提取系统停止对实体和属性候选进行打分。其中,打分终止条件可以根据实际情况设置,示例地,打分终止条件包括:多个实体中的每个实体的得分收敛,且多个属性候选中的每个属性候选的得分收敛;或者,多个实体中的每个实体的打分次数大于预设打分次数,且多个属性候选中的每个属性候选的打分次数大于预设打分次数。
其中,实体的得分收敛可以指对实体进行打分的结果不发生变化或者变化小于预设阈值,比如,在t+1时刻对实体ei的打分结果、在t+2时刻对实体ei的打分结果、在t+3时刻对实体ei的打分结果、在t+4时刻对实体ei的打分结果等不发生变化,或者,在t+1时刻对实体ei的打分结果、在t+2时刻对实体ei的打分结果、在t+3时刻对实体ei的打分结果、在t+4时刻对实体ei的打分结果等的变化小于预设阈值,则说明实体ei的得分收敛。当多个实体中的每个实体都符合该条件,且多个属性候选中的每个属性候选也符合该条件时,达到打分终止条件。需要说明的是,本发明实施例提供的实体打分公式和属性打分公式均符合马尔可夫收敛性,在对每个实体和每个属性候选均打分一定次数(比如1万次)后,每个实体的得分以及每个属性候选的得分会发生收敛,因此,可以将多个实体中的每个实体的得分收敛,且多个属性候选中的每个属性候选的得分收敛作为打分终止条件。
其中,预设打分次数可以根据实际情况设置,比如,预设打分次数为100,也即是,对每个实体和每个属性候选的打分次数都大于100次时,达到打分终止条件。
需要说明的是,本发明实施例通过设置打分终止条件,并在达到打分终止条件时停止打分,可以避免不必要的计算,减小计算量。
子步骤2042、根据多个实体的打分结果,从多个实体中确定出至少一个目标实体。
信息提取系统对多个实体进行打分后,可以根据多个实体的打分结果,从多个实体中确定出至少一个目标实体。示例地,请参考图2-11,其示出了图2-1所示实施例提供的一种根据实体的打分结果确定目标实体的方法流程图,参见图2-11,该方法可以包括:
子步骤20421、获取达到打分终止条件时,多个实体中的每个实体的最终得分。
信息提取系统可以获取达到打分终止条件时,多个实体中的每个实体的最终得分。可选地,在打分的过程中,信息提取系统可以记录每次打分时每个实体的得分,信息提取系统可以通过读取最后一次为每个实体打分的得分,来获取每个实体的最终得分。示例地,信息提取系统获取实体e1,e2,e3,...,em中的每个实体的最终得分。
子步骤20422、按照最终得分的高低,对多个实体进行排序。
获取到每个实体的最终得分后,信息提取系统可以按照最终得分的高低对多个实体进行排序。可选地,信息提取系统可以按照最终得分从高到低,对多个实体进行排序。示例地,信息提取系统按照最终得分从高到低,对实体e1,e2,e3,...,em进行排序,该过程的具体实现方式可以参考相关技术,本发明实施例在此不再赘述。
子步骤20423、将多个实体中,最终得分大于预设实体得分阈值的实体确定为目标实体,得到至少一个目标实体。
其中,预设实体得分阈值可以根据实际情况设置,示例地,预设实体得分阈值为0.5,信息提取系统可以将多个实体e1,e2,e3,...,em中,最终得分大于0.5的实体确定为目标实体,得到至少一个目标实体。
子步骤2043、根据多个属性候选的打分结果,从多个属性候选中确定出至少一个目标属性。
信息提取系统对多个属性候选进行打分后,可以根据多个属性候选的打分结果,从多个属性候选中确定出至少一个目标属性。示例地,请参考图2-12,其示出了图2-1所示实施例提供的一种根据属性候选的打分结果确定目标属性的方法流程图,参见图2-12,该方法可以包括:
子步骤20431、获取达到打分终止条件时,多个属性候选中的每个属性候选的最终得分。
信息提取系统可以获取达到打分终止条件时,多个属性候选中的每个属性候选的最终得分。可选地,在打分的过程中,信息提取系统可以记录每次打分时每个属性候选的得分,信息提取系统可以通过读取最后一次为每个属性候选打分的得分,来获取每个属性候选的最终得分。示例地,信息提取系统获取属性候选a1,a2,a3,...,an中的每个属性候选的最终得分。
子步骤20432、按照最终得分的高低,对多个属性候选进行排序。
获取到每个属性候选的最终得分后,信息提取系统可以按照最终得分的高低,对多个属性候选进行排序。可选地,信息提取系统按照最终得分从高到低,对多个属性候选进行排序。示例地,信息提取系统按照最终得分从高到低,对属性候选a1,a2,a3,...,an进行排序,该过程的具体实现方式可以参考相关技术,本发明实施例在此不再赘述。
子步骤20433、将多个属性候选中,最终得分大于预设属性得分阈值的属性候选确定为目标属性,得到至少一个目标属性。
其中,预设属性得分阈值可以根据实际情况设置,示例地,预设属性得分 阈值为0.5,信息提取系统可以将多个属性候选a1,a2,a3,...,an中,最终得分大于0.5的属性候选确定为目标属性,得到至少一个目标属性。
步骤205、根据至少一个目标实体和至少一个目标属性建立结构化文本。
信息提取系统确定出至少一个目标实体和至少一个目标属性后,可以根据至少一个目标实体和至少一个目标属性建立结构化文本。示例地,请参考图2-13,其示出了图2-1所示实施例提供的一种根据目标实体和目标属性建立结构化文本的方法流程图,参见图2-13,该方法包括:
子步骤2051、将至少一个目标实体存储至目标实体集,目标实体集用于记录目标类别的实体。
信息提取系统可以维护目标实体集,该目标实体集用于记录目标类别的实体。信息提取系统可以将确定出的至少一个目标实体存储至目标实体集,该过程的具体实现方式可以参考相关技术,本发明实施例在此不再赘述。
子步骤2052、将至少一个目标属性存储至与目标实体集关联的目标属性集,目标属性集用于记录目标类别的实体的属性。
信息提取系统可以维护与目标实体集关联的目标属性集,该目标属性集用于记录目标类别的实体的属性。信息提取系统可以将确定出的至少一个目标属性存储至目标属性集,该过程的具体实现方式可以参考相关技术,本发明实施例在此不再赘述。
需要说明的是,将至少一个目标实体存储至目标实体集,将至少一个目标属性存储至与目标实体集关联的目标属性集后,就可以得到结构化文本。
还需要说明的是,当目标实体集和目标属性集不存在时,信息提取系统可以先建立目标实体集和目标属性集,然后将至少一个目标实体存储至目标实体集,将至少一个目标属性存储至与目标实体集关联的目标属性集,本发明实施例在此不再赘述。
综上所述,本发明实施例提供的信息提取方法,通过根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,根据多个实 体和多个属性候选,建立实体与属性的关联关系,根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性,由于目标实体和目标属性都是根据实体与属性的关联关系确定的,因此,解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果。
相关技术中,实体提取过程存在“语义漂移”的问题,而属性提取过程存在数据稀疏的问题,本发明实施例提供的信息提取方法,采用实体-属性关系图建模实体与属性的关联关系,并通过实体与属性的关联关系监督实体与属性的提取过程,从而实现实体与属性的联合提取。由于利用实体与属性的内在关联关系联合提取,因此,不仅可以有效地缓解实体提取面临的“语义漂移”问题,而且可以解决属性提取面临的数据稀疏的问题,提升提取的性能。
将非结构化文本转化为结构化文本可以便于人们发现潜在的规律或者知识,进而帮助人们理解数据,其中,从非结构化文本中提取给定类别的实体以及相关属性是将非结构化文本转化为结构化文本的必要步骤,因此,实体集扩展(英文:Entity Set Expansion)技术和属性提取技术受到学术界和工业界的广泛关注。实体集扩展是指根据给定类别的实体种子集从语料中提取给定类别的其他实体。属性提取是指从语料中提取给定类别的重要属性。
目前,大部分实体集扩展和属性提取方法集中在开放域。实体集扩展方法包括:基于分布的方法、基于模版的方法以及混合方法。基于分布的方法的主要思想是统计语料中实体候选的上下文,并利用这些上下文计算实体候选与实体种子的相似度,进而依据相似度排序并根据排序结果确定目标实体。基于模版的方法的主要思想是利用模版从语料中提取实体候选,然后对这些实体候选进行打分排序并根据排序结果确定目标实体。混合方法则采用基于分布的方法和基于模版的方法从不同的语料中提取实体候选,然后对这些实体候选进行融 合并打分排序并根据排序结果确定目标实体。属性提取方法通常采用基于分布的方法和基于模版的方法。目前在医疗领域,相关工作大都集中在医学命名实体识别(英文:Named Entity Recognition;简称:NER)方面。
目前的方法都将实体集扩展和属性提取当作两个单独的任务或者采用管道式的方法将两者连接起来。实体集扩展通常面临“语义漂移”问题(指在实体集扩展过程中将不属于给定类别的实体扩展进来,例如将实体“胰腺癌”扩展进类别“糖尿病”的集合中),而属性提取通常面临数据稀疏问题。采用管道式的方法将两者连接起来面临错误传递的问题(例如,在实体集扩展过程中产生的错误将引起属性提取过程产生错误),本发明实施例提供的信息提取方法,在进行实体候选和属性候选提取时,先建立了实体与属性的关联关系,然后根据实体与属性关联关系对实体候选和属性候选进行联合打分,并根据打分结果确定至少一个目标实体和至少一个目标属性,由于是进行联合打分的,因此,可以解决“语义漂移”问题,且进一步可以解决数据稀疏问题和错误传递的问题。
随着电子病历的迅速普及和医疗大数据时代的到来,大量的医学信息以非结构化(或半结构化)的文本形式存储于信息系统中。通过自然语言处理技术可以将这些非结构化(或半结构化)的医疗文本转化为包含重要医学信息的结构化文本。医生及科研人员可以从这些结构化的文本中发现有用的医学信息,从而提高医疗系统的运行质量,减少运行成本。图2-14是本发明实施例提供的一种信息提取方法的流程示意图,该流程示意图以信息提取方法应用于医学领域为例进行说明,参见图2-14,信息提取系统可以包括:输入单元、医学实体候选提取单元、属性候选提取单元、基于医学实体-属性关系图的候选联合排序单元和输出单元,输入单元可以向医学实体候选提取单元和属性候选提取单元输入医学文献和实体种子(图2-14中未写出),医学实体候选提取单元根据实体种子从医学文献中提取医学实体候选,并将提取到的医学实体候选存储在医 学实体候选集中,属性候选提取单元根据医学实体候选集中的医学实体候选和属性模板,从医学文献中提取属性候选,并将提取的属性候选存储在属性候选集中,之后,基于医学实体-属性关系图的候选联合排序单元根据实体种子、医学实体候选集中的医学实体候选和属性候选集中的属性候选建立实体-属性关系图,并基于实体-属性关系图对医学实体候选和属性候选进行打分并排序,并基于排序结果确定目标实体和目标属性,最终由输出单元将目标实体输出至医学实体集合,将目标属性输出至属性集合,得到结构化文本。
下述为本发明系统实施例,可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节,请参照本发明方法实施例。
请参考图3-1,其示出了本发明实施例提供的一种信息提取系统300的框图,该信息提取系统可以用于执行图1或图2-1所示的信息提取方法,参见图3-1,该信息提取系统300可以包括但不限于:
提取模块310,用于根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,实体种子集由属于目标类别的多个实体种子构成;
建立模块320,用于根据多个实体和多个属性候选,建立实体与属性的关联关系,多个实体包括多个实体种子和多个实体候选;
确定模块330,用于根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性。
综上所述,本发明实施例提供的信息提取系统,通过根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,根据多个实体和多个属性候选,建立实体与属性的关联关系,根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性,由于目标实体和目标属性都是根据实体与属性的关联关系确定的, 因此,解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果。
可选地,请参考图3-2,其示出了本发明实施例提供的一种确定模块330的框图,参见图3-2,该确定模块330包括:
打分子模块331,用于根据实体与属性的关联关系中,各个实体与各个属性的关联系数,对多个实体中的每个实体和多个属性候选中的每个属性候选进行打分;
第一确定子模块332,用于根据多个实体的打分结果,从多个实体中确定出至少一个目标实体;
第二确定子模块333,用于根据多个属性候选的打分结果,从多个属性候选中确定出至少一个目标属性。
可选地,实体与属性的关联关系以实体-属性关系图的形式表示,实体-属性关系图具有多个顶点和多条边,多个顶点中的每个顶点对应一个实体或一个属性候选,实体为实体种子或实体候选,多条边中的每条边为一个实体对应的顶点与一个属性候选对应的顶点的连线,每条边上具有一个权重,每条边上的权重用于表征位于每条边上的两个顶点对应的实体和属性候选的关联系数,请参考图3-3,其示出了本发明实施例提供的一种建立模块320的框图,参见图3-3,该建立模块320包括:
连接子模块321,用于将多个实体和多个属性候选中,存在关联关系的实体与属性候选连接,得到实体-属性关系图的多条边,多个实体和多个属性候选对应实体-属性关系图的多个顶点;
计算子模块322,用于计算每条边上的两个顶点对应的实体与属性候选的关联系数;
确定子模块323,用于将每条边上的两个顶点对应的实体与属性候选的关联系数,确定为每条边上的权重。
可选地,打分子模块331,用于:
在对多个实体中的每个实体和多个属性候选中的每个属性候选进行打分时,根据实体-属性关系图、多个属性候选中的每个属性候选在t时刻的得分和多个实体中的每个实体对应的实体打分系数,分别对多个实体中的每个实体进行打分,实体打分系数由实体与属性的关联系数确定,
根据实体-属性关系图、多个实体中的每个实体在t时刻的得分和多个属性候选中的每个属性候选对应的属性打分系数,分别对多个属性候选中的每个属性候选进行打分,属性打分系数由实体与属性的关联系数确定;
重复执行上述打分的步骤直至达到打分终止条件。
可选地,打分子模块331,用于:
根据实体-属性关系图和多个属性候选中的每个属性候选在t时刻的得分,采用实体打分公式分别对多个实体中的每个实体进行打分;
根据实体-属性关系图和多个实体中的每个实体在t时刻的得分,采用属性打分公式分别对多个属性候选中的每个属性候选进行打分。
St+1(ei)表示多个实体中的实体ei在t+1时刻的得分,St(aj)表示多个属性候选中的属性候选aj在t时刻的得分,为实体打分系数,wi,j表示实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,wk,j表示实体-属性关系图中实体ek对应的顶点与属性候选aj对应的顶点之间的边上的权重,j的取值等于实体-属性关系图中包括实体ei对应的顶点的边的条数,k的取值等于实体-属性关系图中包括属性候选aj对应的顶点的边的条数,∑表示求和;
St+1(aj)表示多个属性候选中的属性候选aj在t+1时刻的得分,St(ei)表示多个实体中的实体ei在t时刻的得分,为属性打分系数,wi,p表示实体-属性关系图中实体ei对应的顶点与属性候选ap对应的顶点之间的边上的权重,i的取值等于实体-属性关系图中包括属性候选aj对应的顶点的边的条数,p的取值等于实体-属性关系图中包括实体ei对应的顶点的边的条数。
可选地,打分终止条件包括:
多个实体中的每个实体的得分收敛,且多个属性候选中的每个属性候选的得分收敛;或者,
多个实体中的每个实体的打分次数大于预设打分次数,且多个属性候选中的每个属性候选的打分次数大于预设打分次数。
可选地,第一确定子模块332,用于:
获取达到打分终止条件时,多个实体中的每个实体的最终得分;
按照最终得分的高低,对多个实体进行排序;
将多个实体中,最终得分大于预设实体得分阈值的实体确定为目标实体,得到至少一个目标实体;
第二确定子模块333,用于:
获取达到打分终止条件时,多个属性候选中的每个属性候选的最终得分;
按照最终得分的高低,对多个属性候选进行排序;
将多个属性候选中,最终得分大于预设属性得分阈值的属性候选确定为目标属性,得到至少一个目标属性。
可选地,请参考图3-4,其示出了本发明实施例提供的一种提取模块310的框图,参见图3-4,该提取模块310包括:
第一提取子模块311,用于根据实体种子集中的每个实体种子,从目标语料中提取实体提取模板,得到多个实体提取模板;
第二提取子模块312,用于根据多个实体提取模板中的每个实体提取模板,从目标语料中提取实体候选,得到多个实体候选;
第三提取子模块313,用于根据预设属性提取模板和多个实体候选中的每个实体候选,从目标语料中提取属性候选,得到多个属性候选。
可选地,第一提取子模块311,用于:
根据实体种子集中的每个实体种子,以第一预设字符串长度从目标语料中搜索与每个实体种子相关的第一字符串,与每个实体种子相关的第一字符串包括每个实体种子和每个实体种子的属性;
根据与实体种子集中的每个实体种子相关的第一字符串,确定每个实体种子对应的实体提取模板,得到多个实体提取模板,每个实体种子对应的实体提取模板包括通用实体符号和每个实体种子的属性。
可选地,第二提取子模块312,用于:
以第二预设字符串长度从目标语料中搜索与多个实体提取模板中的每个实体提取模板相关的第二字符串,与每个实体提取模板相关的第二字符串包括实体候选和每个实体提取模板对应的实体种子的属性;
从与多个实体提取模板中的每个实体提取模板相关的第二字符串中,提取实体候选,得到多个实体候选。
可选地,第三提取子模块313,用于:
根据多个实体候选中的每个实体候选,以第三字符串长度从目标语料中搜索与每个实体候选和预设属性提取模板都相关的第三字符串,与每个实体候选和预设属性提取模板都相关的第三字符串包括每个实体候选和每个实体候选的属性;
从与多个实体候选中的每个实体候选相关的第三字符串中,提取多个实体候选中的每个实体候选的属性,得到多个属性候选。
可选地,目标语料包括:至少一个非结构化的医学文本,实体种子集中的实体种子为医学实体。
可选地,请参考图3-5,其示出了本发明实施例提供的另一种信息提取系统300的框图,参见图3-5,在图3-1的基础上,该信息提取系统300还包括:
第一存储模块340,用于将至少一个目标实体存储至目标实体集,目标实体集用于记录目标类别的实体;
第二存储模块350,用于将至少一个目标属性存储至与目标实体集关联的目标属性集,目标属性集用于记录目标类别的实体的属性。
可选地,计算子模块322,用于:
根据每条边上的两个顶点对应的实体与属性候选在目标语料中的上下文,计算每条边上的两个顶点对应的实体与属性候选的关联系数;或者,
通过神经网络将每条边上的两个顶点对应的实体与属性候选映射到指定语义空间,在指定语义空间中计算每条边上的两个顶点对应的实体与属性候选的关联系数;或者,
将每条边上的两个顶点对应的实体与属性候选映射到指定概念空间,在指定概念空间中计算每条边上的两个顶点对应的实体与属性候选的关联系数。
综上所述,本发明实施例提供的信息提取系统,通过根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,根据多个实体和多个属性候选,建立实体与属性的关联关系,根据实体与属性的关联关系,分别从多个实体中确定出至少一个目标实体,从多个属性候选中确定出至少一个目标属性,由于目标实体和目标属性都是根据实体与属性的关联关系确定的,因此,解决了信息提取过程存在“语义漂移”的问题,达到了避免信息提取过程存在“语义漂移”的效果。
需要说明的是:上述实施例提供的信息提取系统在提取信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的信息提取系统与信 息提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种信息提取方法,其特征在于,所述方法包括:
根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;
根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;
根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,
其特征在于,所述根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,包括:
根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;
根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;
根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性;
所述实体与属性的关联关系以实体-属性关系图的形式表示,所述实体-属性关系图具有多个顶点和多条边,所述多个顶点中的每个顶点对应一个实体或一个所述属性候选,所述实体为所述实体种子或所述实体候选,所述多条边中的每条边为一个所述实体对应的顶点与一个所述属性候选对应的顶点的连线,所述每条边上具有一个权重,所述每条边上的权重用于表征位于所述每条边上的两个顶点对应的实体和属性候选的关联系数;
所述根据多个实体和所述多个属性候选,建立实体与属性的关联关系,包括:
将所述多个实体和所述多个属性候选中,存在关联关系的实体与属性候选连接,得到所述实体-属性关系图的多条边,所述多个实体和所述多个属性候选对应所述实体-属性关系图的多个顶点;
计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
将所述每条边上的两个顶点对应的实体与属性候选的关联系数,确定为所述每条边上的权重;
所述根据实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分,包括:
在对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分时,根据所述实体-属性关系图、所述多个属性候选中的每个属性候选在t时刻的得分和所述多个实体中的每个实体对应的实体打分系数,分别对所述多个实体中的每个实体进行打分,所述实体打分系数由实体与属性的关联系数确定,
根据所述实体-属性关系图、所述多个实体中的每个实体在t时刻的得分和所述多个属性候选中的每个属性候选对应的属性打分系数,分别对所述多个属性候选中的每个属性候选进行打分,所述属性打分系数由实体与属性的关联系数确定;以及
重复执行上述打分的步骤直至达到打分终止条件。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述实体-属性关系图、所述多个属性候选中的每个属性候选在t时刻的得分和所述多个实体中的每个实体对应的实体打分系数,分别对所述多个实体中的每个实体进行打分,包括:
根据所述实体-属性关系图和所述多个属性候选中的每个属性候选在t时刻的得分,采用实体打分公式分别对所述多个实体中的每个实体进行打分;
所述根据所述实体-属性关系图、所述多个实体中的每个实体在t时刻的得分和所述多个属性候选中的每个属性候选对应的属性打分系数,分别对所述多个属性候选中的每个属性候选进行打分,包括:
根据所述实体-属性关系图和所述多个实体中的每个实体在t时刻的得分,采用属性打分公式分别对所述多个属性候选中的每个属性候选进行打分。
3.根据权利要求2所述的方法,其特征在于,
所述St+1(ei)表示所述多个实体中的实体ei在t+1时刻的得分,所述St(aj)表示所述多个属性候选中的属性候选aj在t时刻的得分,所述为所述实体打分系数,所述wi,j表示所述实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述wk,j表示所述实体-属性关系图中实体ek对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述j的取值等于所述实体-属性关系图中包括所述实体ei对应的顶点的边的条数,所述k的取值等于所述实体-属性关系图中包括所述属性候选aj对应的顶点的边的条数,所述∑表示求和;
4.根据权利要求3所述的方法,其特征在于,所述打分终止条件包括:
所述多个实体中的每个实体的得分收敛,且所述多个属性候选中的每个属性候选的得分收敛;或者,
所述多个实体中的每个实体的打分次数大于预设打分次数,且所述多个属性候选中的每个属性候选的打分次数大于预设打分次数。
5.根据权利要求1所述的方法,其特征在于,
所述根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体,包括:
获取达到所述打分终止条件时,所述多个实体中的每个实体的最终得分;
按照最终得分的高低,对所述多个实体进行排序;
将所述多个实体中,最终得分大于预设实体得分阈值的实体确定为目标实体,得到所述至少一个目标实体;
所述根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性,包括:
获取达到所述打分终止条件时,所述多个属性候选中的每个属性候选的最终得分;
按照最终得分的高低,对所述多个属性候选进行排序;
将所述多个属性候选中,最终得分大于预设属性得分阈值的属性候选确定为目标属性,得到所述至少一个目标属性。
6.根据权利要求1至5任一所述的方法,其特征在于,所述根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,包括:
根据所述实体种子集中的每个实体种子,从所述目标语料中提取实体提取模板,得到多个实体提取模板;
根据所述多个实体提取模板中的每个实体提取模板,从所述目标语料中提取实体候选,得到所述多个实体候选;
根据预设属性提取模板和所述多个实体候选中的每个实体候选,从所述目标语料中提取属性候选,得到所述多个属性候选。
7.根据权利要求6所述的方法,其特征在于,所述根据所述实体种子集中的每个实体种子,从所述目标语料中提取实体提取模板,得到多个实体提取模板,包括:
根据所述实体种子集中的每个实体种子,以第一预设字符串长度从所述目标语料中搜索与所述每个实体种子相关的第一字符串,与所述每个实体种子相关的第一字符串包括所述每个实体种子和所述每个实体种子的属性;
根据与所述实体种子集中的每个实体种子相关的第一字符串,确定所述每个实体种子对应的实体提取模板,得到所述多个实体提取模板,所述每个实体种子对应的实体提取模板包括通用实体符号和所述每个实体种子的属性。
8.根据权利要求7所述的方法,其特征在于,所述根据所述多个实体提取模板中的每个实体提取模板,从所述目标语料中提取实体候选,得到所述多个实体候选,包括:
以第二预设字符串长度从所述目标语料中搜索与所述多个实体提取模板中的每个实体提取模板相关的第二字符串,与所述每个实体提取模板相关的第二字符串包括实体候选和所述每个实体提取模板对应的实体种子的属性;
从与所述多个实体提取模板中的每个实体提取模板相关的第二字符串中,提取实体候选,得到所述多个实体候选。
9.根据权利要求8所述的方法,其特征在于,所述根据预设属性提取模板和所述多个实体候选中的每个实体候选,从所述目标语料中提取属性候选,得到所述多个属性候选,包括:
根据所述多个实体候选中的每个实体候选,以第三字符串长度从所述目标语料中搜索与所述每个实体候选和所述预设属性提取模板都相关的第三字符串,与所述每个实体候选和所述预设属性提取模板都相关的第三字符串包括所述每个实体候选和所述每个实体候选的属性;
从与所述多个实体候选中的每个实体候选相关的第三字符串中,提取所述多个实体候选中的每个实体候选的属性,得到所述多个属性候选。
10.根据权利要求1至5任一所述的方法,其特征在于,所述目标语料包括:至少一个非结构化的医学文本,所述实体种子集中的实体种子为医学实体。
11.根据权利要求1至5任一所述的方法,其特征在于,在所述根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性之后,所述方法还包括:
将所述至少一个目标实体存储至目标实体集,所述目标实体集用于记录所述目标类别的实体;
将所述至少一个目标属性存储至与所述目标实体集关联的目标属性集,所述目标属性集用于记录所述目标类别的实体的属性。
12.根据权利要求1所述的方法,其特征在于,所述计算所述每条边上的两个顶点对应的实体与属性候选的关联系数,包括:
根据所述每条边上的两个顶点对应的实体与属性候选在所述目标语料中的上下文,计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
通过神经网络将所述每条边上的两个顶点对应的实体与属性候选映射到指定语义空间,在所述指定语义空间中计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
将所述每条边上的两个顶点对应的实体与属性候选映射到指定概念空间,在所述指定概念空间中计算所述每条边上的两个顶点对应的实体与属性候选的关联系数。
13.一种信息提取系统,其特征在于,所述系统包括:
提取模块,用于根据实体种子集中的多个实体种子,从目标语料中提取多个实体候选和多个属性候选,所述实体种子集由属于目标类别的多个实体种子构成;
建立模块,用于根据多个实体和所述多个属性候选,建立实体与属性的关联关系,所述多个实体包括所述多个实体种子和所述多个实体候选;
确定模块,用于根据所述实体与属性的关联关系,分别从所述多个实体中确定出至少一个目标实体,从所述多个属性候选中确定出至少一个目标属性,
所述确定模块,包括:
打分子模块,用于根据所述实体与属性的关联关系中,各个实体与各个属性的关联系数,对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分;
第一确定子模块,用于根据所述多个实体的打分结果,从所述多个实体中确定出所述至少一个目标实体;
第二确定子模块,用于根据所述多个属性候选的打分结果,从所述多个属性候选中确定出所述至少一个目标属性;
所述实体与属性的关联关系以实体-属性关系图的形式表示,所述实体-属性关系图具有多个顶点和多条边,所述多个顶点中的每个顶点对应一个实体或一个所述属性候选,所述实体为所述实体种子或所述实体候选,所述多条边中的每条边为一个所述实体对应的顶点与一个所述属性候选对应的顶点的连线,所述每条边上具有一个权重,所述每条边上的权重用于表征位于所述每条边上的两个顶点对应的实体和属性候选的关联系数,所述建立模块,包括:
连接子模块,用于将所述多个实体和所述多个属性候选中,存在关联关系的实体与属性候选连接,得到所述实体-属性关系图的多条边,所述多个实体和所述多个属性候选对应所述实体-属性关系图的多个顶点;
计算子模块,用于计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
确定子模块,用于将所述每条边上的两个顶点对应的实体与属性候选的关联系数,确定为所述每条边上的权重;
所述打分子模块,用于:
在对所述多个实体中的每个实体和所述多个属性候选中的每个属性候选进行打分时,根据所述实体-属性关系图、所述多个属性候选中的每个属性候选在t时刻的得分和所述多个实体中的每个实体对应的实体打分系数,分别对所述多个实体中的每个实体进行打分,所述实体打分系数由实体与属性的关联系数确定,
根据所述实体-属性关系图、所述多个实体中的每个实体在t时刻的得分和所述多个属性候选中的每个属性候选对应的属性打分系数,分别对所述多个属性候选中的每个属性候选进行打分,所述属性打分系数由实体与属性的关联系数确定;以及
重复执行上述打分的步骤直至达到打分终止条件。
14.根据权利要求13所述的系统,其特征在于,所述打分子模块,用于:
根据所述实体-属性关系图和所述多个属性候选中的每个属性候选在t时刻的得分,采用实体打分公式分别对所述多个实体中的每个实体进行打分;
根据所述实体-属性关系图和所述多个实体中的每个实体在t时刻的得分,采用属性打分公式分别对所述多个属性候选中的每个属性候选进行打分。
15.根据权利要求14所述的系统,其特征在于,
所述St+1(ei)表示所述多个实体中的实体ei在t+1时刻的得分,所述St(aj)表示所述多个属性候选中的属性候选aj在t时刻的得分,所述为所述实体打分系数,所述wi,j表示所述实体-属性关系图中实体ei对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述wk,j表示所述实体-属性关系图中实体ek对应的顶点与属性候选aj对应的顶点之间的边上的权重,所述j的取值等于所述实体-属性关系图中包括所述实体ei对应的顶点的边的条数,所述k的取值等于所述实体-属性关系图中包括所述属性候选aj对应的顶点的边的条数,所述∑表示求和;
16.根据权利要求15所述的系统,其特征在于,所述打分终止条件包括:
所述多个实体中的每个实体的得分收敛,且所述多个属性候选中的每个属性候选的得分收敛;或者,
所述多个实体中的每个实体的打分次数大于预设打分次数,且所述多个属性候选中的每个属性候选的打分次数大于预设打分次数。
17.根据权利要求13所述的系统,其特征在于,
所述第一确定子模块,用于:
获取达到所述打分终止条件时,所述多个实体中的每个实体的最终得分;
按照最终得分的高低,对所述多个实体进行排序;
将所述多个实体中,最终得分大于预设实体得分阈值的实体确定为目标实体,得到所述至少一个目标实体;
所述第二确定子模块,用于:
获取达到所述打分终止条件时,所述多个属性候选中的每个属性候选的最终得分;
按照最终得分的高低,对所述多个属性候选进行排序;
将所述多个属性候选中,最终得分大于预设属性得分阈值的属性候选确定为目标属性,得到所述至少一个目标属性。
18.根据权利要求13至17任一所述的系统,其特征在于,
所述提取模块,包括:
第一提取子模块,用于根据所述实体种子集中的每个实体种子,从所述目标语料中提取实体提取模板,得到多个实体提取模板;
第二提取子模块,用于根据所述多个实体提取模板中的每个实体提取模板,从所述目标语料中提取实体候选,得到所述多个实体候选;
第三提取子模块,用于根据预设属性提取模板和所述多个实体候选中的每个实体候选,从所述目标语料中提取属性候选,得到所述多个属性候选。
19.根据权利要求18所述的系统,其特征在于,
所述第一提取子模块,用于:
根据所述实体种子集中的每个实体种子,以第一预设字符串长度从所述目标语料中搜索与所述每个实体种子相关的第一字符串,与所述每个实体种子相关的第一字符串包括所述每个实体种子和所述每个实体种子的属性;
根据与所述实体种子集中的每个实体种子相关的第一字符串,确定所述每个实体种子对应的实体提取模板,得到所述多个实体提取模板,所述每个实体种子对应的实体提取模板包括通用实体符号和所述每个实体种子的属性。
20.根据权利要求19所述的系统,其特征在于,
所述第二提取子模块,用于:
以第二预设字符串长度从所述目标语料中搜索与所述多个实体提取模板中的每个实体提取模板相关的第二字符串,与所述每个实体提取模板相关的第二字符串包括实体候选和所述每个实体提取模板对应的实体种子的属性;
从与所述多个实体提取模板中的每个实体提取模板相关的第二字符串中,提取实体候选,得到所述多个实体候选。
21.根据权利要求20所述的系统,其特征在于,
所述第三提取子模块,用于:
根据所述多个实体候选中的每个实体候选,以第三字符串长度从所述目标语料中搜索与所述每个实体候选和所述预设属性提取模板都相关的第三字符串,与所述每个实体候选和所述预设属性提取模板都相关的第三字符串包括所述每个实体候选和所述每个实体候选的属性;
从与所述多个实体候选中的每个实体候选相关的第三字符串中,提取所述多个实体候选中的每个实体候选的属性,得到所述多个属性候选。
22.根据权利要求13至17任一所述的系统,其特征在于,所述目标语料包括:至少一个非结构化的医学文本,所述实体种子集中的实体种子为医学实体。
23.根据权利要求13至17任一所述的系统,其特征在于,所述系统还包括:
第一存储模块,用于将所述至少一个目标实体存储至目标实体集,所述目标实体集用于记录所述目标类别的实体;
第二存储模块,用于将所述至少一个目标属性存储至与所述目标实体集关联的目标属性集,所述目标属性集用于记录所述目标类别的实体的属性。
24.根据权利要求13所述的系统,其特征在于,所述计算子模块,用于:
根据所述每条边上的两个顶点对应的实体与属性候选在所述目标语料中的上下文,计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
通过神经网络将所述每条边上的两个顶点对应的实体与属性候选映射到指定语义空间,在所述指定语义空间中计算所述每条边上的两个顶点对应的实体与属性候选的关联系数;
或者,
将所述每条边上的两个顶点对应的实体与属性候选映射到指定概念空间,在所述指定概念空间中计算所述每条边上的两个顶点对应的实体与属性候选的关联系数。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610920441.2A CN107977368B (zh) | 2016-10-21 | 2016-10-21 | 信息提取方法及系统 |
PCT/CN2017/093321 WO2018072501A1 (en) | 2016-10-21 | 2017-07-18 | Information extraction apparatus and method |
EP17826411.5A EP3529720A4 (en) | 2016-10-21 | 2017-07-18 | INFORMATION EXTRACTION DEVICE AND METHOD |
US15/741,732 US10546065B2 (en) | 2016-10-21 | 2017-07-18 | Information extraction apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610920441.2A CN107977368B (zh) | 2016-10-21 | 2016-10-21 | 信息提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107977368A CN107977368A (zh) | 2018-05-01 |
CN107977368B true CN107977368B (zh) | 2021-12-10 |
Family
ID=62003807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610920441.2A Active CN107977368B (zh) | 2016-10-21 | 2016-10-21 | 信息提取方法及系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10546065B2 (zh) |
EP (1) | EP3529720A4 (zh) |
CN (1) | CN107977368B (zh) |
WO (1) | WO2018072501A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902147A (zh) * | 2019-02-13 | 2019-06-18 | 北京百度网讯科技有限公司 | 用于查询处理的方法、装置、设备和存储介质 |
US11263400B2 (en) * | 2019-07-05 | 2022-03-01 | Google Llc | Identifying entity attribute relations |
CN110825839B (zh) * | 2019-11-07 | 2023-07-21 | 成都国腾实业集团有限公司 | 一种对文本信息中目标的关联关系分析方法 |
CN113869050A (zh) * | 2020-06-30 | 2021-12-31 | 阿里巴巴集团控股有限公司 | 一种文本信息处理方法、装置、电子设备 |
CN116737924B (zh) * | 2023-04-27 | 2024-06-25 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
CN117077649B (zh) * | 2023-10-16 | 2024-01-09 | 之江实验室 | 一种生成医疗文本提取模版方法、装置、介质及设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182029B1 (en) * | 1996-10-28 | 2001-01-30 | The Trustees Of Columbia University In The City Of New York | System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters |
US6711585B1 (en) * | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
CN100589100C (zh) * | 2004-03-02 | 2010-02-10 | 微软公司 | 用基于图表的分级来分级文本中单词和概念的方法和系统 |
US7430504B2 (en) * | 2004-03-02 | 2008-09-30 | Microsoft Corporation | Method and system for ranking words and concepts in a text using graph-based ranking |
US7685141B2 (en) * | 2007-06-06 | 2010-03-23 | Yahoo! Inc. | Connection sub-graphs in entity relationship graphs |
CN102298588B (zh) | 2010-06-25 | 2014-04-30 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
US10068022B2 (en) * | 2011-06-03 | 2018-09-04 | Google Llc | Identifying topical entities |
CN102360394B (zh) | 2011-10-27 | 2013-01-09 | 北京邮电大学 | 一种基于本体词法信息和语义信息的本体匹配方法 |
CN102495892A (zh) | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
US10146865B2 (en) * | 2013-10-04 | 2018-12-04 | Orions Digital Systems, Inc. | Tagonomy—a system and method of semantic web tagging |
CN103678703B (zh) * | 2013-12-30 | 2017-01-11 | 中国科学院自动化研究所 | 一种借助图随机游走的开放类别命名实体抽取方法及装置 |
CN104679518B (zh) * | 2015-03-10 | 2018-04-27 | 中国联合网络通信集团有限公司 | 一种实现物联网语义建模的方法及装置 |
US10140290B2 (en) * | 2016-09-20 | 2018-11-27 | International Business Machines Corporation | Message tone evaluation in written media |
-
2016
- 2016-10-21 CN CN201610920441.2A patent/CN107977368B/zh active Active
-
2017
- 2017-07-18 WO PCT/CN2017/093321 patent/WO2018072501A1/en unknown
- 2017-07-18 US US15/741,732 patent/US10546065B2/en active Active
- 2017-07-18 EP EP17826411.5A patent/EP3529720A4/en not_active Withdrawn
Non-Patent Citations (3)
Title |
---|
Feature Selection and Weighting Method Based on Similarity Rough Set for CBR;Jin Tao等;《2006 IEEE International Conference on Service Operations and Logistics, and Informatics》;20070312;第948-952页 * |
Reducing Semantic Drift in Bootstrapping for Entity Relation Extraction;Chen Sijia等;《Proceedings 2013 International Conference on Mechatronic Sciences, Electric Engineering and Computer (MEC)》;20140828;第1947-1950页 * |
基于统计的词汇级语义相关计算研究;孙叔琦;《中国博士学位论文全文数据库 信息科技辑》;20150215;I138-38 * |
Also Published As
Publication number | Publication date |
---|---|
US20190073355A1 (en) | 2019-03-07 |
EP3529720A1 (en) | 2019-08-28 |
EP3529720A4 (en) | 2020-04-22 |
CN107977368A (zh) | 2018-05-01 |
US10546065B2 (en) | 2020-01-28 |
WO2018072501A1 (en) | 2018-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107977368B (zh) | 信息提取方法及系统 | |
WO2017162134A1 (zh) | 用于文本处理的电子设备和方法 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
CN107436864A (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
CN113535974B (zh) | 诊断推荐方法及相关装置、电子设备、存储介质 | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
CN104750820A (zh) | 一种语料库的过滤方法及装置 | |
CN105760363B (zh) | 文本文件的词义消歧方法及装置 | |
CN109508460B (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
CN114707003B (zh) | 一种论文作者姓名消歧的方法、设备及储存介质 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN116246279A (zh) | 一种基于clip背景知识的图文特征融合方法 | |
CN112836019B (zh) | 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 | |
CN118035405A (zh) | 一种基于大模型的知识库问答构建方法及装置 | |
CN118036734A (zh) | 一种基于大语言模型的非结构化文本数据知识抽取方法 | |
KR20170094063A (ko) | 의미 기반 명사 유사도 계산 장치 및 방법 | |
JP2017068742A (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
US20220156611A1 (en) | Method and apparatus for entering information, electronic device, computer readable storage medium | |
Aktas et al. | Text classification via network topology: A case study on the holy quran | |
Ahnaf et al. | An improved extrinsic monolingual plagiarism detection approach of the Bengali text. | |
Desai et al. | A Survey On Automatic Subjective Answer Evaluation | |
CN114398489A (zh) | 一种基于Transformer的实体关系联合抽取方法、介质及系统 | |
CN112925961A (zh) | 一种基于企业实体的智能问答方法及装置 | |
CN115358239B (zh) | 一种命名实体和关系识别方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |