CN110162786A - 构建配置文件以及抽取结构化信息的方法、装置 - Google Patents
构建配置文件以及抽取结构化信息的方法、装置 Download PDFInfo
- Publication number
- CN110162786A CN110162786A CN201910329838.8A CN201910329838A CN110162786A CN 110162786 A CN110162786 A CN 110162786A CN 201910329838 A CN201910329838 A CN 201910329838A CN 110162786 A CN110162786 A CN 110162786A
- Authority
- CN
- China
- Prior art keywords
- attribute
- configuration file
- text
- information
- application field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims description 59
- 238000010276 construction Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 abstract description 4
- 210000004072 lung Anatomy 0.000 description 11
- 206010028980 Neoplasm Diseases 0.000 description 10
- 238000013136 deep learning model Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 210000001165 lymph node Anatomy 0.000 description 2
- 230000000116 mitigating effect Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种构建配置文件以及抽取结构化信息方法、装置,构建配置文件的方法为:确定构建的配置文件对应的应用领域;获取对应应用领域的候选句;获取对应应用领域的属性信息;根据候选句与属性信息构建对应应用领域的配置文件。抽取结构化信息的方法为:获取用户输入的待处理文本以及与待处理文本所属应用领域对应的配置文件;对待处理文本进行分词处理得到分词处理后的文本数据;根据配置文件中的候选句从文本数据中抽取目标语句;根据配置文件中的属性值从目标语句中抽取目标信息;根据配置文件中属性与属性值之间的对应关系将所抽取的目标信息添加到对应的属性中,得到对应待处理文本的结构化信息。本发明能够提升配置文件的生成效率。
Description
【技术领域】
本发明涉及自然语言处理技术领域,尤其涉及一种构建配置文件以及抽取结构化信息的方法、装置、设备和计算机存储介质。
【背景技术】
在各个领域中,普遍存在以自然语言记录的文本。我们把这类文本定义为无结构文本,如财报、新闻、病历等。同时在各个领域中,也普遍存在抽取结构化信息的需求。即从无结构文本中,提取一些结构化的属性值,如从财报中提取公司名称、从新闻中提取袭击事件的地点、从病历中提取患者的癌症分期情况等。但由于存在大量的无结构文本,很难直接通过人力进行结构化抽取工作,所以以计算机为基础的结构化抽取软件应运而生。
在现有技术中,结构化抽取软件需要由专业的开发人员进行编程开发;每一个结构化任务都需要进行单独开发;而在很多专业领域,开发人员还需要学习专业知识,所以很多时候现有技术满足不了结构化抽取的需求,存在结构化抽取软件的开发周期长、人力以及时间成本耗费大等问题。
【发明内容】
有鉴于此,本发明提供了一种构建配置文件的方法、装置、设备和计算机介质,能够缩短配置文件的开发周期,降低人力以及时间成本,提升了配置文件的生成效率。
本发明为解决技术问题所采用的技术方案是提供一种构建配置文件的方法,所述方法包括:确定所构建的配置文件对应的应用领域;获取对应所述应用领域的候选句;获取对应所述应用领域的属性信息,所述属性信息中包含属性以及各属性对应的属性值;根据所述候选句以及属性信息构建对应所述应用领域的配置文件,所述配置文件用于对属于所述应用领域的无结构文本进行结构化信息的抽取。
根据本发明一优选实施例,所述方法还包括:在所述配置文件中预设具有相同含义的属性值所对应的归一化值,以用于将多个具有相同含义的属性值转化为所对应的归一化值。
根据本发明一优选实施例,所述方法还包括:在所述配置文件中预设逻辑推理规则,所述逻辑推理规则中包含属性值之间的转换关系,以用于根据相应的属性值推理得到另一属性所对应的属性值。
根据本发明一优选实施例,所述方法还包括:在所述配置文件中预设从无结构文本中抽取目标语句以及目标信息的抽取方式。
本发明还提供一种抽取结构化信息的方法,所述方法包括:获取用户输入的待处理文本以及与所述待处理文本所属应用领域对应的配置文件;对所述待处理文本进行分词处理,得到分词处理后的文本数据;根据所述配置文件中的候选句,从所述文本数据中抽取目标语句;根据所述配置文件中的属性值,从所述目标语句中抽取目标信息;根据所述配置文件中属性与属性值之间的对应关系,将所抽取的目标信息添加到对应的属性中,从而得到对应所述待处理文本的结构化信息;其中所述配置文件由上述构建配置文件的方法预先构建。
根据本发明一优选实施例,在对所述待处理文本进行分词处理,得到分词处理后的文本数据之后,还包括:对所述文本数据中的各词语进行实体识别,并标注各词语的实体标签。
根据本发明一优选实施例,在将所抽取的目标信息添加到对应的属性中之前,还包括:若抽取得到了多个具有相同含义的目标信息,则根据所述配置文件中与该含义对应的归一化值,对多个具有相同含义的目标信息进行归一化处理。
根据本发明一优选实施例,在将抽取的目标信息添加到对应的字段中之后,还包括:确定同一属性中是否包含多个含义不同的目标信息;若是,则分别生成对应各个目标信息的属性描述信息,其中属性描述信息中包含对应的属性以及属性值标识;将含义不同的目标信息分别添加到所生成的属性描述信息中,从而得到对应所述待处理文本的结构化信息。
根据本发明一优选实施例,在得到对应所述待处理文本的结构化信息之后,还包括:根据所述配置文件中的逻辑推理规则,提取相应的目标信息并进行转化;将转化结果添加到对应的属性中,从而得到待处理文本的结构化信息。
本发明为解决技术问题所采用的技术方案是提供一种构建配置文件的装置,所述装置包括:设置单元,用于确定所构建的配置文件对应的应用领域;第一获取单元,用于获取对应所述应用领域的候选句;第二获取单元,用于获取对应所述应用领域的属性信息,所述属性信息中包含属性以及各属性对应的属性值;构建单元,用于根据所述候选句以及属性信息构建对应所述应用领域的配置文件,所述配置文件用于对属于所述应用领域的无结构文本进行结构化信息的抽取。
根据本发明一优选实施例,所述配置单元还执行:在所述配置文件中预设具有相同含义的属性值所对应的归一化值,以用于将多个具有相同含义的属性值转化为所对应的归一化值。
根据本发明一优选实施例,所述配置单元还执行:在所述配置文件中预设逻辑推理规则,所述逻辑推理规则中包含属性值之间的转换关系,以用于根据相应的属性值推理得到另一属性所对应的属性值。
根据本发明一优选实施例,所述配置单元还执行:在所述配置文件中预设从无结构文本中抽取目标语句以及目标信息的抽取方式。
本发明还提供一种抽取结构化信息的装置,所述装置包括:第三获取单元,用于获取用户输入的待处理文本以及与所述待处理文本所属应用领域对应的配置文件;预处理单元,用于对所述待处理文本进行分词处理,得到分词处理后的文本数据;第一抽取单元,用于根据所述配置文件中的候选句,从所述文本数据中抽取目标语句;第二抽取单元,用于根据所述配置文件中的属性值,从所述目标语句中抽取目标信息;建立单元,用于根据所述配置文件中属性与属性值之间的对应关系,将所抽取的目标信息添加到对应的属性中,从而得到对应所述待处理文本的结构化信息;其中所述配置文件由上述构建配置文件的装置预先构建。
根据本发明一优选实施例,所述预处理单元在对所述待处理文本进行分词处理,得到分词处理后的文本数据之后,还执行:对所述文本数据中的各词语进行实体识别,并标注各词语的实体标签。
根据本发明一优选实施例,所述建立单元在将所抽取的目标信息添加到对应的属性中之前,还执行:若抽取得到了多个具有相同含义的目标信息,则根据所述配置文件中与该含义对应的归一化值,对多个具有相同含义的目标信息进行归一化处理。
根据本发明一优选实施例,所述建立单元在将抽取的目标信息添加到对应的字段中之后,还执行:确定同一属性中是否包含多个含义不同的目标信息;若是,则分别生成对应各个目标信息的属性描述信息,其中属性描述信息中包含对应的属性以及属性值标识;将含义不同的目标信息分别添加到所生成的属性描述信息中,从而得到对应所述待处理文本的结构化信息。
根据本发明一优选实施例,所述建立单元在得到对应所述待处理文本的结构化信息之后,还执行:根据所述配置文件中的逻辑推理规则,提取相应的目标信息并进行转化;将转化结果添加到对应的属性中,从而得到待处理文本的结构化信息。
由以上内容可以看出,本发明通过对配置文件的应用领域进行设置,然后根据所获取的与所设置的应用领域对应的候选句以及属性信息,来构建用于抽取相应的应用领域的无结构文本的配置文件。这种方式无需较长的开发周期,也无需开发人员进行专业知识的学习,从而极大地提升了配置文件的生成效率。
【附图说明】
图1为本发明一实施例提供的一种构建配置文件的方法流程图;
图2为本发明一实施例提供的一种抽取结构化信息的方法流程图;
图3a为本发明一实施例提供的一种无结构文本的示意图;
图3b为本发明一实施例提供的结构化信息抽取结果的示意图;
图4为本发明一实施例提供的一种构建配置文件的装置结构图;
图5为本发明一实施例提供的一种抽取结构化信息的装置结构图;
图6为本发明一实施例提供的计算机系统/服务器的框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明一实施例提供的一种构建配置文件的方法流程图,如图1中所示,所述方法包括:
在101中,确定所构建的配置文件对应的应用领域。
在本步骤中,对所构建的配置文件设置对应的应用领域,即不同的配置文件会对应于不同的应用领域。这是因为,从无结构文本中抽取的结构化信息会因无结构文本的领域不同而不同,因此本步骤对配置文件所对应的应用领域进行确定,使得对应不同应用领域的配置文件能够对相应领域的无结构文本进行处理,从而进一步提升结构化信息抽取的准确性。
其中,本步骤可以根据用户的输入来确定配置文件对应的应用领域,例如在开始构建配置文件时,将用户所输入的领域信息作为该配置文件对应的应用领域;也可以在开始构建配置文件时,对各领域的标识信息进行展示,将用户所选择的领域作为该配置文件对应的应用领域。
可以理解的是,配置文件对应的应用领域可以为某一技术领域,例如医疗领域、金融领域或者科技领域等;也可以为某一技术领域中的某个分类领域,例如医疗领域中的CT报告、病理报告或者手术记录等。
举例来说,若本步骤确定配置文件的应用领域为医疗领域,则最终构建的配置文件用于医疗领域的无结构化文本的信息抽取;若本步骤确定配置文件的应用领域为金融领域,则最终构建的配置文件则用于金融领域的无结构化文本的信息抽取。
在102中,获取对应所述应用领域的候选句。
在本步骤中,根据步骤101中所设置的配置文件对应的应用领域,获取对应该应用领域的候选句。其中,本步骤中所获取的候选句为包含有抽取目标的句子,即候选句用于表明从何种句子中进行目标抽取。
具体地,本步骤可以将用户输入的句子作为对应配置文件的应用领域的候选句;也可以根据配置文件的应用领域进行搜索,将搜索得到的句子作为对应配置文件的应用领域的候选句。
另外,为了能够获取更为丰富的候选句,并减轻用户的工作量,本步骤在获取对应应用领域的候选句时,还可以包括以下内容:使用预设方法,对用户输入的候选句进行相似句检索,例如在网络上进行相似句检索,或者在多个文档中进行相似句检索;将检索得到的句子添加到对应应用领域的候选句中。另外,本步骤也可以对检索得到的句子进行展示,将用户从中所选择的句子添加到对应应用领域的候选句中。
在103中,获取对应所述应用领域的属性信息,所述属性信息中包含属性以及各属性对应的属性值。
在本步骤中,根据步骤101中所设置的配置文件对应的应用领域,获取对应该应用领域的属性信息,所获取的属性信息中包含属性以及各属性对应的属性值。其中,属性即为抽取得到的结构化信息对应的名称,属性值即为从无结构化文本中抽取得到的目标信息。
具体地,本步骤可以将用户所输入的属性及其对应的属性值作为对应配置文件的应用领域的属性信息,例如将用户输入的属性“病变数量”及其对应的属性值“单发”,作为对应医疗领域的某个属性信息。
由于具有相同含义的词语可能存在多种表述,因此为了能够获取更丰富的属性值,并减轻用户的工作量,本步骤在获取对应应用领域的属性值时,还可以包括以下内容:使用预设方法,对用户输入的属性值进行同义词检索,例如在网络上进行同义词检索,或者在多个文档中进行同义词检索;将检索得到的词语添加到对应应用领域的相应属性值中。另外,本步骤也可以对检索得到的词语进行展示,将用户从中所选择的词语添加添加到对应应用领域的属性值中。
可以理解的是,上述在进行相似句检索或同义词检索时,预设方法可以为精准匹配、模糊搜索或者编辑距离的方法;预设方法也可以为使用深度学习模型,即通过训练得到的深度学习模型产生表示句子或词语的语义向量,进而通过度量向量之间的相似度,来寻找相似句或同义词。
在104中,根据所述候选句以及属性信息构建对应所述应用领域的配置文件,所述配置文件用于对属于所述应用领域的无结构文本进行结构化信息的抽取。
在本步骤中,根据步骤102获取的候选句以及步骤103获取的属性信息,构建对应应用领域的配置文件,从而根据所构建的该配置文件对属于该应用领域的无结构文本进行结构化信息的抽取。
具体地,根据所构建的配置文件中的候选句,从无结构文本中抽取相应的句子;进而根据所构建的配置文件中的属性值,从所抽取的句子中抽取相应的词语;最后利用所抽取的词语及其对应的属性,得到该无结构文本的结构化信息。
可以理解的是,为了能够从无结构文本中获取更为丰富的结构化信息,本步骤在进行配置文件的构建时,还可以包含以下内容:在配置文件中预设逻辑推理规则,预设的逻辑推理规则中包含属性值之间的转化关系,以用于根据相应的属性值推理得到另一属性所对应的属性值。即本步骤通过在配置文件中预设逻辑推理规则,能够根据抽取得到的信息进一步获取未在无结构文本中直接体现的内容。
举例来说,若无结构文本“肿瘤CT报告”中未记录癌症分期,但记录了癌症侵犯程度和淋巴结情况,若配置文件中预设了根据癌症侵犯程度和淋巴结情况能够获取癌症分期的逻辑推理规则,则利用该逻辑推理规则,根据“肿瘤CT报告”中记录的癌症侵犯程度和淋巴结情况便能够得到该“肿瘤CT报告”中未记录的癌症分期的结构化信息。
另外,由于在同一属性下可能会获取多个具有相同含义的属性值,而为了使得最终得到的结构化信息更为精简,本步骤在进行配置文件的构建时,还可以包含以下内容:在配置文件中预设具有相同含义的属性值所对应的归一化值,以用于将多个具有相同含义的属性值转化为所对应的归一化值。
举例来说,若配置文件中预设了“左上肺”、“左上肺叶”以及“左肺叶”的归一化值为“左上肺”,若对无结构文本进行抽取得到的结构化信息为“病变部位:左上肺、左上肺叶”,则根据配置文件中预设的归一化值对上述结构化信息进行处理,使得最终得到的结构化信息为“病变部位:左上肺”。
可以理解的是,在所构建的配置文件中还可以进一步包含:预设从无结构化文本中抽取语句以及词语的抽取方式,例如预设字面匹配、正则匹配、实体标签匹配以及深度学习模型中的至少一种,以用于从无结构文本中抽取与配置文件中包含的候选句以及属性值对应的语句以及词语。
可以理解的是,上述在进行对应领域的配置文件的构建时,可以通过可视化的交互界面进行配置文件的构建,用户在该交互界面中可以对相应的信息进行输入、选择以及修改,例如在该交互界面中输入候选句、选择属性值、修改抽取方式等,得到用户自定义的对应于某一应用领域的配置文件,从而对属于该领域的无结构文本进行结构化信息的抽取。
图2为本发明一实施例提供的一种抽取结构化信息的方法流程图,如图2中所述,所述方法包括:
在201中,获取用户输入的待处理文本以及与所述待处理文本所属应用领域对应的配置文件。
在本步骤中,获取用户输入的待处理文本,例如财报、病历等无结构文本,并获取与用户所输入的待处理文本所属应用领域对应的配置文件。其中,与待处理文本所属应用领域对应的配置文件即为与待处理文本的所属领域相对应的配置文件。
具体地,本步骤在获取与待处理文本所属应用领域对应的配置文件时,可以采用以下方式:展示预先构建的各个配置文件,即展示对应于不同应用领域的各个配置文件;将用户从中所选择的配置文件作为与待处理文本所属应用领域对应的配置文件。
另外,本步骤在获取与待处理文本所属应用领域对应的配置文件时,还可以采用以下方式:获取待处理文本的所属领域;将与该所属领域匹配的应用领域对应的配置文件,作为与待处理文本所属应用领域对应的配置文件。
在202中,对所述待处理文本进行分词处理,得到分词处理后的文本数据。
在本步骤中,对步骤201中所获取的待处理文本进行分词处理,从而获取分词处理后的文本数据。另外,对待处理文本进行进行分词处理之后,还可以进一步包括标注分词得到的各词语的实体标签的处理。
而本步骤在标注分词得到的各词语的实体标签时,可以采用以下方式:根据待处理文本的所属领域,确定与该所属领域对应的标注模型或者实体词典;利用所确定的标注模型或者实体词典,对分词得到的各词语的实体标签进行标注。其中,与各领域对应的标注模型或者实体词典是预先得到的。
在203中,根据所述配置文件中的候选句,从所述文本数据中抽取目标语句。
在本步骤中,根据步骤201获取的配置文件中的候选句,从步骤202所得到的文本数据中抽取目标语句,所抽取的目标语句为包含目标信息的语句。而本步骤通过首先抽取包含目标信息的目标语句的方式,能够避免抽取得到不包含目标信息的语句,从而提升结构化信息的抽取效率。
其中,本步骤在根据配置文件抽取文本数据中的目标语句时,可以根据配置文件中预设的抽取方式,例如采用字面匹配、正则匹配、实体标签匹配以及预先训练得到的深度学习模型中的至少一种进行目标语句的抽取。若配置文件中未预先设置抽取方式,则本步骤可以根据现有的深度学习模型以及预设的抽取规则中的至少一种进行目标语句的抽取。
在204中,根据所述配置文件中的属性值,从所述目标语句中抽取目标信息。
在本步骤中,根据步骤201所获取的配置文件中的属性值,从步骤203中所抽取的目标语句中抽取目标信息。
其中,本步骤在根据配置文件抽取目标语句中的目标信息时,可以根据配置文件中预设的抽取方式,例如采用字面匹配、正则匹配、实体标签匹配以及预先训练得到的深度学习模型中的至少一种进行目标信息的抽取。若配置文件中未预先设置抽取方式,则本步骤可以根据现有的深度学习模型以及预设的抽取规则中的至少一种进行目标信息的抽取。
在205中,根据所述配置文件中属性与属性值之间的对应关系,将所抽取的目标信息添加到对应的属性中,从而得到对应所述待处理文本的结构化信息。
在本步骤中,根据配置文件中预设的属性与属性值之间的对应关系,将步骤204中抽取得到的目标信息添加到对应的属性中,从而得到对应待处理文本的结构化信息。
如图3中所示,图3a无结构化的医疗领域中的CT报告,图3b为抽取CT报告所得到的结构化信息结果的示意图,其中“病变数量”、“多发病变类型”等为预设的属性,而“单发”、“单侧”等则为从CT报告中抽取得到与各属性对应的属性值。
本步骤在将所抽取的目标信息添加到对应的属性之前,还可以包括以下内容:若抽取得到了多个具有相同含义的目标信息,则根据配置文件中与该含义对应的归一化值,对多个具有相同含义的目标信息进行归一化处理。
本步骤在将抽取的目标信息添加到对应的字段之后,还可以包括以下内容:确定同一属性中是否包含多个含义不同的目标信息;若是,则分别生成对应各个目标信息的属性描述信息,其中属性描述信息中包含对应的属性以及属性值标识,属性值标识可以为数字;将含义不同的目标信息分别添加到所生成的属性描述信息中,从而得到对应所述待处理文本的结构化信息。
举例来说,若属性“病变-病变部位”中包含“右肺下叶”以及“左肺下叶”两个不同含义的抽取信息,则分别生成“病变-病变部位0”以及“病变-病变部位1”的属性描述信息,并将“右肺下叶”添加到到“病变-病变部位0”中,将“左肺下叶”添加到到“病变-病变部位1”中。
另外,本步骤在将抽取的目标信息添加到对应的属性之后,还可以包括以下内容:将包含该目标信息的目标语句一同添加至对应的属性中,从而向用户更加清楚地展示所抽取的目标信息的来源语句。
可以理解的是,为了能够得到未在待处理文本中直接体现的结构化信息,本步骤在得到对应待处理文本的结构化信息之后,还可以包括以下内容:根据配置文件中预设的逻辑推理规则,对抽取得到的目标信息进行转化;将转化结果添加到对应的属性中,从而得到待处理文本的结构化信息。
图4为本发明一实施例提供的一种构建配置文件的装置结构图,如图4中所示,所述装置包括:设置单元41、第一获取单元42、第二获取单元43以及构建单元44。
设置单元41,用于确定所构建的配置文件对应的应用领域。
设置单元41对所构建的配置文件设置对应的应用领域,即不同的配置文件会对应于不同的应用领域。这是因为,从无结构文本中抽取的结构化信息会因无结构文本的领域不同而不同,因此设置单元41对配置文件所对应的应用领域进行设置,使得对应不同应用领域的配置文件能够对相应领域的无结构文本进行处理,从而进一步提升结构化信息抽取的准确性。
其中,设置单元41可以根据用户的输入来确定配置文件对应的应用领域,例如在开始构建配置文件时,将用户所输入的领域信息作为该配置文件对应的应用领域;也可以在开始构建配置文件时,对各领域的标识信息进行展示,将用户所选择的领域作为该配置文件对应的应用领域。
可以理解的是,配置文件对应的应用领域可以为某一技术领域,例如医疗领域、金融领域或者科技领域等;也可以为某一技术领域中的某个分类领域,例如医疗领域中的CT报告、病理报告或者手术记录等。
第一获取单元42,用于获取对应所述应用领域的候选句。
第一获取单元42根据设置单元41所确定的配置文件对应的应用领域,获取对应该应用领域的候选句。其中,第一获取单元42所获取的候选句为包含有抽取目标的句子,即候选句用于表明从何种句子中进行目标抽取。
具体地,第一获取单元42可以将用户输入的句子作为对应配置文件的应用领域的候选句;也可以根据配置文件的应用领域进行搜索,将搜索得到的句子作为对应配置文件的应用领域的候选句。
另外,为了能够获取更为丰富的候选句,并减轻用户的工作量,第一获取单元42在获取对应应用领域的候选句时,还可以包括以下内容:使用预设方法,对用户输入的候选句进行相似句检索;将检索得到的句子添加到对应应用领域的候选句中。另外,第一获取单元42也可以对检索得到的句子进行展示,将用户从中所选择的句子添加到对应应用领域的候选句中。
第二获取单元43,用于获取对应所述应用领域的属性信息,所述属性信息中包含属性以及各属性对应的属性值。
第二获取单元43根据设置单元41所确定的配置文件对应的应用领域,获取对应该应用领域的属性信息,所获取的属性信息中包含属性以及各属性对应的属性值。其中,属性即为抽取得到的结构化信息对应的名称,属性值即为从无结构化文本中抽取得到的目标信息。
具体地,第二获取单元43可以将用户所输入的属性及其对应的属性值作为对应配置文件的应用领域的属性信息。
由于具有相同含义的词语可能存在多种表述,因此为了能够获取更丰富的属性值,并减轻用户的工作量,第二获取单元43在获取对应应用领域的属性值时,还可以包括以下内容:使用预设方法,对用户输入的属性值进行同义词检索;将检索得到的词语添加到对应应用领域的相应属性值中。另外,第二获取单元43也可以对检索得到的词语进行展示,将用户从中所选择的词语添加添加到对应应用领域的属性值中。
可以理解的是,第一获取单元42或第二获取单元43在进行相似句检索或同义词检索时,预设方法可以为精准匹配、模糊搜索或者编辑距离的方法;预设方法也可以为使用深度学习模型,即通过训练得到的深度学习模型产生表示句子或词语的语义向量,进而通过度量向量之间的相似度,来寻找相似句或同义词。
构建单元44,用于根据所述候选句以及属性信息构建对应所述应用领域的配置文件,所述配置文件用于对属于所述应用领域的无结构文本进行结构化信息的抽取。
构建单元44根据第一获取单元42获取的候选句以及第二获取单元43获取的属性信息,构建对应应用领域的配置文件,从而根据所构建的该配置文件对属于该应用领域的无结构文本进行结构化信息的抽取。
可以理解的是,为了能够从无结构文本中获取更为丰富的结构化信息,构建单元44在进行配置文件的构建时,还可以包含以下内容:在配置文件中预设逻辑推理规则,预设的逻辑推理规则中包含属性值之间的转化关系,以用于根据相应的属性值推理得到另一属性所对应的属性值。即本步骤通过在配置文件中预设逻辑推理规则,能够根据抽取得到的信息进一步获取未在无结构文本中直接体现的内容。
另外,由于在同一属性下可能会获取多个具有相同含义的属性值,而为了使得最终得到的结构化信息更为精简,构建单元44在进行配置文件的构建时,还可以包含以下内容:在配置文件中预设具有相同含义的属性值所对应的归一化值,以用于将多个具有相同含义的属性值转化为所对应的归一化值。
可以理解的是,构建单元44在构建配置文件时,还可以进一步包含:预设从无结构文本中抽取语句以及词语的抽取方式,例如预设字面匹配、正则匹配、实体标签匹配以及深度学习模型中的至少一种,以用于从无结构化文本中抽取与配置文件中包含的候选句以及属性值对应的语句以及词语。
图5为本发明一实施例提供的一种抽取结构化信息的装置结构图,如图5中所述,所述装置包括:第三获取单元51、预处理单元52、第一抽取单元53、第二抽取单元54以及建立单元55。
第三获取单元51,用于获取用户输入的待处理文本以及与所述待处理文本所属应用领域对应的配置文件。
第三获取单元51获取用户输入的待处理文本,例如财报、病历等无结构化文本,并获取与用户所输入的待处理文本所属应用领域对应的配置文件。其中,与待处理文本所属应用领域对应的配置文件即为与待处理文本的所属领域相对应的配置文件。
具体地,第三获取单元51在获取与待处理文本所属应用领域对应的配置文件时,可以采用以下方式:展示预先构建的各个配置文件,即展示对应于不同应用领域的各个配置文件;将用户从中所选择的配置文件作为与待处理文本所属应用领域对应的配置文件。
另外,第三获取单元51在获取与待处理文本所属应用领域对应的配置文件时,还可以采用以下方式:获取待处理文本的所属领域;将与该所属领域匹配的应用领域对应的配置文件,作为与待处理文本所属应用领域对应的配置文件。
预处理单元52,用于对所述待处理文本进行分词处理,得到分词处理后的文本数据。
预处理单元52对第三获取单元51所获取的待处理文本进行分词处理,从而获取分词处理后的文本数据。另外,对待处理文本进行进行分词处理之后,预处理单元52还可以进一步执行标注分词得到的各词语的实体标签的处理。
而预处理单元52在标注分词得到的各词语的实体标签时,可以采用以下方式:根据待处理文本的所属领域,确定与该所属领域对应的标注模型或者实体词典;利用所确定的标注模型或者实体词典,对分词得到的各词语的实体标签进行标注。其中,与各领域对应的标注模型或者实体词典是预先得到的。
第一抽取单元53,用于根据所述配置文件中的候选句,从所述文本数据中抽取目标语句。
第一抽取单元53根据第三获取单元51获取的配置文件中的候选句,从预处理单元52所得到的文本数据中抽取目标语句,所抽取的目标语句为包含目标信息的语句。而第一抽取单元53通过首先抽取包含目标信息的目标语句的方式,能够避免抽取得到不包含目标信息的语句,从而提升结构化信息的抽取效率。
其中,第一抽取单元53在根据配置文件抽取文本数据中的目标语句时,可以根据配置文件中预设的抽取方式,例如采用字面匹配、正则匹配、实体标签匹配以及预先训练得到的深度学习模型中的至少一种进行目标语句的抽取。若配置文件中未预先设置抽取方式,则第一抽取单元53可以根据现有的深度学习模型以及预设的抽取规则中的至少一种进行目标语句的抽取。
第二抽取单元54,用于根据所述配置文件中的属性值,从所述目标语句中抽取目标信息。
第二抽取单元54根据第三获取单元51所获取的配置文件中的属性值,从第一抽取单元53中所抽取的目标语句中抽取目标信息。
其中,第二抽取单元54在根据配置文件抽取目标语句中的目标信息时,可以根据配置文件中预设的抽取方式,例如采用字面匹配、正则匹配、实体标签匹配以及预先训练得到的深度学习模型中的至少一种进行目标信息的抽取。若配置文件中未预先设置抽取方式,则第二抽取单元54可以根据现有的深度学习模型以及预设的抽取规则中的至少一种进行目标信息的抽取。
建立单元55,用于根据所述配置文件中属性与属性值之间的对应关系,将所抽取的目标信息添加到对应的属性中,从而得到对应所述待处理文本的结构化信息。
建立单元55,根据配置文件中预设的属性与属性值之间的对应关系,将第二抽取单元54中抽取得到的目标信息添加到对应的属性中,从而得到对应待处理文本的结构化信息。
建立单元55在将所抽取的目标信息添加到对应的属性之前,还可以包括以下内容:若抽取得到了多个具有相同含义的目标信息,则根据配置文件中与该含义对应的归一化值,对多个具有相同含义的目标信息进行归一化处理。
建立单元55在将抽取的目标信息添加到对应的字段之后,还可以包括以下内容:确定同一属性中是否包含多个含义不同的目标信息;若是,则分别生成对应各个目标信息的属性描述信息,其中属性描述信息中包含对应的属性以及属性值标识,属性值标识可以为数字;将含义不同的目标信息分别添加到所生成的属性描述信息中,从而得到对应所述待处理文本的结构化信息。
另外,建立单元55在将抽取的目标信息添加到对应的属性之后,还可以包括以下内容:将包含该目标信息的目标语句一同添加至对应的属性中,从而向用户更加清楚地展示所抽取的目标信息的来源语句。
可以理解的是,为了能够得到未在待处理文本中直接体现的结构化信息,建立单元55在得到对应待处理文本的结构化信息之后,还可以包括以下内容:根据配置文件中预设的逻辑推理规则,对抽取得到的目标信息进行转化;将转化结果添加到对应的属性中,从而得到待处理文本的结构化信息。
图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图6显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
利用本发明所提供的技术方案,通过对配置文件的应用领域进行设置,然后根据所获取的与所设置的应用领域对应的候选句以及属性信息,来构建用于抽取相应的应用领域的无结构文本的配置文件。这种方式无需较长的开发周期,也无需开发人员进行专业知识的学习,从而极大地提升了配置文件的生成效率。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种构建配置文件的方法,其特征在于,所述方法包括:
确定所构建的配置文件对应的应用领域;
获取对应所述应用领域的候选句;
获取对应所述应用领域的属性信息,所述属性信息中包含属性以及各属性对应的属性值;
根据所述候选句以及属性信息构建对应所述应用领域的配置文件,所述配置文件用于对属于所述应用领域的无结构文本进行结构化信息的抽取。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述配置文件中预设具有相同含义的属性值所对应的归一化值,以用于将多个具有相同含义的属性值转化为所对应的归一化值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述配置文件中预设逻辑推理规则,所述逻辑推理规则中包含属性值之间的转换关系,以用于根据相应的属性值推理得到另一属性所对应的属性值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述配置文件中预设从无结构文本中抽取目标语句以及目标信息的抽取方式。
5.一种抽取结构化信息的方法,其特征在于,所述方法包括:
获取用户输入的待处理文本以及所述待处理文本所属应用领域对应的配置文件;
对所述待处理文本进行分词处理,得到分词处理后的文本数据;
根据所述配置文件中的候选句,从所述文本数据中抽取目标语句;
根据所述配置文件中的属性值,从所述目标语句中抽取目标信息;
根据所述配置文件中属性与属性值之间的对应关系,将所抽取的目标信息添加到对应的属性中,从而得到对应所述待处理文本的结构化信息;
其中所述配置文件由权利要求1至4中任一项所述的方法预先构建。
6.根据权利要求5所述的方法,其特征在于,在对所述待处理文本进行分词处理,得到分词处理后的文本数据之后,还包括:
对所述文本数据中的各词语进行实体识别,并标注各词语的实体标签。
7.根据权利要求5所述的方法,其特征在于,在将所抽取的目标信息添加到对应的属性中之前,还包括:
若抽取得到了多个具有相同含义的目标信息,则根据所述配置文件中与该含义对应的归一化值,对多个具有相同含义的目标信息进行归一化处理。
8.根据权利要求5所述的方法,其特征在于,在将抽取的目标信息添加到对应的字段中之后,还包括:
确定同一属性中是否包含多个含义不同的目标信息;
若是,则分别生成对应各个目标信息的属性描述信息,其中属性描述信息中包含对应的属性以及属性值标识;
将含义不同的目标信息分别添加到所生成的属性描述信息中,从而得到对应所述待处理文本的结构化信息。
9.根据权利要求5所述的方法,其特征在于,在得到对应所述待处理文本的结构化信息之后,还包括:
根据所述配置文件中的逻辑推理规则,提取相应的目标信息并进行转化;
将转化结果添加到对应的属性中,从而得到待处理文本的结构化信息。
10.一种构建配置文件的装置,其特征在于,所述装置包括:
设置单元,用于确定所构建的配置文件对应的应用领域;
第一获取单元,用于获取对应所述应用领域的候选句;
第二获取单元,用于获取对应所述应用领域的属性信息,所述属性信息中包含属性以及各属性对应的属性值;
构建单元,用于根据所述候选句以及属性信息构建对应所述应用领域的配置文件,所述配置文件用于对属于所述应用领域的无结构文本进行结构化信息的抽取。
11.根据权利要求10所述的装置,其特征在于,所述构建单元还执行:
在所述配置文件中预设具有相同含义的属性值所对应的归一化值,以用于将多个具有相同含义的属性值转化为所对应的归一化值。
12.根据权利要求10所述的装置,其特征在于,所述构建单元还执行:
在所述配置文件中预设逻辑推理规则,所述逻辑推理规则中包含属性值之间的转换关系,以用于根据相应的属性值推理得到另一属性所对应的属性值。
13.根据权利要求10所述的装置,其特征在于,所述构建单元还执行:
在所述配置文件中预设从无结构文本中抽取目标语句以及目标信息的抽取方式。
14.一种抽取结构化信息的装置,其特征在于,所述装置包括:
第三获取单元,用于获取用户输入的待处理文本以及与所述待处理文本所属应用领域对应的配置文件;
预处理单元,用于对所述待处理文本进行分词处理,得到分词处理后的文本数据;
第一抽取单元,用于根据所述配置文件中的候选句,从所述文本数据中抽取目标语句;
第二抽取单元,用于根据所述配置文件中的属性值,从所述目标语句中抽取目标信息;
建立单元,用于根据所述配置文件中属性与属性值之间的对应关系,将所抽取的目标信息添加到对应的属性中,从而得到对应所述待处理文本的结构化信息;
其中所述配置文件由权利要求10至13中任一项所述的装置预先构建。
15.根据权利要求14所述的装置,其特征在于,所述预处理单元在对所述待处理文本进行分词处理,得到分词处理后的文本数据之后,还执行:
对所述文本数据中的各词语进行实体识别,并标注各词语的实体标签。
16.根据权利要求14所述的装置,其特征在于,所述建立单元在将所抽取的目标信息添加到对应的属性中之前,还执行:
若抽取得到了多个具有相同含义的目标信息,则根据所述配置文件中与该含义对应的归一化值,对多个具有相同含义的目标信息进行归一化处理。
17.根据权利要求14所述的装置,其特征在于,所述建立单元在将抽取的目标信息添加到对应的字段中之后,还执行:
确定同一属性中是否包含多个含义不同的目标信息;
若是,则分别生成对应各个目标信息的属性描述信息,其中属性描述信息中包含对应的属性以及属性值标识;
将含义不同的目标信息分别添加到所生成的属性描述信息中,从而得到对应所述待处理文本的结构化信息。
18.根据权利要求14所述的装置,其特征在于,所述建立单元在得到对应所述待处理文本的结构化信息之后,还执行:
根据所述配置文件中的逻辑推理规则,提取相应的目标信息并进行转化;
将转化结果添加到对应的属性中,从而得到待处理文本的结构化信息。
19.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910329838.8A CN110162786B (zh) | 2019-04-23 | 2019-04-23 | 构建配置文件以及抽取结构化信息的方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910329838.8A CN110162786B (zh) | 2019-04-23 | 2019-04-23 | 构建配置文件以及抽取结构化信息的方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162786A true CN110162786A (zh) | 2019-08-23 |
CN110162786B CN110162786B (zh) | 2024-02-27 |
Family
ID=67638630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910329838.8A Active CN110162786B (zh) | 2019-04-23 | 2019-04-23 | 构建配置文件以及抽取结构化信息的方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162786B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN110797012A (zh) * | 2019-08-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种信息提取方法、设备及存储介质 |
CN110807318A (zh) * | 2019-11-01 | 2020-02-18 | 深圳前海微众银行股份有限公司 | 数据监控方法、装置、设备及计算机可读存储介质 |
CN111723177A (zh) * | 2020-05-06 | 2020-09-29 | 第四范式(北京)技术有限公司 | 信息提取模型的建模方法、装置及电子设备 |
CN112507702A (zh) * | 2020-12-03 | 2021-03-16 | 北京百度网讯科技有限公司 | 文本信息的抽取方法、装置、电子设备及存储介质 |
CN112819622A (zh) * | 2021-01-26 | 2021-05-18 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN115983245A (zh) * | 2023-03-20 | 2023-04-18 | 江西中至科技有限公司 | 建筑图纸中长文本信息分析方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN103186633A (zh) * | 2011-12-31 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种结构化信息抽取方法、搜索方法和装置 |
CN104881488A (zh) * | 2015-06-05 | 2015-09-02 | 焦点科技股份有限公司 | 基于关系表的可配置信息抽取方法 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN107391658A (zh) * | 2017-07-18 | 2017-11-24 | 重庆邮电大学 | 一种基于rdf数据模型的产品信息管理系统及方法 |
CN107729526A (zh) * | 2017-10-30 | 2018-02-23 | 清华大学 | 一种文本结构化的方法 |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
WO2018113532A1 (zh) * | 2016-12-22 | 2018-06-28 | 腾讯科技(深圳)有限公司 | 信息抽取方法和系统 |
CN108664595A (zh) * | 2018-05-08 | 2018-10-16 | 和美(深圳)信息技术股份有限公司 | 领域知识库构建方法、装置、计算机设备和存储介质 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
CN109145125A (zh) * | 2018-08-20 | 2019-01-04 | 长城计算机软件与系统有限公司 | 一种动态抽取信息的方法和系统、存储介质 |
-
2019
- 2019-04-23 CN CN201910329838.8A patent/CN110162786B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298588A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 从非结构化文档中抽取对象的方法和装置 |
CN103186633A (zh) * | 2011-12-31 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种结构化信息抽取方法、搜索方法和装置 |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
CN104881488A (zh) * | 2015-06-05 | 2015-09-02 | 焦点科技股份有限公司 | 基于关系表的可配置信息抽取方法 |
US20170308524A1 (en) * | 2016-04-26 | 2017-10-26 | International Business Machines Corporation | Structured dictionary population utilizing text analytics of unstructured language dictionary text |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
WO2018113532A1 (zh) * | 2016-12-22 | 2018-06-28 | 腾讯科技(深圳)有限公司 | 信息抽取方法和系统 |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN107391658A (zh) * | 2017-07-18 | 2017-11-24 | 重庆邮电大学 | 一种基于rdf数据模型的产品信息管理系统及方法 |
CN107729526A (zh) * | 2017-10-30 | 2018-02-23 | 清华大学 | 一种文本结构化的方法 |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN108664595A (zh) * | 2018-05-08 | 2018-10-16 | 和美(深圳)信息技术股份有限公司 | 领域知识库构建方法、装置、计算机设备和存储介质 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109145125A (zh) * | 2018-08-20 | 2019-01-04 | 长城计算机软件与系统有限公司 | 一种动态抽取信息的方法和系统、存储介质 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110797012B (zh) * | 2019-08-30 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 一种信息提取方法、设备及存储介质 |
CN110797012A (zh) * | 2019-08-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种信息提取方法、设备及存储介质 |
CN110781276B (zh) * | 2019-09-18 | 2023-09-19 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN110807318A (zh) * | 2019-11-01 | 2020-02-18 | 深圳前海微众银行股份有限公司 | 数据监控方法、装置、设备及计算机可读存储介质 |
CN111723177A (zh) * | 2020-05-06 | 2020-09-29 | 第四范式(北京)技术有限公司 | 信息提取模型的建模方法、装置及电子设备 |
CN111723177B (zh) * | 2020-05-06 | 2023-09-15 | 北京数据项素智能科技有限公司 | 信息提取模型的建模方法、装置及电子设备 |
CN112507702B (zh) * | 2020-12-03 | 2023-08-22 | 北京百度网讯科技有限公司 | 文本信息的抽取方法、装置、电子设备及存储介质 |
CN112507702A (zh) * | 2020-12-03 | 2021-03-16 | 北京百度网讯科技有限公司 | 文本信息的抽取方法、装置、电子设备及存储介质 |
CN112819622A (zh) * | 2021-01-26 | 2021-05-18 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN112819622B (zh) * | 2021-01-26 | 2023-10-17 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN115983245B (zh) * | 2023-03-20 | 2023-06-06 | 江西中至科技有限公司 | 建筑图纸中长文本信息分析方法及装置 |
CN115983245A (zh) * | 2023-03-20 | 2023-04-18 | 江西中至科技有限公司 | 建筑图纸中长文本信息分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110162786B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162786A (zh) | 构建配置文件以及抽取结构化信息的方法、装置 | |
US10929420B2 (en) | Structured report data from a medical text report | |
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
US10930386B2 (en) | Automated normality scoring of echocardiograms | |
CN112015859B (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
CN110163257A (zh) | 抽取结构化信息的方法、装置、设备和计算机存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
JP2020149686A (ja) | 画像処理方法、装置、サーバ及び記憶媒体 | |
CN115983271B (zh) | 命名实体的识别方法和命名实体识别模型的训练方法 | |
CN109815481B (zh) | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 | |
CN109815500A (zh) | 非结构化公文的管理方法、装置、计算机设备及存储介质 | |
CN112232088A (zh) | 合同条款风险智能识别方法、装置、电子设备及存储介质 | |
CN116561592B (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN116611071A (zh) | 一种基于多模态的函数级漏洞检测的方法 | |
Adduru et al. | Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification. | |
CN116402166A (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN115186015A (zh) | 一种网络安全知识图谱构建方法及系统 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
US20210295036A1 (en) | Systematic language to enable natural language processing on technical diagrams | |
CN110378378B (zh) | 事件检索方法、装置、计算机设备及存储介质 | |
CN114155957A (zh) | 文本确定方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |