CN111611799B - 基于字典和序列标注模型实体属性抽取方法、系统及设备 - Google Patents

基于字典和序列标注模型实体属性抽取方法、系统及设备 Download PDF

Info

Publication number
CN111611799B
CN111611799B CN202010377921.5A CN202010377921A CN111611799B CN 111611799 B CN111611799 B CN 111611799B CN 202010377921 A CN202010377921 A CN 202010377921A CN 111611799 B CN111611799 B CN 111611799B
Authority
CN
China
Prior art keywords
attribute
entity
dictionary
word
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010377921.5A
Other languages
English (en)
Other versions
CN111611799A (zh
Inventor
么新新
张学龙
谭培波
刘弦弦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhitong Yunlian Technology Co ltd
Original Assignee
Beijing Zhitong Yunlian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhitong Yunlian Technology Co ltd filed Critical Beijing Zhitong Yunlian Technology Co ltd
Priority to CN202010377921.5A priority Critical patent/CN111611799B/zh
Publication of CN111611799A publication Critical patent/CN111611799A/zh
Application granted granted Critical
Publication of CN111611799B publication Critical patent/CN111611799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于字典和序列标注模型的实体属性抽取方法、系统及设备,所述方法包括:根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到分词后的文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。

Description

基于字典和序列标注模型实体属性抽取方法、系统及设备
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于字典和序列标注模型的实体属性抽取方法、系统及设备。
背景技术
在现有技术中,实体通常是文本中描述的对象,例如人名、地名、机构名等,属性是指实体中属性或者组成成分,例如:性别、姓名、年龄等。实体属性抽取是指从文本中抽取出<实体,属性名,属性值>信息对。目前常用的方法有三种。
方法一:基于模板的抽取,首先规定需要抽取的实体属性信息,建立模板文件;然后建立抽取的规则。这种方法可移植性差,只适用于半结构化的文本,如内容随时改变,但结构往往是固定的网页;
方法二:基于字典匹配的抽取,基于人为整理的实体字典、属性名到实体字典、属性值到属性名字典这三种先验知识,匹配得到文本中实体属性信息。这种方法不适用于属性值不能穷举的情况,例如,数值性的属性值。
方法三:基于统计的序列标注模型的抽取,将实体属性的抽取简化为命名实体标注,利用序列标注模型捕获输入文本的上下文语义以及输出标签的前后关系。该方法不适用于文本中出现多个实体或属性的情况。
在工业领域的问答或搜索中实体属性抽取方法,一般采用后两种方法或其混合方法。由于中文表达形式丰富多样,对于以下形式的表述采用这两种方法是不适用的:
(1)、若文本中包含多个实体属性,如“井深为100米、井型为水平井的井有哪些?”文本中对于实体“井”有两个属性<井深,100米>、<井型,水平井>,因属性名“井深”的对应的属性值包含数字,是不可穷举,所以不能用基于字典的匹配来抽取属性值。若采用基于统计的序列标注模型进行抽取,例如,条件随机场(Conditional Random Fields简称为CRF),为了得到属性名和属性值的一一对应关系,需要对不同的<属性名,属性值>打上不同含义的标签,如:“井深”:key_1,“100米”:value_1,“井型”:key_2,“水平井”:value_2。以便后续根据标签的含义,找到属性名和属性值对应关系。采用统计的序列标注模型,需要提前定义好标签的含义、种类以及数量,但是文本中包含属性对的数量是不可控,且不同的属性值一般出现的上下文语境是相似的,若对其打上不同类型的标签,不利于序列标注模型在训练时特征的抽取,从而最终影响属性抽取的效果。
(2)、多个属性名对应一个属性值时,如“产水量和产液量都是100顿的井有哪些?”问题中实体“井”有两个属性<产水量,100顿>、<产液量,100顿>,因为两个属性值均不可穷举,所以也不能基于字典的匹配来抽取属性值。两个属性值均是“100顿”,且该词在问句中只出现过一次,而统计的序列标注模型目前不能将文本中同一个词或字打上不同的标签,从而不能将属性值“100顿”对应到两个属性名上。
综上所述,现有技术中的实体属性抽取存在以下问题需要解决:1、属性值多样性问题;2、因文本中属性个数的不确定导致标签种类和数目难以确定的问题;3、多个属性名对应一个属性值引起的属性名和属性值难以对应的问题。目前亟须一种技术方案来解决上述技术问题。
发明内容
本发明的目的在于提供一种基于字典和序列标注模型的实体属性抽取方法、系统及设备,旨在解决现有技术中的上述问题。
本发明提供一种基于字典和序列标注模型的实体属性抽取方法,包括:
根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到分词后的文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;
依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。
本发明提供一种基于字典和序列标注模型的实体属性抽取系统,包括:
数据层,用于对序列标注模型训练所需的数据以及语义加工中所需的字典进行管理;
模型层,用于进行序列标注模型的训练和优化,并保存训练好的序列标注模型;
应用层,用于接收输入文本,并展示最终实体属性结果;
语义加工层,用于根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到分词后的文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。
本发明实施例还提供一种基于字典和序列标注模型的实体属性抽取设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于字典和序列标注模型的实体属性抽取方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于字典和序列标注模型的实体属性抽取方法的步骤。
采用本发明实施例,在快速灵活的进行实体属性的抽取的同时提升计算速度,实现工业领域中问答或搜索等短文本的信息抽取。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于字典和序列标注模型的实体属性抽取方法的流程图;
图2是本发明实施例的训练序列标注模型的示意图;
图3是本发明实施例的基于字典和序列标注模型的实体属性抽取系统的示意图;
图4是本发明实施例的基于字典和序列标注模型的实体属性抽取设备的示意图。
具体实施方式
本发明实施例提供一种基于字典和序列标注模型的实体属性抽取方法、系统及设备,在特定的垂直领域中,实体以及实体包含的属性名是可以穷举的,因此可以基于字典匹配的方法快速的抽取出短文本中实体以及属性名信息。但是由于属性值的不确定性和多样性,无法单纯的利用字典进行穷举,本发明实施例结合文本中属性名、属性值的语义信息,采用统计的序列标注算法学习一些特征,进而抽取出实体的属性信息。基于序列标注算法对文本进行信息抽取,本质上是对词或字打标签(称之为解码),然后基于标签的特定含义进行合并和对应等后处理,从而得到想要的属性信息。其中解码过程是先假设文本中所有的词或字所对应的标签可能是任意一个,结合训练得到的特征函数的权重,利用维特比等算法求得最佳的标签。基于先验知识或某种意图,可以提前限定某些词或字的标签范围,这样便可以减少解码过程的运算量,以及达到特定的意图。
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种基于字典和序列标注模型的实体属性抽取方法,图1是本发明实施例的基于字典和序列标注模型的实体属性抽取方法的流程图。
需要说明的是,在本发明实施例中,在执行下述的步骤101之前,需要创建实体字典、属性名到实体字典和属性值字典,其中,如表1所示,实体字典用于管理工业领域中所有的实体,如表2所示,属性名到实体字典用于管理实体的属性名和实体的一一对应关系,如表3所示,属性值字典用于管理所有可列举的属性值。
表1
实体
开发单元
油田
表2
Figure BDA0002480906850000061
Figure BDA0002480906850000071
表3
属性值
水平井
定向井
碱驱
此外,还需要训练序列标注模型,如图2所示,具体包括如下处理:
步骤1、确定标签的类型,其中,如表4所示,类型包括:属性名key、属性值value、属性值起始词Bvalue、属性值中间词Mvalue、属性值结束词Evalue以及无NN;
表4
类型 含义
key 属性名
value 属性值
Bvalue 属性值起始词
Mvalue 属性值中间词
Evalue 属性值结束词
NN
下面需要进行训练语料的标注,其目的是将大量的训练语料文本中词或字打上以上特定含义的标签。具体地:
步骤2、根据标点符号对训练语料进行分句处理,具体地,需要根据标点符号进行分句处理,针对训练语料中每一句文本,基于实体字典、属性名到实体字典以及属性值字典,采用MMSEG算法进行分词处理,例如:将“井深为100米、井型为水平井的井有哪些?”分词为:井深为100米、井型为水平井的井有哪些?随后进行初始化标注:将分词处理后每个词的标签定义为NN;例如,分词后为“井深为100米、井型为水平井的井有哪些?”,将其进行初始化标注为:“井深NN|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”
步骤3、对训练语料中的每一句,判断该句中是否有词包含在属性名到实体字典中所有的属性名中,若判断为否,则将该句删除,继续处理训练语料中的下一句;若判断该句中有一个或多个词包含在属性名到实体字典中所有的属性名中,则循环处理每一个词,将该词对应的标签修改为key,其它词的标签均不变;
也就是说,利用字典匹配判断是否有词包含在属性名到实体字典中所有的属性名中,若无,则将该句删除,继续处理语料中下一句文本;若有一个词包含在属性名到实体字典中所有的属性名中,则将该词对应的标签修改为key;若有n(n>1)个词包含在属性名到实体字典中所有的属性名中,循环处理n个词中的每一个,依次将每词的标签修改为key,为了消除其它属性的语义影响,其它词的标签均不变,这样一句文本便扩展到n句。
如“井深NN|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”中包含两个属性名“井深”、“井型”,对该文本进行属性名的标注扩展到两个文本,分别是:“井深key|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”、“井深NN|为NN|100NN|米NN|、NN|井型key|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”。
步骤4、对训练语料中的每一句,根据人工处理,获取标签为key的属性名所对应的一个或多个属性值,依次处理每一个属性值,将只包含一个词的属性值的标签修改为value,将包含连续的多个词的属性值中的第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue;如果该句中未找到标签为key的属性名所对应的属性值,则不进行任何处理;
也就是说,需要人为对属性值进行标注;针对步骤3处理后的每一句文本,结合该句表达的实际含义找到标签为key的属性名所对应的属性值,若没有则不做任何处理。若有n(n>=1)个属性值,则依次处理每一个属性值,若属性值包含一个词,则将该词的标签修改为value,若属性值包含连续多个词,则将连续的多个词中第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue。
例如,“井深key|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”中“井深”对应的属性是“100米”,标注结果改为“井深key|为NN|100Bvalue|米Evalue|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”。
5、基于标注好的训练语料,对序列标注模型进行训练。
执行完上述处理后,如图1所示,根据本发明实施例的基于字典和序列标注模型的实体属性抽取方法具体包括:
步骤101,根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到分词后的文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;步骤101具体包括如下处理:
根据实体字典、属性名到实体字典和属性值字典,采用MMSEG算法对输入文本进行分词处理,得到输入文本中的属性名,并通过属性名到实体字典得到与属性名对应的实体。
例如,文本“井深为100米、井型为水平井的井有哪些?”分词结果为:“井深为100米、井型为水平井的井有哪些?”,两个属性名是“井深”、“井型”。基于属性名-实体字典得到文本包含的属性名所对应的实体,针对以上的文本,便可以得到<井,井深>、<井,井型>。
步骤102,依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。
在步骤102中,根据所有分词对应的标签的特定含义确定该属性名对应的属性值具体包括:
将所有词中对应的标签为Bvalue、Mvalue、Evalue且连续的词、和/或为Bvalue、Evalue且连续的词进行合并,合并结果以及标签为value的词均为该属性名对应的属性值。
也就是说,在步骤102中,因基于字典已得到文本中属性名,也就是可以提前感知文本中某些词的标签,在解码时,将已知得标签信息和分词后文本一并输入到序列标注模型,既可以减少解码的计算量,也可以有效的得到属性名和属性值的对应关系。具体操作是:文本经过步骤101之后,若得到一个<实体,属性名>,则将文本中属性名的标签定义为key,然后利用序列标注模型解码得到文本中每个词所对应的标签,其中标签为value的词,和将标签为Bvalue、Mvalue、Evalue或Bvalue、Evalue且连续的词进行合并的词,即为属性名对应的属性值。若得到n(n>1)个<实体,属性名>,则依次抽取每个属性名对应的属性值,依次将每个属性名的标签定义为key,为了减少其它属性名的语义干扰,将其它n-1个属性名的标签定义为NN,然后一并输入到序列标注模型,便可以得到该属性名所对应的属性值。
例如:文本为“井深为100米、井型为水平井的井有哪些?”,首先将“井深”的标签设为key,“井型”的标签设为NN,利用序列标注模型的解码得到该文本的标签为“井深key|为NN|100Bvalue|米Evalue|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”,因此“井深”对应的属性值为“100米”。然后将“井深”的标签设为NN,“井型”的标签设为key,利用序列标注模型的解码得到该文本的标签为“井深NN|为NN|100NN|米NN|、NN|井型key|为NN|水平井value|的NN|井NN|有NN|哪NN|些NN|?NN|”,因此“井型”对应的属性值为“水平井”。综合起来,该文本中实体属性信息为<井,井深,100米>、<井,井型,水平井>。
综上,借助于本发明实施例的技术方案,采用基于字典和序列标注算法对文本进行实体属性的抽取,对实体、属性名的抽取采用字典匹配的方法,可以快速灵活的得到结果;在属性值抽取时,将属性名的已知标签添加到序列标注算法的解码过程中,提升计算的速度,同时还解决了现有技术中的属性值多样性问题、因文本中属性个数的不确定导致标签种类和数目难以确定的问题、以及多个属性名对应一个属性值引起的属性名和属性值难以对应的问题。
系统实施例
根据本发明实施例,提供了一种基于字典和序列标注模型的实体属性抽取系统,图3是本发明实施例的基于字典和序列标注模型的实体属性抽取系统的示意图,如图3所示,根据本发明实施例的基于字典和序列标注模型的实体属性抽取系统具体包括:
数据层30,用于对序列标注模型训练所需的数据以及语义加工中所需的字典进行管理;
如图3所示,数据层30具体包括:字典模块1、标签模块2、训练语料模块3。字典模块1包括实体字典、属性名-实体字典、属性值字典,如上述表1-表3所示。标签模块2管理序列标注算法所能给文本中的词或字打上的各种标签及其含义,具体格式如表4所示;训练语料模块3是管理序列标注算法学习训练时所需的原始语料。
模型层32,负责序列标注模型的训练、优化,如图3所示,包括序列标注模型4;具体地,模型层32用于进行序列标注模型的训练和优化,并保存训练好的序列标注模型;
此外,模型层32还用于:创建实体字典、属性名到实体字典和属性值字典,其中,实体字典用于管理工业领域中所有的实体,属性名到实体字典用于管理实体的属性名和实体的一一对应关系,属性值字典用于管理所有可列举的属性值;
模型层32负责序列标注模型的训练、优化具体包括:
确定标签的类型,其中,类型包括:属性名key、属性值value、属性值起始词Bvalue、属性值中间词Mvalue、属性值结束词Evalue以及无NN;
根据标点符号对训练语料进行分句处理,针对训练语料中每一句文本,基于实体字典、属性名到实体字典以及属性值字典,采用MMSEG算法进行分词处理,将分词处理后每个词的标签定义为NN;
对训练语料中的每一句,判断该句中是否有词包含在属性名到实体字典中所有的属性名中,若判断为否,则将该句删除,继续处理训练语料中的下一句;若判断该句中有一个或多个词包含在属性名到实体字典中所有的属性名中,则循环处理每一个词,将该词对应的标签修改为key,其它词的标签均不变;
对训练语料中的每一句,根据人工标注处理,获取标签为key的属性名所对应的一个或多个属性值,依次处理每一个属性值,将只包含一个词的属性值的标签修改为value,将包含连续的多个词的属性值中的第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue;如果该句中未找到标签为key的属性名所对应的属性值,则不进行任何处理;
基于标注好的训练语料,对序列标注模型进行训练。
应用层34,用于接收输入文本,并展示最终实体属性结果;
如图3所示,应用层34包括文本输入模块6和实体属性展示模块7,负责输入文本的接收以及最终实体属性结果的展示。
语义加工层36,用于对输入文本进行实体属性的抽取,包括实体属性抽取模块5,其中,实体属性抽取模块5包括实体-属性名抽取子模块5-1和属性名-属性值抽取模块5-2。
实体-属性名抽取子模块5-1用于根据预先创建的字典对输入文本进行分词处理,得到输入文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;在实际应用中,可以根据实体字典、属性名到实体字典和属性值字典,采用MMSEG算法对输入文本进行分词处理,得到输入文本中的属性名,并通过属性名到实体字典得到与属性名对应的实体。
属性名-属性值抽取模块5-2用于依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。
属性名-属性值抽取模块5-2还需要将分词之后的文本中所有词对应的标签为Bvalue、Mvalue、Evalue且连续的词、和/或为Bvalue、Evalue且连续的词进行合并,合并结果以及标签为value的词均为该属性名对应的属性值。
模型层32、应用层34、以及语义加工层36的具体操作可以参照上述方法实施例中的描述理解,在此不再赘述。
装置实施例一
本发明实施例提供一种基于字典和序列标注模型的实体属性抽取设备,如图4所示,包括:存储器40、处理器42及存储在存储器40上并可在处理器42上运行的计算机程序,计算机程序被处理器42执行时实现如下方法步骤:
需要说明的是,在本发明实施例中,在执行下述的步骤101之前,需要创建实体字典、属性名到实体字典和属性值字典,其中,如表1所示,实体字典用于管理工业领域中所有的实体,如表2所示,属性名到实体字典用于管理实体的属性名和实体的一一对应关系,如表3所示,属性值字典用于管理所有可列举的属性值。
此外,还需要训练序列标注模型,如图2所示,具体包括如下处理:
步骤1、确定标签的类型,其中,如表4所示,类型包括:属性名key、属性值value、属性值起始词Bvalue、属性值中间词Mvalue、属性值结束词Evalue以及无NN;
下面需要进行训练语料的标注,其目的是将大量的训练语料文本中词或字打上以上特定含义的标签。具体地:
步骤2、根据标点符号对训练语料进行分句处理,具体地,需要根据标点符号进行分句处理,针对训练语料中每一句文本,基于实体字典、属性名到实体字典以及属性值字典,采用MMSEG算法进行分词处理,例如:将“井深为100米、井型为水平井的井有哪些?”分词为:井深为100米、井型为水平井的井有哪些?随后进行初始化标注:将分词处理后每个词的标签定义为NN;例如,分词后为“井深为100米、井型为水平井的井有哪些?”,将其进行初始化标注为:“井深NN|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”
步骤3、对训练语料中的每一句,判断该句中是否有词包含在属性名到实体字典中所有的属性名中,若判断为否,则将该句删除,继续处理训练语料中的下一句;若判断该句中有一个或多个词包含在属性名到实体字典中所有的属性名中,则循环处理每一个词,将该词对应的标签修改为key,其它词的标签均不变;
也就是说,利用字典匹配判断是否有词包含在属性名到实体字典中所有的属性名中,若无,则将该句删除,继续处理语料中下一句文本;若有一个词包含在属性名到实体字典中所有的属性名中,则将该词对应的标签修改为key;若有n(n>1)个词包含在属性名到实体字典中所有的属性名中,循环处理n个词中的每一个,依次将每词的标签修改为key,为了消除其它属性名的语义影响,其它词的标签均不变;这样一句文本便扩展到n句。
如“井深NN|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”中包含两个属性名“井深”、“井型”,对该文本进行属性名的标注扩展到两个文本,分别是:“井深key|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”、“井深NN|为NN|100NN|米NN|、NN|井型key|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”。
步骤4、对训练语料中的每一句,根据人工处理,获取标签为key的属性名所对应的一个或多个属性值,依次处理每一个属性值,将只包含一个词的属性值的标签修改为value,将包含连续的多个词的属性值中的第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue;如果该句中未找到标签为key的属性名所对应的属性值,则不进行任何处理;
也就是说,需要人为对属性值进行标注;针对步骤3处理后的每一句文本,结合该句表达的实际含义找到标签为key的属性名所对应的属性值,若没有则不做任何处理。若有n(n>=1)个属性值,则依次处理每一个属性值,若属性值包含一个词,则将该词的标签修改为value,若属性值包含连续多个词,则将连续的多个词中第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue。
例如,“井深key|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”中“井深”对应的属性是“100米”,标注结果改为“井深key|为NN|100Bvalue|米Evalue|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”。
5、基于标注好的训练语料,对序列标注模型进行训练。
执行完上述处理后,如图1所示,根据本发明实施例的基于字典和序列标注模型的实体属性抽取方法具体包括:
步骤101,根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到词后的文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;步骤101具体包括如下处理:
根据实体字典、属性名到实体字典和属性值字典,采用MMSEG算法对输入文本进行分词处理,得到输入文本中的属性名,并通过属性名到实体字典得到与属性名对应的实体。
例如,文本“井深为100米、井型为水平井的井有哪些?”分词结果为:“井深为100米、井型为水平井的井有哪些?”,两个属性名是“井深”、“井型”。基于属性名-实体字典得到文本包含的属性名所对应的实体,针对以上的文本,便可以得到<井,井深>、<井,井型>。
步骤102,依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。
在步骤102中,根据所有分词对应的标签的特定含义确定该属性名对应的属性值具体包括:
将所有词中对应的标签为Bvalue、Mvalue、Evalue且连续的词、和/或为Bvalue、Evalue且连续的词进行合并,合并结果以及标签为value的词均为该属性名对应的属性值。
也就是说,在步骤102中,因基于字典已得到文本中属性名,也就是可以提前感知文本中某些词的标签,在解码时,将已知得标签信息和分词后文本一并输入到序列标注模型,既可以减少解码的计算量,也可以有效的得到属性名和属性值的对应关系。具体操作是:文本经过步骤101之后,若得到一个<实体,属性名>,则将文本中属性名的标签定义为key,然后利用序列标注模型解码得到文本中每个词所对应的标签,其中标签为value的词,和将标签为Bvalue、Mvalue、Evalue或Bvalue、Evalue且连续的词进行合并的词,即为属性名对应的属性值。若得到n(n>1)个<实体,属性名>,则依次抽取每个属性名对应的属性值,依次将每个属性名的标签定义为key,为了减少其它属性名的语义干扰,将其它n-1个属性名的标签定义为NN,然后一并输入到序列标注模型,便可以得到该属性名所对应的属性值。
例如:文本为“井深为100米、井型为水平井的井有哪些?”,首先将“井深”的标签设为key,“井型”的标签设为NN,利用序列标注模型的解码得到该文本的标签为“井深key|为NN|100Bvalue|米Evalue|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”,因此“井深”对应的属性值为“100米”。然后将“井深”的标签设为NN,“井型”的标签设为key,利用序列标注模型的解码得到该文本的标签为“井深NN|为NN|100NN|米NN|、NN|井型key|为NN|水平井value|的NN|井NN|有NN|哪NN|些NN|?NN|”,因此“井型”对应的属性值为“水平井”。综合起来,该文本中实体属性信息为<井,井深,100米>、<井,井型,水平井>。
装置实施例二
本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传输的实现程序,程序被处理器42执行时实现如下方法步骤:
需要说明的是,在本发明实施例中,在执行下述的步骤101之前,需要创建实体字典、属性名到实体字典和属性值字典,其中,如表1所示,实体字典用于管理工业领域中所有的实体,如表2所示,属性名到实体字典用于管理实体的属性名和实体的一一对应关系,如表3所示,属性值字典用于管理所有可列举的属性值。
此外,还需要训练序列标注模型,如图2所示,具体包括如下处理:
步骤1、确定标签的类型,其中,如表4所示,类型包括:属性名key、属性值value、属性值起始词Bvalue、属性值中间词Mvalue、属性值结束词Evalue以及无NN;
下面需要进行训练语料的标注,其目的是将大量的训练语料文本中词或字打上以上特定含义的标签。具体地:
步骤2、根据标点符号对训练语料进行分句处理,具体地,需要根据标点符号进行分句处理,针对训练语料中每一句文本,基于实体字典、属性名到实体字典以及属性值字典,采用MMSEG算法进行分词处理,例如:将“井深为100米、井型为水平井的井有哪些?”分词为:井深为100米、井型为水平井的井有哪些?随后进行初始化标注:将分词处理后每个词的标签定义为NN;例如,分词后为“井深为100米、井型为水平井的井有哪些?”,将其进行初始化标注为:“井深NN|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”
步骤3、对训练语料中的每一句,判断该句中是否有词包含在属性名到实体字典中所有的属性名中,若判断为否,则将该句删除,继续处理训练语料中的下一句;若判断该句中有一个或多个词包含在属性名到实体字典中所有的属性名中,则循环处理每一个词,将该词对应的标签修改为key,其它词的标签均不变;
也就是说,利用字典匹配判断是否有词包含在属性名到实体字典中所有的属性名中,若无,则将该句删除,继续处理语料中下一句文本;若有一个词包含在属性名到实体字典中所有的属性名中,则将该词对应的标签修改为key;若有n(n>1)个词包含在属性名到实体字典中所有的属性名中,循环处理n个词中的每一个,依次将每词的标签修改为key,为了消除其它属性名的语义影响,其它词的标签均不变;这样一句文本便扩展到n句。
如“井深NN|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”中包含两个属性名“井深”、“井型”,对该文本进行属性名的标注扩展到两个文本,分别是:“井深key|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”、“井深NN|为NN|100NN|米NN|、NN|井型key|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”。
步骤4、对训练语料中的每一句,根据人工处理,获取标签为key的属性名所对应的一个或多个属性值,依次处理每一个属性值,将只包含一个词的属性值的标签修改为value,将包含连续的多个词的属性值中的第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue;如果该句中未找到标签为key的属性名所对应的属性值,则不进行任何处理;
也就是说,需要人为对属性值进行标注;针对步骤3处理后的每一句文本,结合该句表达的实际含义找到标签为key的属性名所对应的属性值,若没有则不做任何处理。若有n(n>=1)个属性值,则依次处理每一个属性值,若属性值包含一个词,则将该词的标签修改为value,若属性值包含连续多个词,则将连续的多个词中第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue。
例如,“井深key|为NN|100NN|米NN|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”中“井深”对应的属性是“100米”,标注结果改为“井深key|为NN|100Bvalue|米Evalue|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”。
5、基于标注好的训练语料,对序列标注模型进行训练。
执行完上述处理后,如图1所示,根据本发明实施例的基于字典和序列标注模型的实体属性抽取方法具体包括:
步骤101,根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到词后的文本中的属性名和与属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;步骤101具体包括如下处理:
根据实体字典、属性名到实体字典和属性值字典,采用MMSEG算法对输入文本进行分词处理,得到输入文本中的属性名,并通过属性名到实体字典得到与属性名对应的实体。
例如,文本“井深为100米、井型为水平井的井有哪些?”分词结果为:“井深为100米、井型为水平井的井有哪些?”,两个属性名是“井深”、“井型”。基于属性名-实体字典得到文本包含的属性名所对应的实体,针对以上的文本,便可以得到<井,井深>、<井,井型>。
步骤102,依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的属性名的标签,将分词后的文本输入到预先训练好的序列标注模型中,得到分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到输入文本中所有包含有实体、属性名和属性值的最终实体属性结果。
在步骤102中,根据所有分词对应的标签的特定含义确定该属性名对应的属性值具体包括:
将所有词中对应的标签为Bvalue、Mvalue、Evalue且连续的词、和/或为Bvalue、Evalue且连续的词进行合并,合并结果以及标签为value的词均为该属性名对应的属性值。
也就是说,在步骤102中,因基于字典已得到文本中属性名,也就是可以提前感知文本中某些词的标签,在解码时,将已知得标签信息和分词后文本一并输入到序列标注模型,既可以减少解码的计算量,也可以有效的得到属性名和属性值的对应关系。具体操作是:文本经过步骤101之后,若得到一个<实体,属性名>,则将文本中属性名的标签定义为key,然后利用序列标注模型解码得到文本中每个词所对应的标签,其中标签为value的词,和将标签为Bvalue、Mvalue、Evalue或Bvalue、Evalue且连续的词进行合并的词,即为属性名对应的属性值。若得到n(n>1)个<实体,属性名>,则依次抽取每个属性名对应的属性值,依次将每个属性名的标签定义为key,为了减少其它属性名的语义干扰,将其它n-1个属性名的标签定义为NN,然后一并输入到序列标注模型,便可以得到该属性名所对应的属性值。
例如:文本为“井深为100米、井型为水平井的井有哪些?”,首先将“井深”的标签设为key,“井型”的标签设为NN,利用序列标注模型的解码得到该文本的标签为“井深key|为NN|100Bvalue|米Evalue|、NN|井型NN|为NN|水平井NN|的NN|井NN|有NN|哪NN|些NN|?NN|”,因此“井深”对应的属性值为“100米”。然后将“井深”的标签设为NN,“井型”的标签设为key,利用序列标注模型的解码得到该文本的标签为“井深NN|为NN|100NN|米NN|、NN|井型key|为NN|水平井value|的NN|井NN|有NN|哪NN|些NN|?NN|”,因此“井型”对应的属性值为“水平井”。综合起来,该文本中实体属性信息为<井,井深,100米>、<井,井型,水平井>。
综上所述,采用本发明实施例,在快速灵活的进行实体属性的抽取的同时提升计算速度,实现工业领域中问答或搜索等短文本的信息抽取。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于字典和序列标注模型的实体属性抽取方法,其特征在于,包括:
根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到所述分词后的文本中的属性名和与所述属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;
依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的所述属性名的标签,将所述分词后的文本输入到预先训练好的序列标注模型中,得到所述分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到所述输入文本中所有包含有实体、属性名和属性值的最终实体属性结果;
创建实体字典、属性名到实体字典和属性值字典,其中,所述实体字典用于管理工业领域中所有的实体,所述属性名到实体字典用于管理实体的属性名和实体的一一对应关系,所述属性值字典用于管理所有可列举的属性值;
根据预先创建的字典对输入文本进行分词处理,得到所述输入文本中的属性名和与所述属性名对应的实体具体包括:
根据实体字典、属性名到实体字典和属性值字典,采用MMSEG算法对输入文本进行分词处理,得到所述输入文本中的属性名,并通过属性名到实体字典得到与所述属性名对应的实体。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
训练所述序列标注模型:
确定标签的类型,其中,所述类型包括:属性名key、属性值value、属性值起始词Bvalue、属性值中间词Mvalue、属性值结束词Evalue以及无NN;
根据标点符号对训练语料进行分句处理,针对训练语料中每一句文本,基于实体字典、属性名到实体字典以及属性值字典,采用MMSEG算法进行分词处理,将分词处理后每个词的标签定义为NN;
对训练语料中的每一句,判断该句中是否有词包含在属性名到实体字典中所有的属性名中,若判断为否,则将该句删除,继续处理训练语料中的下一句;若判断该句中有一个或多个词包含在属性名到实体字典中所有的属性名中,则循环处理每一个词,将该词对应的标签修改为key,其它词的标签均不变;
对训练语料中的每一句,根据人工处理,获取标签为key的属性名所对应的一个或多个属性值,依次处理每一个属性值,将只包含一个词的属性值的标签修改为value,将包含连续的多个词的属性值中的第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue;如果该句中未找到标签为key的属性名所对应的属性值,则不进行任何处理;
基于标注好的训练语料,对序列标注模型进行训练。
3.根据权利要求2所述的方法,其特征在于,根据所有词对应的标签的特定含义确定该属性名对应的属性值具体包括:
将所有词中对应的标签为Bvalue、Mvalue、Evalue且连续的词、和/或为Bvalue、Evalue且连续的词进行合并,合并结果以及标签为value的词均为该属性名对应的属性值。
4.一种基于字典和序列标注模型的实体属性抽取系统,其特征在于,包括:
数据层,用于对序列标注模型训练所需的数据以及语义加工中所需的字典进行管理;
模型层,用于进行序列标注模型的训练和优化,并保存训练好的序列标注模型;
应用层,用于接收输入文本,并展示最终实体属性结果;
语义加工层,用于根据预先创建的字典对输入文本进行分词处理,得到分词后的文本,并且得到所述词后的文本中的属性名和与所述属性名对应的实体,创建包含实体和属性名的一个或多个数据节点;依次抽取每个数据节点中的属性名,将该属性名的标签定义为key,将其他属性名的标签定义为NN,结合定义的所述属性名的标签,将所述分词后的文本输入到预先训练好的序列标注模型中,得到所述分词后的文本中所有词对应的标签,根据所有词对应的标签的特定含义确定该属性名对应的属性值,进而得到所述输入文本中所有包含有实体、属性名和属性值的最终实体属性结果;
所述模型层具体用于:
创建实体字典、属性名到实体字典和属性值字典,其中,所述实体字典用于管理工业领域中所有的实体,所述属性名到实体字典用于管理实体的属性名和实体的一一对应关系,所述属性值字典用于管理所有可列举的属性值;
所述语义加工层具体用于:
根据实体字典、属性名到实体字典和属性值字典,采用MMSEG算法对输入文本进行分词处理,得到所述输入文本中的属性名,并通过属性名到实体字典得到与所述属性名对应的实体。
5.根据权利要求4所述的系统,其特征在于,所述模型层具体用于:
确定标签的类型,其中,所述类型包括:属性名key、属性值value、属性值起始词Bvalue、属性值中间词Mvalue、属性值结束词Evalue以及无NN;
根据标点符号对训练语料进行分句处理,针对训练语料中每一句文本,基于实体字典、属性名到实体字典以及属性值字典,采用MMSEG算法进行分词处理,将分词处理后每个词的标签定义为NN;
对训练语料中的每一句,判断该句中是否有词包含在属性名到实体字典中所有的属性名中,若判断为否,则将该句删除,继续处理训练语料中的下一句;若判断该句中有一个或多个词包含在属性名到实体字典中所有的属性名中,则循环处理每一个词,将该词对应的标签修改为key,其它词的标签均不变;
对训练语料中的每一句,根据人工标注处理,获取标签为key的属性名所对应的一个或多个属性值,依次处理每一个属性值,将只包含一个词的属性值的标签修改为value,将包含连续的多个词的属性值中的第一个词的标签修改为Bvalue,最后一个词的标签修改为Evalue,中间词的标签均修改为Mvalue;如果该句中未找到标签为key的属性名所对应的属性值,则不进行任何处理;
基于标注好的训练语料,对序列标注模型进行训练。
6.根据权利要求5所述的系统,其特征在于,所述语义加工层具体用于:
将分词之后的文本中所有词对应的标签为Bvalue、Mvalue、Evalue且连续的词、和/或为Bvalue、Evalue且连续的词进行合并,合并结果以及标签为value的词均为该属性名对应的属性值。
7.一种基于字典和序列标注模型的实体属性抽取设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的基于字典和序列标注模型的实体属性抽取方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至3中任一项所述的基于字典和序列标注模型的实体属性抽取方法的步骤。
CN202010377921.5A 2020-05-07 2020-05-07 基于字典和序列标注模型实体属性抽取方法、系统及设备 Active CN111611799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010377921.5A CN111611799B (zh) 2020-05-07 2020-05-07 基于字典和序列标注模型实体属性抽取方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010377921.5A CN111611799B (zh) 2020-05-07 2020-05-07 基于字典和序列标注模型实体属性抽取方法、系统及设备

Publications (2)

Publication Number Publication Date
CN111611799A CN111611799A (zh) 2020-09-01
CN111611799B true CN111611799B (zh) 2023-06-02

Family

ID=72199538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010377921.5A Active CN111611799B (zh) 2020-05-07 2020-05-07 基于字典和序列标注模型实体属性抽取方法、系统及设备

Country Status (1)

Country Link
CN (1) CN111611799B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114430A (zh) * 2021-03-22 2022-09-27 京东科技控股股份有限公司 信息抽取方法、装置和计算机可读存储介质
CN113010593B (zh) * 2021-04-02 2024-02-13 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113722464A (zh) * 2021-09-14 2021-11-30 国泰君安证券股份有限公司 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质
CN113868301B (zh) * 2021-12-02 2022-06-07 昆仑智汇数据科技(北京)有限公司 一种工业设备数据抽取的方法、装置及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN108170678A (zh) * 2017-12-27 2018-06-15 广州市云润大数据服务有限公司 一种文本实体抽取方法与系统
CN108399157A (zh) * 2017-12-21 2018-08-14 中兴通讯股份有限公司 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN109710725A (zh) * 2018-12-13 2019-05-03 中国科学院信息工程研究所 一种基于文本分类的中文表格列标签恢复方法和系统
CN109815340A (zh) * 2019-01-17 2019-05-28 云南师范大学 一种民族文化信息资源知识图谱的构建方法
CN110276066A (zh) * 2018-03-16 2019-09-24 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110390099A (zh) * 2019-06-28 2019-10-29 河海大学 一种基于模板库的对象关系抽取系统和抽取方法
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107357830B (zh) * 2017-06-19 2020-07-28 北京百度网讯科技有限公司 基于人工智能的检索语句语义片段获取方法、装置及终端
US10810223B2 (en) * 2018-06-14 2020-10-20 Accenture Global Solutions Limited Data platform for automated data extraction, transformation, and/or loading

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法
CN108399157A (zh) * 2017-12-21 2018-08-14 中兴通讯股份有限公司 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN108170678A (zh) * 2017-12-27 2018-06-15 广州市云润大数据服务有限公司 一种文本实体抽取方法与系统
CN110276066A (zh) * 2018-03-16 2019-09-24 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN109271631A (zh) * 2018-09-12 2019-01-25 广州多益网络股份有限公司 分词方法、装置、设备及存储介质
CN109710725A (zh) * 2018-12-13 2019-05-03 中国科学院信息工程研究所 一种基于文本分类的中文表格列标签恢复方法和系统
CN109815340A (zh) * 2019-01-17 2019-05-28 云南师范大学 一种民族文化信息资源知识图谱的构建方法
CN110390099A (zh) * 2019-06-28 2019-10-29 河海大学 一种基于模板库的对象关系抽取系统和抽取方法
CN110598203A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN111027309A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于双向长短期记忆网络的实体属性值的抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A novel method for extracting entity data from Deep Web precisely;Hai-tao Yu,et al;《The 26th Chinese Control and Decision Conference (2014 CCDC)》;全文 *
网页中实体表格信息抽取方法的研究;刘岩;《中国优秀硕士学位论文辑》;全文 *

Also Published As

Publication number Publication date
CN111611799A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN111611799B (zh) 基于字典和序列标注模型实体属性抽取方法、系统及设备
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN110442841B (zh) 识别简历的方法及装置、计算机设备、存储介质
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
US11699275B2 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN113705226B (zh) 医学文本实体标注方法和装置
CN113590784A (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
EP4170542A2 (en) Method for sample augmentation
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN113901214B (zh) 表格信息的提取方法、装置、电子设备及存储介质
CN108932233B (zh) 翻译文生成方法、翻译文生成装置以及翻译文生成程序
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2015169947A (ja) モデル学習装置、形態素解析装置、及び方法
CN103455572A (zh) 获取网页中影视主体的方法及装置
CN112818693A (zh) 一种电子元器件型号词的自动提取方法及系统
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN104699662B (zh) 识别整体符号串的方法和装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN112784536B (zh) 数学应用题解答模型的处理方法、系统和存储介质
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant