CN111401058B - 一种基于命名实体识别工具的属性值抽取方法及装置 - Google Patents

一种基于命名实体识别工具的属性值抽取方法及装置 Download PDF

Info

Publication number
CN111401058B
CN111401058B CN202010171103.XA CN202010171103A CN111401058B CN 111401058 B CN111401058 B CN 111401058B CN 202010171103 A CN202010171103 A CN 202010171103A CN 111401058 B CN111401058 B CN 111401058B
Authority
CN
China
Prior art keywords
attribute value
named entity
label
entity recognition
recognition tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010171103.XA
Other languages
English (en)
Other versions
CN111401058A (zh
Inventor
韩伟红
韩跃
李默涵
李树栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202010171103.XA priority Critical patent/CN111401058B/zh
Publication of CN111401058A publication Critical patent/CN111401058A/zh
Application granted granted Critical
Publication of CN111401058B publication Critical patent/CN111401058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种基于命名实体识别工具的属性值抽取方法,包括:在安装命名实体识别工具并对所述命名实体识别工具配置环境后,对目标文本的待抽取属性值进行判断,当所述待抽取属性值为地名或机构名时,对所述目标文本进行预处理,得到词组文本;通过所述命名实体识别工具对所述词组文本进行打标签,得到带有标签的语句;对所述带有标签的语句进行编辑相应的正则表达式;通过编辑后的正则表达式对所述带有标签的语句进行抽取出与标签无空格连接的词汇短语;对所述词汇短语中的标签字符进行删除,得到纯文本词汇短语作为所需的属性值;本发明能够极大程度缩减人工编辑的工作量,并提高已编辑的正则表达式的使用效率。

Description

一种基于命名实体识别工具的属性值抽取方法及装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于命名实体识别工具的属性值抽取方法及装置。
背景技术
面对现今互联网上已发布的海量信息,其中包含了丰富的有价值的数据,也涵盖了大量的虚假信息。如何从互联网发布的信息中提取关键信息便是属性值抽取任务的内容范畴。实体属性和属性值是描述实体内在本质的必要信息,例如特征人物的姓名,性别,商品的保质期,生成厂家与构成成分等,这些信息的属性值对于知识图谱的创建,智能问答系统与推荐系统的建立等多种智能应用都是必要的元素。因此近些年来对于属性值抽取任务,大量研究人员投身于该研究之中,取得了很大的进展。其中一些研究工作为了简化抽取,会在限定条件下进行属性值抽取共工作,限定条件包括特定的领域范围,特定类别的实体,特定类别的属性值等。此外,根据人工参与的程度不同,可将实体属性值抽取的方法大致分为三个类别:
第一大类别是以模式匹配为主的无监督方法,在第一类方法中,基于词汇句法的模式匹配方法和基于依存路径的模式受到较多研究人员的关注,使用范围广泛,对属性值的抽取具有良好的效果。其中,基于词汇句法的模式匹配方法是根据实体和属性信息的分布规律,由人工总结编写大量的关于规律的正则表达式,并使用正则表达式作为抽取属性值的触发词,匹配抽取出文本信息中的关键属性值。例如:“A的国籍是B”的句法模式是:“某实体人物的国籍是某属性值”,故可编辑正则表达是为“./国籍是(./?)”,此种方式是目前使用最广泛,效率最高的属性值抽取模式。而基于依存路径的模式是把各个描述实体属性的语句做依存关系解析,然后挑选出实体与属性名称的依存关系,它的实质是词语和依存关系组合在一起的字符串,将其作为匹配模式。
对于第一大类以模式匹配为主的无监督方法,尽管这一类方法得到了广泛使用,但是在构建模式系统的过程中,需要耗费大量的人力资源去总结归纳语言的语法规律,进而编写大量的正则表达式构成模式匹配系统,并且每次从文本中抽取一句话进行所有的正则表达式匹配来抽取关键的属性值,由于模式系统中的每一条正则表达式都会对一句话返回一条属性值的抽取结果,大量的冗余信息存在于抽取结果当中,其中包含一条较为合理的属性值抽取结果。所以对抽取获得的结果还需要另外的过滤筛选,仅保留其中一条较为合理的抽取结果。以上所述的内容即是第一类方法的劣势,简单的讲,若想使用该方法达到比较好的效果,需要对句法的分析,编写正则表达式的规模有较高的要求,抽取的结果也会出现的冗余数据,真实有效数据相对较少,这也导致数据的稀疏问题。为了解决这些问题,一些研究工作者提出一种新颖的方案,通过借助搜索引擎利用网络数据的冗余性来提高抽取性能评估的召回率,但是采用搜索引擎的查询限定也制约了实际应用。
第二大类方法是以训练学习模型为主的监督方法,第二类方法是采用有监督的机器学习方法,该方法主要是结合统计机器学习和深度学习技术。对于结合了统计机器学习技术的有监督属性值抽取方法,该类技术的通用思想是利用机器学习模型对每个属性值进行训练,进而能够识别特定属性的属性值内容,常用的机器学习模型有:支持向量机模型(SVM),隐马尔可夫模型(HMM),条件随机场模型(CRF),最大熵模型(MaxEnt)。相关研究人员对以上介绍提到的常用模型在属性值抽取任务执行的效果做了对比实验,实验过程严格控制特征条件的恒定性,即特征条件不随模型的更改而变化。最终的分析结果表明,运用HMM模型的性能效果较差,其他模型的性能并无明显差异。对于结合了深度学习技术的有监督属性值抽取方法主要可以分成两个类别,即是深度神经网络(DNN)和长短期记忆网络(LSTM)。由于自然语言常以时间轴为主线展开描述,而长短期记忆网络属于序列模型,非常适合处理含有时间特征的文本。因此,很多研究人员使用长短期记忆网络来做属性值抽取任务,并取得了很好的效果。例如以下举例的几个典型的研究现状,Liu等人提出一种基于注意力机制的循环神经网络模型,并将对其信息融合到模型中,提高属性抽取性能。后来随之自然语言处理技术的发展,Yao等人利用Word2Vec模型获取词向量表示,作为循环神经网络模型的输入,进而在中文语料中抽取人物的属性信息。
对于第二类使用机器学习方法,其缺陷也较为明显,它需要人工定义特征,这种做法一方面增加了人工成本,另一方面特征集难以覆盖所有实例,降低了抽取性能。得到的属性值的准确率比较低,建立模型的鲁棒性弱。基于分类器的方法,它依赖多文本间的语义相似度,将内容相似的文本归为一类,给出对于该类文本的某些常见的属性触发词,作为该类别的固定的抽取方式。它的不足之处在于分类器的生成过程,需要大量的人工标注的训练语料,抽取结果的好坏不仅取决于人工标注的训练语料的规模,而且依赖人工标注的语料的准确性。
第三类方法是通过自动构建训练语料而产生的弱监督方法,第三类方法是以自动构建训练语料而产生的弱监督机器学习方法,现有的研究中,Wu等人利用维基百科信息框中的属性信息,从正文中回标语句,来自动构建训练语料,然后训练CRF模型抽取属性值。Probst等人将属性值抽取转化为分类问题,并利用词汇短语间的互信息,制定启发式规则,进而获取包含属性值和属性名的文本片段,并结合预构建的属性值词典自动标注数据,作为朴素贝叶斯分类器的训练语料,并提出一种半监督的co-EM算法来提高分类效果。
对于第三类方法中,自动构建训练语料的弱监督机器学习方法虽然降低了标注数据的成本,但是需要机器自动学习获取训练语料的标签信息。一般而言,机器执行标注的标签信息的准确率要低于人工标记的结果,因此,使用混合了机器标注信息的训练集去学习得到的模型,其性能要比在第二种方法中学习获得的模型性能要低许多。这样低性能的模型最终也必将导致属性值抽取结果的准确性相对降低。
因此,目前市面上亟需一种可以无需根据语法规则去编辑大量的正则表达式组成模式匹配集合以便覆盖尽可能多的语言现象,而实现缩减人工编辑工作量并提高已编辑的正则表达式使用效率的属性值抽取方法。
发明内容
本发明提供了一种基于命名实体识别工具的属性值抽取方法及装置,极大程度缩减了人工编辑的工作量,并提高已编辑的正则表达式的使用效率。
为了解决上述技术问题,本发明实施例提供了一种基于命名实体识别工具的属性值抽取方法,包括:
在安装命名实体识别工具并对所述命名实体识别工具配置环境后,对目标文本的待抽取属性值进行判断,当所述待抽取属性值为地名或机构名时,对所述目标文本进行预处理,得到词组文本;
通过所述命名实体识别工具对所述词组文本进行打标签,得到带有标签的语句;其中,所述带有标签的语句包含人名标签、地名标签和机构名标签;
对所述带有标签的语句进行编辑相应的正则表达式;其中,所述正则表达式的匹配内容为地名标签或机构名标签;
通过编辑后的正则表达式对所述带有标签的语句进行抽取出与标签无空格连接的词汇短语;
对所述词汇短语中的标签字符进行删除,得到纯文本词汇短语作为所需的属性值。
作为优选方案,所述预处理的步骤,包括对目标文本进行分句和分词处理。
作为优选方案,所述正则表达式的匹配内容为地名或机构名标签。
作为优选方案,所述对所述词汇短语中的标签字符进行删除的步骤中,具体为:通过字符串删除技术对所述词汇短语中的标签字符进行删除。
本发明实施例还提供了一种基于命名实体识别工具的属性值抽取装置,包括:
预处理模块,用于在安装命名实体识别工具并对所述命名实体识别工具配置环境后,对目标文本的待抽取属性值进行判断,当所述待抽取属性值为地名或机构名时,对所述目标文本进行预处理,得到词组文本;
标签处理模块,用于通过所述命名实体识别工具对所述词组文本进行打标签,得到带有标签的语句;其中,所述带有标签的语句包含人名标签、地名标签和机构名标签;
正则表达式模块,用于对所述带有标签的语句进行编辑相应的正则表达式;其中,所述正则表达式的匹配内容为地名标签或机构名标签;
短语抽取模块,用于通过编辑后的正则表达式对所述带有标签的语句进行抽取出与标签无空格连接的词汇短语;
字符删除模块,用于对所述词汇短语中的标签字符进行删除,得到纯文本词汇短语作为所需的属性值。
作为优选方案,所述预处理模块用于进行预处理的步骤中,包括对目标文本进行分句和分词处理。
作为优选方案,所述正则表达式的匹配内容为地名或机构名标签。
作为优选方案,所述字符删除模块用于对所述词汇短语中的标签字符进行删除的步骤中,具体为:通过字符串删除技术对所述词汇短语中的标签字符进行删除。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上述任一项所述的基于命名实体识别工具的属性值抽取方法。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上述任一项所述的基于命名实体识别工具的属性值抽取方法。
相比于现有技术,本发明实施例具有如下有益效果:
通过使用本发明技术方案编写正则表达式只需要识别出地名和属性名的标签即可,而无需根据语法规则去编辑大量的正则表达式组成模式匹配集合以便覆盖尽可能多的语言现象,因此极大程度缩减了人工编辑的工作,并提高了已编辑的正则表达式的使用效率。
附图说明
图1 :为本发明基于命名实体识别工具的属性值抽取方法的步骤流程图;
图2 :为本发明基于命名实体识别工具的属性值抽取装置的结构示意图;
图3 :为现有技术中的执行属性值抽取任务的传统方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明优选实施例提供了一种基于命名实体识别工具的属性值抽取方法,包括:
S1,在安装命名实体识别工具并对所述命名实体识别工具配置环境后,对目标文本的待抽取属性值进行判断,当所述待抽取属性值为地名或机构名时,对所述目标文本进行预处理,得到词组文本。
具体地,安装命名实体识别工具通常可以选择的工具有哈尔滨工业大学历时十年做好的一个语言技术平台,通常简称哈工大LTP工具;还有斯坦福大学开发的基于条件随机场的命名实体识别系统,该系统参数是基于CoNLL、MUC-6、MUC-7和ACE命名实体语料训练出来的。简称Stanford NER,此外还有诸多其他的工具,网上都可自行搜索了解相关工具内容。在工具下载安装过后,通常使用中都需要调配参数,引用具有命名实体识别功能的模型包的路径到相应的执行过程中,以便程序能够找到本地的命名实体识别模型文件并调用功能。
在使用本发明技术进行地名或机构名的属性值信息抽取之前,需要判断语句中待抽取的属性值信息是否属于地名或机构名类型,抽取的属性值必须属于这两类方可使用本发明技术高效地获取属性值信息。在确定待抽取文本的属性值属于地名或机构名类型后,即可正式开始使用本发明技术进行抽取属性值工作。首先在数据预处理过程中进行分句,分词操作,以便后续使用命名实体识别工具时对各个词组打上标签。其中,分句分词操作是使用编程中引入一个类似具有分词分句的库函数,再编程使用库函数的该功能即可实现。
S2,通过所述命名实体识别工具对所述词组文本进行打标签,得到带有标签的语句。其中,打标签的步骤通过直接使用工具就可以在输出文本中对每个词块附加一个标签,不是只输出标签,“/O”,“/S-Nh”即是标签。
S3,对所述带有标签的语句进行编辑相应的正则表达式。具体地,对处理好的且带有标签的语句编辑相关的正则表达式,正则表达式的匹配内容只需是地名或机构名标签即可,无需人工根据语法规则制定相应的匹配模式。其中,正则表达式即是根据语法规则来编写,比如,对于“A的出生地是B”这句话,在掌握一系列的正则表达式的编写规则后,可以针对该种语法编写这一类的正则表达式为“.*?的出生地是(.*?)”,其中,“.”可以匹配除空格以外的任意字符,“*”可以把“.”代表的字符重复零次或更多,是贪婪匹配的类型,匹配尽可能多的字符,而加上“?”使之成为非贪婪匹配类型,在匹配到“.”可代表的类型字符时,使匹配尽可能少的字符。使用该条正则表达式,可以把A的国籍给提取出来。
S4,通过编辑后的正则表达式对所述带有标签的语句进行抽取出与标签无空格连接的词汇短语。其中,经过分句分词操作后,文本的内容情况例如:“伊利诺伊州/B-Ni 议会/E-Ni”,“伊利诺伊州”便与其标签“B-Ni”无空格连接,“议会”便与其标签“E-Ni”无空格连接,而标签“B-Ni”与该语句后面的词语“议会”是有空格连接的。抽取出与标签无空格连接的执行过程可以编写类似如“.* (.*?)/B-Ni (.*?)/E-Ni”的正则表达式,再结合整个抽取过程,将关键信息抽取出来。
S5,对所述词汇短语中的标签字符进行删除,得到纯文本词汇短语作为所需的属性值。具体地,在使用字符串删除技术删去和词汇短语连接的标签字符,剩下的纯文本词汇短语即是所需属性值,至此一个目标属性值抽取任务便完成了。
下面结合具体的实施例,对本发明技术方案进行详细说明。
以A人物简历生成过程为例,解释说明使用本发明的属性值抽取工作。首先从四个较为常用的中文百科网站上使用网络爬虫技术获取人物简历的纯文本数据,抽取的目标属性值是A曾经任职过的工作单位机构名称。首先对获取到的文本数据进行分句,分词操作。
对分词后的文本数据使用命名实体识别工具,该工具会对人名、地名、机构名打上特定标签,分别是Nh,Ns,Ni。此外对于一个机构名称如果在分词阶段被分成若干个词块,在命名实体识别过后,会识别出该词块是属于机构名的起始词汇或者中间词汇或者结尾词汇,起始词汇用B-Ni表示,一个机构名中只有一个词块属于起始词汇,中间词汇用I-Ni表示,结尾词汇用E-Ni表示。
通过使用识别机构名标签的正则表达式,即可识别出机构名和标签无空格连接的词块,将该词块抽取出来,再过滤机构名的标签,即可得到目标机构名的纯文本数据,抽取得到A曾经任职过的工作机构。
针对某些特定的属性值抽取任务,巧妙地使用带有命名实体识别(NER)功能的分词工具,将文本中对某些特定属性值描述的词汇,使用命名实体识别功能可以自动将其打上标签,标签分为人名,地名和机构名三种类别,利用这一特征,对于抽取诸如人物的工作单位,出生地点等类似的属性值任务时,可以通过该命名实体识别功能快速且准确地给文本里的关键地名和机构名的属性值信息打上标签,后续的属性值抽取操作便简单许多。在具体的实施过程中,研究人员可以编写专门识别地名或机构名的两类正则表达式,进而对打上地名或机构名标签的语句进行触发词定位,抽取出关键的属性值信息。可见,使用本发明的改善创新作用体现在节省程序员在编写正则表达式的规模上,综合使用该技术后再编写正则表达式只需要识别出地名和属性名的标签即可,而无需根据语法规则去编辑大量的正则表达式组成模式匹配集合以便覆盖尽可能多的语言现象,因此极大程度缩减了人工编辑的工作,并提高了已编辑的正则表达式的使用效率。
相应地,如图2所示,本发明实施例还提供了一种基于命名实体识别工具的属性值抽取装置,包括:
预处理模块,用于在安装命名实体识别工具并对所述命名实体识别工具配置环境后,对目标文本的待抽取属性值进行判断,当所述待抽取属性值为地名或机构名时,对所述目标文本进行预处理,得到词组文本;在本实施例中,所述预处理模块用于进行预处理的步骤中,包括对目标文本进行分句和分词处理。
标签处理模块,用于通过所述命名实体识别工具对所述词组文本进行打标签,得到带有标签的语句。其中,所述带有标签的语句包含人名标签、地名标签和机构名标签。
正则表达式模块,用于对所述带有标签的语句进行编辑相应的正则表达式;在本实施例中,所述正则表达式的匹配内容为地名或机构名标签。
短语抽取模块,用于通过编辑后的正则表达式对所述带有标签的语句进行抽取出与标签无空格连接的词汇短语。
字符删除模块,用于对所述词汇短语中的标签字符进行删除,得到纯文本词汇短语作为所需的属性值。在本实施例中,所述字符删除模块用于对所述词汇短语中的标签字符进行删除的步骤中,具体为:通过字符串删除技术对所述词汇短语中的标签字符进行删除。
为了进一步体现本发明技术方案的优点,下面对现有技术中的执行属性值抽取任务的传统方案进行描述:
在自然语言处理领域中,处理非结构化文本以形成便于计算机存储的结构化数据一直是长期探索的难题。解决这个问题,常常需要从纯文本数据中提取出关键的属性值数据,大量的科研工作者对该属性值抽取问题进行了深入研究,现已形成一套较为通用合理的方法流程。在整个非结构化数据转化为结构化数据的过程中,属性值抽取工作是一个关键的任务,抽取结果的质量直接决定了最终生成结构化数据的质量。
如图3所示,具体为:(1)文本预处理:在第一阶段的过程中,我们首先需要从网页上获取相关的中文百科文本,然后对百科的文章进行分句、分词、词性标注和实体标注等自然语言的预处理过程,以方便我们在后续进行的分析工作。(2)属性名抽取:在第二阶段的过程中,我们把属性值当作命名实体,使用诸如K元模式提取等频繁模式挖掘方法,进一步处理并分析命名实体标注与部分词项间的关联信息。通过分析关联信息的结果,我们将某些与命名实体的关联性很强的词语或者短语定义为属性。(3)触发词提取:在第三阶段的过程中,对于第二阶段中定义的属性,考虑采用自扩展的方法获取属性的触发词。(4)模式挖掘:在第四阶段的过程中,根据上一阶段获取的属性触发词,并结合含有属性值的尸体标注的句子,从中挖掘属性值抽取模式。通过聚类等方法过滤可信度低的模式。(5)属性值抽取:在第五阶段的过程中,根据上一阶段挖掘获取的高质量的属性值抽取模式,应用于文本的句子分析,从而获取属性值。
针对以上流程图中第五阶段的属性值抽取任务,本发明技术对该研究点的通用方法进行改进提高。属性值抽取任务的通用方法在以上现有技术部分已进行详细介绍。简单的讲,该任务的处理方法可分为传统属性值抽取方法和新兴的属性值抽取方法两大类,传统方法主要包括模式匹配方法,基于机器学习的分类器方法和使用第三方结构化知识库方法;新兴方法即是伴随计算机存储能力和运算能力的提升而大方光彩的深度学习方法。本发明技术针对地名和机构名的属性值类型,巧妙地运用命名实体识别工具对地名和机构名识别并打上标签的特点,使用模式匹配方法识别标签,进而定位到相关的属性值在文本语句中的位置,后续便可简单的抽取出相应的地名和机构名的属性值信息。
本发明与现有技术方案的区别在于:数据预处理过程中,除了执行分词分句操作之外,本发明再将分词分句得到的语句输入到具有命名实体识别功能的工具中,将带有机构名或地名词汇的语句,且这两类属性属于属性值抽取的目标,进一步添加机构名或地名的标签。所得结果在后续使用模式匹配方法抽取地名或机构名属性值时,便只需使用以地名或机构名标签为触发词的正则表达式抽取即可得到相应的属性值信息。
对比一般的属性值方法,一般方法使用人工编写的大量正则表达式组成的集合去匹配抽取关键信息,对一条语句抽取的结果会返回得到多条抽取信息,其中大量的信息必然重复冗余,还需进一步排除过滤,筛选出一条合适的抽取结果,将其作为最终抽取的属性值信息。这些筛选工作必然会增加该领域工作者的负担。
由以上对现有方法技术与本发明技术的分析可以看出,使用本发明可以缩减属性值抽取技术人员的工作负担,并提高抽取结果的准确性。此外,本发明的思路方法属于对其他工具的迁移运用来优化解决属性值抽取任务的效率,对自然语言处理本领域的其他工作者拓展思路技术具有启发性作用。
可见,通过上述与现有技术的对比,本发明技术方案的优点在于:
1.对于由机构或地名组成的语句执行的属性值抽取任务,例如包含工作单位和出生地等类似文本的属性值抽取工作。一般的处理方法是直接根据常用的语法编写大量的正则表达式集合,使用该发明可以提高此类属性值抽取的准确率,使得抽取出更准确的结果以保证方便后续研究人员的工作顺利进行。
2.本发明的实质是在预处理工作中,通过外部带有命名实体识别功能工具的辅助作用,准确识别出文本语句中包含的机构名和地名等属性值信息,打上标签,后续编写正则表达式只需针对标签抽取相应的属性值信息即可。因此该发明的一个优点非常明显,即是缩减人工编写大量正则表达式集合的时间,同时提升仅识别机构名或地名标签的正则表达式的使用效率。
3.对于使用模式匹配方法来做抽取属性值任务的一大类方法而言,该发明的思想具有启发性的作用。它可帮助启发该领域的研究人员进一步思考如何从多个方面提高属性值抽取的准确性。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的基于命名实体识别工具的属性值抽取方法。
本发明实施例还提供了一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一实施例所述的基于命名实体识别工具的属性值抽取方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序、计算机程序),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器也可以是任何常规的处理器,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,上述终端设备仅仅是示例,并不构成对终端设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于命名实体识别工具的属性值抽取方法,其特征在于,包括:
在安装命名实体识别工具并对所述命名实体识别工具配置环境后,对目标文本的待抽取属性值进行判断,当所述待抽取属性值为地名或机构名时,对所述目标文本进行预处理,得到词组文本;
通过所述命名实体识别工具对所述词组文本进行打标签,得到带有标签的语句;其中,所述带有标签的语句包含人名标签、地名标签和机构名标签;
对所述带有标签的语句进行编辑相应的正则表达式;其中,所述正则表达式的匹配内容为地名标签或机构名标签;
通过编辑后的正则表达式对所述带有标签的语句进行抽取出与标签无空格连接的词汇短语;
对所述词汇短语中的标签字符进行删除,得到纯文本词汇短语作为所需的属性值。
2.如权利要求1所述的基于命名实体识别工具的属性值抽取方法,其特征在于,所述预处理的步骤,包括对目标文本进行分句和分词处理。
3.如权利要求1所述的基于命名实体识别工具的属性值抽取方法,其特征在于,所述对所述词汇短语中的标签字符进行删除的步骤中,具体为:通过字符串删除技术对所述词汇短语中的标签字符进行删除。
4.一种基于命名实体识别工具的属性值抽取装置,其特征在于,包括:
预处理模块,用于在安装命名实体识别工具并对所述命名实体识别工具配置环境后,对目标文本的待抽取属性值进行判断,当所述待抽取属性值为地名或机构名时,对所述目标文本进行预处理,得到词组文本;
标签处理模块,用于通过所述命名实体识别工具对所述词组文本进行打标签,得到带有标签的语句;其中,所述带有标签的语句包含人名标签、地名标签和机构名标签;
正则表达式模块,用于对所述带有标签的语句进行编辑相应的正则表达式;其中,所述正则表达式的匹配内容为地名或机构名标签;
短语抽取模块,用于通过编辑后的正则表达式对所述带有标签的语句进行抽取出与标签无空格连接的词汇短语;
字符删除模块,用于对所述词汇短语中的标签字符进行删除,得到纯文本词汇短语作为所需的属性值。
5.如权利要求4所述的基于命名实体识别工具的属性值抽取装置,其特征在于,所述预处理模块用于进行预处理的步骤中,包括对目标文本进行分句和分词处理。
6.如权利要求4所述的基于命名实体识别工具的属性值抽取装置,其特征在于,所述字符删除模块用于对所述词汇短语中的标签字符进行删除的步骤中,具体为:通过字符串删除技术对所述词汇短语中的标签字符进行删除。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~3任一项所述的基于命名实体识别工具的属性值抽取方法。
8.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~3任一项所述的基于命名实体识别工具的属性值抽取方法。
CN202010171103.XA 2020-03-12 2020-03-12 一种基于命名实体识别工具的属性值抽取方法及装置 Active CN111401058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171103.XA CN111401058B (zh) 2020-03-12 2020-03-12 一种基于命名实体识别工具的属性值抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171103.XA CN111401058B (zh) 2020-03-12 2020-03-12 一种基于命名实体识别工具的属性值抽取方法及装置

Publications (2)

Publication Number Publication Date
CN111401058A CN111401058A (zh) 2020-07-10
CN111401058B true CN111401058B (zh) 2023-05-02

Family

ID=71430700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171103.XA Active CN111401058B (zh) 2020-03-12 2020-03-12 一种基于命名实体识别工具的属性值抽取方法及装置

Country Status (1)

Country Link
CN (1) CN111401058B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914559B (zh) * 2020-07-31 2023-04-07 平安科技(深圳)有限公司 基于概率图模型的文本属性抽取方法、装置及计算机设备
CN112329469B (zh) * 2020-11-05 2023-12-19 新华智云科技有限公司 一种行政地域实体识别方法及系统
CN112507108A (zh) * 2020-11-25 2021-03-16 北京明略软件系统有限公司 基于json规则文件的知识抽取方法、系统及规则解析引擎
CN114004230B (zh) * 2021-09-23 2022-07-05 杭萧钢构股份有限公司 一种生产钢结构的工控调度方法和系统
CN114169317B (zh) * 2021-12-12 2023-02-14 海南港航控股有限公司 一种基于规则的人物属性提取方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237540A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 财政数据的获取方法、装置、终端设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235812B2 (en) * 2012-12-04 2016-01-12 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up
US11010768B2 (en) * 2015-04-30 2021-05-18 Oracle International Corporation Character-based attribute value extraction system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237540A1 (zh) * 2018-06-12 2019-12-19 平安科技(深圳)有限公司 财政数据的获取方法、装置、终端设备及介质

Also Published As

Publication number Publication date
CN111401058A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
Abney et al. Boosting applied to tagging and PP attachment
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
Prendinger A novel discourse parser based on support vector machine classification
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
US20200311345A1 (en) System and method for language-independent contextual embedding
CN113204967B (zh) 简历命名实体识别方法及系统
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN113821605A (zh) 一种事件抽取方法
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN114036950A (zh) 一种医疗文本命名实体识别方法及系统
Fernandes et al. Appellate court modifications extraction for portuguese
CN111400449B (zh) 一种正则表达式抽取方法及装置
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN113377844A (zh) 面向大型关系型数据库的对话式数据模糊检索方法及装置
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant