CN109766552B - 一种基于公告信息的指代消解方法及装置 - Google Patents

一种基于公告信息的指代消解方法及装置 Download PDF

Info

Publication number
CN109766552B
CN109766552B CN201910016614.1A CN201910016614A CN109766552B CN 109766552 B CN109766552 B CN 109766552B CN 201910016614 A CN201910016614 A CN 201910016614A CN 109766552 B CN109766552 B CN 109766552B
Authority
CN
China
Prior art keywords
character string
name
keyword
condition
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910016614.1A
Other languages
English (en)
Other versions
CN109766552A (zh
Inventor
任宁
晋耀红
李德彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Taiyue Xiangsheng Software Co ltd
Original Assignee
Anhui Taiyue Xiangsheng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Taiyue Xiangsheng Software Co ltd filed Critical Anhui Taiyue Xiangsheng Software Co ltd
Priority to CN201910016614.1A priority Critical patent/CN109766552B/zh
Publication of CN109766552A publication Critical patent/CN109766552A/zh
Application granted granted Critical
Publication of CN109766552B publication Critical patent/CN109766552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于公告信息的指代消解方法及装置,该方法包括:对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称。可以有效提升公告信息中公司名称指代消解的准确率。

Description

一种基于公告信息的指代消解方法及装置
技术领域
本申请涉及语言处理技术领域,具体而言,涉及一种基于公告信息的指代消解方法及装置。
背景技术
互联网络的迅速发展为人们提供了海量的资讯或语料,而基于语言简练的要求,能够根据上下文的关系推断出来的信息经常在资讯中通过指代的方式来表征。因而,在海量的资讯或语料中,由于存在大量的指代现象,给用户准确理解资讯带来了困扰,需要对指代进行消解。其中,指代是指资讯中用一个指代词回指某个以前描述过的对象或内容。在语言学中,指代词称为照应语,所指的对象或内容称为先行语,指代消解是自然语言处理的重要内容,是指在资讯或语料中确定指代词指向的先行语的语言处理过程。
目前,一般采用机器学习方法,利用资讯或语料中上下文句法信息进行指代消解。但该指代消解方法,由于机器学习方法对资讯或语料中上下文句法的理解和表示方法仍然不够成熟,且采用单一上下文句法信息进行通用领域的指代消解,使得指代消解的准确率仍然较低,若将其适用于专用领域进行指代消解,准确率可能会更低。
发明内容
有鉴于此,本申请的目的在于提供一种基于公告信息的指代消解方法及装置,提升公告信息中公司名称指代消解的准确率。
第一方面,本申请实施例提供了一种基于公告信息的指代消解方法,该方法包括:
对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;
从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称。
可选地,所述指代条件集包括:第一指代关键词集以及第二指代关键词集与指代条件的匹配关系,所述获取与预设指代条件集相匹配的字符串,包括:
获取第一字符串集,所述第一字符串集包含与第一指代关键词集相匹配的第一字符串及其相应的位置信息;
获取第二字符串集,所述第二字符串集包含与第二指代关键词集相匹配的第二字符串及其相应的位置信息;从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集;
整合第一字符串集和第三字符串集,得到与预设指代条件集相匹配的第四字符串集。
可选地,所述第一指代关键词集包括:本公司、我公司;所述第二指代关键词集包括:公司;所述机构关键词包括:有限公司。
可选地,所述指代条件包括:第一指代条件和第二指代条件,所述从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集,包括:
从获取的第二字符串集中,提取与第一指代条件和第二指代条件均相匹配的字符串,得到所述第三字符串集。
可选地,所述第一指代条件包括以下条件中的一个或其任意组合:
条件一:第二指代关键词出现在所述语料中的段首或句首;
条件二:第二指代关键词出现在预设标点符号之后并紧邻该预设标点符号;
条件三:第二指代关键词前面必须紧邻预设的前表指代表达式列表中的字符串;
与所述第一指代条件相匹配包括:
与所述条件一或所述条件二或所述条件三相匹配。
可选地,所述前表指代表达式列表中的字符串包括:推动、结合、发展、拓宽、增厚、保障、实现、随着、解决、奠定、落实、为;
所述第二指代条件包括:
第二指代关键词后不能紧邻以下字符串中的任意一个:
名称、类型、注册资本、注册地址、法。
可选地,所述方法还包括:
获取识别的命名实体中的第一个机构名称,作为所述机构关键词对应的机构简称,结合获取的以机构关键词为结尾的机构名称与获取的字符串,构建简称全称对应表;
基于所述简称全称对应表,对所述公告信息中,除所述机构简称外,与所述机构简称相同的机构名称进行替换
可选地,所述方法还包括:
从识别的命名实体中,获取以机构关键词为结尾的第一机构名称集;
提取第一机构名称集中的一第一机构名称,获取所述第一机构名称在所述公告信息中首次出现的位置,定位所述位置后出现的第一个以下简称“?或下称[““];
定位所述第一个以下简称“?或下称[““]后出现的第一个”?;
提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串;
判断提取的多个字符串是否包含预设字符集中的任意一个,若否,基于所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,获取所述第一机构名称对应的第一机构简称;
基于所述第一机构名称,对所述公告信息中,除所述第一机构简称外,与所述第一机构简称相同的机构名称进行替换。
可选地,在所述定位所述第一个以下简称“?或下称[““]后出现的第一个”?之后,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串之前,所述方法还包括:
判断所述第一个”?之后是否包含“、”或“或”;
若否,执行所述提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串的步骤;
若是,定位所述“、”或“或”后出现的第一个“?或[““],并定位所述第一个以下简称“?或下称[““]后出现的第二个”?,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,以及,提取所述第一个“?或[““]至所述第二个”?之间的字符串。
第二方面,本申请实施例提供了一种基于公告信息的指代消解装置,该装置包括:
机构全称识别模块,用于对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;
指代消解模块,用于从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本申请实施例提供的一种基于公告信息的指代消解方法及装置,通过对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称。这样,针对公告信息专用领域,综合考虑公告信息中包含的各种信息,设置指代条件集,利用指代条件集获取需要进行指代消解的字符串,能够有效提升对公告信息专用领域进行指代消解的准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于公告信息的指代消解方法流程示意图;
图2为本申请实施例提供的一种基于公告信息的指代消解装置结构示意图;
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种基于公告信息的指代消解方法流程示意图。应用于公告信息中机构名称的指代消解,如图1所示,该方法包括:
步骤101,对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;
本申请实施例中,考虑到公告专用领域中,公告信息(语料)的规范性,提出采用利用规则建模的方法进行指代消解,从而可以综合考虑公告信息中包含的各种信息,以提升公告专用领域中指代消解的准确率。
本申请实施例中,命名实体识别(NER,Named Entity Recognition)是指从语料(待识别文本)中识别出具有特定意义的实体,该特定意义的实体包括但不限于:人名、地名、机构名(ORG,Organization)、专有名词等。
本申请实施例中,作为一可选实施例,机构关键词包括但不限于:学校、法院、有限公司等。以下以机构关键词为有限公司为例进行说明,对于其他的关键词,可以依据与有限公司相类似的方法进行处理。
本申请实施例中,对语料全文依序进行命名实体识别,在识别的命名实体中,识别的第一个以“有限公司”为结尾的机构名称,为该有限公司对应的机构全称,即第一个以“有限公司”为结尾的机构名称为该机构关键词对应的机构全称。例如,对于如下语料:
证券代码:002621证券简称:[三垒股份]公告编号:2017-022
[大连三垒机器股份有限公司]关于收购股权的进展公告
本申请实施例中,对上述语料进行命名实体识别并标记,得到:
证券代码:002621证券简称:[三垒股份]ORG公告编号:2017-022
[大连三垒机器股份有限公司]ORG关于收购股权的进展公告。其中,字符串ORG前的实体为识别出的命名实体,包括:三垒股份和大连三垒机器股份有限公司两个机构名。其中,第一个以机构关键词“有限公司”为结尾的机构名称为字符串“公告编号:”后的“大连三垒机器股份有限公司”ORG,该机构名称为机构关键词“有限公司”对应的机构全称,即公司名称的全称。
本申请实施例中,对于每一公告信息,分别执行本申请实施例的方法。
步骤102,从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称。
本申请实施例中,作为一可选实施例,指代条件集包括:第一指代关键词集以及第二指代关键词集与指代条件的匹配关系。其中,
第一指代关键词集为能够独立指代机构全称的关键词集合。例如,对于机构关键词为有限公司,第一指代关键词集包括:本公司、我公司;对于机构关键词为法院,第一指代关键词集包括:本院、本法院、我院。
第二指代关键词集与指代条件的匹配关系中,该第二指代关键词集为不能够独立指代机构全称的关键词集合。本申请实施例中,对于机构关键词为有限公司,第二指代关键词集包括:公司。对于机构关键词为法院,第二指代关键词集包括:法院。由于第二指代关键词不能够独立指代机构全称,例如,对于第二指代关键词为公司的情形,可能指代机构全称,也可能不指代机构全称,因而,需要结合预先设置的指代条件来进行分析,以确定其是否指代机构全称。举例来说,在语料“为公司的长期发展提供了有力保障”中,第二指代关键词“公司”指代机构全称;而在语料“[大连三垒机器股份有限公司]关于收购关联公司股权的进展公告”中,“关联公司”中的第二指代关键词“公司”并非指代本公司的机构全称。因而,作为一可选实施例,获取与预设指代条件集相匹配的字符串,包括:
获取第一字符串集,所述第一字符串集包含与第一指代关键词集相匹配的第一字符串及其相应的位置信息;
获取第二字符串集,所述第二字符串集包含与第二指代关键词集相匹配的第二字符串及其相应的位置信息;从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集;
整合第一字符串集和第三字符串集,得到与预设指代条件集相匹配的第四字符串集。
则从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称,可以为,将第四字符串集的每个元素替换为所述机构名称。
可以理解,在一篇公告信息中,可能存在多个与第一指代关键词集相匹配的第一字符串。本申请在获取第一字符串的同时,还记录第一字符串的位置信息,用于表达第一字符串在公告信息中的位置。
示例地,以第一字符串在公告信息中的字符位置作为位置信息,那么,对于语料“2017年7月26日,XX先生通过大宗交易方式减持其所持有的公司无限售流通股1000000股,占公司总股本比例为0.205532%。XX先生同意将本次大宗交易所获资金用于公司员工第一期持股计划清算后的员工保障事宜”来说,以段首第一个字符“2”的起始位置为0,每个字符占一个字符位,则该语料中的与第二关键词集相匹配的第二字符串的位置信息可分别表示为:[30,32]、[48,50]和[85,87];对于[30,32],“30”表示起始位置信息,“32”表示终止位置信息。
2017年7月26日,XX先生通过大宗交易方式减持其所持有的公司[30,31]无限售流通股1000000股,占公司[48,49]总股本比例为0.205532%。XX先生同意将本次大宗交易所获资金用于公司[85,86]员工第一期持股计划清算后的员工保障事宜。
同样地,在一篇公告信息中,可能存在多个与第二指代关键词集相匹配的第二字符串。本申请在获取第二字符串的同时,还记录第二字符串的位置信息,用于表达第二字符串在公告信息中的位置。本申请实施例中,作为一可选实施例,指代条件至少包括:第一指代条件和第二指代条件,从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集,包括:
从获取的第二字符串集中,提取与第一指代条件和第二指代条件均相匹配的字符串,得到所述第三字符串集。
本申请实施例中,作为一可选实施例,对于第二指代关键词为公司的情形,第一指代条件包括但不限于以下条件中的一个或其任意组合:
条件一:第二指代关键词出现在所述语料中的段首或句首;
条件二:第二指代关键词出现在预设标点符号之后并紧邻该预设标点符号;
本申请实施例中,预设标点符号包括:逗号、句号、分号,即“,。;”三种标点符号。
条件三:第二指代关键词前面必须紧邻预设的前表指代表达式列表中的字符串。
本申请实施例中,前表指代表达式列表中的字符串包括但不限于:推动、结合、发展、拓宽、增厚、保障、实现、随着、解决、奠定、落实、为等字符串。
本申请实施例中,如前所述,对于长字符串语料中出现的字符串“公司”,由于其可能并非指代本公司的机构全称。例如,对于一长字符串语料“北京神州泰岳软件股份有限公司”,“公司”是该语料的结尾,但该字符串“公司”,并非是对本公司的指代词。因而,需要设置指代条件,确定“公司”前必须紧邻指代条件预设的字符串。
本申请实施例中,与第一指代条件相匹配是指与条件一或条件二或条件三相匹配。
本申请实施例中,作为另一可选实施例,第二指代条件包括但不限于:
第二指代关键词后不能紧邻以下字符串中的任意一个:
名称、类型、注册资本、注册地址、法。
本申请实施例中,通过限定第二指代条件,即需要替换的字符串后不能紧邻预设的字符串,可以限定需要替换的字符串“公司”不属于指代本公司的长串。
本申请实施例中,作为一可选实施例,预设的指代条件集可以通过对大量公告信息进行分析、统计得到,并可以针对已设置的指代条件集,进行更新,例如,新增或删除第一指代关键词,或者,从指代条件中删除或新增相应条件,本实施例对此不作限定。
本申请实施例中,以本公司对应的机构全称为:浙江万安科技股份有限公司,语料中一部分内容为:本次股权收购完成后,为公司的长远发展提供后续资源为例,提取的第二指代关键词“公司”前紧邻预设的前表指代表达式列表中的字符串“为”,满足条件三,因而,与第一指代条件相匹配;第二指代关键词“公司”后没有紧邻第二指代条件中的任一字符串,因而,与第二指代条件相匹配,确定需要进行替换。经过字符串替换后,得到语料中该部分内容对应的替换内容为:
本次股权收购完成后,为浙江万安科技股份有限公司的长远发展提供后续资源。
再例如,对于语料中一部分内容为:随着公司注册资本的提升。在进行替换时,提取第二指代关键词“公司”,判断该字符串“公司”是否满足第一指代条件中三个条件中的任意一个:
针对条件一,判断字符串“公司”是否出现在语料中的段首或句首,在该语料中,字符串“公司”不出现在语料中的段首或句首;
针对条件二,判断字符串“公司”是否出现在定义好的预设标点符号之后并紧邻该预设标点符号,判断结果为否;
针对条件三,判断字符串“公司”的前面是否紧邻公司前表指代表达式列表中的任一字符串,判断结果为是,符合条件三。因而,该字符串“公司”与第一指代条件匹配。
其次,判断该字符串“公司”是否满足第二指代条件:
字符串“公司”后紧邻的字符串为“注册资本”,与第二指代条件不相匹配,因而,确定该语料中该字符串“公司”应不予替换。
本申请实施例提供的基于公告信息的指代消解方法,通过对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称。这样,针对公告信息专用领域,综合考虑公告信息中包含的各种信息,设置指代条件集等规则,通过确定公告信息中包含的首个机构名称对应的机构全称,再获取公告信息中与预设指代条件集相匹配的字符串,利用确定的机构名称对获取的字符串进行指代消解,有效提升了对公告信息专用领域进行指代消解的准确率。
本申请实施例中,公告信息中,不仅包含有机构全称,也会包含有机构简称,其中,机构简称有时也会对用户的理解造成干扰,因而,作为一可选实施例,该方法还包括:
获取识别的命名实体中的第一个机构名称,作为所述机构关键词对应的机构简称,结合获取的以机构关键词为结尾的机构名称与获取的字符串,构建简称全称对应表;
基于所述简称全称对应表,对所述公告信息中,除所述机构简称外,与所述机构简称相同的机构名称进行替换。
本申请实施例中,对于上市公司的公告信息,一般采用证券代码、证券简称、公告编号以及公告内容的规范布局方式,因而,识别出的命名实体中,第一个机构名称为本公司的简称,或者,与获取的机构名称最近的机构名称为本公司的简称。从而基于机构简称、获取的机构名称与获取的字符串,构建简称全称对应表,以依据构建的简称全称对应表进行相应的指代消解。
本申请实施例中,作为一可选实施例,构建的简称全称对应表如表1。
表1
机构全称 机构简称 本公司/其他公司
大连三垒机器股份有限公司 三垒股份 本公司
本申请实施例中,公告信息中,还会包含有其他公司的机构全称以及机构简称,其中的其他公司的机构简称也会对用户的理解带来困惑。因而,作为另一可选实施例,该方法还包括:
A11,从识别的命名实体中,获取以机构关键词为结尾的第一机构名称集;
本申请实施例中,语料中识别出的命名实体,除本公司对应的机构全称以外的,以“有限公司”为结尾的ORG,是其他公司的机构全称。例如,从第一机构名称集中,删除以第一个以机构关键词为结尾的机构名称,得到其他公司的机构全称。
A12,提取第一机构名称集中的一第一机构名称,获取所述第一机构名称在所述公告信息中首次出现的位置,定位所述位置后出现的第一个以下简称“?或下称[““];
A13,定位所述第一个以下简称“?或下称[““]后出现的第一个”?;
A14,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串;
A15,判断提取的多个字符串是否包含预设字符集中的任意一个,若否,基于所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,获取所述第一机构名称对应的第一机构简称;
本申请实施例中,预设字符集包括但不限于:协议、合同、《、》、项目等。
本申请实施例中,将提取的字符串与预设字符集进行比较判断,是为了避免公司协议、公司合同等不是指代公司的关键词对指代消解的影响。
本申请实施例中,若提取的一字符串包含有预设字符集中的任意一个字符,则舍弃该字符串。
A16,基于所述第一机构名称,对所述公告信息中,除所述第一机构简称外,与所述第一机构简称相同的机构名称进行替换。
本申请实施例中,作为一可选实施例,以下述语料为例:
【大连三垒机器股份有限公司】ORG(以下简称“公司”)于【2017年2月17日】TIME与【北京楷德教育咨询股份有限公司】ORG(以下简称“【楷德教育】ORG”)股东【黄斌】PER、【马婧】PER、【赵佩霜】PER、【吴楠】PER签订了《【大连三垒机器股份有限公司】ORG支付现金购买【北京楷德教育咨询股份有限公司】ORG股权之协议》
对于该语料,依据上述方法,识别出的其他公司的机构全称为:北京楷德教育咨询股份有限公司;
其次,提取其他公司简称并与全称进行对应,即匹配符合“公司简称”条件的字符串,包括:
1)定位以下表达式(下述表达式为举例):
以下简称“?,表示定位到“以下简称”或者“以下简称“”;
[\((]下称[““],指“下称”的前面紧邻“((”,后面紧邻““””。
2)在表达式后面,找到第一个”?;
3)提取步骤1)和步骤2)之间的部分,即:【楷德教育】ORG,将提取的字符串去掉开头的“【”和结尾的“】ORG”,得到其他公司对应的机构简称:楷德教育。
本申请实施例中,一个公司可能对应有一个或多个机构简称,作为另一可选实施例,在定位所述第一个以下简称“?或下称[““]后出现的第一个”?之后,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串之前,该方法还包括:
判断所述第一个”?之后是否包含“、”或“或”;
若否,执行所述提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串的步骤;
若是,定位所述“、”或“或”后出现的第一个“?或[““],并定位所述第一个以下简称“?或下称[““]后出现的第二个”?,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,以及,提取所述第一个“?或[““]至所述第二个”?之间的字符串。
本申请实施例中,再例如,对应另一语料:
华锐风电科技(集团)股份有限公司(以下简称“公司”或“华锐风电”)全资孙公司张家口锐电新能源有限公司(以下简称“张家口锐电”或“张家口新能源”)以1.15亿元(人民币,下同)收购张家口博德玉龙电力开发有限公司(以下简称“玉龙公司”)80%股权。
进行命名实体识别后,得到:
【华锐风电科技(集团)股份有限公司】ORG(以下简称“公司”或“【华锐风电】ORG”)全资孙公司【张家口锐电新能源有限公司】ORG(以下简称“【张家口锐电】ORG”)以1.15亿元(人民币,下同)收购【张家口博德玉龙电力开发有限公司】ORG(以下简称“【玉龙公司】ORG”)80%股权。
在上述语料中,将语料中匹配到的“公司简称”的字符串做如下处理:
1)以“、”和“或”为切分符号,将字符串切为一组字符串
示例中,对简称“公司”或“【华锐风电】ORG”部分进行切分,得到:
公司”
“华锐风电
2)去掉切分的字符串的“”,得到公司的机构简称:
公司
华锐风电
本申请实施例中,也可以依据本公司和其他公司,构建的简称全称对应表如表2。
表2
Figure BDA0001939297160000151
本申请实施例的基于公告信息的指代消解方法,经过对大量公告信息进行的指代消解结果表明,指代消解的准确率能够达到97%以上。
图2为本申请实施例提供的一种基于公告信息的指代消解装置结构示意图。如图2所示,该装置包括:
机构全称识别模块201,用于对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;
本申请实施例中,对语料全文依序进行命名实体识别,在识别的命名实体中,识别的第一个以“有限公司”为结尾的机构名称,为该有限公司对应的机构全称,即第一个以“有限公司”为结尾的机构名称为该机构关键词对应的机构全称。
指代消解模块202,用于从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称。
本申请实施例中,作为一可选实施例,指代条件集包括:第一指代关键词集以及第二指代关键词集与指代条件的匹配关系,所述获取与预设指代条件集相匹配的字符串,包括:
获取第一字符串集,所述第一字符串集包含与第一指代关键词集相匹配的第一字符串及其相应的位置信息;
获取第二字符串集,所述第二字符串集包含与第二指代关键词集相匹配的第二字符串及其相应的位置信息;从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集;
整合第一字符串集和第三字符串集,得到与预设指代条件集相匹配的第四字符串集。
本申请实施例中,作为一可选实施例,第一指代关键词集包括:本公司、我公司;所述第二指代关键词集包括:公司;所述机构关键词包括:有限公司。
本申请实施例中,作为一可选实施例,指代条件包括:第一指代条件和第二指代条件,所述从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集,包括:
从获取的第二字符串集中,提取与第一指代条件和第二指代条件均相匹配的字符串,得到所述第三字符串集。
本申请实施例中,作为一可选实施例,第一指代条件包括以下条件中的一个或其任意组合:
条件一:第二指代关键词出现在所述语料中的段首或句首;
条件二:第二指代关键词出现在预设标点符号之后并紧邻该预设标点符号;
条件三:第二指代关键词前面必须紧邻预设的前表指代表达式列表中的字符串;
与所述第一指代条件相匹配包括:
与所述条件一或所述条件二或所述条件三相匹配。
本申请实施例中,作为一可选实施例,前表指代表达式列表中的字符串包括:推动、结合、发展、拓宽、增厚、保障、实现、随着、解决、奠定、落实、为;
所述第二指代条件包括:
第二指代关键词后不能紧邻以下字符串中的任意一个:
名称、类型、注册资本、注册地址、法。
本申请实施例中,作为一可选实施例,该装置还包括:
简称全称对应表构建模块(图中未示出),用于获取识别的命名实体中的第一个机构名称,作为所述机构关键词对应的机构简称,结合获取的以机构关键词为结尾的机构名称与获取的字符串,构建简称全称对应表;
基于所述简称全称对应表,对所述公告信息中,除所述机构简称外,与所述机构简称相同的机构名称进行替换
本申请实施例中,作为一可选实施例,指代消解模块202还用于:
从识别的命名实体中,获取以机构关键词为结尾的第一机构名称集;
提取第一机构名称集中的一第一机构名称,获取所述第一机构名称在所述公告信息中首次出现的位置,定位所述位置后出现的第一个以下简称“?或下称[““];
定位所述第一个以下简称“?或下称[““]后出现的第一个”?;
提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串;
判断提取的多个字符串是否包含预设字符集中的任意一个,若否,基于所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,获取所述第一机构名称对应的第一机构简称;
基于所述第一机构名称,对所述公告信息中,除所述第一机构简称外,与所述第一机构简称相同的机构名称进行替换。
本申请实施例中,作为一可选实施例,在所述定位所述第一个以下简称“?或下称[““]后出现的第一个”?之后,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串之前,所述方法还包括:
判断所述第一个”?之后是否包含“、”或“或”;
若否,执行所述提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串的步骤;
若是,定位所述“、”或“或”后出现的第一个“?或[““],并定位所述第一个以下简称“?或下称[““]后出现的第二个”?,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,以及,提取所述第一个“?或[““]至所述第二个”?之间的字符串。
如图3所示,本申请一实施例提供了一种计算机设备300,用于执行图1中的基于公告信息的指代消解方法,该设备包括存储器301、处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序,其中,上述处理器302执行上述计算机程序时实现上述基于公告信息的指代消解方法的步骤。
具体地,上述存储器301和处理器302能够为通用的存储器和处理器,这里不做具体限定,当处理器302运行存储器301存储的计算机程序时,能够执行上述基于公告信息的指代消解方法。
对应于图1中的基于公告信息的指代消解方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述基于公告信息的指代消解方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述解析便携式文档格式文档表格的方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种基于公告信息的指代消解方法,其特征在于,该方法包括:
对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;
从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称;
所述指代条件集包括:第一指代关键词集以及第二指代关键词集与指代条件的匹配关系,所述获取与预设指代条件集相匹配的字符串,包括:
获取第一字符串集,所述第一字符串集包含与第一指代关键词集相匹配的第一字符串及其相应的位置信息;
获取第二字符串集,所述第二字符串集包含与第二指代关键词集相匹配的第二字符串及其相应的位置信息;从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集;
整合第一字符串集和第三字符串集,得到与预设指代条件集相匹配的第四字符串集,其中,第一指代关键词集为能够独立指代机构全称的关键词集合,第二指代关键词集为不能够独立指代机构全称的关键词集合。
2.如权利要求1所述的方法,其特征在于,所述第一指代关键词集包括:本公司、我公司;所述第二指代关键词集包括:公司;所述机构关键词包括:有限公司。
3.如权利要求1所述的方法,其特征在于,所述指代条件包括:第一指代条件和第二指代条件,所述从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集,包括:
从获取的第二字符串集中,提取与第一指代条件和第二指代条件均相匹配的字符串,得到所述第三字符串集。
4.如权利要求3所述的方法,其特征在于,所述第一指代条件包括以下条件中的一个或其任意组合:
条件一:第二指代关键词出现在语料中的段首或句首;
条件二:第二指代关键词出现在预设标点符号之后并紧邻该预设标点符号;
条件三:第二指代关键词前面必须紧邻预设的前表指代表达式列表中的字符串;
与所述第一指代条件相匹配包括:
与所述条件一或所述条件二或所述条件三相匹配。
5.如权利要求4所述的方法,其特征在于,所述前表指代表达式列表中的字符串包括:推动、结合、发展、拓宽、增厚、保障、实现、随着、解决、奠定、落实、为;
所述第二指代条件包括:
第二指代关键词后不能紧邻以下字符串中的任意一个:
名称、类型、注册资本、注册地址、法。
6.如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取识别的命名实体中的第一个机构名称,作为所述机构关键词对应的机构简称,结合获取的以机构关键词为结尾的机构名称与获取的字符串,构建简称全称对应表;
基于所述简称全称对应表,对所述公告信息中,除所述机构简称外,与所述机构简称相同的机构名称进行替换。
7.如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
从识别的命名实体中,获取以机构关键词为结尾的第一机构名称集;
提取第一机构名称集中的一第一机构名称,获取所述第一机构名称在所述公告信息中首次出现的位置,定位所述位置后出现的第一个以下简称“?或下称[““];
定位所述第一个以下简称“?或下称[““]后出现的第一个”?;
提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串;
判断提取的多个字符串是否包含预设字符集中的任意一个,若否,基于所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,获取所述第一机构名称对应的第一机构简称;
基于所述第一机构名称,对所述公告信息中,除所述第一机构简称外,与所述第一机构简称相同的机构名称进行替换。
8.如权利要求7所述的方法,其特征在于,在所述定位所述第一个以下简称“?或下称[““]后出现的第一个”?之后,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串之前,所述方法还包括:
判断所述第一个”?之后是否包含“、”或“或”;
若否,执行所述提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串的步骤;
若是,定位所述“、”或“或”后出现的第一个“?或[““],并定位所述第一个以下简称“?或下称[““]后出现的第二个”?,提取所述第一个以下简称“?或下称[““]至所述第一个”?之间的字符串,以及,提取所述第一个“?或[““]至所述第二个”?之间的字符串。
9.一种基于公告信息的指代消解装置,其特征在于,该装置包括:
机构全称识别模块,用于对公告信息依序进行命名实体识别,从识别的命名实体中,获取第一个以机构关键词为结尾的机构名称;
指代消解模块,用于从所述公告信息中,获取与预设指代条件集相匹配的字符串,将获取的与预设指代条件集相匹配的字符串替换为所述机构名称;
所述指代条件集包括:第一指代关键词集以及第二指代关键词集与指代条件的匹配关系,所述获取与预设指代条件集相匹配的字符串,包括:
获取第一字符串集,所述第一字符串集包含与第一指代关键词集相匹配的第一字符串及其相应的位置信息;
获取第二字符串集,所述第二字符串集包含与第二指代关键词集相匹配的第二字符串及其相应的位置信息;从获取的第二字符串集中,提取与指代条件相匹配的第三字符串集;
整合第一字符串集和第三字符串集,得到与预设指代条件集相匹配的第四字符串集,其中,第一指代关键词集为能够独立指代机构全称的关键词集合,第二指代关键词集为不能够独立指代机构全称的关键词集合。
CN201910016614.1A 2019-01-08 2019-01-08 一种基于公告信息的指代消解方法及装置 Active CN109766552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910016614.1A CN109766552B (zh) 2019-01-08 2019-01-08 一种基于公告信息的指代消解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910016614.1A CN109766552B (zh) 2019-01-08 2019-01-08 一种基于公告信息的指代消解方法及装置

Publications (2)

Publication Number Publication Date
CN109766552A CN109766552A (zh) 2019-05-17
CN109766552B true CN109766552B (zh) 2023-01-31

Family

ID=66453452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910016614.1A Active CN109766552B (zh) 2019-01-08 2019-01-08 一种基于公告信息的指代消解方法及装置

Country Status (1)

Country Link
CN (1) CN109766552B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161105A (zh) * 2019-12-27 2020-05-15 中科鼎富(北京)科技发展有限公司 一种处理法院观点的方法、装置、存储介质和电子设备
CN111539605B (zh) * 2020-04-14 2023-12-29 鼎富智能科技有限公司 企业画像的构建方法及装置
CN111539806A (zh) * 2020-04-14 2020-08-14 鼎富智能科技有限公司 一种公告内容结构化的方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956192A (zh) * 2016-06-15 2016-09-21 中国互联网络信息中心 一种基于网站首页信息获取组织机构名简称的方法及系统
WO2016187888A1 (zh) * 2015-05-28 2016-12-01 北京旷视科技有限公司 基于字符识别的关键词通知方法及设备、计算机程序产品
CN107229698A (zh) * 2017-05-24 2017-10-03 北京神州泰岳软件股份有限公司 一种信息处理的方法及装置
CN107357779A (zh) * 2017-06-27 2017-11-17 北京神州泰岳软件股份有限公司 一种获取机构名称的方法及装置
CN108182179A (zh) * 2018-01-29 2018-06-19 北京神州泰岳软件股份有限公司 一种自然语言处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527522B2 (en) * 2008-09-05 2013-09-03 Ramp Holdings, Inc. Confidence links between name entities in disparate documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016187888A1 (zh) * 2015-05-28 2016-12-01 北京旷视科技有限公司 基于字符识别的关键词通知方法及设备、计算机程序产品
CN105956192A (zh) * 2016-06-15 2016-09-21 中国互联网络信息中心 一种基于网站首页信息获取组织机构名简称的方法及系统
CN107229698A (zh) * 2017-05-24 2017-10-03 北京神州泰岳软件股份有限公司 一种信息处理的方法及装置
CN107357779A (zh) * 2017-06-27 2017-11-17 北京神州泰岳软件股份有限公司 一种获取机构名称的方法及装置
CN108182179A (zh) * 2018-01-29 2018-06-19 北京神州泰岳软件股份有限公司 一种自然语言处理方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于指代消解的汉语句群自动划分方法;王荣波等;《计算机技术与发展》;20171231(第08期);全文 *
指代消解中距离特征的研究;杨勇等;《中文信息学报》;20080915(第05期);全文 *
面向信息抽取的指代消解探究;许永良等;《西安文理学院学报(自然科学版)》;20150415(第02期);全文 *

Also Published As

Publication number Publication date
CN109766552A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
Shaalan et al. NERA: Named entity recognition for Arabic
EP2257896B1 (en) Financial event and relationship extraction
AU2015252513B2 (en) Method and system for filtering goods evaluation information
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
CN109766552B (zh) 一种基于公告信息的指代消解方法及装置
EP3591539A1 (en) Parsing unstructured information for conversion into structured data
Brooke et al. Measuring Interlanguage: Native Language Identification with L1-influence Metrics.
US10282467B2 (en) Mining product aspects from opinion text
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN112668323B (zh) 基于自然语言处理的文本要素提取方法及其文本审查系统
Cucerzan MSR System for Entity Linking at TAC 2012.
US20230087421A1 (en) Systems and methods for generalized structured data discovery utilizing contextual metadata disambiguation via machine learning techniques
CN107545460A (zh) 一种数字化彩页促销管理和分析方法、存储设备及移动终端
CN103377186B (zh) 基于命名实体识别的Web服务整合装置、方法以及设备
JPWO2009048149A1 (ja) 電子文書の同等判定システムおよび同等判定方法
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
Bhatti et al. Phonetic-based sindhi spellchecker system using a hybrid model
CN113806311B (zh) 基于深度学习的文件分类方法、装置、电子设备及介质
Roy et al. A lexicon based algorithm for noisy text normalization as pre processing for sentiment analysis
JP4934819B2 (ja) 情報抽出装置、その方法及びプログラム
CN112749316A (zh) 翻译质量的确定方法、装置、存储介质和处理器
CN116304060B (zh) 一种基于聚类构建通用词库的方法、装置及电子设备
CN116257602B (zh) 一种基于公共词构建通用词库的方法、装置及电子设备
CN116306621B (zh) 一种招标文本的违规检测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant