CN107423285A

CN107423285A - 一种基于文本规则的公司简称识别方法及系统

Info

Publication number: CN107423285A
Application number: CN201710486058.5A
Authority: CN
Inventors: 吴远辉
Original assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Current assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority date: 2017-06-23
Filing date: 2017-06-23
Publication date: 2017-12-01
Anticipated expiration: 2037-06-23
Also published as: CN107423285B

Abstract

本发明公开了一种基于文本规则的公司简称识别方法及系统，方法包括：根据需要识别的公司全称，通过对应的上市公司公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析；根据需要识别的公司全称，通过网络搜索进行简称识别。系统包括公告文本分析单元和搜索分析单元。本发明通过公告文本挖掘和网络搜索规则相结合的方式进行简称识别，从而在保证中文公司简称准确率的同时，大大提高了查全率，有效提升识别效果。本发明可广泛应用于识别领域中。

Description

一种基于文本规则的公司简称识别方法及系统

技术领域

本发明涉及识别处理领域，尤其涉及一种基于文本规则的公司简称识别方法及系统。

背景技术

由于中文公司名称命名的用字规律不强，使用比较随意，经常以简称的形式出现，如“中国银行股份有限公司”经常以简称的形式出现，如“中国银行”或“中行”，这为公司名的识别、应用带来了困难。

目前市面并没有一套可以能查全率比较高的简称识别方法。一般中文公司简称识别的难点在于，在不同领域和场景下，命名简称的外延有差异，名称变化频繁，并且没有严格的规律可以遵循，表达形式多样，而且在中文文本的处理中，由于中文分词效果很容易影响识别效果，导致识别准确率较低。

发明内容

为了解决上述技术问题，本发明的目的提供是一种能提高识别准确率，基于文本规则的公司简称识别方法及系统。

本发明所采取的技术方案是：

一种基于文本规则的公司简称识别方法，包括以下步骤：

根据需要识别的公司全称，通过对应的上市公司公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析；

根据需要识别的公司全称，通过网络搜索进行简称识别。

作为所述的一种基于文本规则的公司简称识别方法的进一步改进，所述的根据需要识别的公司全称，通过对应的证券公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析，这一步骤具体包括：

根据需要识别的公司全称，加载该公司的上市公司公告资讯文本；

从上市公司公告资讯文本中抽取含有该公司全称的句子和段落，得到抽取样本；

从抽取样本中根据预设的抽取规则进行简称抽取，并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取，得到若干的待检测简称；

判断待检测简称是否有效，若是，则结束识别过程；反之，则继续识别过程。

作为所述的一种基于文本规则的公司简称识别方法的进一步改进，所述根据需要识别的公司全称，通过网络搜索进行简称识别，这一步骤具体包括：

根据需要识别的公司全称，结合预设的搜索规则进行网络搜索，得到网络搜索结果；

对网络搜索结果进行分析，对每项网络搜索结果的摘要进行抽取；

根据预设的抽取规则，对得到的摘要进行简称抽取，得到若干的待测公司简称；

对待测公司简称进行数据清洗，得到并保存清洗后的公司简称。

本发明所采用的另一技术方案是：

一种基于文本规则的公司简称识别系统，包括：

公告文本分析单元，用于根据需要识别的公司全称，通过对应的上市公司公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析；

搜索分析单元，用于根据需要识别的公司全称，通过网络搜索进行简称识别。

作为所述的一种基于文本规则的公司简称识别系统的进一步改进，所述公告文本分析单元具体包括：

公告加载单元，用于根据需要识别的公司全称，加载该公司的上市公司公告资讯文本；

样本抽取单元，用于从上市公司公告资讯文本中抽取含有该公司全称的句子和段落，得到抽取样本；

简称抽取单元，用于从抽取样本中根据预设的抽取规则进行简称抽取，并从上市公司公告资讯文本中根据预设的表格特征进行简称抽取，得到若干的待检测简称；

简称检测单元，用于判断待检测简称是否有效，若是，则结束识别过程；反之，则继续识别过程。

作为所述的一种基于文本规则的公司简称识别系统的进一步改进，所述搜索分析单元具体包括：

搜索单元，用于根据需要识别的公司全称，结合预设的搜索规则进行网络搜索，得到网络搜索结果；

摘要抽取单元，用于对网络搜索结果进行分析，对每项网络搜索结果的摘要进行抽取；

简称分析单元，用于根据预设的抽取规则，对得到的摘要进行简称抽取，得到若干的待测公司简称；

数据清洗单元，用于对待测公司简称进行数据清洗，得到并保存清洗后的公司简称。

本发明的有益效果是：

本发明一种基于文本规则的公司简称识别方法及系统通过公告文本挖掘和网络搜索规则相结合的方式进行简称识别，从而在保证中文公司简称准确率的同时，大大提高了查全率，有效提升识别效果。

附图说明

下面结合附图对本发明的具体实施方式作进一步说明：

图1是本发明一种基于文本规则的公司简称识别方法的步骤流程图；

图2是本发明一种基于文本规则的公司简称识别方法中公告文本分析的步骤流程图；

图3是本发明一种基于文本规则的公司简称识别方法中搜索分析的步骤流程图；

图4是本发明一种基于文本规则的公司简称识别系统的模块方框图。

具体实施方式

参考图1，本发明一种基于文本规则的公司简称识别方法，包括以下步骤：

根据需要识别的公司全称，通过网络搜索进行简称识别。

参考图2，进一步作为优选的实施方式，所述的根据需要识别的公司全称，通过对应的证券公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析，这一步骤具体包括：

参考图3，进一步作为优选的实施方式，所述根据需要识别的公司全称，通过网络搜索进行简称识别，这一步骤具体包括：

本实施例中，所述抽取规则为中文分词和上下文特征规则，对中文公司简称分析发现其构成与全称之间存在一定关系，并且在文本语法有一定的规则。

中文分词为对公司全称进行分词，提取文本中每个N元组(N-gram)作为候选的公司简称，然后建立N元组与每个全称的最优对齐关系，然后对其进行评价筛选，所通过筛选的简称，再进行一次百度搜索认证，确定简称的真实性。

对于文本挖掘识别不到简称的公司全称，进行基于规则的百度搜索识别方法。某句子出现“某某有限公司(以下简称‘某某简称’)”，或者“某某有限公司(简称‘某某简称’)”，利用互联网的庞大资讯数据网，有效地增加简称的查全率。

本发明具体实施例如下：

S01、加载需要识别的公司全称；

S02、根据需要识别的公司全称，加载该公司的上市公司公告资讯文本；

S03、对每一篇上市公司公告资讯文本(记为Artitle_1)，在Artitle_1中抽取出现全称的句子、段落(记为Sect_1)；

S04、通过中文分词、上下文规则特征对Sect_1进行抽取简称

S05、在Artitle_1中，抽取表格形式的文本块(记为table_1)，对table_1进行基于表格特征的简称抽取；

S06、判断待检测简称是否有效，若是，则结束识别过程；反之，则继续识别过程；

S07、根据需要识别的公司全称，结合预设的搜索规则(例如“某某简称以下简称”)去百度网页搜索；例如识别全称为“中国银行股份有限公司”简称时，百度网页搜索“中国银行股份有限公司以下简称”，搜索结果内容记为BaiduSearch_1；

S08、解析百度搜索结果，分析BaiduSearch_1，抽取出每一个搜索结果的摘要，记为searchItem_1；

S09、抽取简称，通过抽取规则在searchItem_1抽取出简称名称；

S10、简称数据清洗，保存识别后的简称。

参考图4，本发明一种基于文本规则的公司简称识别系统，包括：

进一步作为优选的实施方式，所述公告文本分析单元具体包括：

进一步作为优选的实施方式，所述搜索分析单元具体包括：

从上述内容可知，本发明一种基于文本规则的公司简称识别方法及系统通过公告文本挖掘和网络搜索规则相结合的方式进行简称识别，从而在保证中文公司简称准确率的同时，大大提高了查全率，有效提升识别效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于文本规则的公司简称识别方法，其特征在于，包括以下步骤：

根据需要识别的公司全称，通过网络搜索进行简称识别。

2.根据权利要求1所述的一种基于文本规则的公司简称识别方法，其特征在于：

所述的根据需要识别的公司全称，通过对应的证券公告文本进行简称抽取，得到待检测简称，并对待检测简称进行有效性分析，这一步骤具体包括：

3.根据权利要求1所述的一种基于文本规则的公司简称识别方法，其特征在于：

所述根据需要识别的公司全称，通过网络搜索进行简称识别，这一步骤具体包括：

4.一种基于文本规则的公司简称识别系统，其特征在于，包括：

5.根据权利要求4所述的一种基于文本规则的公司简称识别系统，其特征在于：

所述公告文本分析单元具体包括：

6.根据权利要求4所述的一种基于文本规则的公司简称识别系统，其特征在于：

所述搜索分析单元具体包括：