CN105045847A

CN105045847A - 一种从文本信息中提取中文机构单位名称的方法

Info

Publication number: CN105045847A
Application number: CN201510385395.6A
Authority: CN
Inventors: 吴远辉
Original assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Current assignee: Guangzhou Wanlong Securities Advisory Consultants Co Ltd
Priority date: 2015-07-01
Filing date: 2015-07-01
Publication date: 2015-11-11
Anticipated expiration: 2035-07-01
Also published as: CN105045847B

Abstract

本发明公开了一种从文本信息中提取中文机构单位名称的方法，包括：加载待分析的文本信息；将待分析的文本信息进行前部标注规则匹配，标记前部词的位置，并抽取出符合前部标注规则的信息；将抽取出的信息进行后界识别处理，进而提取获得备选公司名称数据；对备选公司名称数据进行前部标注规则匹配，并进行决策处理后获得备选公司名称；根据备选公司名称进行搜索验证，判断是否验证成功，若验证成功，则获得中文机构单位名称。本发明通过匹配并标记出中文机构单位名称的前部词和后界词，以及结合网络搜索验证来提取获得中文机构单位名称，运算量较少，提取速度快，而且大大提高了提取精度，可广泛应用于衡器行业中。

Description

一种从文本信息中提取中文机构单位名称的方法

技术领域

本发明涉及文本信息提取挖掘领域，特别是涉及一种从文本信息中提取中文机构单位名称的方法。

背景技术

随着Internet及其技术的迅猛发展，网络上的信息呈爆炸式增长，大量的信息以电子文档的形式呈现在人们面前，人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息，于是信息抽取研究应运而生，而命名实体识别研究又是信息抽取中的重要组成部分。命名实体识别是指识别文本中有特定意义的实体，主要包括人名、地名、机构名、日期等。其中机构名是比较重要的一类，特别是中文的机构单位名称。本申请中，机构单位泛指机关、团体或其他企事业单位，例如“深圳发展银行股份有限公司”、“深圳世纪星源股份有限公司”、“北京深华新股份有限公司”等等。

目前，中文机构单位名称的识别，主要有以下难点：（1）在不同领域、场景下，命名的外延有差异；（2）数量巨大，不能枚举，难以全部收录；（3）名称变化频繁，并且没有严格的规律可以遵循；（4）表达形式多样。而现在对中文机构单位名称进行识别，主要采用的是基于统计学的算法进行识别。这种识别方法需要先人工标注大量的语料库进行训练，语料库特征规模庞大，代价比较高，且准确率不太高。

发明内容

为了解决上述的技术问题，本发明的目的是提供一种从文本信息中提取中文机构单位名称的方法。

本发明解决其技术问题所采用的技术方案是：

一种从文本信息中提取中文机构单位名称的方法，包括：

S1、加载待分析的文本信息；

S2、将待分析的文本信息进行前部标注规则匹配，标记前部词的位置，并抽取出符合前部标注规则的信息；

S3、将抽取出的信息进行后界识别处理，进而提取获得备选公司名称数据；

S4、对备选公司名称数据进行前部标注规则匹配，并进行决策处理后获得备选公司名称；

S5、根据备选公司名称进行搜索验证，判断是否验证成功，若验证成功，则获得中文机构单位名称。

进一步，所述前部标注规则指基于前部词的标注规则，所述前部词包括标点符号、动词、介词、预设名词或预设特定词语。

进一步，所述步骤S2，其具体为：

将待分析的文本信息与预设前部词标注词典依次进行基于前部词的前部标注规则匹配，标记前部词的位置后，根据预设字数阈值从前部词后面抽取出符合前部标注规则的信息。

进一步，所述步骤S2，包括：

S21、将待分析的文本信息与预设前部词标注词典进行基于标点符号的前部标注规则匹配，若判断待分析的文本信息中包含标点符号且该标点符号后紧接着地方名称，则标记该标点符号的结束位置；

S22、将待分析的文本信息与预设前部词标注词典进行基于动词的前部标注规则匹配，若判断待分析的文本信息中包含动词且该动词后紧接着地方名称，则标记该动词的结束位置；

S23、将待分析的文本信息与预设前部词标注词典进行基于介词的前部标注规则匹配，若判断待分析的文本信息中包含介词且该介词后紧接着地方名称，则标记该介词的结束位置；

S24、将待分析的文本信息与预设前部词标注词典进行基于预设名词的前部标注规则匹配，若判断待分析的文本信息中包含预设名词且该预设名词后紧接着地方名称，则标记该预设名词的结束位置；

S25、将待分析的文本信息与预设前部词标注词典进行基于预设特定词语的前部标注规则匹配，若判断待分析的文本信息中包含预设特定词语且该预设特定词语后紧接着地方名称，则标记该预设特定词语的结束位置；

S26、根据预设字数阈值抽取所标记位置后面的文字信息。

进一步，所述步骤S3，包括：

S31、将抽取出的信息与预设后界词词典进行匹配处理，判断抽取出的信息的前n个文字中是否出现与预设后界词词典相匹配的后界词，若是，则执行步骤S32；

S32、标记该后界词的结束位置后，提取获得前部词之后到后界词处的文字数据；

S33、判断所提取的文字数据是否在同一个短语里，若是，则将该文字数据作为备选公司名称数据；

其中，n表示预设的字数阈值，n为自然数。

进一步，所述步骤S4，其具体为：

对备选公司名称数据进行前部标注规则匹配，判断备选公司名称数据中是否包括前部词，若是，则截取前部词后的数据作为备选公司名称，否则将备选公司名称数据作为备选公司名称。

进一步，所述步骤S5，包括：

S51、将备选公司名称作为搜索关键字在网络搜索引擎中进行搜索，获取前m个搜索结果并抽取每个搜索结果的标题，m为自然数；

S52、依次将该备选公司名称与每个搜索结果的标题进行匹配，判断是否匹配成功，若匹配成功，则将该备选公司名称作为提取的中文机构单位名称。

本发明的有益效果是：本发明的一种从文本信息中提取中文机构单位名称的方法，包括：S1、加载待分析的文本信息；S2、将待分析的文本信息进行前部标注规则匹配，标记前部词的位置，并抽取出符合前部标注规则的信息；S3、将抽取出的信息进行后界识别处理，进而提取获得备选公司名称数据；S4、对备选公司名称数据进行前部标注规则匹配，并进行决策处理后获得备选公司名称；S5、根据备选公司名称进行搜索验证，判断是否验证成功，若验证成功，则获得中文机构单位名称。本方法通过匹配并标记出中文机构单位名称的前部词和后界词后，获得备选公司名称数据，并再次进行前部标注规则匹配处理后获得备选公司名称，然后结合网络搜索验证来提取获得中文机构单位名称，运算量较少，提取速度快，而且大大提高了提取精度。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明的一种从文本信息中提取中文机构单位名称的方法的流程图；

图2是本发明的一种从文本信息中提取中文机构单位名称的方法的步骤S2的详细流程示意图；

图3是本发明的一种从文本信息中提取中文机构单位名称的方法的步骤S3的详细流程示意图；

图4是本发明的一种从文本信息中提取中文机构单位名称的方法的步骤S5的详细流程示意图。

具体实施方式

参照图1，本发明提供了一种从文本信息中提取中文机构单位名称的方法，包括：

S1、加载待分析的文本信息；

进一步作为优选的实施方式，所述前部标注规则指基于前部词的标注规则，所述前部词包括标点符号、动词、介词、预设名词或预设特定词语。

进一步作为优选的实施方式，所述步骤S2，其具体为：

进一步作为优选的实施方式，参照图2，所述步骤S2，包括：

S26、根据预设字数阈值抽取所标记位置后面的文字信息。

进一步作为优选的实施方式，参照图3，所述步骤S3，包括：

其中，n表示预设的字数阈值，n为自然数。

进一步作为优选的实施方式，所述步骤S4，其具体为：

进一步作为优选的实施方式，参照图4，所述步骤S5，包括：

以下结合一具体实施例对本发明做详细说明。

参照图1，一种从文本信息中提取中文机构单位名称的方法，包括：

S1、加载待分析的文本信息；待分析的文本信息可以是一段文字或者一篇文章等；

S2、将待分析的文本信息进行前部标注规则匹配，标记前部词的位置，并抽取出符合前部标注规则的信息；前部标注规则指基于前部词的标注规则，前部词包括标点符号、动词、介词、预设名词或预设特定词语等。

步骤S2，具体为：将待分析的文本信息与预设前部词标注词典依次进行基于前部词的前部标注规则匹配，标记前部词的位置后，根据预设字数阈值从前部词后面抽取出符合前部标注规则的信息。预设字数阈值是预设的用于截取前部词后面的信息长度的数值，一般为大于20的自然数。

详细的，参照图2，步骤S2，包括S21~S26：

S21、将待分析的文本信息与预设前部词标注词典进行基于标点符号的前部标注规则匹配，若判断待分析的文本信息中包含句号、前引号、破折号、逗号、分号、顿号、书名号等标点符号且该标点符号后紧接着地方名称，则标记该标点符号的结束位置；这里，标记的标点符号的结束位置的用途是中文机构单位名称的起始位置。例如对文本“股权结构为：郑州巨龙投资股份有限公司持股2.20%；北京国建易创投资有限公司持股2.09%”进行分析时，把“：郑州”、“；北京”中的标点符号在文本中的结束位置标注保存下来。

S22、将待分析的文本信息与预设前部词标注词典进行基于动词的前部标注规则匹配，若判断待分析的文本信息中包含确定、支付、参照、接受、租赁、解除、审批通过、选择、经营、确认、委托、购入、受让、取得、收购、出售、出让、转让等动词且该动词后紧接着地方名称，则标记该动词的结束位置；同样，标记的动词的结束位置的用途是中文机构单位名称的起始位置。例如对文本“取得沈阳金建数字城市软件有限公司合计51.1%的股权”进行分析时，把“取得沈阳”中动词“取得”在文本中的结束位置标注保存下来。

S23、将待分析的文本信息与预设前部词标注词典进行基于介词的前部标注规则匹配，若判断待分析的文本信息中包含高于、低于、达到、超过、分布于等介词且该介词后紧接着地方名称，则标记该介词的结束位置；标记的介词的结束位置的用途是中文机构单位名称的起始位置。

S24、将待分析的文本信息与预设前部词标注词典进行基于预设名词的前部标注规则匹配，若判断待分析的文本信息中包含合营企业、下属、全资公司、项目公司、标的公司、股东等预设名词且该预设名词后紧接着地方名称，则标记该预设名词的结束位置；这里，预设名词是指合营企业、下属、全资公司、项目公司、标的公司、股东等可能引出机构单位名称的名词。例如对文本“公司受托管理国机集团下属北京国机丰盛汽车有限公司65%股权”进行分析时，把预设名词“下属”在文本中的结束位置标注保存下来。

S25、将待分析的文本信息与预设前部词标注词典进行基于预设特定词语的前部标注规则匹配，若判断待分析的文本信息中包含预设特定词语且该预设特定词语后紧接着地方名称，则标记该预设特定词语的结束位置；预设特定词语是指除了步骤S21~S24的四类词语外的词语，包括除、将、与、及、向、因、在、和等连词。例如对文本“江苏大港股份有限公司与镇江新区经济开发总公司协调一致”进行分析时，把“与”在文本中的结束位置标注保存下来。

S26、根据预设字数阈值抽取所标记位置后面的文字信息。

步骤S21~S25中提到的地方名称的判断，可以直接获取目前的地名数据库来进行判断，无需额外建立数据库或进行训练。

预设前部词标注词典是预先根据中文机构单位名称出现位置的前部词的特点建立的特征数据库，本实施例中，预设前部词标注词典是通过5万公司名称库、10万文本语料库，利用特征模板、词性标注后形成的。

S3、将抽取出的信息进行后界识别处理，进而提取获得备选公司名称数据；参照图3，步骤S3包括S31~S33：

S33、判断所提取的文字数据是否在同一个短语里，若是，则将该文字数据作为备选公司名称数据，将其加入到备选公司名称数组中；

其中，n表示预设的字数阈值，n为自然数。本实施例中，n优选为20。

预设后界词词典是预先根据中文机构单位名称的后缀（本申请中称为后界词）的特点建立的数据库，包括“有限公司、有限责任公司、集团公司、研究室、总公司、研究院、总会、医院、事务所、加工厂”等后界词。

S4、依次从备选公司名称数组中获取备选公司名称，然后对备选公司名称数据进行前部标注规则匹配，并进行决策处理后获得备选公司名称；具体为：依次从备选公司名称数组中获取备选公司名称，然后对备选公司名称数据进行前部标注规则匹配，判断备选公司名称数据中是否包括前部词，若是，则截取前部词后的数据作为备选公司名称，否则将备选公司名称数据作为备选公司名称，将备选公司名称存放到数组ArrayCompanyName中。

S5、依次从ArrayCompanyName中获取每个备选公司名称后，对每个备选公司名称进行搜索验证，判断是否验证成功，若验证成功，则获得中文机构单位名称。参照图4，步骤S5具体包括S51和S52：

S51、依次从ArrayCompanyName中获取每个备选公司名称后，将其作为搜索关键字在网络搜索引擎中进行搜索，获取前m个搜索结果并抽取每个搜索结果的标题，m为自然数；本实施例中，m的值优选为100。网络搜索引擎包括百度搜索引擎、谷歌搜索引擎、搜狗搜索引擎等。

S52、依次将该备选公司名称与每个搜索结果的标题进行匹配，判断是否匹配成功，若匹配成功，则将该备选公司名称作为提取的中文机构单位名称，将该中文机构单位名称加入到单位名称集合中并返回结果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种从文本信息中提取中文机构单位名称的方法，其特征在于，包括：

S1、加载待分析的文本信息；

2.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法，其特征在于，所述前部标注规则指基于前部词的标注规则，所述前部词包括标点符号、动词、介词、预设名词或预设特定词语。

3.根据权利要求2所述的一种从文本信息中提取中文机构单位名称的方法，其特征在于，所述步骤S2，其具体为：

4.根据权利要求3所述的一种从文本信息中提取中文机构单位名称的方法，其特征在于，所述步骤S2，包括：

S26、根据预设字数阈值抽取所标记位置后面的文字信息。

5.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法，其特征在于，所述步骤S3，包括：

其中，n表示预设的字数阈值，n为自然数。

6.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法，其特征在于，所述步骤S4，其具体为：

7.根据权利要求1所述的一种从文本信息中提取中文机构单位名称的方法，其特征在于，所述步骤S5，包括：