CN110413764B

CN110413764B - 基于预建词库的长文本企业名称识别方法

Info

Publication number: CN110413764B
Application number: CN201910526865.4A
Authority: CN
Inventors: 林波
Original assignee: Hangzhou Panda Zhiyun Enterprise Service Co ltd
Current assignee: Hangzhou Panda Zhiyun Enterprise Service Co ltd
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2023-09-01
Anticipated expiration: 2039-06-18
Also published as: CN110413764A

Abstract

一种基于预建词库的长文本企业名称识别方法，其特征在于，包括以下步骤：从数据库中读取预先建立的企业名称词库，在内存中为词库和关键词所指向的数据ID建立一个有序索引；在完整索引的基础上再构建一个哈希索引；输入目标文本进行匹配时，用p来表示字符在输入的目标文字的位置；判断输入的目标文本中第p个字符是否落入哈希索引内，若在，则从当前字符开始，选择相应的关键词匹配模式对输入的目标文本进行关键词查找；输入的目标文本经过上述查找步骤后得到返回信息；根据返回信息的具体内容在构建好的企业名称库中搜索到对应企业的信息。本发明能够在数据库中识别该企业名称对应的企业数据，同时增加了指定可忽略文本及标点分拆的功能，提高了字符识别的准确度，降低了运行成本。

Description

基于预建词库的长文本企业名称识别方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种基于预建词库的长文本企业名称识别方法。

背景技术

传统的基于词库的分词或识别算法主要效果是以精准的完整匹配为主，而针对以企业名称为例的场景，同一公司名称，在不同人书写时，可能存在头部地区的“省”或“市”、尾部的“有限公司”被省略，又或时“有限公司”和“有限责任公司”在书写时不敏感等问题，传统的分词或识别算法并不能有效的处理上述问题。在专利申请号为2016102861911中公开了一种企业实体名称分析识别系统，所述系统包括双向递归神经网络模块，所述系统使用现有企业名称数据库中存储的企业名称标注训练样本来训练双向递归神经网络，所述双向递归神经网络识别出待处理文本中的企业名称，并将不属于现有企业名称的名称提取出来。本发明系统通过对文本的基本元素，比如字、词、标点符号等进行特征的自动学习并且应用了双向传播的RNN使得对待识别的自然语言序列的分类判断结果依赖了上下文信息，提取和判断的准备率更高，本发明系统通过已有数据特点来发现新的企业实体名称，在大数据分析领域特别是以企业为分析主体的数据分析领域中具有重要的应用价值。

在中文信息学报第21卷第6期中的名称为“中文组织机构名称与简称的识别”以及发布在ChinaXiv上名称为“基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法”中同样阐述了和上述专利文件中类似的理论模型及分析。

上述文件中所提到的算法和系统虽然能解决传统分词或识别算法无法有效的识别出完整的企业名称，但都只是针对中文的词性分析来得出一个文本中哪些词汇组合高概率是企业名称的结论，最终返回的信息只有企业名称，无法对该企业的具体数据进行对应的识别。

发明内容

针对上述问题，本发明提供一种基于预建词库的长文本企业名称识别方法，能够在精确的识别输入目标文本中企业名称的同时，结合已建立企业名称词库对识别的企业名称对应的企业数据进行识别。

本发明的技术方案如下所示：一种基于预建词库的长文本企业名称识别方法，包括以下步骤：

S1：从数据库中读取预先建立的企业名称词库，在内存中为词库和关键词所指向的数据ID建立一个有序索引；

S2：在完整索引的基础上再构建一个以所有关键词第一个字符为键，相同起始字符关键词所在区间的起始和结束索引位置为值的哈希索引；

S3：输入目标文本进行匹配时，用p来表示字符在输入的目标文字的位置，初始化目标文本识别起始位置，即p＝0；

S4：判断输入的目标文本中第p个字符是否落入哈希索引内，若输入字符不在哈希索引中则直接偏移到下一字符进行判断；若输入目标文本的第p个字符在哈希索引中能够找到一个查找区间，则从当前字符开始，获取该字符起始词汇所在位置索引区间R到E与长度区间D到M；

S5：选择相应的关键词匹配模式对输入的目标文本进行关键词查找；

S6：输入的目标文本经过上述查找步骤后得到返回信息；

S7：根据返回信息的具体内容在构建好的企业名称词库中搜索到对应企业的信息。

上述步骤中，本发明对输入的目标文本进行了分词识别的处理，通过选择不同类型的关键词的匹配模式从来识别出所需要的企业名称，同时根据返回的信息在数据库中识别各个企业名称所对应的企业数据，其灵活性和应用性明显优于现有的技术，且该方案还可增加其他功能，如在网页端识别企业名称并对原始文本进行高亮标记或超链的等功能。

其中目标文本为需要被用于识别的输入字符串；

优选的，所述匹配模式为最长匹配模式、最短匹配模式或最多匹配模式中的一种。可任意选择其中一种匹配模式进行关键字的匹配。

优选的，所述最长匹配模式的具体步骤为：设置匹配长度L＝M，若目标文本从p位置当前字符开始的L长度的文本没有找到关键词则L递减一个长度，并重新在这个区间做二分查找，直至L递减到该区间最短词汇长度D，目标文本查找位置向后偏移1位；若匹配到关键词，记入返回结果集并停止查找，则目标文本的当前位置则向后偏移已找到词汇长度，返回步骤S4。

优选的，所述最短匹配模式的具体步骤为：设置匹配长度L＝D，若目标文本从p位置当前字符开始的L长度文本未找到关键词则L递增一个长度，并重新在这个区间做二分查找，直至递增到该区间最长词汇长度M，目标文本查找位置向后偏移1位；若匹配到关键词，记入返回结果集并停止查找，则目标文本的当前位置则向后偏移已找到词汇长度，返回步骤S4。

优选的，所述最多匹配模式的具体步骤为：所述最多匹配模式的具体步骤为：设置匹配长度L＝D，若目标文本从p位置当前字符开始的L长度文本未找到关键词则L递增一个长度，并重新在这个区间做二分查找，直至L递增到该区间最长词汇长度M，目标为本查找位置向后移1位；若匹配到关键词,记入返回结果集，目标文本的当前位置则向后偏移1位，返回步骤S4。

匹配长度：在“目标文本”中从P位置开始限定“匹配长度”L范围内的字符视为一个“文本词汇”到内存词库中查找是否有相等的“词库词汇”。

区间的最长词汇长度、最短词汇长度：词库在内存中简历索引后存储形式是一个有序的数组，相同前缀的词汇都相邻的在一起，即以第一个字符相同的词汇为一个区间，“该区间最短词汇长度”即某字符区间内字数最少的词汇的字符数，反之“该区间最长词汇长度”为该字符起始词汇区间内字数最多的词汇的字符数。

已找到词汇长度：使用“文本词汇”匹配到“词库词汇”的字符数。

优选的，若查找前指定了目标文本中可忽略字符，则在查找至该字符时，比较算法会忽略该字符的比对同时忽略其在匹配长度中所占的长度。在查找步骤前增加了该步骤，明显提高了识别效率，减轻了设备运行负担。

可忽略字符：这是词库引擎的配置，可预先配置好目标文本中可被跳过的字符，如目标文本为“杭州(熊猫智云)企业服务有限公司”，配置了“(”和“)”为可忽略字符，则在使用文本词库于词库词汇进行比较是“(”和“)”则会被跳过，不用参与比较。

优选的，所述返回信息包括词库词汇、词汇数据ID、文本词汇、文本所在位置和匹配到的文本长度。

词库词汇：存在于预建词库中存在的标准企业名称。

词汇数据ID：“文本词汇”匹配到“词库词汇”后，“词库词汇”对应的实体数据ID，该数据ID对应的是该词汇在数据库中的详细信息。

文本词汇：指在输入文本中P位置开始到限定长度L范围内用于和词库词汇进行比较的文本。

文本所在位置：即“文本词汇”第一个字符在“目标文本”中的位置P。

匹配到的文本长度：匹配到“词库词汇”的“文本词汇”的实际字符数，如词库词汇是“杭州熊猫智云企业服务有限公司”(长度14)，文本词汇是“杭州熊猫智云企业服务”(长度10)就能与之向匹配，此时文本词汇的长度就是10。

更优选的，该方法还包括标点分拆，所述标点分拆作为查找方法的优化迭代，将文本中那些不可能出现在企业名称中的标点符号作为分隔符，将文本拆分为短句文本，在查找过程中将那些处于文本尾部且落在哈希索引中查找区间中但剩余长度又不满足该字符词汇区间最小词汇长度的字符跳过。

本发明的有益效果是：本发明相较于传统的分词或识别方法，本发明提供的方法最终会返回一个完整的企业名称以及一个数据ID，便于后续在数据库中识别该企业名称对应的企业数据，同时增加了指定可忽略文本及标点分拆的功能，提高了字符识别的准确度，降低了运行成本。

附图说明

图1为本发明长文本企业名称识别流程图。

图2为本发明中企业名称识别索引结构图。

图3为本发明实际操作后的识别结果图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

如图1和图2所示，本发明包括以下实施例。

实施例1：本发明还提供一种基于预建词库的长文本企业名称识别方法，包括以下步骤：

a、从数据库中读取预先建立的企业名称词库，在内存中为词库和关键词所指向的数据ID建立一个有序索引；

b、在完整索引的基础上再构建一个以所有关键词第一个字符为键，相同起始字符关键词所在的起始和结束索引位置为值的哈希索引；

c、输入目标文本，设置匹配模式＝PT，初始化目标文本识别起始位置用字母P来表示字符位置，此时P＝0；

d、判断输入的目标文本的第P个字符是否在哈希索引中，输入字符不在哈希索引中则直接偏移到下一字符进行判断；若输入目标文本的第p个字符在哈希索引中能够找到一个查找区间，则从当前字符开始，获取该字符起始词汇所在位置索引区间R到E与长度区间D到M；

e、若P开始剩余文本长度大于区间最短词汇长度，则令PT＝最长匹配模式，即使用最长匹配模式进行关键词查找，反之，则令P＝P+1，若P小于文本长度，则返回步骤d，若P大于等于文本长度，则返回结果集；

g、使用长匹配模式进行关键词查找设置匹配长度L＝M，词汇递增步长S＝-1，并开始从P逐字符在R到E之间做二分查找比较；

h、记录TR＝R，TE＝E；

i、计算TR和TE的中间位置MC＝TR+(TE-TR)/2，文本词汇TW＝文本P到P+L位置文本词库词汇MW＝词库第MC个词；

j、若TW＝MW，记录匹配结果到结果集：Word＝词库词汇、Ids＝词汇数据ID、SourceText＝匹配的目标文本、SourceIndex＝文本所在位置、SourceLength＝匹配到的文本长度，令P＝P+SourceLength，若P小于文本长度，则返回步骤d，反之则返回结果集；若TW≠MW，则判断是否存在剩余可忽略后缀；

k、若存在剩余可忽略后缀，则令TW＝P到P+(L-后缀长度)文本+后缀并返回步骤h；若不存在剩余可忽略后缀，则判断TR是否大于TE；

l、若TR>TE，则令L＝L+S，并判断文本长度L是否小于等于M，是则重置可忽略后缀队列，否则令P＝P+1，若P小于文本长度，则返回步骤d，若P大于等于文本长度，则返回结果集；若TR<TE，判断TW和MW的大小，若TW>MW则令TE＝MC-1，并返回步骤i，若TW<MW则令TR＝MC+1，并返回步骤i。

实施例2：本发明提供一种基于预建词库的长文本企业名称识别方法，如图1所示，包括以下步骤：

e、若P开始剩余文本长度大于区间最短词汇长度，则令PT＝最长匹配模式，即使用最端匹配模式进行关键词查找，反之，则令P＝P+1，若P小于文本长度，则返回步骤d，若P大于等于文本长度，则返回结果集；

g、使用长匹配模式进行关键词查找，设置匹配长度L＝D，词汇递增步长S＝1，并开始从P逐字符在R到E之间做二分查找比较；

h、记录TR＝R，TE＝E；

l、若TR>TE，则令L＝L+S，并判断文本长度L是否大于等于D，是则重置可忽略后缀队列，否则令P＝P+1，若P小于文本长度，则返回步骤d，若P大于等于文本长度，则返回结果集；若TR<TE，判断TW和MW的大小，若TW>MW则令TE＝MC-1，并返回步骤i，若TW<MW则令TR＝MC+1，并返回步骤i。

实施例3：本发明还提供一种基于预建词库的长文本企业名称识别方法，如图1所示，包括以下步骤：

e、若P开始剩余文本长度大于区间最短词汇长度，则令PT＝最多匹配模式，使用最多匹配模式进行关键词查找，反之，则令P＝P+1，若P小于文本长度，则返回步骤d，若P大于等于文本长度，则返回结果集；

h、记录TR＝R，TE＝E；

j、若TW＝MW，记录匹配结果到结果集：Word＝词库词汇、Ids＝词汇数据ID、SourceText＝匹配的目标文本、SourceIndex＝文本所在位置、SourceLength＝匹配到的文本长度，令P＝P+1，若P小于文本长度，则返回步骤d，反之则返回结果集；若TW≠MW，则判断是否存在剩余可忽略后缀；

本发明的实际使用情况如下所示：如图3所示，当输入文本为：“杭州熊猫智云企业服务的全称是杭州(熊猫智云)企业服务有限公司，它和杭州高斯信息技术有限公司是兄弟公司。”其输出结果如图3所示，最终得到结果1为：匹配的目标文本为“杭州熊猫智云企业服务”、词库词汇为“杭州熊猫智云企业服务有限公司”、词汇数据ID为“123456”；结果2为：匹配的目标文本为“杭州(熊猫智云)企业服务有限公司”、词库词汇为“杭州熊猫智云企业服务有限公司”、词汇数据ID为“234567”；结果3为：匹配的目标文本为“杭州高斯信息技术有限公司”、词库词汇为“杭州高斯信息技术有限公司”、词汇数据ID为“345678，1234”。通过上述识别出的名称和其对应的词汇数据ID，即可在企业名称词库库中搜索到相应的企业数据，还可在此方案的基础上增加类似在网页端识别企业名称并对原始文本进行高亮标记或超链的等功能。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于预建词库的长文本企业名称识别方法，其特征在于，包括以下步骤：

S6：输入的目标文本经过上述查找步骤后得到返回信息；

S7：根据返回信息的具体内容在构建好的企业库中搜索到对应企业的信息；

所述关键词匹配模式为最长匹配模式、最短匹配模式或最多匹配模式；

所述最长匹配模式的具体步骤为：设置匹配长度L＝M，若目标文本从当前字符开始的L长度的文本没有找到关键词则L递减一个长度，并重新在这个区间做二分查找，直至L递减到该区间最短词汇长度D，目标文本查找位置p向后偏移1位；若匹配到关键词，记入返回结果集并停止查找，则目标文本的当前位置则向后偏移已找到词汇长度，返回步骤S4；

所述最短匹配模式的具体步骤为：设置匹配长度L＝D，若目标文本从当前字符开始的L长度文本未找到关键词则递增一个长度，并重新在这个区间做二分查找，直至递增到该区间最长词汇长度，目标文本查找位置向后偏移1位；若匹配到关键词，记入返回结果集并停止查找，则目标文本的当前位置则向后偏移已找到词汇长度，返回步骤S4；

所述最多匹配模式的具体步骤为：设置匹配长度L＝D，若目标文本从当前字符开始的L长度文本未找到关键词则L递增一个长度，并重新在这个区间做二分查找，直至递增到该区间最长词汇长度M，目标文本查找位置p向后移1位；若匹配到关键词,记入返回结果集，目标文本的当前位置则向后偏移1位，返回步骤S4。

2.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法，其特征在于，所述二分查找方法中还考虑到了可忽略字符的影响，在进行查找前指定目标文本中可忽略字符，在查找至该字符时，比较方法会忽略该字符的比对，同时忽略其在匹配长度中所占的长度。

3.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法，其特征在于，所述返回信息包括词库词汇、词汇数据ID、文本词汇、文本所在位置和匹配文本长度。

4.根据权利要求1中所述的基于预建词库的长文本企业名称识别方法，其特征在于，该方法还包括标点分拆，所述标点分拆作为查找方法的优化迭代，将文本中那些不可能出现在企业名称中的标点符号作为分隔符，将文本拆分为短句文本，在查找过程中将那些处于文本尾部且落在哈希索引中查找区间中但剩余长度又不满足该字符词汇区间最小词汇长度的字符跳过。