CN110096571B

CN110096571B - 一种机构名简称生成方法和装置、计算机可读存储介质

Info

Publication number: CN110096571B
Application number: CN201910283558.8A
Authority: CN
Inventors: 陈奇宁; 牟小峰
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2021-06-08
Anticipated expiration: 2039-04-10
Also published as: CN110096571A

Abstract

本申请公开了一种机构名简称生成方法和装置、计算机可读存储介质，所述方法包括获取地名名词词典、机构性质名词词典、行业名词词典和文本语料库；基于地名名词词典、机构性质名词词典和行业名词词典对机构名全称进行分词，得到对应的地名名词、机构性质名词、行业名词和机构专名；通过对地名名词、机构性质名词、行业名词和机构专名进行组合，得到候选机构名简称；使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含候选机构名简称和机构名全称的共现，将候选机构名简称作为机构名简称，m为自然数。本申请通过对机构名全称进行分词，并对分词后的各个名词进行组合以及关联检索，能够准确有效地生成合理的机构名简称。

Description

一种机构名简称生成方法和装置、计算机可读存储介质

技术领域

本申请涉及但不限于自然语言处理(Natural Language Processing，NLP)技术领域，尤其涉及一种机构名简称生成方法和装置、计算机可读存储介质。

背景技术

每个机构名基本上都会有一个或多个机构名简称，例如，阿里巴巴网络技术有限公司的简称为阿里巴巴集团、阿里巴巴或阿里；北京明略软件系统有限公司的简称为明略数据、明略公司、明略等。机构名的简称除了简化机构称呼之外，通常还会体现机构所属行业、机构的独一性等。

由于机构名的简称具有多样性，难以用简单的规则进行概括，在NLP领域，通过机构名全称生成该机构的常用简称，进而建立机构名全称和简称的映射词典，仍然存在着诸多困难：

1、在算法上很难自动生成合理的机构名简称，体现机构的行业和独一性；

2、基于词语组合生成的机构名简称词典，很难保证其正确性，例如：“明略软件”就不是“北京明略软件系统有限公司”的简称。

发明内容

本申请提供了一种机构名简称生成方法和装置、计算机可读存储介质，能够准确有效地生成合理的机构名简称。

本发明实施例提供了一种机构名简称生成方法，包括：

获取地名名词词典、机构性质名词词典、行业名词词典和文本语料库；

基于地名名词词典、机构性质名词词典和行业名词词典，对机构名全称进行分词，得到所述机构名全称对应的地名名词、机构性质名词、行业名词和机构专名；

通过对所述地名名词、机构性质名词、行业名词和机构专名进行组合，得到候选机构名简称；

使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含所述候选机构名简称和所述机构名全称的共现，则将所述候选机构名简称作为所述机构名简称，其中，m为预设的自然数。

在一示例性实施例中，所述基于地名名词词典、机构性质名词词典和行业名词词典，对机构名全称进行分词，得到所述机构名全称对应的地名名词、机构性质名词、行业名词和机构专名，包括：

根据所述地名名词词典、所述机构性质名词词典和所述行业名词词典，对所述机构名全称进行最大匹配分词，得到所述机构名全称中的所述地名名词、所述机构性质名词和所述行业名词；

检测所述机构名全称中除所述地名名词、所述机构性质名词和所述行业名词之外的字中是否包括一段或多段连续的字，如果包括一段或多段连续的字，将每段连续的字分别组合为一个所述机构专名；如果不包括一段或多段连续的字，将所述机构名全称中除所述地名名词、所述机构性质名词和所述行业名词之外的每个字作为一个所述机构专名。

在一示例性实施例中，所述将每段连续的字分别组合为一个所述机构专名的步骤之后，所述方法还包括：

获取常用名词词典；

检测组合得到的所述机构专名的数量；

如果所述机构专名的数量为多个，筛除出现在所述常用名词词典中的所述机构专名，并检测剩余的所述机构专名在所述文本语料库中的出现频率，将出现频率最低的所述机构专名，作为最终的所述机构专名。

在一示例性实施例中，所述对机构名全称进行分词的步骤之后且所述得到所述机构名全称对应的地名名词、机构性质名词、行业名词和机构专名的步骤之前，所述方法还包括：

根据分词得到的所述机构名全称中的行业名词，确定所述机构名全称所属行业；

获取所述机构名全称所属行业的所有所述行业名词，将获取的所有所述行业名词作为所述机构名全称对应的行业名词。

在一示例性实施例中，所述对所述地名名词、机构性质名词、行业名词和机构专名进行组合的方法包括以下至少之一：

直接使用所述机构专名，作为候选机构名简称；

将所述机构专名和所述行业名词进行组合，作为候选机构名简称；

将所述地名名词和所述机构专名进行组合，作为候选机构名简称；

将所述机构专名和所述机构性质名词进行组合，作为候选机构名简称。

在一示例性实施例中，所述使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含所述候选机构名简称和所述机构名全称的共现，则将所述候选机构名简称作为所述机构名简称，包括：

对每个所述候选机构名简称，执行以下操作：

使用所述候选机构名简称在所述文本语料库中检索，获取检索到的前m条文本；

检测所述前m条文本中是否存在所述候选机构名简称和所述机构名全称的共现，并当存在所述候选机构名简称和所述机构名全称的共现时，检测所述候选机构名简称的前词和后词是否包含在所述机构名全称中；

如果一条或多条文本中存在所述候选机构名简称和所述机构名全称的共现，并且所述候选机构名简称的前词和后词不包含在所述机构名全称中，则将所述候选机构名简称作为所述机构名简称；

如果所述m条文本中均不存在所述候选机构名简称，或者所述m条文本中均不存在所述候选机构名简称和所述机构名全称的共现，或者所述m条文本中存在所述候选机构名简称和所述机构名全称的共现但所有所述候选机构名简称在检索结果文本中的开始位置和结束位置都不包含在所述机构名全称在检索结果文本中的开始位置和结束位置范围内，则筛除所述候选机构名简称。

在一示例性实施例中，所述使用候选机构名简称在文本语料库中检索的步骤之前，所述方法还包括：

在所述文本语料库中检索包含所述机构名全称的文本；

在检索出的文本中，提取邻接汉字的I元至J元字符串作为候选字符串，其中，I、J为预设的自然数，计算每个候选字符串的左熵和右熵，以及所述机构名全称的左熵和右熵；计算每个候选字符串与所述机构名全称的熵距，其中，所述左熵为左边邻接词的信息熵，所述右熵为右边邻接词的信息熵，所述熵距为左熵的差值绝对值与右熵的差值绝对值之和；

将计算出的熵距从小到大排列，获取前k个熵距对应的候选字符串作为候选机构名简称，其中，k为预设的自然数。

在一示例性实施例中，所述计算每个候选字符串的左熵和右熵的步骤之前，所述方法还包括：

使用以下至少之一的策略对所述候选字符串进行过滤：

过滤掉出现频次低于预设频次阈值的所述候选字符串；

过滤掉出现在常用名词词典中的所述候选字符串；

过滤掉出现在所述行业名词词典中的所述候选字符串；

过滤掉与所述机构名全称相同的所述候选字符串。

本发明实施例还提供了一种机构名简称生成方法，包括：

获取机构名全称和文本语料库，在所述文本语料库中检索包含所述机构名全称的文本；

将计算出的熵距从小到大排列，获取前k个熵距对应的候选字符串作为候选机构名简称，使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含所述候选机构名简称和所述机构名全称的共现，则将所述候选机构名简称作为所述机构名简称，其中，m、k为预设的自然数。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如以上任一项所述的机构名简称生成方法的步骤。

本发明实施例还提供了一种机构名简称生成装置，包括处理器及存储器，其中：所述处理器用于执行存储器中存储的程序，以实现如以上任一项所述的机构名简称生成方法的步骤。

与相关技术相比，本申请的机构名简称生成方法和装置、计算机可读存储介质，通过对机构名全称进行分词，并对分词后的各个名词进行组合以及关联检索，能够准确有效地生成合理的机构名简称；

进一步地，通过提取候选字符串并进行信息熵计算，从文本语料库中提取与机构名全称具有相似上下文的字符串作为机构名简称，能够准确全面地生成机构名简称，提高了生成的机构名简称的查全率和准确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本发明实施例一的一种机构名简称生成方法的流程示意图；

图2为本发明实施例二的一种机构名简称生成方法的流程示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

本申请实施例公开的机构名简称生成方法和装置、计算机可读存储介质，通过对机构名全称中的用词进行分类，有效地生成合理的候选机构名简称，并通过检索关联，分析生成的机构名简称和机构名全称的关系，确定生成的机构名简称的正确性。本申请通过从文本语料库中提取与机构名全称具有相似上下文的字符串作为机构名简称，可以进一步提高机构名简称的查全率和准确率。本申请的处理流程包括：

基于统计生成机构名全称的三类用词词典(地名名词词典、行业名词词典和机构性质名词词典)；

为文本语料库(大规模的新闻语料库和百科文本语料库)建立检索索引；

对机构名全称基于三类用词词典进行双向最大匹配分词，并按照机构名全称的三类用词词典对分词序列进行词语分类，并确定机构所属行业；

根据分好的词利用基于规则组合的专名生成算法和基于上下文相似的专名搜索算法，得到候选机构名简称列表；

使用生成的候选机构名简称列表在所述文本语料库中进行检索，并分析检索结果中机构名简称和机构名全称的共现位置和共现次数，如果符合特定的规则，则认为该机构名简称有效。

实施例一机构名简称生成方法一

如图1所示，根据本发明实施例的一种机构名简称生成方法，包括如下步骤：

步骤101：获取地名名词词典、机构性质名词词典、行业名词词典和文本语料库；

需要说明的是，本申请将机构名全称中的用词分为以下四类：地名名词、机构专名、行业名词和机构性质名词，其中，地名名词用于标识机构名全称中的地名信息；机构专名用于标识机构名全称中的机构名专有名词；行业名词用于标识体现机构所属行业的名词；机构性质名词用于标识所有行业的机构都可能使用的统称。例如，以“北京明略软件系统有限公司”为例，其中的地名名词为“北京”；机构专名为“明略”；行业名词为“软件”、“系统”；机构性质名词为“有限”、“公司”。

在步骤101中，我们可以收集网络科技公司、保险公司、机械电子公司等多个不同类别的机构名全称，对这些机构名全称进行统计筛选，建立地名名词词典、机构性质名词词典和行业名词词典。具体步骤如下：

(1)对于地名名词词典，根据全国行政区划的省市区地名，可以通过去后缀和/或过滤单字名词得到(例如“北京市”变成“北京”)。

(2)对于机构性质名词词典，对全部机构名全称进行汉语分词，通过匹配，去除地名名词，再对剩余的分词进行统计，过滤出频率大于预设第一频率阈值的词，作为机构性质名词词典。例如：{公司、有限、股份、责任……}。

(3)对于行业名词词典，分别对每个类别的机构全称进行汉语分词，通过匹配，利用前两步生成的地名词典和机构性质名词词典，去除地名名词和机构性质名词，再对剩余的词进行统计，过滤出频率大于预设第二频率阈值的词，作为该行业的行业名词词典。每一个行业都会有对应行业名词词典。如网络科技公司的行业名词可能如下[科技，网络，数据，数字，电脑……]。

在一种示例性的实施例中，所述文本语料库包括新闻语料库和维基百科语料库。

在该实施例的一示例中，通过爬取新闻语料，并下载维基百科的文本数据(这些数据都会定期更新)构建所述文本语料库，利用检索软件对文本语料库中的数据建立索引，便于后续的检索。

步骤102：基于地名名词词典、机构性质名词词典和行业名词词典，对机构名全称进行分词，得到所述机构名全称对应的地名名词、机构性质名词、行业名词和机构专名；

在一种示例性的实施例中，所述步骤102包括：

在该实施例的一示例中，所述最大匹配分词的方法为正向最大匹配法、逆向最大匹配法或双向最大匹配法。

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较，从而决定正确的分词方法。

在该实施例的一示例中，所述将每段连续的字分别组合为一个所述机构专名的步骤之后，所述方法还包括：

获取常用名词词典；

检测组合得到的所述机构专名的数量；

在该实施例的一示例中，所述获取常用名词词典，包括：

利用已分词的人民日报标记语料，通过去除实体词(人名、地名、组织机构、专名、日期等)统计得到词频大于预设词频阈值(例如，预设词频阈值为50)的词，作为常用名词词典，记为CommonWords。

本申请的机构名简称生成方法的关键在于，机构专名的抽取和有效组合。例如，以机构名全称“海南威斯达电子科技有限公司”为例，首先根据地名名词词典、机构性质名词词典和行业名词词典，对机构名全称进行双向最大匹配分词，得到的分词序列为：[海南，威，斯，达，电子，科技，有限，公司]。

根据机构名全称中的地名名词AllAddressNouns、机构性质名词AllCompanyNouns和行业名词AllProfessionNouns，对分词序列进行标记，地名名词标记为A，机构性质名词标记为C，行业名词标记为P，其它未知词语标记为O，因此，得到一个标记序列。如上例得到的标记序列如下：[A，O，O，O，P，P，C，C]；

根据标记A的词获得地名名词列表AList：[海南]；

根据标记P的词获得行业名词列表PList：[电子，科技]；

根据标记C的词获得机构性质名词列表CList：[有限，公司]；

剩余的未知词语标记(O)，则将连续的字进行组合，若有多段连续的位置标记都是O，则分别组合成机构专名，得到机构专名列表ZList，如上例中的[威斯达]；

当机构专名列表中包括多个机构专名时，需要从机构专名列表中筛选出真正的机构专名，具体做法如下：

A)首先筛除掉出现在常用词词典CommonWords中的机构专名；

B)再根据所述机构专名在所述文本语料中的出现频率，筛选出出现频率最低的机构专名，作为最终的机构专名。

C)若经过上述两步未能得到机构专名，则认为该机构名全称中没有机构专名。

需要说明的是，所述机构专名列表有可能为空。例如：“中国石油天然气集团公司”，就没有机构专名。

在该实施例的一示例中，所述对机构名全称进行分词的步骤之后且所述得到所述机构名全称对应的地名名词、机构性质名词、行业名词和机构专名的步骤之前，所述方法还包括：

例如，仍以上述机构名全称“海南威斯达电子科技有限公司”为例，根据行业名词列表PList，确定该机构所属行业，得到该行业所有可能的行业名词。例如，上述的PList([电子，科技])，得到该机构属于网络科技公司行业，则该行业对应的所有行业名词PNList包括：[科技，网络，数据，数字，电脑……]。

步骤103：通过对所述地名名词、机构性质名词、行业名词和机构专名进行组合，得到候选机构名简称；

在一种示例性的实施例中，所述对所述地名名词、机构性质名词、行业名词和机构专名进行组合的方法括以下至少之一：

直接使用所述机构专名，作为候选机构名简称；

具体地，根据当前的ZList，AList，PNList和CList进行组合，得到候选机构名简称列表，具体的组合算法包括以下至少之一：

(1)机构专名；

(2)机构专名+PNList中的每个词；

(3)AList中的每个词+机构专名；

(4)机构专名+CList中的名词后缀(如公司、集团等)。

需要说明的是，由于机构名全称和机构名简称之间不完全是有规律的对应关系，因此有时需要获取多个潜在的候选机构名简称并根据上下文来评估其可靠性。在本申请的一实施例中，考虑从两个角度来提取候选机构名简称，第一个角度是上述的基于机构名简称生成规律来进行组合，构造机构名简称；第二个角度是从文本语料库中提取与机构名全称具有相似上下文的字符串作为机构名简称(例如：北京小桔科技有限公司与滴滴，中国石油天然气集团公司与中石油，该类型的全称无法通过规则组合来获取，但其机构名简称通常会和机构名全称具有相同的上下文，则采用基于上下文相似的专名搜索来提取)。

在一种示例性的实施例中，所述步骤104之前，所述方法还包括：

在所述文本语料库中检索包含所述机构名全称的文本；

在一种示例性的实施例中，所述计算每个候选字符串的左熵和右熵的步骤之前，所述方法还包括：

使用以下至少之一的策略对所述候选字符串进行过滤：

过滤掉出现频次低于预设频次阈值的所述候选字符串；

过滤掉出现在常用名词词典中的所述候选字符串；

过滤掉出现在所述行业名词词典中的所述候选字符串；

过滤掉与所述机构名全称相同的所述候选字符串。

下面以机构名全称“中国科学院”为例，说明如何从文本语料库中提取与机构名全称具有相似上下文的字符串作为机构名简称：

(1)在所述文本语料库中提取匹配机构名全称出现的文本，记为S，一种示例性的文本S如下：

一等奖序号变化项目名称主要完成人推荐单位1Z-10701-1-01网络计算的模式及基础理论研究张尧学(清华大学)，周悦芝(清华大学)，林闯(清华大学)，任丰原教育部(清华大学)，王国军(中南大学)...Z-103-2-01态-态分子反应动力学研究张东辉(中国科学院大连化学物理研究所)，杨学明(中国科学院大连化学物理研究所)，戴东旭(中国科学院大连化学物理研究所)...

标题：2014年度国家自然科学奖获奖项目目录

9月12日，中国科学院大学2015级本科新生在参观纪念馆。中国科学院与“两弹一星”纪念馆开馆。新华社记者金立旺摄9月12日，中国科学院在原怀柔火箭试验基地举行“中国科学院”与“两弹一星”纪念...

标题：中国科学院与“两弹一星”纪念馆开馆

央广网财经讯中国科学院云计算中心(全称为“中国科学院云计算产业技术创新与育成中心”)，是2011年在广东省和中科院主要领导...根据中国科学院与东莞市人民政府签署的《共建中国科学院云计算...

标题：中国科学院云计算中心全国首个智能物流云示范基地落地湖南

“2016年沙特基础工业公司-中科院奖学金颁奖典礼”在中国科学院大学雁栖湖校区举行。...中国网3月28日讯今日上午，“2016年沙特基础工业公司-中科院奖学金颁奖典礼”在中国科学院大学(国科...

标题：“沙特基础工业公司-中科院奖学金颁奖典礼”

火箭基地焕新颜中国科学院与“两弹一星”纪念馆揭幕，中新网北京9月12日电(记者张素)昔日神秘的中国科学院怀柔火箭试验基地12日“焕新颜”，在其原址上落成的“中国科学院与‘两弹一星’纪念馆”...

标题：火箭基地焕新颜中国科学院与“两弹一星”纪念馆揭幕

(2)统计S中邻接汉字的2元-6元字符串。

对S中的所有句子，统计2元、3元、4元、5元、6元的汉字字符串。例如，假设搜索到的文本S如下：

“中国科学院比较行星学卓越创新中心启动会暨首次学术委员会会议在中国科学技术大学举行。中国科大校长、中科院院士包信和等为卓越中心揭牌”。

则S中的候选字符串列表如下(记为CNList)：

2元：中国、国科、科学、学院、院比、比较、较行……

3元：中国科、国科学、科学院、学院比、院比较、……、中科院、科院院、院院士……

4元：中国科学、国科学院、科学院比、学院比较……

5元：中国科学院、国科学院比、科学院比较、学院比较行、学院比较行星……

6元：中国科学院比、国科学院比较、科学院比较行……

(3)对上述得到的结果CNList进行过滤，过滤策略包括以下至少之一：

a)过滤掉CNList中出现频次低于预设频次阈值(例如，预设频次阈值为3次)的候选字符串；

b)过滤掉包含在常用词词典CommonWords中的候选字符串；

c)过滤掉包含在行业列表PList中的候选字符串；

d)过滤掉CNList中与该机构名全称相同的候选字符串。

(4)在提取的文本S中，计算机构名全称N的左熵(记为H(N_l))和右熵(记为H(N_r))。其中，左熵即机构名全称N的左词(左边邻接的词)的信息熵，右熵即机构名全称N的右词(右边邻接的词)的信息熵。其中，信息熵的计算公式如下：H(X)＝-∑_x∈T‘p(x)log₂p(x)；

在该公式中，x是一个随机变量，表示左词(或右词，注：随机变量x在计算左熵时为左词，在计算右熵时为右词)，T‘是该机构名全称所有左词(或右词)去重后的集合，p(x)是该机构名全称的左词(或右词)的概率分布。例如：计算“中国科学院”的左熵，在搜索“中国科学院”的文本结果集K中，“中国科学院”的左词列表T如下：{祝贺、宣布、在、与、在、举行、祝贺、以、颁发…}；(注：T为所有出现的左词列表，即将所有出现过的左词不去重地加入到列表T中)。

计算左词概率分布

其中，C(x)为T中当前词x的频数，T.size为T中词的总个数。这样，计算“中国科学院”的左熵时，就分别计算T‘中的每一个词的p(x)，代入上述信息熵计算公式即可。右熵的计算方法与左熵一样，只是要统计出所有的右词，得到右词列表T，{院士、化学、信息、院士、计算机、心理、化学、数学……}，即可以计算出该字符串的右熵。

(5)循环遍历CNList中的每一个候选字符串X，搜索文本语料库，利用第(4)步中介绍的方法计算每个候选字符串X的左熵(记为H(X_il))和右熵(记为H(X_ir))。

(6)计算CNList中候选字符串X与机构名全称的熵距(熵距是该算法中提出的概念，即候选字符串X与机构名全称的左右熵的差值绝对值之和，计算公式如下：D(X_i)＝|H(X_il)-H(N_l)|+|H(X_ir)-H(N_r)|)。

(7)对第(6)步得到的熵距从小到大排序，获取前k个(例如，k值可以为5个)熵距对应的候选字符串X，作为候选机构名简称。

步骤104：使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含所述候选机构名简称和所述机构名全称的共现，则将所述候选机构名简称作为所述机构名简称，其中，m为预设的自然数。

在一种示例性的实施例中，所述步骤104包括：

对每个所述候选机构名简称，执行以下操作：

如果所述m条文本中均不存在所述候选机构名简称，或者所述m条文本中均不存在所述候选机构名简称和所述机构名全称的共现，或者所述m条文本中存在所述候选机构名简称和所述机构名全称的共现但所有所述候选机构名简称在检索结果文本中的开始位置和结束位置都不包含在所述机构名全称在检索结果文本中的开始位置和结束位置范围内(换句话说，就是检索到的内容并不是机构名全称中的一部分)，则筛除所述候选机构名简称。

具体地，假设m为10，将上述两个角度(一：基于机构名简称生成规律来进行组合，构造机构名简称；二：从文本语料库中提取与机构名全称具有相似上下文的字符串作为机构名简称)获取的候选机构名简称列表，在大规模的新闻和百科文本语料库中进行检索，获取检索得到的结果中的前10条文本结果。

根据如下规则，筛选候选机构名简称：

I)若前10条文本结果中有一条或多条文本结果存在候选机构名简称和机构名全称的共现，并且候选机构名简称的前词和后词并不包含在机构名全称中，则该候选机构名简称作为最终的机构名简称。

II)若前10条文本结果中均没有出现候选机构名简称，或者均没有出现候选机构名简称和机构名全称的共现，或者所述m条文本中存在所述候选机构名简称和所述机构名全称的共现但所有所述候选机构名简称在检索结果文本中的开始位置和结束位置都不包含在所述机构名全称在检索结果文本中的开始位置和结束位置范围内(换句话说，就是检索到的内容并不是机构名全称中的一部分)，则该候选机构名简称不作为最终的机构名简称。

当遍历完所有的候选机构名简称，得到的机构名简称列表，即为所述机构名全称对应的机构名简称。

实施例二机构名简称生成方法二

如图2所示，根据本发明实施例的一种机构名简称生成方法，包括如下步骤：

步骤201：获取机构名全称和文本语料库，在所述文本语料库中检索包含所述机构名全称的文本；

步骤202：在检索出的文本中，提取邻接汉字的I元至J元字符串作为候选字符串，其中，I、J为预设的自然数，计算每个候选字符串的左熵和右熵，以及所述机构名全称的左熵和右熵；计算每个候选字符串与所述机构名全称的熵距，其中，所述左熵为左边邻接词的信息熵，所述右熵为右边邻接词的信息熵，所述熵距为左熵的差值绝对值与右熵的差值绝对值之和；

使用以下至少之一的策略对所述候选字符串进行过滤：

过滤掉出现频次低于预设频次阈值的所述候选字符串；

过滤掉出现在常用名词词典中的所述候选字符串；

过滤掉出现在行业名词词典中的所述候选字符串；

过滤掉与所述机构名全称相同的字符串。

需要说明的是，该实施例中提取候选字符串并进行信息熵计算的过程，与前文的实施例一提取候选字符串并进行信息熵计算的过程原理相同，具体如何提取候选字符串并进行信息熵计算，请参见前文所述，此处不再赘述。

步骤203：将计算出的熵距从小到大排列，获取前k个熵距对应的候选字符串作为候选机构名简称，使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含所述候选机构名简称和所述机构名全称的共现，则将所述候选机构名简称作为所述机构名简称，其中，m、k为预设的自然数。

在一种示例性的实施例中，所述步骤104包括：

对每个所述候选机构名简称，执行以下操作：

如果所述m条文本中均不存在所述候选机构名简称，或者所述m条文本中均不存在所述候选机构名简称和所述机构名全称的共现，或者所述m条文本中存在所述候选机构名简称和所述机构名全称的共现但但所有所述候选机构名简称在检索结果文本中的开始位置和结束位置都不包含在所述机构名全称在检索结果文本中的开始位置和结束位置范围内(换句话说，就是检索到的内容并不是机构名全称中的一部分)，则筛除所述候选机构名简称。

实施例三：计算机可读存储介质

实施例四：机构名简称生成装置

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种机构名简称生成方法，其特征在于，包括：

获取机构名全称和文本语料库，根据文本语料库和机构名全称得到候选机构名简称；

使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含所述候选机构名简称和所述机构名全称的共现，则将所述候选机构名简称作为所述机构名简称，其中，m为预设的自然数；

其中，所述候选机构名简称包括第一候选机构名简称；所述根据文本语料库和机构名全称得到候选机构名简称包括：

在所述文本语料库中检索包含所述机构名全称的文本；

将计算出的熵距从小到大排列，获取前k个熵距对应的候选字符串作为第一候选机构名简称，其中，k为预设的自然数。

2.根据权利要求1所述的机构名简称生成方法，其特征在于：

所述候选机构名简称还包括第二候选机构名简称；

所述根据文本语料库和机构名全称得到候选机构名简称还包括：

获取地名名词词典、机构性质名词词典和行业名词词典；

通过对所述地名名词、机构性质名词、行业名词和机构专名进行组合，得到第二候选机构名简称。

3.根据权利要求2所述的机构名简称生成方法，其特征在于，所述基于地名名词词典、机构性质名词词典和行业名词词典，对机构名全称进行分词，得到所述机构名全称对应的地名名词、机构性质名词、行业名词和机构专名，包括：

4.根据权利要求3所述的机构名简称生成方法，其特征在于，所述将每段连续的字分别组合为一个所述机构专名的步骤之后，所述方法还包括：

获取常用名词词典；

检测组合得到的所述机构专名的数量；

5.根据权利要求3所述的机构名简称生成方法，其特征在于，所述对机构名全称进行分词的步骤之后且所述得到所述机构名全称对应的地名名词、机构性质名词、行业名词和机构专名的步骤之前，所述方法还包括：

6.根据权利要求3所述的机构名简称生成方法，其特征在于，所述对所述地名名词、机构性质名词、行业名词和机构专名进行组合的方法包括以下至少之一：

直接使用所述机构专名，作为第二候选机构名简称；

将所述机构专名和所述行业名词进行组合，作为第二候选机构名简称；

将所述地名名词和所述机构专名进行组合，作为第二候选机构名简称；

将所述机构专名和所述机构性质名词进行组合，作为第二候选机构名简称。

7.根据权利要求1所述的机构名简称生成方法，其特征在于，所述使用候选机构名简称在文本语料库中检索，若检索到的m条文本中包含所述候选机构名简称和所述机构名全称的共现，则将所述候选机构名简称作为所述机构名简称，包括：

对每个所述候选机构名简称，执行以下操作：

8.根据权利要求1所述的机构名简称生成方法，其特征在于，所述计算每个候选字符串的左熵和右熵的步骤之前，所述方法还包括：

使用以下至少之一的策略对所述候选字符串进行过滤：

过滤掉出现频次低于预设频次阈值的所述候选字符串；

过滤掉出现在常用名词词典中的所述候选字符串；

过滤掉出现在行业名词词典中的所述候选字符串；

过滤掉与所述机构名全称相同的所述候选字符串。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至权利要求8中任一项所述的机构名简称生成方法的步骤。

10.一种机构名简称生成装置，其特征在于，包括处理器及存储器，其中：所述处理器用于执行存储器中存储的程序，以实现如权利要求1至权利要求8中任一项所述的机构名简称生成方法的步骤。