CN111133429A

CN111133429A - 提取表达以供自然语言处理

Info

Publication number: CN111133429A
Application number: CN201880062489.1A
Authority: CN
Inventors: 村冈雅康; 那须川哲哉
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-09-27
Filing date: 2018-09-21
Publication date: 2020-05-08
Also published as: US20190095525A1; WO2019064137A1; GB202003943D0; JP2021501387A

Abstract

一种用于提取文本中的表达以供自然语言处理的计算机实现的方法、计算机程序产品以及计算机系统。所述计算机系统读取文本以生成多个子串，其中，每个子串包括在所述文本中出现的一个或多个单元。所述计算机系统使用所述一个或多个单元作为对图像搜索系统的查询，获得用于所述每个子串的图像集，其中，所述图像集包括一个或多个图像。所述计算机系统计算用于所述每个子串的所述图像集中的偏差。所述计算机系统基于所述偏差和每个子串的长度，选择所述多个子串中的相应子串作为要提取的表达。

Description

提取表达以供自然语言处理

背景技术

本发明一般涉及信息提取，尤其涉及用于提取文本中的表达以供自然语言处理的技术。

命名实体识别(NER)是用于识别文本中诸如人、位置、组织或产品的命名实体的过程。NER在其性能和应用方面扮演自然语言处理的角色，例如文本挖掘。命名实体经常包括词典中的未注册字符串。尤其是，由已注册元素和未注册元素构成的复合词经常在随后的自然语言处理中导致错误。

由于新的命名实体是一个接一个地出现的，因此难以准备用于NER系统的命名实体的全面或详尽的列表。命名实体通常可以是会在不熟悉的领域或语言中发现的个人、组织、产品名称、技术术语或外来语。识别在句子中出现的这种命名实体有助于提高随后的自然语言处理的准确性并扩展其应用领域。通常，可以通过利用语言学信息(诸如单词周围的上下文和一系列词性)来从文本中提取命名实体。

关于命名实体识别，专利文献(US20150286629)公开了一种命名实体识别系统，用于检测网页中的命名实体的实例，并将该命名实体分类为组织或其他预定义类别。在该技术中，通过使用多语言文档语料库中的文档之间的链接，来自该语料库的不同语言的文本被标记有指示命名实体类别的标签。然后，来自平行句子的文本被自动地标记有指示命名实体类别的标签。平行句子是在不同语言中具有相同语义的句子对。所标记的文本用于训练机器学习组件以便用命名实体类别标签来标记多种不同语言的文本。然而，在该文献中公开的技术中，用于训练命名实体识别系统的机器学习组件的数据源限于语言学信息，诸如多语言或单语言语料库和平行句子。

发明内容

在一个方面，提供了一种用于提取文本中的表达以供自然语言处理的计算机实现的方法。所述计算机实现的方法包括读取文本以生成多个子串，每个子串包括在所述文本中出现的一个或多个单元。所述计算机实现的方法还包括使用所述一个或多个单元作为对图像搜索系统的查询，获得用于所述每个子串的图像集，所述图像集包括一个或多个图像。所述计算机实现的方法还包括计算用于所述每个子串的所述图像集中的偏差。所述计算机实现的方法还包括基于所述偏差和每个子串的长度，选择所述多个子串中的相应子串作为要提取的表达。

在另一方面，提供了一种用于提取文本中的表达以供自然语言处理的计算机程序产品。所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有随其体现的程序代码。所述程序代码可执行以读取文本以生成多个子串，每个子串包括在所述文本中出现的一个或多个单元。所述程序代码还可执行以使用所述一个或多个单元作为对图像搜索系统的查询，获得用于所述每个子串的图像集，所述图像集包括一个或多个图像。所述程序代码还可执行以计算用于所述每个子串的所述图像集中的偏差。所述程序代码还可执行以基于所述偏差和每个子串的长度，选择所述多个子串中的相应子串作为要提取的表达。

在又一方面，提供了一种用于提取文本中的表达以供自然语言处理的计算机系统。所述计算机系统包括一个或多个处理器、一个或多个计算机可读有形存储设备、以及程序指令，所述程序指令存储在所述一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上以供所述一个或多个处理器中的至少一个处理器执行。所述程序指令可执行以：读取文本以生成多个子串，每个子串包括在所述文本中出现的一个或多个单元；使用所述一个或多个单元作为对图像搜索系统的查询，获得用于所述每个子串的图像集，所述图像集包括一个或多个图像；计算用于所述每个子串的所述图像集中的偏差；以及基于所述偏差和每个子串的长度，选择所述多个子串中的相应子串作为要提取的表达。

附图说明

图1示出了根据本发明的一个实施例的用于创建命名实体词典的系统的框图；

图2是根据本发明的一个实施例的在图1所示的系统中从句子生成子串的示例的示意图；

图3是根据本发明的一个实施例的在图1所示的系统中获得用于每个子串的对象标签的示例的示意图；

图4是根据本发明的一个实施例的在图1所示的系统中获得用于每个子串的组的示例的示意图；

图5是根据本发明的一个实施例的在图1所示的系统中从多个候选串中选择一个或多个串作为命名实体的示例的示意图；

图6是根据本发明的一个实施例的在图1所示的系统中从多个候选串中选择一个或多个串作为命名实体的另一示例的示意图；

图7是描绘根据本发明的一个实施例的用于使用对象识别技术通过利用图像信息来从文本提取命名实体的过程的流程图；

图8是描绘根据本发明的另一实施例的用于使用对象识别技术通过利用图像信息来从文本提取命名实体的过程的流程图；

图9A-9D示出了根据本发明的一个实施例的由用于使用对象识别技术通过利用图像信息来从文本提取命名实体的过程所识别的示例；

图10是示出根据本发明的一个实施例的用于实现命名实体识别的计算机系统的组件的图。

具体实施方式

现在，将使用特定实施例来描述本发明，并且此后描述的实施例被理解为仅被称为示例，而不旨在限制本发明的范围。

本发明的实施例涉及用于从以自然语言书写的文本中提取/识别命名实体的计算机实现的方法、计算机系统和计算机程序产品。

命名实体识别(NER)是用于从以自然语言写的文本中提取命名实体的过程，其中命名实体可以是诸如人、位置、组织、产品等的真实世界对象。参考图1-图9，示出了根据本发明的一个或多个实施例的用于从以自然语言写的文本中提取/识别命名实体的计算机系统和过程。

图1-图6描述了根据本发明的一个实施例的用于创建命名实体词典的计算机系统。在计算机系统中，从以各种自然语言书写的文本的集合中提取命名实体，以使用图像分析技术通过利用图像信息来构建命名实体词典。图7描述了根据本发明的一个实施例的用于使用对象识别技术通过利用图像信息来从以自然语言书写的文本中提取命名实体的方法。图8描述了根据本发明的另一实施例的用于使用图像聚类技术通过利用图像信息来从文本提取命名实体的方法。

图1示出了根据本发明的一个实施例的用于创建命名实体词典的系统100的框图。如图1所示，系统100可以包括用于存储文本集合的语料库110、用于从文本中提取/识别命名实体的命名实体识别引擎120、用于取得与给定查询相匹配的一个或多个图像的图像搜索系统130、用于对在给定图像中捕获的对象进行分类的对象识别系统140、用于将给定图像聚类成若干组的图像聚类系统150、以及用于存储由命名实体识别引擎120识别的命名实体的词典存储库160。

语料库110可以是存储文本集合的数据库，其可以包括以各种语言(包括英语、日语、印度尼西亚语、芬兰语、保加利亚语、希伯来语、韩语等)书写的大量句子。语料库110可以是系统100中的内部语料库或者可以由特定组织或个人提供的外部语料库。

命名实体识别引擎120被配置为与包括图像搜索系统130、对象识别系统140和/或图像聚类系统150的系统协作，以实现命名实体识别/提取功能。在命名实体识别的每个阶段，命名实体识别引擎120可以向系统130、140和/或150中的每个系统发出查询。

图像搜索系统130被配置为取得与给定查询相匹配的一个或多个图像。图像搜索系统130可以存储位于全球计算机网络(因特网)上或在诸如社交网络服务的特定服务上累积的大量图像的索引。图像搜索系统130可以存储每个图像和从与每个图像相关联的文本中提取的关键字之间的关系，并且对图像搜索系统130的查询可以是基于串的查询。

图像搜索系统130可以从命名实体识别引擎120接收查询，取得与所接收的查询相匹配的一个或多个图像，以及将图像搜索结果返回给命名实体识别引擎120。图像搜索结果可以包括每个图像(缩略图或完整图像)的图像数据和/或到每个图像的链接。图像搜索系统130可以是系统100中的内部系统，或者可以是由特定组织或个人通过适当的应用编程接口(API)提供的外部服务。这样的外部服务可以包括搜索引擎服务、社交网络服务等。

对象识别系统140被配置为对在给定查询的图像中捕获的对象进行分类。对象识别系统140可以从命名实体识别引擎120接收查询，执行对象识别以标识适合于查询的图像的一个或多个对象标签，以及将对象识别结果返回给命名实体识别引擎120。

查询可以包括图像的图像数据或到图像的链接。对象识别结果可以包括针对查询的图像所标识的一个或多个对象标签。每个对象标签可以指示在查询的图像中捕获的真实世界对象(例如，人、动物、机器等)的通用名称(例如，人、猫、汽车等)和/或属性(例如，年龄、性别、情绪、斑纹、颜色等)。

对象识别(其是将在图像中捕获的对象分类成预定类别的过程)可以通过使用任何已知的对象识别/检测技术(包括基于特征的、基于梯度的、基于导数的和基于模板匹配的方法)来执行。对象识别系统140可以是系统100中的内部系统或者是可以由特定组织或个人通过适当的API提供的外部服务。

图像聚类系统150被配置为将给定图像分组成若干组(或聚类)。图像聚类系统150可以从命名实体识别引擎120接收查询，对查询的给定图像执行图像聚类，以及将聚类结果返回给命名实体识别引擎120。查询可以包括图像的图像数据或到图像的链接。聚类结果可以包括聚类的结果组组成。图像聚类可以至少部分地基于特征向量，特征向量中的每一个可以由特征提取器从每个图像中提取。

任何已知的聚类算法(例如聚合的分层聚类(包括组平均法)和非分层聚类(例如k-均值、k-medioid、x-均值等))都可以应用于图像的特征向量。当使用具有固定数量的聚类作为参数的诸如k-means的算法时，可以通过使用在肘部法、轮廓法等中使用的任何已知标准来确定聚类的适当数量。同样，图像聚类系统150可以是系统100中的内部系统或者是可以由特定组织或个人通过适当的API提供的外部服务。

词典存储库160被配置为存储命名实体词典，该命名实体词典保存由命名实体识别引擎120识别的命名实体。可以通过使用命名实体识别引擎120可以访问的任何内部或外部存储设备或介质来提供词典库160。

命名实体识别引擎120通过使用系统130、140和/或150来执行新颖的命名实体识别过程，以识别文本中的命名实体。命名实体识别过程的目标可以包括具有适当名称的任何真实世界对象，诸如人、位置、组织、产品等。在实施例中，目标还可以包括所谓的未知词。

在图1中，描绘了命名实体识别引擎120的更详细的框图。如图1所示，命名实体识别引擎120包括用于从给定文本中生成多个子串作为命名实体的候选串的子串生成模块122、用于计算用于每个候选串的图像的偏差的图像偏差计算模块124、以及用于从多个候选串之中选择一个或多个串作为要提取的命名实体的命名实体选择模块126。

子串生成模块122被配置为从开始处逐一读取存储在语料库110中的文本，以生成多个子串作为用于命名实体的候选串。由子串生成模块122读取的文本可以是用某种自然语言书写的句子，该自然语言可以是已知的或未知的。多个子串可以通过列举出现在句子中的单个单元和出现在句子中的连续单元的组合来生成。因此，每个子串可以包括在句子中出现的一个或多个连续单元。注意，如果在句子中存在单词分隔符，则该单元是单词，如在英语中书写的，或者如果在句子中不存在单词分隔符，则该单元是字符，如在日语中书写的。此外，如果在句子中存在单词分隔符，但是存在关于如何根据个体风格来给出单词分隔符的歧义，则该单元是字符，如在韩语中书写的。由子串生成模块122生成的多个子串包括在句子中出现的一组词或字符的幂集(power set)的至少一部分。

图2是根据本发明的一个实施例的在图1所示的系统中从句子生成子串的示例的示意图。在图2中，描述了一种从示例性句子中生成子串的方式。图2中的示例示出了以印度尼西亚语书写的句子。示例性句子"tukang sapu membersihkan jalan"包括由空格分隔的四个连续单词。因此，句子的串可以包括出现在句子中的一组四个单词，并且该组单词的幂集可以包括至少十个子串：四个单个单词、具有空格的连续两个单词的三个拼接串、具有空格的连续三个单词的两个拼接串、以及具有空格的连续四个单词的一个拼接串。注意，在幂集中还存在空串和远端词(distant word)的拼接串(例如，"tukang jalan")。然而，在特定实施例中，空串和远端词的拼接串可以从候选串中被排除以避免额外的处理。在该示例中，由子串生成模块122从示例性句子中生成十个子串作为用于命名实体的候选串。

注意，在特定实施例中，子串的长度(单元的数量)可由适当的最大值限制。在其它实施例中，当没有来自其它系统的响应时，通过以长度的升序处理子串，能够限制子串的长度。

返回参考图1，图像偏差计算模块124被配置为从图像搜索系统130获得包括与每个候选串(子串)相关的一个或多个图像的图像集。可以通过使用每个候选串中的一个或多个词或字符作为对图像搜索系统130的查询来获得图像集。在示例性实施例中，每个候选串中的所有单词或字符被用作对图像搜索系统130的查询。也可以考虑对候选串的修改，例如添加搜索运算符(例如，用双引号围绕候选串、用符号连接多个单词)、大写、以及在单数和复数形式之间的转换，以创建对图像搜索系统的查询。在特定实施例中，查询可请求与候选串的精确匹配。在其它特定实施例中，查询可允许与候选串的部分匹配。

图像偏差计算模块124还被配置为从对象识别系统140和/或图像聚类系统150获得关于用于每个候选串的一个或多个图像的分析结果。可以通过将针对每个候选串获得的一个或多个图像至少部分地用作对对象识别系统140和/或图像聚类系统150的查询来获得分析结果。图像偏差计算模块124还被配置为至少部分地基于针对候选串获得的分析结果，计算用于每个候选串的图像集中的偏差。注意，每个候选串的偏差是图像在图像集中变化和/或偏离的度量。

从对象识别系统140获得的分析结果可包括针对图像集中的每个图像识别的一个或多个对象标签。针对每个候选串，聚集针对图像集中的每个图像识别的对象标签。针对每个候选串获得的对象标签能够用于计算每个候选串的偏差。当使用对象识别系统140时，图像偏差计算模块124能够通过使用针对被选择为命名实体的候选串而获得的一个或多个对象标签来估计命名实体的类型(例如，人、建筑物、城市等)。

图3是根据本发明的一个实施例的在图1所示的系统中获得用于每个子串的对象标签的示例的示意图。在图3中，描述了一种获得用于每个子串的对象标签的方式。在图3中，代表性地示出了两个子串"tukang sapu"和"membersihkan jalan"的示意性示例。如图3所示，存在针对两个子串中的每一个取得的若干图像(图像01至图像05以及图像06至图像10)。此外，针对每个子串给出多个对象标签及其频率。

在一个实施例中，为了计算偏差，图像偏差计算模块124可以对用于每个候选串的图像集中的现有图像(EI)的数量进行计数。图像偏差计算模块124还可计算用于每个候选串的对象标签中的不同对象标签(DOL)的数量和对象标签分布(BOL)的偏离。用于每个候选串的现有图像(EI)的数量、不同对象标签(DOL)的数量和/或对象标签分布(BOL)的偏离可以至少部分地用于计算用于每个候选串的偏差。

如果子串太长或者没有意义，则针对该子串没有取得图像或取得少量图像。因此，现有图像(EI)的数量可以是对用于每个候选串的图像集中的偏差的良好度量。在特定实施例中，用于计算偏差的图像的数量可以由适当的最大值来限制。因此，现有图像(EI)的数量可能在预定最大值处饱和。

如果子串表示特定概念，则存在在图像集中的多个图像中具有相同对象的趋势。因此，不同对象标签(DOL)的数量可以是对用于每个候选串的图像集的偏差的良好度量。此外，如果存在针对两个子串中的每一个获得的多个对象标签，则能够认为具有更大偏离的子串更好地表示概念。例如，假设对于两个子串都获得两个标签("人物"和"雕像")，但是存在不同的标签分布，例如，对于第一子串存在四个"人物"标签和一个"雕像"标签，而对于第二子串存在三个"人物"标签和两个"雕像"标签。在该示例中，具有较大偏离的第一子串(四个"人物"标签和一个"塑像"标签)能够被预期为比具有较小偏离的第二子串(三个"人物"标签和两个"塑像"标签)更合适。因此，对象标签分布(BOL)的偏离可以是对用于每个候选串的图像集中的偏差的良好度量。注意，可以如下计算该偏离作为对象标签集合的负熵：

其中Pi表示标签i出现的概率(i＝1，...，n)。

偏差的得分可以表示为以下函数(1)：

DeviationScore＝f(EI,DOL,BOL,[LS]) (1)

其中LS表示由字数计数的子串的长度，方括号表示变量是可选的。

注意，偏差的得分越大，候选串表示一个概念越好。在特定实施例中，得分如下变化。随着现有图像(EI)的数量变大，得分变大。随着不同对象标签(DOL)的数量变小，得分变大。随着对象标签分布(BOL)的偏离变大，得分变大。随着子串的长度(LS)变大，得分可能变大。

返回参考图1，从图像聚类系统150获得的分析结果可以包括基于图像聚类从图像集中的给定图像划分的分组组成。当使用图像聚类系统150时，图像偏差计算模块124可以对每个子串在聚类之后的组的数量进行计数。针对每个子串计数的组的数量可以至少部分地用于计算用于每个子串的偏差。

图4是根据本发明的一个实施例的在图1所示的系统中获得用于每个子串的组的示例的示意图。在图4中，描述了一种获得用于每个子串的组的方式。在图4中，代表性地示出了两个示意性子串"子串1"和"子串2"的示例。如图4所示，在特征空间中，将用于"子串1"的图像集中的图像划分成三个组。另一方面，用于"子串2"的图像集中的图像被划分成两个组。如果子串表示特定概念，则存在在图像集中的多个图像中具有相似特征的趋势。因此，聚类之后的组的数量能够是对图像集中的偏差的良好度量。组的数量越小，子串表示一个概念越好。

返回参考图1，命名实体选择模块126被配置为通过至少部分地使用偏差和每个候选串的长度，从多个候选串中选择串作为命名实体。可以通过使用用于选择的预定规则来完成对可以被认为是表示概念的命名实体的字符串的选择。

如上所述，可以对多个子串进行评分，以使得随着用于每个子串的偏差变小，得分变大。可以从多个子串之中选择具有较大得分(最大得分)的较长(最长)子串。例如，如果子串"YORK"和子串"NEW YORK"具有相同或几乎相同的得分，则较长的子串"NEW YORK"而不是较短的子串"YORK"被选为命名实体。注意，由于它不阻止句子具有多个命名实体，因此从针对给定句子生成的多个候选串中选择一个或多个候选串。

存在基于用于选择的预定规则来从多个候选串之中选择一个或多个串的若干方式。

图5是根据本发明的一个实施例的在图1所示的系统中从多个候选串之中选择一个或多个串作为命名实体的示例的示意图。图5描述了一种从多个候选串中选择一个或多个串作为命名实体的方式。如图5所示，无向图210包括多个节点212以及各自与一对节点212相关联的一个或多个边214；每个节点212表示从输入句子200获得的子串，每个边214表示输入句子200中的子串212之间的邻接；节点212包括分别表示输入句子200的开始和结束的开始和结束节点212S和212E。通过维特比(Viterbi)算法获得最大化偏差得分的和的路径216，同时使用用于子串的每个偏差得分(得分#1～得分#10，每个都是子串的长度的函数)作为每个节点的权重。构成路径216的一系列子串被选择为命名实体。在该特定实施例中，用于选择的预定规则可以是从多个候选串之中选择从输入句子200被分割并最大化偏差得分的和的一个或多个串的规则。

图6是根据本发明的一个实施例的在图1所示的系统中从多个候选串之中选择一个或多个串作为命名实体的另一示例的示意图。图6描述了另一种从多个候选串之中选择一个或多个串作为命名实体的方式。如图6所示，从输入句子220获得的子串列表按偏差得分以降序排序，每个子串具有偏差得分。注意，如果存在具有相同偏差得分的多个子串，则对列表进行排序，以使得具有较长长度的子串首先出现。当从列表的顶部选取子串时，提取覆盖输入句子220中的所有单词/字符并且彼此不重叠的一组子串222a-222c。在图6所示的示例中，子串"tukang"、"sapu"、"tukang sapu membersihkan"和"jalan"被跳过，因为这些子串与已经被选取的子串"tukang sapu"和"macet jalan"重叠。因此，在该特定实施例中，用于选择的预定规则可以是从多个候选串之中选择从输入句子分割并按得分降序选取的一个或多个串的规则。

选择规则不限于上述特定示例。在其它实施例中，预定规则简单地选择均具有超过预定阈值的偏差得分的一个或多个串，或者选择在前N个得分内的一个或多个串。

在实施例中，为了提高命名实体识别的准确性，除了偏差之外，还可以考虑其他信息，诸如针对每个子串获得的搜索结果的数量、与针对每个子串获得的每个图像相关联的页面的标题、和/或包括在针对每个子串获得的每个图像中的串，以调整每个子串的得分。对象识别系统140可以基于OCR(光学字符识别)技术提供包括在每个图像中的这样的串。

在一个实施例中，通过将评估搜索结果的数量的附加项添加到上述函数(1)中，得分被配置为随着搜索结果的数量变大而变大。在另一实施例中，在取得与给定查询相匹配的图像时，搜索范围可限于在页面标题中具有候选子串的页面，这可影响前述函数(1)中的现有图像(EI)的数量。在又一实施例中，通过将评估包括相同/相似串的图像的数量的附加项添加到上述函数(1)中，得分被配置为随着具有与候选子串相同/相似的串的图像的数量变大而变大。

借助对语料库110中存储的集合中的每个句子重复执行上述处理，通过使用由命名实体识别引擎120识别的命名实体来构建命名实体词典。

如图1所示，系统100还包括自然语言处理系统170，用于通过使用由命名实体识别引擎120构建的词典来执行自然语言处理。由自然语言处理系统170执行的自然语言处理可以包括文本挖掘、多语言知识提取等。由于在词典存储库160中存储的命名实体词典中注册了许多命名实体，因此提高了自然语言处理的性能，并且扩展了自然语言处理的应用范围。

在实施例中，图1中描述的语料库110、命名实体识别引擎120、图像搜索系统130、对象识别系统140、图像聚类系统150、词典存储库160、子串生成模块122、图像偏差计算模块124以及命名实体选择模块126可以被实现为但不限于包括结合诸如处理器、存储器等的硬件组件的指令和/或数据结构的软件模块、包括电子电路的硬件模块或它们的组合。图1中描述的语料库110、命名实体识别引擎120、图像搜索系统130、对象识别系统140、图像聚类系统150、词典存储库160、子串生成模块122、图像偏差计算模块124以及命名实体选择模块126可以在诸如个人计算机、服务器机器的单个计算机系统上实现或者以分布式方式在诸如计算机集群的多个设备上实现。

图7是描绘根据本发明的一个实施例的用于利用对象识别从文本中提取命名实体的过程的流程图。注意，图7中所示的过程可以由图1中所示的命名实体识别引擎120(即，实现命名实体识别的处理单元)执行。图7所示的过程开始于步骤S100，响应于从操作者接收到处理句子的请求。

在步骤S101，处理单元从开始处逐一读取输入句子，以使得每个子串包括出现在句子中的一个或多个单元的方式来生成一组子串作为命名实体的候选串。子串中的单元可以是单词或字符。句子中的一组单词或字符的幂集的至少一部分可以用作子串。针对在步骤S101生成的每个子串，迭代地执行从步骤S102到步骤S109的处理。

在步骤S103，处理单元通过向图像搜索系统130发出查询来从图像搜索系统130获得包括与每个子串有关的一个或多个图像的图像集。在步骤S104，处理单元对针对每个子串获得的图像集中的现有图像(EI)的数量进行计数。注意，在特定实施例中，现有图像的数量可以是有限的。

在步骤S105，处理单元基于对象识别来获得用于每个子串的图像集的一个或多个对象标签。从对象识别系统140获得分析结果。在步骤S106，处理单元计算针对每个子串获得的不同对象标签(DOL)的数量。在步骤S107，处理单元计算针对每个子串获得的对象标签分布(BOL)的偏离。

在步骤S108，处理单元通过至少部分地使用在步骤S104计数的现有图像(EI)的数量、在步骤S106计算的不同对象标签(DOL)的数量和/或在步骤S107计算的对象标签分布(BOL)的偏离，来计算针对每个子串的图像集中的偏差。通过上述公式(1)以使得得分随着每个子串的偏差变小而变大的方式来计算偏差的得分。

通过对在步骤S101生成的所有子串重复执行从步骤S102到步骤S109的处理，处理可进行到步骤S110。在步骤S110，处理单元至少部分地使用该偏差和每个子串的长度来从在步骤S101生成的多个子串中选择子串作为命名实体。更具体地，具有较大得分的一个或多个较长子串能够被从多个子串中选择为命名实体。在实施例中，可以基于预定规则从多个子串中选择子串，该预定规则从多个候选串中选择从输入句子中分割并且最大化偏差得分的和的一个或多个串。在步骤S110中，可以通过使用针对子串获得的一个或多个标签来估计命名实体的类型。此外，在实施例中，在步骤S110中，处理单元获得针对每个子串的搜索结果的数量、与用于每个子串的每个图像相关联的页面的标题、和/或在用于每个子串的每个图像中的串，并且处理单元除了该偏差之外还使用这些信息来调整得分。

通过对给定集合中的每个句子重复执行图7所示的过程，构建命名实体词典。

图8是描绘根据本发明的另一实施例的用于使用对象识别技术通过利用图像信息来从文本中提取命名实体的过程的流程图。注意，图8中所示的过程可以由图1中所示的命名实体识别引擎120(即，实现命名实体识别的处理单元)执行。图8所示的过程开始于步骤S200，响应于从操作者接收到处理句子的请求，这类似于图7所示的实施例。

在步骤S201，处理单元从开始处逐一读取输入句子，以生成一组子串集作为用于命名实体的候选串。与图7所示的过程类似，对每个生成的子串迭代地执行从步骤S202到步骤S206的处理。

在步骤S203，处理单元通过向图像搜索系统130发出查询来从图像搜索系统130获得包括用于每个子串的一个或多个图像的图像集，类似于图7中所示的过程。

在步骤S204，处理单元基于图像聚类将用于每个子串的图像集中的图像分组成若干组，并对每个子串的组的数量进行计数。从图像聚类系统150获得的分析结果可以指示从图像集中的给定图像分割的多个图像组。

在步骤S205，处理单元至少部分地基于针对每个子串计数的组的数量来计算用于每个子串的图像集中的偏差。通过对在步骤S201生成的所有子串重复执行从步骤S202到步骤S206的处理，处理进行到步骤S207。

在步骤S207，处理单元至少部分地使用该偏差和每个子串的长度来从多个子串中选择子串作为命名实体。更具体地，从多个子串之中选择具有较大得分的一个或多个较长子串。

通过对给定集合中的每个句子重复执行图8所示的过程，构建命名实体词典。

根据实施例，提供了用于从以自然语言书写的文本中提取/识别命名实体的计算机实现的方法、计算机系统以及计算机程序产品。

根据实施例，即使文本是以不熟悉的语言书写的和/或属于不熟悉的领域，也可以通过利用与命名实体对应的串相关联的图像信息来从文本中提取该串。图像信息本质上可以表示没有语言表达的概念，并且作为集体知识与全球计算机网络中的文本相关联。由此，有助于提高后续自然语言处理的准确性，并扩展其应用领域，尤其是针对以不熟悉语言和/或领域书写的文本的应用领域。

例如，假设句子"I ATE A HAMBURGER IN NEW YORK(我在纽约吃汉堡)"。在该示例中，如果系统将"NEW(新)"识别为概念，则系统将在诸如文本挖掘等后续应用中出错。在这种情况下，系统优选地将"NEW YORK(纽约)"解析为一个概念。尽管该示例是显而易见的，但是根据本发明的实施例，能够优选地从文本中提取与甚至不熟悉的语言和/或不熟悉的领域中的命名实体相对应的串，而不管文本的语言是已知的还是未知的。它不需要语言背景知识，例如词性、含义等。识别不熟悉的领域和/或语言中的命名实体使得能够通过应用后续自然语言处理来从非结构化文本数据中提取有价值的信息。

在上述示例性实施例中，命名实体识别已经被描述为用于提取文本中的表达的新颖技术的示例。然而，在其他实施例中，新颖技术的目标不限于命名实体。根据本发明的其它实施例，任何特定的语言表达(包括习语、复合动词、复合名词等，其代表能够由图片、图画、绘画等表示的特定概念)都能够是用于提取文本中的表达的新颖技术的目标。

实验研究：

实现根据实施例的图7所示的过程的程序被编码并针对若干给定句子被执行。以印度尼西亚语、芬兰语、保加利亚语和希伯来语书写的句子用作命名实体识别引擎的输入文本。Google^TM定制搜索API和IBM^TM Watson^TM视觉识别API分别用作图像搜索系统和对象识别系统。通过由上述函数(1)表示的偏差得分来评估针对每个子串的图像集中的偏差。从每个给定句子获得的子串列表按照偏差得分以降序排序。在从列表的顶部选取针对每个给定句子的子串时，提取覆盖给定句子中的所有单词/字符并且彼此不重叠的一组子串作为一组命名实体。用于每个子串的图像的数量被限制为五个。

图9A-9D示出了根据本发明的一个实施例的由用于使用对象识别技术通过利用图像信息来从文本提取命名实体的过程所识别的示例。图9A所示的示例是以印度尼西亚语书写的句子。如图9A所示，印度尼西亚语中的句子被分割成三个子串，每个子串具有图9A中指示的相应的对象标签。在该示例中，三个子串被识别为命名实体的候选者。图9B-9D中的示例是分别以芬兰语、保加利亚语和希伯来语书写的句子，每个句子用作输入句子。如图中所示，句子被分割成若干子串，每个子串具有图中所示的相应对象标签。这些子串被识别为命名实体的候选者。如图9A～7D所示，展示了该过程能够识别以几种自然语言(包括印度尼西亚语、芬兰语、保加利亚语和希伯来语)书写的句子中的命名实体，而不需要关于句子的语言学背景知识。

图10是示出根据本发明的一个实施例的用于实现命名实体识别的计算机系统10的组件的图。计算机系统10用于实现命名实体识别引擎120。计算机系统10仅是合适的处理设备的一个示例，并且不旨在对本文描述的本发明的实施例的使用范围或功能提出任何限制。无论如何，计算机系统10能够被实现和/或执行上文阐述的任何功能。

计算机系统10可与许多其它通用或专用计算系统环境或配置一起操作。适合与计算机系统10一起使用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持式或膝上型设备、车载设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统、以及包括任何上述系统或设备的分布式云计算环境等。

计算机系统10可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。

如图10所示，计算机系统10以通用计算设备的形式示出。计算机系统10的组件可以包括但不限于处理器(或处理单元)12和通过总线耦合到处理器12的存储器16，总线包括存储器总线或存储器控制器，以及使用各种总线架构中的任何一种的处理器或局部总线。

计算机系统10典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统10访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器16可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)。计算机系统10还可以包括其它可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，存储系统18可被提供用于从不可移动、非易失性磁介质读取和向其写入。如下面将进一步描绘和描述的，存储系统18可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，该程序模块被配置成执行本发明的实施例的功能。

具有一组(至少一个)程序模块的程序/实用工具，可以存储在例如存储器18中，这样的程序模块包括—但不限于—操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统10也可以与一个或多个外部设备24(例如键盘、指向设备、汽车导航系统、音频系统、显示器26等)通信，还可与一个或者多个使得用户能与该计算机系统10交互的设备通信，和/或与使得该计算机系统10能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统10还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线与计算机系统10的其它组件通信。应当明白，尽管图中未示出，可以结合计算机系统10使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是―但不限于―电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络例如因特网、局域网(LAN)、广域网(WAN)和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文所用的术语仅是为了描述特定实施例的目的，而不是要限制本发明。如本文所用，单数形式"一"、"一个"和"该"旨在也包括复数形式，除非上下文另有明确指示。还应当理解，术语"包括"和/或"包含"在本说明书中使用时，指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或其群组的存在或添加。

如果存在，下面的权利要求中的所有装置或步骤加功能单元的对应结构、材料、动作和等同物旨在包括用于与具体要求保护的其它要求保护的单元组合执行功能的任何结构、材料或动作。为了说明和描述的目的，已经给出了本发明的一个或多个方面的描述，但是不是旨在穷举或将本发明限制为所公开的形式。

在不偏离所描述的实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于提取文本中的表达以供自然语言处理的计算机实现的方法，所述方法包括：

读取文本以生成多个子串，每个子串包括在所述文本中出现的一个或多个单元；

使用所述一个或多个单元作为对图像搜索系统的查询，获得用于所述每个子串的图像集，所述图像集包括一个或多个图像；

计算用于所述每个子串的所述图像集中的偏差；以及

基于所述偏差和每个子串的长度，选择所述多个子串中的相应子串作为要提取的表达。

2.根据权利要求1所述的方法，还包括：

基于对所述图像集中的所述一个或多个图像的对象识别的结果，获得用于所述每个子串的一个或多个标签；以及

计算针对所述每个子串获得的所述一个或多个标签中的不同标签的数量；

其中，所述不同标签的所述数量用于计算用于所述每个子串的所述图像集中的所述偏差。

3.根据权利要求2所述的方法，还包括：

计算针对所述每个子串获得的所述一个或多个标签中的标签分布的偏离；以及

其中，所述标签分布的所述偏离被用于计算用于所述每个子串的所述图像集中的所述偏差。

4.根据权利要求2所述的方法，还包括：

对用于所述每个子串的所述图像集中的所述一个或多个图像的数量进行计数；以及

其中，所述一个或多个图像的所述数量被用于计算用于所述每个子串的所述图像集中的所述偏差。

5.根据权利要求2所述的方法，还包括：

通过使用针对所述多个子串中的所述相应子串获得的所述一个或多个标签来估计所述表达的类型，所述多个子串中的所述相应子串被选择为所述表达。

6.根据权利要求1所述的方法，还包括：

基于用于所述每个子串的所述图像集中的所述一个或多个图像的特征，将所述一个或多个图像分组成一个或多个组；以及

对针对所述每个子串获得的所述一个或多个组的数量进行计数，针对所述每个子串计数的所述一个或多个组的所述数量被用于计算所述每个子串的所述偏差。

7.根据权利要求1所述的方法，还包括：

对所述多个子串进行评分，以使得随着所述每个子串的所述偏差变小，得分变大。

8.根据权利要求7所述的方法，还包括：

从所述多个子串中选择具有较大得分的一个或多个较长子串。

9.根据权利要求7所述的方法，还包括：

获得针对所述每个子串的搜索结果的数量、与用于所述每个子串的每个图像相关联的在用于所述每个子串的所述每个图像中包括的页面的标题；以及

除了用于所述每个子串的所述偏差以外，使用所述搜索结果的所述数量和与所述每个图像相关联的所述页面的所述标题来调整所述得分。

10.根据权利要求1所述的方法，还包括：

对集合中的每个句子执行所述读取、所述获得、所述计算以及所述选择；以及

通过使用从所述集合中的所述句子中提取的表达来构建词典。

11.一种用于提取文本中的表达以供自然语言处理的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有随其体现的程序代码，所述程序代码可执行以：

计算用于所述每个子串的所述图像集中的偏差；以及

12.根据权利要求11所述的计算机程序产品，还包括可执行以进行以下操作的程序代码：

基于对所述图像集中的所述一个或多个图像的对象识别的结果，获得用于所述每个子串的一个或多个标签；

计算针对所述每个子串获得的所述一个或多个标签中的标签分布的偏离；

通过使用针对所述多个子串中的所述相应子串获得的所述一个或多个标签来估计所述表达的类型，所述多个子串中的所述相应子串被选择为所述表达；

其中，所述不同标签的数量、所述标签分布的偏离以及所述一个或多个图像的数量被用于计算用于所述每个子串的所述图像集中的所述偏差。

13.根据权利要求11所述的计算机程序产品，还包括可执行以进行以下操作的程序代码：

14.根据权利要求11所述的计算机程序产品，还包括可执行以进行以下操作的程序代码：

对所述多个子串进行评分，以使得随着所述每个子串的所述偏差变小，得分变大；

获得针对所述每个子串的搜索结果的数量、与用于所述每个子串的每个图像相关联的在用于所述每个子串的所述每个图像中包括的页面的标题；

除了用于所述每个子串的所述偏差以外，使用所述搜索结果的所述数量和与所述每个图像相关联的所述页面的所述标题来调整所述得分；以及

15.根据权利要求11所述的计算机程序产品，还包括可执行以进行以下操作的程序代码：

通过使用从句子集合中提取的表达来构建词典。

16.一种用于提取文本中的表达以供自然语言处理的计算机系统，所述计算机系统包括：

一个或多个处理器、一个或多个计算机可读有形存储设备、以及程序指令，所述程序指令存储在所述一个或多个计算机可读有形存储设备中的至少一个计算机可读有形存储设备上以供所述一个或多个处理器中的至少一个处理器执行，所述程序指令可执行以：

计算用于所述每个子串的所述图像集中的偏差；以及

17.根据权利要求16所述的计算机系统，还包括可执行以进行以下操作的程序指令：

18.根据权利要求16所述的计算机系统，还包括可执行以进行以下操作的程序指令：

19.根据权利要求16所述的计算机系统，还包括可执行以进行以下操作的程序指令：

20.根据权利要求16所述的计算机系统，还包括可执行以进行以下操作的程序指令：

通过使用从句子集合中提取的表达来构建词典。