CN115718791A

CN115718791A - 文本元素的特定性排序及其应用

Info

Publication number: CN115718791A
Application number: CN202210958838.6A
Authority: CN
Inventors: F.弗斯科; C.贝罗斯普皮拉米斯; P.W.J.斯塔尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2021-08-23
Filing date: 2022-08-10
Publication date: 2023-02-28
Also published as: JP2023031294A; US20230055769A1

Abstract

按照特定性对多个文本元素进行排序，每个文本元素包括至少一个单词。对于待排序的每个文本元素，本方法包括：计算将文本元素定位在嵌入空间中的嵌入向量；以及从参考文本中选择一组文本片段。这些文本片段中的每一个文本片段包含待排序的文本元素和进一步的文本元素。对于每个文本片段，该方法计算在嵌入空间中另外的文本元素之间的相应距离。该方法还包括计算待排序的文本元素的特定性得分并存储该特定性得分。在对多个文本元素进行排序之后，可以处理使用文本元素的特定性得分来从数据结构中提取具有期望特定性的数据的文本数据结构。

Description

文本元素的特定性排序及其应用

背景技术

本发明总体上涉及文本元素的特定性排序。提供了用于通过特定性来对多个文本元素进行排序的计算机实现的方法，以及此类方法的应用。还提供了实现这些方法的系统和计算机程序产品。

文本元素(例如词语或短语)的特定性是包含在那些元素中的信息量的量度。当文本元素在给定域中包含大量信息时，该元素高度特定于该域，反之亦然。已经在搜索系统的上下文中估计文本的特定性，以评估是否返回搜索查询的一般或特定搜索结果，或者向用户建议备选搜索查询。大多数用于估计特定性的现有技术使用基于分析语音部分(例如，名词修改的频率)或特定术语的出现频率的统计。一种技术使用从在经由字嵌入方案生成的嵌入空间中定位那些项的矢量导出的不同度量来评估项的特定性。该技术采用通过分析预训练嵌入的嵌入矢量的分布而获得的度量。一旦嵌入矩阵被训练，嵌入空间中的向量分布是用于评估特定性的唯一因素。

发明内容

本发明的一个方面提供一种用于按照特定性对多个文本元素进行排序的计算机实现的方法，每个文本元素包括至少一个词。对于待排序的每个文本元素，该方法包括通过字嵌入方案来计算将该文本元素定位在嵌入空间中的嵌入向量，并且从参考文本中选择一组文本片段。这些文本片段中的每一个文本片段包含待排序的文本元素和进一步的文本元素。对于每个文本片段，该方法计算在嵌入空间中另外的文本元素与待排序的文本元素之间的相应距离，每个文本元素通过经由单词嵌入方案计算的嵌入向量位于所述空间中。该方法还包括根据前面提到的距离计算待排序的文本元素的特定性得分，并且存储特定性得分。多个文本元素的所得特定性得分通过特定性定义文本元素的排序。

本发明的相应进一步的实施例提供适于实现如上所述的对文本元素进行排序的方法的计算系统，以及包括计算机可读存储介质的计算机程序产品，该计算机可读存储介质体现可由计算系统执行以使计算系统实现这样的方法的程序指令。

附图说明

下面将参考附图通过示例性而非限制性实施例的方式来更详细地描述本发明的实施例。

图1是用于实施实施本发明的方法的计算系统的示意图；

图2示出体现本发明用于通过特定性对文本元素进行排序的系统的组件模块；

图3示出由图2中所示的系统执行的排序方法的步骤；

图4示出本发明的实施例中的文本元素排序系统的组件模块；

图5示出在图4中示出的系统中的字嵌入处理的步骤；

图6是字嵌入过程的示意图；

图7示出图4中所示的系统中的上下文片段选择器的操作；

图8示出图4所示的系统中的特定性得分计算过程的步骤；

图9A和9B示出在图4中所示的系统的实现方式中获得的特定性排序；以及

图10至13指示使用体现本发明的文本元素排序方法的应用的操作步骤。

具体实施方式

本发明的一些实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储媒体可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DvD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或者凹槽中具有记录在其上的指令的凸起结构、以及上述各项的任何合适的组合。如本文所使用的，计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过电线传输的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(iSA) 指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，所述程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)...在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/ 或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

将要描述的实施例可以作为用于通过特定性对文本元素进行排序的计算机实现的方法。此类方法可由包括一个或多个通用或专用计算机的计算系统来实现，每个通用或专用计算机均可包括提供用于实现本文所描述的操作的功能的一个或多个(真实或虚拟)机器。体现本发明的方法的步骤可以通过程序指令实现，例如。由所述系统的处理装置执行的程序模块。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算系统可在分布式计算环境(诸如云计算环境)中实现，其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

图1是用于实现体现本发明的方法的示范性计算装置的框图。以通用计算机1的形式示出计算设备。计算机1的组件可包括处理装置，诸如由处理单元2表示的一个或多个处理器、系统存储器3、以及将包括系统存储器3的不同系统组件耦合至处理单元2的总线 4。

总线4表示若干类型的总线结构中的任何一种或多种，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，这样的架构包括工业标准架构(iSA)总线、微通道架构(MCA)总线、增强型iSA(EiSA)总线、视频电子标准协会(vESA)局部总线、以及外围组件互连(PCi) 总线。

计算机1通常包括各种计算机可读介质。这样的介质可以是可由计算机1访问的任何可用介质，包括易失性和非易失性介质，以及可移动和不可移动介质。例如，系统存储器3可以包括易失性存储器形式的计算机可读介质，诸如随机存取存储器(RAM)5和/或高速缓存存储器6。计算机1可以进一步包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过示例的方式，存储系统7可以被提供用于从不可移除的非易失性磁介质(通常被称为“硬盘驱动器”)读取和写入至不可移除的非易失性磁介质。虽然未示出，但是还可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据介质接口连接到总线4。

存储器3可以包括具有被配置为执行本发明的实施例的功能的一个或多个程序模块的至少一个程序产品。作为示例，具有一组(至少一个)程序模块9的程序/实用程序8以及操作系统、一个或多个应用程序、其他程序模块和程序数据可以被存储在存储器3中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或它们的一些组合可以包括网络环境的实现方式。程序模块9通常执行如在此所描述的本发明的实施例的功能和/或方法。

计算机1还可与以下设备通信：诸如键盘、定点设备、显示器11等的一个或多个外部设备10；使得用户能够与计算机1交互的一个或多个设备；和/或使计算机1能够与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)。这样的通信可经由输入/输出(I/O)接口12发生。而且，计算机1可以经由网络适配器13与诸如局域网 (LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)的一个或多个网络通信。如图所示，网络适配器13通过总线4与计算机1的其他部件通信。计算机1还可与附加处理设备14(诸如GPU(图形处理单元)或FPGA)通信以实现本发明的实施例。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机1结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。

图2示意图示了体现本发明的示例性计算系统的组件模块。系统20包括存储器21和控制逻辑，一般在22处指示，包括用于通过特定性对文本元素进行排序的功能。控制逻辑22包括字嵌入模块23、上下文选择器模块24和特定性计算器模块25。这些模块中的每一个包括用于实现下面详述的排序过程的特定步骤的功能。这些模块与存储器21接口连接，存储器21存储在系统20的操作中使用的不同数据结构。这些数据结构包括待按特定性进行排序的一组N个文本元素27(在此由{t_i},i＝1至N表示)、由字嵌入模块23 生成的一组嵌入向量28、以及由上下文选择器24从在图中由文本语料库30表示的参考文本中选择的一组文本片段(“上下文片段”)29。由特定性计算器25针对文本元素{t_i} 生成的一组特定性得分31(这里由{S_i},i＝1至N表示)也存储在系统存储器21中。

通常，逻辑模块23至25的功能可由软件(诸如程序模块)或硬件或其组合来实现。在其他实施例中，所描述的功能可以在系统模块之间不同地分配，并且一个或多个模块的功能可以组合。系统20的组件模块可以被提供在计算系统的一个或多个计算机中。例如，可以在计算机1中提供所有模块，或者可以在一个或多个计算机/服务器中提供模块，用户计算机可以经由网络(其可以包括一个或多个组件网络和/或互联网，包括互联网)连接到计算机/服务器，用于输入待排序的文本项。系统存储器21可由与系统20的一个或多个计算机相关联的一个或多个存储器/存储组件来实现。

该组文本元素{t_i}可以包含单独的字和/或多字表达式(MWE)，并且可以针对特定应用/域进行编译或者跨越多个域以用于不同的应用。本发明的一些实施例在{t_i}中结合MWE 以利用这些元件的固有特定性。MWE{t_i}的列表可以如下所述手动地或自动地预先编译以用于存储在系统存储器21中。

参考文本语料库30可以位于系统20本地或远程，并且可以包括来自跨越待排序的元素{t_i}的域的一个或多个信息源的文本。虽然在图2中表示为单个实体，但是参考文本语料库可以包括分布在多个信息源上的内容，例如。可以由系统经由网络动态访问的数据库和/或网站。在一些实施例中，可以预先编译参考文本28用于系统操作并将其存储在系统存储器21中。

图3的流程图300指示由系统20执行的排序过程的步骤(指定为对文本元素进行排序的步骤34)。步骤35表示将待排序的文本元素的集合{t_i}存储在系统存储器21中。在步骤36中，字嵌入模块23经由字嵌入方案来计算每个文本元素t_i的嵌入矢量。字嵌入方案是众所周知的，并且实质上生成文本元素与实数的向量之间的映射，所述实数的向量定义相应的文本元素在多维嵌入空间中的位置。文本元素在该空间中的相对位置指示文本元素之间的关系的程度，其中，嵌入空间中“更接近”的元素比相隔更远的元素更接近相关。具体地，词语嵌入的思想是将在类似文本上下文中呈现的元素映射为在嵌入空间中彼此接近。这里可以采用任何期望的字嵌入方案，包括使用例如Word2Vec、GloVe(全局向量) 或FastText模型的上下文无关方案，或包括基于变换器架构的模型的上下文相关方案，诸如BERT(来自变换器的双向编码器表示)模型。字嵌入方案可以生成出现在类似上下文中并且因此表示语义上类似的概念的文本元素的“云”。由字嵌入模块23生成的嵌入矢量中的每个嵌入矢量因此在嵌入空间中定位对应的文本元素t_i，这里由χ表示。在28处将所得向量存储在系统存储器21中。

在步骤37中，上下文选择器模块24从参考文本30中为待排序的每个元素t_i选择一组文本片段。这些文本片段中的每一个包含元素t_i和另外的文本元素(其中，这些另外的文本元素可以包括或可以不包括待排序的其他元素t_i中的一个或多个)。例如，上下文选择器24可选择包含参考文本中的元素t_i或文本中的给定元素t_i周围的字窗口的文本行、句子或段落。通常，这里可以选择包含给定文本元素的一个或多个文本片段的集合，其中一些实施例为每个元素选择多个片段。将所选择的文本片段(可能在下文描述的进一步处理之后)作为上下文片段29存储在系统存储器21中。

步骤38至40指示特定性计算器25的操作。对于待排序的每个文本元素t_i执行这些步骤。在步骤38中，特定性计算器从上下文片段集合29中检索包含给定元素t_i的上下文片段。对于每个片段，特定性计算器25计算在嵌入空间χ中在元素t_i和该片段中的其他文本元素之间的相应距离。为了计算这些距离，每个进一步的文本元素必须首先通过经由字嵌入方案计算的对应嵌入向量位于嵌入空间χ中。用于进一步的文本元素的嵌入矢量可以在上面的步骤36中例如经由如下详述的上下文无关的嵌入方案来预先计算，或者可以经由上下文相关的嵌入方案来动态地计算。可以方便地将t_i与另外文本元素之间的χ距离计算为表示这些元素的两个向量之间的余弦相似性。然而，在其他实施例中可以使用任何方便的距离度量，例如欧几里得距离。在步骤39中，特定性计算器计算元件t_i的特定性得分。元素t_i的特定性得分S_i取决于在步骤38中从含有该元素的上下文片段计算的距离。特定性得分可以以下文解释的各种方式从这些距离计算。在步骤40中，将特定性得分S_i存储在系统存储器21中的组31中。在处理了所有文本元素{t_i}的上下文片段之后，所产生的一组特定性得分{S_i}然后通过特定性定义这些文本元素的排序。

上述方法在通过使用上下文片段中的文本元素之间的嵌入空间χ中的距离来计算特定性时适应文本元素的上下文。通过将上下文注入到从字嵌入中提取的信息中，所得到的特定性得分提供对其中出现文本元素的上下文的同质性的测量。这在高度特定性术语倾向于出现在比更一般术语更均一的背景下的基础上提供了特定性的真实测量。作为说明性示例，术语“信息隐藏”是当设计不将内部状态暴露到外部的数据结构时在软件工程中使用的高度技术表达。相反，“隐藏信息”是在许多不同的背景下可以使用的术语，并且因此将出现。因此，上述技术提供改进的特定性估计，对于信息提取应用的性能和资源效率具有随之而来的优势。该技术也是完全无监督的，允许针对任何文本元素集合计算特定性得分，而不需要注释的训练数据。

图4示出了本发明的一些实施例中的更详细的系统实现方式。该实施例的系统45适于对由{m_i}表示的一大组MWE进行编译和排序。此系统的控制逻辑46包括如前所述的字嵌入模块47、上下文选择器48、以及特定性计算器49。控制逻辑还包括MWE提取器模块 50和文本编码器模块51。存储在系统存储器53中的数据结构包括MWE{m_i}集合54和令牌化文本数据集56，其中MWE{m_i}集合54由MWE提取器50从在55示意性指示的知识库自动编译，令牌化文本数据集56由文本编码器51从指示为WE(词语嵌入)语料库57的文本语料库生成。实际上，知识库55和WE语料库57可以表示从多个信息源整理或分布在多个信息源上的内容。存储器53还存储由字嵌入模块47生成的嵌入矩阵58，以及下面进一步描述的一组逆频率59。此外，存储器53存储由上下文选择器48生成的一组上下文片段60，以及下面进一步描述的一组实例得分61，以及针对MWE{m_i}计算的最终一组特定性分数62。

将参见图5至8描述系统45的操作。图5的流程图500示出导致生成嵌入矩阵58的操作步骤。在步骤65中，MWE提取器50访问知识库55以提取与知识库中的超链接相关联的MWE。知识库(诸如维基百科、DBPedia、Yago等)基本上是概念的图，其中概念被彼此链接。MWE提取器50可以通过搜索超链接来从知识库中提取MWE。例如，在以下句子中 (其中超链接由下划线指示)：“在热电站中，机械功率是由将来自燃料的燃烧的热能转换成旋转能的热力发动机产生的”，MWE提取器可以选择“热力发动机”和“热能”。这样的知识库中的超链接被手动地注释，因此具有高质量。通过简单地扫描知识库文本，MWE 提取器50可以提取大量明确定义的MWE。在该示例中，MWE提取器搜索知识库55以编译覆盖宽范围的主题的MWE的大词典。在步骤66中，得到的MWE 54的集合{m_i}被存储在存储器53中。

在步骤67和68，文本编码器51通过预处理和令牌化WE语料库57来生成令牌化文本56，使得每个MWE m_i被编码为单个令牌，并且语料库中的其他词被编码为令牌化文本中的相应令牌。具体地，在步骤67中，文本编码器对WE语料库57进行预处理，如在图 6的示意图600的数据流中示意性指示的。MWE的实例是在原始语料库中识别的，并且这些中的每个被连接并且被视为单独的词。例如，MWE“机器学习”被连接为“machine_learning”。在预处理过程中还移除了所有单位和停用词(如“a”、“and”、“was”等)，并且所有大写字母被改变成小写字母。然后将得到的文本分成句子，用于训练词语嵌入。在图5的步骤68中，通过将所有剩余的字和MWE编码为对应的单个令牌来对经预处理的文本进行令牌化。虽然当然可以设想其他编码方案，但在此方便地采用热编码。每个标记因此表示特定单词/MWE，并且该单词/MWE在其出现在经预处理的文本中的任何地方由对应的标记替换。所产生的令牌化文本56被存储在系统存储器53中。

在步骤69中，字嵌入模块47处理令牌化文本56以产生嵌入矩阵58。在该实施例中，文本56中的符号化句子用于使用已知的CBOW(Common Bag Of Words)和负采样技术来训练Word2vec嵌入模型(参见，例如，“Distributed representation of words and stems andtheir compositionality，”Mikolov et al.，Advances in Neural informationProcessing Systems 26，2013，pp.3111–3119)。这导致一组嵌入向量，一个嵌入向量用于对应于经预处理的文本中的相应MWE/字的令牌中的每一个，如图 6中示意性地示出的。在步骤70中，该组矢量构成存储在系统存储器53中的嵌入矩阵58。作为结果的嵌入矩阵因此包括对应于要被排序的文本元素(这里为MWE)以及将被包含在通过上下文选择器48从参考文本语料库30中选择的文本片段中的另外的文本元素的嵌入向量。(就此而言，虽然图4中示出了不同的参考文本语料库30，但是在其他实施例中，WE语料库57可以用作上下文片段的参考文本，由此嵌入矢量将可用于上下文片段中的所有文本元素。)

当处理WE语料库57时，嵌入模块47对预处理的语料库中的每个文本元素(MWE或词，这里一般用w表示)的实例的数量进行计数。对于每个元素w，嵌入模块计算该元素的出现倒频f(w)。元素w在m个词语的语料库中出现n次的逆出现频率定义为f(w)＝ m/n。在59处，将元素w的逆频率f(w)的集合存储在系统存储器53中。

上下文选择器48的操作在此在图7的图700的数据流中指示。在该示例中，上下文选择器48使用与WE语料库57不同的参考文本语料库30。在图7的步骤(a)中，上下文选择器从参考语料库30提取句子。在步骤(b)中，识别和标记句子中的MWE m_i的所有实例，如图中的粗体类型和级联所示。还标识了所有共同的停止词、单位和数字，如步骤(b) 中的突击所指示的，并且在步骤(c)中移除这些以获得经处理的句子。包含MWE m_i的实例的每个被处理的句子被选择为上下文片段。上下文选择器然后将每个上下文片段存储在集合60中，这里作为“词袋”(“Bag of Words”)(BOW)，如步骤(d)所示。

图8的流程图800示出本实施例中的特定性计算器49的操作。在步骤75中，特定性计算器从片段集合60中选择上下文片段。然后针对所选择的片段对BOW中的每个MWE m_i执行后续步骤76至78。在步骤76中，特定性计算器在嵌入空间χ中计算MWE m_i和BOW 中的每个另外的文本元素(MWE/字)w之间的距离，针对该距离，嵌入向量包含在嵌入矩阵58中。这里用d(m_i,w)表示的距离被计算为分别表示m_i和w的两个矢量之间的余弦相似性。这产生了在范围(-1，+1)内的数字，其中较高的数字表示在嵌入空间χ中较近的元素m_i和w。

然后，特定性计算器从步骤76中计算的当前片段的距离计算MWE m_i的实例得分61。在该实施例中，首先基于存储在集合59中的针对元素w的逆出现频率f(w)对每个距离 d(m_i,w)进行加权，并且根据片段的加权距离来计算MWE m_i的实例得分。具体地，在步骤 78中，特定性计算器通过聚集该片段的加权距离来获得实例得分。在该实例中，给定包括 MWEm_i和另外元素w₁,…,w_k的BOW，实例得分T_i计算为：

如果在确定步骤79中有更多上下文片段要被处理，则操作返回到步骤75，在步骤75 中，从集合60中选择下一片段并且如上所述进行处理。当在步骤79处理了所有上下文片段时，操作前进到步骤80。这里，对于每个MWE m_i，特定性计算器49计算特定性得分S_i作为m_i的实例得分T_i的函数。在该实施例中，通过聚合实例得分T_i来计算特定性分数S_i，这里作为简单平均值：S_i＝∑T_i。因此，MWE的最终特定性得分S_i是在整个参考语料库上聚集MWE的实例得分T_i的语料库级得分。得到的特定性得分{S_i}组62通过特定性在WE语料库57中对所有MWE m_i进行排序。

通过以上逆频率对距离进行加权惩罚了公共(并且可能更一般的)元素w的贡献，从而使平均值偏向较不公共(并且可能更具体)的元素。通过从具有MWE的大词典的大且多样的WE语料库57产生嵌入矩阵58，上述系统可以自动地产生用于在广泛的应用中使用的特定性得分。然而，通常，可以针对嵌入空间χ中的记号的任何子集、针对MWE和/或个别字来计算特定性分数{S_i}，并且此子集可以专用于给定领域或应用。在其他实施例中，还可以为与特定技术领域/应用相关的MWE/字生成嵌入矩阵58。

图9a(900a)和9b(900b)的表示出了从由图4系统的实现方式生成的特定性排序的提取。图9A中的结果是使用包括150万个专利摘要的参考文本语料库获得的。图9B中的结果是使用包括来自arXiv论文的12百万个摘要的参考文本语料库获得的。两组结果都使用了由WE语料库建立的嵌入矩阵，该语料库具有多于10000万的新闻文章。图9A示出了对于包含单词“知识”的标记的10个最高得分和最低得分的MWE的特定性得分。图9b示出了具有包含单词“语言”的标记的10个最高得分和最低得分的MWE，其可以是得分与所列出的MWE的特定性良好地相关。这些示例表明，通过以上技术计算的特定性分数，甚至作为在大的参考语料库上计算的实例得分的简单平均值，可以可靠地将高度技术MWE 与更常见的表达式区分开来。

特定性排序技术可用于增强许多数据处理应用的操作，其中，在通过特定性对文本元素排序之后，在处理文本数据结构中使用特定性得分以提取具有期望特定性的数据。使用特定性得分可减少出于不同目的从不同数据结构提取相关数据所需的处理资源，且可改进所提取的数据的质量，因此增强使用这些数据结构的应用的性能。以下参见图10至13描述一些说明性应用。

图10的流程图1000示出了用于从大文本语料库中提取知识的知识归纳系统的操作。这样的应用通常处理从云中的数据库/网站挖掘的大量文本。步骤85表示待分析的云数据的存储。在步骤86中，采用上述的排序方法以按照特定性对该数据中的文本元素进行排序。在步骤87中，基于特定性分数过滤云数据以标识语料库中最特定文本元素的集合，例如，具有大于定义的阈值的特定性分数的文本元素。在步骤88，然后从过滤数据构造知识图(KG)。知识图是众所周知的数据结构，其通常用于从大量数据中提取有意义的知识用于工业、商业或科学应用。知识图主要包括通过表示连接的实体之间的关系的边互连的表示实体的节点。在步骤88中构建的知识图因此包括与所标识的最特定文本元素的集合中的元素相对应的节点，这些节点通过表示那些节点之间的关系的边互连。(如本领域技术人员将显而易见的，这样的关系可以针对特定应用以各种方式来定义)。所得知识图提供可被搜索以提取图中所表示的信息的数据结构。响应于步骤89中的输入搜索查询，该系统然后在步骤90中搜索该图形以从该数据结构中提取所请求的数据。本申请中对用于构建知识图的数据进行过滤可以显著地减小数据结构的大小，并且因此显著减小存储图所需的存储器，同时确保保留包含最多信息的最特定数据。搜索操作的计算强度同样降低，并且搜索结果集中于更具体的、通常更有用的信息。

特定性得分的另一个应用涉及用于搜索过程的关键字集的扩展。图11的流程图1100 示出了这种系统的操作。步骤95表示在系统中存储字嵌入矩阵，该字嵌入矩阵包括将相应文本元素定位在潜在嵌入空间中的向量。这样的矩阵能够以与图4的嵌入矩阵58类似的方式来生成，并且可以在一个或多个技术领域中编码宽范围的字/MWE。在步骤96中，如上所述，通过特定性对嵌入矩阵中的文本元素进行排序。步骤97表示用户输入嵌入矩阵中的向量所表示的与待搜索字段相关的关键字。在步骤98，系统然后在该关键字周围搜索嵌入空间以标识嵌入空间中的相邻文本元素。这里可以采用不同聚类/最近邻搜索过程，其中搜索过程适于定位与输入关键字相邻的一组最特定文本元素(例如，具有高于期望阈值的特定得分的元素)。在步骤99中，将如此标识的文本元素与用户输入关键字一起存储为扩展的关键字集。然后，该扩展的关键字集可以用于搜索文本语料库，例如，通过将集合中的关键字与语料库中的文档进行字符串匹配，以识别所需字段中的相关文档。在本申请中使用特定性得分允许使用高度特定的相关关键字来自动扩展小的、用户输入关键字集，从而便于相关文档在给定领域中的定位。本申请的特定实例是用于核对用于训练文本分类器模型的训练文档。

流程图1200图12示出了在自动化短语提取系统中使用特定性得分。短语提取系统是众所周知的，并且可以用于从用于抽象/概括目的的文档中提取主题短语或关键短语(参见例如，“Key2Vec:Automatic ranked keyphrase extraction from scientificarticles using phrase embeddings,”Mahata et al.,Proceedings of the 2018Conference of the North American Chapter of the Association for ComputationalLinguistics:Human Language Technologies,Volume 2,June 2018,pp.634–639)。这些系统经常对文档中的候选关键短语使用基于图的表示。表示候选短语的节点通过边 (表示节点之间的关系)与相关联的权重(取决于语义相似性、出现频率等)互连，权重然后用于选择最佳候选。图12的步骤100表示用于产生候选短语的图的通常文本处理操作。在步骤101中，使用上述方法通过特定性对图中的文本元素进行排序。在步骤102中，根据候选短语中的文本元素的特定性分数来修剪所述图以获得表示这些短语的最特定子集的子图。此最特定子集可包含含有具有高于所要阈值的特定性得分的文本元素的短语。在步骤103中，接着以通常方式处理所得子图以从此子图提取最佳候选短语。此类处理可涉及基于不同图形特征来对节点进行得分以提取用于所要目的的最佳短语。

图13的流程图1300示出了在搜索系统中使用特定性得分。在步骤105中，如上所述，搜索数据库中的文本元素按照特定性进行排序。响应于步骤106中的搜索查询的输入，系统识别查询文本中的任何经排序的文本元素。在步骤108中，系统通过根据如此识别的任何排序的文本元素的特定性得分从搜索数据库中提取数据来生成对搜索查询的响应。这里的响应可以是向用户建议备选搜索查询，或从搜索数据库检索请求的数据。这里可以使用特定性得分来基于在输入查询中具有最高特定性得分的元素识别最相关的备选查询或响应数据。特定性得分还可以用于评估用户的知识程度并且相应地返回结果。例如，包含高度特定的文本元素的输入查询建议知识丰富的用户想要更详细的结果，而低特定的查询建议用户需要更一般的高水平结果。

可以看出，特定性排序技术在各种处理应用中提供更有效的处理和改善的结果，并且可以减少知识提取操作所需的存储器和处理资源。

体现本发明的方法基于这样的认识：高度特定的文本元素(诸如表示技术概念的那些文本元素)倾向于出现在本质上是同质的文本上下文中。这些方法使用参考文本的片段来为待排序的文本元素提供上下文。对于给定文本元素的特定性得分随后基于该文本元素与包含该元素的所选文本片段中的其他文本元素之间的嵌入空间中的距离。体现本发明的方法建立在前述实现基础上，在从字嵌入中提取的信息中容纳文本元素的上下文，使得所得特定性得分提供文本元素出现的上下文的同质性的测量。这提供了用于捕捉文本元素的特定性、提供对特定性的改进估计以及使用这样的估计的处理系统的增强的性能的优雅简单的技术。

在对多个文本元素进行排序之后，体现本发明的方法可以使用针对文本元素的特定性得分来处理文本数据结构，以从数据结构中提取具有期望特定性的数据。使用特定性得分可减少在不同应用中从数据结构提取相关数据所需的处理资源，且可改进所提取的数据的质量，因此增强性能。例如，特定性得分可以用作过滤机制，以例如通过修剪图以移除不必要的元素来减少存储搜索结构(诸如知识图)所需的存储器，因此减少对这样的图执行的搜索操作的计算强度。下面将更详细地描述其他文本数据结构以及采用这些结构的处理应用的示例。

通常，待排序的文本元素可以包括单词文本元素(即，单独的词)和/或多词表达式(即，包括至少两个词的文本元素)。多词表达包括词组合，诸如开放式复合词或短语，其共同传达特定含义或在语言分析的某个级别充当语义单元。在一些实施例中，待排序的该多个文本元素包括多字表达，利用了通常固有地比单个字更特定的事实。然后，为每个多字表达式计算单个嵌入向量，即，将该多字表达式视为好像它是用于嵌入过程的单个字。如果期望的话，待排序的文本元素当然可以包括单独的字以及多字表达。

本发明的一些实施例从参考文本中选择包含待排序的每个文本元素的多个文本片段。对于包含要被排序的元素的每个文本片段(例如，句子)，这些实施例计算实例得分，该实例得分取决于该文本元素与该片段中的其他文本元素之间的距离。然后根据包含该元素的多个文本片段的实例得分来计算该文本元素的特定性得分。特定性得分的准确性通常随着被选择作为文本元素的上下文的文本片段的数目的增加而提高。在本发明的一些实施例中，参考文本包括文本语料库，并且对于待排序的每个文本元素，为语料库中的该文本元素的每个实例选择文本语料库的片段。

在根据文本片段计算实例得分时，一些实施例通过在文本语料库(例如，用于计算嵌入矢量的语料库)中该另外的文本元素的出现的逆频率(以下说明)对待排序的文本元素与每个另外的文本元素之间的距离进行加权。实例得分被计算为片段的这些加权距离的函数。该加权用于惩罚更常见的单词的贡献，给予不频繁的单词更多的权重，由此增强特定性得分的准确性。

嵌入矢量可以通过任何方便的字嵌入方案来计算，所述方案可以包括与上下文无关的或上下文相关的嵌入方案。上下文无关的字嵌入方案处理文本语料库以产生包含用于该文本中的所选文本元素(这里是字和/或多字表达式)的嵌入向量的嵌入矩阵。上下文相关方案采用嵌入模型，该嵌入模型可以采用任何输入文本并且输出该文本的嵌入向量。已经发现使用独立于上下文的嵌入的实施例在特定性计算中提供增强的精度，尤其对于更多的技术术语。因此，某些方法处理文本语料库以生成嵌入矩阵。具体地，一些实施例将文本语料库符号化，使得在令牌化文本中，将待排序的文本元素中的每编码为单个符号，并且将语料库中的其他字编码为相应符号。然后，通过字嵌入方案来处理符号化的文本，以生成嵌入矩阵，该嵌入矩阵包括与待排序的文本元素相对应的嵌入矢量以及要从为了上下文目的而选择的文本片段中提取的进一步的文本元素。在对语料库进行标记化之前，可以存储要被编码为单个标记的多字表达式集合。本发明的一些实施例可以通过处理文本数据集(例如，通过从大型文档集合自动提取表达，或者通过识别包含来自在线知识库的文本中的多字表达的超链接)来自动编译多字表达的集合。这样，可以编译多字表达式的大型字典用于嵌入过程。然后可以根据需要通过特定性对这些的全部或子集进行排序。

当然，应当理解，可以对所描述的示例性实施例进行许多改变和修改。例如，在其他实施例中，可以通过自动短语提取系统来提取待排序的MWE的词典。可通过平均、求和或以其他方式聚集距离或加权距离来以不同方式计算实例得分，并且可将特定性分数计算为实例得分或底层距离的其他函数。作为示例，特定性得分可基于例如元素的实例得分的分布的统计处理。作为在从该分布中去除最高和最低实例得分之后的统计平均值。

流程图的步骤可以以与示出的顺序不同的顺序实施，并且在适当的情况下可以并行执行一些步骤。通常，在本文中参照体现本发明的方法描述特征的情况下，可以在体现本发明的计算系统/计算机程序产品中提供对应的特征，反之亦然。

已经出于说明的目的呈现了本发明的各种实施方式的描述，但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种用于对多个文本元素进行排序的计算机实现的方法，包括：

通过字嵌入方案计算嵌入向量，所述嵌入向量在嵌入空间中定位多个文本元素中的待排序的第一文本元素；

从参考文本中选择一组文本片段，其中，每个文本片段包含待排序的所述第一文本元素和至少一个其他文本元素；

针对每个文本片段，计算在该嵌入空间中待排序的该至少一个其他文本元素与待排序的该第一文本元素之间的相应距离，每个其他文本元素通过经由该字嵌入方案计算出的嵌入向量在该空间中的定位；

根据嵌入空间中的相应距离，计算待排序的文本元素的特定性得分；以及

存储所述特定性得分，其中所述多个文本元素的所述特定性得分通过特定性定义所述文本元素的排序。

2.根据权利要求1所述的方法，其中，待排序的所述多个文本元素包括多字表达式。

3.根据权利要求1所述的方法，其中，待排序的所述多个文本元素包括单字文本元素。

4.根据权利要求1所述的方法，进一步包括通过以下步骤处理文本语料库：

令牌化所述文本语料库，使得要被排序的所述文本元素中的每个被编码为单个令牌，并且所述文本语料库中的其他词被编码为相应的令牌；以及

通过该字嵌入方案来处理该令牌化的文本以生成一个嵌入矩阵，该嵌入矩阵包括对应于待排序的这些文本元素和待排序的该至少一个其他文本元素的这些嵌入向量。

5.根据权利要求4所述的方法，进一步包括：

在对所述语料库进行标记化之前存储一组多字表达式；以及

在对语料库进行令牌化的同时，将多字表达式集合中的每个多字表达式编码为单个令牌。

6.根据权利要求5所述的方法，进一步包括通过处理文本数据集来编译所述多字表达式集合。

7.根据权利要求1所述的方法，进一步包括：

对于待排序的每个文本元素：

从所述参考文本中选择包含所述第一文本元素的多个文本片段；

对于每个文本片段，根据待排序的所述第一文本元素与所述片段中的所述至少一个其他文本元素之间的距离来计算实例得分；以及

根据所述多个文本片段的实例得分计算所述特定性得分。

8.根据权利要求7所述的方法，进一步包括：

对于每个文本片段：

以所述另一文本元素在文本语料库中的出现频率的倒数对待排序的所述第一文本元素与所述至少一个其他文本元素中的每一个文本元素之间的距离进行加权；以及

根据所述文本片段的所述加权距离计算所述实例得分。

9.根据权利要求1所述的方法，进一步包括：

对于待排序的每个文本元素：

通过聚合所述多个文本片段中的每一个的所述加权距离来计算所述片段的所述实例得分；以及

通过聚合所述多个文本片段的所述实例得分来计算所述特定性分数。

10.根据权利要求7所述的方法，其中，所述参考文本包括文本语料库；以及

对于待排序的每个文本元素，为所述文本语料库中的所述第一文本元素的每个实例选择所述文本语料库的片段。

11.根据权利要求1所述的方法，其中，每个文本片段包括句子。

12.根据权利要求1所述的方法，包括：在对所述多个文本元素进行排序之后，使用文本元素的所述特定性得分处理文本数据结构，以从所述数据结构中提取具有期望特定性的数据。

13.根据权利要求12所述的方法，其中，所述文本数据结构包括文本语料库，并且其中，所述方法进一步包括：

使用所述语料库中的文本元素的所述特定性分数来构建包括所述语料库中的所述最特定文本元素的集合的知识图；以及

响应于搜索查询的输入，搜索所述知识图以提取与所述搜索查询相关的数据。

14.根据权利要求12所述的方法，其中，所述文本数据结构包括字嵌入矩阵，所述字嵌入矩阵包括将相应文本元素定位在潜在空间中的向量，并且所述方法进一步包括：

响应于对应于所述潜在空间中的向量的文本元素的输入，基于所述特定性得分，识别与所述潜在空间中的所述输入文本元素相邻的一组所述最特定文本元素。

15.根据权利要求12所述的方法，其中，所述文本数据结构包括具有表示文本短语的节点的图形，所述图形通过表示节点之间的关系的边互连，并且所述方法进一步包括：

根据所述文本短语中的文本元素的特定性得分修剪所述图以获得表示所述短语的最特定子集的子图；以及

处理所述子图以提取所要短语。

16.根据权利要求12所述的方法，其中，所述文本数据结构包括搜索数据库，并且所述方法包括：

响应于搜索查询的输入：

识别所述搜索查询中的任何排序的文本元素；以及

通过根据这样识别的任何排序的文本元素的特定性得分从搜索数据库中提取数据来生成对搜索查询的响应。

17.一种用于对多个文本元素进行排序的计算机程序产品，包括：

机器可读存储设备；以及

存储在所述机器可读存储设备上的计算机代码，其中，所述计算机代码包括用于使处理器执行权利要求1-16的任一方法的任何步骤的指令和数据。

18.一种用于对多个文本元素进行排序的计算系统，包括：

处理器；

机器可读存储设备；以及

存储在所述机器可读存储设备上的计算机代码，所述计算机代码包括用于使所述处理器执行权利要求1-16的任一方法的任何步骤的指令和数据。