CN103324604B

CN103324604B - 用于域特定的自然语言标准化的方法和系统

Info

Publication number: CN103324604B
Application number: CN201310072086.4A
Authority: CN
Inventors: S.阿尔希纳维; G.D.卡达克; E.S.萨弗恩; J.M.韦伯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-03-07
Filing date: 2013-03-07
Publication date: 2016-04-27
Anticipated expiration: 2033-03-07
Also published as: GB201302916D0; US20150331854A1; CN103324604A; US20130238313A1; GB2502853A; US9424253B2; US9122673B2

Abstract

本发明的实施例提供一种用于文本集的域特定标准化的方法、系统和计算机程序产品。在本发明的一个实施例中，提供了一种用于文本集的域特定标准化的方法，包括行业、组织、人口统计学或地理域。所述方法包括将文本集加载在计算机的存储器中并确定用于所述文本集的域。所述方法还包括针对所确定的域检索替换词的字典。最后，所述方法包括使用所检索的字典对所述文本集进行文本简化。在本实施例的一个方面中，通过基于已经存在于所述文本集中的词的推断而确定所述域。在本实施例的另一方面中，基于与所述文本集一起提供的元数据确定所述域。

Description

用于域特定的自然语言标准化的方法和系统

技术领域

本发明涉及自然语言处理，更具体地涉及文本简化。

背景技术

自然语言处理是人工智能的分支，其涉及人类自然使用的语言的分析、理解和生成，以便使用自然的人类语言代替计算机语言来以书面和口头的上下文与计算机相接。自然语言处理是一般的概括术语，其包含许多不同种类的研究，范围从自然语言理解和语音识别到语音标签和文本提取的部分。在自然语言处理的总括之下的一个感兴趣的种类是文本简化。

文本简化涉及对文本集（corpus）中的文本的修改的缩减，以便在语法和语言学复杂度方面简化文本集，或者仅减小文本集的大小。一般地，文本简化需要首先解析文本集，以识别和索引文本中的不同词，并且根据一个或多个文本简化规则替换或去除索引中的特定词。如此，可以简化文本集，以产生更小的文本集、或者至少更简单的文本集。

发明内容

本发明的实施例解决现有技术中关于自然语言处理的缺陷，并提供一种新颖且非显而易见的方法、系统和计算机程序产品，用于文本集的域特定标准化。在本发明的一个实施例中，提供了一种用于文本集的域特定标准化的方法，包括行业、组织、人口统计学或地理域。所述方法包括将文本集加载在计算机的存储器中并确定所述文本集的域。所述方法还包括针对所确定的域检索替换词的字典。最后，所述方法包括使用所检索的字典对所述文本集进行文本简化。在本实施例的一个方面中，通过基于已经存在于所述文本集中的词的推断确定所述域。在本实施例的另一方面中，基于与所述文本集一起提供的元数据确定所述域。

在本发明的另一实施例中，一种自然语言数据处理系统可被配置用于文本集的域特定标准化。所述系统可以包括主计算系统，其包括具有存储器和至少一个处理器的至少一个计算机。所述系统还可以包括自然语言处理器，其提供被配置用于在所述计算机的存储器中执行的文本简化的逻辑。最后，所述系统可以包括所述自然语言处理器的域特定标准化模块。所述模块继而可以包括在所述主计算系统中执行的程序代码，其被使得能够加载文本集，以确定用于所述文本集的域，针对所确定的域检索替换词的字典，并指示所述自然语言处理使用所检索的字典对所述文本集进行文本简化。

本发明的附加方面将部分地在以下的描述中被阐明，并且将部分地根据所述描述而显而易见、或者可以通过实践本发明而被学习。将通过在所附权利要求中具体指出的元素和组合实现或获得本发明的各方面。应理解，前面的一般性描述和下面的详细描述都仅是示例性和说明性的，并且不是对所要求权利的发明的限制。

附图说明

合并在此说明书中并构成其一部分的附图例示了本发明的实施例，并与所述描述一起用于说明本发明的原理。这里所述的实施例是当前优选实施例，然而，应理解，本发明不限于所示的精确布置和手段，其中：

图1是用于文本集的域特定标准化的处理的图示；

图2是被配置用于文本集的域特定标准化的自然语言数据处理系统的示意图；以及

图3是用于文本集的域特定标准化的处理的流程图。

具体实施方式

本发明的实施例提供文本集的域特定标准化。根据本发明的实施例，可以接收文本集用于处理，并且可以针对该文本集而确定域，例如，基于文本集的已知上下文，或者替代地通过解析来自文本集的文本、或者通过解析与文本集关联的元数据而对上下文进行的推断确定。在这点上，域可以是用于特定行业的行业域、用于特定地理区域的地理域、用于特定组织的组织域、或用于特定人口统计学特征（诸如年龄、性别、宗教信仰、种族等）的人口统计学域。一旦确定了域，则可以针对所确定的域检索词替换的映射，并可以使用该映射执行文本集的文本简化。以此方式，可以将文本集改变为适合于所确定的域的语言。

在进一步的例示中，图1是用于文本集的域特定标准化的处理的图示。如图1中所示，可以将初始文本集110A提供到自然语言处理系统120，并且可以针对初始文本集110A确定域130。例如，可以基于与初始文本集110A一起提供的元数据、或者从初始文本集110A本身（例如，通过在初始文本集110A中辨识之前与特定域相关的词或短语的存在）确定域130。此后，可以基于所确定的域130选择词汇的域特定字典或域特定映射140，并可以在文本简化处理160期间使用它们，以将初始文本集110A转换为经简化的文本集110B。一旦已经产生了经简化的文本集110B，则可以将经简化的文本集110B传递到终端用户150A、150B、150C，例如作为网页、声音响应脚本、或文档等的一部分。

可以在自然语言数据处理系统内实施关于图1所描述的处理。在再一图示中，图2是被配置用于文本集的域特定标准化的自然语言数据处理系统的示意图。图2的系统可以包括主计算系统210，其包括一个或多个计算机，每个计算机包括存储器和至少一个处理器。主计算系统310可以通过计算机通信网络240通信地连接到不同的客户端220，每个客户端220支持内容用户界面230（诸如网页浏览器，通过其可以查看网页内容）、或音频接口（诸如电话接口，通过其可以支持与语音识别系统的语音交互）的执行。

众所周知，自然语言处理器260可以在主计算系统210的存储器中执行。自然语言处理器260可以被配置用于对文本集执行自然语言处理，包括解析以及自然语言理解。此外，文本简化逻辑270可以连接至自然语言处理器260，并被使得能够根据映射数据存储设备250内部署的词的映射或字典而对文本集执行文本简化。

在此点上，映射数据存储设备250可以包括固定存储器，其包括用于不同域的不同映射，每个域具有针对该域的词的对应字典。此外，映射至少是输入的本文集中的词或多个词与适用于与该映射关联的特定域的零个或多个替换词之间的关联。具体地，在映射数据存储设备250中提供的映射所针对的域可以例如包括特定于分别不同的行业的一个或多个行业域、特定于分别不同的组织的一个或多个组织域、特定于一个或多个人口统计学分组（诸如年龄、性别、宗教信仰、种族、以及政治隶属）的一个或多个人口统计学域、以及一个或多个地理域。

重要地，域标准化模块300可以连接到自然语言处理器260。域标准化模块300可以包括程序代码，于是，当在主计算系统210的存储器中执行该程序代码时，能够使得主计算系统210为初始文本集确定对应的域，并指示使用与符合所确定的域的映射将初始文本集的文本简化为经简化的文本集。以此方式，通过使用符合所确定的域的语言的文本集中的语言，可以将文本集的内容从一般形式转换为所确定的域的个体熟悉的形式。

众所周知，可以关于单个终端用户或关于多个终端用户创建映射。例如，可以根据不同终端用户的个人输入而将不同替换词汇映射到源词汇。每个替换词汇可以被分配相对于源词汇的复杂度的复杂度值。可以为源词汇针对不同终端用户贡献的不同替换词汇而计算复杂度值的平均，并且可以选择与复杂度值的平均最一致的词汇作为针对该源词汇而映射的替换词汇。以此方式，在映射中被映射至对应源词汇的替换词汇可以根据不同终端用户对该映射的动态贡献而动态地改变。

在域标准化模块300的操作的再一图示中，图3是示出用于文本集的域特定标准化的处理的流程图。从方框310开始，可以将文本集加载到存储器中。在方框320，可以针对该文本集确定域，例如通过检查与文本集一起提供的元数据，或者通过对文本集的自然语言理解分析而推断域。此后，在方框330，可以检索对应于所确定的域的映射。最后，在方框340，可以使用映射对文本集进行文本简化，并且可以将经简化的文本集返回，用于在必要的内容用户界面中在视觉上和/或听觉上呈现。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、射频等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言和传统过程式程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

上面已经参照本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明。在这一点上，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。例如，流程图或框图中的每个方框可以代表代码的模块、片段或部分，其包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在某些替代实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，连续示出的两个方框实际上可以基本并行地执行，或者所述方框有时可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的基于专用硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instructionmeans)的制造品（manufacture）。也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

最后，这里使用的术语仅是为了描述特定实施例的目的，而不意欲限制本发明。如这里所使用的，单数形式“一”、“一个”和“该”也意在包括复数形式，除非上下文清楚表明并非如此。还将理解，术语“包括”和/或“包含”当在该说明书中使用时表示所述的特征、整数、步骤、操作、元素和/或组件的存在，而不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或它们的组合的存在或添加。

所附权利要求中所有装置或步骤加功能的元素的对应结构、材料、动作和等同物意在包括用于与具体要求权利的其它权利要求元素组合地执行功能的任意结构、材料或动作。已经为了说明和描述的目的呈现了本发明的描述，但这些描述不意在是穷尽的、或限制为所公开的形式的本发明。对于本领域的普通技术人员而言，在不偏离本发明的范围和精神的情况下，许多修改和改变将是明显的。选择和描述了所述实施例，以便最好地说明本发明的原理和实际应用，以及使得本领域的其它普通技术人员能够对具有适合于所构思的特定用途的各种修改的各种实施例而理解本发明。

已经详细地并参照本申请的实施例而如此描述了本申请的发明，很明显，可以在不偏离所附权利要求限定的本发明的范围的情况下进行修改和改变。

Claims

1.一种用于文本集的域特定标准化的方法，所述方法包括：

将文本集加载在计算机的存储器中；

确定用于所述文本集的域；

针对所确定的域而检索替换词的字典；以及

使用所检索的字典，通过用替换词汇替代所述文本集中的已有词汇，对所述文本集进行文本简化，

其中所述替换词的字典包括一组源词汇，所述源词汇中的至少一个被映射到多个不同替换词汇中具有与所述多个不同替换词汇的平均复杂度值一致的复杂度值的一个替换词汇。

2.如权利要求1所述的方法，其中所述域是行业域。

3.如权利要求1所述的方法，其中所述域是组织域。

4.如权利要求1所述的方法，其中所述域是人口统计学域。

5.如权利要求1所述的方法，其中所述域是地理域。

6.如权利要求1所述的方法，其中通过基于已经存在于所述文本集中的词的推断而确定所述域。

7.如权利要求1所述的方法，其中基于与所述文本集一起提供的元数据确定所述域。

8.一种被配置用于文本集的域特定标准化的自然语言数据处理系统，所述系统包括：

主计算系统，包括具有存储器和至少一个处理器的至少一个计算机；

自然语言处理器，提供被配置用于在所述计算机的存储器中执行的文本简化的逻辑；并且

所述自然语言处理器的域特定标准化模块包括在所述主计算系统中执行的程序代码，其被使得能够加载文本集，确定用于所述文本集的域，针对所确定的域检索替换词的字典，并指示所述自然语言处理器使用所检索的字典，通过用替换词汇替代所述文本集中的已有词汇，对所述文本集进行文本简化，其中所述替换词的字典包括一组源词汇，所述源词汇中的至少一个被映射到多个不同替换词汇中具有与所述多个不同替换词汇的平均复杂度值一致的复杂度值的一个替换词汇。

9.如权利要求8所述的系统，其中所述域是行业域。

10.如权利要求8所述的系统，其中所述域是组织域。

11.如权利要求8所述的系统，其中所述域是人口统计学域。

12.如权利要求8所述的系统，其中所述域是地理域。

13.如权利要求8所述的系统，其中所述模块的程序代码通过基于已经存在于所述文本集中的词的推断而确定所述域。