CN113906445A

CN113906445A - 上下文感知数据挖掘

Info

Publication number: CN113906445A
Application number: CN202080039160.0A
Authority: CN
Inventors: G·多米尼考尼; 李垠炅; A·莫拉里
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-06-11
Filing date: 2020-05-27
Publication date: 2022-01-07
Also published as: DE112020002886T5; US11409754B2; JP7481074B2; JP2022536241A; GB2599300A; GB202117769D0; WO2020250064A1; US20200394186A1

Abstract

一种用于文本文档的上下文感知数据挖掘的方法，包括：接收从输入查询解析和预处理的单词列表；使用被查询的文本文档的单词嵌入模型来计算单词列表中的每个单词的相关分布式嵌入表示；通过使用所有相关分布式嵌入表示的平均值或所有相关分布式嵌入表示的最大值中的一个，聚合单词列表中的所有单词的相关分布式嵌入表示，以用单个嵌入来表示输入查询；检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表，其中N是由用户提供的正整数；以及将所检索的片段的列表返回至用户。

Description

上下文感知数据挖掘

技术领域

本发明总体上涉及知识抽取、表示、检索和推理，尤其涉及文本文档的上下文感知数据挖掘。

背景技术

单词嵌入是一类技术，其中，将单个单词表示为预定义向量空间中的实值向量。每个单词都与向量空间中的一个点相关联。每个单词都由一个具有数十个或数百个维度的实值特征向量表示，其中每个维度都与表示单词某个方面的特征相关联。这与稀疏词表示所需的数千或数百万维度形成对比，稀疏词表示诸如是独热编码，其中，由其大小对应于词汇表的大小的向量中的单个分量来表示单词，这种表示称为“单词袋”。另一方面，特征的数量远小于词汇表的大小。分布式表示是基于单词的使用来学习的，所基于的是具有相似上下文的单词将具有相似含义的想法。这使得以类似方式使用的单词能够产生类似的表示，从而自然地捕捉它们的含义。这可以与其中具有相似含义的不同单词可以有非常不同的表示的单词袋模型形成对比。使用稠密且和低维的向量有计算上的好处，因为大多数神经网络工具箱不能很好地处理高维稀疏向量。稠密表示的另一个好处是泛化能力：如果认为某些特征可提供类似的线索，就值得提供能够捕捉这些相似性的表示。在单词嵌入自然语言处理(NLP)中，来自自然语言的单词或短语由实数的向量来表示。该表示可以完全基于单词的使用方式，即其上下文。

来自计算系统的日志数据对于理解和诊断系统问题至关重要。日志数据在体量、种类、速度等方面都非常庞大，将其用于系统诊断和故障排除对系统管理员来说是一个挑战。计算系统的日志数据可以用单词嵌入的NLP格式表示，尽管没有指定具体的表示形式。例如，日志中的每个单词都可以用作符记(token)，但整个日志行也可以被视为符记。

发明内容

根据本发明的一个方面，提供了一种文本文档的上下文感知数据挖掘的方法，包括：接收从输入查询解析和预处理的单词列表，使用被查询的文本文档的单词嵌入模型来计算单词列表中的每个单词的相关分布式嵌入表示，聚合单词列表中的所有单词的相关分布式嵌入表示，以用单个嵌入来表示输入查询，检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表，以及将所检索的片段的列表返回至用户。

根据实施例，聚合相关分布式嵌入表示是用所有相关分布式嵌入表示的平均值或所有相关分布式嵌入表示的最大值中的一个来执行的。

根据另一实施例，N是由用户提供的正整数。

根据另一实施例，该方法包括以下述方式来训练文本文档的词嵌入模型：解析和预处理文本文档并产生符记化单词列表；从符记化单词列表定义单词辞典，其中，单词辞典包括符记化单词列表中的至少一些符记；以及训练单词嵌入模型，其中，单词嵌入模型是通过向量表示辞典中的每个单词或行的神经网络模型。

根据另一实施例，解析和预处理文本文档包括：从文本文档中的每一行去除所有标点符号和前导，解析数字数据，按单词对文本文档进行符记化以形成符记化单词列表，其中，符记是单个单词、N个连续单词的N元或文档的整行中的一个，以及返回符记化单词列表。

根据另一实施例，文本文档是计算机系统日志，并且数字数据包括十进制数和十六进制地址。

根据另一个实施例，该方法包括通过以下方式来解析和预处理输入查询：从输入查询中去除所有标点，解析数字数据，按单词符记化输入查询以产生符记化单词列表，其中，符记是单个单词、N个连续单词的N元或输入查询的整个行中的一个，以及返回符记化单词列表。

根据另一实施例，检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表包括：检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表包括：用相似性度量将查询的聚合单词嵌入表示与文本文档的单词嵌入模型进行比较，返回文本文档的单词嵌入模型的与查询的聚合单词嵌入表示的相似性大于预定阈值的那些片段，并按相似性排名所检索的文档片段。

根据本发明的另一方面，提供了一种文本文档的上下文感知数据挖掘的方法，包括：解析和预处理文本文档并产生符记化单词列表；从符记化单词列表定义单词辞典，其中，单词辞典包括符记化单词列表中的至少一些符记；以及训练单词嵌入模型，其中，单词嵌入模型是通过向量表示辞典中的每个单词或行的神经网络模型。解析和预处理文本文档包括：从文本文档中的每一行去除所有标点符号和前导，解析数字数据，按单词符记化文本文档以形成符记化单词列表，其中，符记是单个单词、N个连续单词的N元或文档的整行中的一个，以及返回符记化单词列表。

根据实施例，该方法包括：接收从输入查询解析和预处理的单词列表；使用被查询的文本文档的单词嵌入模型来计算每个单词的相关分布式嵌入表示；聚合单词列表中的所有单词的相关分布式嵌入表示，以用单个嵌入来表示输入查询；检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表，以及将所检索的片段的列表返回至用户。

根据另一实施例，该方法包括通过以下方式来解析和预处理输入查询：从输入查询中去除所有标点符号，解析数字数据，按单词符记化输入查询以产生符记化单词列表，其中，符记是单个单词、N个连续单词的N元或输入查询的整个行中的一个，以及返回符记化单词列表。

根据另一实施例，检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表包括：用相似性度量将查询的聚合单词嵌入表示与文本文档的单词嵌入模型进行比较，返回文本文档的单词嵌入模型的与查询的聚合单词嵌入表示的相似性大于预定阈值的那些片段，并按相似性排名所检索的文档片段。

根据另一实施例，聚合相关分布式嵌入表示是使用所有相关分布式嵌入表示的平均值或所有相关分布式嵌入表示的最大值中的一个来执行的。

根据另一实施例，N是由用户提供的正整数。

根据本发明的另一方面，提供了一种可由计算机读取的程序存储设备，有形地包含可由计算机执行以执行文本文档的上下文感知数据挖掘的方法步骤的指令程序。

以下描述的示例性实施例针对一种新颖的界面，在该界面中用户可以将查询表达为任何种类的文本，诸如单词、行、段落等，专用的基于NLP的算法返回计算机系统日志数据的具有与该查询相似的单词上下文的片段。根据本公开的实施例的方法基于的是查询中的单词的上下文，而不是基于简单的字符串匹配。这提高了用户在日志中找到有意义的事件的能力。根据实施例的方法基于无监督学习。它依赖于已经存在于日志中的文本信息，并且可以在没有事件、关键词或日志文本的结构的任何预先存在的知识的情况下应用。

附图说明

图1是根据本发明实施例的处理用户查询的方法的框图。

图2是根据本发明实施例的用于创建模型的方法的框图。

图3是根据本发明的另一个实施例的方法的框图。

图4是实现本发明的实施例的示例性云计算节点的示意图。

图5示出了在本发明的实施例中采用的示例性云计算环境。

具体实施方式

如本文中所描述的示范性实施例通常提供用于基于NLP的情境感知日志挖掘的方法。虽然实施例易受不同修改和替代形式的影响，但是其特定实施例在附图中以示例的方式示出并将在本文中详细描述。然而，应当理解，本文无意将本公开限于所公开的特定形式，相反，本公开将覆盖落入本公开的精神和范围内的所有修改、等同物和替换。

图1是根据本公开的实施例的处理用户查询的方法的框图。图1示出了其中用户提供查询110的用例，查询110可以是单个单词111、行112、或段落113、表示被检索的片段的大小的行数114、以及定义应当返回多少片段的相似性阈值。针对根据实施例的用于从计算机系统日志检索115相似日志片段的方法，输入查询110和行数114。根据实施例的方法将返回一组片段120.1，120.2，…，120.M作为输出120，将这些片段按与查询文本的相似性排序。

图2是根据本公开的实施例的用于创建模型的方法的框图。图2示出了根据实施例创建模型所需的步骤。左边是训练单词嵌入模型的方法210的流程图。右上方是用于处理系统日志文件以获得符记化(tokenized)单词列表的方法220的流程图，右下方是通用单词嵌入结构的框图230。

参见流程图210，训练模型的方法包括解析和预处理来自计算机系统日志的原始数据的日志输出(211)，定义单词辞典(212)，以及训练单词嵌入模型(213)。

方法220是解析和预处理来自原始数据的日志输出(211)所涉及的步骤，并且包括去除每行的所有标点和前导(222)、解析数字和十六进制地址(223)、按单词对日志进行符记化(224)、以及返回符记化单词列表(225)。使用特定符记来解析数字和十六进制地址。根据实施例，十进制数字由一个符记(token)表示，十六进制地址由另一个符记表示，并且数字或地址的信息可以与符记一起作为占位符，尽管上下文不限于特定值。虽然可以使用任何NLP技术，但没有对单词使用文本处理技术。对日志进行符记化意味着将日志拆分成符记，其中符记可被定义为单个字或N个连续字的N元，或也可被定义为日志的整行。一旦日志被符记化，辞典是所有符记的集合，或其选择的符记的子集，诸如最频繁的符记的子集。

根据实施例，用辞典来定义和表示在单词嵌入模型中考虑的单词(或行)。参照图2的步骤231，输入单词w[t]被表示为具有若干元素的独热向量(one-hot vector)，元素的个数等于辞典的大小，其中，元素中的所有0和1对应于该单词(或行)。为此目的，需要定义的辞典来创建这些向量。例如，“Rome”(罗马)、“Paris”(巴黎)、“Italy”(意大利)和“France”(法国)在V维向量空间中的独热向量表示的形式为：

Rome＝[1,0,0,0,0,…,0],

Paris＝[0,1,0,0,0,…,0],

Italy＝[0,0,1,0,0,…,0],

France＝[0,0,0,1,0,…,0]。

单词嵌入模型230使用N行的日志片段之间的距离度量，其中N是用户定义的参数。该距离度量用于定义两个日志片段的上下文的相似程度。具体地，该度量用于检索与用户查询具有最高相似性的前N个分段。单词嵌入模型是用嵌入(即，向量)来表示单词的神经网络模型。然后将单词[t]231投影232到单词嵌入233中，后者包括对应于窗口大小为5的单词[t-2]、单词[t-1]、单词[t+1]和单词[t+2]，。窗口大小是由用户提供的模型的参数之一。一旦已经训练了单词嵌入模型，就可以在日志的N行的片段之间使用距离度量，其中N是用户定义的参数。单词嵌入(即，向量)之间的典型距离度量是余弦相似性。此外，可以使用有受监督的学习方法。这涉及训练有监督的模型(诸如长短期存储器(LSTM))来预测文档之间的相似性。

图3是在该用例期间的搜索的框图，包括示出从查询用例抽取310和查询预测320的流程图。参见查询用例310，用户300提供查询—诸如感兴趣的非结构化文本的一部分，以及感兴趣的每个片段的行数。查询用例310还示出了在步骤312根据系统日志输入311训练模型来创建模型313。在步骤312训练模型的步骤对应于根据训练图2的模型210的实施例的方法。

在步骤314，基于图2中的处理系统日志文件的方法220解析查询，该方法包括以下步骤：去除每行的所有标点和前导，解析数字和十六进制地址，并且按单词符记化查询：q＝[w₁,w₂,…,w_N]。

然后，将输出q作为输入提供给检索相似日志片段的步骤315，该步骤对应于图1的步骤115，并且输出日志片段316。模型将检索与查询相似的片段的有序列表，并且将它们输出给用户。

框320是查询预测涉及的步骤的流程图，并且通过在步骤321接收来自输入的经解析和预处理的单词列表开始。然后，在步骤322，使用图2的单词嵌入模型230为每个单词w_i计算相关分布式嵌入表示we_i。“分布式嵌入表示”是由单词嵌入模型给出的单词(或行)的表示。在步骤323，将相关分布式嵌入表示we_i与所有的分布式单词嵌入we_i的平均值(或最大值)聚合以用单个嵌入qe代表该查询。以相同的方式表示日志数据中的每个N行的片段。单词嵌入产生具有针对每个单词或行的向量的表示。由于查询包含多于一个的单词或行，所以需要将所有的表示聚合到一个单个向量中，以将整个查询表示为向量，在此之后，可以使用诸如余弦相似性之类的相似性度量。

在步骤324，检索其中聚合单词嵌入与查询表示具有较高相似性的N行的日志片段的排名列表。通过用相似性度量将查询的聚合单词嵌入表示与日志数据的单词嵌入模型相比较，返回日志数据的单词嵌入模型的相似性大于预定阈值的那些片段，并按相似性值对所检索的片段进行排序，来检索日志片段的排名列表。所检索的片段的列表在步骤325返回，并在步骤316输出。

根据本发明实施例的用户查询处理方法的实际示例如下。方法通过接收单词w_q的用户输入查询而开始。假设单词w_q很频繁地以诸如w₁、w₂、w_q、w₃、w₄的模式出现。通过搜索w_q很可能检索出与该模式的精确匹配。现在，假设存在诸如w₁、w₅、w₆、w₃、w₄的另一种单词模式。通过词法匹配，将检索不出该模式，因为它不包含查询w_q。然而，利用根据本公开的实施例的提出的NLP方法，这两个日志片段的上下文非常相似，并且查询模式可以被检索并且显示给用户。

虽然已经在查询计算机系统日志的上下文中描述了本公开的实施例，但是对于本领域技术人员显而易见的是，根据本公开的实施例的方法可以应用于查询太大而不能被单个人搜索或理解的任何文本文档。

系统实现方式

应当理解，本公开的实施例能够以硬件、软件、固件、专用过程或其组合的不同形式来实现。在一个实施例中，本公开的实施例可以软件形式作为有形地包含在计算机可读程序存储设备上的应用程序来实现。应用程序可被上传至包括任何合适架构的机器并且由该机器执行。此外，预先要理解的是，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本公开的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。根据本公开的实施例的自动故障排除系统还适用于云实现。

云计算是一种服务交付模型，用于使得能够方便地、按需地访问可配置计算资源(例如，可配置计算资源的共享池)的共享池。网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)，其能够以最小的管理努力或与服务的提供商的交互快速地供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参考图4，示出了云计算节点的实例的示意图。云计算节点410仅是合适的云计算节点的一个示例，并不旨在对本文所述的本公开的实施例的使用范围或功能提出任何限制。无论如何，云计算节点410能够被实现和/或执行本文以上阐述的任何功能。

在云计算节点410中，存在计算机系统/服务器412，其可与许多其他通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器412一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括以上系统或设备中的任一个的分布式云计算环境等。

计算机系统/服务器412可以在由计算机系统执行的诸如程序模块之类的计算机系统可执行指令的一般上下文中描述。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器412可以在由通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实践。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储媒质中。

如图4所示，云计算节点410中的计算机系统/服务器412以通用计算设备的形式示出。计算机系统/服务器412的组件可以包括但不限于一个或多个处理器或处理单元416、系统存储器428、以及将包括系统存储器428的不同系统组件耦合至处理器416的总线418。

总线418表示若干类型的总线结构中的任何一种中的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线。

计算机系统/服务器412通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统/服务器412访问的任何可用介质，并且其包括易失性和非易失性介质、可移动和不可移动介质。

系统存储器428可以包括易失性存储器形式的计算机系统可读介质，诸如随机存取存储器(RAM)430和/或高速缓存存储器432。计算机系统/服务器412还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储媒质。仅作为示例，存储系统434可以被提供用于从不可去除的非易失性磁性介质(未示出，并且通常被称为“硬盘驱动器”)进行读取和写入。尽管未示出，可以提供用于从可移动非易失性磁盘(例如，“软盘”)读取或向其写入的磁盘驱动器，以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下，每一个可以通过一个或多个数据介质接口连接到总线418。如以下将进一步描绘和描述的，存储器428可以包括具有被配置成用于执行本披露的实施例的功能的一组(例如，至少一个)程序模块的至少一个程序产品。

具有一组(至少一个)程序模块442的程序/实用程序440可以存储在存储器428中，作为示例而非限制，以及操作系统、一个或多个应用程序、其他程序模块和程序数据。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或它们的一些组合可以包括网络环境的实现方式。程序模块442通常执行如本文所述的本公开的实施例的功能和/或方法。

计算机系统/服务器412还可以与诸如键盘、定点设备、显示器424等之类的一个或多个外部设备414、使得用户能够与计算机系统/服务器412交互的一个或多个设备进行通信；和/或使计算机系统/服务器412能够与一个或多个其他计算装置通信的任何装置(例如，网卡、调制解调器等)。这样的通信可经由输入/输出(I/O)接口422发生。此外，计算机系统/服务器412可以经由网络适配器420与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如，互联网)的一个或多个网络通信。如所描绘的，网络适配器420经由总线418与计算机系统/服务器412的其他组件通信。应当理解，虽然未示出，但是其他硬件和/或软件组件可以与计算机系统/服务器412结合使用。示例包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。

现在参考图5，描述说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点400，本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点400可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图5中所示的计算装置54A-N的类型仅旨在是说明性的，并且计算节点400和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化装置通信。

尽管已经参考示例性实施例详细地描述了本发明的实施例，但本领域技术人员将认识到，在不背离所附权利要求中阐述的本发明的范围的情况下，可对其进行各种修改和替换。

Claims

1.一种文本文档的上下文感知数据挖掘的计算机实现的方法，包括以下步骤：

接收从输入查询解析和预处理的单词列表；

使用被查询的文本文档的单词嵌入模型来计算单词列表中的每个单词的相关分布式嵌入表示；

聚合单词列表中的所有单词的相关分布式嵌入表示，以用单个嵌入来表示输入查询；

检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表；和

将所检索的片段的列表返回至用户。

2.根据权利要求1所述的方法，其中，聚合相关分布式嵌入表示是用所有相关分布式嵌入表示的平均值或所有相关分布式嵌入表示的最大值中的一个来执行的。

3.根据权利要求1所述的方法，其中，N是由用户提供的正整数。

4.根据权利要求1所述的方法，进一步包括训练文本文档的单词嵌入模型，包括以下步骤：

解析和预处理文本文档并产生符记化单词列表；

从符记化单词列表定义单词辞典，其中，单词辞典包括符记化单词列表中的至少一些符记；和

训练单词嵌入模型，其中，单词嵌入模型是通过向量表示辞典中的每个单词或行的神经网络模型。

5.根据权利要求4所述的方法，其中，解析和预处理文本文档包括以下步骤：

从文本文档中的每一行去除所有标点和前导；

解析数字数据；

按单词对文本文档进行符记化以形成符记化单词列表，其中，符记是单个单词、N个连续单词的N元或文档的整行中的一个；和

返回符记化单词列表。

6.根据权利要求5所述的方法，其中，文本文档是计算机系统日志，并且，数字数据包括十进制数和十六进制地址。

7.根据权利要求1所述的方法，进一步包括通过以下步骤对输入查询进行解析和预处理：

从输入查询中去除所有标点；

解析数字数据；

按单词符记化输入查询以产生符记化单词列表，其中，符记是单个单词、N个连续单词的N元或输入查询的整个行中的一个；和

返回符记化单词列表。

8.根据权利要求1所述的方法，其中，检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表包括：用相似性度量将查询的聚合单词嵌入表示与文本文档的单词嵌入模型进行比较，返回文本文档的单词嵌入模型的与查询的聚合单词嵌入表示的相似性大于预定阈值的那些片段，并按相似性排名所检索的文档片段。

9.一种文本文档的上下文感知数据挖掘的计算机实现的方法，包括以下步骤：

解析和预处理文本文档并产生符记化单词列表；

训练单词嵌入模型，其中，单词嵌入模型是通过向量表示辞典中的每个单词或行的神经网络模型，

其中，解析和预处理文本文档包括以下步骤：

从文本文档中的每一行去除所有标点和前导；

解析数字数据；

返回符记化单词列表。

10.根据权利要求9所述的方法，进一步包括：

接收从输入查询解析和预处理的单词列表；

使用被查询的文本文档的单词嵌入模型来计算每个单词的相关分布式嵌入表示；

检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表，和

将所检索的片段的列表返回至用户。

11.根据权利要求10所述的方法，进一步包括通过以下步骤来解析和预处理输入查询：

从输入查询中去除所有标点，

解析数字数据，

按单词符记化输入查询以产生符记化单词列表，其中，符记是单个单词、N个连续单词的N元或输入查询的整个行中的一个，和

返回符记化单词列表。

12.根据权利要求10所述的方法，其中，检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表包括：用相似性度量将查询的聚合单词嵌入表示与文本文档的单词嵌入模型进行比较，返回文本文档的单词嵌入模型的与查询的聚合单词嵌入表示的相似性大于预定阈值的那些片段，并按相似性排名所检索的文档片段。

13.根据权利要求9所述的方法，其中，文本文档是计算机系统日志，并且，数字数据包括十进制数和十六进制地址。

14.根据权利要求10所述的方法，其中，聚合相关分布式嵌入表示是使用所有相关分布式嵌入表示的平均值或所有相关分布式嵌入表示的最大值中的一个来执行的。

15.根据权利要求10所述的方法，其中，N是由用户提供的正整数。

16.一种计算机可读程序存储设备，有形地包含由计算机可执行的指令程序以执行文本文档的上下文感知数据挖掘的方法步骤，所述方法包括以下步骤：

接收从输入查询解析和预处理的单词列表；

通过用所有相关分布式嵌入表示的平均值或所有相关分布式嵌入表示的最大值中的一个，聚合单词列表中的所有单词的相关分布式嵌入表示，以用单个嵌入来表示输入查询；

检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表，其中，N是由用户提供的正整数；和

将所检索的片段的列表返回至用户。

17.根据权利要求16所述的计算机可读程序存储设备，其中，所述方法进一步包括训练文本文档的单词嵌入模型，包括以下步骤：

解析合预处理文本文档并产生符记化单词列表；

其中，解析和预处理文本文档包括以下步骤：

从文本文档中的每一行去除所有标点和前导；

解析数字数据；

返回符记化单词列表。

18.根据权利要求17所述的计算机可读程序存储设备，其中，文本文档是计算机系统日志，并且，数字数据包括十进制数和十六进制地址。

19.根据权利要求16所述的计算机可读程序存储设备，其中，所述方法进一步包括通过以下步骤解析和预处理输入查询：

从输入查询中去除所有标点，

解析数字数据；

按单词符记化输入查询以产生符记化单词列表，其中，符记是单个单词、N个连续单词的N元或输入查询的整行中的一个；和

返回符记化单词列表。

20.根据权利要求16所述的计算机可读程序存储设备，其中，检索与查询的聚合单词嵌入表示相似的N行的文档片段的排名列表包括：用相似性度量将查询的聚合单词嵌入表示与文本文档的单词嵌入模型进行比较，返回文本文档的单词嵌入模型的与查询的聚合单词嵌入表示的相似性大于预定阈值的那些片段，并按相似性排名所检索的文档片段。

21.一种计算机可读程序存储设备，有形地包含由计算机可执行的指令程序以执行文本文档的上下文感知数据挖掘的方法步骤，所述方法包括以下步骤：

解析和预处理文本文档并产生符记化单词列表；

其中，对文本文档进行解析和预处理包括以下步骤：

从文本文档中的每一行去除所有标点和前导；

解析数字数据；

返回符记化单词列表。