CN110309251A

CN110309251A - 文本数据的处理方法、装置和计算机可读存储介质

Info

Publication number: CN110309251A
Application number: CN201810198838.4A
Authority: CN
Inventors: 温程
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2019-10-08
Anticipated expiration: 2038-03-12
Also published as: CN110309251B

Abstract

本公开涉及一种文本数据的处理方法、装置和计算机可读存储介质，涉及自然语言处理技术领域。该方法包括：获取文本数据中包含的关键词和实体；根据关键词和实体，确定文本数据的分类信息；根据关键词、实体和分类信息，创建文本数据的文本索引；根据文本数据中各句子包含的关键词和实体，创建各句子的句子索引；利用文本索引，确定目标事件的相关文本数据；利用句子索引，在相关文本数据中确定目标事件的匹配句子；计算匹配句子中与目标事件匹配的关键词的匹配权重；根据匹配权重和第一阈值，确定与目标事件相关的关键词。本公开的技术方案能够提高事件查询准确性。

Description

文本数据的处理方法、装置和计算机可读存储介质

技术领域

本公开涉及自然语言处理技术领域，特别涉及一种文本数据的处理方法、文本数据的装置和计算机可读存储介质。

背景技术

随着互联网的高速发展、网络数据的不断增加和信息高速公路的兴起，大量的信息以电子文本的形式呈现在人们面前。对于每篇电子文本的舆情分析已经是一种必需的技术。基于事件信息的实时查询也是势在必行的。

在相关技术中，首先通过爬虫抓取各网络媒体的文本数据并存入搜索引擎，然后舆情监控人员在舆情网站上根据目标事件通过搜索引擎搜索相关数据，最后通过搜索结果展示目标事件的相关文章。

发明内容

本公开的发明人发现上述相关技术中存在如下问题：依靠人工通过搜索引擎确定相关数据，导致查询到的相关数据准确性低。针对上述问题，本公开提出了一种查询准确性高的文本数据的处理技术方案。

根据本公开的一些实施例，提供了一种文本数据的处理方法，包括：获取文本数据中包含的关键词和实体；根据所述关键词和所述实体，确定所述文本数据的分类信息；根据所述关键词、所述实体和所述分类信息，创建所述文本数据的文本索引；根据所述文本数据中各句子包含的所述关键词和所述实体，创建所述各句子的句子索引；利用所述文本索引，确定目标事件的相关文本数据；利用所述句子索引，在所述相关文本数据中确定所述目标事件的匹配句子；计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重；根据所述匹配权重和第一阈值，确定与所述目标事件相关的关键词。

可选地，根据所述关键词、所述实体和所述分类信息中的至少一个，确定所述目标事件的相关文本数据。

可选地，获取所述匹配的关键词与所述目标事件的匹配程度，作为第一权重；获取与所述匹配的关键词相关的实体与所述目标事件的匹配程度，作为第二权重；将所述第一权重和所述第二权重的加权和，作为相应关键词的匹配权重。

可选地，根据所述第二权重，对所述相关文档的各匹配句子中的各实体进行聚合处理；将聚合结果中所述第二权重大于第二阈值的实体确定为事件相关实体。

可选地，根据所述文本数据中的各单词在所述文本数据中出现的频率，和所述各单词出现在其它文本数据中的频率，估计所述各单词在所述文本数据中的重要程度；根据所述重要程度，在所述各单词中确定所述关键词。

可选地，利用机器学习方法确定所述文本数据的分类信息，所述分类信息包括与所述文本数据相关的分类和所述分类在所述文本数据中的重要程度。

可选地，所述文本索引中包括态度信息，所述态度信息根据所述文本数据中的情感词利用机器学习方法确定。

根据本公开的另一些实施例，提供一种文本数据的处理装置，包括：数据获取模块，用于获取文本数据中包含的关键词和实体；分类信息确定模块，用于根据所述关键词和所述实体，确定所述文本数据的分类信息；文本索引建立模块，用于根据所述关键词、所述实体和所述分类信息，创建所述文本数据的文本索引；句子索引建立模块，用于根据所述文本数据中各句子包含的所述关键词和所述实体，创建所述各句子的句子索引；相关文本确定模块，用于利用所述文本索引，确定目标事件的相关文本数据；匹配句子确定模块，用于利用所述句子索引，在所述相关文本数据中确定所述目标事件的匹配句子；匹配权重计算模块，用于计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重；相关关键词确定模块，用于根据所述匹配权重和第一阈值，确定与所述目标事件相关的关键词。

可选地，所述相关文本确定模块根据所述关键词、所述实体和所述分类信息中的至少一个，确定所述目标事件的相关文本数据。

可选地，所述匹配权重计算模块获取所述匹配的关键词与所述目标事件的匹配程度，作为第一权重，获取与所述匹配的关键词相关的实体与所述目标事件的匹配程度，作为第二权重，将所述第一权重和所述第二权重的加权和，作为相应关键词的匹配权重。

可选地，事件相关实体确定模块，用于根据所述第二权重，对所述相关文档的各匹配句子中的各实体进行聚合处理，将聚合结果中所述第二权重大于第二阈值的实体确定为事件相关实体。

可选地，所述数据获取模块根据所述文本数据中的各单词在所述文本数据中出现的频率，和所述各单词出现在其它文本数据中的频率，估计所述各单词在所述文本数据中的重要程度，根据所述重要程度，在所述各单词中确定所述关键词。

可选地，所述分类信息确定模块利用机器学习方法确定所述文本数据的分类信息，所述分类信息包括与所述文本数据相关的分类和所述分类在所述文本数据中的重要程度。

根据本公开的又一些实施例，提供一种文本数据的处理装置，包括：存储器和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行上述任一个实施例中的文本数据的处理方法。

根据本公开的又一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例中的文本数据的处理方法。

在上述实施例中，基于关键词、实体和分类信息建立了包含文本索引和句子索引的二级索引查询机制，结合文本数据中的关键词与目标事件之间的匹配程度，能够快速、准确地查找到与目标事件匹配的文本数据和关键词，从而提高了事件查询准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出本公开的文本数据的处理方法的一些实施例的流程图；

图2示出本公开的关键词提取方法的一些实施例的流程图；

图3示出本公开的匹配权重计算方法的一些实施例的流程图；

图4示出本公开的事件相关实体确定方法的一些实施例的流程图；

图5示出本公开的文本数据的处理装置的一些实施例的框图；

图6示出本公开的文本数据的处理装置的另一些实施例的框图；

图7示出本公开的文本数据的处理装置的又一些实施例的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出本公开的文本数据的处理方法的一些实施例的流程图。

如图1所示，该方法包括：步骤110，获取关键字和实体；步骤120，确定分类信息；步骤130，创建文本索引；步骤140，创建句子索引；步骤150，确定相关文本数据；步骤160，确定匹配句子；步骤170，确定匹配权重；步骤180，确定相关关键词。

在步骤110中，获取文本数据中包含的关键词和实体。例如，文本数据可以是通过爬虫系统从各互联网媒体上大范围爬取的各种文本数据，也可以是从电商平台中爬取的用户评论数据。

在一些实施例中，可以对爬取的所有文本数据进行分词处理、词性标注处理，从而识别其中的人名、地名和机构名等名词作为文本数据的实体。还可以根据文本数据的上下文语境来判断每一个或某些单词的语义。

在一些实施例中，还可以提取文本数据中的情感词，通过分写这些情感词的语义，可以判断该文本数据对于其所包含的事件的态度信息。例如，可以通过机器学习的方式对情感词进行分析，从而判断态度信息是肯定态度的还是否定态度。

在一些实施例中，可以通过文本数据的关键词和实体，判别文本数据的内容是否政治违规或者是否情色违规，同时给出违规的严重程度。还可以，判断文本数据是否为垃圾数据，例如，用户评论数据是否为垃圾评论。这样，就可以对文本数据进行数据清洗，从而保证数据的有效性。

在一些实施例中，可以利用图2中的步骤确定关键词。

图2示出本公开的关键词提取方法的一些实施例的流程图。

如图2所示，该方法包括：步骤410，估计各单词的重要程度；步骤420，在各单词中确定关键词。

在步骤410中，可以根据文本数据中的各单词在文本数据中出现的频率，和各单词出现在其它文本数据中的频率，估计各单词在所述文本数据中的重要程度。在步骤420中，可以根据重要程度，在各单词中确定关键词。

例如，可以将一个段落作为一个文本数据，对段落中的每句话进行关键词提取。例如，可以通过TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)算法来确定关键词。

这样，通过步骤110确定的关键词可以表示文本数据记载了哪些事件，确定的实体可以表示与这些事件相关的机构、人物、物品等。而且，这样还可以通过同一事件将关键词和实体关联起来，为分析文本数据与目标事件的关系提供数据基础。

在步骤120中，根据关键词和实体，确定文本数据的分类信息。例如，可以利用机器学习方法确定文本数据的分类信息，分类信息可以包括与文本数据相关的分类和分类在文本数据中的重要程度。

在一些实施例中，可以通过机器学习获取文本数据中句子内部单词之间的搭配或者修饰关系，从而确定文本数据相关的分类。由于，一段文本数据可能同时属于多个分类，但与其中的某几个分类更接近，因此可以通过机器学习的方法进一步获取文本数据对于每个分类的权重，即分类在文本数据中的重要程度。例如，可以确定文本数据属于娱乐八卦、时事政治或者数码科技等中的一类或多类，也可以确定文本数据属于某一个或几个电商分类，并且可以确定文本数据属于各分类的权重。这样，可以提高文本数据分类的准确性。

在一些实施例中，可以为文本数据添加文本标签，文本标签中可以包括与文本数据相关的分类及其权重。

在步骤130中，根据关键词、实体和分类信息，创建文本数据的文本索引。

在一些实施例中，文本索引可以包括多个字段，例如，关键词、实体、文本标签、分类信息、标题、内容、出处、态度信息等。关键词可以是利用NLP(自然语言处理，NaturalLanguage Processing)技术通过态度信息确定的与事件相关的关键词。文本索引还可以包括文本数据的主键(primary key)字段，主键可以根据文本分类、关键词和实体中的一项或几项生成并保证是全局唯一的。

在步骤140中，根据文本数据中各句子包含的关键词和实体，创建各句子的句子索引。例如，可以在每个文本索引下建立嵌套的句子索引，从而形成二级索引机制。句子索引中可以包括关键词、实体态度信息等字段。这些字段可以存放于句子相关的事件、地点、人物等信息。

通过步骤130和140可以建立文本数据的二级索引机制，这样可以细化数据查询的处理颗粒度，从而提高查询准确性。

在步骤150中，利用文本索引，确定目标事件的相关文本数据。例如，可以根据关键词、实体和分类信息中的至少一个，确定目标事件的相关文本数据。例如，用户可以输入目标事件的关键词，通过文本索引查找与目标事件的关键词相关的文本数据的关键词、分类和实体，从而确定与目标事件相关的文本数据。

在步骤160中，利用句子索引，在相关文本数据中确定目标事件的匹配句子。例如，可以将包含与目标事件相关的关键词和索引的句子确定为匹配句子。这样，下面可以仅处理匹配句子，而不必再处理相关文本数据中的其它句子，从而提高处理效率，而且不会受到不相关信息的干扰，从而提高处理准确度。

在步骤170中，计算匹配句子中与目标事件匹配的关键词的匹配权重。在一些实施例中，可以根据图3中的步骤计算匹配权重。

图3示出本公开的匹配权重计算方法的一些实施例的流程图。

如图3所示，该方法包括：步骤1701，获取第一权重；步骤1702，获取第二权重；步骤1703，计算匹配权重。

在步骤1701中，可以获取匹配的关键词与目标事件的匹配程度，作为第一权重。例如，可以根据句子索引查询每句与目标事件匹配的关键词。匹配的关键词可以看作是匹配句子中含有的事件信息，可以利用搜索引擎的TF-IDF算法计算第一权重。

在步骤1702中，可以获取与匹配的关键词相关的实体与目标事件的匹配程度，作为第二权重。通过前面的步骤110可以确定关键词与实体的关联，可以通过NLP技术确定相关的实体与目标事件的匹配程度，作为第二权重。

在步骤1703中，将第一权重和第二权重的加权和，作为相应关键词的匹配权重。这样，获取的匹配权重代表了相应关键词对于目标事件的匹配程度，进而可以通过步骤180确定相关关键词。

在步骤180中，根据匹配权重和第一阈值，确定与目标事件相关的关键词。例如，可以根据匹配权重，对文本数据中的所有匹配的关键词进行聚合(Aggregation)处理，将聚合结果中匹配权重大于第一阈值的关键词确定为与目标事件相关的关键词。

这样，不同于相关技术中的仅根据目标事件的关键词在搜索引擎中查询相关文本，本公开可以深度挖掘文本数据中每一句话中包含的与目标事件的相关信息。这些相关信息不但可以直观、简洁地表现文本数据的主要内容，而且还可以挖掘出目标事件相关的其它事件信息。

在一些实施例中，还可以通过图4中的步骤确定与事件相关的实体。

图4示出本公开的事件相关实体确定方法的一些实施例的流程图。

如图4所示，该方法包括：步骤410，聚合处理各实体；步骤420，确定事件相关实体。

在步骤410中，可以根据所述第二权重，对相关文档的各匹配句子中的各实体进行聚合处理。例如，可以利用弹性搜索(Elastic Search)方法进行聚合处理。

在步骤420中，可以将聚合结果中第二权重大于第二阈值的实体确定为事件相关实体。例如，可以将事件相关实体以列表的形式提供给用户。

图5示出本公开的文本数据的处理装置的一些实施例的框图。

如图5所示，文本数据的处理装置5包括：数据获取模块51、分类信息确定模块52、文本索引建立模块53、句子索引建立模块54、相关文本确定模块55、匹配句子确定模块56、匹配权重计算模块57和相关关键词确定模块58。

数据获取模块51获取文本数据中包含的关键词和实体。例如，数据获取模块51根据文本数据中的各单词在文本数据中出现的频率，和各单词出现在其它文本数据中的频率，估计各单词在文本数据中的重要程度，根据重要程度，在各单词中确定关键词。

分类信息确定模块52根据关键词和实体，确定文本数据的分类信息。分类信息确定模块52利用机器学习方法确定文本数据的分类信息，分类信息包括与文本数据相关的分类和分类在文本数据中的重要程度。

文本索引建立模块53根据关键词、实体和分类信息，创建文本数据的文本索引。例如，文本索引中包括态度信息，态度信息根据文本数据中的情感词，利用机器学习方法确定。句子索引建立模块54根据文本数据中各句子包含的关键词和实体，创建各句子的句子索引。

相关文本确定模块55利用文本索引，确定目标事件的相关文本数据。例如，相关文本确定模块55可以根据关键词、实体和分类信息中的至少一个，确定目标事件的相关文本数据。匹配句子确定模块56利用句子索引，在相关文本数据中确定目标事件的匹配句子

匹配权重计算模块57计算匹配句子中与目标事件匹配的关键词的匹配权重。例如，匹配权重计算模块57获取匹配的关键词与目标事件的匹配程度，作为第一权重，获取与匹配的关键词相关的实体与目标事件的匹配程度，作为第二权重，将第一权重和所述第二权重的加权和，作为相应关键词的匹配权重。相关关键词确定模块58根据匹配权重和第一阈值，确定与目标事件相关的关键词。

图6示出本公开的文本数据的处理装置的另一些实施例的框图。

如图6所示，相比于文本数据的处理装置5，文本数据的处理装置6还包括事件相关实体确定模块69。

事件相关实体确定模块69根据第二权重，对相关文档的各匹配句子中的各实体进行聚合处理，将聚合结果中第二权重大于第二阈值的实体确定为事件相关实体。

如图7所示，该实施例的装置7包括：存储器71和耦接至该存储器71的处理器72，处理器72被配置为基于存储在存储器71中的指令，执行本公开中任意一个实施例中的文本数据的处理方法。

存储器71例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

至此，已经详细描述了根据本公开的文本数据的处理方法、文本数据的装置和计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种文本数据的处理方法，包括：

获取文本数据中包含的关键词和实体；

根据所述关键词和所述实体，确定所述文本数据的分类信息；

根据所述关键词、所述实体和所述分类信息，创建所述文本数据的文本索引；

根据所述文本数据中各句子包含的所述关键词和所述实体，创建所述各句子的句子索引；

利用所述文本索引，确定目标事件的相关文本数据；

利用所述句子索引，在所述相关文本数据中确定所述目标事件的匹配句子；

计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重；

根据所述匹配权重和第一阈值，确定与所述目标事件相关的关键词。

2.根据权利要求1所述的处理方法，其中，所述确定目标事件的相关文本数据包括：

根据所述关键词、所述实体和所述分类信息中的至少一个，确定所述目标事件的相关文本数据。

3.根据权利要求1所述的处理方法，其中，所述计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重包括：

获取所述匹配的关键词与所述目标事件的匹配程度，作为第一权重；

获取与所述匹配的关键词相关的实体与所述目标事件的匹配程度，作为第二权重；

将所述第一权重和所述第二权重的加权和，作为相应关键词的匹配权重。

4.根据权利要求3所述的处理方法，还包括：

根据所述第二权重，对所述相关文档的各匹配句子中的各实体进行聚合处理；

将聚合结果中所述第二权重大于第二阈值的实体确定为事件相关实体。

5.根据权利要求1所述的处理方法，其中，获取文本数据中包含的关键词包括：

根据所述文本数据中的各单词在所述文本数据中出现的频率，和所述各单词出现在其它文本数据中的频率，估计所述各单词在所述文本数据中的重要程度；

根据所述重要程度，在所述各单词中确定所述关键词。

6.根据权利要求1所述的处理方法，其中，所述确定所述文本数据的分类信息包括：

利用机器学习方法确定所述文本数据的分类信息，所述分类信息包括与所述文本数据相关的分类和所述分类在所述文本数据中的重要程度。

7.根据权利要求1-6任一项所述的处理方法，其中，

所述文本索引中包括态度信息，所述态度信息根据所述文本数据中的情感词利用机器学习方法确定。

8.一种文本数据的处理装置包括：

数据获取模块，用于获取文本数据中包含的关键词和实体；

分类信息确定模块，用于根据所述关键词和所述实体，确定所述文本数据的分类信息；

文本索引建立模块，用于根据所述关键词、所述实体和所述分类信息，创建所述文本数据的文本索引；

句子索引建立模块，用于根据所述文本数据中各句子包含的所述关键词和所述实体，创建所述各句子的句子索引；

相关文本确定模块，用于利用所述文本索引，确定目标事件的相关文本数据；

匹配句子确定模块，用于利用所述句子索引，在所述相关文本数据中确定所述目标事件的匹配句子；

匹配权重计算模块，用于计算所述匹配句子中与所述目标事件匹配的关键词的匹配权重；

相关关键词确定模块，用于根据所述匹配权重和第一阈值，确定与所述目标事件相关的关键词。

9.根据权利要求8所述的处理装置，其中，

所述相关文本确定模块根据所述关键词、所述实体和所述分类信息中的至少一个，确定所述目标事件的相关文本数据。

10.根据权利要求8所述的处理装置，其中，

所述匹配权重计算模块获取所述匹配的关键词与所述目标事件的匹配程度，作为第一权重，获取与所述匹配的关键词相关的实体与所述目标事件的匹配程度，作为第二权重，将所述第一权重和所述第二权重的加权和，作为相应关键词的匹配权重。

11.根据权利要求10所述的处理装置，还包括：

事件相关实体确定模块，用于根据所述第二权重，对所述相关文档的各匹配句子中的各实体进行聚合处理，将聚合结果中所述第二权重大于第二阈值的实体确定为事件相关实体。

12.根据权利要求8所述的处理装置，其中，

所述数据获取模块根据所述文本数据中的各单词在所述文本数据中出现的频率，和所述各单词出现在其它文本数据中的频率，估计所述各单词在所述文本数据中的重要程度，根据所述重要程度，在所述各单词中确定所述关键词。

13.根据权利要求8所述的处理装置，其中，

所述分类信息确定模块利用机器学习方法确定所述文本数据的分类信息，所述分类信息包括与所述文本数据相关的分类和所述分类在所述文本数据中的重要程度。

14.根据权利要求8-13任一项所述的处理装置，其中，

15.一种文本数据的处理装置，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行权利要求1-7任一项所述的文本数据的处理方法。

16.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-7任一项所述的文本数据的处理方法。