CN111475732A

CN111475732A - 一种信息处理方法和装置

Info

Publication number: CN111475732A
Application number: CN202010285485.9A
Authority: CN
Inventors: 张晗; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-07-31
Anticipated expiration: 2040-04-13
Also published as: CN111475732B

Abstract

本申请实施例公开了一种信息处理方法和相关装置，处理设备可以获取对应于目标事件的目标语句信息以及与所述目标语句信息相关的多个待定历史语句信息，通过语义相似度从待定历史语句信息中确定出与目标语句信息对应于同一目标事件的目标历史语句信息，目标语句信息和目标历史语句信息包括的时间标识，确定出体现生成时间先后关系的时间顺序，并根据该时间顺序确定出对应于目标事件的语句序列，从而不需要人为的参与，处理设备能够自行完成热门信息的获取、对针对同一事件的历史热门信息的筛选，以及根据生成时间对与同一事件相关的所有热门信息的排序，生成针对某一事件的事件线，在一定程度上降低了人工工作量，减少了人力资源的损耗，提高了热门信息的处理效率。

Description

一种信息处理方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于人工智能技术的信息处理方法和装置。

背景技术

随着互联网技术的不断发展，越来越多的人选择通过网络来获取时下热门的信息，与信息相关的工作人员也经常会收集各种热门信息并依据热门信息的产生时间加以分析，从而掌握时下热门事件的变动情况。

在相关技术中，对热门信息的收集和整理都是由人为进行的，人力资源消耗量大，工作量高，并且当事件持续时间较长时，所包含的相关热门信息可能会过于复杂，难以整理和分析，热门信息的处理速度较慢。

发明内容

为了解决上述技术问题，本申请提供了一种信息处理方法，基于该信息处理方法，处理设备可以自动收集某一时间点的热门信息，并按照该热门信息与历史热门信息之间的相似程度，确定出与热门信息针对同一事件的历史热门信息，并根据各个热门信息生成的时刻进行排序，自动生成针对该事件的事件线，一定程度上降低了人力资源的消耗，提高了事件线生成效率。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供了一种信息处理方法，所述方法包括：

获取对应于目标事件的目标语句信息，所述目标语句信息包括用于标识所述目标语句信息生成时刻的第一时间标识；

获取与所述目标语句信息相关的多个待定历史语句信息；

确定所述目标语句信息与所述待定历史语句信息之间的语义相似度；

根据所述语义相似度，从所述多个待定历史语句信息中确定出与所述目标语句信息对应同一目标事件的目标历史语句信息；

根据所述目标历史语句信息所包括的第二时间标识以及所述第一时间标识之间的时间顺序，生成对应于所述目标事件的语句序列，所述语句序列包括所述目标语句信息和所述目标历史语句信息，所述第二时间标识用于标识所述目标历史语句信息的生成时刻。

第二方面，本申请实施例提供了一种信息处理装置，所述装置包括第一获取单元、第二获取单元、第一确定单元、第二确定单元和生成单元：

所述第一获取单元，用于获取对应于目标事件的目标语句信息，所述目标语句信息包括用于标识所述目标语句信息生成时刻的第一时间标识；

所述第二获取单元，用于获取与所述目标语句信息相关的多个待定历史语句信息；

所述第一确定单元，用于确定所述目标语句信息与所述待定历史语句信息之间的语义相似度；

所述第二确定单元，用于根据所述语义相似度，从所述多个待定历史语句信息中确定出与所述目标语句信息对应同一目标事件的目标历史语句信息；

所述生成单元，用于根据所述目标历史语句信息所包括的第二时间标识以及所述第一时间标识之间的时间顺序，生成对应于所述目标事件的语句序列，所述语句序列包括所述目标语句信息和所述目标历史语句信息，所述第二时间标识用于标识所述目标历史语句信息的生成时刻。

第三方面，本申请实施例提供了一种用于信息处理的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面中任意一项所述的信息处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行第一方面中任意一项所述的信息处理方法。

由上述技术方案可以看出，本申请技术方案提供了一种信息处理方法，基于该方法，处理设备可以获取对应于目标事件的目标语句信息以及与该目标事件相关的多个待定历史语句信息，通过语义相似度从待定历史语句信息中确定出与目标语句信息对应于同一目标事件的目标历史语句信息，然后根据标识目标语句信息生成时刻的第一时间标识，以及标识目标历史语句信息生成时刻的第二时间标识，确定出体现生成时间先后关系的时间顺序，并根据该时间顺序确定出对应于目标事件的语句序列，该语句序列中包括目标语句信息和目标历史语句信息，从而不需要人为的参与，处理设备能够自行完成热门信息的获取、对针对同一事件的历史热门信息的筛选，以及根据生成时间对与同一事件相关的所有热门信息的排序，生成针对某一事件的事件线，在一定程度上降低了人工工作量，减少了人力资源的损耗，提高了热门信息的处理效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种实际应用场景中信息处理方法的示意图；

图2为本申请实施例提供的一种信息处理方法的流程图；

图3为本申请实施例提供的一种信息处理方法的示意图；

图4为本申请实施例提供的一种信息处理方法的示意图；

图5为本申请实施例提供的一种信息处理方法的示意图；

图6为本申请实施例提供的一种信息处理方法的示意图；

图7为本申请实施例提供的一种信息处理装置的结构框图；

图8为本申请实施例提供的一种用于信息处理的设备的结构图；

图9为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

由于互联网用户越来越多，通过热门信息了解生活中发生的各种事件已经成为当代人习以为常的生活方式。为了使用户能够清晰的了解各种事件随着时间的推移所发生的变化，以及使有需求的用户能够对事件的变化进行分析，在相关技术中心，相关人员可以人工收集各个时间点的热门信息并进行整理，区分出针对于各个事件的各个时间点的热门信息，从而形成各个事件的事件线，便于用户进行观看和分析。但是由于热门信息数量巨大，且当一个事件持续时间越久时，该事件所对应的事件线中的热门信息就会越多，因此若通过人工的方式进行收集整理，会导致大量的人力资源消耗，且事件线生成的效率也较低。

为了解决上述技术问题，本申请提供了一种信息处理方法，基于该信息处理方法，处理设备可以自动收集各个时间点的热门信息，并按照该热门信息与历史热门信息之间的相似程度，确定出与热门信息针对同一事件的历史热门信息，并根据各个热门信息生成的时刻进行排序，自动生成针对该事件的事件线，一定程度上降低了人力资源的消耗，提高了事件线生成效率。

可以理解的是，该方法可以应用于处理设备上，该处理设备为能够进行信息处理的处理设备，例如可以为具有信息处理功能的终端设备或服务器。该方法可以通过终端设备或服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。其中，终端设备可以为计算机、个人数字助理(Personal DigitalAssistant，简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。同时，在硬件环境上，本技术已经实现的环境有：ARM架构处理器、X86架构处理器；在软件环境上，本技术已经实现的环境有：Android平台、Windows xp及以上操作系统或Linux操作系统。

此外，本申请还涉及人工智能(Artificial Intelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例的方案涉及人工智能中的自然语言处理、机器学习等技术，例如对于目标语句信息的处理可以用到自然语音处理技术，对于筛选目标历史语句信息可以用到机器学习技术等。

为了便于理解本申请的技术方案，下面将结合实际应用场景，对本申请实施例提供的信息处理方法进行介绍。

参见图1，图1为本申请提供的一种信息处理方法的应用场景示意图，在该应用场景中，处理设备为服务器101。当生活中出现热点事件时，用户通常会通过各种社交网页，例如QQ看点、微博等，用搜索等方式查询该热点事件以了解相关信息，在较多用户查询热点事件时，就可能会产生与该热点事件对应的热门信息。

服务器101能够获取目标语句信息，该目标语句信息为服务器101获取某一热门信息。可以理解的是，每一个热门信息都有对应的热门事件，该目标语句也具有对应的目标事件。为了生成针对该目标事件的事件线，使用户能够更清晰的了解该目标事件的发展变化，服务器101可以获取与目标语句信息相关的多个待定历史语句信息，即在该目标语句信息生成时间之前产生的待定历史语句信息，在这些待定历史语句信息之中就可能会包括对应于该目标事件的待定历史语句信息。在本实际应用场景中，服务器101能够获取待定历史语句信息1、2、3。

可以理解的是，当多个语句信息对应于同一事件时，多个语句信息之间的语义相似度可能会较高，例如多个语句信息中可能都包含有与该事件相关的某一个或多个关键词。因此，为了确定出于目标语句信息对应于同一目标事件的历史语句信息，服务器101可以确定出目标语句信息与待定历史语句信息之间的语义相似度，并根据语义相似度，从多个待定历史语句信息中确定出与目标语句信息对应同一目标事件的目标历史语句信息。

在本实际应用场景中，服务器101可以分别确定出目标语句信息与待定历史语句信息1、2、3之间的语义相似度1、2、3，并通过多种方式对三个语义相似度进行分析，例如判断三个语义相似度的相似度大小，从中确定出相似度大于某一预设阈值的语义相似度，并将该语义相似度对应的待定历史语句信息确定为与目标语句信息对应同一目标事件的目标历史语句信息。由图可知，服务器101所确定出的满足要求的语义相似度为语义相似度1和语义相似度2，基于此，服务器101判定与目标语句信息对应同一目标事件的为待定历史语句信息1和待定历史语句信息2，分别作为目标历史语句信息1和目标历史语句信息2进行后续步骤。

可以理解的是，为了能够确定出针对于目标事件的事件线，体现出该目标事件随时间的变化情况，服务器101在确定出针对该目标事件的目标历史语句信息后，还需要根据生成时间对目标语句信息以及目标历史语句信息进行排序，才能够体现出针对目标事件的语句信息随时间的变化情况。因此，服务器101在获取语句信息时，还可以获取该语句信息生成时刻所对应的时间标识，其中包括对应于目标语句信息生成时刻的第一时间标识和对应于目标历史语句信息生成时刻的第二时间标识，该时间标识可以包括在各个语句信息中。如图1所示，在本实际应用场景中，目标语句信息包括第一时间标识，目标历史语句信息1和目标历史语句信息2分别包括第二时间标识1和第二时间标识2。

在获取各个语句信息所包括的时间标识后，服务器101以及具备了对应于目标事件的所有语句信息以及各个语句信息生成的时刻，基于此，服务器101可以根据各个时间标识，确定出各个语句之间的时间顺序。由图1可知，服务器101确定出的时间顺序为第二时间标识1、第二时间标识2和第一时间标识，即第二时间标识1为与当前时刻间隔最大的时刻，第一时间标识为与当前时刻间隔最小的时刻。基于此，服务器101可以确定出对应目标事件的语句序列，即目标历史语句信息1、目标历史语句信息2和目标语句信息，代表针对该目标事件，目标历史语句信息1为最早生成的语句信息，目标语句信息为最晚生成的语句信息，该语句系列即为该目标事件的时间线。

由此可见，服务器101能够自动获取目标语句信息，并根据语义相似度，从多个待定历史语句信息中确定出与目标语句信息对应于同一目标事件的目标历史语句信息，然后根据各个语句信息所包括的时间标识，确定出生成各个语句信息的时间顺序，根据该时间顺序进行语句信息排列，从而得到针对该目标事件的语句序列，即事件线。上述整个过程都由服务器101来自动完成，不需要人为的参与，因此一定程度上降低了人力资源损耗，同时服务器101获取和分析信息的速度远大于人工，因此提高了事件线确定的效率。

接下来，将结合附图，对本申请实施例提供的一种信息处理方法进行介绍。

参见图2，图2展示了一种信息处理方法的流程图，该方法包括：

S201：获取对应于目标事件的目标语句信息。

由于网络技术的不断发展和互联网的普及，当生活中出现某一热门事件时，会存在大量用户想要通过网络来获取与该热门事件相关的信息，例如通过在网络搜索某一与热门事件相关的语句信息。当大量用户搜索同一语句信息时，该语句信息就可能成为针对该热门事件的热门信息。可以理解的是，随着时间的不断推移，热门事件也可能在不断的发展变化，此时同一热门事件所对应的热门信息也可能会随着时间的变化而改变。

例如，当热门事件为某一交通事故时，首先生成的语句信息可能为“A地点出现B交通事故”，在相关人员确定出该交通事故所造成的伤亡人数时，生成的语句信息可能变为“B交通事故造成C人死亡”，当法律部门对该交通事故进行依法追责时，语句信息可能变为“B交通事故的肇事人被判刑”。由此可见，在该交通事故发生后的各个时间节点，对应于该交通事故的语句信息会发生改变。因此，为了使用户能够清晰的看到事件发展的脉络，处理设备可以获取某一事件在各个时间点对应的语句信息，生成对应于该事件的事件线。

处理设备可以先获取目标语句信息，该目标语句信息为处理设备获取的时刻对应某一目标事件的语句信息。为了体现出该目标语句信息的时间点，在目标语句信息中可以包括用于标识目标语句生成时刻的第一时间标识。其中，生成时刻是指该语句信息成为热门信息的时刻。

S202：获取与目标语句信息相关的多个待定历史语句信息。

为了生成针对目标事件的事件线，处理设备在获取目标语句信息后，还需要获取该目标事件所对应的历史语句信息。可以理解的是，处理设备在获取目标语句信息之前，还可以获取多个待定历史语句信息，该待定历史语句信息是指处理设备在上述第一时间标识所标识的时刻前，所获取的针对所有热门事件的热门信息。处理设备可以利用该待定历史语句信息进行历史时刻的语句信息处理，例如确定出在第一时间标识所标识的时刻前，某一热门事件的事件线等。可以理解的是，因为热门事件的变化是连续的，为了体现出热门事件随时间的变化情况，处理设备需要使确定出的事件线中能够包含历史时刻的语句信息。因此，处理设备在获取该待定历史语句信息后，为了在后续时间点进行事件线的确定，可以将其进行储存以便后续使用。

基于此，处理设备在获取目标语句信息后，为了查找该目标语句信息对应的目标事件在历史时刻对应的语句信息，处理设备可以获取与目标语句信息相关的多个待定历史语句信息。

S203：确定目标语句信息与待定历史语句信息之间的语义相似度。

在获取多个待定历史语句信息后，为了生成针对于目标事件的事件线，处理设备首先需要从多个待定历史语句信息中确定出针对该目标事件的目标历史语句信息。其中，确定针对目标事件的目标历史语句信息可以有多种方式，在本申请实施例中所采用的为通过语义相似度的方式来进行确定。

可以理解的是，由于对应某一热门事件的语句信息所包含的语义内容为与该热门事件相关的内容，因此，当多个语句信息所对应的为同一事件时，其语义内容相似的可能性较高。基于此，为了确定出与目标语句信息对应于同一目标事件的待定历史语句信息，本申请实施例可以确定目标语句信息与待定历史语句信息之间的语义相似度来进行判断。可以理解的是，两个语句信息之间的语义相似度越高，其所对应同一目标事件的概率越大。

其中，确定语句信息之间的语义相似度可以包括多种方法，例如通过确定语句信息整体的语义相似度或确定语句信息中所包含相同或相似的词语的数量等。在一种可能的实现方式中，为了确定目标语句信息和待定历史语句信息之间的语义相似度，处理设备可以根据组成目标语句信息和多个待定历史语句信息的词语，将目标语句信息和多个待定历史语句信息对应转化为目标词语组成信息和多个历史词语组成信息。其中，目标词语组成信息中包括组成目标语句信息所需的词语，历史词语组成信息中包括组成待定历史语句信息所需的词语。

如图3所示，图3为一种将语句信息转化为词语组成信息的示意图。在图3中，包含三个语句信息，分别为“明星A状态”、“97岁最高龄诺奖的主的超硬核人生”和“C市发生重大交通事故”。可以理解的是，为了使转化得到词语组成信息能够更加精确的对应某一事件，在进行转化时，可以去掉一些与事件无关的虚词、停用词、连接词等，这些词往往不具有一一个明确的对应关系，可能出现在大量语句信息中，会影响最终确定得到的语义相似度。例如，在对“97岁最高龄诺奖得主的超硬核人生”这一语句信息进行转化时，可以去掉区中的“最”、“超”、“的”这些与该事件关系不大的词语，得到的词语组成信息为“97岁高龄诺奖得主硬核人生”。

可以理解的是，当两个语句信息对应于同一事件时，组成该语句信息的词语之间可能会存在相同的词语。因此，处理设备可以检测目标词语组成信息和待定历史词语组成信息之间相同词语的个数，根据该个数确定目标语句信息与待定历史语句信息之间的语义相似度。可以理解的是，当目标词语组成信息与待定历史词语组成信息之间的相同词语个数越多时，由这些词语的语句信息对应同一事件的可能性就越高，此时处理设备可以判定目标语句信息与待定历史语句信息之间的语义相似度越高。

S204：根据语义相似度，从多个待定历史语句信息中确定出于目标语句信息对应同一目标事件的目标历史语句信息。

在确定出目标语句信息与待定历史语句信息之间的相似度后，处理设备可以根据该相似度，从多个待定历史语句信息中确定出与目标语句信息对应同一事件的目标历史语句信息。上已述及，当语义相似度越高时，语句信息对应于同一事件的概率越大，因此处理设备可以选取语义相似度较高的几个待定历史语句信息作为目标历史语句信息，例如可以预设设置一个阈值，将语义相似度大于该阈值的待定历史语句信息作为目标历史语句信息。

S205：根据目标历史语句信息所包括的第二时间标识以及第一时间标识之间的时间顺序，生成对应于目标事件的语句序列。

其中，第二时间标识用于标识目标历史语句信息的生成时刻。通过上述步骤，处理设备已经获取了针对于目标事件的目标语句信息以及目标历史语句信息，即已经具备了生成该目标事件事件线所需的语句信息。可以理解的是，为了使用户能够看到目标事件的发展变化情况，处理设备需要使最终生成的事件线能够体现出目标事件随时间的变化情况，因此处理设备需要根据目标语句信息和目标历史语句信息所包括的时间标识，对该语句信息进行排序。

为了确定出语句信息之间的时间关系，处理设备可以根据目标历史语句信息包括的第二时间标识以及目标语句信息包括的第一时间标识，确定出时间标识之间的时间顺序。由于第二时间标识能够标识目标历史语句信息生成的时刻，第一时间标识能够标识目标语句信息生成的时刻，因此该时间顺序能够体现出多个语句信息生成的前后关系。处理设备可以根据该时间顺序，生成对应于目标事件的语句序列，该语句序列包括目标语句信息和目标历史语句信息。由此可见，该语句序列中包含有以生成时间顺序排列的针对目标事件的语句信息，即针对该目标事件的事件线。

由上述技术方案可以看出，本申请技术方案提供了一种信息处理方法，基于该方法，处理设备可以获取对应于目标事件的目标语句信息以及与该目标语句信息相关的多个待定历史语句信息，通过语义相似度从待定历史语句信息中确定出于目标语句信息对应于同一目标事件的目标历史语句信息，然后根据标识目标语句信息生成时刻的第一时间标识，以及标识目标历史语句信息生成时刻的第二时间标识，确定出体现生成时间先后关系的时间顺序，并根据该时间顺序确定出对应于目标事件的语句序列，该语句序列中包括目标语句信息和目标历史语句信息，从而不需要人为的参与，处理设备能够自行完成热门信息的获取、对针对同一事件的历史热门信息的筛选，以及根据生成时间对与同一事件相关的所有热门信息的排序，生成针对某一事件的事件线，在一定程度上降低了人工工作量，减少了人力资源的损耗，提高了热门信息的处理效率。

可以理解的是，随着时间的推移，针对同一目标事件的语句信息可能会不断的发生变化。当针对同一目标事件的两个语句信息之间时间间隔较大时，可能会出现较大程度的语义变化。例如，当目标事件为某一交通事故时，在交通事故刚发生时，对应该目标事件的语句信息可以为“A市出现B交通事故”，当相关部门处理完该交通事故并确定出相关责任人时，此时对应该目标事件的语句信息可以为“责任人C被判刑”。上述两个语句信息之间语义相差较大，语义相似度较低。但是当时间间隔较小时，针对同一目标事件的语句信息变化较小，此时语句信息之间的语义相似度可能较高。

基于此，为了在确定与目标语句信息对应同一目标事件的目标历史语句信息时，能够尽可能多的确定出目标历史语句信息，在一种可能的实现方式中，处理设备可以先确定出多个待定历史语句信息之间的关联关系，具有关联关系的待定历史语句信息为针对同一事件的待定历史语句信息。处理设备在确定出目标语句信息与待定历史语句信息之间的语义相似度后，可以根据语义相似度以及关联关系，从多个待定历史语句信息中确定出于目标语句信息对应同一目标事件的目标历史语句信息。

可以理解的是，在一种可能的实现方式中，处理设备在通过语义相似度和关联关系确定目标历史语句信息时，可以先根据语义相似度，从多个待定历史语句信息之间确定出与目标语句信息对应同一目标事件的第一历史语句信息。由于第一历史语句信息与目标语句信息对应同一目标事件，而与第一历史语句信息之间具有关联关系的待定历史语句信息与该第一历史语句信息对应同一目标事件，因此，与第一历史语句信息之间具有关联关系的待定历史语句与目标语句信息同样对应于同一目标事件。为了尽可能的获取目标历史语句信息，处理设备可以确定出多个待定历史语句信息中与第一历史语句信息具有关联关系的第二历史语句信息，并将第一历史语句信息和第二历史语句信息确定为目标历史语句信息。

可以理解的是，由于关联关系是用于体现针对同一事件的待定历史语句信息，因此，在确定待定历史语句信息之间的关联关系时，同样可以采用上述语义相似度的方法来进行。在一种可能的实现方式中，处理设备可以根据组成多个待定历史语句信息的词语，将多个待定历史语句信息对应转化为多个待定历史词语组成信息，然后检测待定历史词语组成信息之间的相同词语个数，当任意两个待定历史词语组成信息之间的相同词语个数大于预设阈值时，建立这两个待定历史词语组成信息对应的两个历史语句信息之间的关联关系。

上已述及，结合关联关系以及语义相似度有助于进行目标历史语句信息的确定，关联关系所体现出的对应同一事件的待定历史语句信息。可以理解的是，当在后续时间点再获取到语句信息时，此次处理的目标语句信息就会变为待定历史语句信息。同时，目标历史语句信息与目标语句信息同样为对应于同一目标事件的语句信息，因此，为了方便后续时间点的信息处理，处理设备可以在确定出目标历史语句信息后，对目标历史语句信息所具有的关联关系进行更新，即建立目标语句信息与目标历史语句信息之间的关联关系并进行存储，从而当在后续时间点中，处理设备获取到针对该目标事件的语句信息时，根据关联关系以及语义相似度，可以将该目标语句信息作为目标历史语句信息进行获取。

可以理解的是，在同一时刻，可能有多个热门信息对应于同一热门事件，例如，当热门事件为“揭秘捐款软件内幕”时，对应的热门信息可能有“卧底揭秘捐款软件内幕”、“捐款软件内幕”、“捐款软件内幕漏洞多”这三条。当同一时间点有多个目标语句信息时，可能会使最后生成的事件线中有大量重复信息。为了提高事件线的清晰度，处理设备可以从针对同一热门事件的多个热门信息中，确定出一个具有代表性的热门信息，作为该时刻针对该热门事件的目标语句信息。

在一种可能的实现方式中，处理设备可以获取当前时刻对应的多个第一语句信息，多个第一语句信息对应于多个事件。为了确定出对应于同一目标事件的语句信息，处理设备可以同样采用确定语义相似度的方法，确定出多个第一语句信息之间的语义相似度，并根据该语义相似度，确定出对应于同一目标事件的多个第二语句信息。可以理解的是，上述多个第一语句信息具有对应的信息热度系数，该信息热度系数用于体现该语句信息在获取时刻的信息热度。当语句信息的信息热度系数越高时，说明用该语句信息来指代目标事件的用户可能越多，此时该语句信息就可能越贴近于目标事件。因此，在确定目标语句信息时，处理设备可以将多个第二语句信息中信息热度系数最高的第二语句信息确定为目标语句信息。

如图4所示，图4为一种事件线确定方法的示意图。处理设备可以先获取t时刻的多一个语句信息

N为第一语句信息的数量。在获取多个第一语句信息后，处理设备可以根据语义相似度，从中筛选出对应多个事件的多组第二语句信息。如图5所示，图5为一种对第一语句信息进行筛选的示意图。为了确定多个第一语句信息之间的语义相似度，处理设备可以将多个第一语句信息进行向量化处理，。

对语句信息进行向量化的方法可以有多种，例如独热码法(one-hot)、词向量模型法(word2vector)等。在本申请实施例中，采用词向量模型法来进行。首先，处理设备可以将多个第一语句信息转化为对应的词向量，即先对第一语句信息进行分词处理，形成

为组成第i个第一语句信息的词语，K为第i个第一语句信息中所包含词语的数量。在分词处理后，处理设备对分词后的第一语句信息进行向量化映射，得到

为词语

的向量化结果。为了确定出语句信息之间语义相似度，处理设备需要先确定出多个第一语句信息所对应的语义向量，该语义向量能够体现出第一语句信息的整体语义。处理设备可以先对词语向量化结果进行平均处理，得到

的语义向量

由此，处理设备生成的多个第一语句信息所对应的语义向量为

在获取代表语义信息的语义向量后，处理设备需要根据语义信息，从多个第一语句信息中，确定出针对同一目标事件的第二语句信息，因此需要根据语义向量，对第一语句信息进行聚类化处理。可以理解的是，对向量进行聚类化的方法有多种，在本申请实施例中，处理设备采用聚类算法(Density-Based Spatial Clustering of Applications withNoise，简称DBSCAN)进行聚类化处理。在聚类化后，处理设备能够得到多组第二语句信息的集合

cM为为第二语句信息的组数，每一组第二语句信息都对应于一个目标事件。最后，处理设备需要从每一组第二语句信息中，确定出一个具有代表性的目标语句信息。在本申请实施例中，采用的信息热度系数为每一个语句信息的用户点击数，用户点击数越高，该语句信息的信息热度系数越大。处理设备最终确定出的cM个目标语句信息为

在确定出目标语句信息后，处理设备可以利用待定历史语句信息及关联关系，确定出目标历史语句信息。在本申请实施例中，处理设备确定关联关系的方法为通过语句信息中相同词语的数量来确定。处理设备将cM个目标语句信息加入的待定历史语句信息中进行分析，确定出每一个目标语句信息与待定历史语句信息之间的相同词语的数量，按照该数量确定目标语句信息与待定历史语句信息之间的权重。例如，当某一目标语句信息与某一待定历史语句信息之间相同词语数量为2时，处理设备将这两个语句信息之间的权重确定为2。处理设备可以将权重不为0的语句信息进行连接，从而确定出与目标语句信息对应同一事件的目标历史语句信息。

可以理解的是，在多个待定历史语句信息中同样具有连接关系，该连接关系能够体现出多个待定历史语句信息之间的关联关系。当目标语句信息与某一待定历史语句信息向连接时，与该待定历史语句信息有连接关系的其他待定历史语句信息也进行间接连接。最终，处理设备可以将与目标语句信息具有直接或间接相连关系的待定历史语句信息一起确定为与该目标语句信息对应的目标历史语句信息。

此外，在确定出连接关系后，为了方便后续时间点的信息处理，处理设备可以将确定出的目标语句信息的连接关系更新到待定历史语句信息中，进行关联关系的更新。在确定目标历史语句信息之间，用

代表整体待定历史语句信息及其关联关系，t-1代表t时刻前的时刻，此时共有cAll个待定历史语句信息。用

代表更新后的整体待定语句信息及其关联关系，由于共有cM个目标语句信息，因此在进行更新后具有cM+cAll个语句信息。

可以理解的是，更新后的整体待定语句信息及其关联关系中包括t时刻的目标语句信息以及与该语句信息具有连接关系的目标历史语句信息，因此处理设备可以利用

进行事件线的确定。如图6所示，图6为一种确定事件线的示意图，在获取多个目标语句信息和对应的目标历史语句信息

后，处理设备可以根据对应的目标事件对其进行分组处理，使处于同一组的语句信息对应同一目标事件。例如，处理设备可以通过社区发现的方法，将具有连接关系的语句信息划分到一组中，形成多个社区{C₁,C₂,…,C_c}，c为社区数量。此时，同一社区中的语句信息虽然对应于同一目标事件，但是还缺少形成事件线的顺序，因此处理设备可以根据语句信息具有的时间标识，对语句信息进行排序，生成

其中T为该社区中生成时刻相距最远的语句信息时间标识的时间，因此C_i为针对某一目标时间的语句信息按照时间由远到近排序的语句序列，即针对该目标事件的事件线。由于共有c个社区，因此处理设备可以输出多条事件线

即t-T时刻到t时刻的c条事件线的集合，每一个

都代表一条事件线。处理设备可以对事件线进行存储以及输出，以便用户观看并进行后续分析。

接下来，将结合一种实际应用场景，对本申请实施例提供的一种信息处理方法进行介绍。在该实际应用场景中，处理设备为服务器，获取的目标语句信息为“A市交通事故责任人判刑”，处理设备所获取的待定历史语句信息为：

1.“A市发生重大交通事故”，生成时刻为三天前；

2.“交通事故造成多人受伤”，生成时刻为两天前；

3.“运动员B获得乒乓球项目金牌”，生成时刻为五天前；

4.“交通事故责任人被逮捕”，生成时刻为一天前。

服务器根据组成目标语句信息的词语以及组成待定历史语句信息的词语，确定目标语句信息与待定历史语句信息之间的语义相似度。转化后的目标词语组成信息如下：

“A市交通事故责任人判刑”

历史词语组成信息如下：

1.“A市发生重大交通事故”；

2.“交通事故造成多人受伤”；

3.“运动员B 获得乒乓球项目金牌”；

4.“交通事故责任人被逮捕”。

其中，与待定历史语句信息1、2、4之间相同的词语数量分别为2、1、2，与待定历史语句信息3之间相同的词语数量为0。因此，根据语义相似度，服务器判定待定历史语句1、2和4为与该目标语句信息对应同一事件的目标历史语句信息，其对应的时间标识分别为三天前、两天前和一天前，目标语句信息对应的时间标识为当前获取的时刻，因此根据时间标识生成的事件线为：

“A市发生重大交通事故”——“交通事故造成多人受伤”——“交通事故责任人被逮捕”——“A市交通事故责任人判刑”。

基于上述实施例提供的信息处理方法，本申请实施例还提供了一种信息处理装置700，参见图7，装置700包括第一获取单元701、第二获取单元702、第一确定单元703、第二确定单元704和生成单元705：

第一获取单元701，用于获取对应于目标事件的目标语句信息，目标语句信息包括用于标识目标语句信息生成时刻的第一时间标识；

第二获取单元702，用于获取与目标语句信息相关的多个待定历史语句信息；

第一确定单元703，用于确定目标语句信息与待定历史语句信息之间的语义相似度；

第二确定单元704，用于根据语义相似度，从多个待定历史语句信息中确定出与目标语句信息对应同一目标事件的目标历史语句信息；

生成单元705，用于根据目标历史语句信息所包括的第二时间标识以及第一时间标识之间的时间顺序，生成对应于目标事件的语句序列，语句序列包括目标语句信息和目标历史语句信息，第二时间标识用于标识目标历史语句信息的生成时刻。

在一种可能的实现方式中，多个待定历史语句信息之间具有根据语义相似度确定的关联关系，第二确定单元704具体用于：

根据语义相似度以及关联关系，从多个待定历史语句信息中确定出与目标语句信息对应同一目标事件的目标历史语句信息。

在一种可能的实现方式中，第一确定单元703具体用于；

根据组成目标语句信息和多个待定历史语句信息的词语，将目标语句信息和多个待定历史语句信息对应转化为目标词语组成信息和多个历史词语组成信息，目标词语组成信息中包括组成目标语句信息所需的词语，历史词语组成信息包括组成待定历史语句信息所需的词语；

检测目标词语组成信息和待定历史词语组成信息之间相同词语的个数；

根据相同词语的个数，确定目标语句信息与待定历史语句信息之间的语义相似度。

在一种可能的实现方式中，第一确定单元703具体用于：

目标词语组成信息与待定历史词语组成信息之间的相同词语的个数越多，目标语句信息与待定历史语句信息之间的语义相似度越高。

在一种可能的实现方式中，多个待定历史语句信息之间的关联关系是通过以下方式确定得到的：

根据组成多个待定历史语句信息的词语，将多个待定历史语句信息对应转化为多个待定历史词语组成信息；

检测待定历史词语组成信息之间的相同词语个数；

当任意两个待定历史词语组成信息之间的相同词语个数大于预设阈值时，建立两个待定历史词语组成信息对应的两个历史语句信息之间的关联关系。

在一种可能的实现方式中，第二确定单元704具体用于：

根据语义相似度，从多个待定历史语句信息之间确定出与目标语句信息对应同一目标事件的第一历史语句信息；

确定出多个待定历史语句信息中与第一历史语句信息具有关联关系的第二历史语句信息；

将第一历史语句信息和第二历史语句信息确定为目标历史语句信息。

在一种可能的实现方式中，第一获取单元具体701用于：

获取当前时刻对应的多个第一语句信息，多个第一语句信息中分别具有对应的信息热度系数；

根据多个第一语句信息之间的语义相似度，确定出对应于同一目标事件的多个第二语句信息；

将多个第二语句信息中信息热度系数最高的第二语句信息确定为目标语句信息。

本申请实施例还提供了一种用于信息处理的设备，下面结合附图对该设备进行介绍。请参见图8所示，本申请实施例提供了一种设备800，该设备800还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，简称RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，简称WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图8对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储8根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，优选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器880还具有以下功能：

获取与所述目标语句信息相关的多个待定历史语句信息；

本申请实施例还提供一种服务器，请参见图9所示，图9为本申请实施例提供的服务器900的结构图，服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于图9所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的信息处理方法中的任意一种实施方式。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取与所述目标语句信息相关的多个待定历史语句信息；

2.根据权利要求1所述的方法，其特征在于，所述多个待定历史语句信息之间具有根据语义相似度确定的关联关系，所述根据所述语义相似度，从所述多个待定历史语句信息中确定出与所述目标语句信息对应同一目标事件的目标历史语句信息具体包括：

根据所述语义相似度以及所述关联关系，从所述多个待定历史语句信息中确定出与所述目标语句信息对应同一目标事件的目标历史语句信息。

3.根据权利要求2所述的方法，其特征在于，所述确定所述目标语句信息与所述待定历史语句信息之间的语义相似度具体包括；

根据组成所述目标语句信息和所述多个待定历史语句信息的词语，将所述目标语句信息和所述多个待定历史语句信息对应转化为目标词语组成信息和多个历史词语组成信息，所述目标词语组成信息中包括组成所述目标语句信息所需的词语，所述历史词语组成信息包括组成所述待定历史语句信息所需的词语；

检测所述目标词语组成信息和所述待定历史词语组成信息之间相同词语的个数；

根据所述相同词语的个数，确定所述目标语句信息与所述待定历史语句信息之间的语义相似度。

4.根据权利要求3所述的方法，其特征在于，所述根据所述相同词语的个数，确定所述目标语句信息与所述待定历史语句信息之间的语义相似度具体包括：

所述目标词语组成信息与所述待定历史词语组成信息之间的相同词语的个数越多，所述目标语句信息与所述待定历史语句信息之间的语义相似度越高。

5.根据权利要求3所述的方法，其特征在于，所述多个待定历史语句信息之间的关联关系是通过以下方式确定得到的：

根据组成所述多个待定历史语句信息的词语，将所述多个待定历史语句信息对应转化为多个待定历史词语组成信息；

检测所述待定历史词语组成信息之间的相同词语个数；

当任意两个所述待定历史词语组成信息之间的相同词语个数大于预设阈值时，建立所述两个所述待定历史词语组成信息对应的两个所述历史语句信息之间的关联关系。

6.根据权利要求5所述的方法，其特征在于，所述根据所述语义相似度以及所述关联关系，从所述多个待定历史语句信息中确定出与所述目标语句信息对应同一目标事件的目标历史语句信息具体包括：

根据所述语义相似度，从所述多个待定历史语句信息之间确定出与所述目标语句信息对应同一目标事件的第一历史语句信息；

确定出所述多个待定历史语句信息中与所述第一历史语句信息具有关联关系的第二历史语句信息；

将所述第一历史语句信息和所述第二历史语句信息确定为所述目标历史语句信息。

7.根据权利要求1所述的方法，其特征在于，所述获取对应于目标事件的目标语句信息具体包括：

获取当前时刻对应的多个第一语句信息，所述多个第一语句信息中分别具有对应的信息热度系数；

根据所述多个第一语句信息之间的语义相似度，确定出对应于同一目标事件的多个第二语句信息；

将所述多个第二语句信息中所述信息热度系数最高的第二语句信息确定为所述目标语句信息。

8.一种信息处理装置，其特征在于，所述装置包括第一获取单元、第二获取单元、第一确定单元、第二确定单元和生成单元：

9.一种用于信息处理的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7中任意一项所述的信息处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7中任意一项所述的信息处理方法。