CN105389296A

CN105389296A - 信息分割方法及装置

Info

Publication number: CN105389296A
Application number: CN201510921092.1A
Authority: CN
Inventors: 汪平仄; 张涛; 侯文迪
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-12-11
Filing date: 2015-12-11
Publication date: 2016-03-09

Abstract

本公开是关于一种信息分割方法及装置。该方法包括：获取通讯会话序列，所述通讯会话序列包括至少两个消息；确定所述通讯会话序列的特征；根据所述通讯会话序列的特征及预设模型，确定所述通讯会话序列中每个消息的场景标注信息；其中，所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的；按照所述场景标注信息对所述通讯会话序列进行场景分割。该技术方案通过确定通讯会话序列的特征，并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息，进而根据场景标注信息对通讯会话序列进行场景分割，使得对通讯会话消息集合的场景分割更加准确，且更加符合用户通讯会话时的场景。

Description

信息分割方法及装置

技术领域

本公开涉及信息处理技术领域，尤其涉及一种信息分割方法及装置。

背景技术

计算机对自然语言处理所涉及的内容有：分词、词性标注、命名实体识别、双语对齐、机器翻译、信息检索、知识抽取、自动文摘、文本聚类、文本分类、拼写纠错等。相关技术中，用户通过移动终端进行通讯，例如通过短信、微信、qq等通讯工具来实现双方的交流，这些交流的信息中可能包含有重要的信息，为提高用户的体验度，移动终端可对其中的重要信息进行挖掘，从而为用户自动收集重要信息。

发明内容

本公开实施例提供一种信息分割方法及装置。所述技术方案如下：

根据本公开实施例的第一方面，提供一种信息分割方法，包括：

获取通讯会话序列，所述通讯会话序列包括至少两个消息；

确定所述通讯会话序列的特征；

根据所述通讯会话序列的特征及预设模型，确定所述通讯会话序列中每个消息的场景标注信息；其中，所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的；

按照所述场景标注信息对所述通讯会话序列进行场景分割。

本公开的实施例提供的技术方案可以包括以下有益效果：

上述技术方案，通过确定通讯会话序列的特征，并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息，进而根据场景标注信息对通讯会话序列进行场景分割，使得对通讯会话序列的场景分割更加准确，且更加符合用户通讯会话时的场景。

在一个实施例中，所述获取通讯会话序列，包括：

获取通讯会话消息集合，所述通讯会话消息集合包括至少两个消息；

根据预设参数对所述通讯会话消息集合进行分割处理，得到至少两个通讯会话序列。

该实施例中，通过预设参数对通讯会话消息集合进行分割处理，从而得到多个通讯会话序列，使得后续对通讯会话序列进行场景分割时，能够降低对大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

在一个实施例中，所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。

该实施例中，通过第一时间间隔、第一预设关键词中的至少一种对通讯会话消息集合进行分割处理，从而得到多个通讯会话序列，使得后续对通讯会话序列进行场景分割时，能够降低对大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

在一个实施例中，当所述预设参数包括第一时间间隔时，根据预设参数对所述通讯会话消息集合进行分割处理，包括：

判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔；

当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，将所述相邻两个消息分割至两个不同的通讯会话序列中。

该实施例中，对于第一时间间隔等于或大于预设时间间隔的相邻两个消息，能够将这两个相邻消息分割至两个不同的通讯会话序列中，从而降低对通讯会话序列中大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

在一个实施例中，所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，将所述相邻两个消息分割至两个不同的通讯会话序列中，包括：

当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，判断所述通讯会话消息集合中的消息中是否包含第一预设关键词，所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种；

当所述通讯会话消息集合中的消息中包括所述第一开始关键词时，将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中；

当所述通讯会话消息集合中的消息中包括所述第一结束关键词时，将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。

该实施例中，能够将包含第一预设关键词的消息与其之前或之后的消息分割至两个不同的通讯会话序列中，从而降低对通讯会话序列中大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

在一个实施例中，所述特征包括以下特征中的至少一种：

所述消息中包含第二预设关键词，所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种；

相邻的所述消息之间的第二时间间隔；

相邻的所述消息具有相同来源；

相邻的所述消息中包含相同的属于预设词性的词；

所述消息中包含的属于所述预设词性的词；

所述消息的开始词；

所述消息的结束词。

该实施例中，通过对通讯会话序列的一个或多个特征进行确定，使得通讯会话序列的特征确定更加准确，从而能够准确地根据特征确定通讯会话序列的场景标注信息，实现对通讯会话序列的准确分割。

在一个实施例中，所述方法还包括：

获取至少两个样本通讯会话序列；

根据预设特征集合确定所述至少两个样本通讯会话序列的特征；

确定所述至少两个样本通讯会话序列的场景标注信息；

根据所述至少两个样本通讯会话序列的特征及所述至少两个样本通讯会话序列的场景标注信息进行模型训练，生成预设模型。

该实施例中，通过确定多个样本通讯会话序列的特征及场景标注信息，并根据多个样本通讯会话序列的特征及场景标注信息生成预设模型，使得预设模型能够被用于对样本会话序列进行场景分割。

在一个实施例中，所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。

该实施例中，通过确定通讯会话序列的开始会话场景、中间会话场景、结束会话场景或无关会话场景，使得在根据场景标注信息分割通讯会话序列时更加准确，且更加符合用户通讯会话时的场景。

根据本公开实施例的第二方面，提供一种信息分割装置，包括：

第一获取模块，用于获取通讯会话序列，所述通讯会话序列包括至少两个消息；

第一确定模块，用于确定所述第一获取模块获取的通讯会话序列的特征；

第二确定模块，用于根据所述第一确定模块确定的通讯会话序列的特征及预设模型，确定所述通讯会话序息的场景标注信息；其中，所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的；

分割模块，用于按照所述第二确定模块确定的场景标注信息对所述通讯会话序列进行场景分割。

在一个实施例中，所述第一获取模块包括：

获取子模块，用于获取通讯会话消息集合，所述通讯会话消息集合包括至少两个消息；

分割子模块，用于根据预设参数对所述获取子模块获取到的通讯会话消息集合进行分割处理，得到至少两个通讯会话序列。

在一个实施例中，所述分割子模块，用于当所述预设参数包括第一时间间隔时，判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔；当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，将所述相邻两个消息分割至两个不同的通讯会话序列中。

在一个实施例中，所述分割子模块，用于当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，判断所述通讯会话消息集合中的消息中是否包含第一预设关键词，所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种；当所述通讯会话消息集合中的消息中包括所述第一开始关键词时，将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中；当所述通讯会话消息集合中的消息中包括所述第一结束关键词时，将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。

在一个实施例中，所述第一确定模块确定的特征包括以下特征中的至少一种：

相邻的所述消息之间的第二时间间隔；

相邻的所述消息具有相同来源；

相邻的所述消息中包含相同的属于预设词性的词；

所述消息中包含的属于所述预设词性的词；

所述消息的开始词；

所述消息的结束词。

在一个实施例中，所述装置还包括：

第二获取模块，用于获取至少两个样本通讯会话序列；

第三确定模块，用于根据预设特征集合确定所述第二获取模块获取的至少两个样本通讯会话序列的特征；

第四确定模块，用于确定所述第二获取模块获取的至少两个样本通讯会话序列的场景标注信息；

生成模块，用于根据所述第三确定模块确定的至少两个样本通讯会话序列的特征及所述第四确定模块确定的至少两个样本通讯会话序列的场景标注信息进行模型训练，生成预设模型。

根据本公开实施例的第三方面，提供一种信息分割装置，包括：

获取通讯会话序列，所述通讯会话序列包括至少两个消息；

确定所述通讯会话序列的特征；

根据所述通讯会话序列的特征及预设模型，确定所述通讯会话序列的场景标注信息；其中，所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的；

按照所述场景标注信息对所述通讯会话序列进行场景分割。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种信息分割方法的流程图。

图2是根据一示例性实施例示出的一种信息分割方法中步骤S11的流程图。

图3是根据一示例性实施例示出的一种信息分割方法中步骤S22的流程图。

图4是根据一示例性实施例示出的一种信息分割方法中步骤S22的流程图。

图4A是根据一示例性实施例示出的一种信息分割方法中步骤S32的流程图。

图4B是根据一示例性实施例示出的一种信息分割方法的流程图。

图5是根据一示例性实施例示出的一种信息分割方法中步骤S13的流程图。

图6是根据一示例性实施例示出的一种信息分割方法的流程图。

图7是根据一示例性实施例示出的一种信息分割装置的框图。

图8是根据一示例性实施例示出的一种信息分割装置中第一获取模块的框图。

图9是根据一示例性实施例示出的一种信息分割装置的框图。

图10是根据一示例性实施例示出的一种信息分割装置的框图。

图11是根据一示例性实施例示出的一种适用于信息分割的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种信息分割方法的流程图，该信息分割方法用于终端中，其中，终端可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。如图1所示，该方法包括以下步骤S11-S14。

在步骤S11中，获取通讯会话序列，通讯会话序列包括至少两个消息。

其中，消息即为用户双方通讯会话时来往的信息，例如短信、通过即时通讯软件来往的即时消息等。

在步骤S12中，确定通讯会话序列的特征。

其中，通讯会话序列的特征即为通讯会话序列中每个或多个消息的特征，通讯会话序列的特征可包括以下特征中的一种或多种：

(1)通讯会话序列的消息中包含第二预设关键词，第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种。第二开始关键词如：“在么”、“你好”等；第二结束关键词如：“再见”、“拜拜”、“待会儿见”等。

(2)相邻的消息之间的第二时间间隔。

(3)相邻的消息具有相同来源；其中，相同来源可以是相同发送者或相同接收者，例如，该消息与其相邻的前一个消息为相同的通讯号码发送来的，则该消息与其相邻的前一个消息具有相同来源。

(4)相邻的消息中包含相同的属于预设词性的词；其中，预设词性能够表明发出消息的用户的意愿，因此根据预设词性的词可判断出消息的场景标注信息，例如可以是动词、名词等。

(5)消息中包含的属于预设词性的词；当预设词性包括动词时，消息中包含的动词如：踢球、看书等；当预设词性包括名词时，消息中包含的名词如：图书馆、球场等。

(6)消息的开始词。

(7)消息的结束词。

在步骤S13中，根据通讯会话序列的特征，确定通讯会话序列的场景标注信息。

其中，通讯会话序列的场景标注信息即为通讯会话序列中每个消息的场景标注信息。

在步骤S14中，按照场景标注信息对通讯会话序列进行场景分割。

其中，场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。对通讯会话序列进行场景分割后，可得到多个场景会话，每个场景会话中包括唯一的开始会话场景、中间会话场景、结束会话场景和无关会话场景。即，如果某个消息的场景标注信息为开始会话场景，则将该信息和与其相邻的前一个消息分割至两个不同的场景会话中，如果某个消息的场景标注信息为结束会话场景，则将该消息和与其相邻的后一个消息分割至两个不同的场景会话中。

采用本公开实施例提供的技术方案，通过确定通讯会话序列的特征，并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息，进而根据场景标注信息对通讯会话序列进行场景分割，使得对通讯会话序列的场景分割更加准确，且更加符合用户通讯会话时的场景。

在一个实施例中，如图2所示，步骤S11可实施为以下步骤S21-S22。

在步骤S21中，获取通讯会话消息集合，通讯会话消息集合包括至少两个消息。

其中，通讯会话消息集合即为用户双方通讯会话时来往的所有消息的集合。

在步骤S22中，根据预设参数对通讯会话消息集合进行分割处理，得到至少两个通讯会话序列。

其中，预设参数包括第一时间间隔、第一预设关键词中的至少一种。

本实施例中，通过预设参数对通讯会话消息集合进行分割处理，从而得到多个通讯会话序列，使得后续对通讯会话序列进行场景分割时，能够降低对大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

在一个实施例中，根据预设参数的不同，步骤S22的执行方法也有所不同。以下分别针对这两中预设参数来说明步骤S22的执行方法。

当预设参数包括第一时间间隔时，如图3所示，步骤S22可实施为以下步骤S31-S33。

在步骤S31中，判断通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔；如果通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔，则执行步骤S32；如果通讯会话消息集合中的相邻两个消息之间的第一时间间隔小于预设时间间隔，则执行步骤S33。

在步骤S32中，将相邻两个消息分割至两个不同的通讯会话序列中。

在步骤S33中，将相邻两个消息分割至同一个通讯会话序列中。

其中，由于步骤S31-S33在步骤S12之前执行，因此第一时间间隔通常比第二时间间隔大，以使大量消息中时间间隔较长的相邻两个消息能够分割至不同的通讯会话序列中。例如，第一时间间隔设置为1天，则当相邻两个消息之间的第一时间间隔等于或大于1天时，将该相邻两个消息分割至两个不同的通讯会话序列中，否则，将该相邻两个消息分割至相同的通讯会话序列中。

当预设参数包括第一时间间隔时，如图4所示，步骤S22可实施为以下步骤S41-S44。

在步骤S41中，判断通讯会话消息集合中的消息中是否包含第一预设关键词；第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种；如果通讯会话消息集合中的消息中包括第一开始关键词，则执行步骤S42，例如，第一开始关键词如“在么”、“你好”等；如果通讯会话消息集合中的消息中包括第一结束关键词，则执行步骤S43，例如，第一结束关键词如“再见”、“拜拜”、“待会儿见”等。如果通讯会话消息集合中的消息中不包括第一预设关键词，则执行步骤S44。

在步骤S42中，将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中。

在步骤S43中，将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。

在步骤S44中，将消息和与其相邻的前后两个消息分割至同一个通讯会话序列中。

此外，还可结合上述两个预设参数来对通讯会话消息集合进行分割处理，进而得到至少两个通讯会话序列。

如图4A所示，上述步骤S32可实施为以下步骤S321-S324。

在步骤S321中，当通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，判断通讯会话消息集合中的消息中是否包含第一预设关键词；其中，第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种。如果通讯会话消息集合中的消息中包括第一开始关键词，则执行步骤S322；如果通讯会话消息集合中的消息中包括第一结束关键词，则执行步骤S323；如果通讯会话消息集合中的消息中不包括第一预设关键词，则执行步骤S324。

在步骤S322中，将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中。

在步骤S323中，将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。

在步骤S324中，将消息和与其相邻的前后两个消息分割至同一个通讯会话序列中。

在一个实施例中，还可设置两个预设参数各自对应的权重，根据预设参数各自对应的权重来计算消息与其相邻的消息划分至两个不同的通讯会话序列中的概率，再根据预设概率值来判断是否将消息与其相邻的消息划分至两个不同的通讯会话序列中。例如，第一时间间隔对应的权重为60％，第一预设关键词对应的权重为40％，预设概率值为80％，如果某个消息和与其相邻的前一个消息之间的第一时间间隔大于预设时间间隔，且该消息中包含第一开始关键词，则根据第一时间间隔和第一预设关键词各自对应的权重计算出将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列的概率，当计算出的概率达到80％时，即可确定将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列。

在一个实施例中，如图4B所示，预设模型的获得方法包括以下步骤S45-S48。

在步骤S45中，获取至少两个样本通讯会话序列。

获取样本通讯会话序列的步骤如下：

首先，获取至少两个样本通讯会话消息集合。例如，获取终端中用户在某即时通讯软件中的所有消息集合。

其次，根据预设参数对每一个样本通讯会话消息集合进行分割处理，得到至少两个样本通讯会话序列。其中，预设参数包括第一时间间隔、第一开始关键词、第一结束关键词中的至少一种。第一开始关键词如“在么”、“你好”等；第一结束关键词如“再见”、“拜拜”、“待会儿见”等。如果两个相邻的消息之间的第一时间间隔等于或大于预设时间间隔，则将这两个相邻的消息分割至两个不同的样本通讯会话序列中，如果某一个消息中包含第一开始关键词，则将该消息和与其相邻的前一个消息分割至两个不同的样本通讯会话序列中，如果某一个消息中包含第一结束关键词，则将该消息和与其相邻的后一个消息分割至两个不同的样本通讯会话序列中。

根据预设参数对每一个样本通讯会话消息集合进行分割处理时，可以仅根据第一时间间隔、第一开始关键词、第一结束关键词中的一种预设参数进行分割，也可以根据其中的两个或者三个预设参数的组合进行分割。

在步骤S46中，根据预设特征集合确定所述至少两个样本通讯会话序列的特征。

其中，预设特征集合包括以下特征：消息中包含第二开始关键词、包含第二结束关键词、相邻的消息之间的第二时间间隔、相邻的消息具有相同来源、消息中包含的属于预设词性的词、消息的开始词、消息的结束词等。由于该步骤之前，已使用预设参数对样本通讯会话消息集合进行分割，因此，第二时间间隔可设置为比第一时间间隔较小。

在步骤S47中，确定至少两个样本通讯会话序列的场景标注信息。

为使每个消息的场景标注信息准确，该步骤还可使用人工确定的方式执行。其中，场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。每一个消息对应有各自的场景标注信息。

在步骤S48中，根据至少两个样本通讯会话序列的特征及至少两个样本通讯会话序列的场景标注信息进行模型训练，生成预设模型。

在一个实施例中，预设模型为预设CRF(conditionalrandomfields，条件随机域)模型。

由于样本通讯会话序列所包括的消息可能仅有一个特征，也可能有多个特征，因此，在生成的预设CRF模型中，包括具有一个或多个特征的消息分别属于每一种场景标注信息的概率。

例如，在样本通讯会话序列中，包含第二开始关键词的所有消息中，属于开始会话场景的消息有80％，属于中间会话场景的消息有10％，属于无关会话场景的消息有8％，属于结束会话场景的消息有2％，那么，在预设CRF模型中，包含第二开始关键词的消息属于开始会话场景的概率为80％，属于中间会话场景的概率为10％，属于无关会话场景的概率为8％，属于结束会话场景的概率为2％。

再例如，在样本通讯会话序列中，对于既与其相邻的消息有相同来源、又包含预设动词的所有消息中，属于开始会话场景的消息有20％，属于中间会话场景的消息有70％，属于无关会话场景的消息有4％，属于结束会话场景的消息有6％，那么，在预设CRF模型中，既与其相邻的消息有相同来源、又包含预设动词的消息属于开始会话场景的概率为20％，属于中间会话场景的概率为70％，属于无关会话场景的概率为4％，属于结束会话场景的概率为6％。

可见，在生成的预设CRF模型中，包括具有每一个特征的消息分别属于哪一种场景标注信息的概率，还包括具有多个特征的消息分别属于每一种场景标注信息的概率。

因此，如图5所示，步骤S13可实施为以下步骤S51-S53。

在步骤S51中，获取预设CRF模型。该预设CRF模型中包括具有一个或多个特征的消息分别属于每一种场景标注信息的概率。

在步骤S52中，根据预设CRF模型中具有一个或多个特征的消息分别属于每一种场景标注信息的概率以及消息的特征，确定该消息分别属于每一种场景标注信息的概率。

在步骤S53中，按照消息分别属于每一种场景标注信息的概率的大小，确定该消息的场景标注信息。

该步骤中，可将概率值最大的场景标注信息确定为该消息的场景标注信息。

本实施例中，通过预设CRF模型来确定每个消息的场景标注信息，使得场景标注信息的确定可依赖于预先训练成的模型，从而使场景标注信息的确定更加简便准确。

在一个实施例中，执行步骤S13之前，上述方法还包括以下步骤：按照预设规则对通讯会话序列进行预设处理，得到符合预设规则的通讯会话序列。此时，步骤S13可实施为：根据通讯会话序列的特征及预设模型，确定符合预设规则的通讯会话序列的场景标注信息。

其中，预设规则与所用的预设模型有关。例如，如果采用上述预设CRF模型来确定每个消息的场景标注信息，则可对通讯会话序列进行向量化处理，使得终端能够根据预设CRF模型和通讯会话序列中每个消息的特征，确定向量化的通讯会话序列中每个消息的场景标注信息。

本实施例中，通过将通讯会话序列处理为符合预设规则的通讯会话序列，进而确定符合预设规则的通讯会话序列中每个消息的场景标注信息，使得场景标注信息的确定更加准确快速，从而提高对通讯会话序列的分割效率。

图6是根据一示例性实施例示出的一种信息分割方法的流程图。在该示例性实施例中，预设模型为预设CRF模型。如图6所示，该方法包括以下步骤S61-S65。

在步骤S61中，获取通讯会话消息集合，通讯会话消息集合包括至少两个消息。

在步骤S62中，根据预设参数对通讯会话消息集合进行分割处理，得到至少两个通讯会话序列。预设参数包括第一时间间隔、第一预设关键词中的至少一种。

在步骤S63中，根据预设特征集合，确定通讯会话序列中每个消息的特征。

在步骤S64中，根据预设CRF模型和每个消息的特征，确定通讯会话序列中每个消息的场景标注信息。

在步骤S65中，按照场景标注信息对通讯会话序列进行场景分割，得到至少两个场景会话。

采用本公开实施例提供的技术方案，通过确定通讯会话序列中每个消息的特征，并根据预设CRF模型和每个消息的特征确定每个消息的场景标注信息，进而根据场景标注信息对通讯会话序列进行场景分割，使得对通讯会话消息集合的场景分割更加准确，且更加符合用户通讯会话时的场景。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图7是根据一示例性实施例示出的一种信息分割装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。参照图7，该信息分割装置包括第一获取模块71、第一确定模块72、第二确定模块73和分割模块74；其中：

第一获取模块71被配置为获取通讯会话序列，通讯会话序列包括至少两个消息。

第一确定模块72被配置为确定第一获取模块71获取的通讯会话序列的特征。

其中，消息即为用户双方通讯会话时来往的信息，例如短信、通过即时通讯软件来往的即时消息等。通讯会话序列的特征即为通讯会话序列中每个或多个消息的特征。

第二确定模块73被配置为根据第一确定模块72确定的通讯会话序列的特征及预设模型，确定通讯会话序列的场景标注信息；其中，预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的。

其中，通讯会话序列的特征可包括以下特征中的一种或多种：

(2)相邻的消息之间的第二时间间隔。

(4)相邻的消息中包含相同的属于预设词性的词；其中，预设词性能够表明发出消息的用户的意愿，例如可以是动词、名词等。

(6)消息的开始词。

(7)消息的结束词。

通讯会话序列的场景标注信息即为通讯会话序列中每个消息的场景标注信息。

分割模块74被配置为按照第二确定模块73确定的场景标注信息对通讯会话序列进行场景分割。

其中，场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。对通讯会话序列进行标注分割后，可得到多个场景会话，每个场景会话中包括唯一的开始会话场景、中间会话场景、结束会话场景和无关会话场景。即，如果某个消息的场景标注信息为开始会话场景，则将该信息和与其相邻的前一个消息分割至两个不同的场景会话中，如果某个消息的场景标注信息为结束会话场景，则将该消息和与其相邻的后一个消息分割至两个不同的场景会话中。

采用本公开实施例提供的技术方案，通过确定通讯会话序列的特征，并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息，进而根据场景标注信息对通讯会话序列进行场景分割，使得对通讯会话消息集合的场景分割更加准确，且更加符合用户通讯会话时的场景。

在一个实施例中，如图8所示，第一获取模块71包括获取子模块711和分割子模块712；其中：

获取子模块711被配置为获取通讯会话消息集合，通讯会话消息集合包括至少两个消息。

分割子模块712被配置为根据预设参数对获取子模块711获取到的通讯会话消息集合进行分割处理，得到至少两个通讯会话序列。

本实施例中，分割子模块712通过预设参数对通讯会话消息集合进行分割处理，从而得到多个通讯会话序列，使得后续对通讯会话序列进行场景分割时，能够降低对大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

在一个实施例中，预设参数包括第一时间间隔、第一预设关键词中的至少一种。

在一个实施例中，分割子模块712被配置为当预设参数包括第一时间间隔时，判断通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔；当通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，将相邻两个消息分割至两个不同的通讯会话序列中。

例如，第一时间间隔设置为1天，则当相邻两个消息之间的第一时间间隔等于或大于1天时，分割子模块712将该相邻两个消息分割至两个不同的通讯会话序列中，否则，分割子模块712将该相邻两个消息分割至相同的通讯会话序列中。

该实施例中，对于第一时间间隔等于或大于预设时间间隔的相邻两个消息，分割子模块712能够将这两个相邻消息分割至两个不同的通讯会话序列中，从而降低对通讯会话序列中大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

在一个实施例中，分割子模块712被配置为当预设参数包括第一预设关键词时，判断通讯会话消息集合中的消息中是否包含第一预设关键词，第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种；当通讯会话消息集合中的消息中包括第一开始关键词时，将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中；当通讯会话消息集合中的消息中包括第一结束关键词时，将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。

其中，第一开始关键词如“在么”、“你好”等；第一结束关键词如“再见”、“拜拜”、“待会儿见”等。

该实施例中，分割子模块712能够将包含第一预设关键词的消息与其之前或之后的消息分割至两个不同的通讯会话序列中，从而降低对通讯会话序列中大量消息进行分割的复杂度，且能够避免分割后的每个场景会话中语料稀疏的情况。

此外，分割子模块712还可结合上述两个预设参数来对通讯会话消息集合进行分割处理，进而得到至少两个通讯会话序列。

在一个实施例中，分割子模块712还被配置为当通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，判断通讯会话消息集合中的消息中是否包含第一预设关键词，第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种；当通讯会话消息集合中的消息中包括第一开始关键词时，将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中；当通讯会话消息集合中的消息中包括第一结束关键词时，将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。

在一个实施例中，还可设置两个预设参数各自对应的权重，分割子模块712根据预设参数各自对应的权重来计算消息与其相邻的消息划分至两个不同的通讯会话序列中的概率，再根据预设概率值来判断是否将消息与其相邻的消息划分至两个不同的通讯会话序列中。例如，第一时间间隔对应的权重为60％，第一预设关键词对应的权重为40％，预设概率值为80％，如果某个消息和与其相邻的前一个消息之间的第一时间间隔大于预设时间间隔，且该消息中包含第一开始关键词，则根据第一时间间隔和第一预设关键词各自对应的权重计算出将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列的概率，当计算出的概率达到80％时，即可确定将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列。

在一个实施例中，第一确定模块72确定的特征包括以下特征中的至少一种：

消息中包含第二预设关键词，第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种；

相邻的消息之间的第二时间间隔；

相邻的消息具有相同来源；

相邻的消息中包含相同的属于预设词性的词；

消息中包含的属于预设词性的词；

消息的开始词；

消息的结束词。

在一个实施例中，场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。

在一个实施例中，如图9所示，上述装置还包括第二获取模块75、第三确定模块76、第四确定模块77和生成模块78；其中：

第二获取模块75被配置为获取至少两个样本通讯会话序列。

第二获取模块75获取样本通讯会话序列的方法如下：

第二获取模块75根据预设参数对每一个样本通讯会话消息集合进行分割处理时，可以仅根据第一时间间隔、第一开始关键词、第一结束关键词中的一种预设参数进行分割，也可以根据其中的两个或者三个预设参数的组合进行分割。

第三确定模块76被配置为根据预设特征集合确定第二获取模块75获取的至少两个样本通讯会话序列的特征。

第四确定模块77被配置为确定第二获取模块75获取的至少两个样本通讯会话序列的场景标注信息。

为使每个消息的场景标注信息标注准确，该步骤可使用人工确定的方式执行。其中，场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。每一个消息对应有各自的场景标注信息。

生成模块78被配置为根据第三确定模块76确定的至少两个样本通讯会话序列的特征及及第四确定模块77确定的至少两个样本通讯会话序列的场景标注信息进行模型训练，生成预设模型。

因此，第一确定子模块731还被配置为根据预设CRF模型中具有一个或多个特征的消息分别属于每一种场景标注信息的概率以及消息的特征，确定该消息分别属于每一种场景标注信息的概率；按照消息分别属于每一种场景标注信息的概率的大小，确定该消息的场景标注信息。例如，可将概率值最大的场景标注信息确定为该消息的场景标注信息。

在一个实施例中，如图10所示，上述装置还包括处理模块79；该处理模块79被配置为第二确定模块73根据通讯会话序列的特征及预设模型，确定通讯会话序列的场景标注信息之前，按照预设规则对通讯会话序列进行预设处理，得到符合预设规则的通讯会话序列。

此时，第二确定模块73包括第二确定子模块732；该第二确定子模块732被配置为根据通讯会话序列的特征及预设模型，确定处理模块79处理得到的符合预设规则的通讯会话序列的场景标注信息。

在示例性实施例中，提供一种信息分割装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为：

获取通讯会话序列，所述通讯会话序列包括至少两个消息；

确定所述通讯会话序列的特征；

按照所述场景标注信息对所述通讯会话序列进行场景分割。

上述处理器还可被配置为：

所述获取通讯会话序列，包括：

上述处理器还可被配置为：

所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。

上述处理器还可被配置为：

当所述预设参数包括第一时间间隔时，根据预设参数对所述通讯会话消息集合进行分割处理，包括：

上述处理器还可被配置为：

所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，将所述相邻两个消息分割至两个不同的通讯会话序列中，包括：

上述处理器还可被配置为：

所述特征包括以下特征中的至少一种：

相邻的所述消息之间的第二时间间隔；

相邻的所述消息具有相同来源；

相邻的所述消息中包含相同的属于预设词性的词；

所述消息中包含的属于所述预设词性的词；

所述消息的开始词；

所述消息的结束词。

上述处理器还可被配置为：

所述方法还包括：

获取至少两个样本通讯会话序列；

确定所述至少两个样本通讯会话序列的场景标注信息；

上述处理器还可被配置为：

所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于信息分割的装置的框图。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由装置1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置1200的处理器执行时，使得装置1200能够执行上述的信息分割方法，所述方法包括：

获取通讯会话序列，所述通讯会话序列包括至少两个消息；

确定所述通讯会话序列的特征；

按照所述场景标注信息对所述通讯会话序列进行场景分割。

所述获取通讯会话序列，包括：

所述特征包括以下特征中的至少一种：

相邻的所述消息之间的第二时间间隔；

相邻的所述消息具有相同来源；

相邻的所述消息中包含相同的属于预设词性的词；

所述消息中包含的属于所述预设词性的词；

所述消息的开始词；

所述消息的结束词。

所述方法还包括：

获取至少两个样本通讯会话序列；

确定所述至少两个样本通讯会话序列的场景标注信息；

本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种信息分割方法，其特征在于，包括：

获取通讯会话序列，所述通讯会话序列包括至少两个消息；

确定所述通讯会话序列的特征；

按照所述场景标注信息对所述通讯会话序列进行场景分割。

2.根据权利要求1所述的方法，其特征在于，所述获取通讯会话序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。

4.根据权利要求3所述的方法，其特征在于，当所述预设参数包括第一时间间隔时，根据预设参数对所述通讯会话消息集合进行分割处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，将所述相邻两个消息分割至两个不同的通讯会话序列中，包括：

6.根据权利要求1所述的方法，其特征在于，所述特征包括以下特征中的至少一种：

相邻的所述消息之间的第二时间间隔；

相邻的所述消息具有相同来源；

相邻的所述消息中包含相同的属于预设词性的词；

所述消息中包含的属于所述预设词性的词；

所述消息的开始词；

所述消息的结束词。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述方法还包括：

获取至少两个样本通讯会话序列；

确定所述至少两个样本通讯会话序列的场景标注信息；

根据所述至少两个样本通讯会话序列的特征及所述至少两个样本通讯会话序列的场景标注信息进行模型训练，生成所述预设模型。

8.根据权利要1至6中任意一项所述的方法，其特征在于，所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。

9.一种信息分割装置，其特征在于，包括：

第二确定模块，用于根据所述第一确定模块确定的通讯会话序列的特征及预设模型，确定所述通讯会话序列的场景标注信息；其中，所述预设模型是预先根据至少两个样本通讯会话序列的特征及其对应的场景标注信息训练获得的；

10.根据权利要求9所述的装置，其特征在于，所述第一获取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。

12.根据权利要求11所述的装置，其特征在于，所述分割子模块，用于当所述预设参数包括第一时间间隔时，判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔；当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，将所述相邻两个消息分割至两个不同的通讯会话序列中。

13.根据权利要求12所述的装置，其特征在于，所述分割子模块，用于当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时，判断所述通讯会话消息集合中的消息中是否包含第一预设关键词，所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种；当所述通讯会话消息集合中的消息中包括所述第一开始关键词时，将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中；当所述通讯会话消息集合中的消息中包括所述第一结束关键词时，将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。

14.根据权利要求9所述的装置，其特征在于，所述第一确定模块确定的特征包括以下特征中的至少一种：

相邻的所述消息之间的第二时间间隔；

相邻的所述消息具有相同来源；

相邻的所述消息中包含相同的属于预设词性的词；

所述消息中包含的属于所述预设词性的词；

所述消息的开始词；

所述消息的结束词。

15.根据权利要求9至14中任意一项所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取至少两个样本通讯会话序列；

生成模块，用于根据所述第三确定模块确定的至少两个样本通讯会话序列的特征及所述第四确定模块确定的至少两个样本通讯会话序列的场景标注信息进行模型训练，生成所述预设模型。

16.根据权利要求9至14中任意一项所述的装置，其特征在于，所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。

17.一种信息分割装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取通讯会话序列，所述通讯会话序列包括至少两个消息；

确定所述通讯会话序列的特征；

按照所述场景标注信息对所述通讯会话序列进行场景分割。