CN105389296A - 信息分割方法及装置 - Google Patents

信息分割方法及装置 Download PDF

Info

Publication number
CN105389296A
CN105389296A CN201510921092.1A CN201510921092A CN105389296A CN 105389296 A CN105389296 A CN 105389296A CN 201510921092 A CN201510921092 A CN 201510921092A CN 105389296 A CN105389296 A CN 105389296A
Authority
CN
China
Prior art keywords
message
conversational communication
scene
adjacent
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510921092.1A
Other languages
English (en)
Inventor
汪平仄
张涛
侯文迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Technology Co Ltd
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510921092.1A priority Critical patent/CN105389296A/zh
Publication of CN105389296A publication Critical patent/CN105389296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开是关于一种信息分割方法及装置。该方法包括:获取通讯会话序列,所述通讯会话序列包括至少两个消息;确定所述通讯会话序列的特征;根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列中每个消息的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;按照所述场景标注信息对所述通讯会话序列进行场景分割。该技术方案通过确定通讯会话序列的特征,并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息,进而根据场景标注信息对通讯会话序列进行场景分割,使得对通讯会话消息集合的场景分割更加准确,且更加符合用户通讯会话时的场景。

Description

信息分割方法及装置
技术领域
本公开涉及信息处理技术领域,尤其涉及一种信息分割方法及装置。
背景技术
计算机对自然语言处理所涉及的内容有:分词、词性标注、命名实体识别、双语对齐、机器翻译、信息检索、知识抽取、自动文摘、文本聚类、文本分类、拼写纠错等。相关技术中,用户通过移动终端进行通讯,例如通过短信、微信、qq等通讯工具来实现双方的交流,这些交流的信息中可能包含有重要的信息,为提高用户的体验度,移动终端可对其中的重要信息进行挖掘,从而为用户自动收集重要信息。
发明内容
本公开实施例提供一种信息分割方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种信息分割方法,包括:
获取通讯会话序列,所述通讯会话序列包括至少两个消息;
确定所述通讯会话序列的特征;
根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列中每个消息的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
按照所述场景标注信息对所述通讯会话序列进行场景分割。
本公开的实施例提供的技术方案可以包括以下有益效果:
上述技术方案,通过确定通讯会话序列的特征,并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息,进而根据场景标注信息对通讯会话序列进行场景分割,使得对通讯会话序列的场景分割更加准确,且更加符合用户通讯会话时的场景。
在一个实施例中,所述获取通讯会话序列,包括:
获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
根据预设参数对所述通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
该实施例中,通过预设参数对通讯会话消息集合进行分割处理,从而得到多个通讯会话序列,使得后续对通讯会话序列进行场景分割时,能够降低对大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
在一个实施例中,所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
该实施例中,通过第一时间间隔、第一预设关键词中的至少一种对通讯会话消息集合进行分割处理,从而得到多个通讯会话序列,使得后续对通讯会话序列进行场景分割时,能够降低对大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
在一个实施例中,当所述预设参数包括第一时间间隔时,根据预设参数对所述通讯会话消息集合进行分割处理,包括:
判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
该实施例中,对于第一时间间隔等于或大于预设时间间隔的相邻两个消息,能够将这两个相邻消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
在一个实施例中,所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中,包括:
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;
当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;
当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
该实施例中,能够将包含第一预设关键词的消息与其之前或之后的消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
在一个实施例中,所述特征包括以下特征中的至少一种:
所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
相邻的所述消息之间的第二时间间隔;
相邻的所述消息具有相同来源;
相邻的所述消息中包含相同的属于预设词性的词;
所述消息中包含的属于所述预设词性的词;
所述消息的开始词;
所述消息的结束词。
该实施例中,通过对通讯会话序列的一个或多个特征进行确定,使得通讯会话序列的特征确定更加准确,从而能够准确地根据特征确定通讯会话序列的场景标注信息,实现对通讯会话序列的准确分割。
在一个实施例中,所述方法还包括:
获取至少两个样本通讯会话序列;
根据预设特征集合确定所述至少两个样本通讯会话序列的特征;
确定所述至少两个样本通讯会话序列的场景标注信息;
根据所述至少两个样本通讯会话序列的特征及所述至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
该实施例中,通过确定多个样本通讯会话序列的特征及场景标注信息,并根据多个样本通讯会话序列的特征及场景标注信息生成预设模型,使得预设模型能够被用于对样本会话序列进行场景分割。
在一个实施例中,所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
该实施例中,通过确定通讯会话序列的开始会话场景、中间会话场景、结束会话场景或无关会话场景,使得在根据场景标注信息分割通讯会话序列时更加准确,且更加符合用户通讯会话时的场景。
根据本公开实施例的第二方面,提供一种信息分割装置,包括:
第一获取模块,用于获取通讯会话序列,所述通讯会话序列包括至少两个消息;
第一确定模块,用于确定所述第一获取模块获取的通讯会话序列的特征;
第二确定模块,用于根据所述第一确定模块确定的通讯会话序列的特征及预设模型,确定所述通讯会话序息的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
分割模块,用于按照所述第二确定模块确定的场景标注信息对所述通讯会话序列进行场景分割。
在一个实施例中,所述第一获取模块包括:
获取子模块,用于获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
分割子模块,用于根据预设参数对所述获取子模块获取到的通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
在一个实施例中,所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
在一个实施例中,所述分割子模块,用于当所述预设参数包括第一时间间隔时,判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
在一个实施例中,所述分割子模块,用于当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
在一个实施例中,所述第一确定模块确定的特征包括以下特征中的至少一种:
所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
相邻的所述消息之间的第二时间间隔;
相邻的所述消息具有相同来源;
相邻的所述消息中包含相同的属于预设词性的词;
所述消息中包含的属于所述预设词性的词;
所述消息的开始词;
所述消息的结束词。
在一个实施例中,所述装置还包括:
第二获取模块,用于获取至少两个样本通讯会话序列;
第三确定模块,用于根据预设特征集合确定所述第二获取模块获取的至少两个样本通讯会话序列的特征;
第四确定模块,用于确定所述第二获取模块获取的至少两个样本通讯会话序列的场景标注信息;
生成模块,用于根据所述第三确定模块确定的至少两个样本通讯会话序列的特征及所述第四确定模块确定的至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
在一个实施例中,所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
根据本公开实施例的第三方面,提供一种信息分割装置,包括:
获取通讯会话序列,所述通讯会话序列包括至少两个消息;
确定所述通讯会话序列的特征;
根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
按照所述场景标注信息对所述通讯会话序列进行场景分割。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种信息分割方法的流程图。
图2是根据一示例性实施例示出的一种信息分割方法中步骤S11的流程图。
图3是根据一示例性实施例示出的一种信息分割方法中步骤S22的流程图。
图4是根据一示例性实施例示出的一种信息分割方法中步骤S22的流程图。
图4A是根据一示例性实施例示出的一种信息分割方法中步骤S32的流程图。
图4B是根据一示例性实施例示出的一种信息分割方法的流程图。
图5是根据一示例性实施例示出的一种信息分割方法中步骤S13的流程图。
图6是根据一示例性实施例示出的一种信息分割方法的流程图。
图7是根据一示例性实施例示出的一种信息分割装置的框图。
图8是根据一示例性实施例示出的一种信息分割装置中第一获取模块的框图。
图9是根据一示例性实施例示出的一种信息分割装置的框图。
图10是根据一示例性实施例示出的一种信息分割装置的框图。
图11是根据一示例性实施例示出的一种适用于信息分割的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种信息分割方法的流程图,该信息分割方法用于终端中,其中,终端可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。如图1所示,该方法包括以下步骤S11-S14。
在步骤S11中,获取通讯会话序列,通讯会话序列包括至少两个消息。
其中,消息即为用户双方通讯会话时来往的信息,例如短信、通过即时通讯软件来往的即时消息等。
在步骤S12中,确定通讯会话序列的特征。
其中,通讯会话序列的特征即为通讯会话序列中每个或多个消息的特征,通讯会话序列的特征可包括以下特征中的一种或多种:
(1)通讯会话序列的消息中包含第二预设关键词,第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种。第二开始关键词如:“在么”、“你好”等;第二结束关键词如:“再见”、“拜拜”、“待会儿见”等。
(2)相邻的消息之间的第二时间间隔。
(3)相邻的消息具有相同来源;其中,相同来源可以是相同发送者或相同接收者,例如,该消息与其相邻的前一个消息为相同的通讯号码发送来的,则该消息与其相邻的前一个消息具有相同来源。
(4)相邻的消息中包含相同的属于预设词性的词;其中,预设词性能够表明发出消息的用户的意愿,因此根据预设词性的词可判断出消息的场景标注信息,例如可以是动词、名词等。
(5)消息中包含的属于预设词性的词;当预设词性包括动词时,消息中包含的动词如:踢球、看书等;当预设词性包括名词时,消息中包含的名词如:图书馆、球场等。
(6)消息的开始词。
(7)消息的结束词。
在步骤S13中,根据通讯会话序列的特征,确定通讯会话序列的场景标注信息。
其中,通讯会话序列的场景标注信息即为通讯会话序列中每个消息的场景标注信息。
在步骤S14中,按照场景标注信息对通讯会话序列进行场景分割。
其中,场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。对通讯会话序列进行场景分割后,可得到多个场景会话,每个场景会话中包括唯一的开始会话场景、中间会话场景、结束会话场景和无关会话场景。即,如果某个消息的场景标注信息为开始会话场景,则将该信息和与其相邻的前一个消息分割至两个不同的场景会话中,如果某个消息的场景标注信息为结束会话场景,则将该消息和与其相邻的后一个消息分割至两个不同的场景会话中。
采用本公开实施例提供的技术方案,通过确定通讯会话序列的特征,并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息,进而根据场景标注信息对通讯会话序列进行场景分割,使得对通讯会话序列的场景分割更加准确,且更加符合用户通讯会话时的场景。
在一个实施例中,如图2所示,步骤S11可实施为以下步骤S21-S22。
在步骤S21中,获取通讯会话消息集合,通讯会话消息集合包括至少两个消息。
其中,通讯会话消息集合即为用户双方通讯会话时来往的所有消息的集合。
在步骤S22中,根据预设参数对通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
其中,预设参数包括第一时间间隔、第一预设关键词中的至少一种。
本实施例中,通过预设参数对通讯会话消息集合进行分割处理,从而得到多个通讯会话序列,使得后续对通讯会话序列进行场景分割时,能够降低对大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
在一个实施例中,根据预设参数的不同,步骤S22的执行方法也有所不同。以下分别针对这两中预设参数来说明步骤S22的执行方法。
当预设参数包括第一时间间隔时,如图3所示,步骤S22可实施为以下步骤S31-S33。
在步骤S31中,判断通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;如果通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔,则执行步骤S32;如果通讯会话消息集合中的相邻两个消息之间的第一时间间隔小于预设时间间隔,则执行步骤S33。
在步骤S32中,将相邻两个消息分割至两个不同的通讯会话序列中。
在步骤S33中,将相邻两个消息分割至同一个通讯会话序列中。
其中,由于步骤S31-S33在步骤S12之前执行,因此第一时间间隔通常比第二时间间隔大,以使大量消息中时间间隔较长的相邻两个消息能够分割至不同的通讯会话序列中。例如,第一时间间隔设置为1天,则当相邻两个消息之间的第一时间间隔等于或大于1天时,将该相邻两个消息分割至两个不同的通讯会话序列中,否则,将该相邻两个消息分割至相同的通讯会话序列中。
该实施例中,对于第一时间间隔等于或大于预设时间间隔的相邻两个消息,能够将这两个相邻消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
当预设参数包括第一时间间隔时,如图4所示,步骤S22可实施为以下步骤S41-S44。
在步骤S41中,判断通讯会话消息集合中的消息中是否包含第一预设关键词;第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;如果通讯会话消息集合中的消息中包括第一开始关键词,则执行步骤S42,例如,第一开始关键词如“在么”、“你好”等;如果通讯会话消息集合中的消息中包括第一结束关键词,则执行步骤S43,例如,第一结束关键词如“再见”、“拜拜”、“待会儿见”等。如果通讯会话消息集合中的消息中不包括第一预设关键词,则执行步骤S44。
在步骤S42中,将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中。
在步骤S43中,将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
在步骤S44中,将消息和与其相邻的前后两个消息分割至同一个通讯会话序列中。
该实施例中,能够将包含第一预设关键词的消息与其之前或之后的消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
此外,还可结合上述两个预设参数来对通讯会话消息集合进行分割处理,进而得到至少两个通讯会话序列。
如图4A所示,上述步骤S32可实施为以下步骤S321-S324。
在步骤S321中,当通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断通讯会话消息集合中的消息中是否包含第一预设关键词;其中,第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种。如果通讯会话消息集合中的消息中包括第一开始关键词,则执行步骤S322;如果通讯会话消息集合中的消息中包括第一结束关键词,则执行步骤S323;如果通讯会话消息集合中的消息中不包括第一预设关键词,则执行步骤S324。
在步骤S322中,将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中。
在步骤S323中,将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
在步骤S324中,将消息和与其相邻的前后两个消息分割至同一个通讯会话序列中。
在一个实施例中,还可设置两个预设参数各自对应的权重,根据预设参数各自对应的权重来计算消息与其相邻的消息划分至两个不同的通讯会话序列中的概率,再根据预设概率值来判断是否将消息与其相邻的消息划分至两个不同的通讯会话序列中。例如,第一时间间隔对应的权重为60%,第一预设关键词对应的权重为40%,预设概率值为80%,如果某个消息和与其相邻的前一个消息之间的第一时间间隔大于预设时间间隔,且该消息中包含第一开始关键词,则根据第一时间间隔和第一预设关键词各自对应的权重计算出将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列的概率,当计算出的概率达到80%时,即可确定将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列。
在一个实施例中,如图4B所示,预设模型的获得方法包括以下步骤S45-S48。
在步骤S45中,获取至少两个样本通讯会话序列。
获取样本通讯会话序列的步骤如下:
首先,获取至少两个样本通讯会话消息集合。例如,获取终端中用户在某即时通讯软件中的所有消息集合。
其次,根据预设参数对每一个样本通讯会话消息集合进行分割处理,得到至少两个样本通讯会话序列。其中,预设参数包括第一时间间隔、第一开始关键词、第一结束关键词中的至少一种。第一开始关键词如“在么”、“你好”等;第一结束关键词如“再见”、“拜拜”、“待会儿见”等。如果两个相邻的消息之间的第一时间间隔等于或大于预设时间间隔,则将这两个相邻的消息分割至两个不同的样本通讯会话序列中,如果某一个消息中包含第一开始关键词,则将该消息和与其相邻的前一个消息分割至两个不同的样本通讯会话序列中,如果某一个消息中包含第一结束关键词,则将该消息和与其相邻的后一个消息分割至两个不同的样本通讯会话序列中。
根据预设参数对每一个样本通讯会话消息集合进行分割处理时,可以仅根据第一时间间隔、第一开始关键词、第一结束关键词中的一种预设参数进行分割,也可以根据其中的两个或者三个预设参数的组合进行分割。
在步骤S46中,根据预设特征集合确定所述至少两个样本通讯会话序列的特征。
其中,预设特征集合包括以下特征:消息中包含第二开始关键词、包含第二结束关键词、相邻的消息之间的第二时间间隔、相邻的消息具有相同来源、消息中包含的属于预设词性的词、消息的开始词、消息的结束词等。由于该步骤之前,已使用预设参数对样本通讯会话消息集合进行分割,因此,第二时间间隔可设置为比第一时间间隔较小。
在步骤S47中,确定至少两个样本通讯会话序列的场景标注信息。
为使每个消息的场景标注信息准确,该步骤还可使用人工确定的方式执行。其中,场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。每一个消息对应有各自的场景标注信息。
在步骤S48中,根据至少两个样本通讯会话序列的特征及至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
在一个实施例中,预设模型为预设CRF(conditionalrandomfields,条件随机域)模型。
由于样本通讯会话序列所包括的消息可能仅有一个特征,也可能有多个特征,因此,在生成的预设CRF模型中,包括具有一个或多个特征的消息分别属于每一种场景标注信息的概率。
例如,在样本通讯会话序列中,包含第二开始关键词的所有消息中,属于开始会话场景的消息有80%,属于中间会话场景的消息有10%,属于无关会话场景的消息有8%,属于结束会话场景的消息有2%,那么,在预设CRF模型中,包含第二开始关键词的消息属于开始会话场景的概率为80%,属于中间会话场景的概率为10%,属于无关会话场景的概率为8%,属于结束会话场景的概率为2%。
再例如,在样本通讯会话序列中,对于既与其相邻的消息有相同来源、又包含预设动词的所有消息中,属于开始会话场景的消息有20%,属于中间会话场景的消息有70%,属于无关会话场景的消息有4%,属于结束会话场景的消息有6%,那么,在预设CRF模型中,既与其相邻的消息有相同来源、又包含预设动词的消息属于开始会话场景的概率为20%,属于中间会话场景的概率为70%,属于无关会话场景的概率为4%,属于结束会话场景的概率为6%。
可见,在生成的预设CRF模型中,包括具有每一个特征的消息分别属于哪一种场景标注信息的概率,还包括具有多个特征的消息分别属于每一种场景标注信息的概率。
因此,如图5所示,步骤S13可实施为以下步骤S51-S53。
在步骤S51中,获取预设CRF模型。该预设CRF模型中包括具有一个或多个特征的消息分别属于每一种场景标注信息的概率。
在步骤S52中,根据预设CRF模型中具有一个或多个特征的消息分别属于每一种场景标注信息的概率以及消息的特征,确定该消息分别属于每一种场景标注信息的概率。
在步骤S53中,按照消息分别属于每一种场景标注信息的概率的大小,确定该消息的场景标注信息。
该步骤中,可将概率值最大的场景标注信息确定为该消息的场景标注信息。
本实施例中,通过预设CRF模型来确定每个消息的场景标注信息,使得场景标注信息的确定可依赖于预先训练成的模型,从而使场景标注信息的确定更加简便准确。
在一个实施例中,执行步骤S13之前,上述方法还包括以下步骤:按照预设规则对通讯会话序列进行预设处理,得到符合预设规则的通讯会话序列。此时,步骤S13可实施为:根据通讯会话序列的特征及预设模型,确定符合预设规则的通讯会话序列的场景标注信息。
其中,预设规则与所用的预设模型有关。例如,如果采用上述预设CRF模型来确定每个消息的场景标注信息,则可对通讯会话序列进行向量化处理,使得终端能够根据预设CRF模型和通讯会话序列中每个消息的特征,确定向量化的通讯会话序列中每个消息的场景标注信息。
本实施例中,通过将通讯会话序列处理为符合预设规则的通讯会话序列,进而确定符合预设规则的通讯会话序列中每个消息的场景标注信息,使得场景标注信息的确定更加准确快速,从而提高对通讯会话序列的分割效率。
图6是根据一示例性实施例示出的一种信息分割方法的流程图。在该示例性实施例中,预设模型为预设CRF模型。如图6所示,该方法包括以下步骤S61-S65。
在步骤S61中,获取通讯会话消息集合,通讯会话消息集合包括至少两个消息。
在步骤S62中,根据预设参数对通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。预设参数包括第一时间间隔、第一预设关键词中的至少一种。
在步骤S63中,根据预设特征集合,确定通讯会话序列中每个消息的特征。
在步骤S64中,根据预设CRF模型和每个消息的特征,确定通讯会话序列中每个消息的场景标注信息。
在步骤S65中,按照场景标注信息对通讯会话序列进行场景分割,得到至少两个场景会话。
采用本公开实施例提供的技术方案,通过确定通讯会话序列中每个消息的特征,并根据预设CRF模型和每个消息的特征确定每个消息的场景标注信息,进而根据场景标注信息对通讯会话序列进行场景分割,使得对通讯会话消息集合的场景分割更加准确,且更加符合用户通讯会话时的场景。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图7是根据一示例性实施例示出的一种信息分割装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。参照图7,该信息分割装置包括第一获取模块71、第一确定模块72、第二确定模块73和分割模块74;其中:
第一获取模块71被配置为获取通讯会话序列,通讯会话序列包括至少两个消息。
第一确定模块72被配置为确定第一获取模块71获取的通讯会话序列的特征。
其中,消息即为用户双方通讯会话时来往的信息,例如短信、通过即时通讯软件来往的即时消息等。通讯会话序列的特征即为通讯会话序列中每个或多个消息的特征。
第二确定模块73被配置为根据第一确定模块72确定的通讯会话序列的特征及预设模型,确定通讯会话序列的场景标注信息;其中,预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的。
其中,通讯会话序列的特征可包括以下特征中的一种或多种:
(1)通讯会话序列的消息中包含第二预设关键词,第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种。第二开始关键词如:“在么”、“你好”等;第二结束关键词如:“再见”、“拜拜”、“待会儿见”等。
(2)相邻的消息之间的第二时间间隔。
(3)相邻的消息具有相同来源;其中,相同来源可以是相同发送者或相同接收者,例如,该消息与其相邻的前一个消息为相同的通讯号码发送来的,则该消息与其相邻的前一个消息具有相同来源。
(4)相邻的消息中包含相同的属于预设词性的词;其中,预设词性能够表明发出消息的用户的意愿,例如可以是动词、名词等。
(5)消息中包含的属于预设词性的词;当预设词性包括动词时,消息中包含的动词如:踢球、看书等;当预设词性包括名词时,消息中包含的名词如:图书馆、球场等。
(6)消息的开始词。
(7)消息的结束词。
通讯会话序列的场景标注信息即为通讯会话序列中每个消息的场景标注信息。
分割模块74被配置为按照第二确定模块73确定的场景标注信息对通讯会话序列进行场景分割。
其中,场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。对通讯会话序列进行标注分割后,可得到多个场景会话,每个场景会话中包括唯一的开始会话场景、中间会话场景、结束会话场景和无关会话场景。即,如果某个消息的场景标注信息为开始会话场景,则将该信息和与其相邻的前一个消息分割至两个不同的场景会话中,如果某个消息的场景标注信息为结束会话场景,则将该消息和与其相邻的后一个消息分割至两个不同的场景会话中。
采用本公开实施例提供的技术方案,通过确定通讯会话序列的特征,并根据通讯会话序列的特征及预设模型确定通讯会话序列的场景标注信息,进而根据场景标注信息对通讯会话序列进行场景分割,使得对通讯会话消息集合的场景分割更加准确,且更加符合用户通讯会话时的场景。
在一个实施例中,如图8所示,第一获取模块71包括获取子模块711和分割子模块712;其中:
获取子模块711被配置为获取通讯会话消息集合,通讯会话消息集合包括至少两个消息。
其中,通讯会话消息集合即为用户双方通讯会话时来往的所有消息的集合。
分割子模块712被配置为根据预设参数对获取子模块711获取到的通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
其中,预设参数包括第一时间间隔、第一预设关键词中的至少一种。
本实施例中,分割子模块712通过预设参数对通讯会话消息集合进行分割处理,从而得到多个通讯会话序列,使得后续对通讯会话序列进行场景分割时,能够降低对大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
在一个实施例中,预设参数包括第一时间间隔、第一预设关键词中的至少一种。
在一个实施例中,分割子模块712被配置为当预设参数包括第一时间间隔时,判断通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;当通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将相邻两个消息分割至两个不同的通讯会话序列中。
例如,第一时间间隔设置为1天,则当相邻两个消息之间的第一时间间隔等于或大于1天时,分割子模块712将该相邻两个消息分割至两个不同的通讯会话序列中,否则,分割子模块712将该相邻两个消息分割至相同的通讯会话序列中。
该实施例中,对于第一时间间隔等于或大于预设时间间隔的相邻两个消息,分割子模块712能够将这两个相邻消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
在一个实施例中,分割子模块712被配置为当预设参数包括第一预设关键词时,判断通讯会话消息集合中的消息中是否包含第一预设关键词,第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;当通讯会话消息集合中的消息中包括第一开始关键词时,将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;当通讯会话消息集合中的消息中包括第一结束关键词时,将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
其中,第一开始关键词如“在么”、“你好”等;第一结束关键词如“再见”、“拜拜”、“待会儿见”等。
该实施例中,分割子模块712能够将包含第一预设关键词的消息与其之前或之后的消息分割至两个不同的通讯会话序列中,从而降低对通讯会话序列中大量消息进行分割的复杂度,且能够避免分割后的每个场景会话中语料稀疏的情况。
此外,分割子模块712还可结合上述两个预设参数来对通讯会话消息集合进行分割处理,进而得到至少两个通讯会话序列。
在一个实施例中,分割子模块712还被配置为当通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断通讯会话消息集合中的消息中是否包含第一预设关键词,第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;当通讯会话消息集合中的消息中包括第一开始关键词时,将消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;当通讯会话消息集合中的消息中包括第一结束关键词时,将消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
在一个实施例中,还可设置两个预设参数各自对应的权重,分割子模块712根据预设参数各自对应的权重来计算消息与其相邻的消息划分至两个不同的通讯会话序列中的概率,再根据预设概率值来判断是否将消息与其相邻的消息划分至两个不同的通讯会话序列中。例如,第一时间间隔对应的权重为60%,第一预设关键词对应的权重为40%,预设概率值为80%,如果某个消息和与其相邻的前一个消息之间的第一时间间隔大于预设时间间隔,且该消息中包含第一开始关键词,则根据第一时间间隔和第一预设关键词各自对应的权重计算出将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列的概率,当计算出的概率达到80%时,即可确定将该消息和与其相邻的前一个消息划分至两个不同的通讯会话序列。
在一个实施例中,第一确定模块72确定的特征包括以下特征中的至少一种:
消息中包含第二预设关键词,第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
相邻的消息之间的第二时间间隔;
相邻的消息具有相同来源;
相邻的消息中包含相同的属于预设词性的词;
消息中包含的属于预设词性的词;
消息的开始词;
消息的结束词。
在一个实施例中,场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
在一个实施例中,如图9所示,上述装置还包括第二获取模块75、第三确定模块76、第四确定模块77和生成模块78;其中:
第二获取模块75被配置为获取至少两个样本通讯会话序列。
第二获取模块75获取样本通讯会话序列的方法如下:
首先,获取至少两个样本通讯会话消息集合。例如,获取终端中用户在某即时通讯软件中的所有消息集合。
其次,根据预设参数对每一个样本通讯会话消息集合进行分割处理,得到至少两个样本通讯会话序列。其中,预设参数包括第一时间间隔、第一开始关键词、第一结束关键词中的至少一种。第一开始关键词如“在么”、“你好”等;第一结束关键词如“再见”、“拜拜”、“待会儿见”等。如果两个相邻的消息之间的第一时间间隔等于或大于预设时间间隔,则将这两个相邻的消息分割至两个不同的样本通讯会话序列中,如果某一个消息中包含第一开始关键词,则将该消息和与其相邻的前一个消息分割至两个不同的样本通讯会话序列中,如果某一个消息中包含第一结束关键词,则将该消息和与其相邻的后一个消息分割至两个不同的样本通讯会话序列中。
第二获取模块75根据预设参数对每一个样本通讯会话消息集合进行分割处理时,可以仅根据第一时间间隔、第一开始关键词、第一结束关键词中的一种预设参数进行分割,也可以根据其中的两个或者三个预设参数的组合进行分割。
第三确定模块76被配置为根据预设特征集合确定第二获取模块75获取的至少两个样本通讯会话序列的特征。
其中,预设特征集合包括以下特征:消息中包含第二开始关键词、包含第二结束关键词、相邻的消息之间的第二时间间隔、相邻的消息具有相同来源、消息中包含的属于预设词性的词、消息的开始词、消息的结束词等。由于该步骤之前,已使用预设参数对样本通讯会话消息集合进行分割,因此,第二时间间隔可设置为比第一时间间隔较小。
第四确定模块77被配置为确定第二获取模块75获取的至少两个样本通讯会话序列的场景标注信息。
为使每个消息的场景标注信息标注准确,该步骤可使用人工确定的方式执行。其中,场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。每一个消息对应有各自的场景标注信息。
生成模块78被配置为根据第三确定模块76确定的至少两个样本通讯会话序列的特征及及第四确定模块77确定的至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
在一个实施例中,预设模型为预设CRF(conditionalrandomfields,条件随机域)模型。
由于样本通讯会话序列所包括的消息可能仅有一个特征,也可能有多个特征,因此,在生成的预设CRF模型中,包括具有一个或多个特征的消息分别属于每一种场景标注信息的概率。
例如,在样本通讯会话序列中,包含第二开始关键词的所有消息中,属于开始会话场景的消息有80%,属于中间会话场景的消息有10%,属于无关会话场景的消息有8%,属于结束会话场景的消息有2%,那么,在预设CRF模型中,包含第二开始关键词的消息属于开始会话场景的概率为80%,属于中间会话场景的概率为10%,属于无关会话场景的概率为8%,属于结束会话场景的概率为2%。
再例如,在样本通讯会话序列中,对于既与其相邻的消息有相同来源、又包含预设动词的所有消息中,属于开始会话场景的消息有20%,属于中间会话场景的消息有70%,属于无关会话场景的消息有4%,属于结束会话场景的消息有6%,那么,在预设CRF模型中,既与其相邻的消息有相同来源、又包含预设动词的消息属于开始会话场景的概率为20%,属于中间会话场景的概率为70%,属于无关会话场景的概率为4%,属于结束会话场景的概率为6%。
可见,在生成的预设CRF模型中,包括具有每一个特征的消息分别属于哪一种场景标注信息的概率,还包括具有多个特征的消息分别属于每一种场景标注信息的概率。
因此,第一确定子模块731还被配置为根据预设CRF模型中具有一个或多个特征的消息分别属于每一种场景标注信息的概率以及消息的特征,确定该消息分别属于每一种场景标注信息的概率;按照消息分别属于每一种场景标注信息的概率的大小,确定该消息的场景标注信息。例如,可将概率值最大的场景标注信息确定为该消息的场景标注信息。
本实施例中,通过预设CRF模型来确定每个消息的场景标注信息,使得场景标注信息的确定可依赖于预先训练成的模型,从而使场景标注信息的确定更加简便准确。
在一个实施例中,如图10所示,上述装置还包括处理模块79;该处理模块79被配置为第二确定模块73根据通讯会话序列的特征及预设模型,确定通讯会话序列的场景标注信息之前,按照预设规则对通讯会话序列进行预设处理,得到符合预设规则的通讯会话序列。
此时,第二确定模块73包括第二确定子模块732;该第二确定子模块732被配置为根据通讯会话序列的特征及预设模型,确定处理模块79处理得到的符合预设规则的通讯会话序列的场景标注信息。
其中,预设规则与所用的预设模型有关。例如,如果采用上述预设CRF模型来确定每个消息的场景标注信息,则可对通讯会话序列进行向量化处理,使得终端能够根据预设CRF模型和通讯会话序列中每个消息的特征,确定向量化的通讯会话序列中每个消息的场景标注信息。
本实施例中,通过将通讯会话序列处理为符合预设规则的通讯会话序列,进而确定符合预设规则的通讯会话序列中每个消息的场景标注信息,使得场景标注信息的确定更加准确快速,从而提高对通讯会话序列的分割效率。
在示例性实施例中,提供一种信息分割装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取通讯会话序列,所述通讯会话序列包括至少两个消息;
确定所述通讯会话序列的特征;
根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
按照所述场景标注信息对所述通讯会话序列进行场景分割。
上述处理器还可被配置为:
所述获取通讯会话序列,包括:
获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
根据预设参数对所述通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
上述处理器还可被配置为:
所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
上述处理器还可被配置为:
当所述预设参数包括第一时间间隔时,根据预设参数对所述通讯会话消息集合进行分割处理,包括:
判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
上述处理器还可被配置为:
所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中,包括:
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;
当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;
当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
上述处理器还可被配置为:
所述特征包括以下特征中的至少一种:
所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
相邻的所述消息之间的第二时间间隔;
相邻的所述消息具有相同来源;
相邻的所述消息中包含相同的属于预设词性的词;
所述消息中包含的属于所述预设词性的词;
所述消息的开始词;
所述消息的结束词。
上述处理器还可被配置为:
所述方法还包括:
获取至少两个样本通讯会话序列;
根据预设特征集合确定所述至少两个样本通讯会话序列的特征;
确定所述至少两个样本通讯会话序列的场景标注信息;
根据所述至少两个样本通讯会话序列的特征及所述至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
上述处理器还可被配置为:
所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图11是根据一示例性实施例示出的一种用于信息分割的装置的框图。例如,装置1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
装置1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制装置1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理组件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为装置1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当装置1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口1212为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为装置1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变,用户与装置1200接触的存在或不存在,装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1204,上述指令可由装置1200的处理器1220执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置1200的处理器执行时,使得装置1200能够执行上述的信息分割方法,所述方法包括:
获取通讯会话序列,所述通讯会话序列包括至少两个消息;
确定所述通讯会话序列的特征;
根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
按照所述场景标注信息对所述通讯会话序列进行场景分割。
所述获取通讯会话序列,包括:
获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
根据预设参数对所述通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
当所述预设参数包括第一时间间隔时,根据预设参数对所述通讯会话消息集合进行分割处理,包括:
判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中,包括:
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;
当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;
当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
所述特征包括以下特征中的至少一种:
所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
相邻的所述消息之间的第二时间间隔;
相邻的所述消息具有相同来源;
相邻的所述消息中包含相同的属于预设词性的词;
所述消息中包含的属于所述预设词性的词;
所述消息的开始词;
所述消息的结束词。
所述方法还包括:
获取至少两个样本通讯会话序列;
根据预设特征集合确定所述至少两个样本通讯会话序列的特征;
确定所述至少两个样本通讯会话序列的场景标注信息;
根据所述至少两个样本通讯会话序列的特征及所述至少两个样本通讯会话序列的场景标注信息进行模型训练,生成预设模型。
所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种信息分割方法,其特征在于,包括:
获取通讯会话序列,所述通讯会话序列包括至少两个消息;
确定所述通讯会话序列的特征;
根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
按照所述场景标注信息对所述通讯会话序列进行场景分割。
2.根据权利要求1所述的方法,其特征在于,所述获取通讯会话序列,包括:
获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
根据预设参数对所述通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
3.根据权利要求2所述的方法,其特征在于,所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
4.根据权利要求3所述的方法,其特征在于,当所述预设参数包括第一时间间隔时,根据预设参数对所述通讯会话消息集合进行分割处理,包括:
判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
5.根据权利要求4所述的方法,其特征在于,所述当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中,包括:
当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;
当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;
当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
6.根据权利要求1所述的方法,其特征在于,所述特征包括以下特征中的至少一种:
所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
相邻的所述消息之间的第二时间间隔;
相邻的所述消息具有相同来源;
相邻的所述消息中包含相同的属于预设词性的词;
所述消息中包含的属于所述预设词性的词;
所述消息的开始词;
所述消息的结束词。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述方法还包括:
获取至少两个样本通讯会话序列;
根据预设特征集合确定所述至少两个样本通讯会话序列的特征;
确定所述至少两个样本通讯会话序列的场景标注信息;
根据所述至少两个样本通讯会话序列的特征及所述至少两个样本通讯会话序列的场景标注信息进行模型训练,生成所述预设模型。
8.根据权利要1至6中任意一项所述的方法,其特征在于,所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
9.一种信息分割装置,其特征在于,包括:
第一获取模块,用于获取通讯会话序列,所述通讯会话序列包括至少两个消息;
第一确定模块,用于确定所述第一获取模块获取的通讯会话序列的特征;
第二确定模块,用于根据所述第一确定模块确定的通讯会话序列的特征及预设模型,确定所述通讯会话序列的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其对应的场景标注信息训练获得的;
分割模块,用于按照所述第二确定模块确定的场景标注信息对所述通讯会话序列进行场景分割。
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块包括:
获取子模块,用于获取通讯会话消息集合,所述通讯会话消息集合包括至少两个消息;
分割子模块,用于根据预设参数对所述获取子模块获取到的通讯会话消息集合进行分割处理,得到至少两个通讯会话序列。
11.根据权利要求10所述的装置,其特征在于,所述预设参数包括第一时间间隔、第一预设关键词中的至少一种。
12.根据权利要求11所述的装置,其特征在于,所述分割子模块,用于当所述预设参数包括第一时间间隔时,判断所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔是否等于或大于预设时间间隔;当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,将所述相邻两个消息分割至两个不同的通讯会话序列中。
13.根据权利要求12所述的装置,其特征在于,所述分割子模块,用于当所述通讯会话消息集合中的相邻两个消息之间的第一时间间隔等于或大于预设时间间隔时,判断所述通讯会话消息集合中的消息中是否包含第一预设关键词,所述第一预设关键词包括第一开始关键词、第一结束关键词中的至少一种;当所述通讯会话消息集合中的消息中包括所述第一开始关键词时,将所述消息和与其相邻的前一个消息分割至两个不同的通讯会话序列中;当所述通讯会话消息集合中的消息中包括所述第一结束关键词时,将所述消息和与其相邻的后一个消息分割至两个不同的通讯会话序列中。
14.根据权利要求9所述的装置,其特征在于,所述第一确定模块确定的特征包括以下特征中的至少一种:
所述消息中包含第二预设关键词,所述第二预设关键词包括第二开始关键词、第二结束关键词中的至少一种;
相邻的所述消息之间的第二时间间隔;
相邻的所述消息具有相同来源;
相邻的所述消息中包含相同的属于预设词性的词;
所述消息中包含的属于所述预设词性的词;
所述消息的开始词;
所述消息的结束词。
15.根据权利要求9至14中任意一项所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取至少两个样本通讯会话序列;
第三确定模块,用于根据预设特征集合确定所述第二获取模块获取的至少两个样本通讯会话序列的特征;
第四确定模块,用于确定所述第二获取模块获取的至少两个样本通讯会话序列的场景标注信息;
生成模块,用于根据所述第三确定模块确定的至少两个样本通讯会话序列的特征及所述第四确定模块确定的至少两个样本通讯会话序列的场景标注信息进行模型训练,生成所述预设模型。
16.根据权利要求9至14中任意一项所述的装置,其特征在于,所述场景标注信息包括开始会话场景、中间会话场景、结束会话场景和无关会话场景中的至少一种。
17.一种信息分割装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取通讯会话序列,所述通讯会话序列包括至少两个消息;
确定所述通讯会话序列的特征;
根据所述通讯会话序列的特征及预设模型,确定所述通讯会话序列中每个消息的场景标注信息;其中,所述预设模型是预先根据至少两个样本通讯会话序列的特征及其场景标注信息训练获得的;
按照所述场景标注信息对所述通讯会话序列进行场景分割。
CN201510921092.1A 2015-12-11 2015-12-11 信息分割方法及装置 Pending CN105389296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510921092.1A CN105389296A (zh) 2015-12-11 2015-12-11 信息分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510921092.1A CN105389296A (zh) 2015-12-11 2015-12-11 信息分割方法及装置

Publications (1)

Publication Number Publication Date
CN105389296A true CN105389296A (zh) 2016-03-09

Family

ID=55421593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510921092.1A Pending CN105389296A (zh) 2015-12-11 2015-12-11 信息分割方法及装置

Country Status (1)

Country Link
CN (1) CN105389296A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657157A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种从会话内容中提取会话对的方法
CN106709072A (zh) * 2017-02-13 2017-05-24 长沙军鸽软件有限公司 一种基于共享语料库获得智能会话回复内容的方法
CN106844732A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 针对无法直接采集的会话场景标签进行自动获取的方法
CN106844735A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 一种自动建立个人专属语料库的方法
CN106844734A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 一种自动生成会话回复内容的方法
CN106844347A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 一种根据会话内容提取会话对的方法
CN106874451A (zh) * 2017-02-13 2017-06-20 长沙军鸽软件有限公司 一种自动建立个人专属语料库的方法
CN106874452A (zh) * 2017-02-13 2017-06-20 长沙军鸽软件有限公司 一种获取会话回复内容的方法
CN107015968A (zh) * 2017-04-27 2017-08-04 长沙军鸽软件有限公司 一种基于共享语料库主动发起会话的方法
CN107071181A (zh) * 2017-04-27 2017-08-18 长沙军鸽软件有限公司 一种自动匹配通讯联系人的方法
CN107092696A (zh) * 2017-04-27 2017-08-25 长沙军鸽软件有限公司 一种主动发起会话的方法
CN107103083A (zh) * 2017-04-27 2017-08-29 长沙军鸽软件有限公司 一种机器人实现智能会话的方法
CN107102988A (zh) * 2017-04-27 2017-08-29 长沙军鸽软件有限公司 一种基于个人专属语料库主动发起会话的方法
CN107122459A (zh) * 2017-04-27 2017-09-01 长沙军鸽软件有限公司 一种机器人实现智能会话的方法
CN107122458A (zh) * 2017-04-27 2017-09-01 长沙军鸽软件有限公司 一种基于共享语料库主动发起会话的方法
CN108075962A (zh) * 2016-11-16 2018-05-25 阿里巴巴集团控股有限公司 即时通讯对话的场景识别方法、装置及系统
CN110830362A (zh) * 2019-10-28 2020-02-21 维沃移动通信有限公司 一种生成内容的方法、移动终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN104166643A (zh) * 2014-08-19 2014-11-26 南京金娃娃软件科技有限公司 一种智能问答系统中的对话行为分析方法
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN104166643A (zh) * 2014-08-19 2014-11-26 南京金娃娃软件科技有限公司 一种智能问答系统中的对话行为分析方法
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田野 等: "短信息的会话检测及组织", 《软件学报》 *
石晶: "文本分割综述", 《计算机工程与应用》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108075962A (zh) * 2016-11-16 2018-05-25 阿里巴巴集团控股有限公司 即时通讯对话的场景识别方法、装置及系统
CN106844347A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 一种根据会话内容提取会话对的方法
CN106657157B (zh) * 2017-02-13 2020-04-07 长沙军鸽软件有限公司 一种从会话内容中提取会话对的方法
CN106844735A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 一种自动建立个人专属语料库的方法
CN106844734A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 一种自动生成会话回复内容的方法
CN106657157A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种从会话内容中提取会话对的方法
CN106874451A (zh) * 2017-02-13 2017-06-20 长沙军鸽软件有限公司 一种自动建立个人专属语料库的方法
CN106874452A (zh) * 2017-02-13 2017-06-20 长沙军鸽软件有限公司 一种获取会话回复内容的方法
CN106844732B (zh) * 2017-02-13 2020-05-08 长沙军鸽软件有限公司 针对无法直接采集的会话场景标签进行自动获取的方法
CN106709072A (zh) * 2017-02-13 2017-05-24 长沙军鸽软件有限公司 一种基于共享语料库获得智能会话回复内容的方法
CN106844732A (zh) * 2017-02-13 2017-06-13 长沙军鸽软件有限公司 针对无法直接采集的会话场景标签进行自动获取的方法
CN107015968A (zh) * 2017-04-27 2017-08-04 长沙军鸽软件有限公司 一种基于共享语料库主动发起会话的方法
CN107102988A (zh) * 2017-04-27 2017-08-29 长沙军鸽软件有限公司 一种基于个人专属语料库主动发起会话的方法
CN107122459A (zh) * 2017-04-27 2017-09-01 长沙军鸽软件有限公司 一种机器人实现智能会话的方法
CN107122458A (zh) * 2017-04-27 2017-09-01 长沙军鸽软件有限公司 一种基于共享语料库主动发起会话的方法
CN107071181B (zh) * 2017-04-27 2020-01-10 长沙军鸽软件有限公司 一种自动匹配通讯联系人的方法
CN107092696A (zh) * 2017-04-27 2017-08-25 长沙军鸽软件有限公司 一种主动发起会话的方法
CN107103083A (zh) * 2017-04-27 2017-08-29 长沙军鸽软件有限公司 一种机器人实现智能会话的方法
CN107071181A (zh) * 2017-04-27 2017-08-18 长沙军鸽软件有限公司 一种自动匹配通讯联系人的方法
CN110830362B (zh) * 2019-10-28 2022-04-22 维沃移动通信有限公司 一种生成内容的方法、移动终端
CN110830362A (zh) * 2019-10-28 2020-02-21 维沃移动通信有限公司 一种生成内容的方法、移动终端

Similar Documents

Publication Publication Date Title
CN105389296A (zh) 信息分割方法及装置
CN105119812A (zh) 在聊天界面更改表情符号的方法、装置及终端设备
CN104219388A (zh) 语音控制方法和装置
CN105095345A (zh) 推送消息的提示方法及装置
CN105162693A (zh) 消息显示方法及装置
CN105488026A (zh) 关注话题的提醒方法及装置
CN105389304A (zh) 事件提取方法及装置
CN105528415A (zh) 信息交互方法及装置
CN105260360A (zh) 命名实体的识别方法及装置
CN104536935A (zh) 计算显示方法、计算编辑方法及装置
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN105355195A (zh) 音频识别方法及装置
CN105224601A (zh) 一种提取时间信息的方法和装置
CN104281703A (zh) 统一资源定位符url间相似度计算的方法及装置
CN105426878A (zh) 人脸聚类方法及装置
CN105511777A (zh) 触控显示屏上的会话显示方法及装置
CN105095366A (zh) 文字消息处理方法和装置
CN104636164A (zh) 启动页面生成方法及装置
CN105511739A (zh) 消息提醒方法及装置
CN110941727B (zh) 一种资源推荐方法、装置、电子设备及存储介质
CN108270661B (zh) 一种信息回复的方法、装置和设备
CN111382748A (zh) 图像翻译方法、装置及存储介质
CN105159472A (zh) 输入法切换方法及装置
CN105094364A (zh) 词汇显示方法和装置
CN105551047A (zh) 图片内容的检测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160309