CN103430578A - 用于标识多个字符串中的对话的方法和装置 - Google Patents

用于标识多个字符串中的对话的方法和装置 Download PDF

Info

Publication number
CN103430578A
CN103430578A CN2010800709501A CN201080070950A CN103430578A CN 103430578 A CN103430578 A CN 103430578A CN 2010800709501 A CN2010800709501 A CN 2010800709501A CN 201080070950 A CN201080070950 A CN 201080070950A CN 103430578 A CN103430578 A CN 103430578A
Authority
CN
China
Prior art keywords
dialogue
arbitrary
data
contact person
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800709501A
Other languages
English (en)
Inventor
饶京海
田继雷
田野
王冠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN103430578A publication Critical patent/CN103430578A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

用于标识多个段字符串中的对话的技术包括至少部分基于连续的字符串之间的时间间距、从与用户的第一联系人关联的第一多个字符串确定第一对话部分和第二对话部分。第一对话部分(片段)包括第一多个字符串中的多个字符串;并且第二片段包括第一多个字符串中的不同的多个字符串。确定用于第一片段的第一语义内容和用于第二片段的第二语义内容。至少部分地基于第一语义内容与第二语义内容的相似度确定是否将第一片段和第二片段合并成包括第一片段的第一对话。

Description

用于标识多个字符串中的对话的方法和装置
背景技术
服务提供商和设备制造商(例如无线、蜂窝等)在例如通过提供有吸引力的网络服务来向消费者递送价值和便利上不断受到挑战。包括电子邮件(电子邮件)、即时消息(IM)、短消息服务(SMS)和社交网络服务在内的一类很流行的服务允许用户相互交换消息。通常按照用户与之交换消息的联系人和发送或者递送消息的时间来组织消息。在一些境况中,用户可以偏好于基于讨论主题对来自联系人的多个消息分组,而这些服务中的许多服务未提供这样的选项。实际上,利用具有对消息的字符限制并且无主题行的服务、比如SMS和社交联网服务,难以断定个别消息的主题。
发明内容
因此,需要一种用于标识多个字符串中的对话的方式。
根据一个实施方式,一种方法包括基于连续的字符串之间的时间间距,从与用户的第一联系人关联的第一多个字符串确定第一对话部分和不同的第二对话部分,所述第一对话部分包括所述第一多个字符串中的多个字符串,所述第二对话部分包括所述第一多个字符串中的不同的多个字符串。该方法还包括确定用于第一对话部分的第一语义内容和用于第二对话部分的第二语义内容。该方法还包括至少部分地基于第一语义内容与第二语义内容的相似度来确定是否将第一对话部分和第二对话部分合并成包括第一对话部分的第一对话。
根据另一实施方式,一种方法包括促进访问至少一个接口,该至少一个接口被配置为允许访问至少一个服务,该至少一个服务被配置为执行上述方法中的所有或者部分方法。
根据另一实施方式,一种装置包括至少一个处理器和至少一个存储器,该至少一个存储器包括计算机程序代码,该至少一个存储器和该计算机程序代码被配置为与该至少一个处理器一起至少部分地使得该装置执行上述方法中的所有或者部分方法。
根据另一实施方式,一种计算机可读存储介质承载一个或者多个指令的一个或者多个序列,一个或者多个指令的一个或者多个序列在由一个或者多个处理器执行时至少部分地使装置执行上述方法中的所有或者部分方法。
根据另一实施方式,一种设备包括用于执行上述方法中的所有或者部分方法的装置。
仅通过举例说明多个具体实施方式和实现方式从以下具体描述中容易清楚本发明的更多其它方面、特征和优点,这些具体实施方式和实现方式包括设想的用于实现本发明的最佳实施方式。本发明也能够有其它和不同实施方式并且可以在各种明显方面修改它的若干细节而都未脱离本发明的精神实质和范围。因而,附图和描述将视为在性质上为示例而非限制。
附图说明
在附图的各图中通过示例而非通过限制来举例说明本发明的实施方式:
图1A是根据一个实施方式的能够标识多个短文本串中的对话的系统的图;
图1B是根据一个实施方式的图1A的系统的数据流框架的图;
图2A是根据一个实施方式的示例性文本串主题拓扑的图;
图2B是根据一个实施方式的词汇表和主题数据结构的图;
图2C是根据一个实施方式的用户文本串数据结构的图;
图3A是根据一个实施方式的用于标识多个短文本串中的对话的客户端过程的流程图;
图3B是根据一个实施方式的在图3A的过程中的步骤的流程图;
图4A-4D是根据各种实施方式的在图3的过程中利用的用户接口的图;
图5是根据一个实施方式的用于标识多个短文本串中的对话的服务过程的流程图;
图6A-6B是根据一个实施方式的、比较根据一个实施方式标识的对话与人工定义的对话的图;
图7是可以用来实施本发明的一个实施方式的硬件的图;
图8是可以用来实施本发明的一个实施方式的芯片组的图;以及
图9是可以在本发明的一个实施方式中使用的移动终端(例如手持机)的图。
具体实施方式
公开了一种用于标识多个字符串中的对话的方法、装置和计算机程序的示例。在下文描述中,出于说明的目的,阐述了许多具体细节以便提供对本发明的实施方式的透彻理解。然而本领域技术人员清楚,无这些具体细节仍可实现或者可以用等效布置来实现本发明的实施方式。在其它实例中,以框图形式示出公知结构和设备以免不必要地模糊本发明的实施方式。
如这里所用,术语用户例如指代通过通信网络使用服务或者设备的实体,其中实体可以是个人或者组织。联系人例如指代服务的如下不同用户,用户通过服务与该不同用户通信。如这里所用,术语字符串指代任何数据,并且在示出的实施方式中,文本串指代从通过通信网络在用户的设备与用户的联系人的设备之间发送的任何类型的消息得出的字符序列。例如具有关联的发送或者递送或者接收时间的任何消息可以用作文本串的来源,这些消息包括有字符限制并且无主题行元数据的电子邮件和消息,比如SMS消息、IM消息和向社交网络服务发表的评论以及其它消息或者某一组合。从有字符限制的来源得出的字符串可以称为短文本串。对话例如指代如下一个或者多个文本或者其它字符串的汇集,该一个或者多个文本或者其它字符串被确定为在时间和主题上被聚类并且例如与用户的一个联系人和与汇集的文本串关联的任何内容关联。虽然关于在移动终端交换的SMS消息描述各种实施方式,但是设想这里描述的方式可以与一种或者多种类型的消息中的任何消息内的其它文本串来源一起单独地或者以任何组合方式使用,所述消息是在通信网络上的移动终端或者固定节点处交换的。
图1是根据一个实施方式的能够标识多个短文本串中的对话的系统100的图。为了方便而称为用户A至用户M的、数目为M的用户分别运用用户设备(UE)101a至101m(下文统称为UE101)以各自访问网络服务110以及由省略号指示的并且在下文中统称为网络服务110的其它服务。在一些实施方式中,服务110与UE101上的服务专属客户端过程117交互。在一些实施方式中,服务110与UE101上的称为浏览器107的更通用万维网客户端过程交互。服务110中的每个服务通常包括用于保持与服务有关的数据的服务数据存储库114,该数据包括被称为用户简档数据的关于服务的每个用户的数据。
一些服务110基于时间统计量或者基于从个别消息推断的语义内容标识对话。尽管电子邮件提供主题行并且允许能够被挖掘语义内容的相当长的消息,但是在IM、SMS和社交联网评论中使用的短文本串未提供主题行和用于支持语义分析的充足文本。在多数情况下,任一条短消息都属于具体的对话,但是现有消息传送工具不能提供一种用于揭示这样的隐藏对话的有效组织方法。因此,未基于语义内容将用于这样的短文本串的消息组织成对话,并且可能按照时间统计量将若干不同对话混杂在一起。另外,可能将单个对话错误地表示为不同对话。现有的消息传送管理工具简单地根据时间、发送者/接收者或者内容来组织消息。检测一个对话中的短文本的线索并且将它们组织为对话可以帮助人们快速想起对话场景并且掌握核心内容。因此,包括一个或者多个具有短文本串的消息的现有消息组织方法是有缺陷的。
为了提供一种适合于IM、SMS和社交团体对话的创新的消息传送管理工具,提供了一种用于基于短文本的社交/时间属性和内容的主题相关度将短文本自动组织成有意义对话的机制和方法。图1的系统100引入了用于标识多个短文本串中的对话的能力。标识对话服务150确定适合于短文本串业务的语义词汇表和主题模型或者确定模型的一个或者多个参数,以基于时间聚类和语义相似度或者某一组合而从短文本串形成对话。在短文本词汇表数据存储库数据结构154中存储词汇表和主题模型。标识对话客户端过程152监控在用户设备、例如在UE101m处与一个或者多个服务110交换的消息,提取包括一个或者多个短文本串的文本串并且至少部分地基于语义词汇表和主题模型和语义相似度将那些文本串和任何关联内容组织成对话。标识对话客户端152在一些实施方式中也确定用于对话的标签,并且通过直接生成用户接口或者通过服务客户端117或者通过浏览器107来将对话信息与任何标签一起呈现给UE101m的用户。在一些实施方式中,服务110包括标识对话代理156,其参与服务110与标识对话服务150之间的交互,例如以便获得标识对话客户端152以用于安装于客户端117中。
虽然出于示例的目的而表示为在连接到网络105的节点的特定布置中的整体块,但是在其它实施方式中,按不同顺序布置一个或者多个过程或者数据结构或者其一部分。例如,服务150例如在云计算布置中具有客户端152的功能中的一些或者所有功能。
如图1A中所示,系统100包括用户设备(UE)101,该UE具有经由通信网络105的与服务110和标识对话服务150的连通。举例而言,系统100的通信网络105包括一个或者多个网络、比如数据网络(未示出)、无线网络(未示出)、电话网络(未示出)或者其任何组合。设想数据网络可以是任何局域网(LAN)、城域网(MAN)、广域网(WAN)、公共数据网(例如因特网)、短程无线网络或者任何其它适当分组交换网络、比如商业上拥有的专有分组交换网络如专有线缆或者光纤网络等或者其任何组合。此外,无线网络可以例如是蜂窝网络并且可以运用包括全球演进增强数据速率(EDGE)、通用分组无线电服务(GPRS)、全球移动通信系统(GSM)、网际协议多媒体子系统(IMS)、通用移动电信系统(UMTS)等的各种技术以及任何其它适当无线介质、例如全球微波接入互操作性(WiMAX)、长期演进(LTE)网络、码分多址(CDMA)、宽带码分多址(WCDMA)、无线保真(WiFi)、无线LAN(WLAN)、蓝牙
Figure BDA00003410460900061
、网际协议(IP)数据播送、卫星、移动自组织网络(MANET)等或者其任何组合。
UE101可以是任何类型的移动终端、固定终端或者便携式终端,该终端包括移动手持机、站、单元、设备、多媒体计算机、多媒体写字板、因特网节点、通信器、桌面型计算机、膝上型计算机、笔记本计算机、上网本计算机、写字板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数字相机/可携式摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任何组合——包括这些设备的附件和外设——或者其任何组合。也设想UE101可以支持与用户的任何类型的接口(比如“可佩戴”电路装置等)。在一些实施方式中,UE101中的一个或者多个UE包括情境引擎103,这些情境引擎确定UE101的当前环境,比如设备标识符、安装的装备、当前时间、与网络105的当前连通(包括信号强度和噪声电平)、功率电平以及当前执行的过程。
举例而言,UE101使用公知的、新型或者仍在开发的协议来相互通信并且与通信网络105的其它部件通信。在本文中,协议包括定义通信网络105内的网络节点如何基于通过通信链路发送的信息相互交互的规则集合。协议在每个节点内的不同操作层有效,并且这些操作层从生成和接收各种类型的物理信号到选择用于传送那些信号的链路到那些信号指示的信息的格式、到标识在计算机系统上执行的哪个软件应用发送或者接收信息是有效的。在开放系统互连(OSI)参考模型中描述用于通过网络交换信息的在概念上不同的协议层。
通常通过交换离散数据分组来实现网络节点之间的通信。每个分组通常包括(1)与特定协议关联的报头信息和(2)净荷信息,该净荷信息跟随报头信息并且包含可以独立于该特定协议来处理的信息。在一些协议中,分组包括(3)尾部信息,该尾部信息跟随净荷并且指示净荷信息的结束。报头包括如下信息,比如分组的源、分组的目的地、净荷的长度和协议所使用的其它特性。用于特定协议的净荷中的数据经常包括用于与OSI参考模型的不同高层关联的不同协议的报头和净荷。用于特定协议的报头通常指示用于它的净荷中所含下一协议的类型。认为高层协议封装于低层协议中。在跨越多个异构网络(比如因特网)的分组中包括的报头通常包括如OSI参考模型定义的物理(第1层)报头、数据链路(第2层)报头、网络间(第3层)报头和传送(第4层)报头以及各种应用层(第5层、第4层和第7层)报头。
在各种设备上执行的过程经常使用广泛已知和使用的网络通信的客户端-服务器模型来通信。根据客户端-服务器模型,客户端过程向服务器过程发送包括请求在内的一个或者多个数据分组的消息,并且服务器过程通过提供服务来进行响应。服务器过程也可以向客户端过程返回具有响应的消息。客户端过程和服务器过程经常在被称为主机的不同计算机设备上执行并且使用用于网络通信的一个或者多个协议而经由网络进行通信。术语“服务器”常规地用来指代提供服务的过程或者该过程在其上运行的主机。类似地,术语“客户端”常规地用来指代进行请求的过程或者该过程在其上运行的主机。如这里所用,除非根据上下文另有明示,术语“客户端”和“服务器”指代过程而非主机。此外,出于包括可靠性、可伸缩性和冗余性以及其它方面在内的原因,服务器所执行的过程可以被分解以作为多个过程而在多个主机(有时称为等级(tier))上运行。在连接到通信网络的大多数设备(称为节点)上可用的公知客户端过程是万维网客户端(称为“web浏览器”或者简称为“浏览器”),该万维网客户端通过根据超文本传送协议(HTTP)格式化的消息与提供网页的、被称为万维网(WWW)服务器的大量服务器中的任一个服务器交互。如图1所示,UE101包括浏览器107。
在一个示例性实施方式中,通过关于时间序列的分级聚类将短文本串分组成下文称为片段的候选对话或者对话部分。其次,通过并入语义主题相关度测量来将片段合并到检测到的对话中,也称为标识的对话。而且,选择在主题模型中打分最高的主题的最有表示性的关键字以产生如下标签,该标签提供每个对话的核心内容的简洁概括。这些实施方式不仅根据不同联系人和时间来组织短文本消息而且自动检测相邻对话的边界,从而每个检测到的对话最可能与实际对话重合。
图1B是根据一个实施方式的图1A的系统的数据流框架的图。框架的主要部件包括监控的文本消息160、元数据提取模块172、社交分割模块174、时间聚类模块176、称为片段的有序候选对话162、片段文本提取模块180、基于主题的相关度测量模块186和片段合并模块188。基于主题的相关度测量模块186使用基于潜在狄利克雷分配(LDA)的主题模块192,LDA基于文本串的外部公共数据集合190。图1B的框架示出标识对话服务150和客户端152的组合功能而客户端152包括部件160至188并且服务150包括部件190和192。设想这些部件的功能可以在一个或者多个部件中被组合或者由等效功能的其它部件执行。
元数据提取模块172负责从文本消息提取发送/接收时间和发送者/接收者的标识符(ID),例如蜂窝电话号码或者用户姓名。社交分割模块174根据发送者/接收者的ID将来自一个或者多个服务的所有文本消息集合划分成子汇集,从而每个子汇集涵盖与具体联系人有关的所有对话。时间聚类模块176根据在与单个联系人的相邻文本消息之间的时间间隙将时间序列有序文本消息自动聚类成片段,以产生按照联系人164a、164b、164c至164m和时间排序的片段162。
片段文本提取模块180包括用于提供更长文本串以用于语义分析的词分割模块182和去除停用词模块184。
外部公共数据集合190是外部测试字符串的大型集合,这些外部测试字符串覆盖比如从如同twitter的网站汇集的许多日常生活方面的主题,以生成应用于片段文本以用于主题训练的主题模型。基于LDA的主题模块192从外部公共数据集合190提供在日常生活中频繁讨论的主题。将每个主题表示为来自词汇表的词语集合,这些词语后跟随有指示它们在涉及该主题的文本中的出现的概率。基于主题的相关度测量模块186以测量这里称为片段的相邻候选对话的语义相关度为目标。片段合并模块188通过组合相邻片段的时间相似度与主题相关度来测量在相邻片段之间的相关性。基于相关性的值,可以合并片段以形成自动检测到的对话。
在各种实施方式中,基于数据结构154中存储的词汇表和主题模型确定语义并且可以通过LDA或者任何其它方法来构造语义。例如在各种实施方式中,本领域公知的概率潜在语义编索引(pLSI)或者潜在狄利克雷分配(LDA)用来从文档集合中的词语推断主题。这样的方法可以用来从涉及网络服务消费者的日常境况的文档集合得出短文本串词语和主题。由于每个主题与某些相对充裕度中的一组词语关联,所以存在将主题与词语相关并且将子主题与更高级主题相关的拓扑。
图2A是根据一个实施方式的示例性文本串主题拓扑200的图。该文本串主题拓扑是与在一个或者多个文本串中使用的主题和词语相比较的分级拓扑。在顶级或者根级是从许多用户聚集的公共文本串数据集合作为整体得出的文本串词汇表201。该文本串词汇表不同于其它词汇表,例如不同于从不同训练文档集合构造的生物或者文学或者语言语义词汇表。在根级以下是顶级类别203a至203i,这些顶级类别是各自涵盖一个或者多个子主题的顶级文本串主题,比如时间文本串、空间文本串、活动文本串。每个主题由规范名称和零个或者更多个同义词表示,该同义词包括不同语言中的相同名称,比如在顶级类别203a中的同义词204a和在顶级类别203i中的同义词204i。一个或者多个顶级类别可以包括一个或者多个下一级类别205a至205j和205k至205L,每个下一级类别分别具有它们的对应同义词206a、206j、206k和206L。例如,时间文本串子类别包括当日时间、星期几、月的日期、月和季度。介于中间的级如果有则由省略号指示。在最深级,最深类别207a至207m和对应同义词208a至208m分别表示个别词语或者短语、比如周一、钟点、半点、四十五分、一月、夏天。个别词语可以出现于多个较高级类别中,例如周一出现于周和非周末类别中。
在一些实施方式中、例如在基于LDA的实施方式中,在根级文本串词汇表201以下仅有两级类别,例如主题和词语。每个主题由词语集合定义,每个词语有特定出现百分比范围。在这些实施方式中的一些实施方式中,V个词语的词汇表由V维向量表示;并且每个词语由在除了与该特定词语对应的位置之外的所有位置均为零的V维向量表示。诸如冠词、前置词、代词和公用词语的低意义的词语被忽略。Z个主题中的每个主题由V维向量表示,该V维向量具有通过相应词语位置中的百分比表示的主题中的每个词语的相对出现概率。所有主题由V×Z矩阵表示。
当在文档中找到来自文本串词汇表的词语时,该词语被认为是包括该词语的不同主题的混合,具有例如使用已知的LDA方法基于文档中的词语的百分比而分配给每个主题的百分比概率。作为结果,整个文档可以通过在文档中找到的具有分配给每个主题的概率度量的一组主题表示,例如,在向量的每个位置中具有变化概率的Z维向量。这样的向量在这里被称为标记。可以通过计算表示两个文档的两个Z维向量(标记)的相似度(比如对应项的乘积之和)来比较这些文档。备选地或者附加地,可以计算两个文档之间的距离度量,该距离度量随着两个标记的相似性变小而增加。可以使用任何距离度量,比如零阶距离(具有最大差异的坐标的绝对值)、1阶距离(Z个差异的绝对值之和)、二阶距离(Z个差异的平方之和——等效于欧几里得距离)、三阶距离(绝对值的立方之和)等。来自两个文档的标记越相似或者在这些标记之间的距离越小,文档彼此就越相关。在下文描述中,假设已经定义并且在文本串词汇表数据结构中存储例如如图2中所示的文本串词汇表。一个或者多个消息的集合的文本串由文本串标记表示。消息集合的文本串标记越相似,例如它们之间的距离测量越小,一个消息集合就与另一消息集合越相关。
在一些实施方式中,词汇表数据结构154是V×(Z+1)矩阵,其中前V个元素指示词汇表中的也称为关键字的每个词语;接下来的V个元素指示每个关键字在第一主题中的概率;接下来的V个元素指示在下一主题中的概率,等等。
在一些实施方式中,首先将数据集合划分成固定数目的人工选择的主题,例如包括体育、政治、商业、健康等的50个主题,并且应用LDA以确定关键字在每个人工选择的主题中的概率。在这些实施方式中的一些实施方式中,如图2B中所示那样存储词汇表。图2B是根据一个实施方式的词汇表和主题数据结构210的图。词汇表数据结构210包括用于每个主题的主题条目字段220、由省略号指示的其它主题,其在下文中统称为主题条目字段220。每个主题条目字段220包括第一关键字字段222a、第一关键字出现率(或者概率)字段224a、第二关键字字段222b、第二出现率字段224b以及由省略号指示的其它关键字和出现率字段。关键字字段222a、222b和由省略号指示的其它关键字字段在下文中称为关键字字段222。类似地,出现率字段224a、224b和由省略号指示的其它出现率字段在下文中称为比率字段224。在一些实施方式中,按从最高出现率到最低出现率的顺序将关键字字段222和关联的比率字段224包括在内。在一些实施方式中,个别主题由主题条目字段220在词汇表数据结构210中的顺序标识。在一些实施方式中,个别主题由具有最高比率的一个或者多个关键字标识。在一些实施方式中,主题由在向主题条目字段220中添加的另一字段中包括的人工提供的名称(例如体育)标识。
虽然出于示例的目的而在图2A中描绘并且接着在图2B中描述数据结构和字段为在特定布置中的整体块,但是在其它实施方式中,在连接到网络105的一个或者多个设备上的一个或者多个数据结构或者数据库上按不同顺序布置数据结构或者字段或者其一部分,或者省略一个或者多个字段,或者添加其它字段,或者以某一方式组合来改变数据结构。
在一些实施方式中,将文本串存储为标识转换客户端152所维护的用户文本串数据结构250中的有序片段162。图2C是根据一个实施方式的用户文本串数据结构250的图。用户文本串数据结构250包括用于用户的每个如下联系人的联系人条目字段260a、260b以及由省略号指示的其它联系人条目字段(下文统称为联系人条目字段260),该联系人的消息被监控。每个联系人条目字段260包括联系人标识符(ID)字段261和用于在处理期间标识的每个片段的片段字段270a、270b以及由省略号指示的其它片段字段(下文统称为片段字段270)。
每个片段字段270包括用于从通过一个服务100与联系人交换的一个消息中提取的每个文本串的时间戳字段262a、262b以及由省略号指示的其它时间戳字段(下文统称为时间戳字段262)。时间戳字段容纳如下数据,该数据指示如元数据提取模块172所确定的何时通过通信网络发送对应文本串。在一些实施方式中,针对在另一用户的UE101a的发送时间、在服务110的接收时间、在服务110的发送时间或者在UE101m的接收时间之间的差异来校正时间戳。在一些实施方式中,忽略一个或者多个这样的时间差。
每个片段字段270包括用于从通过一个服务110与联系人交换的一个消息中提取的每个文本串的文本串字段264a、264b以及由省略号指示的其它文本串字段(下文统称为文本串字段264)。文本串字段264容纳指示从消息中提取的文本的数据。
每个片段字段274包括用于从通过一个服务110与联系人交换的一个消息中提取的每个文本串的服务数据字段266a、266b以及由省略号指示的其它服务数据字段(下文统称为服务数据字段266)。服务数据字段266容纳指示用来发送消息的服务的数据。在一些实施方式中,如果用于服务中的联系人的标识符不同于在字段261中指示的标识符,则服务数据字段266也指示该标识符。在一些实施方式中,所有文本串与单个服务相关联;并且省略服务数据字段266。
每个片段字段270包括用于从通过一个服务110与联系人交换的对应消息中提取的每个连续的文本串对的ΔT字段268a、268b以及由省略号指示的其它ΔT字段(下文统称为ΔT字段268)。ΔT字段264容纳指示当前时间戳字段与下一时间戳字段之间的时间差的数据,例如ΔT268a指示在时间戳字段262a中指示的时间与在时间戳字段262b中指示的时间之间的时间差。在各种实施方式中,在联系人条目字段260中记录的最后一条消息的ΔT字段268为空或者省略最后一条消息的字段268。在一些实现方式中,按照需要,基于在连续的时间戳字段262中指示的时间确定时间差;并且针对每个消息省略ΔT字段268。
图3A是根据一个实施方式的用于标识多个短文本串中的对话的客户端过程300的流程图。在一个实施方式中,标识对话客户端152执行过程300并且标识对话客户端152例如实施于如图8中所示的包括处理器和存储器的芯片组中或者实施于如图9中呈现的移动终端中。虽然在图3中以及在图3B和图5中的后续流程图中按特定顺序将步骤示为整体块,但是在其它实施方式中,按不同顺序或者在时间上重叠、字符串行或者并行执行或者省略其一个或者多个步骤或者部分或者添加一个或者多个其它步骤或者在方式组合中改变过程。
在步骤301中,按联系人确定和隔离文本串。任何方法可以用来确定文本串。例如,标识对话客户端152监控通过多个服务110在UE101m的用户M与其它UE101的用户之间的消息业务(例如来自电子邮件消息的长或短文本串和来自即使消息传送消息的短文本串)、向一个或者多个社交网络服务发表的评论或者在邮件中的用户已经表明对它的喜欢的文本、关于与一个或多个联系人关联的照片或者其它内容的元数据,所述照片或者其它内容是向一个或者多个服务发表或者从一个或者多个服务下载的。因此在步骤301中,从一个或者多个即使消息传送消息、或者从一个或者多个短消息服务消息、或者从用于与第一联系人交换的内容的一个或者多个元数据字段、或者从某一组合中得出与第一联系人文本串关联的文本串。出于示例的目的,假设标识对话客户端模块在服务110的客户端117内并且仅标识通过服务110交换的消息中的对话。
步骤301在一些实施方式中包括按联系人隔离文本串。在一些实施方式中,步骤301包括确定用于同一联系人的多个联系人标识符,例如通过向用户M查询用户A在若干服务上的标识符,例如查询用户A的电子邮件地址、蜂窝电话号码、IM标识符和社交网络标识符。在仅监控一个服务内的消息的一些实施方式中,步骤301包括按服务110中的联系人ID隔离消息而不向用户提示任何输入。在一些实施方式中,考虑所有消息而不管联系人如何;并且跳过按联系人隔离。
在示例性实施方式中,在步骤301期间,针对数据结构250中的每个联系人条目字段260填充时间戳字段262、文本串字段264和服务数据字段266(如果有的话),但是尚未划分成片段并且未必按时间增加的顺序排序。在一些实施方式中,步骤301由元数据提取模块172和社交分割模块174执行。例如在步骤301期间,根据发送者/接收者的姓名或者编号的元数据将SMS消息分类成多组。每组包含与指定的联系人交换的所有SMS消息。这一实施方式保证在不同联系人之间的对话不重叠。
在步骤303中,按时间对用于每个联系人的文本串排序。例如,按时间戳字段262中的数据所指示的值增加的顺序对每个联系人条目字段260中的字段排序。在一些实施方式中,步骤303包括在按时间排序之后确定连续的时间戳字段262所指示的时间之间的时间差,例如时间戳字段262a中指示的时间和时间戳字段262b中指示的时间之间的时间差。尚未执行按片段分离条目。
出于示例的目的,假设针对当前联系人有N个消息,这些消息具有对应时间戳tn,其中n=1,N。时间戳集合由符号T={tn,n=1,N}表示。将比如在ΔT字段268中存储的时间差的集合表示为DT={DTn,n=1,N-1},其中DTn表示在tn与t(n+1)之间的时间差。
在步骤305期间,在一个或者多个片段之中划分时间有序文本串,该一个或者多个片段是最终检测到的对话中的基于时间统计量的部分。在一个示例性实施方式中,对排序的SMS消息应用无监督聚类算法以根据在相邻文本串之间的时间间隙算出所有潜在片段(候选对话)。在这一流程路径结束时,对潜在的片段集合应用统计分析,以选择与实际对话部分尽可能近似的优化的片段集合。下文参照图3B更具体地描述步骤305。因此,步骤305包括基于在连续的文本串之间的时间间距,从与用户的第一联系人关联的第一多个文本串确定包括第一多个文本串中的多个文本串的第一对话部分(片段)和包括第一多个文本串中的不同多个文本串的不同第二对话部分(片段)。
图3B是根据一个实施方式的用于图3A的过程300中的步骤305的流程图。因此,过程350是步骤305的一个实施方式。在步骤351中,如上文描述的那样确定在相邻文本串之间的时间差DT。在步骤353中,确定并且按从最小到最大间隙大小的顺序排序数目为G的唯一间隙大小。排序的唯一间隙大小的集合由GS={GSg,g=1,G}表示,其中GSg是第g个最小间隙大小。
起初,每个文本串被视为用于N个潜在片段的集合的单独的潜在片段。术语聚类用来指代在每个潜在片段中包括的文本串的时间戳集合。因此,步骤353包括确定初始聚类集合。
步骤355至367表示G个回合的循环,该循环基于不同间隙大小和关联的质量测量来计算聚类。
在G个分级聚类回合之后,产生G+1个聚类集合,每个集合通常具有少于N个的聚类而在第G+1个聚类集合中具有所有聚类集合中的最少聚类。在步骤369中,评估G+1个聚类集合的质量测量以找到如下回合,该回合给予按照某一客观测量最优的聚类集合。来自该回合的聚类确定被组合成如下片段(例如对话部分)的文本串的时间戳,这些片段被考虑用于基于语义相似度的合并。
在步骤357中,取第k个最小间隙GSk作为用于对时间戳聚类的参考时间间隙。
在步骤359中,在相同聚类中接合以小于参考时间间隙的间隙间隔的文本串的时间戳。也就是说,在属于相同片段的任何相邻文本串之间的时间间隙等于或者小于参考时间间隙GSk,而在不同片段的边界上的文本串的相邻时间戳之间的间隙大于GSk。
出于示例的目的,每个回合由索引k指示,其中k=0,G;并且k=0指示在第一回合之前的初始聚类。在第k个回合上的聚类数目由Jk给定,在该回合期间的每个聚类由符号Cjk表示,其中j=1,Jk,并且在第k个回合上的第j个聚类中的时间戳由以下表达式给定:
Cjk={tq,q=pjk,pjk+Qjk-1}        (1a)
其中pjk是在第k个回合上的第j个聚类中的第一时间戳,并且Qjk是在第k个回合上的第j个聚类中的时间戳的数目。在每个回合中的聚类集合由下式表示:
ROUNDk=(Cjk,j=1,Jk}        (1b)
起初k=0、J0=N并且Qj0对于所有N个聚类均为1,因此:
Cj0={tq,q=j,j}={tj}        (2a)
并且因此:
ROUND0=(Cj0,j=1,N}         (2b)
然后,在步骤359期间的聚类导致满足如下条件:在聚类内时间差小于或者等于参考间隙,即:
t(q+1)–tq≤GSk,其中对于所有j,pjk≤q<pjk+Qjk-1     (3a)
并且在聚类之间时间差大于参考间隙,即:
t(q+1)–tq>GSk,其中对于所有j,q=pjk+Qjk-1      (3b)
步骤361至365确定聚类的客观质量测量。根据统计学,最优聚类对应于在聚类间间距与聚类内紧密度之间的最佳均衡点。
在步骤361期间确定聚类间间距;并且在步骤363期间确定聚类内紧密度。例如,基于等式4确定聚类间间距;而基于等式5确定聚类内紧密度。
Separation(ROUNDk)=Σ|mean(Cjk)–mean(T)|      (4)
j=1,Jk
Compact(ROUND)=Σ    Σ|tq-mean(Cjk)|      (5)
j=1,Jk   q
其中mean表示如下函数,该函数确定以下括号中的时间戳的算术均值。
在步骤365中,基于聚类间间距和聚类内紧密度确定第k个回合的质量测量。随着聚类数目增加,在较低k值处,等式4中的Separation的值单调增加,而等式5中的Compact的值单调减少。因此,最优平衡点实现最佳聚类质量。实验表明归一化的Separation(例如等式6b中的Sep)与归一化的Compact的指数变换(例如等式6c中的Scat)之和产生最佳种类识别准确度。因此,等式6a至6d针对每个回合定义效用或者质量函数Q。
MAX=Compact(ROUNDG)=Separation(ROUND0)     (6a)
Sep(ROUNDk)=Separation(ROUNDk)/MAX      (6b)
Scat(ROUNDk)=[Compact(ROUNDk)/MAX]α      (6c)
Q(ROUNDk)=Scat(ROUNDk)+Sep(ROUNDk)      (6d)
通过实验确定等式6c中的参数α的值。
在步骤367中确定是否已经尝试所有间隙大小,例如是否k=G。如果不是,例如如果k<G,则控制回到步骤355以在下一回合中使用下一间隙大小作为参考来确定聚类。如果已经尝试所有间隙大小,则在步骤369中使用如下聚类来形成片段,该聚类给予质量函数Q的最佳值。步骤369包括在G+1个聚类回合之中对函数Q的聚类值质量排序并且选择最小的一个来表示片段。出于示例的目的,假设回合B对应于最佳混合,因为它满足等式7。
ROUNDB=arg mink=0,G[Q(ROUNDk)]     (7)
步骤369结束图3A中的步骤305。因此,已经将每个文本串分组成一个或者多个文本串的适当片段,例如候选对话部分。如片段字段270指示的那样,在用户文本串数据结构250中存储这一信息,例如作为每个片段中的文本串的第一个和最后一个时间戳。
然而,可以仅基于时间聚类将持续长时间跨度的对话分离成若干片段。已认识到,如果两个候选对话属于相同对话,则它们应当聚焦于相同主题。有利地,由于作为时间聚类的结果已经在片段中对短文本串进行分组,所以片段在文本上比每个个别文本串丰富得多,尤其是比个别短文本串更丰富。因此,语义分析更有效地适用于在每个片段中分组的这些文本串的组合文本。基于这一考虑,通过并入基于主题模型的语义分析来修正时间聚类的结果。
在步骤307中,确定相邻片段的语义相似度。步骤307包括从每个文本消息提取文本串。然后将提取的文本放在一起以形成用于每个时间聚类的片段。然后对每个片段应用词语分割和停用词去除这些基本自然语言处理(NLP)技术。应用基于大型外部数据集合的主题模型。下文参照图5中的标识对话服务150的过程更具体地描述主题模型的形成。因此,步骤307包括基于文本串库确定语义词汇表和主题。出于示例的目的,假设主题模型包括由YZ,Z=1,Z表示的Z个主题。回顾YZ是用于上至V个关键字中的每个关键字的出现率的向量。因此,步骤307包括确定用于第一对话部分(片段)的第一语义内容和用于第二对话部分(片段)的第二语义内容。
在一个示例性实施方式中,在步骤307期间,比较从时间聚类获得的片段与主题模型的主题以形成主题相关度的向量。回顾在第k个回合上的聚类数目由Jk给出并且回合B提供最高质量的聚类,因此存在由符号dj,j=1,JB表示的用于当前联系人的JB个片段。用于第j个片段dj的第z个主题z=1,Z的相关度由rjz给出并且其是在片段dj和主题Yz中同时出现的词语的概率之和Prob,如等式8中所定义的。 rjz = &Sigma; word &Element; Yz &cap; dj Prob ( word ) - - - ( 8 )
片段dj的语义含义由向量Rj={rjz,z=1,Z}给出,该向量是在Z维空间中的点。在每个维度中的值反映它与对应主题的相关度。因此,步骤307包括至少部分地基于语义词汇表和主题来确定第一语义内容和第二语义内容。
步骤307包括确定相邻片段之间的语义相关度。对于两个相邻片段dj和d(j+1),按照等式9a定义它们的主题相关度:
RELj,(j+1)=max(min(rjz,r(j+1)z,z=1,Z)        (9a)
其中min是如下函数,该函数产生以下括号中的值列表中的最小值,并且max是如下函数,该函数产生以下括号中的值列表中的最大值。用于相关度测量的根本概念基于在某个主题下的两个片段之间的相关度由较不相关的片段确定并且全局相关度由最多50个维度反映这样的考虑。然后,针对当前联系人的所有JB个片段确定主题相关度向量,如等式9b所给出的。
RELEVANCY=[REL(j-1),j,j=1,JB]T          (9b)
其中上标T表示向量转置运算。
在步骤309中,确定相邻片段的时间相关度。例如,考虑在两个相邻候选转换之间的时间距离。回顾在第k个回合的第j个片段中的文本串数目由Qjk给出,在回合k中存在Jk个片段并且针对回合B获得最佳聚类。因此,在时间聚类之后有JB个片段而在第j个片段中有QjB个文本串。在每个片段中的时间戳由等式1a给出,其中k=B。使用等式10a来计算在两个相邻片段之间的表示为TEMPORAL的时间相关性:
TEMPORALj,(j+1)=exp[-|tp(j+1)B–t(pjB+QjB-1)|/P],for1≤j<JB     (10a)其中从j+1个片段tp(j+1)的第一个时间戳减去第j个片段t(pjB+QjB-1)的最后的时间戳;并且实验确定参数P。在一个示例性实施方式中,P是10000秒。如等式10b给出的那样构造用于当前联系人的所有片段的时间相关性向量TEMPORAL。
TEMPORAL=[TEMPORALj,(j+1),j=1,JB-1]      (10b)
在一些实施方式中,省略步骤309,并且在合并相邻片段时仅考虑语义相关性。
在步骤311中,确定组合的相关性测量是否超过阈值。例如,将主题相关度REL和时间相似度TEMPORAL组合在一起,以测量在两个相邻片段之间的相关性。根据等式11确定参数CORRELATION。
CORRELATIONj,(j+1)=TEMPORALj,(j+1)×RELj,(j+1)其中1≤j<JB
(11)
然后,图3B中所描述的分级聚类算法与表示第j个片段与第j+1个片段之间的距离的CORRELATIONj,(j+1)值一起用来确定是否将片段合并到检测到的对话中。因此动态确定阈值。在一些实现方式中,使用基于实验的预定阈值;并且合并比预定阈值更近的片段。因此,步骤311包括至少部分地基于第一语义内容与第二语义内容的相似度来确定是否将第一对话部分(片段)和第二对话部分(片段)合并到包括第一对话部分的第一对话中。
在步骤313中,如果组合的相似度未超过动态或者预定阈值则确定将相邻片段合并到当前对话中。因此,在步骤313中,确定是否合并第一对话部分和第二对话部分还包括如果确定相似度超过相似度阈值则组合第一对话部分与第二对话部分。
在步骤315中,如果组合的相似度未超过动态或者预定阈值则确定开始新对话。因此,在步骤315中,确定是否合并第一对话部分和第二对话部分还包括如果确定相似度未超过相似度阈值则将第二对话部分放入不同的第二对话中。
在步骤317中,确定是否存在用于相同联系人的更多数据。如果是这样,则控制回到上文描述的步骤307。在未使用预定阈值的一些实施方式中,省略步骤317。
在步骤321中,确定是否存在将针对其标识对话的另一联系人,如果是,则控制回到上文描述的步骤303。在一些实施方式中,将用于所有联系人的消息合并在一起,并且省略步骤321。
在步骤323中,通过由客户端152直接准备的在UE101m上的显示器或者通过客户端117或者通过浏览器107向用户(例如UE101m的用户M)呈现检测到的对话。在一些实施方式中,步骤323包括基于针对在检测到的对话中包括的一个或者多个或者大多数片段具有高相关度的一个或者多个主题的关键字确定用于每个对话的标签。
在每个检测到的对话内,提取主题的关键字。在一些实施方式中,从训练的主题模型选择用于对话w的最相关主题。假设主题Yx是用于检测到的对话w的最相关主题。Yx应当满足x=arg max rwz,z=1,Z这样的条件。此后,选择检测到的对话w和主题中的有最高概率的主题Yx共有的词语作为检测到的对话w的关键字。
因此,步骤323包括至少部分地基于用于第一语义内容的语义主题确定用于第一对话的第一对话标签。步骤323也包括呈现指示第一对话标签的数据。
图4A-4D是根据各种实施方式、在图3的过程中利用的用户接口的图。图4A是图示在UE101处呈现的示例性屏幕401的图。屏幕401包括如下显示器的设备工具栏410部分,该设备工具栏410部分包括零个或者更多活跃区域。如公知的那样,活跃区域是显示器的如下部分,用户可以使用指示设备(比如光标和光标移动设备或者触摸屏)来指向该部分以使得包括显示器的设备发起动作。公知的活跃区域形式是独立按钮、单选按钮、下拉菜单、滚动列表和文本框以及其它活跃区域形式。虽然出于示例的目的而在图4A至4D中将区域、活跃区域、视窗和工具栏描绘为特定布置中的整体块,但是在其它实施方式中,一个或者多个屏幕、视窗或者活跃区域或者其一部分按不同顺序来布置、具有不同类型、或者省略一个或者多个、或者包括附加区域、或者在方式组合中改变用户接口。
出于示例的目的,假设设备工具栏410包括活跃区域411、413、415a和415b。活跃区域411由用户激活以显示UE101上安装的可以被起动以开始执行的应用,比如电子邮件应用或者视频播发器或者标识对话客户端应用。活跃区域413由用户激活以显示UE101的当前境况,比如当前日期和时间、位置以及信号强度。在一些实施方式中,活跃区域413是在激活时扩展的缩略图,该缩略图描绘当前时间、用于移动终端的信号强度或者二者。活跃区域415a由用户激活以显示UE内置的工具,比如相机、闹钟、自动转盘、联系人列表、GPS和web浏览器。活跃区域415b由用户激活以显示UE上存储的内容,比如图片、视频、音乐、语音备忘录等。
屏幕401也包括对话用户接口(UI)区域420,在该区域中,标识对话客户端152直接或者通过客户端117或浏览器107来控制显示的数据。根据一些实施方式,对话UI区域420包括多个联系人信息区域422a、4222b、422c、422d以及其它联系人信息区域,在下文中将上述联系人信息区域统称为联系人信息区域422。将滚动栏424包括在内,以便将当前未在对话UI420中可见的联系人(如果有的话)移入区域420中可见。
每个联系人信息区域422呈现如下信息,该信息指示用于用户的一个联系人的联系人标识符(ID)、指示联系人的图标或者虚拟化身(如果有的话)、如果一个以上服务由标识对话客户端152监控则指示用来交换文本消息的服务以及所标识的与该联系人的对话的数目。在其它实施方式中,在每个联系人信息区域422中包括更多或者不同项。因此,对话UE402包括呈现如下数据,该数据指示针对用户的多个联系人中的每个联系人确定的对话的数目。
如果用户激活联系人信息区域422,则呈现修改的对话UI区域430,如图4B中所示。图4B是图示在UE101处呈现的示例性屏幕402的图。在所示的实施方式中,对话UI区域430包括联系人信息区域432和一个或者多个对话信息活跃区域434a、434b、434c、434d,对话信息活跃区域434a、434b、434c和434d在下文中统称为对话信息区域434。将滚动栏436包括在内,以便将当前未在对话UI430中可见的对话信息区域434(如果有的话)移入区域430中可见。
每个对话信息区域434呈现如下信息,该信息指示用于用户的一个联系人的联系人标识符(ID)、对话的开始时间和结束时间以及如在步骤315期间确定的并且如上所述的标记对话的一个或者多个关键字。在其它实施方式中,在每个对话信息区域434中包括更多或者不同项。因此,对话UI430包括呈现如下数据,该数据指示与第一联系人的多个对话中的每个对话。
如果用户激活对话信息区域434,则呈现修改的对话UI区域440,如图4C中所示。图4C是图示在UE101处呈现的示例性屏幕403的图。在所示的实施方式中,对话UI区域440包括联系人信息区域442、对话信息区域444和一个或者多个文本串信息活跃区域446a、446b、446c、446d,文本串信息活跃区域446a、446b、446c、446d在下文中统称为文本串信息区域446。将滚动栏448包括在内,以便将当前未在对话UI440中可见的文本串信息区域446(如果有的话)移入区域430中可见。如在图4B中描绘的对话信息区域434中那样,可以在对话信息区域444中示出在步骤315期间从对话中提取的关键字。
每个文本串信息区域446呈现如下信息,该信息指示用于用户的一个联系人的联系人标识符(ID)、用于文本串的时间戳和从标识对话客户端152所监控的一个消息提取的文本串。在一些实施方式中,传入消息为一种颜色,并且传出消息为不同的颜色。在其它实施方式中,在每个文本串区域434中包括更多或者不同项。例如在一些实施方式中,在文本串信息中也呈现与文本串关联的内容,比如音频文件或者图像。在一些实施方式中,在常规UI区域440中也呈现与对话信息区域444中的标签中的关键字有关的广告。
在一些实施方式中,用户可以例如通过激活每个文本串信息区域446中的“删除”或者“移动”活跃区域来改变对话中的文本串。
如果用户激活文本串信息区域4464,则呈现如图4D中所示的修改的对话UI区域450。图4D是图示在UE101处呈现的示例性屏幕404的图。在所示实施方式中,对话UI区域450包括联系人信息区域452、文本串信息区域454、文本串区域456和一个或者多个按钮458a、458b、458c,按钮458a、458b和458c在下文中统称为按钮458。
每个文本串区域456包括与联系人交换的一个消息的全文和任何关联内容。例如在一些实现方式中,在文本串区域456中也呈现与文本串关联的内容,比如音频文件或者图像。在一些实施方式中,在对话UI区域450中也呈现与文本串中的关键字有关的广告。在一些实施方式中,在文本串区域456中包括滚动栏以便将当前未在区域456中可见的文本或者内容(如果有的话)移入区域456中可见。
如在用于一个或者多个服务110的消息接口上常见的那样,按钮458包括分别用于删除消息、答复消息或者向另一用户转发消息的删除按钮458a、答复按钮458b和转发按钮458c。
因此,在对话UI440中,步骤323也包括与第一对话标签关联地呈现指示第一对话部分(片段)的数据。
在步骤325中,确定用户是否已经例如通过将一个检测到的对话拆分成两个或者更多单独对话或者通过将单独的检测到的对话合并成单个对话来改变对话。如果不是,则控制转到下文描述的步骤331。如果是这样,则在步骤327中,该改变用来确定是否应当改变一个或者多个参数、比如α或者P或者任何预定义阈值以更好地匹配用户指示的结果。如果在步骤327中确定这样的改变,则向标识对话服务150传播它们以向其它UE101上的其它客户端152或者直接向客户端152传播。
在步骤331中,确定例如在新SMS消息中是否接收到新文本串。如果不是,则控制转到步骤335以确定是否满足结束条件。如果接收到新文本串,则在步骤333中确定新到来的文本串在整个全集中的比例是否超过某个阈值。如果是这样,则控制回到上文描述的步骤301以针对整个文本消息集合开始新的处理回合。如果不是,则控制回到步骤307以向现有对话添加新测试字符串或者基于语义相关度或者时间相关度或者二者来开始新对话。在一些实施方式中没有进行新分级聚类,但是代之以使用已经在更早语义和时间分析中确定的阈值作为预定阈值。
在一些实施方式中,步骤331包括与用于从传出消息提取的文本串的过程不同的用于从传入消息提取的文本串的过程。例如在一些实施方式中,向对话实时分配每个新到来的SMS消息以免每当新消息到来时应用上文提到的聚类算法,因为它不是时间高效的。因此,针对新SMS消息采用增量聚类模式。权衡运行时性能和聚类准确度,选用以下步骤。如果新到来的SMS消息与最后的SMS消息之间的时间间隙小于在最后的时间聚类中选择的最优间隙,则合并新到来的SIMS消息与它的最近对话。否则,开始新对话。如果新到来的SMS消息在整个全集中的比例超过某个阈值,则开始新时间聚类;并且重新计算片段相关性向量。针对传出消息,假设新消息属于新对话并且答复消息与它所答复的消息属于相同的对话。在一些实施方式中,为了检测用户何时完全为了方便而通过答复消息来开始新对话,也检查时间相关性阈值,并且如果超过阈值,则新对话无论如何都开始。
在步骤335中,确定是否满足结束条件、比如关掉应用。如果是这样,则过程结束;否则,控制回到步骤331以等待具有文本串的下一消息。
图5是根据一个实施方式的用于标识多个短文本串中的对话的服务过程500的流程图。
在步骤501中,接收短文本串消息库以作为公共数据集合来定义词汇表和主题。例如TWITTERTM现在变成用于实现信息共享和扩散的流行的web工具。内容已经覆盖关于普通日常生活方面的各种公共主题。此外,文本串通常较短,因此它们具有与这里描述的SMS消息和其它短消息相似的性质。基于这些考虑,从twitter汇集外部公共数据以用于训练主题模型。在应用服务器侧,web爬虫模块负责从twitter网站爬取包含指定的关键字的网页并且在可以应用主体模型的文档中组装它们。
在步骤503中,基于短文本串消息库确定文本串词汇表和主题。例如,运行LDA以自动确定关键字和主题。在一些实施方式中,包括人工操作。例如,从一个或者多个公共网站选择主题,并且汇集与那些主题关联的文本。LDA用来找到用于每个主题的关键字和概率。
在步骤505中,例如通过一个或者多个标识对话代理156的动作来向一个或者多个标识对话客户端152传播词汇表和主题。基于包括相似字段的消息而在一个或者多个词汇表数据结构210中本地地存储这些关键字和主题。
在步骤507中,向客户端传播相似度参数和聚类参数。例如,直接或者通过服务110上的代理156向一个或者多个UE101发送用于标识对话客户端152的脚本。在一些实施方式中,在步骤507期间传播用于参数α和P或者一个或者多个预定阈值的值。
在步骤509中,基于改变一个或者多个检测到的对话或者用于那些对话的主题标签的用户输入,从一个或者多个标识对话客户端152接收用于相似度参数的一个或者多个更新,比如用于参数α和P或者一个或者多个预定阈值的值。
在步骤511中,确定基于在步骤509中接收的更新来改变词汇表或者主题或者聚类参数的相似度参数。如果是这样,则将新值包括在内,以便在下次执行步骤505期间对其进行传播。
在步骤513中,确定是否满足结束条件,例如服务关闭或者词汇表完成。如果是这样,则过程结束,否则过程继续回到步骤505以如上文描述的那样传播具有任何更新的参数。
已经产生了测试实施方式。在6个月期间从50个大学生志愿者汇集的实际数据集合包括122,300个文本消息,按它们的所有者将这些文本消息分配给有意义的对话。这作为用于实验的基本事实。将实验划分成3个阶段。第一,选择来自5个不同志愿者的5个数据集合作为训练数据集合以调节等式(6c)中的参数α并且通过比较下文定义的F值来选择最适合的数据集合。第二,选择来自另一志愿者的1个数据集合作为测试数据集合以评估时间聚类质量。在第三阶段中,使用不同方式(即传统TF-IDF方式)、X Quan所提出的短文本串相关度算法和所示的实施方式,确定每个片段基于时间聚类的语义相关度。此后,基于对CORRELATIONj,(j+1)的分级聚类将片段合并到检测到的对话中。对从不同语义相关度计算方式获得的结果进行最终比较。
采用精确度、查全率和F值作为用于评估每种方式的有效性的最重要指标。定义这些指标如下。
Figure BDA00003410460900271
表1列出了用来学习用于α的优选值的训练数据集合。
志愿者/联系人 消息数目
A/A1 523
B/B3 576
C/C6 475
D/D4 492
E/E8 506
图6A-6B是根据一个实施方式的、用于比较根据一个实施方式的对话与人工定义的对话的图。图6A是F值的图,该F值作为表1的五个数据集合中的用于参数α的选择的函数。水平轴602表示训练数据集合,竖直轴604是无量纲的F值。如图6A所示,针对约为0.4的α获得最佳结果。在以下实验中使用这一α值。
在下一实验中,将分级时间聚类应用于测试数据集合以确定如下间隙,该间隙给予质量函数Q的最佳值。在表2中给出结果。
表2.时间聚类的结果
消息 实际对话 检测到的片段 参考间隙(小时)
1001 202 230 0.9034
如表2中所示,从1001个文本消息中检测出230个候选对话。实际对话数目是202。如果在任何相邻文本消息之间的时间距离不大于0.9034小时,则在相同片段中对它们进行分组。检测到的片段数目大于实际对话数目的原因在于,在某些情形中,人们在比检测到的最优参考时间距离0.9034小时更大的长时间段之后回归到未关闭的对话。一些这样的回归有望通过基于语义相关度合并片段来捕获。
在接下来的实验中,通过三种语义相关度计算算法方式尝试合并片段:TF-IDF、TBS和本发明的方式。TF-IDF是传统文本相似度计算算法;并且TBS是由Xiaojun Quan于2009年提出的。它们也利用LDA模型来比较两个文本消息之间的相似度。不同于示例性实施方式,它们首先将文本消息表示为向量并且使用TF-IDF来计算向量的每个元素的权值,然后它们选择出两个片段之间的不同词语并且用它们的对应片段的与指定的主题有关的概率来修改值。最后,通过计算两个修改的向量的余弦值来计算相似度。
在这里呈现的实验实施方式中,采用3种算法分别计算相邻片段之间的主题相关性。然后如上文参照等式11所描述的那样,通过将对应主题相关度与时间距离相乘来计算每个相邻片段之间的相关性。此后,应用分级聚类以针对所有三种算法将片段分组到检测到的对话中。在这一实验中,确定精确度、查全率和F值以测量三种方式的性能。基线也是志愿者自己人工标记的基本事实。在实验之后,注意在将文本内容分析与TBS和本发明的算法组合之后,精确度和查全率二者均得以提高,但是它对于TF-IDF方式保持不变或者甚至下降。认为这是由于TF-IDF仅基于词语同现来测量相似度。对照而言,在不同片段中存在相对少的共同词语,并且即使在它们共享共同词语时,它们也可以属于不同对话。图6B图示精确度、查全率和F值的改变。水平轴622指示所采用的方式,并且竖直轴624指示分数。针对每种方式,左栏是精确度分数,中间栏是查全率分数,并且右栏是F值。
可以有利地经由软件、硬件、固件或者软件和/或固件和/或硬件的组合来实施这里描述的用于标识多个短文本串中的对话的过程。例如,可以有利地经由处理器、数字信号处理(DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等实施这里描述的过程。下文具体描述这样的用于执行所描述的功能的示例性硬件。
图7图示了可以在其上实施本发明的一个实施方式的计算机系统700。虽然关于特定设备或者装备描绘计算机系统700,但是设想图7内的其它设备或者装备(例如网元、服务器等)可以部署系统700的所示硬件和部件。计算机系统700被编程(例如经由计算机程序代码或者指令)用于如这里描述的那样标识多个短文本串中的对话并且包括通信机制、比如用于在计算机系统700的其它内部与外部部件之间传递信息的总线710。将信息(也称为数据)表示为可测量现象的物理表达,该现象通常为电压、但是在其它实施方式中包括比如磁、电磁、压力、化学、生物、分子、原子、亚原子和量子互作用这样的现象。例如北和南磁场或者零和非零电压表示二进制数(位)的两个状态(0,1)。其它现象可以表示更高基数的数。在测量之前的多个同时量子状态的叠加表示量子位(qubit)。一个或者多个数的序列构成数字数据,该数字数据用来表示用于字符的编号或者代码。在一些实施方式中,称为模拟数据的信息由在特定范围内的可测量值的近连续统表示。计算机系统700或者其部分构成用于执行一个或者多个步骤的装置,该一个或者多个步骤标识多个短文本串中的对话。
总线710包括一个或者多个并行信息导体,从而在耦合到总线710的设备之间快速传送信息。用于处理信息的一个或者多个处理器702与总线710耦合。
一个处理器(或者多个处理器)702对信息执行如与标识多个短文本串中的对话有关的计算机程序代码指定的操作集。计算机程序代码是用于处理器和/或计算机系统的操作以执行指定功能的指令或者提供指令的语句的集合。例如可以用编译成处理器的本机指令集的计算机编程语言编写代码。也可以使用本机指令集(例如机器语言)来直接编写代码。操作集包括从总线710带入信息以及将信息置于总线710上。操作集也通常包括比较两个或者更多信息单位、移位信息单位的位置以及比如通过加法或者乘法或者逻辑运算如OR、异或(XOR)和AND组合两个或者更多信息单位。称为指令的信息、比如一个或者多个数的操作代码向处理器表示处理器可以执行的操作集的每个操作。将由处理器702执行的操作序列、比如操作代码序列构成也称为计算机系统指令或者简称为计算机指令的处理器指令。可以独自或者在组合中实施处理器为机械、电、磁、光学、化学或者量子部件以及其它部件。
计算机系统700也包括耦合到总线710的存储器704。存储器704,比如随机存取存储器(RAM)或者任何其它动态存储设备,存储信息,该信息包括用于标识多个短文本串中的对话的处理器指令。动态存储器允许其中存储的信息由计算机系统700改变。RAM允许在称为存储器地址的位置存储的信息单位与在邻近地址的信息独立地存储和取回。存储器704也由处理器702用来在执行处理器指令期间存储临时值。计算机系统700也包括耦合到总线710的只读存储器(ROM)706或者任何其它静态存储设备,该ROM或者任何其它静态存储设备用于存储计算机系统700未改变的包括指令的静态信息。一些存储器由在失去电力时丢失其上存储的信息的易失性存储装置组成。非易失性(持续)存储设备708、比如磁盘、光盘或者闪卡也耦合到总线710,该非易失性(持续)存储设备用于存储即使在计算机系统700被关断或者以别的方式失去电力时仍然持续的包括指令的信息。
从外部输入设备712(比如包含人类用户操作的文本数字键的键盘或者传感器)向总线710提供信息以用于由处理器使用,该信息包括用于标识多个短文本串中的对话的指令。传感器检测在它附近的条件并且将那些检测变换成与用来表示计算机系统700中的信息的可测量现象兼容的物理表达。主要用于与人类交互的、耦合到总线710的其它外部设备包括用于呈现文本或者图像的显示设备714、比如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、等离子体屏幕或者打印机以及用于控制在显示器714上呈现的小光标图像的位置并且发出与在显示器714上呈现的图元关联的命令的指示设备716、比如鼠标、跟踪球、光标方向键或者运动传感器。在一些实施方式中,例如在计算机系统700自动执行所有功能而无人类输入的实施方式中,省略外部输入设备712、显示设备714和指示设备716中的一个或者多个设备。
在所示实施方式中,比如专用集成电路(ASIC)720的专用硬件耦合到总线710。专用硬件被配置为出于特殊目的而足够快地执行处理器702未执行的操作。ASIC的示例包括用于为显示器714生成图像的图形加速器卡、用于加密和解密通过网络发送的消息的密码板、话音识别以及与特殊外部设备的接口,这些特殊外部设备比如是反复地执行在硬件中更高效实施的某一复杂操作序列的机器人手臂和医疗扫描装备。
计算机系统700也包括耦合到总线710的通信接口770的一个或者多个实例。通信接口770提供与多种外部设备的单向或者双向通信耦合,这些外部设备用它们自己的处理器操作、比如打印机、扫描仪和外部盘。一般而言,耦合是与连接到本地网络780的网络链路778,多种外部设备连接到该本地网络,这些外部设备具有它们自己的处理器。例如通信接口770可以是个人计算机上的并行端口或者字符串行端口或者通用字符串行总线(USB)端口。在一些实施方式中,通信接口770是提供与对应电话线类型的信息通信连接的综合服务数字网络(ISDN)卡或者数字用户线(DSL)卡或者电话调制解调器。在一些实施方式中,通信接口770是线缆调制解调器,该调制解调器将总线710上的信号转换成用于通过同轴线缆的通信连接的信号或者用于通过光纤线缆的通信连接的光学信号。作为另一示例,通信接口770可以是用于提供与兼容LAN、比如以太网的数据通信连接的局域网(LAN)卡。也可以实施无线链路。对于无线链路,通信接口770发送或者接收或者发送和接收输送信息流、比如数字数据的电、声或者电磁信号,这些信号包括红外线和光学信号。例如在无线手持设备、比如移动电话如蜂窝电话中,通信接口770包括称为无线电收发器的无线电频带电磁发送器和接收器。在某些实施方式中,通信接口770实现与通信网络105的连接用于在UE101标识多个短文本串中的对话。
如这里所用,术语“计算机可读介质”指代参与向处理器702提供信息的任何介质,该信息包括用于执行的指令。这样的介质可以采用许多形式,这些形式包括但不限于计算机可读存储介质(例如非易失性介质、易失性介质)和传输介质。非瞬态介质、比如非易失性介质例如包括光盘或者磁盘、比如存储设备708。易失性介质例如包括动态存储器704。传输介质例如包括双绞线缆、同轴线缆、铜线、光纤线缆和经过空间行进而无接线或者线缆的载波、比如声波和电磁波,这些电磁波包括无线电波、光波和红外线波。信号包括通过传输介质发送的在幅度、频率、相位、极化或者其它物理性质上的人为瞬态变化。常见计算机可读介质形式例如包括软盘、柔性盘、硬盘、磁带、任何其它磁介质、CD-ROM、CDRW、DVD、任何其它光学介质、打孔卡、纸带、光学标记片、具有孔图案或者其它光学可识别戳记的任何其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、EEPROM、闪存、任何其它存储器芯片或者盒、载波或者计算机可以从其读取的任何其它介质。术语计算机可读存储介质这里用来指代除了传输介质之外的任何计算机可读介质。
在一个或者多个有形介质上编码的逻辑包括计算机可读存储介质上的处理器指令和专用硬件、比如ASIC720中的一项或者两项。
网络链路778通常通过一个或者多个网络使用传输介质向使用或者处理信息通信的其它设备提供信息。例如网络链路778可以提供通过本地网络780的与主机计算机782或者与因特网服务提供商(ISP)操作的装备784的连接。ISP装备784又通过现在普遍称为因特网790的一个或者多个公共全球范围分组交换通信网络提供数据通信服务。
连接到因特网的称为服务器主机792的计算机主控响应于通过因特网接收的信息提供服务的过程。例如服务器主机792主控提供信息的过程,该信息表示用于在显示器714呈现的视频数据。设想系统700的部件可以在各种配置中部署于其它计算机系统、例如主机782和服务器792内。
本发明的至少一些实施方式与将计算机系统700用于实施这里描述的技术中的一些或者所有技术有关。根据本发明的一个实施方式,计算机系统700响应于处理器702执行存储器704中包含的一个或者多个处理器指令的一个或者多个序列来执行那些技术。可以从另一计算机可读介质、比如存储设备708或者网络链路778向存储器704中读取也称为计算机指令、软件和程序代码的这样的指令。对存储器704中包含的指令序列的执行使处理器702执行这里描述的方法步骤中的一个或者多个方法步骤。在备选实施方式中,硬件、比如ASIC720可以取代软件或者与软件组合用来实施本发明。因此,除非这里另有明示,本发明的实施方式不限于硬件与软件的任何具体组合。
经过通信接口770、通过网络链路778和其它网络发送的信号承载去往和来自计算机系统700的信息。计算机系统700可以通过网络链路778和通信接口770、通过网络780、790以及其它网络发送和接收包括程序代码的信息。在使用因特网790的示例中,服务器主机792通过因特网790、ISP装备784、本地网络780和通信接口770发送从计算机700发送的消息所请求的用于特定应用的程序代码。接收的代码可以在它被接收时由处理器702执行或者可以存储于存储器704中或者存储设备708或者其它非易失性存储装置中用于以后执行或者兼而有之。以这一方式,计算机系统700可以用载波上的信号这一形式获得应用程序代码。
在向处理器702输送一个或者多个指令序列或者数据或者指令序列和数据二者以用于执行时,可以涉及到各种形式的计算机可读介质。例如,可以起初在远程计算机、比如主机782的磁盘上承载指令和数据。远程计算机向它的动态存储器中加载指令和数据并且使用调制解调器通过电话线发送指令和数据。计算机系统700本地的调制解调器在电话线上接收指令和数据并且使用红外线发送器以将指令和数据转换成适于作为网络链路778的红外线载波上的信号。适于作为通信接口770的红外线检测器接收红外线信号中承载的指令和数据并且将表示指令和数据的信息置于总线710上。总线710向存储器704输送信息,处理器702从该存储器取回指令并且使用与指令一起发送的数据中的一些数据来执行指令。在存储器704中接收的指令和数据可以可选地在由处理器702执行之前或者之后存储于存储设备708上。
图8图示了可以在其上实施本发明的一个实施方式的芯片组或者芯片800。芯片组800被编程以用于如这里所描述的那样标识多个短文本串中的对话并且例如包括在一个或者多个物理封装(例如芯片)中并入的、关于图7描述的处理器和存储器部件。举例而言,物理封装包括一个或者多个材料、部件和/或接线在结构组件(例如基板)上的布置,该布置用于提供一个或者多个特性、比如物理强度、尺寸节约和/或电互作用限制。设想在某些实施方式中,可以在单个芯片中实施芯片组800。还设想在某些实施方式中,可以实施芯片组或者芯片800为单个“片上系统”。还设想在某些实施方式中,例如将未使用单独ASIC并且如这里公开的所有相关功能将由一个或者多个处理器执行。芯片组或者芯片800或者其部分构成用于执行一个或者多个步骤的装置,该一个或者多个步骤提供与功能的可用性关联的用户接口导航信息。芯片组或者芯片800或者其部分构成用于执行一个或者多个步骤的装置,该一个或者多个步骤标识多个短文本串中的对话。
在一个实施方式中,芯片组或者芯片800包括通信机制,比如用于在芯片组800的部件之间传递信息的总线801。处理器803具有与总线801的连通以执行例如在存储器805中存储的指令并且处理例如在存储器805中存储的信息。处理器803可以包括一个或者多个处理核而每个核被配置为独立执行。多核处理器在单个物理封装内实现多处理。多核处理器的示例包括两个、四个、八个或者更大数目的处理核。备选地或者附加地,处理器803可以包括经由总线801字符串接配置为实现独立执行指令、流水线和多线程的一个或者多个微处理器。处理器803也可以附带有用于执行某些处理功能和任务的一个或者多个专门化部件、比如一个或者多个数信号处理器(DSP)807或者一个或者多个专用集成电路(ASIC)809。DSP807通常被配置为与处理器803独立地实时处理现实信号(例如声音)。类似地,ASIC809可以被配置为执行更通用处理器不容易执行的专门化功能。用于辅助执行这里描述的发明功能的其它专门化部件可以包括一个或者多个现场可编程门阵列(FPGA)(未示出)、一个或者多个控制器(未示出)或者一个或者多个其它专用计算机芯片。
在一个实施方式中,芯片组或者芯片800仅包括一个或者多个处理器以及支持和/或涉及和/或用于一个或者多个处理器的一些软件和/或固件。
处理器803和附带部件具有经由总线801的与存储器805的连通。存储器805包括用于存储可执行指令的动态存储器(例如RAM、磁盘、可写入光盘等)和静态存储器(例如ROM、CD-ROM等)二者,这些可执行指令在被执行时执行这里描述的用于提供用于标识多个短文本串中的对话的发明步骤。存储器805也存储与发明步骤的执行关联或者通过执行发明步骤来生成的数据。
图9是根据一个实施方式的能够在图1的系统中操作的用于通信的移动终端(例如手持机)的示例性部件的图。在一些实施方式中,移动终端901或者其一部分构成用于执行一个或者多个步骤的装置,该一个或者多个步骤标识多个短文本串中的对话。一般而言,经常在前端和后端特性方面定义无线电接收器。接收器的前端涵盖所有射频(RF)电路装置,而后端涵盖所有基带处理电路装置。如在本申请中所用,术语“电路装置”指代以下二者:(1)仅硬件的实现方式(比如在仅模拟和/或数字电路装置中的实现方式)和(2)电路装置与软件(和/或固件)的组合(比如如果适用于特定情境则指代包括数字信号处理器的处理器、软件和存储器的组合,这些处理器、软件和存储器一起工作以使装置、比如移动电话或者服务器执行各种功能)。“电路装置”的这一定义适用于这一术语在本申请中、包括在任何权利要求中的所有使用。作为又一示例,如在本申请中所用并且如果适用于特定情境,则术语“电路装置”也将覆盖仅一个处理器(或者多个处理器)及其附带软件/或者固件的实现方式。术语“电路装置”如果适用于特定情境则也将例如覆盖移动电话中的基带集成电路或者应用处理器集成电路或者蜂窝网络设备或者其它网络设备中的相似集成电路。
电话的相关内部部件包括主控制单元(MCU)903、数字信号处理器(DSP)905和接收器/发送器单元,该接收器/发送器单元包括麦克风增益控制单元和扬声器增益控制单元。主显示单元907向用户提供支持各种应用和移动终端功能的显示,这些应用和移动终端功能执行或者支持用于标识多个短文本串中的对话的步骤。显示器907包括显示电路装置,该显示电路装置被配置为显示移动终端(例如移动电话)的用户接口的至少部分。此外,显示器907和显示电路装置被配置为有助于用户控制移动终端的至少一些功能。音频功能电路装置909包括麦克风911和放大从麦克风911输出的话音信号的麦克风放大器。向编码器/解码器(CODEC)913馈送从麦克风911输出的放大的话音信号。
无线电部915放大功率并且转换频率以便经由天线917与移动通信系统中包括的基站通信。如本领域中所知,功率放大器(PA)919和发送器/调制电路装置在操作上响应于MCU903而来自PA919的输出耦合到双工器921或者循环器或者天线开关。PA919也耦合到电池接口和功率控制单元920。
在使用中,移动终端901的用户向麦克风911中讲话,并且他的或者她的语音与任何检测到的背景噪音一起转换成模拟电压。然后通过模数转换器(ADC)923将模拟电压转换成数字信号。控制单元903向DSP905中传送数字信号用于其中的处理、比如话音编码、信道编码、加密和交织。在一个实施方式中,未单独示出的单元使用蜂窝传输协议、比如全球演进(EDGE)、通用分组无线电服务(GPRS)、全球移动通信系统(GSM)、网际协议多媒体子系统(IMS)、通用移动电信系统(UMTS)等以及任何其它适当无线介质、例如微波接入(WiMAX)、长期演进(LTE)网络、码分多址(CDMA)、宽带码分多址(WCDMA)、无线保真(WiFi)、卫星等或者其任何组合对处理的语音信号编码。
然后向均衡器925传送编码的信号以用于补偿在经过空气传输期间出现的任何依赖于频率的削弱,比如相位和幅度失真。在均衡位流之后,调制器927组合信号与RF接口929中生成的RF信号。调制器927通过频率或者相位调制生成正弦波。为了准备信号用于传输,上变频转换器931组合从调制器927输出的正弦波与合成器933生成的另一正弦波以实现希望的传输频率。然后通过PA919发送信号以将信号增加至适当功率电平。在实际系统中,PA919充当可变增益放大器,该放大器的增益由DSP905根据从网络基站接收的信息来控制。然后在双工器921内对信号滤波并且可选地向天线耦合器935发送以匹配阻抗从而提供最大功率传送。最后经由天线917向本地基站传输信号。可以供应自动增益控制(AGC)以控制接收器的末级的增益。可以从这里向远程电话转发信号,该远程电话可以是另一蜂窝电话、任何其它移动电话或者是连接到公共交换电话网络(PSTN)或者其它电话网络的陆线。
经由天线917接收向移动终端901发送的语音信号并且立即由低噪声放大器(LNA)937进行放大。下变频器939降低载波频率而解调器941剥离RF从而仅留下数字比特流。信号然后穿过均衡器925并且由DSP905处理。数模转换器(DAC)943转换信号并且通过扬声器945向用户发送所得输出,所有这些都在可以实施为中央处理单元(CPU)(未示出)的主控制单元(MCU)903的控制之下。
MCU903接收包括来自键盘947的输入信号的各种信号。与其它用户输入部件(例如麦克风911)组合的键盘947和/或MCU903包括用于管理用户输入的用户接口电路装置。MCU903运行用户接口软件以有助于用户控制移动终端901的至少一些功能以标识多个短文本串中的对话。MCU903也分别向显示器907和向话音输出切换控制器递送显示命令和切换命令。另外,MCU903与DSP905交换信息并且可以访问可选地并入的SIM卡949和存储器951。此外,MCU903执行终端的所需各种控制功能。DSP905可以根据实现方式对语音信号执行多种常规数字处理功能中的任何数字处理功能。此外,DSP905根据麦克风911检测的信号确定本地环境的背景噪声电平并且将麦克风911的增益设置成为了补偿移动终端901的用户的自然倾向而选择的电平。
CODEC913包括ADC923和DAC943。存储器951存储包括呼叫传入音频数据的各种数据并且能够存储包括例如经由全球因特网接收的音乐数据的其它数据。软件模块可以驻留于RAM存储器、闪存、寄存器或者本领域已知的任何其它形式的可写入存储介质中。存储器设备951可以是但不限于单个存储器、CD、DVD、ROM、RAM、EEPROM、光学存储装置、磁盘存储装置、闪存存储装置或者是能够存储数字数据的任何其它非易失性存储介质。
可选地并入的SIM卡949例如承载重要信息,比如蜂窝电话号码、供应服务的承运商、预订细节和安全信息。SIM卡949主要服务于在无线电网络上标识移动终端901。卡949也包含用于存储个人电话号码注册表、文本消息和用户专属移动终端设置的存储器。
尽管已经结合多个实施方式和实现方式描述本发明,但是本发明不限于此而是覆盖落入所附权利要求的范围内的各种明显修改和等效布置。虽然在权利要求之中的某些组合中表达本发明的特征,但是设想可以在任何组合和顺序中布置这些特征。

Claims (28)

1.一种方法,包括:
至少部分地基于连续的字符串之间的时间间距,从至少部分地与用户的第一联系人关联的第一多个字符串确定第一对话部分和不同的第二对话部分,所述第一对话部分包括所述第一多个字符串中的多个字符串,所述第二对话部分包括所述第一多个字符串中的不同的多个字符串;
确定用于所述第一对话部分的第一语义内容和用于所述第二对话部分的第二语义内容;以及
至少部分地基于所述第一语义内容与所述第二语义内容的相似度来确定是否将所述第一对话部分和所述第二对话部分合并成包括所述第一对话部分的第一对话。
2.根据权利要求1所述的方法,其中确定是否合并所述第一对话部分和所述第二对话部分还包括如果确定所述相似度超过相似度阈值则将所述第一对话部分和所述第二对话部分组合成所述第一对话。
3.根据权利要求1-2中的任一权利要求所述的方法,其中确定是否合并所述第一对话部分和所述第二对话部分还包括如果确定所述相似度未超过相似度阈值则将所述第二对话部分放入不同的第二对话中。
4.根据权利要求1-3中的任一权利要求所述的方法,还包括至少部分地基于用于所述第一语义内容的语义主题来确定用于所述第一对话的第一对话标签。
5.根据权利要求4所述的方法,还包括呈现指示所述第一对话标签的数据。
6.根据权利要求5所述的方法,还包括与所述第一对话标签关联地呈现指示所述第一对话部分的数据。
7.根据权利要求1-6中的任一权利要求所述的方法,其中从一个或者多个即时消息传送消息、或者一个或者多个短消息服务消息、或者用于与所述第一联系人交换的内容的一个或者多个元数据字段、或者某一组合中得出至少部分地与所述第一联系人关联的所述字符串。
8.根据权利要求1-7中的任一权利要求所述的方法,其中:
所述第一联系人是所述用户的多个联系人之一;以及
所述方法还包括呈现数据,所述数据指示针对所述用户的所述多个联系人中的每个联系人确定的对话的数目。
9.根据权利要求1-8中的任一权利要求所述的方法,其中:
所述第一对话是与所述第一联系人的多个对话之一;以及
所述方法还包括呈现数据,所述数据指示与所述第一联系人的所述多个对话中的每个对话。
10.根据权利要求1-9中的任一权利要求所述的方法,其中:
所述方法还包括基于字符串库来确定语义词汇表和主题;以及
确定所述第一语义内容和所述第二语义内容至少部分地基于所述语义词汇表和主题。
11.根据权利要求1-10中的任一权利要求所述的方法,其中至少部分地基于连续的字符串之间的时间间距来确定所述第一对话部分和所述第二对话部分还包括对所述时间间距执行分级聚类分析。
12.根据权利要求1-11中的任一权利要求所述的方法,其中确定是否合并所述第一对话部分和所述第二对话部分还包括至少部分地基于对连续的对话部分的语义内容的差异执行分级聚类分析来确定相似度阈值。
13.根据权利要求1-12中的任一权利要求所述的方法,其中确定是否合并所述第一对话部分和所述第二对话部分还包括至少部分地基于对相关值的差异执行分级聚类分析来确定相似度阈值,所述相关值基于连续的对话部分的语义内容差异和时间差异的组合。
14.一种方法,包括促进对至少一个接口的访问,所述至少一个接口被配置为允许访问至少一个服务,所述至少一个服务被配置为执行根据权利要求1-13中的任一权利要求所述的方法的一个或者多个步骤。
15.一种装置,包括:
至少一个处理器;以及
至少一个存储器,其包括用于一个或者多个程序的计算机程序代码,
所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少执行以下:
至少部分地基于连续的字符串之间的时间间距,从至少部分地与用户的第一联系人关联的第一多个字符串确定第一对话部分和不同的第二对话部分,所述第一对话部分包括所述第一多个字符串中的多个字符串,所述第二对话部分包括所述第一多个字符串中的不同的多个字符串;
确定用于所述第一对话部分的第一语义内容和用于所述第二对话部分的第二语义内容;以及
至少部分地基于所述第一语义内容与所述第二语义内容的相似度来确定是否将所述第一对话部分和所述第二对话部分合并成包括所述第一对话部分的第一对话。
16.根据权利要求15所述的装置,其中确定是否合并所述第一对话部分和所述第二对话部分还包括如果确定所述相似度超过相似度阈值则将所述第一对话部分和所述第二对话部分组合成所述第一对话。
17.根据权利要求15-16中的任一权利要求所述的装置,其中确定是否合并所述第一对话部分和所述第二对话部分还包括如果确定所述相似度未超过相似度阈值则将所述第二对话部分放入不同的第二对话中。
18.根据权利要求15-17中的任一权利要求所述的装置,其中还使得所述装置至少部分地基于用于所述第一语义内容的语义主题来确定用于所述第一对话的第一对话标签。
19.根据权利要求18所述的装置,其中还使得所述装置呈现指示所述第一对话标签的数据。
20.根据权利要求19所述的装置,其中还使地所述装置与所述第一对话标签关联地呈现指示所述第一对话部分的数据。
21.根据权利要求15-20中的任一权利要求所述的装置,其中从一个或者多个即时消息传送消息、或者一个或者多个短消息服务消息、或者用于与所述第一联系人交换的内容的一个或者多个元数据字段、或者某一组合中得出至少部分地与所述第一联系人关联的所述字符串。
22.根据权利要求15-21中的任一权利要求所述的装置,其中:
所述第一联系人是所述用户的多个联系人之一;以及
还使得所述装置呈现数据,所述数据指示针对所述用户的所述多个联系人中的每个联系人确定的对话的数目。
23.根据权利要求15-22中的任一权利要求所述的装置,其中:
所述第一对话是与所述第一联系人的多个对话之一;以及
还使得所述装置呈现数据,所述数据指示与所述第一联系人的所述多个对话中的每个对话。
24.根据权利要求15-23中的任一权利要求所述的装置,其中:
还使得所述装置基于字符串库来确定语义词汇表和主题;以及
确定所述第一语义内容和所述第二语义内容至少部分地基于所述语义词汇表和主题。
25.根据权利要求15-24中的任一权利要求所述的装置,其中所述装置是移动电话,所述移动电话还包括:
用户接口电路和用户接口软件,被配置为促进用户通过使用显示器来控制所述移动电话的至少一些功能并且被配置为对用户输入做出响应;以及
显示器和显示电路,被配置为显示所述移动电话的用户接口的至少一部分,所述显示器和显示电路被配置为促进用户控制所述移动电话的至少一些功能。
26.一种计算机可读存储介质,承载一个或者多个指令的一个或者多个序列,所述一个或者多个指令的所述一个或者多个序列在由一个或者多个处理器执行时,使得装置执行根据权利要求1-14中的任一权利要求所述的方法的全部或者部分。
27.一种计算机程序产品,包括一个或者多个指令的一个或者多个序列,所述一个或者多个指令的所述一个或者多个序列在由一个或者多个处理器执行时,使得装置执行根据权利要求1-14中的任一权利要求所述的方法的全部或者部分。
28.一种设备,包括用于执行根据权利要求1-14中的任一权利要求所述的方法的装置。
CN2010800709501A 2010-10-27 2010-10-27 用于标识多个字符串中的对话的方法和装置 Pending CN103430578A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/078153 WO2012055100A1 (en) 2010-10-27 2010-10-27 Method and apparatus for identifying a conversation in multiple strings

Publications (1)

Publication Number Publication Date
CN103430578A true CN103430578A (zh) 2013-12-04

Family

ID=45993060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800709501A Pending CN103430578A (zh) 2010-10-27 2010-10-27 用于标识多个字符串中的对话的方法和装置

Country Status (3)

Country Link
US (1) US20130273976A1 (zh)
CN (1) CN103430578A (zh)
WO (1) WO2012055100A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761314A (zh) * 2014-01-26 2014-04-30 句容云影响软件技术开发有限公司 一种多功能对话信息控制方法
CN104731982A (zh) * 2015-04-17 2015-06-24 天天艾米(北京)网络科技有限公司 一种动态群演化生成方法
CN106657157A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种从会话内容中提取会话对的方法
CN107066450A (zh) * 2017-05-27 2017-08-18 国家计算机网络与信息安全管理中心 一种基于学习的即时通信会话切分技术与方法
CN109564580A (zh) * 2016-05-17 2019-04-02 谷歌有限责任公司 使用消息交换线程促进有效搜索
CN112260930A (zh) * 2019-07-02 2021-01-22 国际商业机器公司 创建跨通信信道的全局对话线程的系统和方法
CN112612391A (zh) * 2020-12-28 2021-04-06 维沃移动通信有限公司 消息处理方法、装置和电子设备
US11398996B2 (en) 2019-07-02 2022-07-26 International Business Machines Corporation System and method to create global conversation thread across communication channels

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9558165B1 (en) * 2011-08-19 2017-01-31 Emicen Corp. Method and system for data mining of short message streams
US8380803B1 (en) * 2011-10-12 2013-02-19 Credibility Corp. Method and system for directly targeting and blasting messages to automatically identified entities on social media
US8903714B2 (en) 2011-12-21 2014-12-02 Nuance Communications, Inc. Concept search and semantic annotation for mobile messaging
US9569432B1 (en) * 2012-08-10 2017-02-14 Google Inc. Evaluating content in a computer networked environment
US9288123B1 (en) 2012-08-31 2016-03-15 Sprinklr, Inc. Method and system for temporal correlation of social signals
US10003560B1 (en) * 2012-08-31 2018-06-19 Sprinklr, Inc. Method and system for correlating social media conversations
US9641556B1 (en) 2012-08-31 2017-05-02 Sprinklr, Inc. Apparatus and method for identifying constituents in a social network
US9251530B1 (en) 2012-08-31 2016-02-02 Sprinklr, Inc. Apparatus and method for model-based social analytics
US9959548B2 (en) 2012-08-31 2018-05-01 Sprinklr, Inc. Method and system for generating social signal vocabularies
US9542936B2 (en) 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
CN104252464B (zh) * 2013-06-26 2018-08-31 联想(北京)有限公司 信息处理方法和装置
US10015720B2 (en) 2014-03-14 2018-07-03 GoTenna, Inc. System and method for digital communication between computing devices
RU2682038C2 (ru) * 2014-09-30 2019-03-14 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки сообщений электронной почты, содержащих цитируемый текст, и компьютер, используемый в нем
US9575952B2 (en) * 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US9462456B2 (en) * 2014-11-19 2016-10-04 Qualcomm Incorporated Method and apparatus for creating a time-sensitive grammar
JP2016162163A (ja) * 2015-03-02 2016-09-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10275444B2 (en) 2016-07-15 2019-04-30 At&T Intellectual Property I, L.P. Data analytics system and methods for text data
US10229184B2 (en) * 2016-08-01 2019-03-12 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
US10242002B2 (en) * 2016-08-01 2019-03-26 International Business Machines Corporation Phenomenological semantic distance from latent dirichlet allocations (LDA) classification
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
US11188715B2 (en) 2016-12-28 2021-11-30 Razer (Asia-Pacific) Pte. Ltd. Methods for displaying a string of text and wearable devices
US10452251B2 (en) 2017-05-23 2019-10-22 Servicenow, Inc. Transactional conversation-based computing system
USD910045S1 (en) 2017-09-12 2021-02-09 Servicenow, Inc. Display screen of a communications terminal with graphical user interface
US10956013B2 (en) 2017-05-05 2021-03-23 Servicenow, Inc. User interface for automated flows within a cloud based developmental platform
US10452702B2 (en) 2017-05-18 2019-10-22 International Business Machines Corporation Data clustering
US10579735B2 (en) 2017-06-07 2020-03-03 At&T Intellectual Property I, L.P. Method and device for adjusting and implementing topic detection processes
WO2019026523A1 (ja) * 2017-08-03 2019-02-07 国立大学法人東北大学 クラスタリングの評価値算出方法及びクラスタ数決定方法
US10972299B2 (en) * 2017-09-06 2021-04-06 Cisco Technology, Inc. Organizing and aggregating meetings into threaded representations
US10635703B2 (en) 2017-10-19 2020-04-28 International Business Machines Corporation Data clustering
US10423873B2 (en) * 2017-12-01 2019-09-24 International Business Machines Corporation Information flow analysis for conversational agents
WO2019204086A1 (en) * 2018-04-18 2019-10-24 HelpShift, Inc. System and methods for processing and interpreting text messages
US10740380B2 (en) * 2018-05-24 2020-08-11 International Business Machines Corporation Incremental discovery of salient topics during customer interaction
US10871877B1 (en) * 2018-11-30 2020-12-22 Facebook, Inc. Content-based contextual reactions for posts on a social networking system
US11677705B2 (en) * 2019-04-23 2023-06-13 International Business Machines Corporation Enriched message embedding for conversation deinterleaving
US11301629B2 (en) 2019-08-21 2022-04-12 International Business Machines Corporation Interleaved conversation concept flow enhancement
US11057330B2 (en) 2019-08-26 2021-07-06 International Business Machines Corporation Determination of conversation threads in a message channel based on conversational flow and semantic similarity of messages
US11228644B1 (en) * 2020-11-10 2022-01-18 Capital One Services, Llc Systems and methods to generate contextual threads
JP2022190802A (ja) * 2021-06-15 2022-12-27 富士通株式会社 コミュニケーション管理プログラム、コミュニケーション管理方法および情報処理装置
US11823666B2 (en) * 2021-10-04 2023-11-21 International Business Machines Corporation Automatic measurement of semantic similarity of conversations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1816173A (zh) * 2005-02-05 2006-08-09 华为技术有限公司 一种整合转发短消息的方法
CN1971595A (zh) * 2005-11-23 2007-05-30 腾讯科技(深圳)有限公司 一种合并电子邮件的方法和系统
US7693940B2 (en) * 2007-10-23 2010-04-06 International Business Machines Corporation Method and system for conversation detection in email systems

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58184646A (ja) * 1982-04-22 1983-10-28 Kokusai Denshin Denwa Co Ltd <Kdd> メツセ−ジ通信方式
US7912904B2 (en) * 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
US20060009243A1 (en) * 2004-07-07 2006-01-12 At&T Wireless Services, Inc. Always-on mobile instant messaging of a messaging centric wireless device
US7899871B1 (en) * 2006-01-23 2011-03-01 Clearwell Systems, Inc. Methods and systems for e-mail topic classification
WO2007138911A1 (ja) * 2006-05-30 2007-12-06 Panasonic Corporation キャラクタ服飾決定装置、キャラクタ服飾決定方法、およびキャラクタ服飾決定プログラム
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
CN101178720B (zh) * 2007-10-23 2010-12-15 浙江大学 一种面向互联网微内容的分布式聚类方法
EP2061212B1 (en) * 2007-11-13 2018-06-20 Cellular Communications Equipment Llc Method, apparatus and program product for merging communication sessions in an IMS
CN101605126B (zh) * 2008-06-11 2012-02-15 中国科学院计算技术研究所 一种多协议数据分类识别的方法和系统
CN101695154B (zh) * 2009-10-27 2013-05-22 青岛海信移动通信技术股份有限公司 短信处理方法及短信处理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1816173A (zh) * 2005-02-05 2006-08-09 华为技术有限公司 一种整合转发短消息的方法
CN1971595A (zh) * 2005-11-23 2007-05-30 腾讯科技(深圳)有限公司 一种合并电子邮件的方法和系统
US7693940B2 (en) * 2007-10-23 2010-04-06 International Business Machines Corporation Method and system for conversation detection in email systems

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761314A (zh) * 2014-01-26 2014-04-30 句容云影响软件技术开发有限公司 一种多功能对话信息控制方法
CN104731982A (zh) * 2015-04-17 2015-06-24 天天艾米(北京)网络科技有限公司 一种动态群演化生成方法
CN104731982B (zh) * 2015-04-17 2018-01-30 天天艾米(北京)网络科技有限公司 一种动态群演化生成方法
CN109564580A (zh) * 2016-05-17 2019-04-02 谷歌有限责任公司 使用消息交换线程促进有效搜索
CN106657157A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种从会话内容中提取会话对的方法
CN106657157B (zh) * 2017-02-13 2020-04-07 长沙军鸽软件有限公司 一种从会话内容中提取会话对的方法
CN107066450A (zh) * 2017-05-27 2017-08-18 国家计算机网络与信息安全管理中心 一种基于学习的即时通信会话切分技术与方法
CN112260930A (zh) * 2019-07-02 2021-01-22 国际商业机器公司 创建跨通信信道的全局对话线程的系统和方法
US11398996B2 (en) 2019-07-02 2022-07-26 International Business Machines Corporation System and method to create global conversation thread across communication channels
CN112612391A (zh) * 2020-12-28 2021-04-06 维沃移动通信有限公司 消息处理方法、装置和电子设备

Also Published As

Publication number Publication date
US20130273976A1 (en) 2013-10-17
WO2012055100A1 (en) 2012-05-03

Similar Documents

Publication Publication Date Title
CN103430578A (zh) 用于标识多个字符串中的对话的方法和装置
CN102939604B (zh) 用于上下文索引的网络资源的方法和装置
US11210706B2 (en) Method and apparatus for determining context-aware similarity
CN103797479B (zh) 用于混合社交搜索模型的方法和装置
CN104246748B (zh) 用于确定情境的系统和方法
CN102812486A (zh) 根据群体行为提供个性化信息资源推荐的方法和设备
CN102906737A (zh) 用于扩展式内容标签共享的方法和装置
US20110161427A1 (en) Method and apparatus for location-aware messaging
CN103190115A (zh) 基于语境进行搜索的方法和装置
CN103609144A (zh) 用于解析地理标识的方法和装置
CN102947827A (zh) 生成协作播放列表的方法和装置
CN102449625A (zh) 用于自动地理位置搜索认知的方法和装置
CN102939774A (zh) 用于上下文索引的网络资源分段的方法和装置
CN103098421A (zh) 用于由动态群组共享数据的方法和装置
CN102939579A (zh) 绑定用户接口元素和粒度反映处理的方法和装置
CN102918821A (zh) 用于基于用户数据识别网络功能的方法和装置
CN103620595A (zh) 用于情境感知角色建模和推荐的方法和装置
CN102783189A (zh) 根据区域名称对兴趣点进行分组的方法和装置
CN102612693A (zh) 分类内容的方法及装置
CN103069412A (zh) 用于基于情境分组的方法和装置
CN102918529A (zh) 索引生成和使用的方法和装置
CN103814376A (zh) 用于基于可用数据模式执行搜索的方法和装置
CN103703460A (zh) 用于针对实时推荐的协同过滤的方法和装置
JP2013543167A (ja) コンテキスト情報をセグメンテーションする方法および装置
CN103069421A (zh) 用于处理针对分区式索引的搜索请求的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160108

Address after: Espoo, Finland

Applicant after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Applicant before: Nokia Oyj

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131204