CN106462579B

CN106462579B - 为选定上下文构造词典

Info

Publication number: CN106462579B
Application number: CN201480077830.2A
Authority: CN
Inventors: D·常; J·李; Z·刘; C·C·B·麦克
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-10-15
Filing date: 2014-10-15
Publication date: 2019-09-27
Anticipated expiration: 2034-10-15
Also published as: US9697195B2; US10853569B2; US20190361976A1; US20170337179A1; WO2016058138A1; CN106462579A; US10296583B2; US20160110341A1

Abstract

本文提出了与构造针对限定上下文的词典有关的各种技术。社交媒体文本被获取，其中所述社交媒体文本具有与其对应的上下文数据。社交媒体文本被编码以形成编码文本(Unicode格式)，并且上下文数据被指派给该编码文本。通过基于诸如位置之类的上下文数据对编码文本进行过滤来形成针对限定上下文的文本语料库。单词或短语在文本语料库中出现的频率被用于标识要被包括在词典中的单词或短语。

Description

为选定上下文构造词典

背景

新单词、首字母缩略词、短语等正不断地出现在各种语言(口头以及书面)的词典中。将单词、首字母缩略词、短语等引入词典在社交网络应用上尤其盛行，这些应用的用户共同引入以及使用之前不被任何词典收录的单词、首字母缩略词、短语等等。例如，首字母缩略词“TTYL”在传统的英语词典中查阅不到。然而社交网络应用、短信收发应用等的用户经常使用这个首字母缩略词，该首字母缩略词在英语中有“talk to you later(以后再聊)”的意思；因此，“TTYL”就被收录在英语社交网络用户的词典中。新引入的单词、首字母缩略词、短语等能够针对不同上下文(例如，在特定年龄段用户之间，在来自特定位置的用户之间，在说不同语言的用户之间等)不同地发展。由于词典的快速发展，标识被新引入词典的单词、首字母缩略词、短语等变得困难。

概述

以下是在本文更详细描述的主题的简要概述。本概述不旨在成为关于权利要求的范围的限制。

在本文描述的计算系统包括处理器；以及包括由处理器执行的词典生成器系统的存储器。词典生成器系统被配置成生成用于上下文文本的词典，词典生成器系统被配置成基于上下文文本中的混合语言单词或者混合语言短语在上下文文本中出现的频率来将至少一个混合语言单词或者混合语言短语包括在词典中。

附图简述

图1是基于确定的上下文的语料库便于构造词典的示例性系统的功能模块图，该文本语料库由至少一个社交网络应用生成。

图2是帮助构造包含上下文数据的文本语料库的示例性系统的功能模块图。

图3是经配置为确定的上下文生成词典的典型系统的功能模块图。

图4是阐释对至少一部分文本进行示例性扫描的表格。

图5是阐释构造具有分配至其中词目的上下文数据的文本语料库的示例性方法的流程图。

图6是阐释为确定的上下文生成词典的示例性方法的流程图。

图7是识别用于确定的上下文的至少一个混合语言单词或短语的示例性方法的流程图。

图8是识别被社交网络应用用户中的特定人群使用的新单词和/或短语的示例性方法的流程图。

图9是示例性计算系统。

详细描述

现在参考附图来描述与构造确定的上下文的词典有关的各种技术，其中在附图中贯穿始终使用相同的附图标记来引述相同的要素。在以下描述中，为解释起见，阐明了众多具体细节以提供对一个或多个方面的全面理解。然而，显然这(些)方面可以在没有这些具体细节的情况下实施。在其他实例中，以框图形式示出公知的结构和设备以便于描述一个或多个方面。另外，要理解，被描述为由特定系统组件执行的功能性可由多个组件执行。类似地，例如，一组件可被配置成执行被描述为由多个组件实现的功能。

此外，术语“或”意指包括性“或”而非排斥性“或”。即，除非另有指定或从上下文显而易见，否则短语“X采用A或B”意指任何自然的包括性排列。即，短语“X采用A或B”藉由以下实例中任何实例得到满足：X采用A；X采用B；或X采用A和B两者。另外，本申请和所附权利要求书中所使用的冠词“一”和“某”一般应当被解释成表示“一个或多个”，除非另外声明或者可从上下文中清楚看出是指单数形式。

此外，如本文所使用的，术语“组件”和“系统”旨在包含用使得在被处理器执行时执行特定功能性的计算机可执行指令配置的计算机可读数据存储。计算机可执行指令可包括例程、功能等等。还要理解组件或系统可以位于单个设备上或跨若干设备分布。此外，如本文使用的，术语“示例性”旨在意味用作某些事情的说明或示例，而并非旨在指示优选。

现参考图1，例示了被配置成为限定上下文构造词典的示例性系统100。系统100包括计算系统102，其可以是单一计算设备或者互相协调工作的多个计算设备。系统100还包括多个上下文资料库104-110，其中上下文资料库104-110包含相应的上下文文本112-118。具体来说，第一上下文资料库104包括第一上下文文本112，第二上下文资料库106包括第二上下文文本114，第三上下文资料库108包括第三上下文文本116，以及第n个上下文资料库包括第n个上下文文本118。虽然系统100被例示为包括包含各自上下文文本的多个不同的上下文资料库，但是正如下文将描述的，上下文文本112-118可通过藉由基于上下文的查询(例如，位置、人口统计资料等)对文本语料库进行查询来生成，其中文本语料库中的词目具有被分别分配给这些词目的上下文数据。因此，上下文文本112-118可被包扩在单个资料库中，图1所示的系统100的架构仅为说明的目的而提出。根据一个示例，上下文文本112-118可包括编码文本，其中该编码文本遵照适当的编码标准，诸如Unicode。相应地，不同语言中的文本可使用通用格式来表示。

通过与上下文文本112-118有关的更多细节，该上下文文本112-118可包括披露一个或者多个社交网络应用的文本，其中该文本由(多个)社交网络应用的用户生成和/或分享。社交网络应用是被配置成允许它的用户生成以及分享内容的应用，其中的内容可以包括文本。例如，社交网络应用可包括适合用于生成网络日志的应用、微博应用(其中会员可以生成文本和/或图像并将文本和/或图像分享给公共源或者订阅由会员生成的帖子的用户，并且其中每个帖子的信息量被限定为预先设定的字符数)、会员可以在个人页面(有时也叫作墙)上发布信息而其他人可以发布消息的应用等等。

另外，上下文文本112-118可包括被那些生成文本(或者可选地分享文本)的人标识为公众可访问的文本。被标识为公众可访问的文本能够从至少一个社交网络应用获取到，且能够被分成单个的词目。词目也许是完整的一个帖子、日记账分录等，或者帖子、日记账分录等的一部分(例如，日记账分录中的一句句子)。正如下文将要描述的，上下文数据可以被分配到每一个词目。能够被分配到词目的示例性上下文数据可包括但不限于：1)与该词目相关联的地理位置(例如，如在公众可访问的生成或者分享该词目的用户的简档中所定义的)；2)关于生成该词目的用户的人口统计信息(例如，年龄、性别、民族等)，其中人口统计信息可以从生成或者分享该词目的用户的简档获得；3)该词目生成或者分享的时间(例如，来自由社交网络应用分配给该词目的时间标记)；4)生成或者分享该词目的用户的兴趣(例如，定义在用户的简档中)；5)被用来生成或者分享该词目的社交网络应用；以及其它上下文数据。

在一示例中，第一上下文文本112可以包括具有被分配至其的特定地理位置的词目(例如，国家、州、城市、距离规定的点的地理半径等)，第二上下文文本114可以包括被分配至其的第二地理位置的词目，依此类推。在另一示例中，第三上下文文本116可包括已被分配了上下文数据的词目，该上下文数据表明该词目是由第一年龄段中的用户生成和/或分享的；而第n个上下文文本118可包括已被分配了上下文数据的词目，该上下文数据表明该词目是由第二年龄段中的用户生成和/或分享的。在又一例子中，上下文文本112-118可包括被分配了上下文组合的数据，例如地理位置、性别以及时间。于是，相对精细的上下文文本可被生成。进一步地，要理解到，上下文文本112-118可被匿名－相应地，能唯一标识生成和/或分享词目的用户的信息可不被包括在上下文文本112-118的上下文数据中。

计算系统102还包括被配置成针对上下文文本112-118中的一个或者多个生成词典的词典生成器系统120。为了便于阐述，在一个示例中，计算系统102的用户能够指示词典生成器系统120要针对第一上下文文本112生成词典。如下文中将要更详细地描述，响应于词典生成器系统120接收上述指示，词典生成器系统能被配置成对第一上下文文本112执行至少一次扫描，其中该至少一次扫描导致复合词的形成，每一个复合词包括一个单词序列。当多次扫描被执行时，在每次扫描中，每一个复合词内具有同等数量的单词。一个复合词因而包括一定数量个连续的(单个)单词。在另一示例性实施例中，单次扫描能够被执行来生成不同长度的复合词，其中可采用的多个计数器来在单次扫描中形成(以及计数)复合词。

因此，例如，在第一次扫描中，每个复合词可包括单个单词；在第二次扫描中，每个复合词将包括两个连续的单词；在第三次扫描中，每个复合词将包括三个连续的单词，等等。正如这里使用到的，术语“单词”包括一个连续的字符序列；因此，此处首字母缩略词被称为单词，转写被称为单词，等等。基于复合词在第一上下文文本中出现的频率，词典生成器系统120能够标识将包括在第一上下文文本112的词典中的复合词。例如，一个复合词越频繁地被包括在第一上下文文本112中，该复合词就越有可能被包括在第一上下文文本112的上下文的词典中。词典生成器系统120能够基于复合词在第一上下文文本112中出现的频率输出该上下文的词典。尽管上文描述表明多次扫描被执行来形成复合词以及计算对应于这些词的统计数据，但是可以理解，复合词的形成以及统计数据的计算能够在单次扫描中进行。例如，当特定的复合词被识别时，多个计数器可以同时递增。

本文描述的方法较之用于标识上下文的词典的传统手工方法具有多方面的优势。例如，词典生成器系统120能够被配置成标识针对相对精细的上下文的词典。例如，一家公司也许希望了解一特定地区中特定性别以及年龄的人口的词典(例如，什么单词及短语正在被中国北京年龄介于25岁至35岁的男性使用)。进一步地，词典生成器系统120能够相对动态地输出词典。例如，词典生成器系统120能够在一个滚动时间窗内(例如，过去的三个月)被每天执行一次来识别正在被确定的上下文使用的单词以及短语。

更进一步，词典生成器系统120能够被配置成将混合语言单词和/或短语、以及转写包括在生成的词典中。例如，在一些地理位置，社交网络应用的用户使用混合语言单词和/或短语已经变得有些常见。混合语言单词可以包括第一语言(例如，中文)的第一部分以及第二语言(例如，英语)的第二部分。混合语言短语可以包括第一语言的第一单词以及第二语言的第二单词。如上文所述，将文本编码成通用格式便于识别词典中包含的混合语言单词和/或短语以及转写。相应地，词典生成器系统120不需要在上下文资料库104-110中对上下文文本112-118执行语义分析从而识别混合语言单词和/或短语或转写。

在一非限制性示例中，一个混合语言单词可包括至少一个第一语言的语标符号以及至少一个第二语言的语标符号。语标符号(logogram)可以是被用于诸如中文、日语以及韩语之类的东亚语言的符号(字符)。在另一示例中，混合语言单词可包括第一语言的语标符号以及第二语言的字母数字字符。在又一示例中，混合语言单词可以包括对应于第一语言的至少一个字母数字字符以及对应于第二语言的至少一个字母数字字符。转写指的是文本从第一文字到第二文字的转换。举例来所，比如，当英语键盘被用来生成阿拉伯语文本时，转写可能会发生如下：“Keif 7luk a5ee.Men ayna je2ta”转换成英文“How are you,bro”。

由词典生成器系统120输出的针对选定上下文文本的词典能够被用于各种各样的应用。例如，当查询前缀提供给搜索引擎时，词典中的单词和/或短语可被用作自动补全。在另一示例中，词典也可被提供给希望将电子通讯呈现给在词典中查询单词或者短语的用户的公司。在又一示例中，词典中的单词和/或短语也可由文字处理应用使用以供拼写检查。将会认识到可以有其它应用。现在转到图2，例示了便于生成上下文文本的示例性系统200。系统200包括和能够对应于不同社交媒体应用的多个社交媒体资料库204-208网络通讯的计算系统202。该社交媒体资料库204-208可包括各自的社交媒体文本210-214，其中，举例来说，第一社交媒体文本210包括被第一社交网络应用披露的文本，第二社交媒体文本212包括被第二社交网络应用披露的文本等等。如上所述，在各自的社交媒体资料库204-208中的社交媒体文本210-214可被该文本的生产者和/或分享者标识为公众可访问。例如，第一社交媒体文本210可能被包括在第一社交网络应用的公众源，第二社交媒体文本212可能是公众经万维网可访问的博客文本等等。

社交媒体资料库204-208也可能具有如此的应用程序界面以至于相应的披露于其上的社交媒体文本210-214可以被获取。在另一示例中，计算机可执行程序(有时被称为“机器人”或者“爬虫”)能够从可公开访问的社交网络应用的页面上提取社交媒体文本210-214。

计算系统202能够从社交媒体文本210-214接收到至少一个社交媒体文本。在一个示例中，计算系统202能够接收到如上所述的包含由第一社交网络应用生成和/或分享的第一社交媒体文本210。第一社交网络应用可以是拥有在几个不同国家中说着多种语言的会员的世界性的社交网络应用。计算系统202可被配置成将上下文数据分配给第一社交媒体文本210中的每一个词目，其中上下文数据能够标识生成和/或分享该词目的用户的位置、创建和/或分享该词目的用户的人口统计资料等等。正如上述，这些信息可能从第一社交网络应用用户的可公开访问的简档得到。

计算系统202包括文本语料库生成器系统216，其被配置成接收来自社交媒体资料库204-208的至少第一社交媒体文本210(以及可选地在社交媒体文本210-212中的其它社交媒体文本)。系统200还包括被包括在计算系统200中或者与计算系统200通讯的上下文资料库218。文本语料库生成器系统216包括编码器组件220，其经配置把社交媒体文本(例如，第一社交媒体文本210)编码来生成编码文本222以及把文本222保留在上下文资料库218中。

由编码器组件220生成的编码文本222能够具有被标准化的格式，使得不同语言的文本在编码文本222中被以一致的方式表示。在一个示例中，编码器组件220能够把社交媒体文本210-214编码为Unicode。当编码文本时，编码器组件220能够标识其中的单个的词目。例如，编码器组件220能够标识某些标点符号，诸如句号、逗号、分号、感叹号等，并且能够基于这些标点符号把社交媒体文本划分为单个的词目。

文本语料库生成器系统216可进一步包括上下文提取器组件226，该组件从各自生成和/或分享词目以及相应地把上下文数据分配给该词目的社交网络应用用户的可公开访问的简档中提取这些上下文数据。例如，为了保护隐私，上下文提取器组件226能够清除简档数据以去除包括用户身份、用户联系方式等在内的可唯一地标识用户的信息。因此，上下文提取器组件226可阻止提取社交网络应用用户的姓名、社交网络应用用户的精确位置(例如，街道地址)以及可能被认为隐私的其它信息。然而，上下文提取器组件226能够提取信息并且能够将上下文数据224(例如上文提到的上下文数据)分配给编码文本222中的词目，其中上下文数据224的至少一部分能从生成和/或分享社交媒体文本的用户的简档中提取。

这样，(具有可公开访问的简档的)社交网络应用用户生成和/或分享的每一个帖子都能被分解成一个或多个的词目，被编码器组件220编码，并且被上下文提取器组件226分配上下文数据。

虽然系统200已经被描述为聚集跨地理位置和社交网络应用的数据来生成编码文本222以及相关联的上下文数据224，需要了解的是，可针对不同的上下文生成不同的编码文本并保留在分开的资料库中。例如，由于语言的不同，可能期望针对使用不同字符的语言生成不同的编码文本。例如，可能期望把采用字母数字字符的语言(例如英语)和使用语标符号的语言(例如中文)分开。这种区分可能是有用的，因为不同的断词技术能够被用于这些不同种类的语言。

现在参考图3，例示了词典生成器系统120的功能框图。正如能被确定的，词典生成器系统120可被包括在计算系统的存储器中并且由计算系统的处理器执行。相应地，计算系统被编程为专用计算系统，其被配置成针对特定上下文生成词典。

词典生成器系统120包括搜索组件302，其被配置成接收查询并且基于该查询对编码文本222及相关联的上下文数据224执行查询。该查询可包括对上下文信息的参考，例如位置、人口统计信息等。对编码文本220及相关的上下文数据224进行搜索执行导致了上下文文本304(例如，参照图1描述的上下文文本112-118中的任何一个)的形成。换句话说，编码文本词目可按照上下文来索引，并且搜索组件302可被配置成基于该上下文索引来对编码文本222进行搜索。

词典生成器系统120更进一步包含扫描器组件306，其经配置扫描上下文文本304以及从上下文文本304中创建复合词(其可包含编码的单词)。在一示例中，扫描器组件306能被配置成对上下文文本304中的每一个词目执行多次扫描，其中，对于每一次扫描，由扫描得到的复合词包括不同数目的单词。例如，在由扫描器组件306对上下文文本304执行的第一次扫描中，复合词可包含单独的单词。相应地，对于(未编码的)词目“describeperformance of scans”，扫描器组件306可生成四个复合词：复合词1：“describe”；复合词2：“performance”；复合词3：“of”；复合词4：“scans”。扫描器组件306能够为每一个词目执行这一扫描。扫描器组件306随后可能被配置成对上下文文本304执行第二次扫描，其中由第二次扫描生成的复合词包括两个按顺序的单词。

这样，继续结合上述的词目，在第二次扫描中，扫描器组件306可生成三个复合词：复合词1：“describe performance”；复合词2：“performance of”；以及复合词3：“ofscans”。此外，这一第二次扫描能对上下文文本304中的每一个词目生成。扫描器组件306可随后输出扫描期间生成的复合词。继续同一示例，扫描器组件306可随后被配置成对词目执行第三次扫描，从而导致两个复合词的形成：复合词1：“describe performance of”；以及复合词2：“performance of scans”。因此，对于扫描器组件306执行的每一次扫描，扫描器组件306输出复合词，其中对于一次扫描的每一个复合词都包括相同数目的单词，并且其中每一个复合词中的单词是按照顺序的(根据未编码文本中的顺序)。在执行扫描之后，扫描器组件306可输出多个复合词308。虽然上文描述了多次扫描的使用，但是在一示例性实现中，扫描器组件306可被配置成在单次扫描中并且通过多个计数器来形成复合词308。

暂时转到图4，示例性表格400例示了可由扫描器组件306对中文短语“北京已经下雪”执行的扫描。如表格400所示，扫描器组件306能执行五次单独的扫描，其中第一次扫描导致五个复合词，每个复合词具有一个字(由两个中文字符表示)，第二次扫描导致包括两个字的复合词(由三个中文字符表示)，以此类推。在示例性体现中，由扫描器组件306执行的扫描的次数可以根据上下文文本304所表示的文本的语言而变。对于使用字母数字字符来生成文本的语言而言，扫描器组件306可被配置成创建包括一个或者两个单词的复合词。对于采用语标符号的语言，扫描器组件306可被配置成执行更多次扫描(4、5或者6次扫描)。再次，需要强调的是，单次扫描可以被执行，其中，对于不同语言，复合词中单词的最大数目会不同(例如，对英语而言两个单词，对中文而言六个字)。

回到图3，词典生成器系统120还包括计数器组件310，其被配置成对复合词中每一个独特的复合词的出现次数计数。可以确定，上下文文本304可能会是相对较大的文本语料库。因此，在上下文文本304中频繁出现的单词和/或短语可被包括在针对在搜索组件302所接收的查询中标识的上下文的词典中。在工作中，计数器组件310可被提供复合词序列。计数器组件310能够确定之前是否已在该序列中观测到过该复合词，如果是的话，递增该复合词的出现次数。如果该复合词之前未被观测到，则计数器组件310可为该复合词生成一个词目，使得当该复合词随后出现在序列中时，该复合词的计数器可被递增。计数器组件310可随后输出针对上下文文本304中观测到的每一个复合词的计数312。

词典生成器系统120还可包括置信度指派器组件314，该组件能够基于每一个复合词的计数指派置信度分数给该复合词。例如，在确定指派给该复合词的置信度分数时，置信度指派器组件314可考虑该复合词的相对出现频率。换言之，该复合词相对于其它复合词的频率越高，该复合词能被置信度指派器组件314指派的置信度分数就越高。

在另一示例中，在计算置信度分数时，置信度指派器组件314可以考虑新近度。例如，在上下文文本304中所表示的每一个词目可具有指派给它的时间戳。在分配置信度分数时，置信让与组件314能够考虑上下文文本304中复合词的使用趋势，其中随时间递增的频率(或者复合词使用中的“尖峰”)可导致置信度指派器组件314将更高的分数指派给该复合词。置信度指派器组件314可为各自独特的复合词输出置信度值316。

词典生成器系统120还包括输出组件318，该组件接收复合词以及指派给它的置信度分数，将复合词中的单词解码，并且输出针对搜索组件302所接收的查询中引用的上下文的词典320。词典的内容基于置信度指派器组件314指派给该复合词的置信度分数。在一示例中，输出组件318能够将指派给各复合词的每一个置信度分数与阈值比较，并且可将具有大于等于阈值的置信度分数的(经解码的)复合词包括在词典中，而限制将具有低于阈值的指派置信度分数的(经解码的)复合词包括在词典320中。在另一示例中，输出组件318可将某一阈值数量个具有最高的指派给其的置信度分数的经解码复合词包括在词典320中。在又一示例中，输出组件318可导致将某一阈值百分比个具有最高的指派给其的置信度分数的经解码复合词包括在词典320中。最终结果是针对特定上下文的词典。

可以确定的是词典生成器系统120能够相对动态地更新词典，因为词典生成器系统120可在相对频繁的基础上被提供更新的编码文本222以及相关联的上下文数据224。进一步地，词典生成器系统120可被配置成相对迅速地更改上下文(通过修改查询)，使得可形成一组不同的编码文本以及相关联的上下文数据。更进一步，词典生成器系统120可被配置成针对各种不同的上下文(包括不同语言)生成词典。

图5-8例示出关于针对限定上下文构造词典的示例性方法。尽管各方法被表示和描述为顺序地执行的一系列动作，但要理解，这些方法不受该顺序的次序的限制。例如，一些动作能以与本文描述的不同的次序发生。另外，某一动作可以与另一动作并发地发生。此外，在一些实例中，实现本文描述的方法并不需要所有动作。

此外，本文描述的动作可以是可由一个或多个处理器实现的和/或存储在一个或多个计算机可读介质上的计算机可执行指令。计算机可执行指令可包括例程、子例程、程序、执行的线程等。另外，这些方法的动作的结果可以存储在计算机可读介质中，显示在显示设备上，等等。

先参考图5，阐释了适用于生成编码文本以及相关的上下文数据的示例性方法500。例如，方法500可由图2中提到的计算系统202执行。方法500开始于502，并且在504，访问文本的语料库。如上所述，该文本的语料库可以是由(多个)社交网络应用披露的文本，其中该文本由(多个)社交网络应用的用户生成和/或分享。在506，该文本的语料库被分解成多个词目，其中一个词目可以是例如一句句子或是一个短语。

在508，词目经编码生成编码的词目。例如，词目可被编码为Unicode。需要理解的是，在文本语料库的文本经编码的前后，文本的语料库都可以被分解。词目中的基本单词可确定为词目中文本种类的功能；例如，基本单词可由分隔符决定，如空格对于由字母数字字符构成的单词(例如，英语、法语等)。在另一示例中，基本单词可以是用于诸如中文、日语及韩语语言的字符。在510，上下文数据被指派至每一个经编码的词目。例如，如上所述，可分析生成词目的社交网络应用的用户的简档，并且基于该分析，可将上下文数据指派给词目。该上下文数据可包括地理信息、社交组群、人口统计信息等。方法500在512完成。

现参考图6，例示了示例性方法600被配置成输出针对特定上下文的词典。方法600在602处开始，并在604处获得上下文文本。如上所述，该上下文文本可通过对具有指派给其的上下文信息的编码数据执行搜索来获得，其中用于执行搜索的查询指示了感兴趣的上下文(例如，位置、人口统计信息等)。在606，变量Q被设为1，并且在608，对上下文文本执行扫描以创建大小为Q的复合词。这样，当Q被设为1时，每个复合词将包括一个单词。在610，每个大小为Q的独特复合词的出现次数被计数。在612，做出关于Q是否等于阈值的判断。如果Q没有达到阈值，则在614，Q递增且方法600返回608，在那里执行另一次扫描，其中该另一次扫描导致大小为Q的复合词的形成。动作608、610、612及614被重复直到Q达到阈值。如上所述，该阈值可针对不同的上下文(语言)而不同。替代图6中所提到的执行多次不同扫描的循环，方法600可被修改使得可在单次扫描中生成(及计数)不同大小的复合词。

在616，基于在610被计数的复合词的出现次数，置信度分数被指派给每一个复合词。在618，基于在616被指派给该复合词的置信度分数，输出针对在604获得的上下文文本的词典。该方法600可针对不同的上下文及语言再次执行。进一步地，上下文可被合并，而方法600可针对经合并的上下文执行。在又一示例中，上下文可被拆分(例如，拆分为两个或者更多个精细的上下文)，且方法600能针对更精细的上下文执行以生成针对该更精细的上下文的词典。方法600在620完成。

现在参考图7，例示了便于标识至少一个混合语言单词或短语以供包括在词典中的示例性方法700。方法700开始于702，并且在704接收文本语料库，其中该文本语料库包括混合语言词目。这些混合语言词目可以是混合语言单词和/或混合语言短语。在706，文本语料库中的文本被编码以生成编码文本(例如，Unicode)。在708，对编码文本执行断词算法以标识编码文本中表示的单个的单词。可选的，断词算法可在文本在706处被编码之前执行。在710，计算复合词在编码文本中出现的频率。这些频率可使用例如方法600的动作608-614来计算。在712，标识要被包括在针对704处接收的文本语料库的词典中的至少一个混合语言单词或短语。方法700在714完成。

现在参考图8，例示出便于标识被新引入词典中的单词的示例性方法800。该方法800开始于802，并且在804，接收对应于时间t的限定上下文的第一词典(例如，当前词典)，并且接收对应于时间t-1的限定上下文的第二词典。在806，比较两个词典中的单词和短语，并且在808，基于该比较输出词典中新单词和/或短语的列表。例如，在第一词典中但未被包括在第二词典中的词目可被浮出以标识已被新引入到针对该限定上下文的词典的单词和/或短语。类似地，也可浮出已从词典中除去的单词和/或短语。这可以通过比较两个词典以及浮出存在于第二词典中但不存在于第一词典中的单词/短语来实现。方法800在810完成。

现在给出各示例。

示例1：一种计算系统，包括：处理器；以及存储器，所述存储器包括由所述处理器执行的词典生成器系统，所述词典生成器系统被配置成生成用于上下文文本的词典，所述词典生成器系统被配置成基于混合语言单词或混合语言短语在所述上下文文本中出现的频率将混合语言单词或者混合语言短语中的至少一个包括在所述词典中。

示例2：根据示例1所述的计算系统，所述混合语言单词包括第一语言的语标符号以及第二语言的字母数字字符。

示例3：根据示例1所述的计算系统，所述混合语言短语包括第一语言的第一单词以及第二语言的第二单词。

示例4：根据示例1-3中的任意一项所述的计算系统，限定上下文基于以下中的至少一个：所述上下文文本中的文本的生成者或者分享者的性别；所述上下文文本中的文本的生成者或者分享者的地理位置；所述上下文文本中的文本的生成者或者分享者的年龄范围；所述上下文文本中的文本的生成者或者分享者明确定义的兴趣；或所述性别、所述地理位置、所述年龄范围或所述兴趣中的两个或者更多个的组合。

示例5：根据示例1-4中的任意一项所述的计算系统，所述存储器进一步包括被配置成生成文本语料库的文本语料库生成器系统，所述文本语料库生成器系统包括：被配置成将社交媒体文本编码成编码文本的编码器组件，所述社交媒体文本由社交网络应用披露，所述编码文本跨多种语言对文本进行标准化，所述上下文文本包括所述编码文本的至少一部分。

示例6：根据示例5所述的计算系统，所述编码器组件被配置成将所述文本语料库中的文本编码成Unicode。

示例7：根据示例5-6中的任意一项所述的计算系统，所述文本语料库系统进一步包括：被配置成从所述社交网络应用的用户的简档中提取上下文数据的上下文提取器组件，所述上下文提取器组件被进一步配置成基于由所述上下文提取器组件提取的上下文数据来将上下文数据指派给所述社交媒体文本中的词目。。

示例8：根据示例1-7中的任意一项所述的计算系统，所述词典生成器系统进一步包括：被配置成对所述上下文文本中的编码词目执行扫描以形成复合词的扫描器组件，并且其中所述词典生成器系统被配置成基于所述复合词来生成所述词典。

示例9：根据示例8所述的计算系统，所述扫描器组件被配置成对所述编码词目执行多次扫描，其中每次扫描具有被指派给其的预定值，所述预定值定义了要被包括在每次扫描的每个复合词中的单词的数量。

示例10：根据示例8-9中的任意一项所述的计算系统，所述词典生成器系统进一步包括计数器组件，所述计数器组件被配置成对于所述复合词中每个独特的复合词，计数独特复合词出现的次数，其中所述词典生成器系统被配置成基于所述复合词中的每个复合词的出现次数来生成所述词典。

示例11：根据示例10所述的计算系统，所述词典生成系统进一步包括置信度指派器组件，所述置信度指派器组件对于复合词中的每个独特的复合词，基于所述复合词中所述独特复合词的出现次数来指派置信度分数，并且其中所述词典生成器系统被配置成基于每个复合词被所述置信度指派器组件所指派的置信度分数来生成所述词典。

示例12：根据示例11所述的计算系统，所述词典生成器系统进一步包括输出组件，所述输出组件被配置成选择要包括在所述词典中的复合词，并且被进一步配置成对要被包括在所述词典中的复合词进行解码。

示例13：一种由被配置成针对预定上下文生成词典的计算系统执行的方法，所述方法包括：访问对应于所述预定上下文的上下文文本，所述上下文文本获取自至少一个计算机实现的社交网络应用，所述上下文文本包括至少一个混合语言单词或混合语言短语；标识所述上下文文本中的词目，所述词目代表所述上下文文本中的短语或句子；对所述上下文文本中的词目执行扫描以形成复合词，复合词代表所述混合语言单词或者所述混合语言短语中的一个；计算所述复合词出现的频率；以及基于所述复合词出现的频率生成词典，所述词典包括由所述复合词所代表的混合语言单词或者混合语言短语。

示例14：根据示例13所述的方法，所述混合语言单词包括语标符号和字母数字字符。

示例15：根据示例14所述的方法，所述语标符号是中文字符。

示例16：根据示例13所述的方法，所述混合语言短语包括第一语言的第一单词以及第二语言的第二单词，所述第一单词包括至少一个字母数字字符，所述第二单词包括至少一个语标符号。

示例17：根据示例13-16中的任意一项所述的方法，进一步包括：确定所述复合词出现的新近度；并且基于所述复合词出现的新近度生成所述词典。

示例18：根据示例13-17中的任意一项所述的方法，进一步包括：形成所述上下文文本，其中形成所述上下文文本包括：基于接收的查询对上下文资料库执行搜索，所述上下文资料库包括根据上下文数据索引的编码文本，所述查询与所述预定上下文有关；并且将所述搜索的结果包括在所述上下文文本中。

示例19：根据示例18所述的方法，其中形成所述上下文文本进一步包括：获取社交媒体文本，所述社交媒体文本包括由社交网络应用的用户生成或者分享的帖子；对所述社交媒体文本进行编码以生成编码文本，所述编码文本是Unicode；并且基于所述社交网络应用的用户的简档信息将所述上下文数据指派给所述编码文本。

示例20：一种包括指令的计算机可读存储介质，所述指令在由处理器执行时使得所述处理器执行动作，所述动作包括：访问被标识为对应于特定地理地区的上下文文本，所述上下文文本基于在社交网络应用中提出的帖子；并且基于所述上下文文本中呈现的单词和短语出现的频率构造针对所述特定地理地区的词典，其中构造词典包括基于至少一个混合语言单词或者混合语言短语在所述上下文文本中出现的频率来标识要被包括在所述词典中的在上下文文本中呈现的至少一个混合语言单词或者混合语言短语。

示例21：一种计算设备，包括：用于访问对应于所述预定上下文的上下文文本的装置，所述上下文文本获取自至少一个计算机实现的社交网络应用，所述上下文文本包括至少一个混合语言单词或混合语言短语；用于标识所述上下文文本中的词目的装置，所述词目代表所述上下文文本中的短语或句子；用于对所述上下文文本中的词目执行扫描以形成复合词的装置，复合词代表所述混合语言单词或者所述混合语言短语中的一个；用于计算所述复合词出现的频率的装置；以及用于基于所述复合词出现的频率生成词典的装置，所述词典包括由所述复合词所代表的混合语言单词或者混合语言短语。

现在参考图9，例示了可以根据本文公开的系统和方法使用的示例性计算设备900的高级图示。例如，计算设备900可以用于支持构造具有分配给其的上下文数据的编码文本词目的系统。作为另一示例，计算设备900可被用于被配置成构造针对限定上下文的词典的系统。计算设备900包括至少一个处理器902，该处理器执行储存在存储器904中的指令。这些指令可以是例如用于实现被描述为由上述一个或多个组件执行的功能的指令或用于实现上述方法中的一个或多个的指令。处理器902可以通过系统总线906访问存储器904。除了储存可执行指令，存储器904还可储存上下文文本、编码文本词目等。

此外，计算设备900还包括可由处理器902通过系统总线906访问的数据存储908。数据存储908可包括可执行指令、文本词目等。计算设备900还包括允许外部设备与计算设备900通信的输入接口910。例如，输入接口910可被用于从外部计算机设备、从用户等处接收指令。计算设备900还包括使计算设备900与一个或更多个外部设备相对接的输出接口912。例如，计算设备900可以通过输出接口912显示文本、图像等。

考虑了通过输入接口910和输出接口912与计算设备900通讯的外部设备可包含于实质上提供任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的(诸)输入设备的输入，以及在诸如显示器之类的输出设备上提供输出。此外，自然语言界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与计算设备900交互。相反，自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼睛跟踪、语音和语音、视觉、触摸、姿势、以及机器智能等。

此外，尽管被示为单个系统，但可以理解，计算设备900可以是分布式系统。因此，例如，若干设备可以通过网络连接进行通信并且可共同执行被描述为由计算设备900执行的任务。

本文中描述的各功能可在硬件、软件或其任何组合中实现。如果在软件中实现，则这些功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是能被计算机访问的任何可用存储介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来承载或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟(BD)，其中盘通常以磁的方式再现数据，而碟通常用激光以光学方式再现数据。另外，所传播的信号不被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，该通信介质包括促成将计算机程序从一地转移到另一地的任何介质。连接例如可以是通信介质。例如，如果软件使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外线、无线电、以及微波之类的无线技术来从web网站、服务器、或其它远程源传输，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外线、无线电、以及微波之类的无线技术被包括在通信介质的定义中。上述的组合应当也被包括在计算机可读介质的范围内。

替换地或另选地，此处描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。例如、但非限制，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、程序专用的集成电路(ASIC)、程序专用的标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。

以上所描述的包括一个或多个实施例的示例。当然，出于描绘前述各方面的目的而描述上述设备或方法的每个可以想到修改和改变是不可能的，但本领域内的普通技术人员可以认识到，各方面的许多另外的组合和置换都是可能的。因此，所描述的各方面旨在包括所有这些属于所附权利要求书的精神和范围内的改变、修改和变型。此外，就在详细描述或权利要求书中使用术语“包括”而言，这一术语旨在以与术语“包含”在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。

Claims

1.一种计算系统，包括：

处理器；以及

存储器，所述存储器包括由所述处理器执行的词典生成器系统，所述词典生成器系统被配置成生成用于上下文文本的词典，所述词典生成器系统被配置成基于混合语言单词或混合语言短语在所述上下文文本中出现的频率将混合语言单词或者混合语言短语中的至少一个包括在所述词典中，

其中所述词典生成器系统进一步包括：

被配置成对所述上下文文本中的编码词目执行多次扫描以形成复合词的扫描器组件，其中所述词典生成器系统被配置成基于所述复合词来生成所述词典，并且其中每次扫描具有被指派给其的预定值，所述预定值定义了要被包括在每次扫描的每个复合词中的单词的数量。

2.如权利要求1所述的计算系统，其特征在于，所述混合语言单词包括第一语言的语标符号以及第二语言的字母数字字符。

3.如权利要求1所述的计算系统，其特征在于，所述混合语言短语包括第一语言的第一单词以及第二语言的第二单词。

4.如权利要求1所述的计算系统，其特征在于，所述上下文文本被指派给限定上下文，所述限定上下文基于以下中的至少一个：

所述上下文文本中的文本的生成者或者分享者的性别；

所述上下文文本中的文本的生成者或者分享者的地理位置；

所述上下文文本中的文本的生成者或者分享者的年龄范围；

所述上下文文本中的文本的生成者或者分享者明确定义的兴趣；或者

所述性别、所述地理位置、所述年龄范围或所述兴趣中的两个或者更多个的组合。

5.如权利要求1所述的计算系统，其特征在于，所述存储器进一步包括被配置成生成文本语料库的文本语料库生成器系统，所述文本语料库生成器系统包括：

被配置成将社交媒体文本编码成编码文本的编码器组件，所述社交媒体文本由社交网络应用披露，所述编码文本跨多种语言对文本进行标准化，所述上下文文本包括所述编码文本的至少一部分。

6.如权利要求5所述的计算系统，其特征在于，所述编码器组件被配置成将所述文本语料库中的文本编码成Unicode。

7.如权利要求5所述的计算系统，其特征在于，所述文本语料库系统进一步包括：

被配置成从所述社交网络应用的用户的简档中提取上下文数据的上下文提取器组件，所述上下文提取器组件被进一步配置成基于由所述上下文提取器组件提取的上下文数据来将上下文数据指派给所述社交媒体文本中的词目。

8.如权利要求1所述的计算系统，其特征在于，所述词典生成器系统进一步包括计数器组件，所述计数器组件被配置成对于所述复合词中每个独特的复合词，计数独特复合词出现的次数，其中所述词典生成器系统被配置成基于所述复合词中的每个复合词的出现次数来生成所述词典。

9.如权利要求8所述的计算系统，其特征在于，所述词典生成系统进一步包括置信度指派器组件，所述置信度指派器组件对于复合词中的每个独特的复合词，基于所述复合词中所述独特复合词的出现次数来指派置信度分数，并且其中所述词典生成器系统被配置成基于每个复合词被所述置信度指派器组件所指派的置信度分数来生成所述词典。

10.如权利要求9所述的计算系统，其特征在于，所述词典生成器系统进一步包括输出组件，所述输出组件被配置成选择要包括在所述词典中的复合词，并且被进一步配置成对要被包括在所述词典中的复合词进行解码。

11.一种由被配置成针对预定上下文生成词典的计算系统执行的方法，所述方法包括：

访问对应于所述预定上下文的上下文文本，所述上下文文本获取自至少一个计算机实现的社交网络应用，所述上下文文本包括至少一个混合语言单词或混合语言短语；

标识所述上下文文本中的词目，所述词目代表所述上下文文本中的短语或句子；

对所述上下文文本中的词目执行多次扫描以形成复合词，复合词代表所述混合语言单词或者所述混合语言短语中的一个，其中每次扫描具有被指派给其的预定值，所述预定值定义了要被包括在每次扫描的每个复合词中的单词的数量；

计算所述复合词出现的频率；以及

基于所述复合词出现的频率生成词典，所述词典包括由所述复合词所代表的混合语言单词或者混合语言短语。

12.如权利要求11所述的方法，其特征在于，所述混合语言单词包括语标符号和字母数字字符。

13.如权利要求12所述的方法，其特征在于，所述语标符号是中文字符。

14.如权利要求11所述的方法，其特征在于，所述混合语言短语包括第一语言的第一单词以及第二语言的第二单词，所述第一单词包括至少一个字母数字字符，所述第二单词包括至少一个语标符号。

15.如权利要求11所述的方法，其特征在于，进一步包括：

确定所述复合词出现的新近度；并且

基于所述复合词出现的新近度生成所述词典。

16.如权利要求11所述的方法，其特征在于，进一步包括：

形成所述上下文文本，其中形成所述上下文文本包括：

基于接收的查询对上下文资料库执行搜索，所述上下文资料库包括根据上下文数据索引的编码文本，所述查询与所述预定上下文有关；并且

将所述搜索的结果包括在所述上下文文本中。

17.如权利要求16所述的方法，其特征在于，形成所述上下文文本进一步包括：

获取社交媒体文本，所述社交媒体文本包括由社交网络应用的用户生成或者分享的帖子；

对所述社交媒体文本进行编码以生成编码文本，所述编码文本是Unicode；并且

基于所述社交网络应用的用户的简档信息将所述上下文数据指派给所述编码文本。

18.一种包括指令的计算机可读存储介质，所述指令在由处理器执行时使得所述处理器执行一种由被配置成针对预定上下文生成词典的计算系统执行的方法，所述方法包括：

计算所述复合词出现的频率；以及