CN107548494A - 上下文敏感短语标识 - Google Patents

上下文敏感短语标识 Download PDF

Info

Publication number
CN107548494A
CN107548494A CN201680014064.4A CN201680014064A CN107548494A CN 107548494 A CN107548494 A CN 107548494A CN 201680014064 A CN201680014064 A CN 201680014064A CN 107548494 A CN107548494 A CN 107548494A
Authority
CN
China
Prior art keywords
computing device
text message
content
context
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201680014064.4A
Other languages
English (en)
Inventor
T·卡普勒
B·凯夫尔
P·J·斯腾加德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN107548494A publication Critical patent/CN107548494A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开的实施例涉及用于处理来自至少一个文本信息源的文本信息的计算设备。计算设备包括处理器,作为计算设备的功能部件并且被配置为执行用于处理文本信息的指令;侦听器部件,被配置为从至少一个源接收文本信息;上下文分析器,被耦合到侦听器部件并且被配置为生成相对于文本信息的上下文信息;内容分析器,被耦合到侦听器部件并且被配置为从文本信息中标识n元语法集合并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,概率数据结构确定给定元素是否为集合的成员;以及索引部件,被配置为对过滤后的内容进行索引。本公开的实施例还涉及用于提供与上下文敏感短语的交互的计算设备。

Description

上下文敏感短语标识
背景技术
世界各地的人们不断地向诸如社交媒体站点、博客、新闻来源等的各种站点贡献内容。然而,难以标识针对特定上下文的对话或内容的某些方面。
上面的讨论仅被提供用于一般背景信息,而非旨在用于帮助确定所要求保护的主题的范围。
发明内容
提供了一种用于处理来自至少一个文本信息源的文本信息的计算设备。计算设备包括作为计算设备的功能部件并且被配置为执行用于处理文本信息的指令的处理器。侦听器部件被配置为从至少一个源接收文本信息。上下文分析器被耦合到侦听器部件,并且被配置为生成相对于文本信息的上下文信息。内容分析器被耦合到侦听器部件,并且被配置为从文本信息标识n元语法集合,并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,概率数据结构确定给定元素是否为集合的成员。索引部件被配置为对过滤后的内容进行索引。
提供本发明内容以便以简化的形式介绍概念的选择,这些概念在下面的具体实施方式中进一步描述。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景技术中指出的任何或所有缺点的实现。
附图说明
图1是根据一个实施例的短语标识架构的框图。
图2是根据一个实施例的从各种面向公众的站点对内容进行分析和索引的方法的流程图。
图3是根据一个实施例的用于从各种面向公众的站点搜索内容索引的方法的流程图。
图4是示出被部署在云计算架构中的图1所示的架构的框图。
图5-7示出可以在先前图中讨论的架构中使用的移动设备的各种示例。
图8是可以在先前图中陈述的架构的各种部分中使用的计算环境的一个示例的框图。
具体实施方式
目前可以基于训练后的语言模型来从文本提取关键短语。然而,这样的技术在计算上是密集的,并且不适合于处理大量的流社交媒体内容。此外,社交媒体内容越来越成为最相关的内容中的一些,该最相关的内容用于非常快速和动态地标识跟踪这样的内容的事件或主题。
图1是短语标识架构100的一个示例的框图。架构100说明性地包括计算系统102和面向公众的站点或源104的集合。作为示例,面向公众的站点104提供由计算系统102分析和索引的内容源。面向公众的站点104可以包括但不限于社交网络106、社区站点108、博客110、新闻媒体站点112以及各种各样的其他面向公众的站点114。社交网络106包括但不限于以下网络,诸如facebook.com、instagram.com、Google+、twitter.com以及现在知道的或稍后开发的允许和支持大量用户之间的交互的其他站点或网络。社区站点108包括但不限于围绕用户社区的感兴趣的特定主题而形成的个人电子公告牌或其他形式的消息站点。此外,社区站点108还可以包括地理社区以及例如城市感兴趣的站点。博客110可以包括但不限于由个人或相对较小的个人群体定期更新并且以非正式或对话风格书写的任何站点。新闻媒体站点112包括但不限于任何电子新闻媒体或渠道站点,无论是国际、国家、地区或地方。其他面向公众的站点114包括但不限于任何公开可用的电子信息源。在一个实施例中,这样的站点包括以相对非结构化格式提供的任何定期更新的电子信息源。
计算系统102说明性地包括监测由面向公众的站点104生成的信息的社交侦听器部件116。计算系统102还包括处理器118和用户界面部件120,用户界面部件120通过用户输入机构124生成用户界面显示122。在一个实施例中,处理器118是计算系统102的功能部件,并且被配置为执行用于处理文本信息的指令。用户126说明性地与用户输入机构124交互或致动用户输入机构124,以便控制和操纵计算系统102。计算系统102也可以包括其他项目128。
计算系统102提供用于对从面向公众的站点104接收的内容标识针对特定上下文(包括整个上下文)的对话(例如,主题)的关键方面的框架。在本示例中,对话的关键方面包括在上下文内出现的关键词或短语集合(一个或多个)(例如“CEO退休”、“麻疹爆发”、“电池着火”)。上下文可以是但不限于文本关键词、社交媒体源、地理区域、时间段、作者等中的一个或多个组合。由计算系统102提供的框架能够处理来自面向公众的站点104的非常大量的流社交媒体或其他内容,并且允许用户(例如,用户126)随后在动态地定义的上下文中标识关键对话短语。
如上所述,从站点104生成的信息被提供给社交侦听器部件116。内容分析器130被配置为分析从面向公众的站点104提供的内容,并且上下文分析器132被配置为标识该内容的上下文。该信息可以被提供给数据收集部件134,并且使用索引部件138在数据存储库136中被索引。数据存储库136说明性地存储短语索引140,短语索引140对从面向公众的站点104提供的内容标识的短语进行索引。
使用短语索引140,搜索部件142可以基于从用户126接收的查询来执行搜索,以标识针对用户定义的上下文的对话的关键方面。例如,对于特定的关键字集合,用户126可能希望从特定社交媒体源上下文和/或地理区域上下文查找来自面向公众的站点104的对话的关键方面。
图2是根据一个实施例的从各种面向公众的站点对内容进行分析和索引的方法200的流程图。为了说明而不是限制,方法200将在架构100的上下文中进行描述。在框202,社交侦听器部件116从面向公众的站点104接收内容。例如,可以从社交网络106或新闻媒体站点112接收文档。在一个示例中,所接收的内容可以包括非结构化文本内容。在另一示例中,所接收的内容可以包括非文本内容,诸如图像、音频和/或视频内容。
在框203,标识与所接收的内容相关联的一个或多个上下文。例如,框203可以由上下文分析器132执行。上下文的示例包括但不限于内容中的文本关键字、从其接收内容的特定社交媒体源、内容起源于其的地理区域、内容的作者、以及内容被创作的时间段的组合。
在框204,对在框202接收的内容执行处理以标识短语。例如,对于非文本内容,可以对内容执行光学字符识别206和/或语音识别208以获得内容的文本表示。此外,处理可以包括从内容去除停止词的文本标记化210、格式分析212和/或停止词消除214。在一个实施例中,文本标记化210可以采用中断或空格来将文本流分解为单词或其他有意义的块。格式分析212可以检查文本的格式参数,以便标识更重要的文本。这样的格式参数可以包括以下特征,诸如大写、文本是粗体和/或斜体、文本是否被突出显示或具有不同的颜色等。去除停止词214从文本去除了来自预定义停止词集合中的单词。停止词是非常普遍的并且具有相对小的有意义价值的单词。这样的停止词的示例包括“该(the)、是(is)、在(at)、哪个(which)、和(and)、或(or)”等。除了去除停止词之外,框214还可以去除具有URL格式的文本。停止词的列表是预定义的,并且可以基于所使用的特定语言而变化。在框216,执行语言模型处理以生成n元语法以从内容中的序列中的单词中标识短语。根据本文中描述的各种实施例,这样的n元语法可以包括一元语法、二元语法和三元语法。然而,也可以采用更大的n元语法。
在框218,将一个或多个过滤器应用于所标识的短语以去除不常见的短语。在一个实施例中,这样的过滤采用概率数据结构来有效地确定元素是否是集合的成员,如框220所示。一个这样的过滤器是布隆过滤器,其中误报(false positive)匹配是可能的,但是漏报(false negative)不是。因此,布隆过滤器可以具有100%的召回率(recall rate)。换言之,查询返回“可能在集合中”或“绝对不在集合中”。此外,这样的过滤器在处理大量源数据时是高效的。布隆过滤器可以被实现为一个或多个布隆过滤器层。例如,第一层布隆过滤器可以确定在框204处生成的N元语法是否先前已经存在。然后,如果布隆过滤器的第一层返回真,则n元语法可以应用于布隆过滤器的第二层。当然,本文中描述的实施例可以使用附加层来实践。然而,过滤器的层结构提供了一个优点,因为相对不常见的n元语法的很大百分比不会通过第一过滤器层,并且因此不需要进一步处理。在一个实施例中,布隆过滤器有时被重置。当布隆过滤器被确定为被填充到某种水平(诸如一半)时,可能会发生这种情况。
在图2的示例中,在框218处应用的过滤有助于通过消除不常见的短语来标识关键对话短语。在一个示例中,在框204处标识的短语基于出现统计被评分,其中具有较低得分的短语在短语索引之前被消除。在一个示例中,计算系统102还可以应用“短语折叠”来标识和消除较低得分的n元语法成为较高得分的匹配的n元语法。
在框222,在数据存储库136中对短语进行索引。例如,短语索引140相对于在步骤203标识的所标识的上下文来对来自步骤218的每个短语进行索引。
图3是用于从各种面向公众的站点搜索内容索引的方法300的一个示例的流程图。为了说明而不是限制,将在架构100的上下文中描述方法300。在框302,接收用户查询。例如,用户126可以通过用户输入机构124提供搜索查询。在框304,标识要标识关键短语的上下文。例如,可以在框302接收到的用户查询中明确地定义上下文,或者可以从用户查询来推断上下文。
在框306,基于所标识的上下文来搜索短语索引140。在一个示例中,系统102执行聚合以寻找针对所定义的感兴趣的上下文与作为整体的整个上下文以不同的速率发生的关键短语。在框308标识关键短语,并且在框310将关键短语作为结果返回给用户。
本文中描述的实施例通常提供诸如社交媒体内容的大量文本信息流的有效处理。此外,所提供的索引使得用户能够定义用于搜索所索引的文本的各种上下文以允许与动态地变化的内容的有效交互。
本讨论已经提到了处理器和服务器。在一个实施例中,处理器和服务器包括没有单独示出的具有相关联的存储器和定时电路的计算机处理器。它们是它们所属的系统或设备的功能部件,并且由这些系统中的其他部件或项目的功能来激活并且支持这些功能。
此外,已经讨论了多个用户界面显示。它们可以采用各种不同的形式,并且可以布置有各种不同的用户可致动的输入机构。例如,用户可致动输入机构可以是文本框、复选框、图标、链接、下拉菜单、搜索框等。它们也可以以各种不同的方式被致动。例如,它们可以使用点击设备(诸如轨迹球或鼠标)来致动。它们可以使用硬件按钮、开关、操纵杆或键盘、拇指开关或拇指垫等来致动。它们也可以使用虚拟键盘或其他虚拟致动器来致动。另外,在显示它们的屏幕是触敏屏幕的情况下,它们可以使用触摸手势来致动。此外,在显示它们的设备具有语音识别部件的情况下,它们可以使用语音命令来致动。
也已经讨论了多个数据存储库。注意,它们每个可以分成多个数据存储库。所有这些都可以对访问它们的系统是本地的,所有这些都可以是远程的,或者一些可以是本地的,而另一些则是远程的。所有这些配置都在本文中预期。
此外,附图示出了具有归因于每个框的功能的多个框。应当注意,可以使用较少的框,因此功能由更少的部件执行。而且,更多的框可以与分布在更多部件之中的功能一起使用。
图4是云计算架构500的框图。云计算提供计算、软件、数据访问和存储服务,其不需要终端用户对递送服务的系统的物理位置或配置的了解。在各种实施例中,云计算使用适当的协议通过诸如因特网的广域网来递送服务。例如,云计算提供商通过广域网递送应用,并且可以通过web浏览器或任何其他计算部件被访问。架构100的软件或部件以及对应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置被整合,也可以是分散的。云计算基础设施可以通过共享数据中心递送服务,即使它们呈现为针对用户的单一访问点。因此,本文中描述的部件和功能可以使用云计算架构从远程位置处的服务提供商来提供。替代地,它们可以从传统服务器来提供,或者可以直接或以其他方式安装在客户端设备上。
该描述旨在包括公共云计算和私有云计算二者。云计算(公共和私有二者)提供了大量无缝的资源池、以及对于管理和配置底层硬件基础设施的降低的需求。
公共云由供应商管理,并且通常支持使用相同基础设施的多个消费者。此外,公共云(而不是私有云)可以使得终端用户免于管理硬件。私有云可以由组织本身来管理,并且基础设施通常不与其他组织共享。组织仍然在某种程度上维护硬件,诸如安装和维修等。
在图4所示的实施例中,一些项目类似于图1所示的项目,并且它们的编号相同。图4具体地示出了环境100的一些或所有部件位于云502中(其可以是公共的、私有的或者其中部分是公共的而其他是私有的的组合)。因此,用户126使用用户设备504以通过云502来访问这些部件。
图4还描绘了云架构的另一实施例。图4示出了还可以预期计算系统100的一些元件被布置在云502中,而另一些则没有。作为示例,数据存储库110可以被布置在云502外部,并且通过云502来访问。在另一实施例中,架构100的一些部件(由框506表示)也在云502外部。不管它们位于何处,它们可以由设备504通过网络(广域网或局域网)直接访问,它们可以由服务托管在远程站点处,或者它们可以通过云作为服务被提供,或者由驻留在云中的连接服务来访问。本文中预期所有这些架构。
还注意,架构100或其部分可以布置在各种不同的设备上。这些设备中的一些包括服务器、台式计算机、膝上型计算机、平板计算机或其他移动设备,诸如掌上计算机、蜂窝电话、智能电话、多媒体播放器、个人数字助理等。
图5是其中可以部署本系统(或其部分)的可以用作用户或客户的手持设备16的手持或移动计算设备的一个说明性实施例的简化框图。图6-7是手持设备或移动设备的示例。
图5提供可以运行架构100的部件或者与架构100交互或者这两者的客户端设备16的部件的一般框图。在设备16中,提供通信链路13,通信链路13允许手持设备与其他计算设备通信,并且在一些实施例下提供用于诸如通过扫描来自动接收信息的通道。通信链路13的示例包括红外端口、串行/USB端口、诸如以太网端口的有线网络端口、以及无线网络端口,该无线网络端口允许通过一个或多个通信协议来进行通信,通信协议包括通用分组无线电业务(GPRS)、LTE、HSPA、HSPA+以及其他3G和4G无线电协议、1Xrtt和短消息服务(它们是用于提供对网络的蜂窝接入的无线服务)、以及802.11和802.11b(Wi-Fi)协议以及蓝牙协议(其提供到网络的本地无线连接)。
在其他实施例下,应用或系统被容纳在连接到SD卡接口15的可移除安全数字(SD)卡上。SD卡接口15和通信链路13沿着总线19与处理器17通信,该总线19也连接到存储器21和输入/输出(I/O)部件23以及时钟25和位置系统27。
在一个实施例中,I/O部件23被提供以支持输入和输出操作。针对设备16的各种实施例的I/O部件23可以包括输入部件和输出部件,输入部件诸如按钮、触摸传感器、多点触摸传感器、光学或视频传感器、语音传感器、触摸屏、接近传感器、麦克风、倾斜传感器和重力开关,输出部件诸如显示设备、扬声器和打印机端口。也可以使用其他I/O部件23。
时钟25说明性地包括输出时间和日期的实时时钟部件。它也可以说明地为处理器17提供定时功能。
位置系统27说明性地包括输出设备16的当前地理位置的部件。这可以包括例如全球定位系统(GPS)接收器、LORAN系统、航位推算系统、蜂窝三角测量系统、或其他定位系统。它还可以包括例如生成期望的地图、导航路线和其他地理功能的映射软件或导航软件。
存储器21存储操作系统29、网络设置31、应用33、应用配置设置35、数据存储库37、通信驱动器39和通信配置设置41。存储器21可以包括所有类型的有形易失性和非易失性计算机可读存储器设备。它还可以包括计算机存储介质(如下所述)。存储器21存储计算机可读指令,该计算机可读指令在由处理器17执行时引起处理器根据指令来执行计算机实现的步骤或功能。例如,数据存储库110中的项目可以驻留在存储器21中。处理器17可以被其他部件激活以便也支持它们的功能。
网络设置31的示例包括诸如代理信息、因特网连接信息和映射的事物。应用配置设置35包括为特定企业或用户定制应用的设置。通信配置设置41提供用于与其他计算机通信的参数,并且包括诸如GPRS参数、SMS参数、连接用户名和密码的项目。
应用33可以是先前已经存储在设备16上的应用或者在使用期间安装的应用,尽管它们也可以是操作系统29的部分,或者也可以被托管在设备16外部。
图6示出了其中设备16是平板计算机600的一个实施例。在图6中,计算机600被示出为具有在显示屏幕602上显示的用户界面显示。屏幕602可以是触摸屏(因此来自用户手指的触摸手势可以用于与应用交互)或者从笔或触控笔接收输入的支持笔的界面。它也可以使用屏幕上的虚拟键盘。当然,它也可以通过诸如无线链路或USB端口的合适的附接机构附接到键盘或其他用户输入设备。计算机600也可以说明性地接收语音输入。
也可以使用设备16的附加示例。设备16可以是功能电话、智能电话或移动电话。电话包括用于拨打电话号码的一组键盘、能够显示包括应用图像、图标、web页面、照片和视频的图像的显示器、以及用于选择在显示器上示出的项目的控制按钮。电话包括用于接收诸如通用分组无线电业务(GPRS)和1Xrtt以及短消息业务(SMS)信号的蜂窝电话信号的天线。在一些实施例中,电话还包括容纳SD卡的安全数字(SD)卡插槽。
移动设备可以是个人数字助理(PDA)或多媒体播放器或平板计算设备等(下文中称为PDA)。PDA可以包括当触控笔(或其他指示器,诸如用户的手指)位于屏幕上方时感测触控笔的位置的感应屏幕。这允许用户选择、突出显示和移动屏幕上的项目以及绘图和写入。PDA还包括多个用户输入键或按钮,其允许用户滚动通过被显示在显示器上的菜单选项或其他显示选项,并且允许用户改变应用或选择用户输入功能,而不与显示器接触。尽管未示出,但是PDA可以包括允许与其他计算机的无线通信的内部天线和红外发射器/接收器以及允许与其他计算设备的硬件连接的连接端口。这样的硬件连接通常经由通过串行或USB端口连接到其他计算机的支架来进行。因此,这些连接是非网络连接。在一个实施例中,移动设备还包括容纳SD卡的SD卡插槽。
图7示出了电话是智能电话71。智能电话71具有显示图标或图块(tile)或其他用户输入机构75的触敏显示器73。用户可以使用机构75来运行应用、进行呼叫、执行数据传输操作等。通常,智能电话71建立在移动操作系统上,并且提供比功能电话更高级的计算能力和连接性。
注意,设备16的其他形式是可能的。
图8是其中可以部署架构100或其部分(例如)的计算环境的一个实施例。参考图8,用于实现一些实施例的示例性系统包括计算机810形式的通用计算设备。计算机810的部件可以包括但不限于处理单元820、系统存储器830和系统总线821,系统总线821将包括系统存储器的各种系统部件耦合到处理单元820。系统总线821可以是若干类型的总线结构中的任一种,包括使用各种总线架构中的任一种的存储器总线或存储器控制器、外围总线和本地总线。作为示例而非限制,这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和也称为夹层总线的外围部件互连(PCI)总线。关于图1描述的存储器和程序可以部署在图8的对应部分中。
计算机810通常包括各种计算机可读介质。计算机可读介质可以是可以由计算机810访问的任何可用介质,并且包括易失性和非易失性介质、可移除和不可移除介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质与调制数据信号或载波不同,也不包括调制数据信号或载波。它包括硬件存储介质,包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储装置或其他磁存储设备、或者可以用于存储所需信息并且可以由计算机810访问的任何其他介质。通信介质通常实施计算机可读指令、数据结构、程序模块或传输机构中的其他数据,并且包括任何信息递送媒体。术语“调制数据信号”是指以在信号中对信息进行编码的方式设置或改变其特征中的一个或多个的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接的有线介质以及诸如声学、RF,红外和其他无线介质的无线介质。上述任一项的组合也应当被包括在计算机可读介质的范围内。
系统存储器830包括诸如只读存储器(ROM)831和随机存取存储器(RAM)832的易失性和/或非易失性存储器形式的计算机存储介质。包含有助于诸如在启动期间在计算机810内的元件之间传送信息的基本例程的基本输入/输出系统833(BIOS)通常存储在ROM 831中。RAM 832通常包含由处理单元820立即可访问和/或正在操作的数据和/或程序模块。作为示例而非限制,图8示出了操作系统834、应用程序835、其他程序模块836和程序数据837。
计算机810还可以包括其他可移除/不可移除的易失性/非易失性计算机存储介质。仅作为示例,图8示出了从不可移除的非易失性磁性介质读取或向其写入的硬盘驱动器841、从可移除的非易失性磁盘852读取或向其写入的磁盘驱动器851、以及从诸如CD ROM或其他光学介质的可移除的非易失性光盘856读取或向其写入的光盘驱动器855。可以在示例性操作环境中使用的其他可移除/不可移除的易失性/非易失性计算机存储介质包括但不限于磁带盒、闪存卡、数字通用盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器841通常通过诸如接口840的不可移除存储器接口连接到系统总线821,并且磁盘驱动器851和光盘驱动器855通常通过诸如接口850的可移除存储器接口连接到系统总线821。
替代地或另外地,本文中描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如而非限制,可以使用的说明性类型的硬件逻辑部件包括现场可编程门阵列(FPGA)、程序专用集成电路(ASIC)、程序专用标准产品(ASSP)、片上系统系统(SOC)、复杂可编程逻辑器件(CPLD)等。
上面讨论并且在图8中示出的驱动器及其相关联的计算机存储介质为计算机810提供计算机可读指令、数据结构、程序模块和其他数据的存储。在图8中,例如,硬盘驱动器841被示出为存储操作系统844、应用程序845、其他程序模块846和程序数据847。注意,这些部件可以与操作系统834、应用程序835、其他程序模块836和程序数据837相同或不同。操作系统844、应用程序845、其他程序模块846和程序数据847在这里被给予不同的数字,以说明至少它们是不同的副本。
用户可以通过诸如键盘862、麦克风863的输入设备和诸如鼠标、轨迹球或触摸板的指示设备861将命令和信息输入到计算机810中。其他输入设备(未示出)可以包括操纵杆、游戏垫、卫星天线、扫描仪等。这些和其他输入设备通常通过耦合到系统总线的用户输入接口860连接到处理单元820,但是可以通过诸如并行端口、游戏端口或通用串行总线(USB)的其他接口和总线结构来连接。视觉显示器891或其他类型的显示设备也经由诸如视频接口890的接口连接到系统总线821。除了监示器之外,计算机还可以包括可以通过输出外围接口895连接的其他外围输出设备,诸如扬声器897和打印机896。
计算机810在使用到诸如远程计算机880的一个或多个远程计算机的逻辑连接的网络环境中操作。远程计算机880可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其他公共网络节点,并且通常包括以上相对于计算机810描述的多个或所有元件。图8中描绘的逻辑连接包括局域网(LAN)871和广域网(WAN)873,但是也可以包括其他网络。这样的网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN网络环境中使用时,计算机810通过网络接口或适配器870连接到LAN871。当在WAN网络环境中使用时,计算机810通常包括调制解调器872或者用于通过诸如因特网的WAN 873建立通信的其他装置。可以是内部或外部的调制解调器872可以经由用户输入接口860或其他适当的机构连接到系统总线821。在网络环境中,相对于计算机810或其部分描绘的程序模块可以存储在远程存储器存储设备中。作为示例而非限制,图8示出了驻留在远程计算机880上的远程应用程序885。应当理解,所示出的网络连接是示例性的,并且可以使用在计算机之间建立通信链路的其他装置。
还应当注意,本文中描述的不同实施例可以以不同的方式组合。也就是说,一个或多个实施例中的部分可以与一个或多个其他实施例中的部分组合。所有这些都在本文中预期。
示例1是一种用于处理来自至少一个文本信息源的文本信息的计算设备。计算设备包括作为计算设备的功能部件并且被配置为执行用于处理文本信息的指令的处理器。侦听器部件被配置为从至少一个源接收文本信息。上下文分析器耦合到侦听器部件,并且被配置为生成相对于文本信息的上下文信息。内容分析器耦合到侦听器部件,并且被配置为从文本信息中标识n元语法集合,并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,概率数据结构确定给定元素是否为集合的成员。索引部件被配置为对过滤后的内容进行索引。
示例2是任何或所有先前示例的计算设备,其中侦听器部件是社交侦听器部件,并且其中至少一个文本信息源包括社交网络。
示例3是任何或所有先前示例的计算设备,其中侦听器部件被配置为从至少一个文本信息源接收文本信息流。
示例4是任何或所有先前示例的计算设备,其中概率数据结构包括布隆过滤器。
示例5是任何或所有先前示例的计算设备,其中布隆过滤器包括多个层,其中第一层为对第二层的输入。
示例6是任何或所有先前示例的计算设备,其中计算设备被配置为重置布隆过滤器。
示例7是任何或所有先前示例的计算设备,其中计算设备被配置为当布隆过滤器被填充到所选择的阈值时重置布隆过滤器。
示例8是任何或所有先前示例的计算设备,其中内容分析器被配置为向文本信息应用文本标记化以对文本信息进行标记化。
示例9是任何或所有先前示例的计算设备,其中内容分析器还被配置为分析文本信息的格式。
示例10是任何或所有先前示例的计算设备,其中内容分析器还被配置为从文本信息去除停止词。
示例11是任何或所有先前示例的计算设备,其中内容分析器还被配置为去除文本信息中的统一资源定位符。
示例12是任何或所有先前示例的计算设备,其中内容分析器被配置为将至少一些n元语法折叠成具有较高出现得分的匹配的n元语法。
示例13是任何或所有先前示例的计算设备,并且还包括用户界面部件,用户界面部件被配置为接收规定上下文的输入查询并且基于所规定的上下文和所索引的过滤后的内容来提供查询结果。
示例14是任何或所有先前示例的计算设备,其中过滤后的内容的索引被存储在计算设备的数据存储库中。
示例15是一种处理社交媒体内容的方法。该方法包括从至少一个社交媒体网络接收社交媒体内容。条件化(condition)社交媒体内容,并且在条件化后的社会媒体内容中标识n元语法。使用概率数据结构去除至少一些n元语法以生成过滤后的n元语法,概率数据结构确定给定元素是否为集合的成员。对过滤后的n元语法进行索引。
示例16是任何或所有先前示例的方法,其中概率数据结构是布隆过滤器。
示例17是任何或所有先前示例的方法,其中布隆过滤器是多层布隆过滤器。
示例18是任何或所有先前示例的方法,并且还包括接收查询和上下文信息,并且基于所索引的过滤后的n元语法和上下文信息来提供查询结果。
示例19是任何或所有先前示例的方法,其中条件化社交媒体内容包括应用标记化,分析格式并且去除停止词。
示例20是一种用于提供与上下文敏感短语的交互的计算设备。计算设备包括作为计算设备的功能部件并且被配置为执行用于处理社交媒体文本信息的指令的处理器。数据存储库包含过滤后的社交媒体文本信息的索引。用户界面部件被配置为接收感兴趣的上下文,并且使用过滤后的社交媒体文本信息的索引来提供结果。
尽管已经以结构特征和/或方法动作特定的语言描述了主题,但是应当理解,所附权利要求中限定的主题不一定限于上述具体特征或动作。相反,上述具体特征和动作被公开作为实现权利要求的示例形式。

Claims (15)

1.一种用于处理来自至少一个文本信息源的文本信息的计算设备,所述计算设备包括:
处理器,作为所述计算设备的功能部件并且被配置为执行用于处理所述文本信息的指令;
侦听器部件,被配置为从所述至少一个源接收所述文本信息;
上下文分析器,被耦合到所述侦听器部件并且被配置为生成相对于所述文本信息的上下文信息;
内容分析器,被耦合到所述侦听器部件并且被配置为从所述文本信息中标识n元语法集合并且通过使用概率数据结构去除至少一些n元语法来提供过滤后的内容,所述概率数据结构确定给定元素是否为集合的成员;以及
索引部件,被配置为对所述过滤后的内容进行索引。
2.根据权利要求1所述的计算设备,其中所述侦听器部件是社交侦听器部件并且其中所述至少一个文本信息源包括社交网络。
3.根据权利要求1所述的计算设备,其中所述侦听器部件被配置为从所述至少一个文本信息源接收文本信息流。
4.根据权利要求1所述的计算设备,其中所述概率数据结构包括布隆过滤器。
5.根据权利要求4所述的计算设备,其中所述布隆过滤器包括多个层,其中第一层为对第二层的输入。
6.根据权利要求4所述的计算设备,其中所述计算设备被配置为重置所述布隆过滤器。
7.根据权利要求6所述的计算设备,其中所述计算设备被配置为当所述布隆过滤器被填充到所选择的阈值时重置所述布隆过滤器。
8.根据权利要求1所述的计算设备,其中所述内容分析器被配置为向所述文本信息应用文本标记化以对所述文本信息进行标记化。
9.根据权利要求8所述的计算设备,其中所述内容分析器还被配置为分析所述文本信息的格式。
10.根据权利要求9所述的计算设备,其中所述内容分析器还被配置为从所述文本信息去除停止词。
11.根据权利要求10所述的计算设备,其中所述内容分析器还被配置为去除所述文本信息中的统一资源定位符。
12.根据权利要求1所述的计算设备,其中所述内容分析器被配置为将至少一些n元语法折叠成具有较高出现得分的匹配的n元语法。
13.根据权利要求1所述的计算设备,并且还包括用户界面部件,所述用户界面部件被配置为接收规定上下文的输入查询并且基于所规定的上下文和所索引的过滤后的内容来提供查询结果。
14.根据权利要求1所述的计算设备,其中所述过滤后的内容的索引被存储在所述计算设备的数据存储库中。
15.一种用于提供与上下文敏感短语的交互的计算设备,所述计算设备包括:
处理器,作为所述计算设备的功能部件并且被配置为执行用于处理社交媒体文本信息的指令;
数据存储库,包含过滤后的社交媒体文本信息的索引;以及
用户界面部件,被配置为接收感兴趣的上下文并且使用所述过滤后的社交媒体文本信息的索引来提供结果。
CN201680014064.4A 2015-03-12 2016-03-11 上下文敏感短语标识 Withdrawn CN107548494A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562131932P 2015-03-12 2015-03-12
US62/131,932 2015-03-12
US14/836,361 US20160267072A1 (en) 2015-03-12 2015-08-26 Context sensitive phrase identification
US14/836,361 2015-08-26
PCT/US2016/021892 WO2016145266A2 (en) 2015-03-12 2016-03-11 Context sensitive phrase identification

Publications (1)

Publication Number Publication Date
CN107548494A true CN107548494A (zh) 2018-01-05

Family

ID=55588629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680014064.4A Withdrawn CN107548494A (zh) 2015-03-12 2016-03-11 上下文敏感短语标识

Country Status (3)

Country Link
US (1) US20160267072A1 (zh)
CN (1) CN107548494A (zh)
WO (1) WO2016145266A2 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096065A1 (en) * 2016-09-30 2018-04-05 Microsoft Technology Licensing, Llc Media Searching
US11272823B2 (en) 2018-08-31 2022-03-15 Neato Robotics, Inc. Zone cleaning apparatus and method
EP3812892B1 (en) 2019-10-21 2022-12-07 ARM Limited Apparatus and method for handling memory load requests
GB2594732B (en) * 2020-05-06 2022-06-01 Advanced Risc Mach Ltd Adaptive load coalescing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101398820A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种大规模关键词匹配方法
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
WO2014100029A1 (en) * 2012-12-20 2014-06-26 Intel Corporation Method and apparatus for conducting context sensitive search with intelligent user interaction from within a media experience

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239394B1 (en) * 2005-03-31 2012-08-07 Google Inc. Bloom filters for query simulation
US8229930B2 (en) * 2010-02-01 2012-07-24 Microsoft Corporation URL reputation system
US9369433B1 (en) * 2011-03-18 2016-06-14 Zscaler, Inc. Cloud based social networking policy and compliance systems and methods
US9176949B2 (en) * 2011-07-06 2015-11-03 Altamira Technologies Corporation Systems and methods for sentence comparison and sentence-based search
EP3413222B1 (en) * 2012-02-24 2020-01-22 Nant Holdings IP, LLC Content activation via interaction-based authentication, systems and method
CN105122745B (zh) * 2013-02-27 2019-06-28 马维尔国际贸易有限公司 用于网络设备的高效最长前缀匹配技术
US20150113018A1 (en) * 2013-10-17 2015-04-23 Ut Battelle, Llc Interactive visual analytics for situational awareness of social media
US9679024B2 (en) * 2014-12-01 2017-06-13 Facebook, Inc. Social-based spelling correction for online social networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398820A (zh) * 2007-09-24 2009-04-01 北京启明星辰信息技术有限公司 一种大规模关键词匹配方法
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
WO2014100029A1 (en) * 2012-12-20 2014-06-26 Intel Corporation Method and apparatus for conducting context sensitive search with intelligent user interaction from within a media experience

Also Published As

Publication number Publication date
US20160267072A1 (en) 2016-09-15
WO2016145266A2 (en) 2016-09-15

Similar Documents

Publication Publication Date Title
US10713108B2 (en) Computing system issue detection and resolution
US20180232378A1 (en) Default Suggested Queries on Online Social Networks
US9514218B2 (en) Ambiguous structured search queries on online social networks
US20160132605A1 (en) Service Recommendation Method and Apparatus with Intelligent Assistant
EP3720060B1 (en) Apparatus and method for providing conversation topic
US20170118152A1 (en) Message providing methods and apparatuses, display control methods and apparatuses, and computer-readable mediums storing computer programs for executing methods
CN106605234B (zh) 使用近场通信与许可控制共享内容
CN105723323B (zh) 用于在不同屏幕上显示应用数据的远程控制
US20150326622A1 (en) Generating a form response interface in an online application
CN103473253B (zh) 经地理编码的数据的检测及用于其的用户界面
CA2914587C (en) Ambiguous structured search queries on online social networks
CN107548494A (zh) 上下文敏感短语标识
CN107580013A (zh) 跨域请求数据的方法及装置
US20150154682A1 (en) Enriching product catalog with search keywords
CN106790915A (zh) 号码识别控制方法、装置及相应的服务器和移动终端
CN109891836A (zh) 具有智能回复和漫游草稿的电子邮件
CN106796605A (zh) 分段数据录入的验证
EP3201766B1 (en) Segmenting data with included separators
WO2021173581A1 (en) Automated actions in a security platform
US20150154681A1 (en) Enriching product catalog with product name keywords
WO2023028604A1 (en) Automatic language identification in image-based documents
US20160087862A1 (en) Identifying and transmitting performance information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180105

WW01 Invention patent application withdrawn after publication