CN102648464A - 用于从网络数据中生成词汇的系统和方法 - Google Patents

用于从网络数据中生成词汇的系统和方法 Download PDF

Info

Publication number
CN102648464A
CN102648464A CN201080043794XA CN201080043794A CN102648464A CN 102648464 A CN102648464 A CN 102648464A CN 201080043794X A CN201080043794X A CN 201080043794XA CN 201080043794 A CN201080043794 A CN 201080043794A CN 102648464 A CN102648464 A CN 102648464A
Authority
CN
China
Prior art keywords
field
data
noun
speech
white list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201080043794XA
Other languages
English (en)
Other versions
CN102648464B (zh
Inventor
山格维鲁·阿木盖姆
萨蒂施·K·甘努
维吉尔·N·米哈罗维斯
阿舒拓史·A·马勒高恩卡
克利斯汀·波斯
索纳利·M·萨姆布斯
妮塔沙·瓦利亚
奎·张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cisco Technology Inc
Original Assignee
Cisco Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cisco Technology Inc filed Critical Cisco Technology Inc
Publication of CN102648464A publication Critical patent/CN102648464A/zh
Application granted granted Critical
Publication of CN102648464B publication Critical patent/CN102648464B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

在一个示例中提供了一种方法,该方法包括接收在网络环境中传播的数据,并将数据分离成一个或者多个字段。评估这些字段中的至少一些以便识别这些字段内的名词和名词短语。该方法还包括基于白名单和黑名单识别在名词和名词短语内所选择的词。白名单包括要被加标记的多个指定的词,黑名单包括将不被加标记的多个拒绝的词。为所选择的加标记的名词和名词短语而生成合成物。如果合成物准许则将合成物合并在白名单中。

Description

用于从网络数据中生成词汇的系统和方法
技术领域
本公开一般地涉及通信领域,更具体地,涉及从网络数据中生成词汇。
背景技术
在当今社会,通信领域变得越来越重要。尤其,有效率地收集、关联和组织信息的能力对于组件制造商、系统设计者以及网络操作者的造成显著障碍。该障碍由于过多的贫乏的语言模式、俚语和不适当的语法甚至变得更困难:在当今公司环境中全部这些好像是普遍存在的。因为新的通信平台和技术变得可用,应当开发新的协议以便优化这些新兴的协议的使用。在内容(寻求智能地组织该内容)在网络中传播的数据监视情形中出现了一些问题。
附图说明
为了提供本公开和特征以及它们的优势的更完整的理解,参考了与附图相结合的如下说明,其中相同的参考数字表示相同的部分,其中:
图1是依据一个实施例的用于从网络数据生成词汇的通信系统的简化的框图;
图2是依据一个实施例的可以出现在通信系统中的示例提取的简化的框图;以及
图3是图示了与通信系统相关联的一系列示例步骤的简化的流程图。
具体实施方式
概览
在一个示例中提供了一种方法,该方法包括接收在网络环境中传播的数据和将数据分离为一个或者多个字段。评估这些字段中的至少一些以便识别这些字段内的名词和名词短语。该方法还包括基于白名单和黑名单识别在名词和名词短语内所选择的单词。白名单包括要被加标记的多个指定的单词,并且黑名单包括将不被加标记的多个拒绝的单词。为所选择的被加标记的名词和名词短语而生成合成物。如果合成物被准许,则将合成物合并在白名单中。在更具体的实施例中,这些字段包括题目字段、概念字段、文本字段以及作者字段。该方法可以将与该数据相关联的文档分离为第一段和第二段,该第一段包括概念字段,该第二段包括其他字段。因此,可以基于在数据中检查到的停止单词的配置的列表将数据中的一个或者多个词移除。还可以基于与多个终端用户相关联的数据集合建议将词包括在白名单中或者黑名单中。
示例实施例
图1是用于从网络数据中生成词汇的通信系统10的简化框图。图1可以包括终端用户12,该终端用户操作被配置为与互联网协议(IP)网络14连接的计算机设备。另外,设置了管理员20,其中管理员20有通过IP网络18与该架构连接的能力。还提供了与图1相结合的一个示例工作流程30,当通过通信系统10接收到并且智能地处理了文件(及其内容)时,该示例工作流程跟踪该文档(及其内容)。
通信系统10还可以包括网络协作平台(NCP)32,其包括白名单/黑名单添加模块34、反馈环模块36以及管理员建议接口38。图1还包括中央引擎40,其包括轻量级目录访问协议(LDAP)元件42、词汇馈送器模块44、流元件50、新兴词汇主题元件46以及表格写服务元件48。
图1还包括网络探测器54,其包括先进先出(FIFO)元件56、文本提取模块58、黑名单60、文本类型过滤器62、名词短语提取器模块64、白名单66、文档分离器元件68以及清除主题模块70。可以将多个网络探测器54设置在网络内的多个位置,该设备可以基于寻求对多少信息加标记,多种网络元件的容量等。
注意转到本公开的示例实施例的示例流程和基础设施之前,提供了该架构的工作流程的简要概览。一些自动词汇产生协议试图解决手动建立词汇的问题。大部分方法是耗时,不灵活并且难以管理的(例如,在针对白名单、黑名单等添加/删除/修改条目的上下文中)。通信系统10可以提供能够为通过给定的网络的内容提供有效的标签添加的架构。该架构提供了灵活性,这是因为该架构可以被配置为保护雇员隐私和敏感内容,例如,其中仅仅匹配受控的商业词汇的内容可以被提取和合适地索引。
另外,通信系统10提供了词汇建立机制,该机制与演进的商业方言联合。这意味着(在一般意义上),受控的词汇是自动地并且快速地随新的/浮现的商业内容来演进的活动的实体。本架构的一个方面包括名词短语提取组件,可以将其与过滤机制和流访问计数一起来提供以恢复受欢迎的和/或新词汇条目。
在示例实现,前提可以包括令该架构建议潜在词汇候选的单词和短语。可以给予多单词短语比单个单词术语更大的权重。将这些单词包括在白名单中还是黑名单中的决定取决于词汇管理员。管理员还可以通过标记单词以供添加到管理员停止单词的列表中,决定这些单词是否应当永远不引起他的注意。这可以采取反馈环的形式,例如,从NCP用户接口到网络探测器/中央引擎(依赖停止单词移除组件可以驻留的位置)。
在示例实施例中,仅将词汇的某个数据字段(例如,单词)加标记。如本说明书中在这里使用的,术语“数据”意味着包括在网络环境中传播的任何合适格式的任何信息(视频、文本、音频、多媒体、语音等)。可以将特定的字段设置在反映具体网络内容的白名单中。在示例实现中,管理员20可以开发某个表示隐私问题,特权内容等的字段,使得最终的文档或者文件的合成物将反映能够在公司(潜在地公开)环境中的雇员间共享的信息。在某实现中,该文档的合成物(即,数据)可以帮助识别与具体主题领域相关联的专家;然而,存在通信系统10可以应用到其中的无数的更多的应用。如本说明书中在这里使用的,术语“合成物”可以为任何的对象、位置、数据库、资料库、服务器、文件、表格等,其可以将通过通信系统10生成的结果提供给管理员20。
转到图1的基础设施,IP网络14和18表示用于接收和发送通过通信系统10的信息分组的互连通信路径的一系列点或者节点。IP网络14和18提供服务器(和或终端用户)之间的通信接口,它可以是任何的局域网(LAN)、无线LAN(WLAN)、城域网(MAN)、虚拟LAN(VLAN)、虚拟专用网(VPN)、广域网(WAN),或者便利在网络环境中通信的任何其它的适当的架构或者系统。在本公开的具体实施例中IP网络14和18可以实现的TCP/IP通信语言协议;然而,或者IP网络14和18可以实现用于发送和接收在通信系统10中的数据分组的任何其它的合适的通信协议。
注意网络探测器54可以容易地成为本架构的某实施例中的服务器的一部分。在示例实现中,网络探测器54是便利或者帮助协作词汇建立操作的网络元件,如在这里说明的。如本说明书中在这里使用的,术语“网络元件”意味着包括网络装置、服务器、路由器、开关、网关、桥、负载均衡器、防火墙、处理器、模块、或者任何其它的合适的设备、组件、元件或者可操作的物体以在网络环境中交换信息。此外,网络元件可以包括任何合适的硬件、软件、组件、模块、接口或者便利了它们的操作的物体。这可以将允许有效的数据或者信息交换的适当的算法和通信协议包括在内。
在示例实现中,网络探测器54包括软件(例如,如名词短语提取器模块64的一部分)以实现词汇建立操作,如本公开中在这里概述的。在其它实施例中,可以向任何前述元件外部地设置该特征,或者将该特征包括在一些其它网络设备中以实现预期的功能。或者,为了实现操作一些元件可以包括能够协作的软件(或者互补软件),如这里概述的。在其它实施例中,任何的图1的设备还可以包括任何合适的算法、硬件、软件、组件、模块、接口或者便利了这些词汇建立操作的物体。参考图2和图3以下将详细描述通信系统10的更多的可操作能力。
转到图2,图2是网络探测器80的示例实现的简化框图,其使用名词短语提取器模块84处理一些示例文档。网络探测器80在该具体地配置中包括存储器元件86和处理器88。在用于讨论目的简化示例的操作中,可以在网络探测器80上执行提取和处理操作,其中可以稍后向NCP 32、合适的管理员接口等提供那些结果。(注意,如本说明书中在这里使用的,术语“分离”被用于包括在数据流中的数据段的提取、划分、逻辑分离等。如本说明书中在这里使用的术语“加标记”,被用于包括与数据相关联的任何类型的加标签、维护、识别等。)如图2中描述的,“概念”字段可以被创建,并且其包括从文档提取的(例如,从逗号分离的)名词短语列表。在第一示例中,概念字段包括记号,该记号诸如:(文本)苹果电脑是计算机;(概念)苹果电脑,计算机。在第二实例中,该概念字段包括记号诸如:(文本)绿苹果好;(概念)绿苹果。
在示例中,名词短语提取器模块64可以在任何文本字段中找到名词短语。在更具体的实现中,将代词和单个单词排除使其不成为名词短语。名词短语可以是指代人,地点或者事的句子的一部分。在大多数句子中,主题和目标(如果存在一个)是名词短语。最低限度的,名词短语可以由名词(例如,“水”或者“宠物”)或者代词(例如,“我们”或者“你们”)组成。较长的名词短语也可以包括限定词(例如,“每一只狗”),形容词(例如,“绿苹果”)或者其它上述的,形容词的名词(例如,“计算机监视器修理手册”),以及其它种类的单词。将它们称为名词短语是因为中心词(即,如果存在任何的短语的剩余部分的单词,那么将其修改)是名词或者代词。针对搜索和其它语言应用,名词短语是有用的,这是因为通过名词短语可以承载文本中的许多感兴趣的信息。大多数搜索查询是在一些给定的主题范围中包括的名词短语。因此,知道了在文档内的名词短语的位置,并且还提取它们是标记应用的重要步骤。
对于终端用户接口,可以向管理员周期性地建议将条目添加到词汇。用于用户被建议的词汇的现有的接口可以被用于向管理员显示该条目。在示例实现中,可以在中央引擎40上设置停止单词移除特征(例如,这可以使得反馈环的实现更有效)。在其它实例中,将停止单词移除设置在网络探测器54上,使得仅向中央引擎40发送过滤后的字段。概念字段可以像在接收的/收集的文档中的其它字段一样是可访问的。该概念字段是串字段的值的列表。在以下提供的一些示例的上下文中可以最好地理解与这些操作相关联的更多的功能。
图3是图示与通信系统10相关联的示例操作的简化的流程图。可以结合工作流程30来讨论图3,工作流程30可以跟踪与通信系统10相关联的某些操作。在该具体的流程中,在步骤110处,终端用户12已经写了一封包括内容“光交换是惊人的技术”的电子邮件。该电子邮件消息可以横穿网络并且在路由器(例如,大型协作路由器、交换机、交换端口分析仪(SPAN)端口、或者一些虚拟专用网络(VPN)网络装置类型)处被接收。这可以通过步骤120来反应。为了捕获数据和/或便利内容识别,可以将网络探测器54设置在这样的位置上,如在这里描述的。
在该具体的示例中,在步骤130处FIFO元件56可以接收原始格式的数据。在步骤140处为了识别与该具体的文档相关联的题目,文本,作者以及统一资源定位符(URL),提取模块58提取某些字段。注意对于该具体实例(其中已经发送了一封电子邮件),URL可以具有空字段。题目可以包括具有所引用的陈述(即,内容)的主题行,或者重要/优先的参数,以及文本字段,如以上写出的。接着该文档被传送到黑名单60,黑名单搜索(即,评价)该文档以查看在文档中是否找到任何的黑名单列出的单词(步骤150)。如果存在任何的该黑名单列出的单词,那么将文档丢弃。在一般意义上,存在由一起工作的黑名单60和白名单66设置的两个隐私层。在公司环境中黑名单单词的示例可以包括“工资”、“兼并”等,或者可能冒犯公共用户,妥协隐私问题,牵涉商业交易机密等的可能的单词。注意黑名单(很像白名单)可以基于具体的用户需求通过管理员20容易地配置。本说明书中在这里使用的术语“白名单”意味着包含寻求作为包含在针对管理员20的单词的合成物中的目标的任何数据。沿用类似的推论,在这里使用的术语“黑名单”意味着包括不应当被包括在单词的合成物中的条目。
假设由于黑名单的检查没有将本实例中的文档丢弃,那么将文档传递到文档过滤器62。在步骤160处文档过滤器62执行被评估的文档类型的快速检查。另外,该组件是可配置为管理员可以容易地识别某种文档类型为包括更实质的或者有意义的信息(例如,PDF或者Word处理文档等)。沿用类似的推论,一些文档(诸如JPEG图片)不可以提供在相关联的文档内找到实质的词汇(即,内容)的可能性。可以(实际上)不对这些更加不相干的文档进行内容评估,并且任何诸如是忽略这些文档(例如JPEG图片),还是更加仔细地细查这些文档的判决将留给管理员20。
在示例中,名词短语提取器模块64包括自然语言处理(NLP)组件以辅助名词短语提取器模块64的操作。注意在文本提取模块58中类似的技术可以存在以辅助文本提取模块58对应的操作。名词短语提取器模块64的一个目标是从文本中提取有意义的目标,使得该内容可以被聚集并且通过通信系统10被进一步处理。在该示例中,名词短语提取器模块64通过提取术语“光交换”和“技术”来执行它的工作。通过步骤170图示了此。还应注意在图1的工作流程30中,在该阶段已经识别了该概念。
在步骤180处一旦该文档通过名词短语提取器模块64,则文档传递到白名单66。当内容通过网络时,管理员可能希望拾取在内容中的某些白名单单词。白名单可以用在通信系统10中的多种领域。在该具体的示例中,使用白名单来搜索题目和文本字段。此时,将文档发送到文档分离器元件68。注意在工作流程30中,存在从原始文档中创建的两个文档。在一个实例中,文档分离器元件68可以接收有包括概念字段的五个字段的文档(在步骤190处),并且执行一些操作。首先,使用在文档#1中的概念字段创建文档#2。第二,从文档#1移除概念字段。第三,从文档#2移除除概念字段之外的全部字段。第四,向清除主题模块70发送文档#1和文档#2。
应注意,当考虑了正式陈述(例如,使用正确的英语)时,名词短语提取器模块64能够最好地来操作。俗语或者简单语言很难从任何的计算机系统的透视中解释。因为主导该论坛的语言,更加不正式的文件(例如,电子邮件)是更加有问题的。
清除主题模块70被配置为以一些方式来着手这些语言/语法问题的一些。在示例实现中,清除主题模块70可以接收两个文档,如以上说明。它传递没有概念字段的文档#1。针对具有概念字段的文档#2,它可以被配置为在步骤200处采用停止单词移除逻辑。在该具体的装置中,可以移除以下的停止单词(其在停止单词列表中可以找到):名、姓、用户ID;功能停止单词:一个,那个等;电子邮件停止单词:问候、感谢、亲爱的、嗨等;非字母:特殊字母、数字;白名单单词:由管理员配置的在白名单文件中找到的全部单词;管理员停止单词:管理员拒绝的系统单词。注意过滤功能停止单词的操作不同于过滤电子邮件(例如,管理员停止单词)。例如,不能将“美国银行(Bank of America)”处理为“银行美国(Bank America)”。因此,在某些实例中,不一定需要将在两个非停止单词之间的停止单词移除。
此外,在本具体示例中,可以应用以下规则:规则1:如果找到子串匹配则移除整个名词短语;规则2:仅移除违法的罪魁祸首;规则3:如果找到完全匹配则移除整个名词短语。具体到本示例,可以按照如下的顺序应用规则:丢弃包括非单词的概念字段(规则1);丢弃包括(例如,LDAP)条目的概念字段(规则1);丢弃包括电子邮件停止单词的概念字段(规则1);只有当功能停止单词在概念字段的端的一者上时移除功能停止单词。不丢弃在之间找到的单词,重复应用规则(规则2)。如果它是与白名单单词的完全匹配那么丢弃概念字段值(规则1)。如果它是与管理员停止单词的完全匹配那么丢弃概念字段值(规则1)。注意在这些活动期间还可以出现LDAP过滤。例如,如果识别出在LDAP中已经有任何正确的名字,那么过滤器可以丢弃那些条目。
在步骤显示210处词汇馈送器模块44可以接收文档(例如,在中央引擎侧)。词汇馈送模块44转发没有概念字段的文档,并且对于有概念字段的文档,词汇馈送模块44向流元件50发送它。在一个实例中,可以将流与基于流协议(对比表格格式)的存储技术相关联。在其它实例中,可以采用任何其它合适的技术以组织或者帮助处理到来的文档,内容等。该流可以通过词汇馈送器模块44来更新。
更具体的,中央引擎40的分析方法(在一个示例中)包括令查询分析流动数据。处理连续流动数据的策略不同于传统商业智能方法,其先积累数据,之后启动用于汇报和分析的分析查询。这样的方法使能异构数据的分析而不管数据是否在流动,是否被分级等。此外,查询持续地和恒定地运行,因此当下游应用可以使用新结果时将新结果进行传递。不需要将数据进行存储或者修改,因此系统可以维持巨大的数据容量。数千同时发生的查询可以在服务器架构上持续地并且同时地运行。查询在实时的和历史的数据上都可以运行。可以将到来的数据可选地进行保持以用于重放、回溯测试、挖掘、基准测试等。
返回到图3的流程,在步骤220处,词汇馈送器模块44可以读概念字段(例如,由NLP模块创建的),并且可以向原始词汇流(例如,“raw_vocab_stream”(原始_词汇_流)文件)馈送名词短语。词汇馈送器机制可以通过查找在条目的数目和对应的权重之间的哈希表(hashmap)来计算在概念字段中的主题的每一个的权重,并且接着将馈送的主题,所计算的权重以及时间戳馈送到原始词汇流中。词汇馈送器的输出可以被配置为与词汇流连接。流将主题聚集到(例如)可以在任何合适的时间帧(例如,每小时)期间内被更新的每周崩溃的词汇表(例如,“weekly_collapsed_vocab_table”(每周_崩溃_词汇_表)文件)。该表作为输入到写服务元件48来服务。
至于周期的写服务,周期的服务可以唤醒到管理员表服务的写,如以上说明的。该服务针对以下模式是可配置的:静默模式、每小时、每天、每周、每月。每小时、每天、每周和每月模式指定向管理员建议的在指定间隔上的条目。每小时间隔可以被用于测试目的。静默模式提供将条目写入到文件的基于文件的方法,并且不使该静默模式面向管理员用户接口。
对于表格写服务元件48,服务层可以针对顶部单词读每周崩溃词汇表并且写入到管理员用户接口表。管理员用户接口表可以表示用户建议的词汇条目和系统建议的词汇条目之间的共享的表。管理员建议接口38可以读用户建议的词汇表(“用户建议的词汇表”)以显示这些条目。该模块可以向管理员建议将顶部‘n’个单词添加到词汇白名单。反馈环模块36可以包括被提供以从建议的词汇条目的表来创建文件的应用程序接口。
在该示例中,在步骤230处管理员建议接口38读每周崩溃词汇表以显示条目。该元件还向管理员20建议将顶部(例如‘n’)个单词添加到词汇白名单。为管理员提供用户接口以做出是否向白名单添加条目、是否向黑名单添加条目、或者是否忽略该条目的判决。在示例实现中,管理员不建议新的停止单词。仅系统建议的(或者用户建议的)停止单词可以被拒绝。
将反馈环模块36耦接到管理员建议接口38。在管理员选择“拒绝它们”选项的情况中,系统可以将条目添加到现有的停止单词的列表中,并且进一步将其传播到网络探测器54以复制到文件中(例如,管理员停止单词.txt)。这由步骤240反映。网络协作平台32可以从被建议词汇条目的表创建文件(例如,经由包括以下的命令:通过谁建议=系统,以及状态=拒绝)。文件是可以被推送到网络探测器/中央引擎(取决于停止单词机制驻留的地方)的强制同步文件的一部分。在步骤260处,新兴词汇主题元件46可以查找新兴主题(例如,在收获的文档内)并且有条理地将新兴的和顶部主题添加到架构中以供管理员考虑。可以向管理员20提供这两个选项。新兴主题可以类似于经验标记使得向管理员20建议在给定的时间间隔(例如,一周)内越来越显著的主题。
注意作为结果的数据的一个用途是为每一单独的用户创建动态文件,该用户是被跟踪的,或者通过通信系统10识别的。其它应用可以包括识别给定领域内的某些专家。其他用途可以包括为给定的公司实体建立目录或者主题领域。还注意到通信系统10可以实时地完成这里概述的应用。另外,到具体主题领域的终端用户的分配接着可以被发送到连网站点,该连网站点可以为给定的终端用户的组群维护个人配置文件。这可以包括诸如Facebook、Linkedln等之类的平台。通过与提供的架构相关联的内容识别操作可以支持动态配置文件。在其它应用中,视频、音频以及多种多媒体文件可以通过通信系统10加标记并且与具体的主题领域,或者特定的终端用户组相关联。在一个实例中,终端用户和视频文件(或者音频文件)都可以被识别以及逻辑地捆绑在一起或者被连接。
可以在多种位置上设置用于提供智能组词的软件。在示例实现中,该软件驻留在诸如网络探测器54之类的元件中,或者驻留在将该功能降级的另一网络元件中。在其它示例中,这可以包括将网络探测器54与应用服务器或者网关,或者一些专有的元件进行组合,其可以设置在(或者接近于)这些识别的网络元件中,或者这可以设置在给定网络中使用的任何其它的设备中。
在其它实施例中,可以将词汇建立特征外部地设置到网络探测器54,或者将其包括在一些其它网络设备中,或者将其包括在计算机中以实现这些期望的功能。如之前所识别的,网络元件可以包括软件以实现词汇建立操作,如本文档中在这里概述的。在某个示例实现中,可以通过在一个或者多个实体介质(例如,专用集成电路(ASIC)、数字信号处理器(DSP)指令、由处理器执行的软件(该软件潜在地由目标代码和源代码组成),或者其它类似的机器等中设置的嵌入式逻辑)中编码的逻辑来实现在这里概述的词汇建立功能。在这些实例中的一些,存储器元件(如图2中示出的)可以存储被用于在这里描述的操作的数据。这包括能够存储被执行以实施在本说明书中描述的活动的软件、逻辑、代码或者处理器指令的存储器元件。处理器可以执行与该数据相关联的任何类型的指令以实现本说明书中在这里详细的操作的。在示例中,处理器(如图2中示出的)可以将元件或者条目(例如数据)从一个状态或者事件变换为另一种状态或者事件。在另一示例中,可以利用固定的逻辑或者可编程逻辑(例如,由处理器执行的软件/计算机指令)来实现在这里概述的活动,并且在这里识别的元件可以为以下某个类型:可编程处理器、可编程数字逻辑(例如,现场可编程门阵列(FPGA)、可擦除可编程只读存储器(EPROM)、电可擦除可编程ROM(EEPROM)或者包括数字逻辑、软件、代码、电指令、或者它们的任何合适的组合的ASIC。
这些元件(例如,网络元件等)的任何一个可以包括用于存储信息以在实现如这里概述的词汇建立操作中使用的存储器元件。另外,这些设备的每一个可以包括处理器,该处理器可以执行软件或者算法以执行如本说明书中在这里讨论的词汇建立活动。这些设备还可以在任何合适的存储器元件(随机访问存储器(RAM)、ROM、EPROM、EEPROM、ASIC等),软件、硬件中,或者在任何其它合适的组件、设备、元件、或者适当的并且基于具体需求的物体中保持信息。应当将在这里讨论的存储器术语的任何一个理解为被包括在广义术语“存储器元件”中。类似地,应当将在本说明书中描述的潜在的处理元件、模块和机器的任何一个理解为被包括在广义术语“处理器”中。每一网络元件也可以包括用于在网络环境中接收、发送、和/或通信数据或者信息的合适的接口。
如之前指出的,当信息通过网络时,通信系统10的一个配置从终端用户收集信息。在一个实例中,在这里提出的概念可以向网络元件(例如,路由器或者交换机)引入两个主要的功能。首先,网络元件可以增加信息提取功能。信息提取可以包括多种机制以从网络业务中提取有用的信息。这可以包括从诸如电子邮件或者网站业务之类的网络业务提取文本的信息。这些处理还包括重构由多种邮件协议(例如,微软交换(MicrosoftExchange,SMTP)或者HTTP(针对网站业务)承载的文档,并且接着执行文档文本提取(例如,从PDF文件提取文本,或者从Microsoft Word文件提取文本)。它还可以包括从丰富的多媒体业务提取文本信息(例如,经由语音到文本技术从音频声音跟踪来提取文本)。
第二,网络元件可以增加基于实时流的分析处理功能。当在网络元件上接收到原始数据时,可以实时获取分析信息的实质的量。这是因为对于大多数使用情况,用户对聚集的信息感兴趣。相比于“存储和处理”方法这样的方式可以改善整个系统的效率。
在一种配置中,可以配置流水线信息处理架构,其中流水线级如下:网络收集器、分组分析仪、安全协议、文本分析仪、安全协议、网络连接器、索引等。在网络收集器的条目中,分组可以进入网络元件(路由器/刀片开关/跨接端口等)并接着被分组分析仪评估。分组分析仪(例如,TCP归一化元件)对TCP流进行归一化,并且应用识别引擎还可以识别应用(例如,http/SIP/email/SMTP等)。当信息流入到系统中时,应用可以暂停信息,其中该信息将进一步构建伴随元信息的文档(文本/附件等)。归一化的文档能够接着被通过安全协议发送到文本分析仪。
文本分析仪可以执行一些操作,包括:停止单词移除、白名单过滤器/黑名单丢弃器、实体提取词汇生成、语义分析仪等,使得将所标记的归一化的文档通过安全协议发送到索引记录器(或者到一些其它适当的目的地)。网络连接器可以创建用于搜索活动的元数据资料库。资料库可以位于索引记录器的本地,或者可以在存储区域网络(SAN)中设置等。该架构可以包括可以在单个机器中运行或者以分布的方式设置的分离的逻辑块。
注意在这里提出的某些实施例可以提供许多优势。例如,大部分用户活动通过网络发生。现有的信息发现方法一般依赖在文档资料库上执行的文档爬行操作。然而,因为通过网站执行更多的工作,大量信息(给定的终端用户访问/处理)可以在一些形式的网站(即,企业内部网站入口,外部网站端口等)上。因为网站的分布特征,爬行文档资料库方法对许多应用不起作用。相反,将通信系统10(在某些实施例中)配置为确认重要的企业信息(电子邮件,网站业务等)可以通过网络元件。因此,网络元件变为最好地优势点以观察在企业内的动态信息,如这里说明的。
注意利用这里提供的示例,可以描述两个,三个,四个或者更多的网络元件的条目的相互影响。然而,仅为了清楚和示例的目的已经完成了此。在某些情况中,通过仅参考有限数量的组件或者网络元件来描述给定的流程集的一个或者多个功能更加容易。应明白图1的通信系统10(和它的教导)是能够容易地规模可变的。通信系统10可以容纳大量组件,以及更复杂或者精密的装置和配置。因此,提供的示例不应限制通信系统10的范围或者禁止通信系统10的广泛教导,通信系统10被潜在地应用到无数的其它架构。
注意到以下也是重要的:参考上述的图片描述的步骤图示了可以通过通信系统10或者在通信系统10内执行的可能的场景的仅仅一些。不背离所讨论的主题的范围的情况下,可以适当地删除或者移除这些步骤的一些,或者值得考虑得修改或者改变这些步骤。此外,大量这些操作已经被描述为与(或者并行与)一个或者多个更多的操作来同时执行。然而,可以值得考虑得改变这些操作的定时。为了示例和讨论的目的已经提供了上述的可操作流程。由通信系统10提供的实质的灵活性在于在不背离所讨论的概念的教导的情况下可以提供合适的布置、编排、配置和时序机制。

Claims (29)

1.一种方法,包括:
接收在网络环境中传播的数据;
将所述数据分离为一个或者多个字段;
评估所述字段的至少一些字段以便识别在所述字段中的名词和名词短语;
基于白名单和黑名单识别所述名词和名词短语中被选择的词,其中所述白名单包括要被加标记的多个指定的词,并且所述黑名单包括将不被加标记的多个拒绝的词;
生成被加标记的选择的名词和名词短语的合成物;以及
如果所述合成物被准许,则将所述合成物加入到所述白名单中。
2.依据权利要求1所述的方法,其中,所述字段包括题目字段、概念字段、文本字段、以及作者字段。
3.依据权利要求2所述的方法,还包括:
将与所述数据相关联的文档分离为第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。
4.依据权利要求1所述的方法,还包括:
基于被配置的在所述数据中识别的停止单词的列表,移除所述数据中的一个或者多个词。
5.依据权利要求1所述的方法,还包括:
基于与多个终端用户相关联的数据集合,建议将词包括在所述白名单或者所述黑名单中。
6.依据权利要求1所述的方法,还包括:
识别所述数据中的主题范围;以及
向管理实体提供所述主题范围用于包括在所述合成物中。
7.依据权利要求1所述的方法,还包括:
基于与所述数据相关联的文档类型过滤所述数据。
8.一种被编码在一个或者多个有形介质中的逻辑,所述一个或者多个有形介质包括用于执行的代码,所述代码当被处理器执行时可操作执行以下操作:
接收在网络环境中传播的数据;
将所述数据分离为一个或者多个字段;
评估所述字段的至少一些字段以便识别在所述字段中的名词和名词短语;
基于白名单和黑名单识别所述名词和名词短语中被选择的词,其中所述白名单包括要被加标记的多个指定的词,并且所述黑名单包括将不被加标记的多个拒绝的词;
生成被加标记的选择的名词和名词短语的合成物;以及
如果所述合成物被准许,则将所述合成物加入到所述白名单中。
9.依据权利要求8所述的逻辑,其中,所述字段包括题目字段、概念字段、文本字段、以及作者字段。
10.依据权利要求9所述的逻辑,所述处理器进一步可操作为执行以下操作:
将与所述数据相关联的文档分离为第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。
11.依据权利要求8所述的逻辑,所述处理器进一步可操作为执行以下操作:
基于被配置的在所述数据中识别的停止单词的列表,移除所述数据中的一个或者多个词。
12.依据权利要求8所述的逻辑,所述处理器进一步可操作为执行以下操作:
基于与多个终端用户相关联的数据集合,建议将词包括在所述白名单或者所述黑名单中。
13.依据权利要求8所述的逻辑,所述处理器进一步可操作为执行以下操作:
识别所述数据中的主题范围;以及
向管理实体提供所述主题范围用于包括在所述合成物中。
14.依据权利要求8所述的逻辑,所述处理器进一步可操作为执行以下操作:
基于与所述数据相关联的文档类型过滤所述数据。
15.一种装置,包括:
存储器元件;
可操作以执行指令的处理器;以及
被配置为与所述存储器元件和所述处理器相接口的名词短语提取器模块,所述名词短语提取器模块被配置为:
接收在网络环境中传播的数据;
将所述数据分离为一个或者多个字段;
评估所述字段的至少一些字段以便识别在所述字段中的名词和名词短语;
基于白名单和黑名单识别所述名词和名词短语中被选择的词,其中所述白名单包括要被加标记的多个指定的词,并且所述黑名单包括将不被加标记的多个拒绝的词;
生成被加标记的选择的名词和名词短语的合成物;以及
如果所述合成物被准许,则将所述合成物加入到所述白名单中。
16.依据权利要求15所述的装置,其中,所述字段包括题目字段、概念字段、文本字段、以及作者字段。
17.依据权利要求16所述的装置,还包括:
文档分离器,该文档分离器被配置为将与所述数据相关联的文档分离为第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念之外的字段。
18.依据权利要求15所述的装置,还包括:
用户接口,该用户接口被配置为基于与多个终端用户相关联的数据集合,建议将词包括在所述白名单或者所述黑名单中。
19.依据权利要求18所述的装置,其中,主题范围在所述数据中被识别出,并被提供给在所述用户接口处的管理实体用于包括在所述合成物中。
20.依据权利要求15所述的装置,还包括:
文档过滤器,该文档过滤器基于与所述数据相关联的文档类型过滤所述数据。
21.一种系统,包括:
网络元件,该网络元件包括存储器元件和可操作以执行指令的处理器,其中所述网络元件被配置为:
接收在网络环境中传播的数据;
将所述数据分离为一个或者多个字段;
评估所述字段的至少一些字段以便识别在所述字段中的名词和名词短语;
基于白名单和黑名单识别所述名词和名词短语中被选择的词,其中所述白名单包括要被加标记的多个指定的词,并且所述黑名单包括将不被加标记的多个拒绝的词;
生成被加标记的选择的名词和名词短语的合成物;以及
维护包括所述合成物的资料库,其中,所述资料库被配置为接收与指定的主题范围相关联的一个或者多个搜索查询。
22.依据权利要求21所述的系统,其中,所述网络元件被配置为:
移除与在网络环境中传播的所述数据相关联的一个或者多个停止单词,其中,所述停止单词被包括在停止单词列表中。
23.依据权利要求21所述的系统,其中,所述字段包括题目字段、概念字段、文本字段、以及作者字段。
24.依据权利要求21所述的系统,其中,所述网络元件被配置为:
重构由电子邮件协议承载的文档。
25.依据权利要求21所述的系统,其中,所述网络元件被配置为:
识别与在网络中传播的所述数据相关的文档相关联的应用。
26.依据权利要求21所述的系统,其中,所述网络元件被配置为:
将与所述数据相关联的文档分离为第一段和第二段,所述第一段包括所述概念字段,所述第二段包括除了所述概念字段之外的字段。
27.依据权利要求21所述的系统,其中,所述网络元件被配置为:
如果所述合成物准许,则将所述合成物合并到所述白名单中。
28.依据权利要求21所述的系统,其中,所述网络元件被配置为:
利用安全协议将加标记的文档通信到下一个目的地。
29.依据权利要求21所述的系统,其中,所述网络元件被配置为:
基于与多个终端用户相关联的数据集合,建议将词包括在所述白名单或者所述黑名单中。
CN201080043794.XA 2009-09-30 2010-09-29 用于从网络数据中生成词汇的系统和方法 Expired - Fee Related CN102648464B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/571,390 2009-09-30
US12/571,390 US8489390B2 (en) 2009-09-30 2009-09-30 System and method for generating vocabulary from network data
PCT/US2010/050762 WO2011041443A1 (en) 2009-09-30 2010-09-29 System and method for generating vocabulary from network data

Publications (2)

Publication Number Publication Date
CN102648464A true CN102648464A (zh) 2012-08-22
CN102648464B CN102648464B (zh) 2015-06-10

Family

ID=43302664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080043794.XA Expired - Fee Related CN102648464B (zh) 2009-09-30 2010-09-29 用于从网络数据中生成词汇的系统和方法

Country Status (4)

Country Link
US (1) US8489390B2 (zh)
EP (1) EP2483803B1 (zh)
CN (1) CN102648464B (zh)
WO (1) WO2011041443A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468195B1 (en) 2009-09-30 2013-06-18 Cisco Technology, Inc. System and method for controlling an exchange of information in a network environment
US8528018B2 (en) 2011-04-29 2013-09-03 Cisco Technology, Inc. System and method for evaluating visual worthiness of video data in a network environment
US8553065B2 (en) 2011-04-18 2013-10-08 Cisco Technology, Inc. System and method for providing augmented data in a network environment
US8620136B1 (en) 2011-04-30 2013-12-31 Cisco Technology, Inc. System and method for media intelligent recording in a network environment
US8667169B2 (en) 2010-12-17 2014-03-04 Cisco Technology, Inc. System and method for providing argument maps based on activity in a network environment
US8831403B2 (en) 2012-02-01 2014-09-09 Cisco Technology, Inc. System and method for creating customized on-demand video reports in a network environment
US8886797B2 (en) 2011-07-14 2014-11-11 Cisco Technology, Inc. System and method for deriving user expertise based on data propagating in a network environment
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US8935274B1 (en) 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
US8990083B1 (en) 2009-09-30 2015-03-24 Cisco Technology, Inc. System and method for generating personal vocabulary from network data
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
CN105637507A (zh) * 2013-10-07 2016-06-01 微软技术许可有限责任公司 文本跨度的智能选择
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8166161B1 (en) * 2009-09-30 2012-04-24 Cisco Technology, Inc. System and method for ensuring privacy while tagging information in a network environment
US8489390B2 (en) 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
US9275640B2 (en) * 2009-11-24 2016-03-01 Nexidia Inc. Augmented characterization for speech recognition
US20120239381A1 (en) * 2011-03-17 2012-09-20 Sap Ag Semantic phrase suggestion engine
US20130031110A1 (en) * 2011-07-28 2013-01-31 Kikin Inc. Systems and methods for rich query construction
US9176944B1 (en) * 2011-08-23 2015-11-03 Google Inc. Selectively processing user input
US11042513B2 (en) * 2012-01-03 2021-06-22 International Business Machines Corporation Extended tagging method and system
US9286337B2 (en) * 2012-03-12 2016-03-15 Oracle International Corporation System and method for supporting heterogeneous solutions and management with an enterprise crawl and search framework
USD805535S1 (en) 2013-06-04 2017-12-19 Abbyy Production Llc Display screen or portion thereof with a transitional graphical user interface
USD802609S1 (en) 2013-06-04 2017-11-14 Abbyy Production Llc Display screen with graphical user interface
RU2665239C2 (ru) 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
TWI536366B (zh) 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
US10185559B2 (en) 2014-06-25 2019-01-22 Entit Software Llc Documentation notification
RU2596599C2 (ru) 2015-02-03 2016-09-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Система и способ создания и использования пользовательских онтологических моделей для обработки пользовательского текста на естественном языке
RU2584457C1 (ru) * 2015-02-03 2016-05-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Система и способ создания и использования пользовательских семантических словарей для обработки пользовательского текста на естественном языке
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
RU2610241C2 (ru) 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11797604B1 (en) * 2017-09-06 2023-10-24 Massachusetts Mutual Life Insurance Company Account aggregation using email data
US11475048B2 (en) 2019-09-18 2022-10-18 Salesforce.Com, Inc. Classifying different query types

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266020A1 (en) * 2004-09-30 2007-11-15 British Telecommunications Information Retrieval
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法

Family Cites Families (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06111495A (ja) * 1992-09-30 1994-04-22 Sony Corp データ再生装置
US5613032A (en) * 1994-09-02 1997-03-18 Bell Communications Research, Inc. System and method for recording, playing back and searching multimedia events wherein video, audio and text can be searched and retrieved
US5961582A (en) * 1994-10-25 1999-10-05 Acorn Technologies, Inc. Distributed and portable execution environment
US6304283B1 (en) * 1995-01-31 2001-10-16 Canon Kabushiki Kaisha Conference apparatus and method for realistically reproducing image data and shared board data
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6301586B1 (en) * 1997-10-06 2001-10-09 Canon Kabushiki Kaisha System for managing multimedia objects
US6345253B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Method and apparatus for retrieving audio information using primary and supplemental indexes
US20020035605A1 (en) * 2000-01-26 2002-03-21 Mcdowell Mark Use of presence and location information concerning wireless subscribers for instant messaging and mobile commerce
TW512318B (en) * 2000-03-01 2002-12-01 Matsushita Electric Ind Co Ltd AV data recorder and its method, disk recorded by AV data recorder and the method
JP4536225B2 (ja) * 2000-07-28 2010-09-01 富士通株式会社 メッセージ送受信システムにおけるキーワードとその重要度の動的決定
NO313399B1 (no) * 2000-09-14 2002-09-23 Fast Search & Transfer Asa Fremgangsmate til soking og analyse av informasjon i datanettverk
US6842761B2 (en) 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
SE524007C2 (sv) 2000-11-24 2004-06-15 Comintell Holding Ab Sökmotor samt ett förfarande för en sökmotor där sökresultatet presenteras i en matris
US7058978B2 (en) * 2000-12-27 2006-06-06 Microsoft Corporation Security component for a computing device
US6697793B2 (en) * 2001-03-02 2004-02-24 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for generating phrases from a database
US7260312B2 (en) * 2001-03-05 2007-08-21 Microsoft Corporation Method and apparatus for storing content
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US7853553B2 (en) 2001-03-26 2010-12-14 Siebel Systems, Inc. Engine for converting data from a source format to a destination format using user defined mappings
US7493369B2 (en) * 2001-06-28 2009-02-17 Microsoft Corporation Composable presence and availability services
US7017183B1 (en) * 2001-06-29 2006-03-21 Plumtree Software, Inc. System and method for administering security in a corporate portal
US7003725B2 (en) * 2001-07-13 2006-02-21 Hewlett-Packard Development Company, L.P. Method and system for normalizing dirty text in a document
US8285701B2 (en) * 2001-08-03 2012-10-09 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator remote content crawler
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US20030093789A1 (en) * 2001-11-09 2003-05-15 John Zimmerman Systems for monitoring broadcast content and generating notification signals as a function of subscriber profiles and methods of operating the same
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7774791B1 (en) * 2002-04-24 2010-08-10 Informatica Corporation System, method and computer program product for data event processing and composite applications
US7519534B2 (en) * 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
US7640267B2 (en) * 2002-11-20 2009-12-29 Radar Networks, Inc. Methods and systems for managing entities in a computing device using semantic objects
US7725541B2 (en) * 2003-02-10 2010-05-25 At&T Intellectual Property I, L.P. Forwarding to automatically prioritized IM accounts based upon priority and presence
CN100546301C (zh) * 2003-02-25 2009-09-30 株式会社日立制作所 流量整形方法及流量整形装置
US7913176B1 (en) * 2003-03-03 2011-03-22 Aol Inc. Applying access controls to communications with avatars
JP4185392B2 (ja) * 2003-04-09 2008-11-26 パイオニア株式会社 録画装置及びその制御方法
US20050060283A1 (en) * 2003-09-17 2005-03-17 Petras Gregory J. Content management system for creating and maintaining a database of information utilizing user experiences
US20050068167A1 (en) * 2003-09-26 2005-03-31 Boyer David G. Programmable presence proxy for determining a presence status of a user
US7417959B2 (en) * 2003-09-29 2008-08-26 Sap Aktiengesellschaft Audio/video-conferencing using content based messaging
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US9288000B2 (en) * 2003-12-17 2016-03-15 International Business Machines Corporation Monitoring a communication and retrieving information relevant to the communication
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7509491B1 (en) * 2004-06-14 2009-03-24 Cisco Technology, Inc. System and method for dynamic secured group communication
US20070198725A1 (en) * 2004-10-06 2007-08-23 Morris Robert P System and method for utilizing contact information, presence information and device activity
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US7698442B1 (en) * 2005-03-03 2010-04-13 Voltage Security, Inc. Server-based universal resource locator verification service
US7350227B2 (en) * 2005-04-26 2008-03-25 Cisco Technology, Inc. Cryptographic peer discovery, authentication, and authorization for on-path signaling
GB0512744D0 (en) * 2005-06-22 2005-07-27 Blackspider Technologies Method and system for filtering electronic messages
US20080126690A1 (en) * 2006-02-09 2008-05-29 Rajan Suresh N Memory module with memory stack
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
JP4757599B2 (ja) * 2005-10-13 2011-08-24 日本電気株式会社 音声認識システムと音声認識方法およびプログラム
NO20054720L (no) * 2005-10-13 2007-04-16 Fast Search & Transfer Asa Informasjonstilgang med bruksdrevet metadatatilbakekobling
CN1967524B (zh) * 2005-11-15 2010-07-21 日电(中国)有限公司 路况信息收集和查询系统及其方法
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US7827191B2 (en) * 2005-12-14 2010-11-02 Microsoft Corporation Discovering web-based multimedia using search toolbar data
US20090196570A1 (en) * 2006-01-05 2009-08-06 Eyesopt Corporation System and methods for online collaborative video creation
US9137012B2 (en) * 2006-02-03 2015-09-15 Emc Corporation Wireless authentication methods and apparatus
CA2648617C (en) * 2006-04-05 2017-12-12 Yap, Inc. Hosted voice recognition system for wireless devices
US8510109B2 (en) * 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US7747605B2 (en) * 2006-04-17 2010-06-29 Perry J. Narancic Organizational data analysis and management
US20070260684A1 (en) * 2006-05-05 2007-11-08 Sharma Heeral R Managing conference call participants in a roster
US20070294265A1 (en) 2006-06-06 2007-12-20 Anthony Scott Askew Identification of content downloaded from the internet and its source location
US7558791B2 (en) * 2006-07-31 2009-07-07 Informed Control Inc System and method for ontology-based translation between directory schemas
US20090319365A1 (en) 2006-09-13 2009-12-24 James Hallowell Waggoner System and method for assessing marketing data
US20080184326A1 (en) * 2006-10-19 2008-07-31 Satoshi Nakajima Community and/or chat-based content recording and consumption
US7706265B2 (en) * 2006-10-30 2010-04-27 Telefonaktiebolaget L M Ericsson (Publ) Decentralized node, access edge node, and access node for aggregating data traffic over an access domain, and method thereof
JP2008146355A (ja) * 2006-12-11 2008-06-26 Lealcom Kk 情報配信システム、情報配信装置及び情報配信方法
US8423565B2 (en) * 2006-12-21 2013-04-16 Digital Doors, Inc. Information life cycle search engine and method
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US10007895B2 (en) * 2007-01-30 2018-06-26 Jonathan Brian Vanasco System and method for indexing, correlating, managing, referencing and syndicating identities and relationships across systems
US20080244740A1 (en) * 2007-03-06 2008-10-02 Wetpaint.Com, Inc. Browser-independent editing of content
US7958104B2 (en) 2007-03-08 2011-06-07 O'donnell Shawn C Context based data searching
US8051204B2 (en) * 2007-04-05 2011-11-01 Hitachi, Ltd. Information asset management system, log analysis server, log analysis program, and portable medium
US7809714B1 (en) * 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US20080295040A1 (en) * 2007-05-24 2008-11-27 Microsoft Corporation Closed captions for real time communication
US8239461B2 (en) * 2007-06-28 2012-08-07 Chacha Search, Inc. Method and system for accessing search services via messaging services
US8868499B2 (en) * 2007-08-15 2014-10-21 Salesforce.Com, Inc. Method and system for pushing data to subscribers in an on-demand service
US9165254B2 (en) * 2008-01-14 2015-10-20 Aptima, Inc. Method and system to predict the likelihood of topics
US8037066B2 (en) * 2008-01-16 2011-10-11 International Business Machines Corporation System and method for generating tag cloud in user collaboration websites
US20090226870A1 (en) * 2008-02-08 2009-09-10 Minotti Jody M Method and system for interactive learning
US8244405B2 (en) * 2008-02-29 2012-08-14 Bsafe Electrix, Inc. Electrical monitoring and control system
US8504488B2 (en) * 2008-04-30 2013-08-06 Cisco Technology, Inc. Network data mining to determine user interest
US7966564B2 (en) * 2008-05-08 2011-06-21 Adchemy, Inc. Web page server process using visitor context and page features to select optimized web pages for display
EP2120411A1 (fr) * 2008-05-15 2009-11-18 France Telecom Adaptation du statut de présence de messagerie instantaneé
WO2009149063A1 (en) * 2008-06-02 2009-12-10 Azuki Systems, Inc. Media mashup system
US8180630B2 (en) * 2008-06-06 2012-05-15 Zi Corporation Of Canada, Inc. Systems and methods for an automated personalized dictionary generator for portable devices
US8024324B2 (en) 2008-06-30 2011-09-20 International Business Machines Corporation Information retrieval with unified search using multiple facets
US11461785B2 (en) * 2008-07-10 2022-10-04 Ron M. Redlich System and method to identify, classify and monetize information as an intangible asset and a production model based thereon
US20100153855A1 (en) * 2008-12-16 2010-06-17 Verizon Data Services Llc Communication Management
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US9076125B2 (en) * 2009-02-27 2015-07-07 Microsoft Technology Licensing, Llc Visualization of participant relationships and sentiment for electronic messaging
US20120046936A1 (en) * 2009-04-07 2012-02-23 Lemi Technology, Llc System and method for distributed audience feedback on semantic analysis of media content
WO2011000046A1 (en) * 2009-07-01 2011-01-06 Ozmota Inc. Systems and methods for determining information and knowledge relevancy, relevant knowledge discovery and interactions, and knowledge creation
US8533208B2 (en) * 2009-09-28 2013-09-10 Ebay Inc. System and method for topic extraction and opinion mining
US8489390B2 (en) 2009-09-30 2013-07-16 Cisco Technology, Inc. System and method for generating vocabulary from network data
WO2011050280A2 (en) * 2009-10-22 2011-04-28 Chintamani Patwardhan Method and apparatus for video search and delivery
US8266098B2 (en) * 2009-11-18 2012-09-11 International Business Machines Corporation Ranking expert responses and finding experts based on rank
US8260774B1 (en) * 2009-11-19 2012-09-04 Quewey Holding, Inc. Personalization search engine
US8838684B2 (en) * 2010-01-14 2014-09-16 Fuji Xerox Co., Ltd. System and method for determining a presence state of a person
US8412530B2 (en) * 2010-02-21 2013-04-02 Nice Systems Ltd. Method and apparatus for detection of sentiment in automated transcriptions
US10074094B2 (en) * 2010-03-09 2018-09-11 Excalibur Ip, Llc Generating a user profile based on self disclosed public status information
US20110231296A1 (en) * 2010-03-16 2011-09-22 UberMedia, Inc. Systems and methods for interacting with messages, authors, and followers
US8930277B2 (en) * 2010-04-30 2015-01-06 Now Technologies (Ip) Limited Content management apparatus
CA2738428A1 (en) * 2010-04-30 2011-10-30 Iliv Technologies Inc. Collaboration tool
US8767553B2 (en) * 2010-07-02 2014-07-01 Nec Laboratories America, Inc. Dynamic resource partitioning for long-term fairness to non-elastic traffic on a cellular basestation
US10984346B2 (en) * 2010-07-30 2021-04-20 Avaya Inc. System and method for communicating tags for a media event using multiple media types
US8791977B2 (en) * 2010-10-05 2014-07-29 Fujitsu Limited Method and system for presenting metadata during a videoconference
US20120324538A1 (en) 2011-06-15 2012-12-20 Cisco Technology, Inc. System and method for discovering videos

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266020A1 (en) * 2004-09-30 2007-11-15 British Telecommunications Information Retrieval
CN101388026A (zh) * 2008-10-09 2009-03-18 浙江大学 一种基于领域本体的语义索引方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RUNG-CHING CHEN,YA-CHING LEE,REN-HAO PAN: "ADDING NEW CONCEPTS ON THE DOMAIN ONTOLOGY BASED ON SEMANTIC SIMILARITY", 《THE 2006 INTERNATIONAL CONFERENCE ON BUSINESS AND INFORMATION》, 31 July 2006 (2006-07-31) *
李玮,赵燕平: "基于社会网络分析的E-mail内容安全动态监测模型", 《北京理工大学学报》, vol. 26, no. 1, 14 August 2006 (2006-08-14), pages 79 - 83 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468195B1 (en) 2009-09-30 2013-06-18 Cisco Technology, Inc. System and method for controlling an exchange of information in a network environment
US9201965B1 (en) 2009-09-30 2015-12-01 Cisco Technology, Inc. System and method for providing speech recognition using personal vocabulary in a network environment
US8990083B1 (en) 2009-09-30 2015-03-24 Cisco Technology, Inc. System and method for generating personal vocabulary from network data
US8935274B1 (en) 2010-05-12 2015-01-13 Cisco Technology, Inc System and method for deriving user expertise based on data propagating in a network environment
US8667169B2 (en) 2010-12-17 2014-03-04 Cisco Technology, Inc. System and method for providing argument maps based on activity in a network environment
US9465795B2 (en) 2010-12-17 2016-10-11 Cisco Technology, Inc. System and method for providing feeds based on activity in a network environment
US8553065B2 (en) 2011-04-18 2013-10-08 Cisco Technology, Inc. System and method for providing augmented data in a network environment
US8528018B2 (en) 2011-04-29 2013-09-03 Cisco Technology, Inc. System and method for evaluating visual worthiness of video data in a network environment
US8620136B1 (en) 2011-04-30 2013-12-31 Cisco Technology, Inc. System and method for media intelligent recording in a network environment
US8909624B2 (en) 2011-05-31 2014-12-09 Cisco Technology, Inc. System and method for evaluating results of a search query in a network environment
US8886797B2 (en) 2011-07-14 2014-11-11 Cisco Technology, Inc. System and method for deriving user expertise based on data propagating in a network environment
US8831403B2 (en) 2012-02-01 2014-09-09 Cisco Technology, Inc. System and method for creating customized on-demand video reports in a network environment
CN105637507A (zh) * 2013-10-07 2016-06-01 微软技术许可有限责任公司 文本跨度的智能选择
CN105637507B (zh) * 2013-10-07 2019-03-08 微软技术许可有限责任公司 文本跨度的智能选择

Also Published As

Publication number Publication date
US8489390B2 (en) 2013-07-16
US20110077936A1 (en) 2011-03-31
CN102648464B (zh) 2015-06-10
WO2011041443A1 (en) 2011-04-07
EP2483803B1 (en) 2019-08-07
EP2483803A1 (en) 2012-08-08

Similar Documents

Publication Publication Date Title
CN102648464B (zh) 用于从网络数据中生成词汇的系统和方法
US8667169B2 (en) System and method for providing argument maps based on activity in a network environment
US9870405B2 (en) System and method for evaluating results of a search query in a network environment
US8886797B2 (en) System and method for deriving user expertise based on data propagating in a network environment
US9201965B1 (en) System and method for providing speech recognition using personal vocabulary in a network environment
US9465795B2 (en) System and method for providing feeds based on activity in a network environment
US8935274B1 (en) System and method for deriving user expertise based on data propagating in a network environment
AU2013261007B2 (en) System and method for creating structured event objects
US8528018B2 (en) System and method for evaluating visual worthiness of video data in a network environment
US20120324538A1 (en) System and method for discovering videos
US8553065B2 (en) System and method for providing augmented data in a network environment
US8620136B1 (en) System and method for media intelligent recording in a network environment
US20100070584A1 (en) Method and system for dynamic e-mail view conversion
US8166161B1 (en) System and method for ensuring privacy while tagging information in a network environment
CN102147792B (zh) 一种客户化知识智能系统
US8990083B1 (en) System and method for generating personal vocabulary from network data
US20060224682A1 (en) System and method of screening unstructured messages and communications
CN113221535B (zh) 情报处理方法、装置、计算机设备和存储介质
US20200220741A1 (en) System and Method for Modeling an Asynchronous Communication Channel
Tao et al. Facilitating Twitter data analytics: Platform, language and functionality
KR20190139037A (ko) 텍스트마이닝 기반 건설공사 문서분석방법 및 시스템
US20130145289A1 (en) Real-time duplication of a chat transcript between a person of interest and a correspondent of the person of interest for use by a law enforcement agent
KR101855479B1 (ko) 빅 데이터 기반 지식 콘텐츠 추천 방법 및 시스템
Girish et al. Extreme event detection and management using twitter data analysis
Arif et al. Social network extraction: a review of automatic techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150610

Termination date: 20200929