CN104094250A - 语言无关的概率内容匹配 - Google Patents

语言无关的概率内容匹配 Download PDF

Info

Publication number
CN104094250A
CN104094250A CN201380008426.5A CN201380008426A CN104094250A CN 104094250 A CN104094250 A CN 104094250A CN 201380008426 A CN201380008426 A CN 201380008426A CN 104094250 A CN104094250 A CN 104094250A
Authority
CN
China
Prior art keywords
content
pattern
document
rule
cutting apart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380008426.5A
Other languages
English (en)
Other versions
CN104094250B (zh
Inventor
M·甘地
C·拉曼纳
V·桑卡拉纳拉亚南
R·庞特斯菲约
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority to CN201610389876.9A priority Critical patent/CN106021237B/zh
Publication of CN104094250A publication Critical patent/CN104094250A/zh
Application granted granted Critical
Publication of CN104094250B publication Critical patent/CN104094250B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources

Abstract

内容被接收,并针对用于标识一类型的内容的规则来进行比较。每一规则具有分割和非分割的模式。内容针对模式进行匹配,并被分配置信分数,如果内容匹配分割模式则置信分数较高,如果内容匹配非分割模式则置信分数较低。

Description

语言无关的概率内容匹配
背景
诸如英语等许多语言使得词语由文本中的空格间隔。在这些类型的语言中,需要词语在文本中得到标识的任何技术是相当直接的。这些空格被称为相邻词语之间的分隔符。这些类型的语言被称为空格分隔语言或分割语言。
然而,诸如汉语、日语、韩语和越南语等其它语言仅被写为均匀隔开的文字的序列。这些语言在词语之间没有清楚的间隔,因为它们在词语之间没有空格。这些类型的语言被称为非分割语言。在非分割语言中缺乏已知的分隔符导致对例如关键词的精确检测相当困难。
类似地,在非分割语言中,完全相同的文字基于周围的上下文可意味着不同的东西。作为示例,以下文本:
输入信用卡号码。
具有词语分割,这在以下表1中翻译:
表1
输入 信用卡 号码
输入 信用卡 号码
然而,以下文本
周信用卡车运货。
具有在以下表2中所示的翻译:
表2
周信 卡车
周信(人名) 驾驶 他的卡车
可见,表2中的文本包含与第一示例中被翻译成“信用卡”的相同的文字序列(突出显示),但该文字序列具有完全不同的意思并且与信用卡无关。
此外,在非分割语言中,换行符可出现在各种地方,使得更难以标识文字序列中的关键词。
这在各种不同领域中可能是成问题的。例如,当前存在管控个人信息的传播的各种不同来源的政策和规定。需要处理某些类型的信息的组织需要遵循全部这些规定。规定可以是例如来自政府的外部规定,或者是管控某种类型的信息能如何在公司内传播的内部规定。
通常受到这些规定和政策的约束的内容由信息工作者操作,信息工作者具有包含大量规定或政策(内部和外部两者)的手册,且该工作者预期了解并遵循全部规定或政策。在实施这些政策时,某些系统试图标识正由信息工作者工作的文档中的敏感信息。为此,这些系统通常试图检查文档中的词语以确定给定文档是否是敏感的。例如,诸如“信用卡”的关键词被认为是敏感内容的指示。然而,如上所述,这在非分割语言中非常难以标识。
提供以上讨论仅用作一般的背景信息,并不旨在帮助确定所要求保护的主题的范围。
概述
内容被接收,并针对用于标识一类型的内容的规则来进行比较。每一规则具有分割和非分割的模式两者。内容针对模式进行匹配,并被分配置信分数,如果内容匹配分割模式则置信分数较高,如果内容匹配非分割模式则置信分数较低。
提供本概述是为了以简化的形式介绍将在以下具体实施方式中进一步描述的概念选择。本发明内容不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决在背景中提及的任何或所有缺点的实现。
附图说明
图1是示出语言无关内容确定系统的一个说明性实施例的框图。
图2是示出图1所示的系统的操作的流程图的一个实施例。
图3是指示如何分配置信水平的更详细的框图。
图4是定义可用于标识内容中的信用卡数据的规则的规则树的一个实施例。
图4A和4B是说明性用户界面。
图5是示出创作系统中的语言无关内容确定系统的另一实施例的框图。
图6示出基于云的体系结构中的系统的一个实施例。
图7-9是说明性移动设备。
图10是说明性操作环境的一个实施例。
具体实施方式
图1是内容处理环境100的框图,内容处理环境100包括内容源系统102、语言无关内容确定系统104和内容处理系统106。在图1中所示的实施例中,系统104从源系统102接收内容108,确定内容108的性质,并向内容处理系统106提供指示内容108的性质的内容判断110。内容处理系统106基于如内容判断110所标识的内容性质处理内容。
出于本发明描述的目的,语言无关内容确定系统104将被描述为确定内容108是否是敏感内容,以使得它受到数据传播政策的约束。例如,当内容108是电子邮件消息时,存在管控内容是否可被发送给公司外部个人的数据传播政策(诸如当其包含知识产权内容时)。此外,数据传播政策可管控当内容包含个人信息(诸如信用卡信息、社会保障号码等)时内容的传播。然而,此外还存在当内容108包含粗俗语言时管控内容的传播的内部数据传播政策。从而,本发明的描述将关于系统104确定内容108是否敏感以使得数据传播政策可对其应用而进行。
然而,将注意到,仅仅因为系统104被描述为确定内容108是否敏感,这仅是可如何使用系统104的一个示例。系统104还可被用于标识内容108是否具有不同的性质。例如,系统104可标识电子邮件消息(内容108)的语气是愤怒、正面还是负面。类似地,系统104还可被用于确定内容108是否具有不同的性质。在任何情况中,内容处理系统106基于系统104确定的内容的性质来处理内容。
还应注意到,内容源系统102和内容处理系统106可以是同一系统。例如,内容源系统102可以是创作应用,该应用被用于创作电子邮件消息、文字处理文档、电子表格文档、幻灯片演示文档、绘图文档或另一类型的文档。从而,内容108可以是电子邮件消息的正文、附件或可由内容源系统102创建的任何其它类型的文档。内容处理系统106也可被并入内容源系统,使得用户101在内容源系统102中生成的内容具有由同一系统应用于其的数据传播政策。
作为示例,假定内容源系统102是电子邮件系统,而用户101与系统102交互以生成包含内容108的电子邮件消息。用户101可使用诸如键盘、指点设备、语音、触摸姿势等用户输入机制或其它机制来交互。在任何情况下,系统104可确定邮件消息是否包含敏感材料,且如果包含敏感材料,则内容处理系统106可被并入电子邮件系统(该电子邮件系统包括内容源系统102)以关于敏感材料实现数据传播政策。即,(用于创作内容的)电子邮件系统可基于内容、或基于接收者或基于这两者阻塞某些电子邮件消息。类似地,也可采用其它数据传播政策。
在任何情况下,语言无关内容确定系统104包括内容确定组件112以及包括一组内容确定规则117和119的规则存储115。每一规则117、119被用于标识某一种类的敏感信息。例如,规则117可用于标识内容108中的信用卡号码,而规则119可被用于标识社会保障号码。这些仅是示例。每一规则说明性地指定模式。如果内容108匹配规则中的模式,则确定内容包含对应于该规则的敏感信息。在图1中所示的实施例中,每一规则包括分割内容确定模式114和非分割内容确定模式116。图1示出其中规则117还具有另一组非分割内容确定模式118的实施例。在所示实施例中,模式114操作于分割语言,而模式116和118操作于非分割语言。当然,分割和非分割语言也可被组合。例如,模式114可仅操作于英语,或操作于所有分割语言。类似地,模式116可操作于日语,而模式118可操作于汉语,而可对其它分割语言提供其它模式集合。或者,可提供并安排一组非分割模式116,以使得该组模式116操作于所有非分割语言。这在下面将更详细地描述。
系统104还说明性地包括处理器120。处理器120说明性地是具有相关联的时序和存储器电路(未示出)的计算机处理器。处理器120说明性地是系统104的功能组件,且由系统104的其它组件激活以促成那些组件的功能。
当然,还注意到,尽管环境100被示为分成各个系统和组件,那些系统和组件的功能可彼此组合以具有较少的系统或组件,或者功能可被进一步划分以具有附加的系统和组件。图1中所示仅用作示例。
图2是示出图1所示的环境的操作的一个实施例的流程图。语言无关内容确定系统104首先接收要被分析的内容108。这由图2中的框130指示。内容确定组件112访问各个规则117-119以检测标识内容108的性质的信息。这由图2中的框132指示。
作为示例,内容确定组件112可访问规则117-119以查看信用卡信息是否驻留在内容108中。这可例如通过查找非常靠近词语“credit card(信用卡)”、“MasterCard(万事达卡)”、“Visa(维萨)”或“expiration date(有效期)”的16位号码来进行。
内容确定组件112说明性地搜索全部规则117-119,而不考虑内容108的语言,以便确定是否有任何规则匹配内容108的任何部分。从而,可见系统104可被用于标识内容108的性质,而无论其语言,甚至无论内容108是否包含多于一种语言的材料。
在任何情况下,内容确定组件112然后确定规则117-119中是否有任何规则匹配内容108。这由图2中的框134指示。如果为否,则系统104无法将内容108的性质标识为敏感,且它仅输出默认内容判断,诸如内容不敏感的判断。这由图2中的框136指示。
然而,如果在框134,内容确定组件112已标识了匹配内容108的规则117-119中的至少一个规则,则内容确定组件112可将内容108的性质标识为敏感。如图2中的框138所示,内容确定组件112然后向该判断分配置信水平。
置信水平可按照各种不同的方式来设置。例如,在一个实施例中,规则117-119首先使得内容确定组件112确定内容108是否包含16位号码。如果包含,则内容108匹配该特定规则所定义的模式。然而,规则还可定义内容确定组件112要查找诸如日期、诸如词语“credit card(信用卡)”等的协助证据。基于所标识的、并在匹配规则中陈列的协助证据,内容确定组件112可分配置信水平,该置信水平基于内容是匹配分割模式还是非分割模式,并基于内容108中找到的以支持内容108包含敏感材料的判断的协助数据的量而变化。
内容确定组件112然后输出内容108的性质,连同置信水平作为内容判断110。输出内容的性质连同置信水平由图2中的框140指示。作为示例,内容判断组件112可输出内容108包含敏感材料的置信水平为90%的指示。当然,这仅是示例性的。
一旦内容处理系统106已经接收了内容判断110,它就基于内容108的性质处理内容108。这由图2中的框142指示。内容处理系统106可取决于内容108是否敏感而使用不同的规则处理内容。
作为示例,如果内容108是电子邮件消息,且或者消息的正文包含敏感内容,或者消息的附件包含敏感内容,则内容处理系统106可仅仅显示指示内容108包含敏感材料并向用户101指示如何继续(诸如通过指示该内容应仅被发送给授权人员)的消息。或者,内容处理系统106可指示电子邮件消息将被阻塞,因为它包含敏感材料。当然,内容处理系统106还可分析内容108的收件人以确定要采取什么动作,诸如阻塞电子邮件消息或是发送它等等。在任何情况中,内容处理系统106基于系统104输出的内容108的性质来处理内容108。
图3是示出内容确定组件112如何向内容判断110分配置信水平的更详细框图。在图3所示的实施例中,内容确定组件112首先确定在给定规则上匹配的模式是用于分割语言还是非分割语言。这由图3中的框150指示。
如果匹配的规则是用于诸如英语的分割语言,则这影响所分配的置信水平。例如,因为分割语言具有清楚分隔的词语(词语由空格间隔),于是作为规则一部分匹配的任何关键词与它们在非分割语言中匹配的情况下相比,可与更高的置信度匹配。如上所述,即使非分割语言中的文字串精确地匹配,该串基于其上下文也可意味着完全不同的东西。组件112因此较不肯定文字串在规则中和在内容108中意味着相同的东西。
从而,内容确定组件112然后确定已被找到以支持针对给定规则匹配的模式的确证水平。这由框152指示。组件112然后基于匹配的模式以及所标识的确证来分配置信分数。这由框154指示。
作为特定示例,假定已被匹配的用于分割语言的规则正在查找信用卡信息。在一个实施例中,该规则首先要求内容108匹配指定内容108必须包含16位号码的主模式。进一步假定内容108的确包含16位号码。从而,分割语言中的该规则所要求的模式已被匹配。现在假定,为了找到确证证据,该规则包括确证模式部分,确证模式部分包含除了16位号码以外也有可能存在于内容108中的某些关键词。这样的关键词可包括“credit card(信用卡)”、“expirationdate(有效期)”等。内容确定组件112然后确定确证数据中是否有任何数据在内容108中匹配。因为已被匹配的模式对应于分割语言,内容确定组件112可以非常确信确证数据中的词语在模式中和在内容108中意味着相同的东西。即,如果规则中的关键词之一是“credit card”,且内容确定组件112在内容108中找到词语“credit card”,则内容确定组件112可以非常确信,之前匹配的16位号码实际上是信用卡号码。如果内容确定组件112还在内容108中找到词语“expiration date”,则置信水平甚至更高。基于在规则中匹配的主模式以及对应的确证模式,分配置信水平。
或者,如果在框150,确定匹配规则的模式对应于非分割语言,则内容确定组件112再次查找确证数据以支持匹配的模式。这由图3中的框156指示。然而,与分割语言不同,即使内容确定组件112将关键词匹配为确证数据,在非分割语言中不能同样肯定该关键词在规则中和在内容108中意味着同样的东西。从而,尽管在内容108中定位确证数据甚至对于非分割语言而言的确增加了置信水平,但是它增加置信水平的程度不如对于分割语言。
作为特定示例,假定用于非分割语言的模式也要求内容108包含16位号码。进一步假定内容108的确包含16位号码。然后,假定模式要求内容确定组件112在内容108中查找当被翻译时对应于英语词语“credit card”的文字串。即使内容确定组件112的确在内容108中定位了该文字串,这不意味着该文字串具有“credit card”的意思。实际上,它可能在内容108的上下文中具有与信用卡无关的完全不同的意思。这在以上在背景部分中说明。从而,尽管内容确定组件112的确增加其判断的置信水平,但它增加置信水平的程度不如分割语言的情形。然而,在任何情况下,基于规则中匹配的模式以及所标识的确证数据来分配置信分数。这由图3中的框158指示。
图4示出了用来定义用于在诸如内容108的内容的正文内检测信用卡数据的规则的分层树结构170。结构170包括头节点172,该头节点指示该规则用于检测信用卡数据。名称节点174命名该特定规则(在此情况中,它被命名为“信用卡”),而描述节点176描述了该规则做了什么。在这种情况下,它包括描述该规则试图标识包含信用卡信息的内容的文本描述,且它还可描述当检测到信用卡信息时如何保护这一信息。
结构170接下来包含三个模式节点178、180和182。模式节点178定义了可被用于在分割语言中标识信用卡数据的一组模式和确证数据。节点178包括进一步定义该模式的一组子节点184、186和188。节点184示出,对于要匹配的规则,要在内容中找到16位号码形式的正则表达式。如果正则表达式被找到,则确证节点188标识可被用于确证该16位号码是信用卡号码的判断的可选匹配。在一个实施例中,节点188包括与信用卡有关的关键词的列表,这些关键词用由节点178表示的一种或多种分割语言(诸如英语)列出。再一次,作为示例,关键词可包括“credit card”、“Visa”、“Master Card”、“expirationdate”等。置信节点186定义了当16位号码已被标识且可选匹配中的至少一个匹配已被标识时与内容相关联的置信水平。如果已标识多于一个的可选匹配(或确证匹配),则置信水平186可指定标识增加置信度的额外置信水平。因此,节点186向内容确定组件112指定当在节点178处匹配了给定规则和确证数据时,要向所作出的敏感判断分配什么置信水平。
节点180还包括多个子节点190、192和194。主匹配节点190再一次指定要针对对应于节点182的规则匹配的模式激发。在图4中所示的实施例中,模式是包括16位号码的正则表达式。
可选(或确证)匹配节点194定义了可被匹配以达到支持所匹配的模式的置信水平的确证证据。在图4中所示的实施例中,可选匹配194包括一种或多种非分割语言的关键词的列表。当然,该列表可仅由取决于其在进行分析的内容内的上下文而可在意思中有歧义的文字串的列表构成。从而,对应于节点180的模式指示,即使在节点190处正则表达式被匹配,且在节点194中至少一个关键词被匹配,在置信节点192处标识的置信水平仅是70%,而对于节点186处的分割语言模式,置信水平是90%。从而,即使在分割语言和非分割语言中出现相同类型的匹配,对应于非分割语言的置信水平较低,因为确证证据较不肯定。
节点182还包括多个子节点196、198和200。对应于节点182的模式所定义的参数类似于对节点180示出的那些参数。从而,存在将正则表达式定义为16位号码的主匹配节点196,该号码要在内容108中匹配以便激发该规则。然而,可选匹配节点200包括可位于内容108中的两种不同类型的信息。第一种类似于节点194处所示的信息。即,一种或多种非分割语言的一组关键词被列出。如果那些关键词中的任何一个位于内容108中,它们用作确证数据。然而,可选匹配节点200还规定了确证证据可包括日期。例如,当谈论信用卡信息时,包括有效期是非常常见的。从而,如果16位号码位于内容中,且特定的非分割关键词位于内容108中,且日期位于该内容中,则该信息是信用卡信息的置信度可以增加。从而,即使它是用于非分割语言,节点198表达的置信水平是80%。这是因为即使关键词匹配较不肯定,但是它们还被日期匹配确证。
应注意到,对应于非分割语言的两个模式(对应于图4中的节点180和182)可包括由系统104呈送的所有非分割语言的关键词的列表。即,可选匹配节点194和200中的该组关键词可包括来自汉语、日语、韩语、越南语等的文字串。从而,无论在内容108中使用哪一非分割语言,在模式180和182两者中均可进行匹配。类似地,对应于模式178的分割语言的可选匹配节点188可包括来自系统旨在操作的基本上所有分割语言的词语。因此,节点188可包含英语、法语、德语、西班牙语等的关键词的列表。因此,节点178可操作于所有分割语言。
还将注意到,图4中示出的结构170仅示出具有可用于操作于所有所需语言以便标识信用卡的模式的单个规则。这仅是可使用的一种类型的结构,且其仅示出一个示例性规则。此外,所公开的主匹配以及可选匹配和置信水平仅是示例性的。也可使用不同的或附加的主匹配以及可选匹配和置信水平。
图4A和4B示出可用于增强理解的两个特定用户界面示例。图4A示出用户界面显示300,其中用户101正在生成电子邮件消息作为内容108。显示300中的电子邮件消息说明性地具有收件人部分302、主题部分304和附件部分306、发送按钮308、消息正文部分310和用户教育部分312。在图4A所示的实施例中,用户101已在正文部分310中生成了较短的电子邮件消息,并在附件部分306内附加了文档。对该电子邮件消息,存在两个收件人,John Doe和Jason Smith。
当用户正在生成电子邮件消息(该电子邮件消息对应于内容108)时,内容确定组件112还分析内容108以确定它是否包含敏感材料。当电子表格附件被附加在部分306中时,内容确定组件112还分析该附件。
在图4A中所示的实施例中,组件112分析了附件部分306并发现它包含敏感记录。从而,内容处理系统106在用户界面显示300上在部分312中生成通知314。通知314包括图标316、头部318、描述320以及警告或指示322。图标316可与被显示在部分312中的遵守注释或提示相关联。它说明性地包含某种图形图像,并且该图像可取决于在部分312中提及的特定数据传播政策而改变。当然,图标316也可以是静态图标。
头部注释部分318仅仅是指示将要对正在创作的电子邮件消息或附件应用数据传播政策的头部。在该实施例中,描述部分320陈述“This e-mail containssensitive records(该电子邮件包含敏感记录)”。因此,描述部分320描述数据传播政策将要应用于该电子邮件消息的原因。警告或指示部分322陈述“Ensure it is sent to authorized recipients(确保它将被发送给授权的收件人)”。该部分向用户指示如何遵守正被实施的特定数据传播政策。从而,在显示300中的部分312中,可见到部分318向用户通知数据传播政策正被实施,而描述部分320和警告或指示部分322关于数据传播政策正被实施的原因以及关于如何遵守该政策教导用户101。这均在文档被创作以及它被显示给用户101的同时在文档本身(电子邮件消息和附件)的上下文中进行。
在图4A所示的实施例中,还看到附件324被突出显示。在一个实施例中,电子邮件消息(内容108)的敏感部分说明性地由某种类型的视觉提示指示,该视觉提示在显示300上区分该敏感部分。在图4A所示的实施例中,附件324说明性地用与用户界面显示300的其余部分不同的颜色(诸如黄色)突出显示。这指示,附件324是电子邮件中包含描述部分320中提及的敏感记录的那部分。
图4B示出了可被生成的另一用户界面显示330。用户界面显示330上的多个项类似于图4A中示出的那些项,并被类似地编号。然而,可注意到多个不同。从图4B可见到,敏感信息被包含在电子邮件消息的正文310中,而非附件中。从而,当用户正在键入电子邮件消息的正文310时,内容确定组件112正在分析内容并在正文310中标识信用卡号码。当然,出于本实施例的目的,实际号码已用字符x、y和z代替。因为电子邮件消息包含敏感信息,对该邮件应用数据传播政策。在所示实施例中,部分312中的描述部分320不仅描述为何对该电子邮件实施数据传播政策,而且还描述内容处理系统106将要采取的措施。遵守注释陈述“This email will be blocked by your organization since itcontains sensitive content(该电子邮件将被你的组织阻塞,因为它包含敏感内容)”。这不仅指示了为何实施数据传播政策(因为电子邮件包含敏感内容),而且它还关于系统106将由于该政策将对该电子邮件做什么(阻塞它)教导用户。
图5是示出其中在创作系统402内运行的创作应用400内部署语言无关内容确定系统104的更具体实施例的框图。创作系统402说明性地包括处理器404,该处理器404被用于运行创作应用,以使得用户101可通过用户设备406与创作系统402交互。用户设备406可以是任何类型的用户设备,诸如台式计算机、膝上型计算机、掌上或平板计算机、移动设备、智能电话、个人数字助理、多媒体播放器等。作为一个特定示例,假定创作系统402正在运行文字处理创作应用400,该应用允许用户101生成运行应用400的文字处理文档408。在图5所示的实施例中,语言无关内容确定系统104和内容处理组件106皆被嵌入创作应用400内。从而,当用户创作文档408时,系统104和组件106正在分析文档408的内容以确定其性质(诸如它是否敏感),并且它们相应地处理该文档的内容(诸如通过对敏感信息实施数据传播政策)。图5仅仅被提供来示出系统104和组件106可被嵌入用于创作内容的应用内。
还应注意到环境100可被部署在各种不同的体系结构中。环境100的不同部分可被部署在用户设备406上、或服务器上,或者它们可分开在一个或多个客户机和一个或多个服务器之间。此外,环境100的各部分可以是基于云的服务,部署在基于云的体系结构中。
云计算体系结构说明性地包括基础架构、平台和应用。云服务耦合到其它设备或系统,诸如云服务器、台式计算机、平板计算机、膝上型计算机、蜂窝电话或智能电话、或其它移动设备或个人数字助理。云计算提供了不要求最终用户知晓交付服务的系统的物理位置或配置的计算、软件、数据访问和存储服务而非产品。在各个实施例中,云计算通过诸如因特网之类的广域网使用合适的协议交付服务。例如,云计算提供者通过广域网交付应用,并且它们可以通过web浏览器或任何其他计算组件被访问。环境100的软件或组件以及相应的数据可被存储在云中远程位置处的服务器上。云计算环境中的计算资源可以被整合在远程数据中心位置处或者它们可以是分散的。云计算基础架构可以通过共享数据中心来交付服务,即使在用户看来它们是单个访问点。因此,在此所述的组件和功能可以从远程位置处的服务提供者使用云计算体系结构来提供。或者,它们可以从常规的服务器提供,或者它们可以直接地安装在客户端设备上,或按照其它方式。
图6示出云计算环境中的语言无关内容确定系统104、内容处理系统106和内容源系统102。所有这些系统均被示为在云420中。用户101访问它们作为通过用户设备406提供的服务。
图7是可用作用户设备(或客户机设备)406的手持或移动计算设备的一个说明性实施例的简化框图,在用户设备406中可部署本发明的系统(或其部分),或者该用户设备406可被用于访问本发明的系统。图8和9是手持或移动设备的示例。
图7提供了可以是用户设备406并可运行环境100的组件、或者与环境100交互的客户机设备16的组件的一般框图。在设备16中,提供了通信链路13,该通信链路允许手持设备与其它计算设备通信,并且在一些实施例中提供用于诸如通过扫描来自动接收信息的信道。通信链路13的示例包括:红外端口、串行/USB端口、诸如以太网端口之类的电缆网络端口、以及允许通过一个或多个通信协议的通信的无线网络端口,所述通信协议包括为用于提供对网络的蜂窝访问的无线服务的通用分组无线服务(GPRS)、1Xrtt和短消息服务,并包括提供对网络的局域无线连接的802.11和802.11b(WiFi)协议、和蓝牙协议。
根据其他实施例,应用或系统(像系统100)在连接到SD卡接口15的可移动安全数字(SD)卡上被接收。SD卡接口15和通信链路13沿总线17与处理器19进行通信,该总线21还连接到存储器23和输入/输出(I/O)组件25、以及时钟27和位置系统727。
在一个实施例中,提供了I/O组件23以促成输入和输出操作。针对设备16的各个实施例的I/O组件23可以包括:输入组件,比如按钮、触摸传感器、接近传感器、话筒、倾斜传感器以及重力开关;以及输出组件,比如显示设备、扬声器和或打印机端口。也可以使用其他I/O组件23。
时钟25说明性地包括输出时间和日期的真实时间时钟组件。时钟还可以说明性地为处理器17提供定时功能。
定位系统27说明性地包括输出设备16的当前地理位置的组件。这例如可以包括全球定位系统(GPS)接收机、LORAN系统、航位推算系统、蜂窝三角测量系统、或者其他定位系统。这例如还可以包括生成所期望的地图、导航线路和其他地理功能的测绘软件或导航软件。
处理器21存储操作系统29、网络设定31、应用33、应用配置设定35、数据存储37、通信驱动程序39以及通信配置设定41。存储器21可以包括所有类型的有形易失性和非易失性计算机可读存储器设备。其还可以包括计算机存储介质(下面描述)。存储器21存储计算机可读指令,所述指令在被处理器17执行时致使处理器根据所述指令执行计算机实现的步骤或功能。Portions of system100,for example,can reside in memory21.处理器17可以也被其他组件激活以促进它们的功能。
网络设定31的示例包括诸如代理信息、因特网连接信息以及测绘之类的事物。应用配置设定35包括为特定企业或用户定制应用的设定。通信配置设定41提供了用于与其他计算机进行通信的参数,并且包括诸如GPRS参数、SMS参数、连接用户名和口令之类的项目。
应用33可以是之前已经存储在设备16上的应用或是在使用期间安装的应用,但是这些应用可以是操作系统29的一部分,或者也可以在设备16之外被托管。
图8和图9提供了可用的设备16的示例,尽管也可以使用其他设备。在图8,提供智能电话或移动电话45作为设备16。电话45包括:一组小键盘47,其用于拨打电话号码;显示器49,其能够显示包括应用图像、图标、网页、照片和视频在内的图像;以及控制按钮51,其用于选择在显示器上示出的项目。电话包括天线53,该天线53用于接收诸如通用分组无线服务(GPRS)和1Xrtt之类的蜂窝电话信号以及短消息服务(SMS)信号。在一些实施例中,电话45还包括容纳安全数字(SD)卡57的SD卡槽55。
图9的移动设备是个人数字助理(PDA)59或多媒体播放器或平板计算机等等(在此称为PDA 59)。PDA 59包括电感屏61,所述电感屏感测指示笔63(或其他指示器,诸如用户的手指)在该指示笔被置于屏幕之上时的位置。这允许用户在屏幕上选择、突出显示和移动项目以及绘图和书写。PDA 59还包括多个用户输入键或按钮(比如按钮65),其允许用户将显示器61上所显示的菜单选项或其他显示选项滚屏,并且允许用户在没有接触显示器61的情况下改变应用或选择用户输入功能。尽管未被示出,但是PDA 59可以包括允许与其他计算机进行无线通信的内置天线和红外发射机/接收机、以及允许对其他计算设备的硬件连接的连接端口。这样的硬件连接通常是通过经由串行或USB端口连接到其他计算机的支架来进行的。因此,这些连接是非网络连接。在一个实施例中,移动设备59还包括容纳SD卡69的SD卡槽67。
注意,设备16的其他形式是可能的。示例包括平板计算设备、音乐或视频播放器以及其他手持计算设备。
图10是其中可部署(例如)系统100的计算环境800的一个实施例。参考图10,用于实现一些实施例的示例性系统包括计算机810形式的通用计算设备。计算机810的组件可以包括,但不限于,处理单元820(可以包括处理器114)、系统存储器830和将包括系统存储器在内的各种系统组件耦合至处理单元820的系统总线821。系统总线821可以是若干类型的总线结构中的任一种,包括使用各种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线、以及局域总线。作为示例而非限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和外围部件互连(PCI)总线(也称为夹层(Mezzanine)总线)。参考图1描述的存储器和程序可被部署在图10的相应部分中。
计算机810通常包括各种计算机可读介质。计算机可读介质可以是能由计算机810访问的任何可用介质,而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质不同于且不包括已调制数据信号或载波。计算机存储介质包括硬件存储介质,该硬件存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法和技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机810访问的任何其它介质。通信介质通常具体化计算机可读指令、数据结构、程序模块或传输机制中的其他数据,并包括任何信息递送介质。术语“已调制数据信号”是指使得以在信号中编码信息的方式来设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述任何组合也应该包括在计算机可读的介质范围内。
系统存储器830包括易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)831和随机存取存储器(RAM)832。包含诸如在启动期间帮助在计算机810内的元件之间传输信息的基本例程的基本输入/输出系统833(BIOS)通常存储在ROM 831中。RAM 832通常包含处理单元820可立即访问和/或当前正在操作的数据和/或程序模块。作为示例而非限制,图10示出了操作系统834、应用程序835、其他程序模块836和程序数据837。
计算机810还可以包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图10示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器841,从可移动、非易失性磁盘852中读取或向其写入的磁盘驱动器851,以及从诸如CD ROM或其他光学介质等可移动、非易失性光盘856中读取或向其写入的光盘驱动器855。可在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器841通常通过诸如接口840之类的不可移动存储器接口连接到系统总线821,并且磁盘驱动器851和光盘驱动器855通常通过诸如接口850之类的可移动存储器接口连接到系统总线821。
以上讨论并在图10中示出的驱动器及其相关联的计算机存储介质为计算机810提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图10中,例如,硬盘驱动器841被示为存储操作系统844、应用程序845、其他程序模块846和程序数据847。注意,这些组件可与操作系统834、应用程序835、其它程序模块836和程序数据837相同,也可与它们不同。在此操作系统844、应用程序845、其它程序模块846以及程序数据847被给予了不同的编号,以说明至少它们是不同的副本。
用户可以通过诸如键盘862、话筒863以及诸如鼠标、跟踪球或触摸垫等定点设备861等输入设备来将命令和信息输入至计算机810中。其它输入设备(未示出)可以包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些以及其它输入设备通常通过耦合到系统总线的用户输入接口860连接到处理单元820,但也可通过诸如并行端口、游戏端口或通用串行总线(USB)之类的其它接口和总线结构来连接。监视器891或其它类型的显示设备也经由诸如视频接口890之类的接口连接至系统总线821。除了监视器以外,计算机还可包括诸如扬声器897和打印机896之类的其它外围输出设备,它们可通过输出外围接口895来连接。
计算机810使用到诸如远程计算机880等一个或多个远程计算机的逻辑连接在网络化环境中操作。远程计算机880可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它常见的网络节点,且一般包括以上关于计算机810描述的多个或所有的元件。图10中所描绘的逻辑连接包括局域网(LAN)871和广域网(WAN)873,但还可包括其他网络。此类联网环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机810通过网络接口或适配器870连接到LAN 871。当在WAN联网环境中使用时,计算机810通常包括调制解调器872或用于通过诸如因特网等WAN 873建立通信的其它手段。调制解调器872可以是内置的或外置的,可经由用户输入接口860或其它适当的机制连接到系统总线821。在联网环境中,相关于计算机810所示的程序模块或其部分可被存储在远程存储器存储设备中。作为示例,而非限制,图10示出了远程应用程序885驻留在远程计算机880上。应当理解,所示的网络连接是示例性的,并且可使用在计算机之间建立通信链路的其它手段。
尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言,上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims (10)

1.一种用于处理文档的内容的计算机实现的方法,包括:
访问定义被用于将所述内容标识为第一类型的内容的模式的一组规则,每一规则具有可被分别匹配到以分割语言书写的文本内容和以非分割语言书写的文本内容的分割和非分割模式;
针对每一规则中的所述模式匹配所述文档的所述内容,而无论所述文档的所述内容是以分割语言还是以非分割语言书写,以确定所述文档中的所述内容是否是所述第一类型的内容;
基于所述文档的所述内容匹配分割模式还是非分割模式,生成与关于所述文档的所述内容是否是所述第一类型的内容的判断相对应的置信分数;
基于所述关于所述文档的所述内容是否是所述第一类型的内容的判断以及所述相应的置信分数,处理所述文档的所述内容。
2.如权利要求1所述的计算机实现的方法,其特征在于,生成置信分数包括:
如果所述文档的所述内容匹配分割模式,则生成较高的置信分数,而如果所述文档的所述内容匹配非分割模式,则生成较低的置信分数。
3.如权利要求1所述的计算机实现的方法,其特征在于,处理所述文档的所述内容包括:
如果所述文档中的所述内容是具有充分高的相应置信分数的所述第一类型的内容,根据第一组处理规则来处理所述文档中的所述内容;以及
否则,根据第二组处理规则处理所述文档的所述内容。
4.如权利要求1所述的计算机实现的方法,其特征在于,匹配包括:
针对每一规则中的所述非分割模式和所述分割模式两者来匹配所述文档的所述内容;
其中每一模式包括主匹配模式和确证匹配部分,且其中匹配包括:
首先针对给定模式的所述主匹配部分匹配所述文档的所述内容;
如果所述文档的所述内容匹配所述给定模式的所述主匹配部分,则针对所述确证匹配部分来匹配所述文档的所述内容;以及
如果所述文档的所述内容匹配所述给定模式的所述确证匹配部分,则向所述匹配分配第一置信分数。
5.如权利要求4所述的计算机实现的方法,其特征在于,所述给定模式的所述确证匹配部分具有多个确证模式,且其中针对所述确证匹配部分匹配所述文档的所述内容包括:
针对所述多个确证匹配模式中的每一个确证匹配模式匹配所述文档的所述内容;以及
如果所述文档的所述内容匹配多于一个确证匹配模式,则增加所述置信分数。
6.如权利要求1所述的计算机实现的方法,其特征在于,每一规则标识不同种类的信息,当所述信息被包括在所述文档的所述内容中时,致使所述文档的所述内容为敏感内容;以及
基于所述文档的所述内容是否被标识为敏感内容,而对所述文档的所述内容应用数据传播规则。
7.如权利要求6所述的计算机实现的方法,其特征在于,匹配包括:
针对标识信用卡信息的规则中的模式匹配所述文档的所述内容;
针对标识社会保障号码信息的规则中的模式匹配所述文档的所述内容;以及
针对标识个人信息的规则中的模式匹配所述文档的所述内容。
8.一种内容处理系统,包括:
包括多个规则的规则数据存储,每一规则对应于一类型的信息并具有一组分割模式和一组非分割模式;
内容确定组件,所述内容确定组件接收内容并针对每一规则中的所述分割模式和所述非分割模式匹配所述内容以确定所述内容是否包括对应于每一规则的所述类型的信息,所述内容确定组件基于所述内容匹配给定规则中的分割模式还是非分割模式,向所述内容是否包含对应于所述给定规则的所述类型的信息的判断分配置信水平;以及
计算机处理器,所述计算机处理器作为所述系统的功能组件并被所述内容确定组件激活以便于匹配和分配置信水平。
9.如权利要求8所述的内容处理系统,其特征在于,所述内容确定组件针对所述分割模式和所述非分割模式匹配所述内容,而无论所述内容是以分割语言、非分割语言还是分割和非分割语言两者书写的,且其中与当所述内容匹配非分割模式时相比,当所述内容匹配分割模式时所述内容确定组件向所述判断分配较高的置信水平。
10.如权利要求9所述的内容处理系统,其特征在于,规则中的每一模式具有主匹配部分和确证匹配部分,且其中所述内容确定组件首先针对所述主匹配部分匹配所述内容,然后如果所述内容匹配所述主匹配部分则针对所述确证匹配部分匹配所述内容,其中所述确证匹配部分包括多个匹配模式,且其中如果所述内容匹配所述确证匹配部分中的所述多个匹配模式中多于一个的匹配模式,则所述内容确定组件分配增加的置信水平。
CN201380008426.5A 2012-02-07 2013-02-01 语言无关的概率内容匹配 Expired - Fee Related CN104094250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610389876.9A CN106021237B (zh) 2012-02-07 2013-02-01 语言无关的概率内容匹配

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/367,469 2012-02-07
US13/367,469 US9087039B2 (en) 2012-02-07 2012-02-07 Language independent probabilistic content matching
PCT/US2013/024244 WO2013119457A1 (en) 2012-02-07 2013-02-01 Language independent probabilistic content matching

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610389876.9A Division CN106021237B (zh) 2012-02-07 2013-02-01 语言无关的概率内容匹配

Publications (2)

Publication Number Publication Date
CN104094250A true CN104094250A (zh) 2014-10-08
CN104094250B CN104094250B (zh) 2017-10-10

Family

ID=48903680

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201610389876.9A Expired - Fee Related CN106021237B (zh) 2012-02-07 2013-02-01 语言无关的概率内容匹配
CN201380008426.5A Expired - Fee Related CN104094250B (zh) 2012-02-07 2013-02-01 语言无关的概率内容匹配

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201610389876.9A Expired - Fee Related CN106021237B (zh) 2012-02-07 2013-02-01 语言无关的概率内容匹配

Country Status (6)

Country Link
US (2) US9087039B2 (zh)
EP (1) EP2812810A4 (zh)
JP (1) JP6169620B2 (zh)
KR (1) KR102064623B1 (zh)
CN (2) CN106021237B (zh)
WO (1) WO2013119457A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880989B2 (en) * 2012-01-30 2014-11-04 Microsoft Corporation Educating users and enforcing data dissemination policies
US9087039B2 (en) 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching
US10834027B2 (en) * 2015-06-27 2020-11-10 Mcafee, Llc Protection of sensitive chat data
US10218654B2 (en) 2015-09-29 2019-02-26 International Business Machines Corporation Confidence score-based smart email attachment saver
WO2017221516A1 (ja) * 2016-06-21 2017-12-28 ソニー株式会社 情報処理装置及び情報処理方法
US10546154B2 (en) * 2017-03-28 2020-01-28 Yodlee, Inc. Layered masking of content
US10915657B2 (en) 2017-07-19 2021-02-09 AVAST Software s.r.o. Identifying and protecting personal sensitive documents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243408A1 (en) * 2003-05-30 2004-12-02 Microsoft Corporation Method and apparatus using source-channel models for word segmentation
US20060253275A1 (en) * 2001-12-20 2006-11-09 Microsoft Corporation Method and apparatus for determining unbounded dependencies during syntactic parsing
CN101943955A (zh) * 2010-09-25 2011-01-12 吴保国 拼音义标直观汉字及多语言文字输入法
US20110040983A1 (en) * 2006-11-09 2011-02-17 Grzymala-Busse Withold J System and method for providing identity theft security

Family Cites Families (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
CA2129075C (en) 1993-10-18 1999-04-20 Joseph J. Daniele Electronic copyright royalty accounting system using glyphs
US6006242A (en) 1996-04-05 1999-12-21 Bankers Systems, Inc. Apparatus and method for dynamically creating a document
US6308148B1 (en) 1996-05-28 2001-10-23 Cisco Technology, Inc. Network flow data export
US6014135A (en) 1997-04-04 2000-01-11 Netscape Communications Corp. Collaboration centric document processing environment using an information centric visual user interface and information presentation method
US5958005A (en) 1997-07-17 1999-09-28 Bell Atlantic Network Services, Inc. Electronic mail security
US6148297A (en) 1998-06-01 2000-11-14 Surgical Safety Products, Inc. Health care information and data tracking system and method
US6104990A (en) 1998-09-28 2000-08-15 Prompt Software, Inc. Language independent phrase extraction
JP2000181916A (ja) * 1998-12-17 2000-06-30 Fujitsu Ltd 文書解析装置および方法ならびに文書解析プログラムを記録したコンピュータ読み取り可能な記録媒体
US6968308B1 (en) * 1999-11-17 2005-11-22 Microsoft Corporation Method for segmenting non-segmented text using syntactic parse
US6629081B1 (en) 1999-12-22 2003-09-30 Accenture Llp Account settlement and financing in an e-commerce environment
US7610233B1 (en) 1999-12-22 2009-10-27 Accenture, Llp System, method and article of manufacture for initiation of bidding in a virtual trade financial environment
US6678409B1 (en) 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
DE60015709T2 (de) 2000-01-19 2005-11-10 Hewlett-Packard Development Co., L.P., Houston Sicherheitspolitik, die auf eine Gemeinschaftsdaten-Sicherheitsarchitektur angewendet wird
US6678698B2 (en) 2000-02-15 2004-01-13 Intralinks, Inc. Computerized method and system for communicating and managing information used in task-oriented projects
US6826609B1 (en) 2000-03-31 2004-11-30 Tumbleweed Communications Corp. Policy enforcement in a secure data file delivery system
AUPQ865700A0 (en) 2000-07-07 2000-08-03 Toneguzzo Group Pty Limited, The Content filtering and management
US6839707B2 (en) 2001-01-17 2005-01-04 General Electric Company Web-based system and method for managing legal information
US7181017B1 (en) 2001-03-23 2007-02-20 David Felsher System and method for secure three-party communications
US6990534B2 (en) 2001-07-20 2006-01-24 Flowfinity Wireless, Inc. Method for a proactive browser system for implementing background frame maintenance and asynchronous frame submissions
US20040205531A1 (en) 2001-08-17 2004-10-14 Innes Bruce Donald Method and application for developing a statement of work
US7725490B2 (en) 2001-11-16 2010-05-25 Crucian Global Services, Inc. Collaborative file access management system
US7260555B2 (en) 2001-12-12 2007-08-21 Guardian Data Storage, Llc Method and architecture for providing pervasive security to digital assets
US7903549B2 (en) 2002-03-08 2011-03-08 Secure Computing Corporation Content-based policy compliance systems and methods
US9237514B2 (en) 2003-02-28 2016-01-12 Apple Inc. System and method for filtering access points presented to a user and locking onto an access point
US7809698B1 (en) 2002-12-24 2010-10-05 International Business Machines Corporation System and method remapping identifiers to secure files
US8020192B2 (en) 2003-02-28 2011-09-13 Michael Wright Administration of protection of data accessible by a mobile device
US9197668B2 (en) 2003-02-28 2015-11-24 Novell, Inc. Access control to files based on source information
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
GB2405293B (en) 2003-08-18 2007-04-25 Clearswift Ltd Email policy manager
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
WO2005107150A1 (en) 2004-04-30 2005-11-10 Research In Motion Limited Message service indication system and method
WO2005117466A2 (en) 2004-05-24 2005-12-08 Computer Associates Think, Inc. Wireless manager and method for managing wireless devices
US20060048224A1 (en) 2004-08-30 2006-03-02 Encryptx Corporation Method and apparatus for automatically detecting sensitive information, applying policies based on a structured taxonomy and dynamically enforcing and reporting on the protection of sensitive data through a software permission wrapper
US7454778B2 (en) 2004-09-30 2008-11-18 Microsoft Corporation Enforcing rights management through edge email servers
US7634735B2 (en) 2004-11-24 2009-12-15 Mccary David W Collaborative platform
JP4301513B2 (ja) 2004-11-26 2009-07-22 インターナショナル・ビジネス・マシーンズ・コーポレーション ポリシーを用いたアクセス制御効果の判定方法
US7533420B2 (en) 2004-12-09 2009-05-12 Microsoft Corporation System and method for restricting user access to a network document
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
EP1853976B1 (en) * 2005-02-14 2018-12-26 Symantec Corporation Method and apparatus for handling messages containing pre-selected data
US8140664B2 (en) 2005-05-09 2012-03-20 Trend Micro Incorporated Graphical user interface based sensitive information and internal information vulnerability management system
US7853472B2 (en) 2005-07-15 2010-12-14 Saudi Arabian Oil Company System, program product, and methods for managing contract procurement
US7925973B2 (en) 2005-08-12 2011-04-12 Brightcove, Inc. Distribution of content
JP4826265B2 (ja) 2006-01-25 2011-11-30 富士ゼロックス株式会社 セキュリティポリシ付与装置、プログラム及び方法
US20070239600A1 (en) 2006-04-10 2007-10-11 Lundberg Steven W System and method for annuity processing
US20070261099A1 (en) 2006-05-02 2007-11-08 Broussard Scott J Confidential content reporting system and method with electronic mail verification functionality
US7984283B2 (en) 2006-05-22 2011-07-19 Hewlett-Packard Development Company, L.P. System and method for secure operating system boot
US7876335B1 (en) 2006-06-02 2011-01-25 Adobe Systems Incorporated Methods and apparatus for redacting content in a document
US20070294428A1 (en) 2006-06-19 2007-12-20 Ido Guy Method and System for Email Messaging
US8001130B2 (en) 2006-07-25 2011-08-16 Microsoft Corporation Web object retrieval based on a language model
CN100423004C (zh) * 2006-10-10 2008-10-01 北京新岸线网络技术有限公司 基于内容的视频搜索调度系统
MX2009004719A (es) 2006-10-30 2010-03-30 Cryptometrics Inc Sistema y metodo de identificacion biometrica y computarizada de pasajeros.
US8539349B1 (en) * 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
JP4823022B2 (ja) * 2006-11-07 2011-11-24 キヤノンItソリューションズ株式会社 情報処理装置、情報処理方法、及びコンピュータプログラム
US8256006B2 (en) * 2006-11-09 2012-08-28 Touchnet Information Systems, Inc. System and method for providing identity theft security
US7953614B1 (en) 2006-11-22 2011-05-31 Dr Systems, Inc. Smart placement rules
US8117022B2 (en) * 2006-12-07 2012-02-14 Linker Sheldon O Method and system for machine understanding, knowledge, and conversation
US7797010B1 (en) 2007-02-15 2010-09-14 Nextel Communications Inc. Systems and methods for talk group distribution
US7738900B1 (en) 2007-02-15 2010-06-15 Nextel Communications Inc. Systems and methods of group distribution for latency sensitive applications
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
JP2008269173A (ja) 2007-04-18 2008-11-06 Hitachi Ltd 計算機システム、ストレージシステムおよびデータ管理方法
US8521511B2 (en) 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US20090019121A1 (en) 2007-07-10 2009-01-15 Messagelabs Limited Message processing
US8091138B2 (en) 2007-09-06 2012-01-03 International Business Machines Corporation Method and apparatus for controlling the presentation of confidential content
US8396838B2 (en) 2007-10-17 2013-03-12 Commvault Systems, Inc. Legal compliance, electronic discovery and electronic document handling of online and offline copies of data
US8161526B2 (en) 2007-10-22 2012-04-17 International Business Machines Corporation Protecting sensitive information on a publicly accessed data processing system
US20090119372A1 (en) 2007-11-02 2009-05-07 Sean Callanan System and method for providing email warnings
US8151200B2 (en) 2007-11-15 2012-04-03 Target Brands, Inc. Sensitive information handling on a collaboration system
US8478787B2 (en) 2007-12-06 2013-07-02 Google Inc. Name detection
US7913167B2 (en) 2007-12-19 2011-03-22 Microsoft Corporation Selective document redaction
US8707384B2 (en) 2008-02-11 2014-04-22 Oracle International Corporation Change recommendations for compliance policy enforcement
CN101571921B (zh) * 2008-04-28 2012-07-25 富士通株式会社 关键字识别方法和装置
US8423483B2 (en) 2008-05-16 2013-04-16 Carnegie Mellon University User-controllable learning of policies
US8346532B2 (en) 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
US8271483B2 (en) 2008-09-10 2012-09-18 Palo Alto Research Center Incorporated Method and apparatus for detecting sensitive content in a document
JP4586913B2 (ja) 2008-09-19 2010-11-24 富士ゼロックス株式会社 文書管理システム、文書利用管理装置、及びプログラム
US8272028B2 (en) 2008-10-15 2012-09-18 Ricoh Company, Ltd. Approach for managing access to electronic documents on network devices using document retention policies and document security policies
WO2010059720A1 (en) 2008-11-19 2010-05-27 Scigen Technologies, S.A. Document creation system and methods
US8234693B2 (en) 2008-12-05 2012-07-31 Raytheon Company Secure document management
US9614924B2 (en) 2008-12-22 2017-04-04 Ctera Networks Ltd. Storage device and method thereof for integrating network attached storage with cloud storage services
US20100169771A1 (en) 2008-12-31 2010-07-01 Cerner Innovation, Inc. User Interface for Managing Patient Care Plans
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US8131735B2 (en) 2009-07-02 2012-03-06 Battelle Memorial Institute Rapid automatic keyword extraction for information retrieval and analysis
KR101621481B1 (ko) 2009-12-15 2016-05-16 에스케이 텔레콤주식회사 보안 문서 관리 장치 및 방법
CN101841684B (zh) 2009-12-18 2013-01-23 闪联信息技术工程中心有限公司 显示内容加密系统和方法及观看显示内容的装置
US20110246965A1 (en) 2010-04-01 2011-10-06 International Business Machines Corporation Correcting document generation for policy compliance
US20120084868A1 (en) 2010-09-30 2012-04-05 International Business Machines Corporation Locating documents for providing data leakage prevention within an information security management system
US8806615B2 (en) * 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
WO2012109386A1 (en) 2011-02-08 2012-08-16 T-Mobile Usa, Inc. Dynamic binding of service on bearer
US8880989B2 (en) 2012-01-30 2014-11-04 Microsoft Corporation Educating users and enforcing data dissemination policies
US9087039B2 (en) 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253275A1 (en) * 2001-12-20 2006-11-09 Microsoft Corporation Method and apparatus for determining unbounded dependencies during syntactic parsing
US20040243408A1 (en) * 2003-05-30 2004-12-02 Microsoft Corporation Method and apparatus using source-channel models for word segmentation
US20110040983A1 (en) * 2006-11-09 2011-02-17 Grzymala-Busse Withold J System and method for providing identity theft security
CN101943955A (zh) * 2010-09-25 2011-01-12 吴保国 拼音义标直观汉字及多语言文字输入法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHUNG-HONG LEE 等: "Development of a Multi-Classifier Approach for Multilingual Text Categorization", 《CONFERENCE ON DATA MINING (DIMI 2006)》 *

Also Published As

Publication number Publication date
WO2013119457A1 (en) 2013-08-15
EP2812810A4 (en) 2015-12-02
EP2812810A1 (en) 2014-12-17
KR102064623B1 (ko) 2020-01-09
CN104094250B (zh) 2017-10-10
CN106021237B (zh) 2019-07-02
KR20140133515A (ko) 2014-11-19
CN106021237A (zh) 2016-10-12
US9633001B2 (en) 2017-04-25
US9087039B2 (en) 2015-07-21
US20160012037A1 (en) 2016-01-14
JP2015511360A (ja) 2015-04-16
US20130204609A1 (en) 2013-08-08
JP6169620B2 (ja) 2017-07-26

Similar Documents

Publication Publication Date Title
US11681960B2 (en) Extracting and surfacing user work attributes from data sources
CN104094250A (zh) 语言无关的概率内容匹配
JP6063965B2 (ja) 個人情報のジオコーディング
CN108205376A (zh) 用于对话的图标符号预测
CN108541310B (zh) 一种显示候选词的方法、装置及图形用户界面
US10235720B2 (en) Merchant identification and expense item classification from a mobile device capture of an event receipt
US10565520B2 (en) Feature extraction for machine learning
US10564846B2 (en) Supplementing a virtual input keyboard
US11556546B2 (en) People suggester using historical interactions on a device
KR20150035798A (ko) 현지화된 사용자 인터페이스의 생성 방법
US11507863B2 (en) Feature determination for machine learning to suggest applications/recipients
CN106575395A (zh) 包含来自各种数据源的数据的实体解析
CA2814547A1 (en) Device and method for creating data records in a data-store based on messages
CN112257436B (zh) 文本检测方法及装置
CN106326204A (zh) 消息中错误的基于内容的检测和处理
CN115804117A (zh) 为群组成员的安全生成和修改位置条目和地理围栏
JP2008117287A (ja) 情報処理装置、情報処理方法、該方法を実行するためのプログラム及び記憶媒体
JP2013206387A (ja) データ検索システム及びデータ検索方法
US20130246455A1 (en) Document management apparatus, non-transitory computer readable medium, and document management method
WO2016176379A1 (en) Extracting and surfacing user work attributes from data sources
KR100755092B1 (ko) 위치아이디를 이용한 유무선인터넷 기반의 위치정보공유방법
JP2005182400A (ja) 自然言語処理装置、方法、及びプログラム、並びに自然言語処理装置を搭載した携帯端末

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150728

Address after: Washington State

Applicant after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171010