CN103412861A - 基于知识的解析 - Google Patents

基于知识的解析 Download PDF

Info

Publication number
CN103412861A
CN103412861A CN2012104352975A CN201210435297A CN103412861A CN 103412861 A CN103412861 A CN 103412861A CN 2012104352975 A CN2012104352975 A CN 2012104352975A CN 201210435297 A CN201210435297 A CN 201210435297A CN 103412861 A CN103412861 A CN 103412861A
Authority
CN
China
Prior art keywords
group
lemma
word
territory
matching domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104352975A
Other languages
English (en)
Inventor
Y·奥林
E·齐克利克
G·诺维克
N·哈比
E·胡迪斯
M·拉维夫
J·I·玛尔卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN103412861A publication Critical patent/CN103412861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了基于知识的解析。本发明总体上涉及基于与未结构化数据有关的域的知识解析未结构化数据。域标识组件可标识与数据组中的项有关的一组域。检验组件可标识未匹配词语、和未匹配的有关的域。相关组件可将未匹配词语与未匹配域的已知值相比较,且管理组件可基于上述比较将未匹配词语与未匹配域相匹配。此外,可基于一组预定规则产生词语组合,并与未匹配域相比较。进一步,可采用基于定界符的解析来扩充该基于知识的解析。

Description

基于知识的解析
技术领域
本发明涉及数据组织,且更特定地涉及基于与该数据相关的知识解析非结构化数据。
背景技术
在数据质量与组织的域中,关于未结构化数据,存在广泛的困难。以使得数据对于特定过程有用的方式来组织并结构化未结构化数据已经成为特别困难的任务。未结构化的数据经常被封装在作为结构化和未结构化数据的混合的对象中。部分的困难在于未结构化数据可被封装入的不同形式,包括书、期刊、文档、元数据、健康记录、媒体、文件、和诸如电子邮件消息的本体、web页面、或文字处理文档之类的未结构化的文本、等。未结构化的数据源,依其本质,具有较大的不一致,且建立处理它们的统一方法被证明为是挑战性的。作为结果,目前市场上存在数种工具,可成功地将未结构化的数据转换为智能且可操作的数据。
存在日渐增长的意见认为,半结构化和未结构化的数据源包括期望用于商业、学术、智能、和操作努力(operational endeavors)的有用的信息。一些商业企业已经估计,大部分有用的商业信息源自半结构化或未结构化的形式。此外,数据增长被期待以快速继续,且未结构化数据的增长被期待远超结构化数据的增长。
当今技术的上述缺点仅旨在提供常规系统的某些问题的概览,并且不旨在是穷尽性的。常规系统的其他问题以及此处所描述的各非限制性实施例的对应的益处可以在审阅以下描述后变得更显而易见。
发明内容
此处提供了简化的发明内容以帮助能够对以下更详细的描述和附图中的示例性、非限制性实施例的各方面有基本或大体的理解。然而,本发明内容并不旨在是详尽的或穷尽的。相反,本发明的唯一目的在于,以简化的形式提出与一些示例性、非限制性实施例相关的一些概念,作为以下各实施例的更详细的描述的序言。
在一个或多个实施例中,提供了用于基于与未结构化数据相关域的知识来解析未结构化数据的系统与方法。据此,提供了一方法,其包括检验项、确定与该项相关的一组域、基于包括在该项中的一组未匹配的词语标识一组词元(word-gram)、将该组词元中的词元与一组域中至少一个未匹配域的一组已知域值比较、确定该词元处于该至少一个未匹配域的至少一个已知域值的预定阈值内、并响应于该词元处于至少一个已知域值的预定阈值内,将该词元与该至少一个未匹配域相关联。
在另一个实施例中,提供了一系统,包括域标识组件,被配置为确定与项相关的一组域、检查组件,被配置为检验项以及基于包括在该项中的一组未匹配的词语标识一组词元(word-gram)、相关组件,被配置为将该组词元中的词元和与该项相关的一组域中至少一个未匹配域的一组已知域值比较、并确定该词元处于一组已知域值中的至少一个已知域值的预定阈值内,以及管理组件,被配置为响应于该词元处于至少一个已知域值的预定阈值内,将该词元与该至少一个未匹配域相关联。
在又一个实施例中,提供了计算机可读存储介质,其包括计算机可读指令,响应于由计算系统的执行,该计算机可读指令使得包括至少一个处理器的计算设备来执行操作,包括检验数据组、标识该数据组中的一组项、标识该一组项中的一个项的一组词语、标识该组词语中的一组未匹配的词语,其中未匹配的词语没有相关联于域、确定与该项相关的一组域、确定包括在这一组域中的一组未匹配的域,其中未匹配的域没有相关联于一组词语中的词语,响应于存在一组未匹配的词语和一组未匹配的域,基于该组未匹配的词语产生一组词元,将该组词元中的词元与该组未匹配域中至少一个未匹配域的一组域值比较、将该词元与一组已知域值中的至少一个已知域值相匹配、并将该词元与该至少一个未匹配域相关联。
以下更详细地描述其他实施例和各非限制性性示例、场景和实现。
附图说明
参考附图进一步描述各非限制性实施例,在附图中:
图1示出可基于知识解析数据的示例性非限制性系统的框图;
图2示出可基于知识解析数据的示例性非限制性系统的框图;
图3示出可基于知识解析数据的示例性非限制性系统的框图;
图4示出采用基于知识和定界符的解析的示例性非限制性系统的框图;
图5示出示例性的基于知识的解析的图形化表示;
图6示出示例性的基于知识的解析的图形化表示;
图7示出示例性的基于知识和定界符的解析的图形化表示;
图8示出示例性的基于知识和定界符的解析的图形化表示;
图9示出提供与基于知识的解析相关的附加特征或方面的示例性非限制性系统的框图;
图10示出基于知识和定界符的解析的示例性非限制性流程图;
图11-14示出合成的基于知识和定界符的解析的示例性非限制性流程图;
图15是表示其中可实现在此处所述的各个实施例的示例性、非限制性联网环境的框图;以及
图16是表示其中可实现此处所述的各个实施例的一个或多个方面的示例性、非限制性计算系统或操作环境的框图。
具体实施方式
概览
以介绍的方式,此处公开的主题涉及与基于知识的解析相关的各实施例。特定地,该主题可提供用于确定与数据源相关联的一组域、或语义数据类型的机制。数据源中包括的未结构化、或半结构化的项,可被标识,且可标识在没有与一组域中的域相关联的未结构化的项中的词语(未匹配的词语)。此外,可标识没有与项中的词语相匹配的一组域中的域(未匹配的域)。可将未匹配的词语与未匹配域的已知值相关,来确定匹配。
此外,所公开的主题的各方面可产生未匹配的词语、或词元的组合。词元可被相关于未匹配的域来确定是否存在与未匹配域相匹配的未匹配的词语的组合。另外,所公开的主题的各方面可提供使用定界符或预定规则来匹配未匹配的词语和未匹配的域。
对数据解析的介绍
此处公开的特定主题涉及解析未结构化或半结构化的数据。相应地,与数据解析相关联的示例可有助于理解本发明的一些方面、特征、或实施例。
解析数据是拆分数据源、并将数据源的各部分分配至各域。一般,基于定界符完成数据解析,定界符诸如逗号分隔值(CSV)。此外,经常基于出现在数据源中的对象的顺序来完成解析。基于知识的解析是基于知识来解析数据的能力,而不仅基于定界符或顺序。当数据源包含被映射至合成域的复杂数据时,解析是特别相关的,且解析能清洗数据。
基于知识的解析
现在参看附图,一开始参看图1,根据此处描述的各方面示出了可基于知识解析数据的系统100。一般而言,系统100可包括基于知识的解析组件102,其与此处描述的所有组件一样可被存储于计算机可读存储介质中。基于知识的解析组件102被配置为检查、分析、或以其它方式检验未结构化数据组104A。未结构化数据组104A可包括但不限于,数据集合或数据汇编,诸如书、文档、元数据、记录、媒体、文件、通信、web页面、等。进一步,未结构化数据组104A可包括一组项,其中项包括一组词语,包括但不限于字符串、字符、数字、等。包括在一组词语中的未匹配词语的子集,可包括不具有预定数据模型(如,数据结构)的词语。
基于知识的解析组件102进一步被配置为确定与项相关的一组域(如,语义数据类型)、并确定包括在这一组域中的未匹配域的子集,它们没有相关联于一组词语中的至少一个词语。进一步,基于知识的解析组件可将未匹配词语子集与未匹配域子集的一组已知值相比较,并基于与一组已知值的比较将未匹配词语子集中的词语与未匹配域子集中的未匹配域相匹配。例如,地址域可与未结构化数据组104A中的项相关。基于知识的解析组件102可将包括在项中的未匹配词语、和未匹配词语的组合,与相关于地址的一组已知值(如,地址域)相比较,诸如街道名、街道号码等,并基于与该组已知值的比较将该项中的一个或多个未匹配词语与该地址域相匹配。
要了解的是,未结构化数据组104A、和结构化数据组104B可以是全不相同的,如所示,或在实际中是相关的。例如,基于知识的解析组件102可将未结构化数据组104A转换为结构化数据组104B。要进一步理解的是,有关已知域的一组已知值可在多个位置被维护,包括但不限于,数据存储106、或基于云的存储。
转向图2,根据此处描述的各方面示出可基于知识解析数据的系统200。基于知识的解析组件102包括域标识组件202、检验组件204、相关组件206、管理组件208、和接口组件210。如上所述,基于知识的解析组件102被配置为检查、分析、或以其它方式检验未结构化数据组104A,并生成结构化数据组104B。如上所讨论的,未结构化数据组104A可含有一组项。项包括一组词语,且可以是未结构化的、结构化的、或半结构化的。
域标识组件202被配置为确定与未结构化数据组104A中的项相关的一组域,并确定包括在这一组域中的未匹配域子集,它们没有相关联于项中的至少一个词语。域标识组件202可基于之前的知识、未结构化数据组104A中所包括的信息确定一组域,或者可基于对未结构化数据组104A的检验动态地确定一组已知域。
检验组件204被配置为标识项中的一组词语,并确定包括在一组词语中的未匹配词语子集,它们没有相关联于一组域中的至少一个域(如,未结构化的词语)。检验组件进一步被配置为基于未匹配词语子集标识一组词元(如,词语的组合)。例如,检验组件204可确定未结构化数据组104A中的项包括四个词语,其中这四个词语中的三个不相关联于一组已知域中的域。检验组件204可基于包括在未结构化数据组104A中的这三个未相关联的词语,标识例如六个词元(参看图5-8更详细讨论)。
相关组件206被配置为将由检验组件204所标识的一组词元与一组域的一组已知域值相比较。例如,与项有关的一个域可能是女性名字域,且与女性名字域有关的一组已知域值可包括一组常见女性名字。相关组件206可将一组词元与这组常见女性名字比较,从而确定这组词元中的词元是否与这组常见女性名字中的名字(如,值)相匹配。
管理组件208被配置为基于由相关组件执行的比较,将词元相关联于匹配的域。继续之前的示例,如果这组词元包括“Thursday(星期四)”、“Ohio(俄亥俄州)”、和“Courtney(考特尼)”,如果相关组件206确定“Courtney”与一组已知域值中的常见女性名字相匹配,则管理组件208可将“Courtney”相关联于女性名字域。管理组件208可被进一步配置为将由关联组件206确定的第一匹配词元相关联于该域。此外,管理组件可指令相关组件206停止将词元与域进行比较。例如,如果相关组件206确定“Courtney”匹配常见女性名字,则管理组件208将“Courtney”相关联于女性名字域,并指令相关组件206停止将其余词元(如,“Thursday”和“Ohio”)与女性名字域相比较。
接口组件210包括任何合适和/或有用的适配器、连接器、通道、通信路径等来将该系统200虚拟地结合到任何操作和/或数据库系统(多个)中。另外,接口组件210可提供各种适配器、连接器、通道、通信路径等,其提供与系统200的交互。要理解,尽管接口组件210被图示为被结合到基于知识的解析组件102中,但这一实现并不限于此。例如,接口组件210可以是接收或发送与系统200有关的数据的独立组件。具体而言,接口组件210可接收与基于知识的解析有关的任何数据。
图3示出根据此处描述的各方面的可基于知识解析数据的系统300。如参看图2所描述,基于知识的解析组件102被配置为检查、分析、或以其它方式检验未结构化数据组104A,并生成结构化数据组104B。基于知识的解析组件102包括域标识组件202、检验组件204、相关组件206、管理组件208、和接口组件210。
如之前所讨论的,检验组件204被配置为标识未结构化数据组104A中的项中的一组词语、确定该组词语中未相关联于一组域中的域的未匹配词语子集、并基于该词语子集来标识一组词元。检验组件204可包括词语解析组件302、和词元组件304。
词语解析组件302被配置为标识未结构化数据组104A中的项,并将该项分开(divide)、划分(separate)、或解析成一组词语。要理解,该组词语可包括但不限于字符串、字符、数字等。例如,项可以是“123 Anywhere TownIsrael(123任何地点城镇以色列)”,且词语解析组件302可将该项解析为四个独立词语“123”、“Anywhere”、“Town”、和“Israel”。词语解析组件302可基于定界符,诸如空格、逗号等来解析项,或可基于一组预定规则来解析该项。例如,词语解析组件302可包括一规则,该规则表示在给定数据组中,句号被用于划分项中的词语,且词语解析组件302可基于句号的标识来解析项。
如上文所讨论的,域标识组件202被配置为确定与未结构化数据组104A中的项有关的一组域,且检验组件204被配置为确定不相关联于一组域中的域的未匹配词语子集。词元组件304被配置为,基于未匹配词语的子集,来标识、确定、或以其它方式产生一组词元。词元可包括基于一组预定规则的未匹配词语的排列或组合。例如,词元组件304可确定词语子集中的词语的量S,其中S是大于或等于一的整数,且通过组合包括在未匹配词语子集中的词语来产生具有长度S、S-1,...,1的词元,同时维持它们在项中相对于彼此的从左到右的顺序。转回前一个示例,对于项“123 Anywhere Town Israel”,词元组件304可确定S等于四,并对于S、S-1、S-2、和S-3产生词元组,如表1中所示。
Figure BDA00002351054900071
-表1
要理解,上述仅是一组预定规则的一个示例,且词元组件304可基于多个规则产生词元组,例如,产生包括在未匹配词语子集中的词语的所有可能的组合或排列。此外,如果项包含在从右到左阅读的语言中出现的词语,则词元组件304可产生词元同时维持词语在项中相对彼此的从右到左的顺序。
如之前所讨论的,相关组件206被配置为将词元组与一组未匹配域的一组已知域值相比较。例如,一组已知域值可包括城市域的一组城市名、名字域的一组人名、源域的一组程序,等。相关组件206可包括阈值组件306,其被配置为确定该组词元中的词元是否在已知域值的预定阈值中。例如,女性名字域可包括在未结构化数据组104A中,且“Cortney”可以是从未结构化数据组104A中的项所产生的词元。阈值组件306可确定“Cortney”在已知女性名字域值“Courtney”的预定阈值中。阈值组件306可基于多个因素确定该词元在该预定阈值中,多个因素包括但不限于文本分析、语言类似性、语义、语法、和/或字符串匹配。
管理组件208被配置为将处于已知域值的预定阈值中的词元与对应于已知域值的域相匹配或关联。继续前一个示例,响应于阈值组件306确定“Cortney”在“Courtney”的预定阈值内,管理组件208可将“Cortney”相关联于女性名字域。管理组件208可被进一步配置为确定是否有多于一个词元在已知域的预定阈值内,并将具有最长长度(S)的词元相关联于该已知域。附加地或可选地,管理组件208可将具有最高匹配的词元相关联于该已知域。
此外,管理组件208可包括触发组件308,其被配置为确定未匹配词语子集中的词语是否不在一组未匹配域的至少一个已知域值的预定阈值内,且将该词语包括在一组未匹配词语中(如,剩余物(leftover))。触发组件308可进一步被配置为确定未匹配词语子集中没有至少一个词语落在一组未匹配域中的域的一组已知值的预定阈值内,且可将该组域中的域包括在一组未匹配域中。此外,触发组件308可进一步被配置为对于该组未匹配词语和/或该组未匹配域触发基于定界符的解析(将参看图4-8详细讨论)。
参看图4,根据此处讨论的各方面示出采用基于知识和定界符的解析的系统400。合成域词例化器402包括基于知识的解析组件102、和基于定界符的解析组件404。如之前所讨论的,基于知识的解析组件102被配置为确定与未结构化数据组104A中的项有关的一组域、标识包括在该项中的一组未匹配词语、产生一组未匹配词语的一组词元、将该词元与一组域中的域的已知值比较、并将落在已知值的预定阈值中的词元相关联于相应的域。如上文所讨论的,基于知识的解析组件102可对于一组未匹配词语、或未匹配域,触发基于定界符的解析。
基于定界符的解析组件404被配置为将一组未匹配词语中的词语与一组域中的域相关联,并将一组未匹配域中的域与值相关联。基于定界符的解析组件404包括顺序组件406。顺序组件406被配置为确定在一组未匹配词语中有至少一个未匹配词语、以及在一组域中有至少一个未匹配域。响应于在一组未匹配词语中有至少一个未匹配词语、和在一组域中有至少一个未匹配域,顺序组件406被配置为基于未匹配词语在项中相对于彼此的顺序来解析这一组未匹配域。例如,顺序组件406可开始于最左边的未匹配词语,将其与下一个未匹配域相匹配,并顺序地重复将未匹配词语与未匹配域匹配,直到一组未匹配词语为空、或者一组未匹配域为空为止。
基于定界符的解析组件可进一步包括填充组件408,其被配置为确定在一组未匹配词语中没有未匹配词语、且在一组域中有至少一个未匹配域。响应于在一组未匹配词语中没有剩下至少一个未匹配词语、且在一组域中存在至少一个未匹配域,填充组件408被配置为将预定值与一组未匹配域中的域相关联。例如,填充组件408可将空值与包括在一组未匹配域中的域相关联。
进一步,基于定界符的解析组件404可包括追加组件410。追加组件410被配置为确定在一组未匹配词语中有至少一个未匹配词语、以及在一组域中没有至少一个未匹配域。响应于在一组未匹配词语中有至少一个未匹配词语、且在一组域中没有至少一个未匹配域,追加组件410被进一步配置为将未匹配词语添附到在该项中位于在该项中的该未匹配词语的左边的与域相关联的词语(如,匹配词语)。进一步,如果在该项中没有位于未匹配词语的左边的匹配词语,则追加组件410可将未匹配词语添附到在该项中位于未匹配词语的右侧的匹配词语。要理解的是上述代表了基于定界符解析的一些示例,且基于定界符解析的附加技术可落在本申请的范围内。
图5示出根据本文所述的各方面的基于知识的解析的示例。如所示,未结构化项502可以是“Anywhere Town Israel(任何地点 城镇 以色列)”,且可确定与该项502有关的一组域504。例如,一组域504可包括街道域504、城市域508、和国家域510。未结构化项502包括3个词语(如,“Anywhere”、“Town”和“Israel”)。如上所述,对于项502,S等于3,且可对于项502产生长度S、S-1、和S-2的词元,如表2中所示。
Figure BDA00002351054900101
-表2
处于域的已知值的预定阈值中的词元可相关联于该域。例如,对于国家域510,一组已知值可包括一组国家名。对于项502的一组词元中的词元(见表2)可被与一组公认的国家相比较,且可确定“Israel”落在一组国家名中的国家的预定阈值中,且可被相关联于国家域510。类似地,“Anywhere”可被相关联于街道域506,且“Town”可被相关联于城市域508。在上述示例中,在基于知识的解析后,项502没有包含未匹配词语,且一组域504没有包含未匹配域。因此,基于定界符的解析未被触发。
图6示出根据本文所述的各方面的基于知识的解析的示例。如所示,未结构化项602可以是“123 Anywhere Street Town Israel(123任何地点街道 城镇以色列)”,且可确定与该未结构化项602有关的一组域604。例如,一组域604可包括街道域606、城市域608、和国家域610。未结构化项602包括5个词语(如,“123”、“Anywhere”、“Street”、“Town”和“Israel”)。如上所述,对于项602,S等于5,且可对于未结构化项602产生长度S、S-1、S-2、S-3、和S-4的词元,如表3中所示。
Figure BDA00002351054900102
-表3
如上所讨论地,处于域的已知值的预定阈值中的词元可相关联于该域。例如,对于街道域606,一组已知值可包括一组街道地址。对于未结构化项602的一组词元中的词元(见表2)可被与一组公认的国家相比较,且可确定“123Anywhere Street”落在一组公认的街道地址中的街道地址的预定阈值中,且可被相关联于街道域606。如上所讨论地,如果“123 Anywhere Street”是落在预定阈值中具有最长长度(S)的词元,则其可被相关联于街道域606,替代那些也可落在预定阈值中的附加词元,诸如“123 Anywhere”、“Anywhere St.”、“123”、“Anywhere”或“Street”。附加地或可选地,具有与街道域606最高匹配的词元可被相关联于街道域606。在上述示例中,在基于知识的解析后,项602没有包含未匹配词语,且一组域604没有包含未匹配域。因此,基于定界符的解析未被触发。
现在转向图7,根据此处描述的各方面示出合成的基于知识和定界符解析的示例。如所示,未结构化项702可以是“Town Israel(城镇 以色列)”,且可确定与该未结构化项702有关的一组域704。例如,一组域704可包括街道域706、城市域708、和国家域710。未结构化项702包括2个词语(如,“Town”和“Israel”)。如上所述,对于项702,S等于2,且可对于未结构化项702产生长度S、S-1、的词元,如表4中所示。
Figure BDA00002351054900111
-表4
如上所讨论地,处于域的已知值的预定阈值中的词元可相关联于该域。因此,“Town”可被相关联于城市域708,且“Israel”可被相关联于国家域710。在上述示例中,在基于知识的解析后,在未结构化项702中没有未匹配词语,不过在一组域704中有未匹配域(如,街道域706)。因此,基于定界符的解析可被触发。如上所讨论地,响应于在未结构化项702中没有未匹配词语、且在一组域704中有未匹配域,则未匹配域可被用预定值填充,诸如空值。
转向图8,示出的是根据此处描述的各方面的合成的基于知识和定界符解析的示例。如所示,未结构化项802可以是“123ANYW TOWN NORTHISRAEL(123任何地点 城镇 北 以色列)”,且可确定与该未结构化项802相关联的一组域804。例如,一组域804可包括街道域806、城市域808、和国家域810。未结构化项802包括4个词语(如,“123Anyw”、“Town”、“North”、和“Israel”)。如上所述,对于项802,S等于4,且可对于未结构化项802产生长度S、S-3、S-2、和S-1的词元,如表5中所示。
-表5
如上所讨论地,处于域的已知值的预定阈值中的词元可相关联于该域。因此,“Town”可被相关联于城市域808,且“Israel”可被相关联于国家域810。在这个示例中,在一组词语中的两个单词,“123Anyw”和“North”,可不位于域的已知值的预定阈值中。例如,词语“123Anyw”和“North”可能是不正确的数据输入的结果。在上述示例中,在基于知识的解析后,在未结构化项802中有两个未匹配词语(如,“123Anyw”和“North”),且在一组域804中有未匹配域(如,街道域806)。因此,基于定界符的解析可被触发。如上所讨论地,响应于在未结构化项802中有未匹配词语、且在一组域804中有未匹配域,则第一个未匹配词语“123Anyw”可被相关联于第一个未匹配域,即街道域806。此后,在未结构化项802中有一个未匹配词语(如,“North”),且在一组域804中没有未匹配域。响应于有未匹配词语、且没有任何未匹配域,则该未匹配词语被追加或添附至在未结构化项802中位于该未匹配词语左边的词语。如所示,在未匹配词语左边的、与域匹配的词语是“Town”。因此,“North”被添附至“Town”,且也被与城市域808相关联。
现在参看图9,示出了可提供用于或有助于各种推断或智能确定的系统900。一般而言,系统900可包括如此处大体描述的域标识组件202、检验组件204、相关组件206、和管理组件208的全部或一部分。除了已经描述的之外,上述组件可作出智能确定或推断。例如,域标识组件202可智能地确定或推断与未结构化数据组104A相关联的一组域。
类似地,检验组件204也可采用智能确定或推断相关联于产生一组词元。此外,相关组件206可智能地将一组词元与一组已知域值相比较,并确定词元是否落在已知域值的预定阈值内。进一步,管理组件208可智能地将词元与匹配域相关联。上述任何推断可潜在地基于,如贝叶斯概率或置信度量、或基于与历史分析、反馈、和/或其他确定或推断相关的机器学习技术。
此外,系统900还可以包括可以用于或有助于进行各种推断或判断的智能组件902。特定地,根据或附加于上文已经描述的相关于由此处描述的各组件提供的智能确定或推断。例如,域标识组件202、检验组件204、相关组件206、和管理组件208的全部或一部分(还有此处描述的其他组件)可操作地耦合至智能组件902。另选地或另外地,智能组件902的全部或某些部分可以包括在此处所描述的一个或多个组件中。另外,智能组件902一般可访问此处描述的数据组的全部或一部分,诸如数据存储110。
因此,为了用于或有助于此处所描述的很多推断,智能组件902可以检查可用的数据的全部或其子集,并可以通过经由事件和/或数据捕捉到的一组观察结果来推理或推断出系统、环境和/或用户的状态。推断可用来标识特定上下文或动作,也可以生成例如状态上的概率分布。推断可以是概率性的,即,基于对数据和事件的考虑,计算在感兴趣状态上的概率分布。推断也可以是指用于从一组事件和/或数据构成较高级别的事件的技术。
这类推断可导致从一组观察到的事件和/或储存的事件数据中构造新的事件或动作,而无论事件是否在相邻时间上相关,也无论事件和数据是来自一个还是若干个事件和数据源。可以与结合所要求保护的主题执行的自动和/或推断操作相结合地使用各种分类(显式地和/或隐式地训练的)方案和/或系统(例如,支持向量机、神经网络、专家系统、贝叶斯信任网络、模糊逻辑、数据融合引擎,等等)。
分类器可以是将输入属性矢量x=(x1,x2,x3,x4,xn)映射到该输入属于一个类的置信度的函数,即f(x)=confidence(class)。这样的分类可以使用基于概率和/或统计的分析(例如,分解成分析效用和成本)来预测或推断用户希望自动地执行的动作。支持矢量机(SVM)是可以使用的分类器的一个示例。SVM通过发现可能的输入的空间中的超表面来操作,其中超表面试图将触发准则与非触发事件分离。直观地,这使得分类可以校正近乎与训练数据接近但又不完全相同的测试数据。可采用其它定向和非定向模型分类方法,包括,例如,朴素贝叶斯、贝叶斯网络、决策树、神经网络、模糊逻辑模型以及提供不同独立性模式的概率分类模型。如这里所使用的分类还包括被用来开发优先级模型的统计回归。
考虑到以上描述的示例性系统,参考图10-14的流程图将可更好地理解依照所公开的主题实现的方法。尽管为了说明简洁起见,按照一系列框示出和描述了方法,但是,应该理解和知道,所要求保护的主题不限于框的顺序,因为一些框可以按与此处所描绘和描述的不同的顺序进行和/或与其他框并发地进行。此外,并非全部所示出的框都是实现下面所描述的方法所必需的。
现在转向图10,示出的是根据此处描述的各方面的基于知识解析的示例性方法1000。一般而言,在附图标记1002,可检验项,且可标识该项中的一组未匹配词语。未匹配词语是未与域(如,语义数据类型)相关联的词语。要理解的是该项可以是结构化的、未结构化的、或半结构化的,如上文所述。
在附图标记1004,可确定与该项有关的一组域。可基于之前的知识、包括在未结构化数据组中的信息确定一组域,或可动态地确定一组域。例如,可确定该项是合成的地址域,且可确定一组三个域(如,子域)与该项相关联。一组三个域可包括街道域、城市域、和国家域。
在附图标记1006,包括在该项中的未匹配词语,和这些词语的组合(如,词元),可被与一组域中的域的已知值相比较。转向之前的示例,城市域的一组已知值可包括一组城市名,且未匹配词语、和词元可被与这一组城市名相比较。可基于一组预定规则或准则来确定、标识、或以其它方式产生词元。例如,预定规则可指定,在生成词语组合时维持在项中词语相对彼此的顺序。
在附图标记1008,词语、和词元被与匹配的域相关联。匹配域是,词语、或词元落在该域的已知值的预定阈值中的那个域。回到之前的示例,如果项中的词语是“Cleveland”,则它可落在城市域的已知值(如,Cleveland)的预定阈值中,且“Cleveland”可被相关联于城市域。
在附图标记1010,如果存在未匹配词语或未匹配域,则采用基于定界符的解析。例如,可基于顺序将未匹配词语与未匹配域相匹配、未匹配词语可和与域相关联的相邻词语的域相关联、和/或未匹配域可被填充预定值,诸如,空值。
图11-14一起图示出根据此处描述的各方面的基于知识的解析的方法的示例。现在先参看图11,一般而言,在附图标记1102,存在未结构化、或部分未结构化的项。该项包括一组词语,其中该词语可包括字符串、字符、数字、等。该项是未结构化的,假设在该项中未匹配词语(如,未相关联于域)的量W大于零,且未匹配域(如,未相关联于词语)的域的量D大于零。
在附图标记1104,词元长度S被设为项中未匹配词语的数量W。在附图标记1106,判定词元长度S是否等于零。如果词元长度S不等于零(在附图标记1106处的N(否)),则在附图标记1108,可通过将该项拆分为长度为S的词元来产生一组词元。例如,如果S等于四且该项包含四个词语,则该项可被拆分为具有长度为四的词元,如表1中所示。在附图标记1110,在附图标记1108产生的一组词元中所包括的词元被与未匹配域D的一组已知值相比较。
在附图标记1112,判定该组词元中的一词元是否与未匹配域相匹配。如果没有发现匹配(附图标记1112处的N),则在附图标记1114处,S被设为S减一,且该方法返回至附图标记1106。如果发现匹配(附图标记1112处的Y(是)),则该方法继续至附图标记1202(见图12)。返回附图标记1106,如果词元长度S等于零,则在附图标记1116不可能有匹配,且该方法继续至附图标记1302(见图13)。
现在参看图12,在附图标记1202,响应于在附图标记1112找到了匹配,该词元被匹配至该域,且该域被标记为已匹配。在附图标记1204,判定匹配是否已经穷尽。如果未匹配域的量D等于零、或未匹配词语的量W等于零,则匹配已经穷尽。如果匹配还没有穷尽(附图标记1204处的N),则在附图标记1206,判定是否还有任何剩余的长度为S的词元。如果没有剩余的长度为S的词元(附图标记1206处的N),则在1208,S被设为S减一,且该方法返回至附图标记1106。
返回附图标记1204,如果匹配已经被穷尽(附图比较1204处的Y),则该方法继续至1302(见图13)。返回至附图标记1206,如果存在剩余的长度为S的词元(附图标记1206处的Y),则该方法返回至附图标记1110。
现在参看图13,在1302,判定是否存在未匹配域。在附图标记1302,如果不存在未匹配域(在附图标记1302处的N),则判定是否存在剩余物(leftover)。如果词语没有与至少一个未匹配域的至少一个已知值相匹配,则该词语被归类为剩余物。在附图标记1306,存在剩余物(附图标记1304处的Y)且不存在未匹配域(附图标记1302处的N),则在附图标记1308,剩余物被追加、粘贴、或后缀至在项中相邻于该剩余物左边的词语。例如,如果项包括“Ohio Thursday Courtney(俄亥俄州星期四考特尼)”,且词语“Ohio”和“Courtney”被匹配至域,且“Thursday”是剩余物,则“Thursday”可被追加至“Ohio”,因为“Ohio”在该项中相邻于“Thursday”左边。在将剩余物追加至位于左边的已匹配的域之后,则在附图标记1310,不存在剩余物、不存在未匹配域,则该项已经被结构化。
返回至附图标记1302,如果存在未匹配域(在附图标记1302处的Y),则该方法继续至附图标记1402(见图14)。返回附图标记1304,如果不存在剩余物(附图标记1304处的N),则在附图标记1310,没有剩余物、没有未匹配域,则该项已经被结构化。
现在参看图14,在附图标记1402,判定是否还存在剩余物词语。如之前所讨论地,如果词语没有与至少一个未匹配域的至少一个已知值相匹配,则该词语可被归类为剩余物。在附图标记1404,如果存在剩余物(附图标记1402的Y)、且存在未匹配域(附图标记1302的Y),则在附图标记1406,未匹配词语和未匹配域可被基于顺序地解析。例如,最左边的未匹配词语可被与最左边的未匹配域相匹配,直到不存在未匹配词语或未匹配域为止。当不存在未匹配词语或未匹配域时,该方法返回至附图标记1302。
返回至附图标记1402,如果不存在剩余物(在附图标记1402处的N),则该方法继续至附图标记1408。在附图标记1408,存在未匹配域(在附图标记1302处的Y),且在附图标记1410,空项被分配至该未匹配域,且该方法返回至附图标记1310。
示例性联网以及分布式环境
本领域技术人员可以理解,此处描述的用于动态代码生成和COM对象的存储器管理的各实施例可结合任何计算机或其它客户机或服务器设备来实现,其可被部署为计算机网络的部分或在分布式计算环境中,并且可以被连接到任何类型的数据存储。在这一点上,此处描述的各实施例可在具有任何数量的存储器或存储单元的、并且任何数量的应用和进程跨任何数量的存储单元发生的任何计算机系统或环境中实现。这包括但不限于具有部署在具有远程或本地存储的网络环境或分布式计算环境中的服务器计算机和客户机计算机的环境。
分布式计算通过计算设备和系统之间的通信交换提供了计算机资源和服务的共享。这些资源和服务包括信息的交换、对于诸如文件等对象的高速缓存存储和盘存储。这些资源和服务还包括多个处理单元之间的处理能力共享以便进行负载平衡、资源扩展、处理专门化,等等。分布式计算利用网络连接,从而允许客户机利用它们的集体力量来使整个企业受益。就此,各种设备可具有可如参考本发明的各实施例描述地参与用于动态代码生成和COM对象的存储器管理的机制的应用、对象或资源。
图15提供了示例性的联网或分布式计算环境的示意图。该分布式计算环境包括计算对象1510、1512等以及计算对象或设备1520、1522、1524、1526、1528等,这些计算对象或设备可包括如由应用1530、1532、1534、1536、1538和数据存储1540表示的程序、方法、数据存储、可编程逻辑等。可以理解,计算对象1510、1512等以及计算对象或设备1520、1522、1524、1526、1528等可包括不同的设备,诸如个人数字助理(PDA)、音频/视频设备、移动电话、MP3播放器、个人计算机、膝上型计算机等。
每个计算对象1510、1512等以及计算对象或设备1520、1522、1524、1526、1528等可经由通信网络1542直接或间接地与一个或多个其他计算对象1510、1512等以及计算对象或设备1520、1522、1524、1526、1528等通信。即使在图15中被示为单个元件,但通信网络1542可包括向图15的系统提供服务的其他计算对象或计算设备,和/或可表示多个互连网络(未示出)。每个计算对象1510、1512等或计算对象或设备1520、1522、1524、1526、1528等还可以含有应用,诸如可以利用API或其他对象、软件、固件和/或硬件的、适于实现或与根据本发明各实施例所提供用于动态代码生成和COM对象的存储器管理的技术进行通信的应用1530、1532、1534、1536、1538。
存在支持分布式计算环境的各种系统、组件和网络配置。例如,计算系统可由有线或无线系统、本地网络或广泛分布的网络连接在一起。当前,许多网络被耦合至因特网,后者为广泛分布的计算提供了基础结构并包含许多不同的网络,但任何网络基础结构都可用于便于与如各实施例中所描述的用于动态代码生成和COM对象的存储器管理的系统的示例性通信。
由此,可使用诸如客户机/服务器、对等、或混合体系结构之类的网络拓扑结构和网络基础结构的主机。“客户机”是使用与它无关的另一类或组的服务的一个类或组中的成员。客户机可以是进程,即大致上是请求由另一程序或进程提供的服务的一组指令或任务。客户机进程利用所请求的服务,而不必“知道”有关其他程序或服务本身的任何工作细节。
在客户机/服务器体系结构中,尤其在联网系统中,客户机通常是访问另一计算机(例如,服务器)所提供的共享网络资源的计算机。在图15的图示中,作为非限制性示例,计算对象或设备1520、1522、1524、1526、1528等可被认为是客户机而计算对象1510、1512等可被认为是服务器,其中计算对象1510、1512等担当提供数据服务的服务器,诸如从客户机计算对象或设备1520、1522、1524、1526、1528等接收数据、存储数据、处理数据、向客户机计算对象或设备1520、1522、1524、1526、1528发送数据等,但任何计算机都可取决于环境而被认为是客户机、服务器或两者。
服务器通常是可通过诸如因特网或无线网络基础结构之类的远程网络或本地网络访问的远程计算机系统。客户机进程可在第一计算机系统中活动,而服务器进程可在第二计算机系统中活动,它们通过通信介质相互通信,由此提供分布式功能并允许多个客户机利用服务器的信息收集能力。按照此处所描述的技术来利用的任何软件对象可以被单独提供或分布在多个计算设备或对象上。
在其中通信网络1542或总线例如是因特网的网络环境中,计算对象1510、1512等可以是其他计算对象或设备1520、1522、1524、1526、1528等通过诸如超文本传输协议(HTTP)等多种已知协议中的任一种与其通信的web服务器。担当服务器的计算对象1510、1512等还可用作客户机,例如计算对象或设备1520、1522、1524、1526、1528等,这是分布式计算环境的特性。
示例性计算设备
如上所述,有利的是,此处所描述的技术可适用于期望在计算系统中执行动态代码生成和COM对象的存储器管理的任何设备。因此,可以理解,构想了结合各实施例使用的所有种类的手持式、便携式和其他计算设备和计算对象,即,在设备的资源使用可理想地优化的任何地方。因此,以下在图16中所述的通用远程计算机只是计算设备的一个示例。
尽管并非所需,但各实施例可部分地经由操作系统来实现,以供设备或对象的服务开发者使用和/或被包括在用于执行此处所述的各实施例的一个或多个功能方面的应用软件内。软件可以在由诸如客户端工作站、服务器或其他设备等一个或多个计算机执行的诸如程序模块等计算机可执行指令的通用上下文中描述。本领域的技术人员可以理解,计算机系统具有可用于传递数据的各种配置和协议,并且由此没有特定配置或协议应当被认为是限制性的。
图16由此示出了其中可实现本文所述的各实施例的一个或多个方面的合适的计算系统环境1600的一个示例,尽管如上所述,计算系统环境1600仅为合适的计算环境的一个示例,并非旨在对使用范围或功能提出任何限制。也不应当将计算系统环境1600解释为对在示例性计算系统环境1600中所示的组件中的任何一个或其组合有任何依赖或要求。
参考图16,用于实现一个或多个实施例的示例性远程设备包括计算机1610形式的通用计算设备。计算机1610的组件可包括,但不限于,处理单元1620、系统存储器1630、以及将包括系统存储器的各种系统组件耦合到处理单元1620的系统总线1622。
计算机1610通常包括各种计算机可读介质,并且可以是可由计算机1610访问的任何可用介质。系统存储器1630可包括诸如只读存储器(ROM)和/或随机存取存储器(RAM)之类的易失性和/或非易失性存储器形式的计算机存储介质。作为示例而非限制,系统存储器1630还可包括操作系统、应用程序、其他程序模块、以及程序数据。根据另一示例,计算机1610还可以包括各种其他介质(未示出),可以包括,但不限于,RAM,、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备或可用于存储所需信息的其他有形的和/或非瞬时介质。
用户可通过输入设备1640向计算机1610输入命令和信息。监视器或其他类型的显示设备也经由诸如输出接口1650之类的接口连接到系统总线1622。除监视器以外,计算机还可包括诸如扬声器和打印机之类的其他外围输出设备,它们可通过输出接口1650连接。
计算机1610可使用到一个或多个其他远程计算机(诸如远程计算机1670)的诸如网络接口1660的逻辑连接在联网或分布式环境中操作。远程计算机1670可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见网络节点、或者任何其他远程媒体消费或传输设备,并且可包括以上关于计算机1610所述的任何或全部元件。图16所示的逻辑连接包括诸如局域网(LAN)或广域网(WAN)之类的网络1672,但也可包括其他网络/总线。这些联网环境在家庭、办公室、企业范围的计算机网络、内联网和因特网中是常见的。
如上所述,尽管结合各种计算设备和网络体系结构描述了各示例性实施例,但底层概念可被应用于任何网络系统和任何计算设备或系统。
此外,存在实现相同或相似功能的多种方法,例如适当的API、工具箱、驱动程序代码、操作系统、控件、独立或可下载软件对象等,它们使得应用和服务能够使用此处提供的技术。由此,此处的各实施例从API(或其他软件对象)的观点以及从实现如此处描述的一个或多个实施例的软件或硬件对象构想。由此,此处所述的各实施例可具有完全采用硬件、部分采用硬件并且部分采用软件、以及采用软件的方面。
本文中所使用的词语“示例性”意味着用作示例、实例、或说明。为避免疑惑,本文所公开的主题不限于这些示例。另外,在此所述的被描述为“示例性”的任意方面或设计并不一定要被解释为相比其它方面或设计更优选或有利。此外,在使用术语“包括”、“具有”、“包含”和其他类似词语的程度上,为避免疑惑,这些术语旨在以类似于术语“包括”作为开放的过渡词的方式是包含性的而不排除任何附加或其他元素。
如所述的,此处所述的各种技术可结合硬件或软件或,在适当时,以两者的组合来实现。如此处所使用的,术语“组件”、“系统”等同样旨在指计算机相关实体,或者是硬件、硬件和软件的组合、软件或者是执行中的软件。例如,组件可以是,但不限于是,在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和/或计算机。作为说明,在计算机上运行的应用和计算机都可以是组件。一个或多个组件可以驻留在进程和/或执行线程中,并且组件可以位于一个计算机内和/或分布在两个或更多计算机之间。
如前所述的系统已经参考若干组件之间的交互来描述。可以理解,这些系统和组件可包括组件或指定的子组件、某些指定的组件或子组件和/或附加的组件,并且根据上述内容的各种置换和组合。子组件还可作为通信地耦合到其他组件的组件来实现,而不是被包括在父组件内(层次性)。另外,应注意到一个或多个组件可被组合成提供聚集功能的单个组件,或被分成若干单独的子组件,且诸如管理层等任何一个或多个中间层可被设置成通信耦合到这样的子组件以便提供集成功能。此处所述的任何组件也可与一个或多个此处未专门描述的但本领域技术人员一般已知的其他组件进行交互。
鉴于以上所述的示例性系统,参考各附图的流程图还可理解根据所述的主题实现的方法。尽管为了说明简洁起见,作为一系列框示出和描述的方法,但是应当理解,各实施例不仅仅限于框的次序,因为一些框可以与此处所描绘和描述的框不同的次序发生和/或与其他框并发地发生。尽管经由流程图示出了非顺序或分支的流程,但可以理解,可实现达到相同或类似结果的各种其他分支、流程路径和框的次序。此外,并非全部所示的框都是实现下面所述的方法所必需的。
除了此处所描述的各实施例之外,可以理解,可以使用其他相似的实施例或者可对所述实施例作出修改和添加以便执行对应的实施例的相同或等效的功能而不背离这些实施例。此外,多个处理芯片或多个设备可共享此处所述的一个或多个功能的性能,并且类似地,存储可跨多个设备实现。因此,本发明不应限于任何单个实施例,而是应当根据所附权利要求书的广度、精神和范围来解释。

Claims (14)

1.一种方法,包括:
检验(1002)项,包括确定与所述项相关的一组域;
基于包括在所述项中的一组未匹配词语来标识(1004)一组词元;
将所述一组词元中的词元与所述一组域中至少一个未匹配域的一组已知域值比较(1006),并确定所述词元落在所述至少一个未匹配域的至少一个已知域值的预定阈值内;和
响应于所述词元落在所述至少一个已知域值的预定阈值内,将所述词元与所述至少一个未匹配域相关联(1008)。
2.如权利要求1所述的方法,其特征在于,还包括:
将所述一组词元中的其他词元与所述一组域中的至少一个其他未匹配域的一组已知域值相比较;
确定所述其他词元落在至少一个其他已知域值的预定阈值内;和
响应于所述其他词元落在所述至少一个其他已知域值的预定阈值内,将所述其他词元与对应于所述至少一个其他已知域值的所述至少一个其他未匹配域相关联。
3.如权利要求2所述的方法,其特征在于,还包括:
确定落在已知域值的预定阈值中的一组词元中的词元的量小于被包括在所述一组域中的未匹配域的量;和
响应于确定落在已知域值的预定阈值中的一组词元中的词元的量小于被包括在所述一组域中的未匹配域的量,确定所述一组词元不包括至少一个剩余物项,并将所述未匹配域相关联于空值。
4.如权利要求2所述的方法,其特征在于,还包括:
确定落在所述一组已知域值中的已知域值的预定阈值中的一组词元中的词元的量小于被包括在所述一组域中的未匹配域的量;
响应于确定落在已知域值的预定阈值中的一组词元中的词元的量小于被包括在所述一组域中的未匹配域的量,确定所述一组词元包括至少一个剩余物词语;和
响应于确定所述一组词元包括至少一个剩余物词语,采用基于定界符的解析。
5.如权利要求4所述的方法,其特征在于,基于定界符的解析还包括:
将所述至少一个剩余物词语与所述至少一个未匹配域相关联;
确定存在至少一个其他剩余物词语;且
响应于确定存在至少一个其他剩余物词语,确定存在至少一个其他未匹配域,并将所述至少一个其他剩余物词语相关联于所述至少一个其他未匹配域。
6.如权利要求5所述的方法,其特征在于,基于定界符的解析还包括:
确定不存在至少一个其他未匹配域;
响应于确定不存在至少一个其他未匹配域,确定与域相关联的词元在所述项中位于所述至少一个其他剩余物词语的左边;且
响应于确定在所述项中位于所述至少一个其他剩余物的左边的词元与所述域相关联,将所述至少一个其他剩余物追加至在所述项中位于所述至少一个其他剩余物的左边的所述词元;
确定没有与域相关联的并且在所述项中位于所述至少一个其他剩余物词语的左边的词元;且
响应于确定没有与域相关联的并且在所述项中位于所述至少一个其他剩余物词语的左边的词元,将所述至少一个其他剩余物词语追加至与域相关联的且在所述项中位于所述剩余物词语的右边的词元。
7.如权利要求1所述的方法,其特征在于,所述标识(1004)所述一组词源还包括:
解析被包括在所述项中的一组词语;且
标识所述一组词语的一组可能的组合。
8.一种计算设备,包括:
具有存储在其上的计算机可执行组件的存储器;以及
通信地耦合到所述存储器的处理器,所述处理器被配置成帮助所述计算机可执行组件的执行,所述计算机可执行组件包括:
域标识组件(202),被配置为确定与项有关的一组域、检验所述项、并基于包括在所述项中的一组未匹配词语来标识一组词元;
相关组件(206),被配置为将所述一组词元中的词元与和所述项有关的所述一组域中至少一个未匹配域的一组已知域值比较、并确定所述词元落在所述一组已知域值中的至少一个已知域值的预定阈值内;和
管理组件(208),被配置为,响应于所述词元落在所述至少一个已知域值的预定阈值内,将所述词元与所述至少一个未匹配域相关联。
9.如权利要求8所述的计算设备,其特征在于,所述管理组件(208)还被配置成:
确定落在所述一组已知域值中的已知域值的预定阈值中的一组词元中的词元的量小于被包括在所述一组域中的未匹配域的量;和
响应于确定落在已知域值的预定阈值中的一组词元中的词元的量小于被包括在所述一组域中的未匹配域的量,确定所述一组词元不包括至少一个剩余物词语,并将未匹配域相关联于空值。
10.如权利要求8所述的计算设备,其特征在于,所述管理组件(208)还被配置成:
确定落在所述一组已知域值中的已知域值的预定阈值中的一组词元中的词元的量小于被包括在所述一组域中的未匹配域的量;和
响应于确定落在已知域值的预定阈值中的一组词元中的词元的量小于未匹配域的量,确定所述一组词元包括一组剩余物词语。
11.如权利要求10所述的计算设备,其特征在于,还包括基于定界符的解析组件(404),所述基于定界符的解析组件被配置为:
响应于所述一组词元包括一组剩余物词语,将所述一组剩余物词语中的第一剩余物词语相关联于第一未匹配域。
12.如权利要求11所述的计算设备,其特征在于,所述基于定界符的解析组件(404)还被配置成:
确定在所述一组剩余物词语中存在下一个剩余物词语;
响应于在所述一组剩余物词语中存在下一个剩余物词语,确定存在下一个未匹配域;且
响应于存在下一个未匹配域,将所述下一个剩余物词语相关联于所述下一个未匹配域。
13.如权利要求11所述的计算设备,其特征在于,所述基于定界符的解析组件(404)还被配置成:
确定不存在下一个未匹配域;
响应于不存在下一个未匹配域,确定在所述项中位于所述下一个剩余物词语的左边的词元相关联于域;
响应于所述词元在所述项中位于所述下一个剩余物词语的左边且相关联于域,将所述下一个剩余物词语追加至在所述项中位于所述下一个剩余物词语左边的所述词元;
确定不存在在所述项中位于所述下一个剩余物词语的左边且相关联于域的词元;且
响应于不存在在所述项中位于所述下一个剩余物词语的左边且相关联于域的词元,将所述下一个剩余物词语追加至在所述项中位于所述下一个剩余物词语右边的词元。
14.如权利要求8所述的计算设备,其特征在于,所述检查组件(202)还被配置成:
标识所述项中的一组未匹配词语;
至少部分地基于在所述项中词语相对彼此的位置,标识所述一组未匹配词语的一组可能的组合;
并基于所述一组未匹配词语的一组可能的组合来标识所述一组词元。
CN2012104352975A 2011-11-03 2012-11-02 基于知识的解析 Pending CN103412861A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/288,942 2011-11-03
US13/288,942 US20130117012A1 (en) 2011-11-03 2011-11-03 Knowledge based parsing

Publications (1)

Publication Number Publication Date
CN103412861A true CN103412861A (zh) 2013-11-27

Family

ID=47471468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104352975A Pending CN103412861A (zh) 2011-11-03 2012-11-02 基于知识的解析

Country Status (4)

Country Link
US (1) US20130117012A1 (zh)
EP (1) EP2590117A1 (zh)
CN (1) CN103412861A (zh)
WO (1) WO2013067080A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280739B2 (en) * 2012-11-30 2016-03-08 Dxcontinuum Inc. Computer implemented system for automating the generation of a business decision analytic model
US9218568B2 (en) 2013-03-15 2015-12-22 Business Objects Software Ltd. Disambiguating data using contextual and historical information
US9262550B2 (en) 2013-03-15 2016-02-16 Business Objects Software Ltd. Processing semi-structured data
US9299041B2 (en) 2013-03-15 2016-03-29 Business Objects Software Ltd. Obtaining data from unstructured data for a structured data collection
US9495347B2 (en) * 2013-07-16 2016-11-15 Recommind, Inc. Systems and methods for extracting table information from documents
US9563689B1 (en) 2014-08-27 2017-02-07 Google Inc. Generating and applying data extraction templates
US9652530B1 (en) 2014-08-27 2017-05-16 Google Inc. Generating and applying event data extraction templates
US9785705B1 (en) * 2014-10-16 2017-10-10 Google Inc. Generating and applying data extraction templates
US10216837B1 (en) 2014-12-29 2019-02-26 Google Llc Selecting pattern matching segments for electronic communication clustering
US10432700B2 (en) * 2016-11-11 2019-10-01 Microsoft Technology Licensing, Llc Conversation connected visualization of items based on a user created list
US10387559B1 (en) * 2016-11-22 2019-08-20 Google Llc Template-based identification of user interest
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
US11610277B2 (en) 2019-01-25 2023-03-21 Open Text Holdings, Inc. Seamless electronic discovery system with an enterprise data portal
GB201916307D0 (en) * 2019-11-08 2019-12-25 Polyal Ltd A dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
US5818952A (en) * 1994-12-27 1998-10-06 Matsushita Electric Industrial Co., Ltd. Apparatus for assigning categories to words in a documents for databases
CN101645064A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种浅层自然口语理解系统及方法
CN101896902A (zh) * 2007-12-13 2010-11-24 大日本印刷株式会社 信息提供系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599952B2 (en) * 2004-09-09 2009-10-06 Microsoft Corporation System and method for parsing unstructured data into structured data
US7788293B2 (en) * 2005-03-02 2010-08-31 Google Inc. Generating structured information
EP1847923A1 (en) * 2006-04-21 2007-10-24 Microsoft Corporation Localising unstructured resources
US8359191B2 (en) * 2008-08-01 2013-01-22 International Business Machines Corporation Deriving ontology based on linguistics and community tag clouds
US8266148B2 (en) * 2008-10-07 2012-09-11 Aumni Data, Inc. Method and system for business intelligence analytics on unstructured data
US8356037B2 (en) * 2009-12-21 2013-01-15 Clear Channel Management Services, Inc. Processes to learn enterprise data matching
EP2354967A1 (en) * 2010-01-29 2011-08-10 British Telecommunications public limited company Semantic textual analysis
US9191639B2 (en) * 2010-04-12 2015-11-17 Adobe Systems Incorporated Method and apparatus for generating video descriptions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5818952A (en) * 1994-12-27 1998-10-06 Matsushita Electric Industrial Co., Ltd. Apparatus for assigning categories to words in a documents for databases
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
CN101896902A (zh) * 2007-12-13 2010-11-24 大日本印刷株式会社 信息提供系统
CN101645064A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种浅层自然口语理解系统及方法

Also Published As

Publication number Publication date
US20130117012A1 (en) 2013-05-09
WO2013067080A1 (en) 2013-05-10
EP2590117A1 (en) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103412861A (zh) 基于知识的解析
Ahmed et al. The role of big data analytics in Internet of Things
Senaratne et al. A review of volunteered geographic information quality assessment methods
Brooks et al. Predictive modelling in teaching and learning
US9330161B2 (en) Creating global aggregated namespaces for storage management
Beheshti et al. iprocess: Enabling iot platforms in data-driven knowledge-intensive processes
Chen et al. Temporal representation for mining scientific data provenance
Gao et al. Automated discovery and integration of semantic urban data streams: The ACEIS middleware
US20150339591A1 (en) Collegial Activity Learning Between Heterogeneous Sensors
US20150317336A1 (en) Data reconstruction
CN114138997A (zh) 具有数字孪生和基于图形的结构的计算机实现的系统和方法
Fallucchi et al. Supporting humanitarian logistics with intelligent applications for disaster management
El Kaed et al. Forte: A federated ontology and timeseries query engine
US20220083881A1 (en) Automated analysis generation for machine learning system
Bender et al. A flexible system architecture for acquisition and storage of naturalistic driving data
Srinivasa et al. Network Data Analytics
US11443216B2 (en) Corpus gap probability modeling
CN104050264A (zh) 一种生成sql语句的方法和装置
Bhaduri et al. Scalable, asynchronous, distributed eigen monitoring of astronomy data streams
Singh et al. Vehicle telematics: an internet of things and big data approach
Russell Real-time monitoring and validation of waste transportation using intelligent agents and pattern recognition
Diallo Towards a formal theory of interoperability
US11675838B2 (en) Automatically completing a pipeline graph in an internet of things network
CN110110235B (zh) 用于推送信息的方法和装置
CN110909191A (zh) 图数据处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150717

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150717

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131127

WD01 Invention patent application deemed withdrawn after publication