CN1627300A - 学习并使用广义串模式用于信息提取 - Google Patents

学习并使用广义串模式用于信息提取 Download PDF

Info

Publication number
CN1627300A
CN1627300A CNA2004101022625A CN200410102262A CN1627300A CN 1627300 A CN1627300 A CN 1627300A CN A2004101022625 A CNA2004101022625 A CN A2004101022625A CN 200410102262 A CN200410102262 A CN 200410102262A CN 1627300 A CN1627300 A CN 1627300A
Authority
CN
China
Prior art keywords
pattern
broad sense
extraction
word
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004101022625A
Other languages
English (en)
Inventor
H·李
Y·曹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1627300A publication Critical patent/CN1627300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及从信息源中提取信息。在提取过程中,访问信息源中的串。将信息源中的这些串与包括单词和通配符的广义提取模式相匹配。通配符指示个别串中的至少一个单词可被跳过以将该个别串与一个别的广义提取模式相匹配。

Description

学习并使用广义串模式用于信息提取
技术领域
本发明涉及信息提取,尤其涉及执行信息提取的系统和方法。
背景技术
存在包含大量信息的许多数据库、网页和文档。采用这一大量的现有信息,使用了众多方法以收集涉及特定主题的相关信息。信息提取指的是从这些信息源提取有用信息的技术。一般而言,信息提取系统基于提取模式(或提取规则)提取信息。
手动书写和开发可靠的提取模式是困难且耗时的。作为结果,对从注释的示例中自动学习提取模式作出了许多努力。在某些自动学习系统中,通过对句子进行句法分析并从分析中获取句子或词组模式来学习自然语言模式。另一种方法使用句法和语义约束来发现模式。然而,这些方法的开发一般较昂贵。另一种方法使用连贯表面串模式用于在信息的特定对上提取信息。这些连贯模式仅覆盖要提取的少量信息,并由此不提供对大量信息的足够的广义用于可靠的提取。
设计了许多不同的方法来解决上述问题。一种准确且有效地学习模式以在信息提取中使用的系统和方法可进一步解决这些和/或其它问题,以提供一种更可靠、更节省成本的信息提取系统。
发明内容
本发明涉及从信息源提取信息。在提取过程中,访问信息源中的串。将信息源中的这些串与包括单词和通配符的广义提取模式进行匹配。通配符表示单个串中的至少一个单词可被跳过以将单个串与单个广义提取模式相匹配。
本发明的另一方面是一种用于从信息源提取信息的计算机可读媒质。该媒质包括具有包括单词和对至少一个可任选单词的位置的指示的一组广义提取模式的数据结构。该媒质也包括使用该广义提取模式组将信息源中的串与广义提取模式进行匹配的提取模块。
本发明的又一方面是一种生成用于从信息源提取信息的模式的方法。该方法包括建立包括对应于主题的至少两个元素的一组串。生成对应于该串组的一组广义提取模式。该广义提取模式包括至少两个元素、单词以及至少一个可任选单词的位置的指示。
生成用于从信息源提取信息的模式的另一方法涉及本发明。该方法建立包括对应于主题的至少两个元素、并在包括单词和该至少两个元素的串组内标识连贯模式的一组串。从所标识的连贯模式生成一组广义提取模式。该广义提取模式包括至少两个元素、单词和通配符。通配符表达了连贯模式的组合。
附图说明
图1是一个示例性计算环境的图示。
图2是信息提取的流程图。
图3是生成信息提取模式并对其分级的流程图。
图4是生成广义提取模式并对其分级的流程图。
图5是生成广义提取模式的方法。
具体实施方式
本发明涉及信息提取。尽管此处参考开发用于信息提取的模式来描述本发明,然而本发明也可应用到其它类型的信息处理。在详细讨论本发明之前,讨论可在其中使用本发明的说明性环境的一个实施例。
图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。
本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、包括任一上述系统或设备的分布式计算环境等等。
本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本发明也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。由程序和模块执行的任务在下文借助附图来描述。本领域的技术人员可将该描述和附图实现为可写在任一形式的计算机可读媒质上的处理器可执行指令。
参考图1,用于实现本发明的示例性系统包括计算机110形式的通用计算装置。计算机11的组件可包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。
系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156,如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。
图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。
用户可以通过输入设备,如键盘162、麦克风163和定位设备161(如鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视器之外,计算机也包括其它外围输出设备,如扬声器197和打印机196,通过输出外围接口195连接。
计算机110可以在使用到一个或多个远程计算机,如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括许多或所有上述与计算机110相关的元件,图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。
当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或其它装置,用于通过WAN173,如因特网建立通信。调制解调器172可以是内置或外置的,通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中,描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限,图1示出远程应用程序185驻留在远程计算机180上。可以理解,示出的网络连接是示例性的,也可以使用在计算机之间建立通信的其它装置。
图2示出了从数据库202提取信息并提供所提取的信息204的输出的提取模块200。如后文所描述的,提取模块200基于从训练或测试语言资料库(curpus)中学习的提取模式来操作。如本领域的技术人员所理解的,提取模块200可包括提取模式和/或访问具有模式的数据结构以执行提取。在提取过程中,提取模式匹配数据库202中的串。在本发明的一个示例性实施例中,提取模式包括基于训练语言资料库生成的单词、元素和通配符。如本发明所使用的,串包括一列单词,单词可以是不同的语言,包括英语、德语、中文和日语。元素是包含涉及特定主题的信息的变量、通配符是表示匹配过程中串中的单词可被跳过和/或可任选单词的位置的指示。数据库202可以是各种不同的信息源。例如,数据库202可以是文档的集合、新闻组文章、顾客反馈表集合和/或任一其它类型的信息,并储存在本地系统上,或跨诸如因特网等广域网储存。信息可以是文本或其它格式,包括例如可被转化成文本的语音数据。提取的信息204可以是来自涉及特定主题的多个文档的摘录,它可被审阅或进一步处理以更好地分析数据库202中的数据。
信息提取与提取涉及特定主题的信息有关。提取的信息可包括涉及该主题的相关元素的对、三元组等。例如,当提取产品发行信息时,元素可包括公司元素和产品元素。如果主题涉及书籍,则元素可包括数据标题和作者信息。其它相关的元素可包括发明人和发明信息、问题和回答对等等。一般而言,与一个主题相关联的元素的一个或多个可被称为“锚(anchor)”,它通常发信号通知串中的信息与特定的主题相关联。例如,产品可以是涉及产品发行信息的公司/产品对中的锚。本发明的一个方面涉及生成包括用于提取的元素的模式。
图3示出了用于开发由提取模块200使用的模式的各种模块的流程图。这些模块包括模式生成模块210和模式分级模块212。模式生成模块210基于积极的示例语言资料库214开发模式。积极的示例语言资料库包含包括涉及要提取的信息的主题的元素的文本串。使用语言资料库214中的积极示例,由模块210生成连贯模式。另外,模式生成模块210可使用通配符来表达模式的组合。作为结果,模式由210生成,它在216处指示,表示包括广义串的组合。
以下是形成示例性语言资料库214的一部分的示例训练实例。这些实例包括分别用<company>和<product>标签注释公司和产品元素。语言资料库214中的积极训练实例是:
<company> Microsoft Corp.</company>today announced the immediateavailability of <product> Microsoft Internet Explorer Plus </product>,the eagerlyawaited retail version of Internet Explorer 4.0.
<company> Microsoft Corp.</company> today announced the availability of<product> Microsoft Visual J++6.0 Technology Preview 2</product>,a beta release ofthe next version of the industry′s most widely used development system for Java.
<company> Microsoft Corp.</company> today announced the immediate,freeavailability of <product> Microsoft Visual InterDev 6.0 March pre-release </product>,apreview of the new version of the leading team-based Web development system forrapidly building data-driven Web application.
给定这些积极训练实例,可标识包含涉及该主题的元素的连贯模式。例如,以下三个模式表示从上述实例生成的连贯模式,其中,变量<company>和<product>替换了具体的公司和产品信息:
<company>today announced the immediate availability of<product>,
<company>today announced the availability of<product>,
<company>today announced the immediate,free availability of<product>.
给定这些连贯模式,可由模块210开发表达包含通配符的连贯模式的元素的广义提取模式,如:
<company>today announced the{\w+3}availability of<product>.
这里,通配符{<\w+3}表示在“the”和“availability”之间最多可跳过三个单词。上述广义的提取模式“覆盖”了每一连贯模式,它们的每一个都是可按照广义提取模式来表达的连贯模式。使用具有通配符的广义提取模式,可从以下句子中提取产品信息“Microsoft Office 60 Minute Intranet Kit Version 2.0”,因为该模式允许跳过单词“immediate worldwide”,而无需包括单词“immediate worldwide”的额外的连贯模式:
<company> Microsoft Corporation </company> today announced the immediateworldwide availability of Microsoft Office 60 Minute Intranet Kit version 2.0,downloadable for free(connect-time charges may apply)from the Office intranet Website located at  http://www.microsoft.com/office/intranet.
模式生成模块210向如上所述的模式分级模块212提供了从包括通配符的语言资料库214生成的未分级的模式216的输出。模式分级模块212使用积极和消极示例语言资料库218对从模式生成模块210接收的模式进行分级。消极示例在一对中包含一个元素,但不包含第二元素,如上文所描述的锚。例如,以下句子是一个消极示例,因为它包含公司信息,但不包含具体产品,并且不涉及产品发行:
<company> Microsoft Corp.</company> today announced the availability of anexpanded selection of Web-based training through its independent training providers.
从模式生成模块210获取的模式可由模式分级模块212使用众多不同的方法来分级。在一种方法中,特定模式P的精度可通过将从语言资料库218中提取的正确实例的个数除以使用模式P从语言资料库218中提取的实例的数量来计算。具有较高精度值的模式由模式分级模块212分成较高的等级。另外,如果对应的模式匹配对应模式能匹配的所有积极实例,则可移除其它模式。然后可移除具有较低精度值的模式。
分级的模式220形成了用于使用提取模块200来提取的基础。积极和/或消极实例222然后可用于评估提取模块200提供正确且有用提取信息204的性能。在提取过程中,等级较高的模式可首先用于匹配数据库202中的串。在一个实施例中,匹配以从左到右的顺序执行。例如,在模式“x\w+y\W+”中,先匹配x的出现,然后匹配y的任何出现。
图4示出了用于生成由提取模块200使用的模式并对其进行分级的方法250。方法250基于一种所谓的演绎算法(Apriori Algorithm)。演绎算法在子集和关联的超集共享类似的属性,且子集和超集的组合可被表达成包含子集和超集两者的特征的基础上建立。以下算法可用于生成广义的提取模式,它将在后文参考方法250详细描述。在下文提供的算法中,S是一组输入串(即,积极示例语言资料库214),P1是S中的单词组,p1是P1中的个别单词。Pi和P(i-1)是用于该算法的第i次迭代的模式组,pi和P(i-1)表示第i个组内的模式。
用约束算法学习广义提取模式1.S=积极示例输入串组,2.P1=S中的单词组;3.for(i=2;i≤k;i++){4.       Pi=find-generalized-extraction-patterns(P(i-1),P1);5.       for每一(p∈Pi){6.           if(非satisfy-constraints(p))7.                 从Pi中移除p;8.           if(p的频率不大于阈值)9.                 从Pi中移除p;10.          if(p不包含<anchor>)11.                从Pi中移除p;12.          }13.          if(Pi为空)14.                到行16;15.}16.输出P=Ui j=2Pj
方法250在步骤252开始,建立一组输入串。该输入串组是图3中的积极示例语言资料库214。在元素对的情况下,该输入串组包括模式,其中,信息元素的期望对的两个部分都包括在内。在建立了输入串组之后,在步骤254生成包括通配符的广义提取模式。生成广义提取模式(也是上述算法中的子算法find-generalized-extration-patterns())在后文参考图5详细讨论。广义提取模式除表示模式中可出现其它单词的通配符之外还包括单词和元素。
然后可评估广义提取模式以确定它们是否表示用于提取的可靠候选者。在步骤256,不满足约束的模式被移除。可使用众多不同的约束来移除由模式生成模块210生成的广义提取模式。一个约束被称为“边界约束”,其中,通配符无法直接位于锚之前或之后。该约束帮助排除很难对其确定锚信息何处开始和结束的模式。例如,以下广义提取模式将被移除:
<company> today announced the immediate availability{\w+3}<product>
上述广义提取模式会不适当地确定“of Internet Explorer for no-charge downloadfrom the Internet”是以下句子的产品:
Microsoft Corp.today announced the immediate availability of Internet Explorerfor no-charge download from the Internet.
另一约束是“距离约束”。距离约束将可由通配符跳过的单词的个数限于不多于基于训练数据所跳过的单词的最大个数。例如,不限制跳过的单词量的以下模式将不被使用:
<company>{\w+}today announced{\w+}deliver<product>.
上述模式会不正确地提取“enterprise and electronic-commerce solutions basedon the Microsoft Windows NT Server operating system and the BackOffice family ofproducts”作为以下句子的产品信息:
Microsoft Corp.and Policy Management Systems Corp.(PMSC)today announceda plan in which the two companies will work together to deliver enterprise andelectronic-commerce solutions based on the Microsoft Windows NT Server operatingsystem and the BackOffice family ofproducts.
另一约束被称为“孤立约束”,它禁止“被孤立的功能单词”。被孤立的功能单词一般是诸如“the”、“a”和“an”等不包括涉及要提取的信息的具体内容并由通配符包围的冠词。以下模式不满足孤立约束:
<company>{\w+8}the{<\w+13}of the<product>,the first
上述模式会不正确地提取“Microsoft Entertainment Pack for the Windows CEoperating system”作为不涉及以下句子的发行的产品信息:
Microsoft Corp.today provided attendees of the Consumer Electronics Show inLas Vegas with a demonstration of the Microsoft Entertainment Pack for the WindowsCE operating system,the first game product to be released for the Windows CE-basedhandheld PC platform.
在步骤258,未达到频率阈值的模式被移除。作为结果,在这一步骤,不常用的模式被移除。在步骤260,不包含锚的模式被移除。例如,不包含具有关联的公司名的产品的模式不作为信息提取的模式包括在内。给定这些模式,在步骤262对这些模式进行分级。如上所述,许多不同的分级方法可用于对模式进行分级。如果模式的等级太低,可移除它们。
图5示出了生成广义提取模式的方法280。以下算法可用于生成这些模式,并且是上述算法的子算法。相同的变量应用到以下算法。
find-generalized-extraction-pattern(P(i-1),P1)1.for每一(p(i-1)∈P(i-1)){2.    for每一(p1∈P1){3.        Pi=P(i-1)P1;4.        if(pi在S中存在)5.               将pi放入Pi;6.        p′i=p(i-1){w+n}p1;7.        if(p′i在S中存在)8.                将p′i放入Pi;9.    }10.  }11.  输出Pi
在方法280的步骤282,从积极示例语言资料库214中的积极实例标识连贯模式。该步骤对应于上述子算法中的第3行到第5行。连贯模式包括涉及要提取的主题的元素,如公司和产品。在一个方法中,给定输入串,通过组合共享类似属性的子集和超集,可递归地生成模式。在标识了连贯模式之后,方法280前进到步骤284,通过组合连贯模式并表达广义提取模式以覆盖连贯模式,标识通配符位置和长度。该步骤对应于上述子算法中的第6行到第8行。下一步,在步骤286输出具有通配符的广义提取模式。广义提取模式然后可如上文参考方法250所解释的来进一步分析,以移除模式并对其进行分级。
通过实现上述本发明,可开发表示模式组合的广义提取模式,并提供一种更可靠的信息提取系统。广义提取模式可包括可任选单词的位置和/或允许表达模式的组合的表示可在匹配过程中跳过单词的通配符。在提取过程中使用广义模式允许匹配各种串,以标识信息源中匹配的串。
尽管参考具体实施例描述了本发明,然而本领域的技术人员将认识到,可在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

Claims (24)

1.一种从信息源提取信息的计算机实现的方法,其特征在于,它包括:
访问所述信息源中的串;以及
将所述信息源中的串与诸广义提取模式相比较,并标识所述信息源中匹配至少一个广义提取模式的串,所述广义提取模式包括单词和通配符,其中,所述通配符指示个别串中的至少一个单词可被跳过以将所述个别串与一个别的广义提取模式相匹配。
2.如权利要求1所述的计算机实现的方法,其特征在于,它还包括从所述信息源中已被标识为匹配的串提取至少两个元素,所述至少两个元素基于对应的广义提取模式中至少两个对应的元素。
3.如权利要求2所述的计算机实现的方法,其特征在于,对于每一所述广义提取模式中所述对应的元素的至少一个,至少有一个单词位于所述对应的元素的至少一个与所述通配符之间。
4.如权利要求1所述的计算机实现的方法,其特征在于,所述通配符指示可被跳过的单词的个数。
5.一种从信息源提取信息的计算机可读媒质,其特征在于,它包括:
一包括一组广义提取模式的数据结构,所述广义提取模式组包括单词和对至少一个可任选单词的位置的指示;以及
一提取模块,它使用该组所述广义提取模式将所述信息源中的串与所述广义提取模式相匹配。
6.如权利要求5所述的计算机可读媒质,其特征在于,所述广义提取模式还包括涉及一主题的至少两个元素。
7.如权利要求6所述的计算机可读媒质,其特征在于,对于所述广义提取模式,至少有一个单词位于所述元素的至少一个与所述指示之间。
8.如权利要求5所述的计算机可读媒质,其特征在于,所述指示包括在信息提取过程中可被跳过的单词的个数。
9.一种生成用于从信息源提取信息的模式的方法,其特征在于,它包括:
建立包括对应于一主题的至少两个元素的一组串;
生成对应于所述串组的一组广义提取模式,所述广义提取模式包括所述至少两个元素、单词以及对至少一个可任选单词的位置的指示。
10.如权利要求9所述的方法,其特征在于,它还包括从所述广义提取模式组中移除未达到所述串组中的一频率阈值的模式。
11.如权利要求9所述的方法,其特征在于,它还包括从所述广义提取模式组中移除包含与所述广义提取模式中所述至少两个元素之一相邻的指示的模式。
12.如权利要求9所述的方法,其特征在于,它还包括从所述广义提取模式组中移除其中由所述指示跳过的单词个数大于一阈值的模式。
13.如权利要求9所述的方法,其特征在于,它还包括对所述广义提取模式组中的广义提取模式进行分级。
14.如权利要求13所述的方法,其特征在于,所述分级步骤还包括对每一广义提取模式计算一精度得分。
15.如权利要求13所述的方法,其特征在于,它还包括从所述广义提取模式组中移除未达到一分级阈值的模式。
16.如权利要求9所述的方法,其特征在于,它还包括确定特定指示将跳过的单词的个数。
17.一种生成用于从信息源提取信息的模式的方法,其特征在于,它包括:
建立包括对应于一主题的至少两个元素的一组串;
在所述串组内标识包括单词和所述至少两个元素的连贯模式;以及
从所标识的连贯模式生成一组广义提取模式,所述广义提取模式包括所述至少两个元素、单词和通配符,其中,所述通配符表达所述连贯模式的组合。
18.如权利要求17所述的方法,其特征在于,它还包括从所述广义提取模式组中移除未达到所述串组中的一频率阈值的模式。
19.如权利要求17所述的方法,其特征在于,它还包括从所述广义提取模式组中移除包含与所述广义提取模式中所述至少两个元素之一相邻的通配符的模式。
20.如权利要求17所述的方法,其特征在于,它还包括从所述广义提取模式组中移除其中由通配符跳过的单词个数大于一阈值的模式。
21.如权利要求17所述的方法,其特征在于,它还包括对所述广义提取模式组中的广义提取模式进行分级。
22.如权利要求21所述的方法,其特征在于,所述分级步骤还包括对每一广义提取模式计算一精度得分。
23.如权利要求21所述的方法,其特征在于,它还包括从所述广义提取模式组中移除未达到一分级阈值的模式。
24.如权利要求17所述的方法,其特征在于,它还包括确定特定通配符将跳过的单词的个数。
CNA2004101022625A 2003-12-11 2004-12-10 学习并使用广义串模式用于信息提取 Pending CN1627300A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/733,541 US7299228B2 (en) 2003-12-11 2003-12-11 Learning and using generalized string patterns for information extraction
US10/733,541 2003-12-11

Publications (1)

Publication Number Publication Date
CN1627300A true CN1627300A (zh) 2005-06-15

Family

ID=34523068

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004101022625A Pending CN1627300A (zh) 2003-12-11 2004-12-10 学习并使用广义串模式用于信息提取

Country Status (11)

Country Link
US (1) US7299228B2 (zh)
EP (1) EP1542138A1 (zh)
JP (1) JP2005174336A (zh)
KR (1) KR20050058189A (zh)
CN (1) CN1627300A (zh)
AU (1) AU2004229097A1 (zh)
BR (1) BRPI0404954A (zh)
CA (1) CA2487606A1 (zh)
MX (1) MXPA04011788A (zh)
RU (1) RU2004132977A (zh)
TW (1) TW200527229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138141A (zh) * 2008-09-05 2011-07-27 日本电信电话株式会社 近似比对装置、近似比对方法、程序及记录介质

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3962382B2 (ja) * 2004-02-20 2007-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表現抽出装置、表現抽出方法、プログラム及び記録媒体
US7606797B2 (en) * 2005-02-24 2009-10-20 Kaboodle, Inc. Reverse value attribute extraction
US7630968B2 (en) * 2005-02-24 2009-12-08 Kaboodle, Inc. Extracting information from formatted sources
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8073718B2 (en) 2009-05-29 2011-12-06 Hyperquest, Inc. Automation of auditing claims
US8447632B2 (en) * 2009-05-29 2013-05-21 Hyperquest, Inc. Automation of auditing claims
US8255205B2 (en) 2009-05-29 2012-08-28 Hyperquest, Inc. Automation of auditing claims
US8346577B2 (en) 2009-05-29 2013-01-01 Hyperquest, Inc. Automation of auditing claims
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
RU2498401C2 (ru) * 2012-02-14 2013-11-10 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ обнаружения текстовых объектов
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9262938B2 (en) 2013-03-15 2016-02-16 International Business Machines Corporation Combining different type coercion components for deferred type evaluation
US9785321B2 (en) * 2013-05-30 2017-10-10 Empire Technology Development Llc Controlling a massively multiplayer online role-playing game
KR101586258B1 (ko) 2014-09-30 2016-01-18 경북대학교 산학협력단 링크드 데이터 생성을 위한 패턴 충돌 해소 방법, 이를 수행하기 위한 기록 매체 및 장치
US9626594B2 (en) * 2015-01-21 2017-04-18 Xerox Corporation Method and system to perform text-to-image queries with wildcards
US10062208B2 (en) * 2015-04-09 2018-08-28 Cinemoi North America, LLC Systems and methods to provide interactive virtual environments
EP3566151A4 (en) * 2017-03-16 2020-11-04 Microsoft Technology Licensing, LLC GENERATION OF RESPONSES IN AN AUTOMATED ONLINE CONVERSATION
US10620945B2 (en) * 2017-12-21 2020-04-14 Fujitsu Limited API specification generation
JP6605105B1 (ja) * 2018-10-15 2019-11-13 株式会社野村総合研究所 文章記号挿入装置及びその方法
US11023095B2 (en) 2019-07-12 2021-06-01 Cinemoi North America, LLC Providing a first person view in a virtual world using a lens
US10817576B1 (en) * 2019-08-07 2020-10-27 SparkBeyond Ltd. Systems and methods for searching an unstructured dataset with a query
JP7229144B2 (ja) * 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606690A (en) * 1993-08-20 1997-02-25 Canon Inc. Non-literal textual search using fuzzy finite non-deterministic automata
US6785417B1 (en) * 2000-08-22 2004-08-31 Microsoft Corp Method and system for searching for words in ink word documents

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138141A (zh) * 2008-09-05 2011-07-27 日本电信电话株式会社 近似比对装置、近似比对方法、程序及记录介质
CN102138141B (zh) * 2008-09-05 2013-06-05 日本电信电话株式会社 近似比对装置、近似比对方法、程序及记录介质

Also Published As

Publication number Publication date
EP1542138A1 (en) 2005-06-15
CA2487606A1 (en) 2005-06-11
MXPA04011788A (es) 2005-07-05
AU2004229097A1 (en) 2005-06-30
JP2005174336A (ja) 2005-06-30
RU2004132977A (ru) 2006-04-27
BRPI0404954A (pt) 2005-08-30
KR20050058189A (ko) 2005-06-16
TW200527229A (en) 2005-08-16
US7299228B2 (en) 2007-11-20
US20050131896A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
CN1627300A (zh) 学习并使用广义串模式用于信息提取
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
US9754207B2 (en) Corpus quality analysis
US20180075368A1 (en) System and Method of Advising Human Verification of Often-Confused Class Predictions
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US20180068222A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - Low Entropy Focus
US20080221870A1 (en) System and method for revising natural language parse trees
CN1680935A (zh) 通过用户建模的有效大写化
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
US20180068221A1 (en) System and Method of Advising Human Verification of Machine-Annotated Ground Truth - High Entropy Focus
US11372942B2 (en) Method, apparatus, computer device and storage medium for verifying community question answer data
CN1457041A (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
US9563846B2 (en) Predicting and enhancing document ingestion time
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
US11893351B2 (en) Modified machine learning model and method for coherent key phrase extraction
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
CN1667614A (zh) 语言数据日志的压缩
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN114021064A (zh) 网站分类方法、装置、设备及存储介质
CN113704108A (zh) 一种相似代码检测方法及装置、电子设备、存储介质
CN113326348A (zh) 一种博客质量评估方法及工具
CN112632229A (zh) 文本聚类方法及装置
Chang et al. Code Transform Model Producing High-Performance Program.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication