CN101727451B - 信息提取方法和装置 - Google Patents

信息提取方法和装置 Download PDF

Info

Publication number
CN101727451B
CN101727451B CN 200810171185 CN200810171185A CN101727451B CN 101727451 B CN101727451 B CN 101727451B CN 200810171185 CN200810171185 CN 200810171185 CN 200810171185 A CN200810171185 A CN 200810171185A CN 101727451 B CN101727451 B CN 101727451B
Authority
CN
China
Prior art keywords
information
morpheme
morphemes
resource
particular topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200810171185
Other languages
English (en)
Other versions
CN101727451A (zh
Inventor
贾文杰
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN 200810171185 priority Critical patent/CN101727451B/zh
Publication of CN101727451A publication Critical patent/CN101727451A/zh
Application granted granted Critical
Publication of CN101727451B publication Critical patent/CN101727451B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息提取方法和装置,用于从输入的信息源中提取涉及特定主题的有用信息。该方法包括:参考预先设定的第一资源,从信息源中查找并定位所有感兴趣的各类目标语素;从信息源中选择出所有包含所找到的各类目标语素的语句;参考预先设定的第二资源,对所选出的所有语句中的各类目标语素依次进行匹配;参考预先设定的描述向量提取规则,基于所述匹配结果,从信息源中提取出涉及特定主题的描述向量;以及基于所述描述向量,生成涉及特定主题的全局性信息,即为所述要提取的涉及特定主题的有用信息。在根据本发明的信息提取方法和装置中,无需对信息源进行词语划分和/或语法分析,因此可以较为简单和快速地从信息源中提取出所需的信息。

Description

信息提取方法和装置
技术领域
本发明总体上涉及计算机信息处理技术,并且尤其是涉及从诸如网页、文档等之类的信息源中提取涉及特定主题的相关信息的技术。
背景技术
存在许多包含有大量信息的、用自然语言来表述内容的网页和文档等信息源。目前已经提出了很多信息提取技术用来从这些信息源中提取有用的信息,例如,涉及特定主题的评价信息等。现有的信息提取系统包括知从文本中提取关键词的系统,提取固有名词和数值等的系统,以及提取意见和评判等的系统等。狭义的信息提取技术是指以特定领域的文本为对象,利用事先准备好的应提取信息的模板(或者信息提取规则)来提取所期望的有用信息。
图1的示意图示出了一个典型的信息提取系统100的处理过程。如图1所示,在信息提取系统100中,评价向量提取器110通过参考例如目标词典、属性词典、评价词典之类的资源1~资源n,从文档等信息源中提取出关于各种主题的评价向量,然后评价信息合成器120对特定主题的评价向量进行聚合,从而得到关于该特定主题的评价信息。
关于信息提取方面的技术,目前已发表了多篇的论文和/或提交了多篇专利申请。例如,可参见:由松下电器产业株式会社申请的、发明名称为“信息提取系统”、公开号为CN1942877A的中国专利申请;由微软公司申请的、发明名称为“学习并使用广义串模式用于信息提取”、公开号为CN1627300A的中国专利申请;等等。以提取涉及特定主题的评价信息为例,从目前已经公开的各种信息提取技术的文献来看,已有的信息提取技术可以主要分为以下两种类型:(1)基于最近匹配的评价信息提取方法,该种方法的基本流程是:首先对文档进行分词,然后从中查找到目标词(例如,公司品牌名、产品名等)的位置,接着在目标词的附近搜寻距其最近的评价词,并将这个评价词认定为对该目标词的评价;(2)基于完全语法分析的评价信息提取方法,该种方法的基本流程是:首先对问文档进行分词,之后进行词性标注和完全语法分析,然后从分析得到的语法树中查找目标词,并且按照语法树中的依赖关系,找到与之对应的评价词。
已有的各种基于信息提取规则的信息提取方法虽然可以提取与特定主题有关的信息,但是,在从文档等信息源中提取涉及各种主题的评价向量的过程中,往往需要手工构造复杂的提取规则,以及/或者需要进行复杂的语法分析,以便对文档等信息源进行准确的分词处理。因此,已有的各种信息提取方法中普遍存在不能快速处理大规模文档的问题。而且,实际上,在自然语言体系中,往往存在大量不符合语法规范的表述方式。因此,如何更好地且更快速地从自然语言体系的文档等信息源中提取出更多的有用信息,仍然是急待解决的问题之一。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
为了至少部分地解决现有技术的上述问题,本发明的一个目的是提供一种改进的信息提取方法和/或装置,其能够从自然语言描述的信息源中提取出涉及特定主题的有用信息,而无需对信息源进行复杂的词语划分和/或语法分析。
本发明的另一目的是,提供一种改进的评价信息提取方法和/或装置,其能够从诸如网上评论等之类的信息源中提取出用户对于某些特定品牌或者某些特定产品的评论信息,而无需对信息源进行复杂的词语划分和/或语法分析。
为了实现上述目的,根据本发明的一个方面,提供了一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,该信息提取方法包括以下步骤:参考预先设定的涉及特定主题的第一资源,从所述信息源中查找并定位所有感兴趣的各类目标语素;从所述信息源中选择出所有包含所述找到的各类目标语素的语句;参考预先设定的涉及特定主题的第二资源,对所选择出的所有语句中的各类目标语素依次进行匹配;参考预先设定的描述向量提取规则,基于所述匹配结果,从信息源中提取出涉及特定主题的描述向量;以及基于所述提取出的描述向量,生成涉及特定主题的全局性信息,即为所述要提取的涉及特定主题的有用信息。
根据本发明的另一个方面,还提供了一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取装置,该信息提取装置包括:资源和规则库,用于存储在执行信息提取时要用到的、预先设定好的涉及特定主题的各种资源和规则;描述向量提取器,用于通过参考所述资源和规则库中存储的资源和规则,从输入的信息源中提取出涉及某些特定主题的描述向量;以及信息生成器,用于基于所述描述向量提取器所提取出的描述向量,生成涉及特定主题的全局性信息,即为所述要提取的涉及特定主题的有用信息,其中,所述描述向量提取器进一步包括:语素提取单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第一资源,从所述信息源中查找并定位所有感兴趣的各类目标语素;语句选择单元,用于从所述信息源中选择出所有包含所述找到的各类目标语素的语句;匹配单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第二资源,对所述语句选择单元所选择出的所有语句中的各类目标语素依次进行匹配;以及描述向量生成单元,用于通过参考存储在所述资源和规则库中的描述向量提取规则,基于来自所述匹配单元的匹配结果,从信息源中提取出涉及特定主题的描述向量。
依据本发明的其它方面,还提供了相应的计算机可读存储介质和计算机程序产品。
本发明的一个优点在于,在根据本发明原理的信息提取方法和/或信息提取装置中,由于对用自然语言描述的各种信息源而言,基于简单的匹配而不是基于复杂的提取规则或语法规则的信息提取技术往往能够提取出更多的相关信息,因此能够获得更好的信息提取效果。
本发明的又一个优点在于,在根据本发明原理的信息提取方法和/或信息提取装置中,由于无需对信息源进行词语划分和/或语法分析,因此可以较为简单和快速地从信息源中查找并定位所有感兴趣的涉及特定主题的目标语素,并据此从信息源中提取出涉及特定主题的有用信息,因此,根据本发明原理的信息提取方法和/或信息提取装置适合于从海量信息源中提取出有用信息。
本发明还有一个优点在于,可以将根据本发明原理的信息提取方法和/或信息提取装置用于从诸如网友评论等之类的信息源中提取出用户对某些产品的评论意见,从而向相关的企业或者公司提供所收集的用户评论意见,以便使企业或者公司可以及时地掌握用户的喜好并据此迅速地做出反应,或者提供给产品的潜在用户,以便用户在购买前较为全面地掌握其他用户对于该产品和/或类似产品的评论意见。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了一个典型的信息提取系统100的处理过程的示意图;
图2示出了根据本发明的一个实施例、从文档等信息源中提取有用信息的信息提取方法200的示意性流程图;
图3示出了在根据本发明一个实施例的信息提取方法中用到的相关资源和匹配规则的例子;
图4示出了在根据本发明一个实施例的信息提取方法中输入的文本、从该文本中提取出的描述向量和据此得到的全局性评价信息的例子;以及
图5示出了根据本发明的一个实施例、从文档等信息源中提取有用信息的信息提取装置500的示意性方框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
下面结合图2~图4对根据本发明一个实施例、从诸如文档之类的信息源中提取出有用信息的信息提取方法的处理过程进行描述。为了便于描述,下面以文档作为信息源的例子、以产品评价信息作为要提取的有用信息的例子来对根据本发明实施例的信息提取方法的具体处理流程进行描述。然而,本领域技术人员应当明白,根据本发明原理的信息提取方法并不局限于在此结合附图所描述的具体实施例。
图2示出了根据本发明的一个实施例、从文档等信息源中提取有用信息(例如,产品评价信息)的信息提取方法200的示意性流程图。
如图2所示,在步骤S210中,通过参考预先设定的一个或多个资源、例如资源1~资源k,从信息源、例如文档等中查找并定位所有感兴趣的各类语素(为了便于描述,以下将其称为目标语素)。例如,资源1~资源k可以是诸如企业/品牌列表、产品列表、属性列表、修饰词列表、评价词列表等之类的、分别列出了各类目标语素的列表,而所述目标语素可以是例如产品的品牌名称、产品名称、产品属性、对产品的评价词及有关的修饰词(例如副词)等多类语素。
在图3的上半部分中示出了在根据本发明一个实施例的信息提取方法中用到的相关资源的例子,其中作为示例示出了品牌列表、产品列表、属性列表、修饰词列表和评价词列表五个资源的例子。其中,在品牌列表中,列出了市面上常见的各种产品的品牌名称或者企业名称等,例如苹果、宝马、索尼等;在产品列表中,列出了各种产品的产品名称或者产品型号等,例如iPod、X5等;在属性列表中,列出了各种产品所具有的产品属性,例如,画面、照片质量、色彩、外观、大小等;在修饰词列表中,列出了中文表述中常见的用于修饰评价值的修饰词(例如,副词),例如,非常、很、不等,并且为每个修饰词赋予了一个数值(在下文中也可以被称为修饰值),以比较直观地反映出该修饰词的修饰程度,例如,修饰词“非常”被赋予值“+2”,“不”被赋予值“-1”,“比较”被赋予值“+0.8”,等等,其中数值的“+”或“-”符号表明对应的修饰词是正面肯定性的修饰还是负面否定性的修饰;在评价词列表中,列出了中文表述中常见的用于表明人们对产品的优劣评价的评价词,例如,差、清晰等,并且与修饰词列表中列出的修饰词相类似地,每个评价词也被赋予一个数值(在下文中也可以被称为评价值),以比较直观地反映人们对于产品的评价,例如,“清晰”被赋予值“+1”,“鲜艳”被赋予值“+1”,等等。
返回参见图2。在步骤S220中,从文档中选择出所有包含了在步骤S210中所找到的目标语素的语句。
然后,在步骤S230中,通过参考预先设定的一个或多个资源、例如资源m~资源n,对步骤S220中所选择出的所有语句中的各类目标语素依次进行多层次匹配。在此,根据需要,资源m~资源n可以包含以上所描述的、在查找并定位有用语素时参考的资源1~资源k中的一个或者多个资源,并且还可以包含其他的资源,例如,品牌名称与产品名称的匹配规则、产品名称与产品属性的匹配规则(以下统称为匹配规则)等等。在该步骤中,通过参考资源m~资源n,根据所选语句中所包含的各个有用语素之间的位置关系、语素属性等对语素进行多层次匹配。具体来说,视实际需要依次进行以下各级匹配中的一级或多级匹配:产品品牌(即,第一类语素,也可称为第一级语素)与产品名称(即,第二类语素,也可称为第二级语素)的匹配、产品名称(或者必要时为第一、二级语素)与产品属性(即,第三类语素,也可称为第三级语素)的匹配、产品属性(或者必要时为第二、三级语素或者第一、二、三级语素)与评价词(即,第四类语素,也可称为第四级语素)的匹配、评价词(或者必要时为第三、四级语素、或者第二、三、四级语素、或者第一、二、三、四级语素)与修饰词(即,第五类语素,也可称为第五级语素)的匹配,从而确定各个语素之间的匹配关系。虽然在此描述了五类目标语素(其分别对应于五级语素),但是显然根据本发明原理的信息提取方法并不仅仅局限于此。
在图3的下半部分中示出了在根据本发明一个实施例的信息提取方法中用到的匹配规则的例子。对于所选出的各个语句中,适用例如图3中所示的匹配规则,可以得到相应的描述了目标语素之间的对应关系的匹配结果。
接下来,如图2所示,方法200的处理流程进行到步骤S240。在该步骤中,参考描述向量的提取规则(例如,描述向量的定义),基于步骤S230中的多层次匹配结果,从文档中提取出描述向量。在此,描述向量是指生成所需有用信息所需要的描述性信息,用于描述在步骤S220中所选择的各个语句中所包含的各个语素之间在经多层次匹配处理后确定的相互关系。
例如,在此可以假设描述向量被定义如下:<企业/品牌名称,产品名称,产品属性,修饰词,评价词>。这样,例如,对于文档中包含的下述语句:“最近买了A公司的FK3相机,刚开始测试的时候觉得还行”,参考如图3所示的相关资源列表和匹配规则以及上述描述向量定义,可以得到以下的描述向量:<A公司,FK3相机,--,--,还行>。
然后,如图2所示,在步骤S250中,参考所需有用信息(在此为产品评价信息)的定义,基于步骤S240中得到的描述向量,生成全局性信息(在此为全局性评价信息,也可以简称为评价信息)。
在此,假设全局性评价信息被定义如下:<企业/品牌名称,产品名称,产品属性,全局评价值>。这样,对于步骤S240中得到的描述向量,可以参考例如图3所示的相关资源列表获得描述向量中的修饰词的修饰值和评价词的评价值,然后综合考虑这两个数值以获得一个全局评价值(例如,可以通过将这两个数值相乘得到的乘积作为全局评价值,但是本发明并不仅仅局限于此)。该全局评价值从整体上反映了人们对所述企业/品牌的所述产品在所述产品属性方面的评价,它的绝对值越大,表明人们对它的优劣评价程度越高。
然而,在现实的生活中,人们在发表对某一产品的评价意见时使用的用语和/或表述方式往往可能存在着很大差异,这为目标语素的确定以及进而为评价信息的生成带来了一定的麻烦。鉴于此,在根据本发明的另一个实施例中,在从输入的文档中生成全局性评价信息的过程中,可以对以上结合图2所述的方法200进行改进,以便消除由于不规范或者不统一的用语或表述而造成的不利影响。例如,可以在图3所示出的相关资源(例如,品牌列表、产品列表、属性列表等)中列出对于某一规范性用语或表述的其他各种常见的替代性用语或表述,例如,可以在品牌列表中同时列出苹果和apple,在产品列表中同时列出马自达6和马6等,在属性列表中同时列出色泽和色彩,等等。这样,在参考相关资源从输入的文本等中查找并定位目标语素时,不仅可以找到使用规范性用语或表述来表示的语素,而且可以找到使用非规范性用语或表述来表示的语素,从而可以避免遗漏某些感兴趣的语素。然后,可以在提取了描述向量之后和生成全局性评价信息之前用规范性表示的语素来代替所提取出的描述向量中包含的非规范性表示的语素,从而可以最终得到规范性表示的评价信息。
在根据本发明的一个实施例中,例如,对于在图4的上部中所示出的输入文本的例子,利用如图2所示的信息处理方法200,参考图3所示的相关资源和匹配规则,可以得到如图4的中部所示的描述向量(此时并未用规范性表示的语素来代替非规范性表示的语素),并进而得到如图4的下部所示的全局性评价信息。如图所示,在下部所示的评价信息中,已经用规范性表示的“色彩”(属于产品属性)代替了非规范性表示的“色泽”。
在上文中以从输入的文本中提取用户的产品评价信息为例、结合图2~图4对根据本发明实施例的信息提取方法的具体处理过程进行了说明,但是,本领域技术人员应当明白,根据本发明原理的信息提取方法不仅仅局限于提取产品评价信息,而且可以适用于从诸如文档、网页等信息源中提取任何涉及相关主题的有用信息,只要预先定义好方法中要用到的各种相关资源和/或规则、例如用于查找并定位目标语素的相关资源、用于确定目标语素之间的匹配关系的匹配规则、用于提取描述向量的提取规则等即可。
而且,本领域技术人员完全可以取决于实际需要对根据本发明原理的、以上结合附图所描述的信息提取方法的某些具体处理步骤或过程进行适当的修改、变更或者改进,例如,可以人工地或者自动地定期对上述信息提取方法中要用到的各种资源和/或规则(例如,品牌列表等中列出的语素、评价词列表等中列出的语素及赋予其的评价值等)等进行更新或者修正等,在此为了说明书的简明起见就不再一一列举了。
图5示出了根据本发明的一个实施例的信息提取装置500的示意性方框图。该信息提取装置500可以执行以上结合图2~图4所描述的信息提取方法200,以便从输入的信息源中提取出所期望的涉及特定主题的有用信息。
在此,需要说明的是,为了简单和清楚起见,图5中仅仅示出信息提取装置的与本发明密切相关的组成部分,而并未示出其他与本发明关系不大或者毫不相关的组成部分,而且以下的描述也仅涉及与本发明密切相关的那些组成部分。
如图5所示,信息提取装置500包括资源和规则库510、描述向量提取器520和信息生成器530。其中,所述资源和规则库510用于存储在执行信息提取时可能会用到的、预先设定好的各种资源和/或规则,例如,如图3所示的诸如品牌列表、产品列表等的相关资源,目标语素之间的匹配规则,描述向量的提取规则等等。
描述向量提取器520用于通过参考所述资源和规则库510中存储的资源和/或规则,从输入的信息源中提取出涉及某些特定主题的描述向量。如图5所示,描述向量提取器520进而包括语素提取单元522、语句选择单元524、匹配单元526和描述向量生成单元528。其中,语素提取单元522可以如以上结合图2~图4所描述的那样,通过参考存储在所述资源和规则库510中的一个或多个资源,从输入的信息源(例如文档等)中查找并定位所有感兴趣的各类目标语素。语句选择单元524可以如以上结合图2~图4所描述的那样,从输入的信息源中选择出所有包含上述目标语素的语句。匹配单元526可以如以上结合图2~图4所描述的那样,通过参考存储在所述资源和规则库510中的一个或多个资源,对所述语句选择单元524所选择出的所有语句中的各类目标语素依次进行多层次匹配,例如,第一级语素(例如,产品品牌)与第二级语素(例如,产品名称)的匹配、第二级语素与第三级语素(例如,产品属性)的匹配、第三级语素与第四级语素(例如,评价词)的匹配、等等。描述向量生成单元528可以如以上结合图2~图4所描述的那样,参考描述向量的提取规则(例如,描述向量的定义),并依据来自所述匹配单元526的多层次匹配结果,从信息源中提取出涉及特定主题的描述向量。
所述信息生成器530可以如以上结合图2~图4所描述的那样,基于所述描述向量提取器520所提取出的描述向量而生成所需的涉及特定主题的有用信息。
通过阅读以上结合图2~图4给出的根据本发明实施例的信息提取方法的具体处理过程的详细描述可知,上述各个装置或单元的具体操作或处理过程是很清楚的,因此,为了避免重复,在此就不再对其进行详述了。
此外,正如上文所描述的那样,可以根据需要对图5所示的信息提取装置进行适当的修改或改进。例如,可以在所述信息提取装置500中添加以下模块或单元:语素修正器,用于用规范性表示的语素来代替由所述描述向量提取器520所提取出的描述向量中包含的非规范性表示的语素;以及/或者用于定期地对所述资源和规则库510中存储的各种资源进行更新或者修正的单元;等等。当然,也可能存在其他的修改或改进之处,在此就不一一列举了。
如上所述,在根据本发明原理的信息提取方法和/或装置中,可以针对所感兴趣的各种目标语素设定多种多样符合需求的资源,例如,为某些目标语素、例如产品评价词等设定诸如以上所描述的评价值之类的数值,以直观地反映出所述目标语素在某些方面的强烈程度,并且在提取有用信息时考虑了诸如副词等修饰词的影响程度,因此,能够更为准确地从信息源中提取出有关的信息。
而且,通过以上的描述不难看出,根据本发明原理的信息提取技术通过简单的多层次匹配,能够较为简单和快速地从信息源中找出所期望的有用信息,而无需对信息源进行词语划分和/或语法分析等,从而克服或者缓解了现有技术中存在的缺陷,并且能够适用于海量信息提取。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims (2)

1.一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括以下步骤:
参考预先设定的涉及特定主题的第一资源,从所述信息源中查找并定位所有感兴趣的各类目标语素;
从所述信息源中选择出所有包含所述找到的各类目标语素的语句;
参考预先设定的涉及特定主题的第二资源,对所选择出的所有语句中的各类目标语素依次进行匹配;
参考预先设定的描述向量提取规则,基于所述匹配结果,从信息源中提取出涉及特定主题的描述向量;以及
基于所述提取出的描述向量,生成涉及特定主题的全局性信息,该全局性信息即为所述要提取的涉及特定主题的有用信息,
其中,所述描述向量是指生成所述全局性信息所需要的描述性信息,用于描述所选择出的语句中所包含的目标语素之间在所述匹配后确定的关系,并且
所述进行匹配的步骤进一步包括:对于所述选择出的所有语句中的各类目标语素,根据所述选择出的所有语句中的各类目标语素的位置关系和语素属性,参考所述第二资源,依次地进行以下各级匹配中的一级或多级匹配:第一类语素与第二类语素间的匹配,第二类语素或第一、二类语素与第三类语素间的匹配,第三类语素、或者第二、三类语素、或者第一、二、三类语素与第四类语素间的匹配,依此类推,直至到最后一类语素的匹配。
2.一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取装置,包括:
资源和规则库,用于存储在执行信息提取时要用到的、预先设定好的涉及特定主题的各种资源和规则;
描述向量提取器,用于通过参考所述资源和规则库中存储的资源和规则,从输入的信息源中提取出涉及某些特定主题的描述向量;以及
信息生成器,用于基于所述描述向量提取器所提取出的描述向量,生成涉及特定主题的全局性信息,该全局性信息即为所述要提取的涉及特定主题的有用信息,
其中,所述描述向量提取器进一步包括:
语素提取单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第一资源,从所述信息源中查找并定位所有感兴趣的各类目标语素;
语句选择单元,用于从所述信息源中选择出所有包含所述找到的各类目标语素的语句;
匹配单元,用于通过参考存储在所述资源和规则库中的、涉及特定主题的第二资源,对所述语句选择单元所选择出的所有语句中的各类目标语素依次进行匹配;以及
描述向量生成单元,用于通过参考存储在所述资源和规则库中的描述向量提取规则,基于来自所述匹配单元的匹配结果,从信息源中提取出涉及特定主题的描述向量,
其中,所述描述向量是指生成所述全局性信息所需要的描述性信息,用于描述所述语句选择单元所选择出的语句中所包含的目标语素之间的、在所述匹配单元进行的所述匹配之后确定的关系,并且
其中,所述匹配单元被进一步配置为:对于所述选择出的所有语句中的各类目标语素,根据所述选择出的所有语句中的各类目标语素的位置关系和语素属性,通过参考所述第二资源,依次地进行以下各级匹配中的一级或多级匹配:第一类语素与第二类语素间的匹配,第二类语素或第一、二类语素与第三类语素间的匹配,第三类语素、或者第二、三类语素、或者第一、二、三类语素与第四类语素间的匹配,依此类推,直至到最后一类语素的匹配。
CN 200810171185 2008-10-22 2008-10-22 信息提取方法和装置 Expired - Fee Related CN101727451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810171185 CN101727451B (zh) 2008-10-22 2008-10-22 信息提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810171185 CN101727451B (zh) 2008-10-22 2008-10-22 信息提取方法和装置

Publications (2)

Publication Number Publication Date
CN101727451A CN101727451A (zh) 2010-06-09
CN101727451B true CN101727451B (zh) 2013-10-16

Family

ID=42448353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810171185 Expired - Fee Related CN101727451B (zh) 2008-10-22 2008-10-22 信息提取方法和装置

Country Status (1)

Country Link
CN (1) CN101727451B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103582881B (zh) * 2012-05-31 2017-05-03 株式会社东芝 见解抽出装置、见解更新装置及程序
CN103500181B (zh) * 2013-09-11 2017-05-24 刘春梅 一种互联网信息分析方法和装置
CN106598946A (zh) * 2016-12-14 2017-04-26 厦门市美亚柏科信息股份有限公司 一种内容提取方法及装置
CN108665306B (zh) * 2018-05-04 2021-05-25 合肥工业大学 核心竞争产品识别方法和系统、存储介质
CN109101643A (zh) * 2018-08-21 2018-12-28 智久(厦门)机器人科技有限公司上海分公司 数据信息表的构建、抗伪点全局匹配方法、装置及机器人

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1410918A (zh) * 2002-05-31 2003-04-16 浙江大学 基于信息抽取技术的搜索引擎
CN1955960A (zh) * 2005-10-28 2007-05-02 日电(中国)有限公司 文档信息表构造装置以及利用其的浏览和查找系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1410918A (zh) * 2002-05-31 2003-04-16 浙江大学 基于信息抽取技术的搜索引擎
CN1955960A (zh) * 2005-10-28 2007-05-02 日电(中国)有限公司 文档信息表构造装置以及利用其的浏览和查找系统

Also Published As

Publication number Publication date
CN101727451A (zh) 2010-06-09

Similar Documents

Publication Publication Date Title
US9779133B2 (en) Contextual debugging of SQL queries in database-accessing applications
CN106528165B (zh) 代码生成方法及代码生成系统
US9342301B2 (en) Converting and input script to a natural language description
US11138005B2 (en) Methods and systems for automatically generating documentation for software
EP3866028A2 (en) Method and apparatus for constructing quality evaluation model, device and storage medium
US9965472B2 (en) Content revision using question and answer generation
US20140280087A1 (en) Results of Question and Answer Systems
CN104252533A (zh) 搜索方法和搜索装置
CN110795524B (zh) 主数据映射处理方法、装置、计算机设备及存储介质
US11593392B2 (en) Transformation rule generation and validation
CN101833555A (zh) 信息提取方法和装置
CN101727451B (zh) 信息提取方法和装置
US20180276257A1 (en) Extending tags for information resources
Kessentini et al. Automated metamodel/model co-evolution using a multi-objective optimization approach
CN117389541B (zh) 基于对话检索生成模板的配置系统及设备
Phan-Udom et al. Teddy: automatic recommendation of pythonic idiom usage for pull-based software projects
CN110750297B (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
US20190079649A1 (en) Ui rendering based on adaptive label text infrastructure
Sun A natural language interface for querying graph databases
CN104750484A (zh) 一种基于最大熵模型的代码摘要生成方法
CN114896269A (zh) 结构化查询语句检测方法、装置、电子设备及存储介质
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
Bull Software maintenance by program transformation in a wide spectrum language
CN110929501A (zh) 文本分析方法和装置
Zhong et al. Burner: Recipe automatic generation for HPC container based on domain knowledge graph

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131016

Termination date: 20181022

CF01 Termination of patent right due to non-payment of annual fee