CN101833555A - 信息提取方法和装置 - Google Patents
信息提取方法和装置 Download PDFInfo
- Publication number
- CN101833555A CN101833555A CN200910127243A CN200910127243A CN101833555A CN 101833555 A CN101833555 A CN 101833555A CN 200910127243 A CN200910127243 A CN 200910127243A CN 200910127243 A CN200910127243 A CN 200910127243A CN 101833555 A CN101833555 A CN 101833555A
- Authority
- CN
- China
- Prior art keywords
- information
- morpheme
- speech
- evaluation
- morphemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息提取方法和装置。用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。
Description
技术领域
本发明总体上涉及计算机信息处理技术,并且尤其是涉及从诸如网页、文档、新闻等之类的信息源中提取涉及特定主题的相关信息的技术。
背景技术
存在许多包含有大量信息的、用自然语言来表述内容的网页、文档和新闻等信息源。目前已经提出了很多信息提取技术用来从这些信息源中提取有用的信息,例如涉及特定主题的评价信息等。现有的信息提取系统包括知从文本中提取关键词的系统,提取固有名词和数值等的系统,以及提取意见和评判等的系统等。狭义的信息提取技术是指以特定领域的文本为对象,利用事先准备好的应提取信息的模板(或者信息提取规则)来提取所期望的有用信息。
关于信息提取方面的技术,目前已发表了多篇的论文和/或提交了多篇专利申请。例如,可参见:由松下电器产业株式会社申请的、发明名称为“信息提取系统”、公开号为CN1942877A的中国专利申请;由微软公司申请的、发明名称为“学习并使用广义串模式用于信息提取”、公开号为CN1627300A的中国专利申请;等等。以提取涉及特定主题的评价信息为例,从目前已经公开的各种信息提取技术的文献来看,已有的信息提取技术可以主要分为以下两种类型:(1)基于最近匹配的评价信息提取方法,其中首先对文档进行分词,然后从中查找到目标词(例如,公司品牌名、产品名等)的位置,接着在目标词的附近搜寻距其最近的评价词,并将这个评价词认定为对该目标词的评价;(2)基于完全语法分析的评价信息提取方法,其中首先对文档进行分词,之后进行词性标注和完全语法分析,然后从分析得到的语法树中查找目标词,并且按照语法树中的依赖关系,找到与之对应的评价词。
然而,已有的各种基于信息提取规则的信息提取方法虽然可以提取与特定主题有关的信息,但是都是基于目标词词典对目标词进行查找,对于包含了未出现在目标词词典中的目标词则无法定位,因此,已有的各种信息提取方法中普遍存在不能有效处理多种信息源的问题。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
为了至少部分地解决现有技术的上述问题,本发明的一个目的是提供一种改进的信息提取方法和/或装置,本发明的目的在于,提供一种全自动的信息提取方法和/或信息提取装置,用以从各种自然语言描述的已知或未知的信息源中提取涉及特定主题的有用信息。
本发明的另一目的是,提供一种改进的评价信息提取方法和/或装置,其能够从诸如网上评论等之类的各种已知或未知的信息源中提取出用户对于某些特定品牌或者某些特定产品的评论信息。
为了实现上述目的,根据本发明的一个方面,提供了一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。
根据本发明的另一个方面,还提供了一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取装置,包括:资源和规则库,被配置成存储在执行信息提取时要用到的、预定的涉及特定主题的各种资源和规则;描述向量提取器,被配置成通过参考所述资源和规则库中存储的资源和规则,从输入的信息源中提取出涉及某些特定主题的描述向量;以及信息生成器,被配置成基于所述描述向量提取器所提取出的描述向量,生成涉及特定主题的全局性信息,以作为所述涉及特定主题的有用信息,其中,所述描述向量提取器进一步包括:语素定位单元,被配置成基于存储在所述资源和规则库中的、描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;以及匹配单元,被配置成按照存储在所述资源和规则库中的、涉及特定主题的预定匹配规则,对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量。
依据本发明的其它方面,还提供了相应的计算机可读存储介质和计算机程序产品。
本发明的一个优点在于,在根据本发明原理的信息提取方法和/或信息提取装置中,由于采用了描述了各类训练语素的组合概率的分类模板,即可从各种信息源中定位感兴趣的各类目标语素,因此可以提取出完全不限于已经收录在目标词词典中的更多目标语素,因此能够获得更好的信息提取效果,而且适合于从海量信息源中提取出有用信息。
本发明还有一个优点在于,可以将根据本发明原理的信息提取方法和/或信息提取装置用于从诸如网友评论等之类的信息源中提取出用户对某些产品的评论意见,从而向相关的企业或者公司提供所收集的用户评论意见,以便使企业或者公司可以及时地掌握用户的喜好并据此迅速地做出反应,或者提供给产品的潜在用户,以便用户在购买前较为全面地掌握其他用户对于该产品和/或类似产品的评论意见。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明的第一实施例、从文档等信息源中提取有用信息的信息提取方法100的示意性流程图;
图2示出了根据本发明的第二实施例、从文档等信息源中提取有用信息的信息提取方法200的示意性流程图;
图3示出了根据本发明的第三实施例、从文档等信息源中提取描述向量的具体流程图;
图4示出了在根据本发明第三实施例的信息提取方法中用到的相关资源和训练语料的例子;
图5示出了在根据本发明一个实施例的信息提取方法中输入的文本、从该文本中提取出的描述向量和据此得到的全局性评价信息的例子;
图6示出了根据本发明的一个实施例、从文档等信息源中提取有用信息的信息提取装置600的示意性方框图;以及
图7是示出其中实现本发明的计算机的示例性结构的框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
第一实施例
下面结合图1对根据本发明的第一实施例、从诸如网页、文档、新闻等之类的信息源中提取出有用信息的信息提取方法100的处理过程进行描述。为了便于描述,下面以文档作为信息源的例子、以产品评价信息作为要提取的有用信息的例子来对根据本发明实施例的信息提取方法的具体处理流程进行描述。然而,本领域技术人员应当明白,根据本发明原理的信息提取方法并不局限于在此结合附图所描述的具体实施例。
图1示出了根据本发明的第一实施例、从文档等信息源中提取有用信息(例如产品评价信息)的信息提取方法100的示意性流程图
如图1所示,在步骤S101开始后,在步骤S102中,基于描述了各类训练语素的组合概率的分类模板,从信息源、例如文档等中查找并定位感兴趣的各类语素(为了便于描述,以下将其称为目标语素)。
分类模板描述了大量的已有训练语素的组合概率,这些已有训练语素是包括如产品的品牌名称、产品名称、产品属性、对产品的评价词及有关的修饰词(例如副词)等多类评价性目标语素之内的语句中的所有语素。
分类模板可以通过对包含各种训练语素的训练语料训练学习而获得。通过统计训练语料中的语素及其组合信息进行机器学习获得统计规则(即已有训练语素的组合概率),即可利用这些统计规则(即训练语素的组合概率)对待分析的信息源是否包含目标语素进行判断。以评价信息源为例,假设训练语料中存在很多诸如“外型很好”“造型很别致”这类“AA很BB”的句型,通过对这些训练语料的学习,学习获得作为统计规则的这个句型。这样在定位待分析信息源时,如果输入信息源中出现了这个句型,例如“价格很便宜”,那么即可(例如以标注的形式)将“价格”定位为评价对象,将“便宜”定位为评价词。
基于分类模板所描述的已有训练语素的组合概率,不仅可以从信息源中获得已经在训练语素中出现过的目标语素,而且可以基于其上下文判断未在训练语素中出现的某个语素是否符合分类模板所定义的与预定上下文相组合的目标语素。以上的目标语素可以是例如产品的品牌名称和/或产品名称、产品属性、对产品的评价词及有关的修饰词(例如副词)等多类语素。
在步骤S103,按照预定的匹配规则对所定位的各类目标语素进行匹配,并提取符合预定匹配规则的目标语素以组合成描述向量。具体地可以所定位的各类目标语素的位置关系和/或连接词进行匹配,并将描述同一产品属性的语素组合成一个描述向量。在此对所使用的匹配方法不作限制,简单的如“就近匹配法”,复杂的有“句法分析”法,“浅层句法分析”法等等匹配规则。在第一实施例中针对产品评价信息的匹配规则可被定义为按照预设顺序排列的<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>、或者是<企业/品牌名称和/或产品名称,产品属性,评价词>。以<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>为例,可以理解,由于不同的表述/书写习惯或由于使用不同的连接词,企业/品牌名称和/或产品名称,产品属性,修饰词和评价词可能以不同的顺序排列。
在此,描述向量是指生成所需有用信息所需要的描述性信息,用于表达了明确的评论内容。仍以产品评价信息作为要提取的有用信息为例,可基于匹配规则获得定义如下的描述向量:<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>。
在步骤S104,基于提取出的描述向量,生成全局性信息以作为涉及特定主题的有用信息(在此实施例中为全局性评价信息,也可以简称为评价信息)。
第二实施例
图2示出了根据本发明的第二实施例、从文档等信息源中提取有用信息的信息提取方法200的示意性流程图。
第二实施例与第一实施例的区别在于:如图所示,步骤S201在提取描述向量时首先采用了分类模板结合领域词典来定位感兴趣的各类目标语素。
分类模板同样可通过对包含各种训练语素的训练语料训练学习而获得,在此训练语素以列表的形式被标注了与包含各类标准语素列表的预定资源的相关性、以及是否成为感兴趣的某类目标语素。在此,预定资源所包含的各类标准语素列表(在本实施例中即领域词典)可包括产品属性词典、副词词表以及评价词表,可选地还可包括企业/品牌词表和/或产品词表。由于第二实施例中的分类模板结合考虑了各个训练语素是否已属于某类标准语素,因此通过统计训练语料中包含标准语素在内的训练语素及其组合信息进行机器学习,可以获得更准确地描述了包括标准语素在内的已有训练语素之间的组合概率的统计规则,这样使用这些统计规则综合考虑所述对信息源中的语素是否属于所述预定资源的各类标准语素,即可更高效地判断待分析的信息源是否包含目标语素。
这样,基于分类模板从信息源中定位感兴趣的各类目标语素的步骤包括:
基于所述预定资源,对信息源中的语素标注是否属于所述预定资源的各类标准语素;以及
基于分类模板中各类已有的训练语素的组合概率,综合考虑对信息源中的语素已标注的是否属于所述预定资源的各类标准语素,从所述信息源的语素中判断感兴趣的各类目标语素。
随后在步骤S201按照预定的匹配规则对所定位的各类目标语素进行匹配并提取符合预定匹配规则的目标语素以组合成描述向量。此子步骤参见对第一实施例的步骤S103的相应描述,在此不再赘述。
在步骤S202,参考评价词-评价值对应表将描述向量数值化,获得数值化的全局性评价信息,例如被定义为<企业/品牌名称和/或产品名称,产品属性,全局评价值>。具体地,通过综合考虑描述向量中的评价词和修饰词的相应数值来确定数值化的全局评价值,以便于以图表等形式进行展现。
具体地,通过优先查询属性评价词-评价值对应表、其次再查询通用评价词-评价值对应表的方式来获得评价词的相应数值,其中,通用评价词-评价值对应表列出了通用的评价词的数值,而属性评价词-评价值对应表列出了针对特定属性的评价词的数值。通用评价词-评价值对应表和属性评价词-评价值对应表中,每个评价词的数值的正或负符号表示用户对产品的评价是正面还是负面的评价,数值的绝对值大小反映了对产品的评价程度。
针对修饰词的相应数值是通过查询修饰词-评价值对应表而获得的。该修饰词-评价值对应表中列出的每个修饰词都被赋予有一个数值,该数值的正或负符号表示修饰词对评价词是正面肯定性修饰还是负面否定性修饰,其绝对值大小反映了修饰词对评价词的修饰程度。
在获得描述向量中的评价词和修饰词的相应数值后,可以例如通过将这评价词和修饰词的两个数值相乘得到的乘积作为全局评价值,但是本发明并不仅仅局限于此。该全局评价值从整体上反映了人们对所述企业/品牌的所述产品在所述产品属性方面的评价,它的绝对值越大,表明人们对它的优劣评价程度越高。
以句子“通用的加速性能是非常不稳定”为例,抽取出的评价向量是<通用,加速性能,稳定,<非常,不>>,假设评价词表中“稳定”的评价值为+2,副词词表中“非常”是程度副词,影响值为1.8,“不”是否定副词,影响值为-1,那么这个评价向量的数值计算方法就是:评价值=2×1.8×-1=-3.6。
第三实施例
图3示出了根据本发明的第三实施例、从文档等信息源中提取描述向量的具体流程图。
如图所示,该方法300在定位感兴趣的目标语素时不仅使用了分类模板以及考虑了与领域词典中标准语素的相关性,而且结合考虑了信息源中各语素的词性。其提取描述向量的过程具体如下。
首先在步骤S301对输入信息源中的各个待语素标注词性(如名词n,产品名词nz,动词v,形容词a,连词u等等)。在步骤S302基于包含各类标准语素列表的预定资源(在本实施例中即领域词典)对所述信息源中的语素标注是否属于所述预定资源的各类标准语素。在此,预定资源所包含的各类标准语素列表(在本实施例中即领域词典)可包括产品属性词典、副词词表以及评价词表,可选地还可包括企业/品牌词表和/或产品词表。然后在步骤S303使用分类模板定位感兴趣的目标语素。应了解在此对步骤S301和步骤S302的顺序不作限制,可以先后进行步骤S302和步骤S301,还可以同时进行步骤S301和步骤S302。
由于第三实施例中的分类模板结合考虑了各个训练语素的词性以及是否属于某类标准语素,因此通过统计训练语料中包含标准语素在内的训练语素及其组合信息进行机器学习,可以获得更准确的描述已有训练语素的组合概率的统计规则,即可更高效地利用这些统计规则对待分析的信息源是否包含目标语素进行判断。
图3中的分类模板是通过训练步骤S310对训练语料进行训练学习获得的。图4示出了在根据本发明第三实施例的信息提取方法中用到的相关资源和训练语料的例子。
图4的上半部示出了在根据本发明第三实施例的信息提取方法中用到的相关资源的例子,其中作为示例示出了产品列表、属性列表、修饰词列表和评价词列表四个资源的例子,可选地还可包括品牌列表。其中,在产品列表中,列出了各种产品的产品名称或者产品型号等,例如W170、SX10 IS、50D等;在属性列表中,列出了各种产品所具有的产品属性,例如像素、液晶屏、画面、色彩、价格、光学变焦等;在修饰词列表中,列出了中文表述中常见的用于修饰评价值的修饰词(例如,副词),例如,非常、不、比较、很、超级,并且可以在此为每个修饰词赋予了一个数值(在下文中也可以被称为修饰值),以比较直观地反映出该修饰词的修饰程度,例如,修饰词“非常”被赋予值“+2”,“不”被赋予值“-1”,“比较”被赋予值“+0.8”,等等,其中数值的“+”或“-”符号表明对应的修饰词是正面肯定性的修饰还是负面否定性的修饰;在评价词列表中,列出了中文表述中常见的用于表明人们对产品的优劣评价的评价词,例如还行、差、清晰、鲜艳、真实等,并且优选地与修饰词列表中列出的修饰词相类似地,每个评价词也被赋予一个数值(在下文中也可以被称为评价值),以比较直观地反映人们对于产品的评价,例如,“清晰”被赋予值“+1”,“鲜艳”被赋予值“+1”,等等。修饰词列表和评价词列表中的相关数值将在对描述向量进行数值化时使用。
图4的中部示出了对根据本发明第三实施例的信息提取方法中的分类模板进行训练时使用的训练语料的例子。
在此以“柯达,大家往往想到的指示精良的性能和传统厚重的外型”为例,各个训练语素以列表的形式被标注了词性、与包含各类标准语素列表的预定资源的相关性、以及是否成为感兴趣的某类目标语素,其中训练语料例子中共计6列的各列分别表示:<词条,词性,是否属性词典中出现,是否修饰词词表中出现,是否评价词词表中出现,标记>,而各种标记中,B-XX表示某种语素的开始部分;I-XX表示某种语素的非开始部分;X-PR表示产品名;X-PP表示属性词;X-OP表示评价词。
这样训练语料例子中“柯达”被最终标注为B-PR(产品名的开始部分,由于随后没有B-XX,则“柯达”表示产品名),“精良”被最终标注为B-OP;“性能”被最终标注为B-PP;“传统”被最终标注为B-OR;“厚重”被最终标注为B-OR;“外”被最终标注为B-PP;“型”被最终标注为I-PR。
通过对该训练语料的学习,最终获得描述以上所有的被标注了词性、与包含各类标准语素列表的预定资源的相关性以及是否成为感兴趣的某类目标语素的训练语素在上下文中彼此组合的统计规则(即已有训练语素的组合概率)。还可以继续对大量的训练语料进行训练来获得更多类型的统计规则以作为分类模板。
返回到图3,在步骤S303使用分类模板定位感兴趣的目标语素后,在步骤S304使用预定的匹配规则对目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量。描述向量的使用参见对第一实施例的步骤S103的描述,在此不再赘述。
应了解,第三实施例中在定位感兴趣的目标语素时不仅使用了分类模板以及考虑了与领域词典中标准语素的相关性,而且结合考虑了信息源中各语素的词性,当然也可以在定位感兴趣的目标语素时仅使用了分类模板并结合考虑了信息源中各语素的词性,而不考虑考虑与领域词典中标准语素的相关性。
图5示出了在根据本发明一个实施例的信息提取方法中输入的文本、从该文本中提取出的描述向量和据此得到的全局性评价信息的例子。
例如,在此可以基于匹配规则将描述向量定义如下:<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>。这样,例如对于文档中包含的下述语句:“最近买了A公司的FK3相机,刚开始测试的时候觉得还行,后来用了几次,发现照出的相片质量很差。就是相片在电脑上如果是原始尺寸大小的话,看出的画面非常不清晰,并且色泽也不鲜艳,不真实”,根据本发明的第一、第二或第三实施例,可以得到以下的描述向量:<FK3相机,--,--还行>,<FK3相机,照片质量,很,差>,<FK3相机,画面,非常不,清晰>,<FK3相机,色泽,不,鲜艳>和<FK3相机,画面,不,真实>。
在此,假设全局性评价信息被定义如下:<企业/品牌名称和/或产品名称,产品属性,全局评价值>。这样,对于以上的描述向量,可以参考例如图4所示的相关资源列表获得描述向量中的修饰词的修饰值和评价词的评价值,然后综合考虑这两个数值以获得一个全局评价值。同时计算全局评价值时可于针对同一产品的同一属性的描述向量进行加权平均,例如描述向量<FK3相机,画面,非常不,清晰>和<FK3相机,画面,不,真实>都针对FK3相机的画面,因此最终只获得针对FK3相机画面的一个数值化评论信息<FK3相机,画面,-3>。
然而,在现实生活中,人们在发表对某一产品的评价意见时使用的用语和/或表述方式往往可能存在着很大差异,这为目标语素的确定以及进而为全局性评价信息的生成带来了一定的麻烦。鉴于此,在根据本发明的另一个实施例中,在从输入的文档中生成全局性评价信息的过程中,可以对根据本发明的第一、第二或第三实施例的方法进行改进,以便消除由于不规范或者不统一的用语或表述而造成的不利影响。例如,可以在图4所示出的相关资源(例如产品列表、属性列表等)中列出对于某一规范性用语或表述的其他各种常见的替代性用语或表述,例如可以在品牌列表中同时列出苹果和apple,在产品列表中同时列出马自达6和马6等,在属性列表中同时列出色泽和色彩,等等。当然也可以使用单独的非规范性表示和规范性表示的对应表。这样,在参考相关资源从输入的文本等中查找并定位目标语素时,不仅可以找到使用规范性用语或表述来表示的语素,而且可以找到使用非规范性用语或表述来表示的语素,从而可以避免遗漏某些感兴趣的语素。然后,可以在提取了描述向量之后和生成全局性评价信息之前用规范性表示的语素来代替所提取出的描述向量中包含的非规范性表示的语素,从而可以最终得到规范性表示的评价信息。
在根据本发明的一个实施例中,例如,对于在图5的上部中所示出的输入文本的例子,利用根据本发明第一、第二或第三实施例所述的信息处理方法,可以得到如图5的中部所示的描述向量(此时并未用规范性表示的语素来代替非规范性表示的语素),并进而得到如图5的下部所示的全局性评价信息。如图所示,在下部所示的数值化评价信息中,已经用规范性表示的“色彩”(属于产品属性)代替了非规范性表示的“色泽”。
在上文中以从输入的文本中提取用户的产品评价信息为例、结合图1~图5对根据本发明实施例的信息提取方法的具体处理过程进行了说明,但是,本领域技术人员应当明白,根据本发明原理的信息提取方法不仅仅局限于提取产品评价信息,而且可以适用于从诸如文档、网页等信息源中提取任何涉及相关主题的有用信息,只要预先定义信息提取方法中要用到的各种相关资源和/或规则、例如分类模板、匹配规则和/或领域词典等即可。
而且,本领域技术人员完全可以取决于实际需要对根据本发明原理的、以上结合附图所描述的信息提取方法的某些具体处理步骤或过程进行适当的修改、变更或者改进,例如,可以人工地或者自动地定期对上述信息提取方法中要用到的各种资源和/或规则(例如,各个标准语素列表等中列出的标准语素、及赋予其的评价值等)等进行更新或者修正等,在此为了说明书的简明起见就不再一一列举了。
图6示出了根据本发明的一个实施例的信息提取装置600的示意性方框图。该信息提取装置600可以执行以上结合图1~图5所描述的信息提取方法,以便从输入的信息源中提取出所期望的涉及特定主题的有用信息。
在此,需要说明的是,为了简单和清楚起见,图6中仅仅示出信息提取装置的与本发明密切相关的组成部分,而并未示出其他与本发明关系不大或者毫不相关的组成部分,而且以下的描述也仅涉及与本发明密切相关的那些组成部分。
如图6所示,信息提取装置600包括资源和规则库610、描述向量提取器620和信息生成器630。其中,资源和规则库610被配置成存储在执行信息提取时要用到的、预定的涉及特定主题的各种资源和规则,例如,如图3所示的分类模板和/或如图4所示的诸如产品列表、属性列表等的相关资源,以及匹配规则等等。
描述向量提取器620被配置成通过参考资源和规则库中存储的资源和规则,从输入的信息源中提取出涉及某些特定主题的描述向量。如图6所示,描述向量提取器620进而包括语素定位单元622和匹配单元624。其中,语素定位单元622可以如以上结合图1~图3和图5所描述的那样,被配置成基于存储在资源和规则库610中的、描述了各类训练语素的组合概率的分类模板,从信息源中定位感兴趣的各类目标语素。匹配单元624可以如以上结合图1~图3和图5所描述的那样,被配置成按照存储在资源和规则库610中的、涉及特定主题的预定匹配规则,对定位的各类目标语素进行匹配,并提取符合预定匹配规则的目标语素以组合成描述向量。
信息生成器630可以如以上结合图1~图2和图5所描述的那样,被配置成基于描述向量提取器620所提取出的描述向量,生成涉及特定主题的全局性信息,以作为涉及特定主题的有用信息。
通过阅读以上结合图1~图5给出的根据本发明实施例的信息提取方法的具体处理过程的详细描述可知,上述各个装置或单元的具体操作或处理过程是很清楚的,因此,为了避免重复,在此就不再对其进行详述了。
此外,在自然语言体系中往往存在大量不符合语法规范的表述方式。因此,如何更好地且更快速地从自然语言体系的文档等信息源中提取出更多的有用信息。
可以根据需要对图6所示的信息提取装置进行适当的修改或改进。例如,可以在信息提取装置600中添加以下模块或单元:语素修正器,用于用规范性表示的语素来代替由描述向量提取器620所提取出的描述向量中包含的非规范性表示的语素;以及/或者用于定期地对资源和规则库610中存储的各种资源进行更新或者修正的单元;等等。当然,也可能存在其他的修改或改进之处,在此就不一一列举了。
如上所述,在根据本发明原理的信息提取方法和/或装置中,可以针对所感兴趣的各种目标语素设定多种多样符合需求的资源,例如,为某些目标语素、例如产品评价词等设定诸如以上所描述的评价值之类的数值,以直观地反映出所述目标语素在某些方面的强烈程度,并且在提取有用信息时考虑了诸如副词等修饰词的影响程度,因此,能够更为准确地从信息源中提取出有关的信息。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和固件实现。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分708,包括硬盘等等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不退出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此,所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。
Claims (20)
1.一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:
基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;
按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及
基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。
2.根据权利要求1所述的信息提取方法,其中,所述分类模板是通过对包含各种训练语素的训练语料训练学习而获得的,所述训练语素以列表的形式被标注了词性和/或与包含各类标准语素列表的预定资源的相关性、以及是否成为感兴趣的某类目标语素,
所述基于分类模板从所述信息源中定位感兴趣的各类目标语素的步骤包括:
对所述信息源中的语素标注词性;和/或基于所述预定资源,对所述信息源中的语素标注是否属于所述预定资源的各类标准语素;以及
基于所述分类模板中各类已有的训练语素的组合概率,综合考虑所述对信息源中的语素已标注的词性和/或与是否属于所述预定资源的各类标准语素,从所述信息源的语素中判断感兴趣的各类目标语素。
3.根据权利要求1所述的信息提取方法,其中,所述进行匹配的步骤包括:根据所述各类目标语素的位置关系和/或连接词对所述各类目标语素的各种可能组合与所述预定匹配规则进行匹配,并将符合所述预定规则的目标语素组合成描述向量。
4.根据权利要求1所述的信息提取方法,其中,所述信息源是用户对于各种产品的评论信息,而所述涉及特定主题的有用信息是用户对于特定品牌或特定产品的评论信息、或用户对于特定品牌的属性或特定产品的属性的评论信息。
5.根据权利要求2所述的信息提取方法,其中,所述信息源是用户对于各种产品的评论信息,而所述涉及特定主题的有用信息是用户对于特定品牌或特定产品的评论信息、或用户对于特定品牌的属性或特定产品的属性的评论信息。
6.根据权利要求5所述的信息提取方法,其中,
所述预定资源的各类标准语素列表包括:列出了各种产品的产品品牌或企业名称的品牌列表和/或列出了各种产品的产品名称或型号的产品列表,列出了各种产品的产品属性的属性列表,列出了可用于对评价词进行修饰的修饰词列表,以及列出了用户对各种产品的评价词的评价词列表。
7.根据权利要求4或5所述的信息提取方法,其中,所述感兴趣的目标语素包括以下各类语素:产品品牌或企业名称和/或产品名称或型号,产品属性,对评价词的修饰词,及评价词。
8.根据权利要求7所述的信息提取方法,其中,
所述匹配规则被定义为按照预设顺序排列的<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>、或<企业/品牌名称和/或产品名称,产品属性,评价词>,
所述描述向量被定义为<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>。
9.根据权利要求8所述的信息提取方法,其中,
所述涉及特定主题的全局性信息被定义如下:<企业/品牌名称和/或产品名称,产品属性,全局评价值>,以及
所述生成特定主题的全局性信息的步骤进一步包括:参考所述全局性信息的定义,基于所述提取出的描述向量而生成所述全局性信息,其中所述全局评价值是通过综合考虑所述描述向量中的评价词和修饰词的相应数值而确定的。
10.根据权利要求9所述的信息提取方法,其中,所述评价词的相应数值是通过查询通用评价词-评价值对应表和属性评价词-评价值对应表而获得的,
其中,所述通用评价词-评价值对应表列出了通用的评价词的数值,所述属性评价词-评价值对应表列出了针对特定属性的评价词的数值,所述通用评价词-评价值对应表和属性评价词-评价值对应表中,每个评价词的数值的正或负符号表示用户对产品的评价是正面还是负面的评价,数值的绝对值大小反映了对产品的评价程度,
其中,在所述生成特定主题的全局性信息的步骤中,通过优先查询属性评价词-评价值对应表、其次再查询通用评价词-评价值对应表的方式获得评价词的相应数值。
11.根据权利要求9所述的信息提取方法,其中,所述修饰词的相应数值是通过查询修饰词-评价值对应表而获得的,
所述修饰词-评价值对应表中列出的每个修饰词都被赋予有一个数值,该数值的正或负符号表示修饰词对评价词是正面肯定性修饰还是负面否定性修饰,其绝对值大小反映了修饰词对评价词的修饰程度。
12.根据权利要求2所述的信息提取方法,其中,
所述预定资源中,除了列出有相应标准语素的规范性表示外,还列出有相应语素的非规范性表示,以及
所述方法在所述基于分类模板定位感兴趣的各类目标语素的步骤之后进一步包括:使用描述有关语素的规范性表示和非规范性表示的对应表,针对其中的非规范性表示的目标语素,用规范性表示的语素代替所述非规范性表示的目标语素。
13.一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取装置,包括:
资源和规则库,被配置成存储在执行信息提取时要用到的、预定的涉及特定主题的各种资源和规则;
描述向量提取器,被配置成通过参考所述资源和规则库中存储的资源和规则,从输入的信息源中提取出涉及某些特定主题的描述向量;以及
信息生成器,被配置成基于所述描述向量提取器所提取出的描述向量,生成涉及特定主题的全局性信息,以作为所述涉及特定主题的有用信息,
其中,所述描述向量提取器进一步包括:
语素定位单元,被配置成基于存储在所述资源和规则库中的、描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;以及
匹配单元,被配置成按照存储在所述资源和规则库中的、涉及特定主题的预定匹配规则,对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量。
14.根据权利要求13所述的信息提取装置,其中,所述分类模板是通过对包含各种训练语素的训练语料训练学习而获得的,所述训练语素以列表的形式被标注了词性和/或与存储在所述资源和规则库中的、包含各类标准语素列表的预定资源的相关性、以及是否成为感兴趣的某类目标语素,
所述语素定位单元包括:
标注单元,被配置成对所述信息源中的语素标注词性;和/或根据所述预定资源,对所述信息源中的语素标注是否属于所述预定资源的各类标准语素;以及
判断单元,被配置成基于所述分类模板中各类已有的训练语素的组合概率,综合考虑所述对信息源中的语素已标注的词性和/或与是否属于所述预定资源的各类标准语素,从所述信息源的语素中判断感兴趣的各类目标语素。
15.根据权利要求13或14所述的信息提取装置,其中,所述匹配单元被配置成根据所述各类目标语素的位置关系和/或连接词对所述各类目标语素的各种可能组合与所述预定匹配规则进行匹配,并将符合所述预定规则的目标语素组合成描述向量。
16.根据权利要求13所述的信息提取装置,其中,所述信息源是用户对于各种产品的评论信息,而所述涉及特定主题的有用信息是用户对于特定品牌或特定产品的评论信息、或用户对于特定品牌的属性或特定产品的属性的评论信息。
17.根据权利要求16所述的信息提取装置,其中,所述感兴趣的目标语素包括以下各类语素:产品品牌或企业名称和/或产品名称或型号,产品属性,对评价词的修饰词,及评价词。
18.根据权利要求17所述的信息提取装置,其中,所述匹配规则被定义为按照预设顺序排列的<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>、或<企业/品牌名称和/或产品名称,产品属性,评价词>,
所述描述向量被定义为<企业/品牌名称和/或产品名称,产品属性,修饰词,评价词>。
19.根据权利要求18所述的信息提取装置,其中,所述信息生成器被配置成通过综合考虑所述描述向量中的评价词和修饰词的相应数值而确定数值化形式的全局性信息。
20.根据权利要求14所述的信息提取装置,其中,所述预定资源中,除了列出有相应标准语素的规范性表示外,还列出有相应语素的非规范性表示,以及
所述信息提取装置进一步包括语素修正器,该语素修正器被配置成使用描述有关语素的规范性表示和非规范性表示的对应表,针对所定位的各类目标语素中的非规范性表示的目标语素,用规范性表示的语素代替所述非规范性表示的目标语素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910127243.0A CN101833555B (zh) | 2009-03-12 | 2009-03-12 | 信息提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910127243.0A CN101833555B (zh) | 2009-03-12 | 2009-03-12 | 信息提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101833555A true CN101833555A (zh) | 2010-09-15 |
CN101833555B CN101833555B (zh) | 2016-05-04 |
Family
ID=42717626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910127243.0A Active CN101833555B (zh) | 2009-03-12 | 2009-03-12 | 信息提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101833555B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831131A (zh) * | 2011-06-16 | 2012-12-19 | 富士通株式会社 | 构建标注网页语料库的方法及装置 |
CN103500181A (zh) * | 2013-09-11 | 2014-01-08 | 刘春梅 | 一种互联网信息分析方法和装置 |
CN103870567A (zh) * | 2014-03-11 | 2014-06-18 | 浪潮集团有限公司 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
CN105354032A (zh) * | 2015-11-12 | 2016-02-24 | 湖南右脑科技有限公司 | 一种自动生成创意的方法及系统 |
CN105677677A (zh) * | 2014-11-20 | 2016-06-15 | 阿里巴巴集团控股有限公司 | 一种信息分类方法及装置 |
CN106598946A (zh) * | 2016-12-14 | 2017-04-26 | 厦门市美亚柏科信息股份有限公司 | 一种内容提取方法及装置 |
CN107291783A (zh) * | 2016-04-12 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
CN109740157A (zh) * | 2018-12-29 | 2019-05-10 | 贵州小爱机器人科技有限公司 | 工作个体的标签确定方法、装置以及计算机存储介质 |
CN110704605A (zh) * | 2018-06-25 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 物品摘要自动生成方法、系统、设备及可读存储介质 |
CN110750975A (zh) * | 2019-10-21 | 2020-02-04 | 北京明略软件系统有限公司 | 介绍文本生成方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020045343A (ko) * | 2000-12-08 | 2002-06-19 | 오길록 | 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법 |
JP4713870B2 (ja) * | 2004-10-13 | 2011-06-29 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー. | 文書分類装置、方法、プログラム |
CN100474301C (zh) * | 2005-09-08 | 2009-04-01 | 富士通株式会社 | 基于数据挖掘获取词或词组单元译文信息的系统和方法 |
CN101042692B (zh) * | 2006-03-24 | 2010-09-22 | 富士通株式会社 | 基于语义预测的译文获取方法和设备 |
-
2009
- 2009-03-12 CN CN200910127243.0A patent/CN101833555B/zh active Active
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831131B (zh) * | 2011-06-16 | 2015-02-11 | 富士通株式会社 | 构建标注网页语料库的方法及装置 |
CN102831131A (zh) * | 2011-06-16 | 2012-12-19 | 富士通株式会社 | 构建标注网页语料库的方法及装置 |
CN103500181A (zh) * | 2013-09-11 | 2014-01-08 | 刘春梅 | 一种互联网信息分析方法和装置 |
CN103500181B (zh) * | 2013-09-11 | 2017-05-24 | 刘春梅 | 一种互联网信息分析方法和装置 |
CN103870567A (zh) * | 2014-03-11 | 2014-06-18 | 浪潮集团有限公司 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
CN105677677A (zh) * | 2014-11-20 | 2016-06-15 | 阿里巴巴集团控股有限公司 | 一种信息分类方法及装置 |
CN105354032A (zh) * | 2015-11-12 | 2016-02-24 | 湖南右脑科技有限公司 | 一种自动生成创意的方法及系统 |
CN107291783A (zh) * | 2016-04-12 | 2017-10-24 | 芋头科技(杭州)有限公司 | 一种语义匹配方法及智能设备 |
CN106598946A (zh) * | 2016-12-14 | 2017-04-26 | 厦门市美亚柏科信息股份有限公司 | 一种内容提取方法及装置 |
CN110704605A (zh) * | 2018-06-25 | 2020-01-17 | 北京京东尚科信息技术有限公司 | 物品摘要自动生成方法、系统、设备及可读存储介质 |
CN109740157A (zh) * | 2018-12-29 | 2019-05-10 | 贵州小爱机器人科技有限公司 | 工作个体的标签确定方法、装置以及计算机存储介质 |
CN110750975A (zh) * | 2019-10-21 | 2020-02-04 | 北京明略软件系统有限公司 | 介绍文本生成方法及装置 |
CN110750975B (zh) * | 2019-10-21 | 2023-03-21 | 北京明略软件系统有限公司 | 介绍文本生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101833555B (zh) | 2016-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101833555A (zh) | 信息提取方法和装置 | |
JP7296419B2 (ja) | 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
US20170177715A1 (en) | Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates | |
EP3096246A1 (en) | Method, system and storage medium for realizing intelligent answering of questions | |
US9594851B1 (en) | Determining query suggestions | |
US20150019207A1 (en) | Detecting Semantic Errors in Text Using Ontology-Based Extraction Rules | |
US20080040339A1 (en) | Learning question paraphrases from log data | |
US11106873B2 (en) | Context-based translation retrieval via multilingual space | |
CN103443787A (zh) | 用于标识文本关系的系统 | |
CN103885938A (zh) | 基于用户反馈的行业拼写错误检查方法 | |
Ahasanuzzaman et al. | CAPS: a supervised technique for classifying Stack Overflow posts concerning API issues | |
CN102567306B (zh) | 一种不同语言间词汇相似度的获取方法及系统 | |
US9495352B1 (en) | Natural language determiner to identify functions of a device equal to a user manual | |
Laddha et al. | Extracting aspect specific opinion expressions | |
Rozovskaya et al. | Adapting to learner errors with minimal supervision | |
Gries | Toward more careful corpus statistics: uncertainty estimates for frequencies, dispersions, association measures, and more | |
Li et al. | Wikipedia based short text classification method | |
CN101727451B (zh) | 信息提取方法和装置 | |
Liu et al. | Supporting features updating of apps by analyzing similar products in App stores | |
Eldin et al. | An enhanced opinion retrieval approach on Arabic text for customer requirements expansion | |
CN104750484A (zh) | 一种基于最大熵模型的代码摘要生成方法 | |
CN102646099A (zh) | 模式匹配系统、模式映射系统及方法 | |
CN113822053A (zh) | 一种语法错误检测方法、装置、电子设备及存储介质 | |
CN117540004B (zh) | 基于知识图谱和用户行为的工业领域智能问答方法及系统 | |
CN110348004B (zh) | 数据字典生成的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |