CN108319586B - 一种信息提取规则的生成和语义解析方法及装置 - Google Patents

一种信息提取规则的生成和语义解析方法及装置 Download PDF

Info

Publication number
CN108319586B
CN108319586B CN201810097357.4A CN201810097357A CN108319586B CN 108319586 B CN108319586 B CN 108319586B CN 201810097357 A CN201810097357 A CN 201810097357A CN 108319586 B CN108319586 B CN 108319586B
Authority
CN
China
Prior art keywords
information extraction
extraction rule
information
rule set
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810097357.4A
Other languages
English (en)
Other versions
CN108319586A (zh
Inventor
张忠辉
李堪兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianwen Digital Media Technology Beijing Co ltd
Original Assignee
Tianwen Digital Media Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianwen Digital Media Technology Beijing Co ltd filed Critical Tianwen Digital Media Technology Beijing Co ltd
Priority to CN201810097357.4A priority Critical patent/CN108319586B/zh
Publication of CN108319586A publication Critical patent/CN108319586A/zh
Application granted granted Critical
Publication of CN108319586B publication Critical patent/CN108319586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Abstract

本发明公开了一种信息提取规则的生成和语义解析方法及装置。获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别;根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类;使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充。解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则的效果。

Description

一种信息提取规则的生成和语义解析方法及装置
技术领域
本发明实施例涉及语言处理技术,尤其涉及一种信息提取规则的生成和语义解析方法及装置。
背景技术
在信息化时代,市场信息瞬息万变。出版机构希望能够更及时、更准确地掌握市场信息。图书评论中包含大量有关图书品质、销售渠道、读者偏好等的相关信息,对于出版机构选题策划,调整销售策略都有很重要的参考价值。但是,图书的评论数量很大,来源渠道很多。很多读者的评论又是重复的。所以,如何对读者的评论进行整合,合并类似的评论,提取用户关心的信息,是一个很有意义的工作。
现有技术中,电商平台都提供了一定的评论整合工作,用于对用户的评论进行整合。
现有技术中的方法存在以下缺陷:评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求。
发明内容
有鉴于此,本发明提供一种信息提取规则的生成和语义解析方法及装置,以实现根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则。
第一方面,本发明实施例提供了一种信息提取规则的生成方法,包括:
获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别;
根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类;
使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充。
第二方面,本发明实施例还提供了一种语义解析方法,包括:
获取语句;
使用所述信息提取规则集,对所述语句进行归约,得到归约结果;
根据归约路径和所述归约结果,确定与所述语句对应的分析树;
根据用户需求对所述分析树进行信息抽取,生成语义解析结果。
第三方面,本发明实施例还提供了一种信息提取规则的生成装置,包括:
信息获取模块,用于获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别;
规则集生成模块,用于根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类;
规则集扩充模块,用于使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充。
第四方面,本发明实施例还提供了一种语义解析装置,包括:
语句获取模块,用于获取语句;
语句归约模块,用于使用信息提取规则集,对所述语句进行归约,得到归约结果;
分析树确定模块,用于根据归约路径和所述归约结果,确定与所述语句对应的分析树;
语义解析模块,用于根据用户需求对所述分析树进行信息抽取,生成语义解析结果。
上述提供的一种信息提取规则的生成和语义解析方法及装置,通过根据词语类别信息和通用词类信息,生成原始的信息提取规则集;使用信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对信息提取规则集中的规则进行扩充,解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则的效果。
附图说明
图1为本发明实施例一提供的一种信息提取规则的生成方法的流程图;
图2为本发明实施例二提供的一种信息提取规则的生成方法的流程图;
图3为本发明实施例三提供的一种信息提取规则的生成方法的流程图;
图4为本发明实施例四提供的一种语义解析方法的流程图;
图5为本发明实施例五提供的一种信息提取规则的生成装置的结构框图;
图6为本发明实施例六提供的一种语义解析装置的结构框图;
图7为本发明实施例七提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种信息提取规则的生成方法的流程图,本实施例可适用于根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则的情况,该方法可以由信息提取规则的生成装置来执行,所述装置由软件和/或硬件来执行,并一般可集成在信息提取规则的生成设备中。信息提取规则的生成设备包括但不限定于计算机等。具体包括如下步骤:
步骤110、获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别。
其中,图书评论中包含大量有关图书品质、销售渠道、读者偏好等相关信息,对于用户进行选题策划,销售策略调整都有很重要的参考价值。为了保证用户及时、准确地掌握市场信息,需要对读者的评论进行整合,合并类似的评论。用户根据自身的需求,按预设的格式提供语义信息。根据语义信息对读者的评论进行整合。语义信息包含用户所关心的图书评论相关信息,通常是图书评论领域的词语类别信息。词语类别信息包括:词语集合,以及与词语集合对应的词语类别。例如,词语集合为:“正版”、“正品”、“真货”、“行货”、“正宗”,与词语集合对应的词语类别为:“正版”;词语集合为:“实惠”、“便宜”、“合算”、“划算”、“划得来”、“性价比高”、“性价比”、“不低”、“性价比很高”、“货真价实”、“特价”、“物超所值”、“价格合理”、“超值”、“超级值”、“值”、“物美价廉”、“赚到了”、“赚了”,与词语集合对应的词语类别为:“便宜”;词语集合为:“京东”、“京东自营”、“当当”、“亚马逊”,与词语集合对应的词语类别为:“图书网络渠道”。其中,词语集合中的每一个词语与词语类别一一对应。
步骤120、根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类。
其中,原始的信息提取规则集中的信息提取规则为根据用户提供的词语类别信息和通用词类信息,生成的上下文无关文法产生式规则。其中,上下文无关文法是形式语言理论中一种重要的变换文法,用来描述上下文无关语言。在计算机科学中,若一个形式文法G=(N,Σ,P,S)的产生式规则P都取如下的形式:V->w,则称之为上下文无关的,其中V∈N,w∈(N∪Σ)*。上下文无关文法取名为“上下文无关”的原因就是因为字符V总可以被字串w自由替换,而无需考虑字符V出现的上下文。上下文无关文法是一个四元组G=(N,Σ,P,S)。N是非终结符的有限集合;Σ是终结符的有限集合,其与N不相交;P是形如V->w的产生式规则的有限集合,其中,V∈N,w∈(N∪Σ)*;S是N中的区分符号,称为开始符号或句子符号。终结符和非终结符为文法符号。产生式规则由“->”左右两部分组成:“->”左边为非终结符,“->”右边为终结符。
其中,根据生成的上下文无关文法产生式规则集对语句进行归约,可以确定语句的结构。归约即用产生式规则的左部替换产生式规则的右部(终结符)的过程,得到相应的非终结符,即归约结果。根据归约结果和归约路径可以得到表示该语句的分析树。分析树包含了语句的所有语义信息。其中,分析树中的节点由相应的产生式规则中的终结符和非终结符表示。终结符作为分析树的叶子节点。非终结符作为分析树的非叶子节点。分析树的边表示父节点和子节点之间的逻辑关系。语料库中所有文本构建的所有分析树形成分析树库。在根据用户需求进行信息抽取时,直接遍历分析树即可完成信息提取。在实际应用中,可以针对具体的应用需求在得到的分析树上定义不同的语义接口,将得到的语义信息通过相应接口传送给上层应用,从而将用户关心的信息提供给用户。
其中,通用词类信息包括常见语法功能词语以及对应的通用词语类别。例如,常见语法功能词语为:“不”、“没有”,对应的通用词语类别为否定词。通用词语类别定义还可以包括:动词、名词、形容词、数词等。通过现有的自然语言处理工具可以建立常见语法功能词语与通用词语类别的对应关系。
其中,词语类别信息和通用词类信息中的每一个词语与对应的词语类别有映射关系。根据词语类别信息和通用词类信息中的每一个词语到词语类别的映射,生成一条相应的上下文无关文法的产生式规则,即生成一条信息提取规则。根据词语类别信息和通用词类信息生成的全部信息提取规则构成原始的信息提取规则集。信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类。例如,根据从词语“正品”到词语类别“正版”的映射,生成信息提取规则“正版->正品”;根据从词语“真货”到词语类别“正版”的映射,生成信息提取规则“正版->真货”;根据从词语“没有”到词语类别“否定词”的映射,生成信息提取规则“否定词->没有”。原始的信息提取规则集包括:“正版->正品”、“正版->真货”以及“否定词->没有”。
其中,信息提取规则由“->”左右两部分组成:“->”左边为词语对应的词类,“->”右边为词语。根据信息提取规则对语句进行归约,即用信息提取规则的左部替换信息提取规则的右部(词语)的过程,得到相应的词语对应的词类,即归约结果。
步骤130、使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充。
其中,获取预设数量的语句作为文本,存储于语料库中。可选的,通过互联网的网站收集语句。
其中,使用信息提取规则集对语料库中的文本进行语义解析,首先,确定语句命中的信息提取规则。然后根据命中的信息提取规则对该语句进行归约,得到归约结果,并对归约结果进行存储。归约结果即为语料库中的文本的解析结果。然后,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板。其中,目标归约结果为目标语句中的归约结果,即用信息提取规则的左部替换信息提取规则的右部(词语)的过程中,得到的与词语对应的词类。一个目标语句中包含至少一个目标归约结果。例如,对目标语句中的目标归约结果【图书网络渠道】,以及与【图书网络渠道】相邻的字符串“不错”进行拼接,得到“【图书网络渠道】不错”,将“【图书网络渠道】不错”作为备选模板。完成备选模板的构造后,选取满足扩充条件的备选模板,构造新的信息提取规则填充于信息提取规则集中,从而对信息提取规则集中的规则进行扩充。可选的,选取满足扩充条件的备选模板包括:统计备选模板的频次,若备选模板的频次达到预设阈值,则确定备选模板满足扩充条件,选取备选模板。
本实施例提供的一种信息提取规则的生成方法,通过根据词语类别信息和通用词类信息,生成原始的信息提取规则集;使用信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对信息提取规则集中的规则进行扩充,解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则的效果。
实施例二
图2为本发明实施例二提供的一种信息提取规则的生成方法的流程图,本实施例在上述实施例的基础上进行优化。如图2所示,该方法包括:
步骤210、获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别。
步骤220、根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类。
步骤230、根据所述信息提取规则集,对语料库中的语句进行归约处理,得到与所述语句对应的归约结果。
其中,使用信息提取规则集对语料库中的文本进行语义解析,首先,确定语句命中的信息提取规则。然后根据命中的信息提取规则对该语句进行归约,得到归约结果,并对归约结果进行存储。其中,根据信息提取规则对语句进行归约,即用信息提取规则的左部替换信息提取规则的右部(词语)的过程,得到相应的词语对应的词类,即归约结果。
可选的,根据所述信息提取规则集,对语料库中的语句进行归约处理,得到与所述语句对应的归约结果,包括:
若语句命中至少两个信息提取规则,则判断所述至少两个信息提取规则的覆盖面是否相同。
其中,信息提取规则的覆盖面是指信息提取规则的右部(词语)部分中,与语句匹配的非通配符部分的长度。通配符的含义是可以匹配任意字符。若语句命中至少两个信息提取规则,则同时计算语句命中的信息提取规则的覆盖面,并判断信息提取规则是否相同。
若所述至少两个信息提取规则的覆盖面不同,则根据覆盖面最大的信息提取规则,对语句进行归约处理,得到与所述语句对应的归约结果。
若所述至少两个信息提取规则的覆盖面相同,则判断所述至少两个信息提取规则的频次是否相同。
若所述至少两个信息提取规则的频次不同,则根据频次最大的信息提取规则,对语句进行归约处理,得到与所述语句对应的归约结果。
其中,信息提取规则的频次是指信息提取规则的右部(词语)部分在语料库中的文本中出现的频次。若语句命中的信息提取规则的覆盖面不同,则选取覆盖面最大的信息提取规则,对语句进行归约处理,若语句命中的信息提取规则的覆盖面不同,则对语句命中的信息提取规则的频次进行统计,判断语句命中的信息提取规则的频次是否相同,选取频次最大的信息提取规则对语句进行归约处理。
步骤240、根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板。
其中,目标归约结果为目标语句中的归约结果,即用信息提取规则的左部替换信息提取规则的右部(词语)的过程中,得到的与词语对应的词类。一个目标语句中包含至少一个目标归约结果。
可选的,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板,包括:
将同一目标语句对应的至少一项目标归约结果与所述目标归约结果相邻的目标归约结果和/或字符串进行拼接,作为备选模板。
其中,将同一目标语句对应的至少一项目标归约结果与所述目标归约结果相邻的目标归约结果和/或字符串进行拼接,拼接结果作为备选模板。一个备选模板中可以包括目标归约结果,也可以包括原始语句中的字符串。即构成备选模板的元素包括:目标归约结果和字符串。一个备选模板中包括至少一个目标归约结果。每个备选模板中至多包含三个元素。
其中,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的字符串,构造备选模板。例如,对目标语句中的目标归约结果【图书网络渠道】,以及与【图书网络渠道】相邻的字符串“不错”进行拼接,得到“【图书网络渠道】不错”,将“【图书网络渠道】不错”作为备选模板。
其中,将同一目标语句对应的至少一项目标归约结果与所述目标归约结果相邻的目标归约结果进行拼接,作为备选模板。例如,对目标语句中的目标归约结果【正版】,以及与【正版】相邻的目标归约结果【便宜】进行拼接,得到“【正版】【便宜】”,将“【正版】【便宜】”作为备选模板。
其中,将同一目标语句对应的至少一项目标归约结果与所述目标归约结果相邻的目标归约结果和字符串进行拼接,作为备选模板。例如,对目标语句中的目标归约结果【正版】,以及与【正版】相邻的字符串“不”和目标归约结果【贵】进行拼接,得到“【正版】不【贵】”,将“【正版】不【贵】”作为备选模板。
步骤250、选取满足扩充条件的备选模板,构造新的信息提取规则填充于所述信息提取规则集中。
可选的,选取满足扩充条件的备选模板,包括:
统计备选模板的频次,若备选模板的频次达到预设阈值,则确定所述备选模板满足扩充条件,选取所述备选模板。
若备选模板的频次未达到预设阈值,则确定所述备选模板不满足扩充条件。
其中,备选模板的频次是指备选模板在语料库中的文本中出现的频次。统计备选模板的频次。根据备选模板的频次判断备选模板是否满足扩充条件。扩充条件为频次达到预设阈值。选取满足扩充条件的备选模板,构造新的信息提取规则填充于信息提取规则集中,直至完成对全部语句的处理。例如,备选模板“【正版】【便宜】”的频次达到预设阈值,根据备选模板“【正版】【便宜】”构造新的信息提取规则:“【正版便宜】->【正版】【便宜】”,并将新的信息提取规则填充于信息提取规则集中,对信息提取规则进行进一步优化。
其中,若备选模板的频次未达到预设阈值,则确定备选模板不满足扩充条件,不会根据备选模板构造新的信息提取规则。
可选的,将备选模板的频次,作为相应的信息提取规则的频次。
本实施例提供的一种信息提取规则的生成方法,通过根据信息提取规则集,对语料库中的语句进行归约处理后,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板,并选取满足扩充条件的备选模板,构造新的信息提取规则填充于信息提取规则集中,解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则,以及对信息提取规则进行进一步优化的效果。
实施例三
图3为本发明实施例三提供的一种信息提取规则的生成方法的流程图,本实施例在上述实施例的基础上进行优化。如图3所示,该方法包括:
步骤310、获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别。
步骤320、根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类。
步骤330、使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充。
其中,使用信息提取规则集对语料库中的文本进行语义解析,首先,确定语句命中的信息提取规则。然后根据命中的信息提取规则对该语句进行归约,得到归约结果,并对归约结果进行存储。归约结果即为语料库中的文本的解析结果。然后,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板。完成备选模板的构造后,选取满足扩充条件的备选模板,构造新的信息提取规则填充于信息提取规则集中,从而对信息提取规则集中的规则进行扩充。
步骤340、获取至少两个满足扩充条件的备选模板,通过预设算法计算所述备选模板的相似度,从而判断所述备选模板是否为相似模板。
其中,获取至少两个满足扩充条件的备选模板,将每个备选模板在语料库的文本中出现时的所有上下文中的词语作为上下文集合(备选模板本身覆盖的词语也作为上下文的一部分)。如果备选模板的上下文集合很相似,则认为备选模板是相似的。通过预设算法根据备选模板的上下文集合,计算备选模板的相似度,判断备选模板是否为相似模板。若相似度超过预设阈值,备选模板为相似模板。可选的,预设算法为用于信息检索与数据挖掘的常用加权技术TF-IDF(词频-逆向文件频率,Term Frequency–Inverse DocumentFrequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
步骤350、若所述备选模板为相似模板,则将根据所述备选模板构造的信息提取规则的与词语对应的词类改成一致。
其中,若获取的至少两个满足扩充条件的备选模板为相似模板,则将根据备选模板构造的信息提取规则的与词语对应的词类改成一致。例如,备选模板“【正版】【便宜】”和“【正版】不【贵】”为相似模板,则将根据备选模板“【正版】【便宜】”和“【正版】不【贵】”构造的信息提取规则的与词语对应的词类改成一致,得到信息提取规则:“【正版便宜】->【正版】【便宜】”和“【正版】不【贵】->【正版】【便宜】”,实现对信息提取规则集中满足相似度条件的信息提取规则进行合并,进一步对信息提取规则进行了优化。
可选的,当至少两个满足扩充条件的备选模板为相似模板,且只有原始语句的字符串不同时,可以将字符串泛化为通配符。通配符的含义就是可以匹配任意字符。
本实施例提供的一种信息提取规则的生成方法,通过获取至少两个满足扩充条件的备选模板,通过预设算法计算所述备选模板的相似度,若备选模板为相似模板,则将根据备选模板构造的信息提取规则的与词语对应的词类改成一致,解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则,以及对满足相似度条件的信息提取规则进行合,进一步优化信息提取规则的效果。
实施例四
图4为本发明实施例四提供的一种语义解析方法的流程图,本实施例可适用于根据用户需求对读者的评论进行整合,合并类似的评论,提取用户关心的信息的情况,该方法可以由语义解析装置来执行,所述装置由软件和/或硬件来执行,并一般可集成在语义解析设备中。语义解析设备包括但不限定于计算机等。具体包括如下步骤:
步骤410、获取语句。
其中,根据用户需求获取大量读者关于图书评论的语句。可选的,通过互联网的网站获取语句。
步骤420、使用所述信息提取规则集,对所述语句进行归约,得到归约结果。
其中,使用信息提取规则集对语句进行归约,可以确定语句的结构。信息提取规则集中包括根据用户提供的词语类别信息和通用词类信息,生成的上下文无关文法产生式规则,以及根据满足扩充条件的备选模板,构造的新的信息提取规则。信息提取规则由“->”左右两部分组成:“->”左边为词语对应的词类,“->”右边为词语。根据信息提取规则对语句进行归约,即用信息提取规则的左部替换信息提取规则的右部(词语)的过程,得到相应的词语对应的词类,即归约结果。
步骤430、根据归约路径和所述归约结果,确定与所述语句对应的分析树。
其中,根据归约结果和归约路径可以得到表示该语句的分析树。分析树包含了语句的所有语义信息。其中,分析树中的节点由相应的信息提取规则中的词语和词语对应的词类表示。词语作为分析树的叶子节点。词语对应的词类表示作为分析树的非叶子节点。分析树的边表示父节点和子节点之间的逻辑关系。语料库中所有文本构建的所有分析树形成分析树库。
步骤440、根据用户需求对所述分析树进行信息抽取,生成语义解析结果。
其中,在根据用户需求进行信息抽取时,直接遍历分析树即可完成信息提取。在实际应用中,可以针对具体的应用需求在得到的分析树上定义不同的语义接口,将得到的语义信息通过相应接口传送给上层应用,从而将用户关心的信息提供给用户。
本实施例提供的一种语义解析方法,通过使用信息提取规则集,对语句进行归约,得到归约结果;根据归约路径和归约结果,确定与语句对应的分析树;根据用户需求对分析树进行信息抽取,生成语义解析结果,解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求对读者的评论进行整合,合并类似的评论,提取用户关心的信息的效果。
实施例五
图5为本发明实施例五提供的一种信息提取规则的生成装置的结构框图。如图5所示,所述装置包括:
信息获取模块510、规则集生成模块520和规则集扩充模块530。
其中,信息获取模块510,用于获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别;规则集生成模块520,用于根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类;规则集扩充模块530,用于使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充。
本实施例提供的一种信息提取规则的生成装置,通过根据词语类别信息和通用词类信息,生成原始的信息提取规则集;使用信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对信息提取规则集中的规则进行扩充,解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求,生成用于对读者的评论进行整合,提取用户关心的信息的信息提取规则的效果。
在上述各实施例的基础上,规则集扩充模块530可以包括:
归约处理单元,用于根据所述信息提取规则集,对语料库中的语句进行归约处理,得到与所述语句对应的归约结果;
备选模板构造单元,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板;
规则集填充单元,选取满足扩充条件的备选模板,构造新的信息提取规则填充于所述信息提取规则集中。
在上述各实施例的基础上,归约处理单元可以包括:
第一判断子单元,用于若语句命中至少两个信息提取规则,则判断所述至少两个信息提取规则的覆盖面是否相同;
第一归约子单元,用于若所述至少两个信息提取规则的覆盖面不同,则根据覆盖面最大的信息提取规则,对语句进行归约处理,得到与所述语句对应的归约结果;
第二判断子单元,用于若所述至少两个信息提取规则的覆盖面相同,则判断所述至少两个信息提取规则的频次是否相同;
第二归约子单元,用于若所述至少两个信息提取规则的频次不同,则根据频次最大的信息提取规则,对语句进行归约处理,得到与所述语句对应的归约结果。
在上述各实施例的基础上,备选模板构造单元可以包括:
第一拼接子单元,用于将同一目标语句对应的至少一项目标归约结果与所述目标归约结果相邻的目标归约结果和/或字符串进行拼接,作为备选模板。
在上述各实施例的基础上,规则集填充单元可以包括:
模板选取子单元,用于统计备选模板的频次,若备选模板的频次达到预设阈值,则确定所述备选模板满足扩充条件,选取所述备选模板;
模板确定子单元,用于若备选模板的频次未达到预设阈值,则确定所述备选模板不满足扩充条件。
在上述各实施例的基础上,信息提取规则的生成装置可以还包括:
相似度计算模块,用于获取至少两个满足扩充条件的备选模板,通过预设算法计算所述备选模板的相似度,从而判断所述备选模板是否为相似模板;
规则修改模块,用于若所述备选模板为相似模板,则将根据所述备选模板构造的信息提取规则的与词语对应的词类改成一致。
本发明实施例所提供的信息提取规则的生成装置可执行本发明任意实施例所提供的信息提取规则的生成方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的一种语义解析装置的结构框图。如图6所示,所述装置包括:
语句获取模块610、语句归约模块620、分析树确定模块630和语义解析模块640。
其中,语句获取模块610,用于获取语句;语句归约模块620,用于使用信息提取规则集,对所述语句进行归约,得到归约结果;分析树确定模块630,用于根据归约路径和所述归约结果,确定与所述语句对应的分析树;语义解析模块640,用于根据用户需求对所述分析树进行信息抽取,生成语义解析结果。
本实施例提供的一种语义解析装置,通过使用信息提取规则集,对语句进行归约,得到归约结果;根据归约路径和归约结果,确定与语句对应的分析树;根据用户需求对分析树进行信息抽取,生成语义解析结果,解决了现有技术中评论整合的维度比较少,而且针对的是电商销售,不能完全满足图书选题策划的要求的问题,达到了根据用户需求对读者的评论进行整合,合并类似的评论,提取用户关心的信息的效果。
本发明实施例所提供的语义解析装置可执行本发明任意实施例所提供的语义解析方法,具备执行方法相应的功能模块和有益效果。
实施例七
图7为本发明实施例七提供的一种设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性设备712的框图。图7显示的设备712仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,设备712以通用计算设备的形式表现。设备712的组件可以包括但不限于:一个或者多个处理器或者处理单元716,系统存储器728,连接不同系统组件(包括系统存储器728和处理单元716)的总线718。
总线718表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备712访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器728可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)730和/或高速缓存存储器732。设备712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统734可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线718相连。存储器728可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块742的程序/实用工具740,可以存储在例如存储器728中,这样的程序模块742包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块742通常执行本发明所描述的实施例中的功能和/或方法。
设备712也可以与一个或多个外部设备714(例如键盘、指向设备、显示器724等)通信,还可与一个或者多个使得用户能与该设备712交互的设备通信,和/或与使得该设备712能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口722进行。并且,设备712还可以通过网络适配器720与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器720通过总线718与设备712的其它模块通信。应当明白,尽管图中未示出,可以结合设备712使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元716通过运行存储在系统存储器728中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的信息提取规则的生成方法和/或语义解析方法。
实施例八
本发明实施例八还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的信息提取规则的生成方法和/或语义解析方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种信息提取规则的生成方法,其特征在于,包括:
获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别;
根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类;
使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充;
所述使用所述信息提取规则集,对语料库中的语句进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充,包括:
根据所述信息提取规则集,对语料库中的语句进行归约处理,得到与所述语句对应的归约结果;
根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板;
选取满足扩充条件的备选模板,构造新的信息提取规则填充于所述信息提取规则集中。
2.根据权利要求1所述的方法,其特征在于,根据所述信息提取规则集,对语料库中的语句进行归约处理,得到与所述语句对应的归约结果,包括:
若语句命中至少两个信息提取规则,则判断所述至少两个信息提取规则的覆盖面是否相同,其中,所述信息提取规则的覆盖面是指所述信息提取规则的词语部分中,与所述语句匹配的非通配符部分的长度;
若所述至少两个信息提取规则的覆盖面不同,则根据覆盖面最大的信息提取规则,对语句进行归约处理,得到与所述语句对应的归约结果;
若所述至少两个信息提取规则的覆盖面相同,则判断所述至少两个信息提取规则的频次是否相同;
若所述至少两个信息提取规则的频次不同,则根据频次最大的信息提取规则,对语句进行归约处理,得到与所述语句对应的归约结果。
3.根据权利要求1所述的方法,其特征在于,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板,包括:
将同一目标语句对应的至少一项目标归约结果与所述目标归约结果相邻的目标归约结果和/或字符串进行拼接,作为备选模板。
4.根据权利要求1所述的方法,其特征在于,选取满足扩充条件的备选模板,包括:
统计备选模板的频次,若备选模板的频次达到预设阈值,则确定所述备选模板满足扩充条件,选取所述备选模板;
若备选模板的频次未达到预设阈值,则确定所述备选模板不满足扩充条件。
5.根据权利要求1-4任一项所述的方法,其特征在于,在根据解析结果,对所述信息提取规则集中的规则进行扩充之后,还包括:
获取至少两个满足扩充条件的备选模板,通过预设算法计算所述备选模板的相似度,从而判断所述备选模板是否为相似模板;
若所述备选模板为相似模板,则将根据所述备选模板构造的信息提取规则的与词语对应的词类改成一致。
6.一种语义解析方法,其特征在于,包括:
获取语句;
使用信息提取规则集,对所述语句进行归约,得到归约结果,其中,所述信息提取规则集中包括根据用户提供的词语类别信息和通用词类信息,生成的上下文无关文法产生式规则,以及根据满足扩充条件的备选模板,构造的新的信息提取规则;
根据归约路径和所述归约结果,确定与所述语句对应的分析树;
根据用户需求对所述分析树进行信息抽取,生成语义解析结果。
7.一种信息提取规则的生成装置,其特征在于,包括:
信息获取模块,用于获取用户提供的至少一项词语类别信息,所述词语类别信息包括:词语集合,以及与词语集合对应的词语类别;
规则集生成模块,用于根据所述词语类别信息和通用词类信息,生成原始的信息提取规则集,所述信息提取规则集中的信息提取规则包括:词语以及与词语对应的词类;
规则集扩充模块,用于使用所述信息提取规则集,对语料库中的文本进行语义解析,并根据解析结果,对所述信息提取规则集中的规则进行扩充;
所述规则集扩充模块包括:
归约处理单元,用于根据所述信息提取规则集,对语料库中的语句进行归约处理,得到与所述语句对应的归约结果;
备选模板构造单元,根据与同一目标语句对应的至少一项目标归约结果,以及与所述目标归约结果相邻的目标归约结果和/或字符串,构造备选模板;
规则集填充单元,选取满足扩充条件的备选模板,构造新的信息提取规则填充于所述信息提取规则集中。
8.一种语义解析装置,其特征在于,包括:
语句获取模块,用于获取语句;
语句归约模块,用于使用信息提取规则集,对所述语句进行归约,得到归约结果,其中,所述信息提取规则集中包括根据用户提供的词语类别信息和通用词类信息,生成的上下文无关文法产生式规则,以及根据满足扩充条件的备选模板,构造的新的信息提取规则;
分析树确定模块,用于根据归约路径和所述归约结果,确定与所述语句对应的分析树;
语义解析模块,用于根据用户需求对所述分析树进行信息抽取,生成语义解析结果。
CN201810097357.4A 2018-01-31 2018-01-31 一种信息提取规则的生成和语义解析方法及装置 Active CN108319586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810097357.4A CN108319586B (zh) 2018-01-31 2018-01-31 一种信息提取规则的生成和语义解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810097357.4A CN108319586B (zh) 2018-01-31 2018-01-31 一种信息提取规则的生成和语义解析方法及装置

Publications (2)

Publication Number Publication Date
CN108319586A CN108319586A (zh) 2018-07-24
CN108319586B true CN108319586B (zh) 2021-09-24

Family

ID=62888517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810097357.4A Active CN108319586B (zh) 2018-01-31 2018-01-31 一种信息提取规则的生成和语义解析方法及装置

Country Status (1)

Country Link
CN (1) CN108319586B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929021A (zh) * 2018-08-31 2020-03-27 阿里巴巴集团控股有限公司 文本信息生成方法和文本信息生成装置
CN111370083B (zh) * 2018-12-26 2023-04-25 阿里巴巴集团控股有限公司 一种文本结构化方法及装置
CN113836902B (zh) * 2021-08-25 2024-04-26 广东外语外贸大学 一种短语语料库的构建方法、装置、设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
US9244908B2 (en) * 2012-03-27 2016-01-26 Accenture Global Services Limited Generation of a semantic model from textual listings
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN106021433A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种商品评论数据的口碑分析方法和装置
CN107038229A (zh) * 2017-04-07 2017-08-11 云南大学 一种基于自然语义分析的用例提取方法
CN107526721A (zh) * 2017-06-21 2017-12-29 深圳美云智数科技有限公司 一种对电商产品评论词汇的歧义消除方法及装置
CN107544959A (zh) * 2017-08-28 2018-01-05 北京奇艺世纪科技有限公司 一种评价对象的提取方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
US9244908B2 (en) * 2012-03-27 2016-01-26 Accenture Global Services Limited Generation of a semantic model from textual listings
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN106021433A (zh) * 2016-05-16 2016-10-12 北京百分点信息科技有限公司 一种商品评论数据的口碑分析方法和装置
CN107038229A (zh) * 2017-04-07 2017-08-11 云南大学 一种基于自然语义分析的用例提取方法
CN107526721A (zh) * 2017-06-21 2017-12-29 深圳美云智数科技有限公司 一种对电商产品评论词汇的歧义消除方法及装置
CN107544959A (zh) * 2017-08-28 2018-01-05 北京奇艺世纪科技有限公司 一种评价对象的提取方法和装置

Also Published As

Publication number Publication date
CN108319586A (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
JP6901816B2 (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
RU2564629C1 (ru) Способ кластеризации результатов поиска в зависимости от семантики
US10303741B2 (en) Adapting tabular data for narration
US11663417B2 (en) Data processing method, electronic device, and storage medium
US8972408B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a social sphere
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
US20130007020A1 (en) Method and system of extracting concepts and relationships from texts
US10417335B2 (en) Automated quantitative assessment of text complexity
US20220318275A1 (en) Search method, electronic device and storage medium
US20080208566A1 (en) Automated word-form transformation and part of speech tag assignment
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US20220180317A1 (en) Linguistic analysis of seed documents and peer groups
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
CN111382571A (zh) 一种信息抽取方法、系统、服务器和存储介质
JP7369228B2 (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN113806660B (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN114692628A (zh) 样本生成方法、模型训练方法、文本抽取方法和装置
Curtotti et al. A right to access implies a right to know: An open online platform for research on the readability of law
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN112380337A (zh) 基于富文本的高亮方法及装置
WO2020026229A2 (en) Proposition identification in natural language and usage thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant