CN103440252B - 一种中文句子中并列信息提取方法及装置 - Google Patents

一种中文句子中并列信息提取方法及装置 Download PDF

Info

Publication number
CN103440252B
CN103440252B CN201310315217.7A CN201310315217A CN103440252B CN 103440252 B CN103440252 B CN 103440252B CN 201310315217 A CN201310315217 A CN 201310315217A CN 103440252 B CN103440252 B CN 103440252B
Authority
CN
China
Prior art keywords
arranged side
information
word segmentation
concept
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310315217.7A
Other languages
English (en)
Other versions
CN103440252A (zh
Inventor
熊文
晋耀红
朱筠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Priority to CN201310315217.7A priority Critical patent/CN103440252B/zh
Publication of CN103440252A publication Critical patent/CN103440252A/zh
Application granted granted Critical
Publication of CN103440252B publication Critical patent/CN103440252B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种中文句子中并列信息提取方法和装置,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行计算,以概念类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可降低语义分析的复杂度,可对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,可改善和提高译文的翻译效果。

Description

一种中文句子中并列信息提取方法及装置
技术领域
本发明涉及一种中文信息处理技术,具体是一种中文句子中并列信息提取方法及装置,属于自然语言处理技术领域。
背景技术
中文信息处理技术经历了面向词语、面向语法结构、面向短语等几个阶段。现在,中文信息处理技术的热点转向面向语义分析。并列信息是一种语义信息,目前对并列信息的研究还只是对句间并列复合句进行研究。另一种较多的并列信息研究还处于词语级并列研究,如并列式词语、并列式合成词的研究,对并列结构内部构造的粘合性、并列结构中并列项的句法结构和序列也有所研究。
苗艳军等提出,并列结构的自动识别对提高句法分析器的性能和工作效率具有重要意义,同时,该识别结果可以直接应用于机器翻译、信息抽取等领域。他们分析了并列结构的相似性,以及边界特征词分布的规则性,探索了基于规则方法的并列结构自动识别,具体地,根据并列成分中心词词性,将并列结构分为五大类,分别针对每类并列结构特点实现自动识别。该方法实现了基于最大熵模型的并列结构自动识别,将并列结构的自动识别转化为一个分类问题,根据连接词的位置分别向左、向右搜索出并列结构的左右边界,并利用校正规则集对识别结果进行校正。这种依赖连接词的左右边界识别的并列信息是一种句内并列信息。且该并列词识别方法基于统计学方法,由于抽取的连接词前后的词语、词性和词形受限,导致后续识别精确度低,识别的边界可能过前或者过后,导致识别出的并列结构残缺、不完整,进而导致后续译文的翻译效果不佳。
发明内容
本发明所要解决的技术问题是现有基于最大熵模型的并列结构自动识别方法基于统计学基础导致的识别出的并列结构残缺影响后续翻译效果的技术问题,从而提供不依赖于统计学的一种中文句子中并列信息提取方法及装置。
为解决上述技术问题,本发明是通过以下技术方案实现的:
一种中文句子中并列信息提取方法,包括:
S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;
S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;
S3:加载并列信息标注规则集;
S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;
S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
所述步骤S1中进一步包括:
使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:
合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。
所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤,其中,除概念外的并列信息候选的生成步骤如下:
S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;
S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;
S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选的生成步骤如下:
S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;
S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述步骤S26中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:
S41:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;
S42:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
本发明中,还有许多并列信息标注规则,可以通过不断分析语言现象逐步增加,本发明没有对所有的并列信息标注规则进行一一说明,也不可能列举所有的并列信息标注规则。
同时,提供一种中文句子中并列信息提取装置,包括:
分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;
并列信息候选获取单元,用于在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;
并列信息标注规则集加载单元,用于加载并列信息标注规则集;
带并列信息标记的标注文本生成单元,用于从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;
并列信息提取输出单元,用于对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
分词单位序列集合获取单元进一步包括:
前向最大长度词语构成的分词单位获取单元,用于使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
合并单元,进一步包括:
数词短语合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;
英文专名合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字和英语字母或者合并所述分词单位中的单个且连续的英语字母生成英文专名。
所述并列信息候选获取单元进一步包括除概念外的并列信息候选获取子单元和概念的并列信息候选子单元,其中,
除概念外的并列信息候选获取子单元,用于使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选子单元,用于从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;并根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
所述除概念外的并列信息候选获取子单元中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述概念的并列信息候选获取子单元中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
所述并列信息标注规则集加载单元和所述带并列信息标记的标注文本生成单元中的并列信息标注规则为产生式规则,进一步包括:
约束检测子单元,用于检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;如匹配,则转入标记子单元;
标记子单元,用于根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
本发明的上述技术方案相比现有技术具有以下优点:
(1)本发明所述的中文句子中并列信息提取方法,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行了计算,以概念的类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括了严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可以降低中文句子语义分析的复杂度,可以对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,提取的并列信息可以有效地应用于语块格式转换阶段,对于语块的调序有重要作用。作为一种浅层语块分析技术,并列信息的利用可改善和提高译文的翻译效果。本专利完全基于语言学特点实现识别,尤其是长句识别效果好,特备适合对于专利文献的翻译。
(2)本发明的一种中文句子中并列信息提取方法和装置,采用前向最大长度词语对所述中文句子进行分割,简单快速,便于推广实施。
附图说明
为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作进一步详细的说明,其中,
图1是本发明一个实施例的一种中文句子中并列信息提取方法的方法流程图;
图2为本发明一个实施例的一种中文句子中并列信息提取装置的结构框图。
具体实施方式
本发明所述的一种中文句子中并列信息提取方法,包括将中文句子转换成带并列标记的标注文本的标注步骤和从所述标注文本中提取并列信息的提取步骤,其中,参见图1所示,所述标注步骤具体包括如下步骤:
S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位并将所述分词单位按照在所述句子中出现的顺序顺次排列得到分词单位序列集合。
S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别,不同的分词单位可能对应同样的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;本实施例中,所述并列信息候选是基于标准模板库的方法产生,当然作为本发明的其他实施例,也可基于关系数据库产生。作为一种具体实施例,所述概念为黄曾阳概念层次网络定义了概念类别,具体包括如下十一类概念:空间、主块标志符、辅块标志符、指代说明符、作用者语块标志符、对象语块标志符、动态、属性、无生命物、人造物和生命体。
S3:加载并列信息标注规则集。所述并列信息标注规则定义了对所述并列信息候选进行标注的规则,一般而言,不同的入口点有不同的标注规则,根据入口点的不同选择加载不同的标注规则;所述入口点是一个表达并列结构可能存在的词语,比如“和、或、以及、与、及、或者”,也可以是一个表达并列结构可能存在的标点符号,比如“、”,也可以是上一条规则已经发现的入口点,即已经加上入口点标记的。
S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本。
S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
当然,实际中可能需要处理的是中文文本,在使用本发明的方法处理之前,需要将中文文本中的每个中文句子分离出来,对分离后的每个所述中文句子再使用本发明的一种中文句子中并列信息提取方法进行并列信息提取即可。
作为本发明其他实施例的一种中文句子中并列信息提取方法,在上述实施例的基础上,所述步骤S2进一步包括如下步骤:
包括使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
其中,所述前向最大长度词语分割还包括对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:
合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。
本实施例中以前向最大分词处理分割所述中文句子,得到前向最大长度词语的分词单位,所述中文句子中的所有所述分词单位构成分词单位序列集合,采用前向最大分词法分割所述中文句子简单、快速;当然作为本发明其他实施例对所述中文句子进行分割得到分词单位的方法,可以为双向最大分词法,或者中科院张华平提出的隐马尔科夫模型法,都能实现得到分词单位的目的。
作为本发明其他实施例的一种中文句子中并列信息提取方法,在上述实施例的基础上,所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤,
其中,除概念外的并列信息候选的生成步骤如下:
S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;
S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;
S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选的生成步骤如下:
S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;
S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
作为一种具体实施方式,所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述步骤S26中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。以归类语素为例进行说明,按词形归类词向量,保存归类的数据结构是一个映射表,其键是词形,其值是一个动态数组,数组的每一项记录了词出现的位置。在归类时,如果词形在归类映射表中已存在,则将词出现位置添加到该词形对应的动态数组中;如果不存在,则创建一个新的动态数组,记录该词形的出现位置。使用上述方法按语素归类单字语素向量,使用同样的数据结构类型的新变量和算法来归类单字语素。
作为本发明的其他实施例的一种中文句子中并列信息提取方法,在上述任一的一种并列信息提取方法的基础上,所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:
S41:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;
S42:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
其中,产生式规则, 或简称规则,一般形式为〈前件〉→〈后件〉,其中, 前件就是前提, 后件是结论或动作,前件和后件可以是由逻辑运算符AND、OR、NOT组成的表达式。产生式规则的语义是: 如果前提满足,则可得结论或者执行相应的动作, 即后件由前件来触发。所以, 前件是规则的执行条件, 后件是规则体。
本实施例中,所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项记录用于每一类所述并列词形在中文句子中开始位置及其的分词单位长度。作为本发明其他实施例,所述数据结构也可通过关系数据库实现,均能实现本发明的目的。
所述步骤S23中形成三类并列信息:并列单字语素、并列词中语素、并列词语;具体方法为:扫描归类单字语素映射表,如果其键所应的动态数组的长度大于等于2,表明存在并列的单字语素,记录到并列串的并列单字语素中;扫描上述获取的单字语素在词语中频率表,如果其键所对应的动态数组的长度大于或等于 2,表明存在并列的词中语素,其可能与一个单字对应,也可能与一个词的首字或尾字对应,记录到并列串的并列词中语素数中;扫描保存所有频率大于或者等于2 的并列词语动态数组,对该并列词语动态数组按词形、开始位置、分词单位长度形成的键进行去重,然后加入到归类数据结构中,该结构类型与上述方法的映射表类型相同,为一个新的变量;对该变量中的每一个连续短语,拆分形成可能的子短语;将上述连续短语和连续子短语或词语加入到并列词语中。
获得所述分词单位序列集合所对应的概念类别序列集合,生成概念映射表,所述概念映射表是一个数据结构,其键是概念类别的代号,其值是一个动态数组,数组的项是该概念出现在句中的位置;扫描所述分词单位序列集合所对应的概念类别,首先判断该概念是否是目标概念,目标概念是13类已知概念,如果不是,则继续处理下一个所述分词结果序列所对应的概念类别;如果该概念类别在该数据结构中存在,仅需要加入该出现位置到所述的动态数组中;如果不在,则新建一个动态数组,保存该概念类别,加入到所述数据结构中;对所述概念映射表迭代,如果其键所对应的动态数组的长度超过1,则该键所对应的概念类别出现了并列,否则,从所述概念映射表中删除掉该概念类别。最后形成的概念类别映射表中保存了所需要的并列概念。本实施例中,对分词单位序列集合从左到右取词,并对词所对应的概念类别,取其概念类别;检查词或语义属性是否为入口点,如果不是,继续对分词单位序列集合从左到右取词及词所对应的概念类别;根据当前分词单位的词形和语义特征,从所述并列信息标注规则集中加载所述并列信息标注规则;对每一条所述并列信息标注规则,迭代;判断加载的所述并列信息标注规则是否匹配成功,根据匹配成功的右边内容,对所述分词单位序列集合加并列标注;
判断所述侯选规则是否迭代完成,如果没有,继续对每一条所述并列信息标注规则,迭代;判断是否超过了所述分词单位序列集合,如果没有,继续对分词单位序列集合从左到右取词及词所对应的概念类别,重复上述步骤; 判断是否生成了新的标记,如果在所述分词单位序列集合中该位置已经有一个相同类型的标记,则认为没有生成新的内容,处理结束;否则,继续对分词单位序列集合从左到右取词及词所对应的概念类别,重复上述步骤。
下面以中文句子“优选的是透氧性111大分子单体a111和透离子性112单体a112的共聚产物。”为例,对本发明所述的中文句子中并列信息提取方法作进一步的说明。
1)经过前述步骤S1前向最大分词处理以及数字和英语字母进行合并的步骤后,中文句子的分词单位序列集合为:
优选\ 的\ 是\ 透氧性\ 111 \ 大分子\ 单体\ a111 \ 和\ 透\ 离子\性\ 112\ 单体\ a112 \ 的\ 共聚\ 产物\ 。\
其中,“\”是分词分割符。
2) 经前述步骤S2处理,其输出的并列信息侯选如下:
词中语素: 体, 次数: 2(注:相同词中后语素的并列)
并列位置:
6(注:单体)
13(注:单体)
词中语素: 子, 次数: 2(注:不同词中后语素的并列)
并列位置:
5(注:大分子)
10(注:离子)
词中语素: 性, 次数: 2(注:单字语素与词的后语素的并列)
并列位置:
3(注:透氧性)
11(注:性)
词中语素: 透, 次数: 2(注:单字语素与词的前语素的并列)
并列位置:
3(注:透氧性)
9(注:透)
并列短语: 单体, 次数: 2(注:并列词或并列短语的并列)
并列位置:
开始位置: 6(注:单体)
长度: 1(注:一个分词单位长)
开始位置: 13(注:单体)
长度: 1(注:一个分词单位长)
3) 经前述步骤S2的处理,其输出的并列概念侯选(也就概念的并列信息候选)如下:
并列概念:
特征:LC_CC ww(注:无生命物概念的并列)
开始位置:5(注:大分子)
开始位置:6(注:单体)
开始位置:10(注:离子)
开始位置:13(注:单体)
开始位置:17(注:产物)
并列概念:
特征:LC_CC v(注:动态概念的并列)
开始位置:0(注:优选)
开始位置:2(注:是)
并列概念:
特征:LC_CC NUM(注:数概念的并列)
开始位置:4(注:111)
开始位置:12(注:112)
并列概念:
特征:LC_CC SPN(注:英语专名概念的并列)
开始位置:7(注:a111)
开始位置:14(注:a112)
经过前述步骤S1和S2的处理,使用并列信息标注规则集,反复迭代,直到没有能够匹配的规则、或虽然匹配上规则,但匹配上的规则没有生成新的标记记号时为止。在本例中,匹配上了下述两条规则:
匹配上的规则1:
(b){!CHN[、]}+(b){(-1)R}+(0)CHN[和,或,与,及,或者,以及]+(1)RR=>LC_TREE(AND_TQ_S,-1,-1)+LC_TREE(ANDMK,0,0)$
其中,“(0)CHN[和,或,与,及,或者,以及]”是检测的入口点,表明当前词汇是一个中文词:“和,或,与,及,或者,以及”中之一时,入口点检测成功,将 “和”字的位置记为0;“(1)RR”表示与入口点紧邻的右边一个短语是上述输出的并列串(该并列串是“透”字)时,将“透”字的位置记为1;“(b){(-1)R}”表示从入口点的位置向左查找,首次发现的一个短语是上述步骤S2输出的与“(1)RR”相对应的一个并列串(该并列串是“透氧性”词)时,将“透氧性”的位置记为-1;“(b){!CHN[、]}”表示从 “透氧性”的左边开始查找,没有发现中文标点“、”时; “LC_TREE(AND_TQ_S,-1,-1)”表示在位置-1标注记号“AND_TQ_S”(并列信息前边界标记),也就是在词“透氧性”上加上该记号;“LC_TREE(ANDMK,0,0)”表示在位置0标注记号“ANDMK”(并列连接标记),也就是在词“和”上标记该记号;则在所述分词单位序列集合的基础上,得到如下新增的标记:
优选\ 的\ 是\ 透氧性<AND_TQ_S> \ 111 \ 大分子\ 单体\ a111 \ 和<ANDMK>\ 透\ 离子\ 性\ 112 \ 单体\ a112 \ 的\ 共聚\ 产物\ 。\
匹配上的规则2:
(b){!CHN[、]}+(-1)LCR+(0)CHN[和,或,与,及,或者,以及]+(f){(1)CR}=>LC_TREE(AND_TH_S,1,1)+LC_TREE(ANDMK,0,0)$
其中,“(-1)LCR”表示与入口点紧邻的左边一个词语是上述步骤S4输出的并列概念(该并列概念是“a111”,英语专名SPN概念)时,将“a111”字的位置记为-1;“(f){(1)CR}”表示从入口点的位置向右查找,首次发现的一个概念是上述步骤S4输出的与“(-1)LCR”相对应的一个并列概念(该并列概念是“a112”,英语专名SPN概念)时,将“a112”的位置记为1;“LC_TREE(AND_TH_S,1,1)”表示在位置1标注记号“AND_TH_S”(并列信息后边界标记),也就是在词“a112”上加上该记号;则在规则1结果的基础上,得到如下新增的标记:
优选\ 的\ 是\ 透氧性\ 111 \ 大分子\ 单体\ a111 \ 和<ANDMK> \ 透
\ 离子\ 性\ 112 \ 单体\ a112<AND_TH_S> \ 的\ 共聚\ 产物\ 。\
经自动标注处理后,其输出为:
优选\ 的\ 是\ 透氧性<AND_TQ_S> \ 111 \ 大分子\ 单体\ a111 \ 和
<ANDMK> \;a112<AND_TH_S> \ 的\ 共聚\ 产物\ 。\
采用最大范围方法,既根据前后标记的不同向前或者向后提取出最大范围的并列信息,从所述标注文本中提取并列信息的提取步骤所提取的信息如下:
并列信息1:“透氧性111大分子单体a111”
连接词:“和”
并列信息2:“透离子性112单体a112”。
下面再以中文句子“优选的是大分子单体和离子单体。”为例,对本发明所述的中文句子中并列信息提取方法作进一步的说明。
按照如上述具体实施例中规则应用后的结果是:
优选\ 的\ 是\ 大分子<AND_TQ_S> \ 单体<AND_TQ_S> \ 和<ANDMK>\ 离子<AND_TH_S> \ 单体<AND_TH_S> \ 。\
采用最大范围方法,最后提取到的并列信息应该是:
左边并列信息:大分子\ 单体
右边并列信息:单体\ 离子
上述例子中共匹配成功了四条规则,其中:
1. 通过词匹配,分别找到了重复的“单体”,重复的语素“子”(对应到“大分子”,“离子”),应用了二条规则。
2. 通过概念匹配,分别找到了重复的“单体”与“离子”、“离子”与“单体”,应用了另外二条规则。
本实施例中出现了一个特殊情况:所述连接词的左边同时出现两个以上的前标记,并且在连接词的右边同时出现两个以上的后标记,这样就需要以最左边或者最右边作为提取的边界。
参见图2所示的结构框图,相应地,本发明一个实施例的一种中文句子中并列信息提取装置,包括:
分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合。
并列信息候选获取单元,用于在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度。
并列信息标注规则集加载单元,用于加载并列信息标注规则集。
带并列信息标记的标注文本生成单元,用于从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本。
并列信息提取输出单元,用于对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。
作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,分词单位序列集合获取单元进一步包括:
前向最大长度词语构成的分词单位获取单元,用于使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
合并单元,进一步包括:
数词短语合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;
英文专名合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字和英语字母或者合并所述分词单位中的单个且连续的英语字母生成英文专名。
作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,所述并列信息候选获取单元进一步包括除概念外的并列信息候选获取子单元和概念的并列信息候选子单元,其中,
除概念外的并列信息候选获取子单元,用于使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选子单元,用于从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;并根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,所述除概念外的并列信息候选获取子单元中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述概念的并列信息候选获取子单元中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
作为本发明其他实施例的一种中文句子中并列信息提取装置,在上述实施例的基础上,所述并列信息标注规则集加载单元和所述带并列信息标记的标注文本生成单元中的并列信息标注规则为产生式规则,进一步包括:
约束检测子单元,用于检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;如匹配,则转入标记子单元;
标记子单元,用于根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
本发明所述的中文句子中并列信息提取方法,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行了计算,以概念的类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括了严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可以降低中文句子语义分析的复杂度,可以对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,提取的并列信息可以有效地应用于语块格式转换阶段,对于语块的调序有重要作用。作为一种浅层语块分析技术,并列信息的利用可改善和提高译文的翻译效果。本专利完全基于语言学特点实现识别,尤其是长句识别效果好,特备适合对于专利文献的翻译。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种中文句子中并列信息提取方法,其特征在于,包括:
S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;
S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;
S3:加载并列信息标注规则集;
S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;
S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出,所述步骤S1中进一步包括:
使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:
合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。
2.根据权利要求1所述的中文句子中并列信息提取方法,其特征在于,所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤,其中,除概念外的并列信息候选的生成步骤如下:
S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;
S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;
S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选的生成步骤如下:
S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;
S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
3.根据权利要求2所述的中文句子中并列信息提取方法,其特征在于,所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述步骤S26中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
4.根据权利要求1-3任一所述的中文句子中并列信息提取方法,其特征在于,所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:
S41:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;
S42:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
5.一种中文句子中并列信息提取装置,其特征在于,包括:
分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;
并列信息候选获取单元,用于在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;
并列信息标注规则集加载单元,用于加载并列信息标注规则集;
带并列信息标记的标注文本生成单元,用于从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;
并列信息提取输出单元,用于对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出,分词单位序列集合获取单元进一步包括;
前向最大长度词语构成的分词单位获取单元,用于使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;
合并单元,进一步包括:
数词短语合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;
英文专名合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字和英语字母或者合并所述分词单位中的单个且连续的英语字母生成英文专名。
6.根据权利要求5所述的中文句子中并列信息提取装置,其特征在于,所述并列信息候选获取单元进一步包括除概念外的并列信息候选获取子单元和概念的并列信息候选子单元,其中,
除概念外的并列信息候选获取子单元,用于使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;
概念的并列信息候选子单元,用于从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;并根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。
7.根据权利要求6所述的一种中文句子中并列信息提取装置,其特征在于,所述除概念外的并列信息候选获取子单元中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述概念的并列信息候选获取子单元中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。
8.根据权利要求5-7任一所述的一种中文句子中并列信息提取装置,其特征在于,所述并列信息标注规则集加载单元和所述带并列信息标记的标注文本生成单元中的并列信息标注规则为产生式规则,进一步包括:
约束检测子单元,用于检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;如匹配,则转入标记子单元;
标记子单元,用于根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。
CN201310315217.7A 2013-07-25 2013-07-25 一种中文句子中并列信息提取方法及装置 Expired - Fee Related CN103440252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310315217.7A CN103440252B (zh) 2013-07-25 2013-07-25 一种中文句子中并列信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310315217.7A CN103440252B (zh) 2013-07-25 2013-07-25 一种中文句子中并列信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN103440252A CN103440252A (zh) 2013-12-11
CN103440252B true CN103440252B (zh) 2016-11-16

Family

ID=49693943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310315217.7A Expired - Fee Related CN103440252B (zh) 2013-07-25 2013-07-25 一种中文句子中并列信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN103440252B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657348B (zh) * 2015-02-06 2017-11-14 北京师范大学 一种中文句子中谓语语块提取方法及系统
CN106919542B (zh) 2015-12-24 2020-04-21 北京国双科技有限公司 规则匹配方法及装置
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
CN107229609B (zh) * 2016-03-25 2021-08-13 佳能株式会社 用于分割文本的方法和设备
CN108241609B (zh) * 2016-12-23 2022-02-01 科大讯飞股份有限公司 排比句识别方法及系统
CN108874791B (zh) * 2018-07-06 2022-05-24 北京联合大学 一种基于最小语义块的语义分析与汉英调序方法及系统
CN110807311B (zh) * 2018-07-18 2023-06-23 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109492081B (zh) * 2018-10-30 2022-05-27 上海智臻智能网络科技股份有限公司 文本信息搜索和信息交互方法、装置、设备及存储介质
CN109783801B (zh) * 2018-12-14 2023-08-25 厦门快商通信息技术有限公司 一种电子装置、多标签分类方法及存储介质
CN110489765A (zh) * 2019-07-19 2019-11-22 平安科技(深圳)有限公司 机器翻译方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215661A (ja) * 2001-01-12 2002-08-02 Sakae Takeuchi 自然言語インターフェイス知識応答システム
CN102200983A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 属性提取装置和方法
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002215661A (ja) * 2001-01-12 2002-08-02 Sakae Takeuchi 自然言語インターフェイス知識応答システム
CN102200983A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 属性提取装置和方法
CN102831109A (zh) * 2012-08-08 2012-12-19 中国专利信息中心 一种基于智能匹配的机器翻译装置及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于网页中深度并列结构的实例提取算法;张星星 等;《中国计算语言学研究前沿进展(2009-2011) 》;20110820;401-405 *
统计和规则相结合的并列结构自动识别;苗艳军 等;《计算机应用研究》;20090915;第26卷(第9期);3403-3406 *

Also Published As

Publication number Publication date
CN103440252A (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
CN103440252B (zh) 一种中文句子中并列信息提取方法及装置
CN105426711B (zh) 一种计算机软件源代码相似度检测方法
CN105718586B (zh) 分词的方法及装置
CN106326303B (zh) 一种口语语义解析系统及方法
US10366116B2 (en) Discrepancy curator for documents in a corpus of a cognitive computing system
Li et al. The role of discourse units in near-extractive summarization
US20090222395A1 (en) Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
US10146858B2 (en) Discrepancy handler for document ingestion into a corpus for a cognitive computing system
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
CN101655837A (zh) 一种对语音识别后文本进行检错并纠错的方法
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN107256212A (zh) 中文搜索词智能切分方法
CN105243056A (zh) 一种基于标点符号处理的汉语句法分析方法及装置
CN106383814A (zh) 一种英文社交媒体短文本分词方法
KR101072460B1 (ko) 한국어 형태소 분석 방법
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN104572619A (zh) 智能机器人交互系统在投融资领域的应用
CN103823868A (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
CN108536724A (zh) 一种基于双层哈希索引的地铁设计规范中主体识别方法
CN109800240A (zh) Sql语句归类方法、装置、计算机设备和存储介质
KS et al. Automatic error detection and correction in malayalam
CN106844329A (zh) 一种基于邮件列表的开源软件问答信息抽取方法
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
CN110362673A (zh) 基于摘要语义分析的计算机视觉类论文内容判别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161116

Termination date: 20210725