CN108460021B

CN108460021B - 一种提取论文标题中的问题方法对的方法

Info

Publication number: CN108460021B
Application number: CN201810219012.1A
Authority: CN
Inventors: 赵姝; 王炤宇; 陈洁; 段震; 陈喜; 张燕平
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2021-10-12
Anticipated expiration: 2038-03-16
Also published as: CN108460021A

Abstract

本发明公开了一种提取论文标题中的问题方法对的方法，包括：对论文标题进行标准化处理，在论文标题中进行论文关键词匹配`，得到初步问题方法概念集合；利用黑名单、白名单对初步问题方法概念集合进行调整，得到有效问题方法概念集合；构建用于分隔问题和方法的目标语法模式集合；根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合；利用笛卡尔积搭配问题概念集合和方法概念集合，得到论文标题中的问题方法对。

Description

一种提取论文标题中的问题方法对的方法

技术领域

本发明涉及文本信息提取技术领域，尤其涉及一种提取论文标题中的问题方法对的方法。

背景技术

科学文献分析中的一个关键要素是分析某个领域具有哪些研究问题，以及目前主要有哪些方法可以用来解决这些问题。随着时代的高速发展，科研能力的不断进步，科学文献的总数也在快速增长，因此越来越需要一种技术可以从大量的科学文献中提取问题方法对，从而进一步分析科技发展趋势，帮助优化研究资源配置。

论文作为科学文献的重要组成部分，具有时效性高、总量大、增长速度快等特点，是对科研工作者最新研究成果的分享和总结。论文具有非常丰富的信息，但是同时也具有高度的复杂性和弱结构化的特点。尽管可以人工阅读论文，分析出论文所研究问题与所使用方法的组合，但是论文的特点决定了这种方法是低效的，由于论文具有高时效性，在需要追踪新技术时甚至是不可取的。因此，如何在大量科学文献，特别是弱结构的论文中提取出问题方法对，来追踪技术发展是一个非常有价值的工作。

发明内容

基于背景技术存在的技术问题，本发明提出了一种提取论文标题中的问题方法对的方法；

本发明提出的一种提取论文标题中的问题方法对的方法，包括：

S1、对论文标题进行标准化处理，在论文标题中进行论文关键词匹配，得到初步问题方法概念集合；

S2、利用黑名单、白名单对初步问题方法概念集合进行调整，得到有效问题方法概念集合；

S3、构建用于分隔问题和方法的目标语法模式集合；

S4、根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合；

S5、利用笛卡尔积搭配问题概念集合和方法概念集合，得到论文标题中的问题方法对。

优选地，步骤S1，具体包括：

S11、将论文标题文本转换为小写，并对其进行分词、词性标注和词性还原；

S12、在论文标题中进行论文关键词匹配，得到初步问题方法概念集合。

优选地，步骤S2，具体包括：

S21、根据预设的停用概念列表建立黑名单，根据预设的定向抽取概念列表建立白名单；

S22、从初步问题方法概念集合中删除黑名单中的概念，得到微调初步问题方法概念集合；

S23、向微调初步问题方法概念集合中添加白名单中的概念，得到有效问题方法概念集合。

优选地，步骤S3，具体包括：

S31、获取语法模式串集合中的一个语法模式串；

S32、解析出该语法模式串包含的语法模式，得到语法模式列表；

S33、重复执行步骤S31、S32，直到语法模式串集合中所有语法模式串均执行步骤S31、S32操作后，合并所有的语法模式列表，得到用于分隔问题和方法的目标语法模式集合，其中，目标语法模式集合包括位置标记和分隔标记，位置标记用于标明该位置所属的概念属于问题还是方法；分隔标记用于标明何种语法模式可以用来指示问题和方法的位置。

优选地，步骤S4，具体包括：

S41、从目标语法模式集合中抽取所有的分隔标记生成第一列表；

S42、根据一个论文标题中是否含有第一列表中的分隔标记，将语法模式编号按位进行或运算，得到指示符x；

S43、判断x是否为0，当判断结果为是时，获取下一个论文标题，执行S42；否则，执行步骤S44；

S44、从论文标题中按顺序抽取出有效问题方法概念集合中的概念和语法模式中的分隔符，生成第二列表，第二列表包括词组和其类别，其中，类别0表示该组为概念，类别1表示该组为分隔符；

S45、将位置标记初始化为-1，将第二列表位置标记为起始位置；

S46、对于x每一位所代表的每一个语法模式，从语法模式开头判断语法模式中的标记是否为位置标记，当判断结果为是时，执行S47；当判断结果为否时，执行步骤S48；当到达语法模式结尾时，执行步骤S491；

S47、设置位置标记为语法模式中的位置标记，问题设置为0，方法设置为1，执行步骤S46；

S48、判断抽取列表位置是否超出抽取列表长度，当判断结果为是时，获取下一个个论文标题执行步骤S42；否则，按抽取列表位置从抽取列表中选择词组，抽取列表位置自增，执行步骤S49；

S49、判断词组是否为概念，若词组为概念，则按位置标记的指示加入到相应的概念集合中，执行步骤S48；否则，抽取列表位置自增，并判断分隔标记和分隔符是否一致，若不一致执行步骤S48；若一致，执行步骤S46；

S491、对从当前抽取列表位置到抽取列表结束的每一个概念词组，按位置标记的指示加入到相应的问题概念集合或方法概念集合。

优选地，步骤S5，具体包括：

S51、判断问题概念集合是否不为空，当判断结果为是时，执行步骤S52；否则，执行步骤S53；

S52、判断方法概念集合是否不为空，当判断结果为是时，执行步骤S54；否则，执行步骤S55；

S53、判断方法概念集合是否不为空，当判断结果为是时，对方法概念集合中的每一个方法利用笛卡尔积搭配问题“*”，结束；否则，执行步骤S56；

S54、对问题概念集合中的每一个问题利用笛卡尔积搭配方法概念集合中的每一个方法，结束；

S55、对问题概念集合中的每一个问题利用笛卡尔积搭配方法“*”，结束；

S56、返回空集，结束。

本发明解决了语法模式多样性问题，提供一个可供定制的语法模式匹配选择，使用户可以在发现新的语法模式时轻松扩展，提升提取出的问题方法概念精度，使用黑名单方式规定停用概念，使用白名单方式进行定向抽取，通过统一的标准化操作调整最后进行抽取所使用的概念集合，使用户在概念抽取的不同阶段得以更精确地控制向其他模块传递的结果。本发明为了更精确地匹配信息，定义了标准化操作，对全部的文本进行统一的标准化，在一定程度上克服了精确文本的匹配问题。

本发明利用简单明确的语法规则，结合概念抽取和位置指示，实现了概念提取和分类。利用笛卡尔积对二元实体进行了配对。通过规范-合并架构提高了抽取系统的扩展性，从而准确、规范并易于扩展地提取问题方法对。

附图说明

图1为本发明提出的一种提取论文标题中的问题方法对的方法的流程示意图；

图2为图1中步骤S1的具体流程图；

图3为图1中步骤S2的具体流程图；

图4为图1中步骤S3的具体流程图；

图5为图1中步骤S4的具体流程图；

图6为图1中步骤S5的具体流程图。

具体实施方式

参照图1，本发明提出的一种提取论文标题中的问题方法对的方法，包括：

步骤S1，对论文标题进行标准化处理，在论文标题中进行论文关键词匹配，得到初步问题方法概念集合，具体包括：

参照图2，在具体方案中，将文本转化为小写，例如，“A Database Architecturefor Supporting Business Transactions”转化为“a database architecture forsupporting business transactions”；将文本分词、词性标注和词性还原，例如，由上例得到“database architecture for support business transaction”；在论文标题中进行论文关键词匹配，得到初步的问题方法概念集合，例如，在“database architecture forsupport business transaction”中匹配“database architecture,businesstransaction”，得到匹配“{database architecture,business transaction}”，在所有论文匹配完成后，对全部匹配集合做并操作，得到一个完整的初步的问题方法概念集合，其中，标准化操作能使相同词的不同形式得到一致的识别。

步骤S2，利用黑名单、白名单对初步问题方法概念集合进行调整，得到有效问题方法概念集合，具体包括：

参照图3，在具体方案中，黑名单为一个概念集合，用于定义停用概念，或加入中间结果中效果不好的概念，阻止方法对这些概念进行提取；白名单为一个概念集合，用于定向提取，或利用其他概念提取方法从语料中提取得到的问题方法概念，对现有问题方法概念进行扩充；根据黑名单和白名单来对初步问题方法概念集合进行相应的删除和添加，来得到有效问题方法概念集合，黑名单、白名单中的概念应当使用与步骤S1中相同的标准化操作进行处理。

步骤S3，构建用于分隔问题和方法的目标语法模式集合，具体包括：

S31、获取语法模式串集合中的一个语法模式串，例如，“<m>[for,to]<p>”；

S32、解析出该语法模式串包含的语法模式，得到语法模式列表，其中，0代表问题，1代表方法，例如，两个语法模式列表，分别为“[1,‘for’,0]”和“[1,‘to’,0]”；

参照图4，在具体方案中，定义一组用于分隔问题和方法的语法模式集合，包括位置标记和分隔标记；位置标记用于标明该位置所属的概念属于问题还是方法；分隔标记用于标明何种语法模式可以用来指示问题和方法的位置，由定义的语法模式语法解析出语法模式，构成语法模式集合。语法模式语法包含两类标记，一类是由尖括号构成的位置标记，例如，“<p>|<m>”，其中“<p>”代表问题位置，“<m>”代表方法位置；另一类是由方括号构成的分隔标记，例如“[using,by,via]”，多个分隔标记间用逗号隔开。例如，语法模式串“<p>[using,by,via]<m>”包含这样的含义：如果一个标题包含“using”或“by”或“via”，那么这些分隔符前面出现的概念属于问题概念，后面出现的概念属于方法概念。特别地，语法模式中多个位置标记不能相邻，多个分隔标记可以相邻。

步骤S4，根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合，具体包括：

S491、对从当前抽取列表位置到抽取列表结束的每一个概念词组，按位置标记的指示加入到相应的问题概念集合或方法概念集合,按照x的指示，对当前标题判断下一个可能匹配的语法模式，执行步骤S42，直到所有可能语法模式均匹配完成。

参照图5，在具体方案中，将语法模式中出现的全部分隔标记生成一个对应的列表，通过在标题中匹配分隔标记来判断标题是否可能满足某个语法模式；如果标题可能满足某个语法模式，则根据语法模式的指示，利用有效问题方法概念集合在标题中提取问题方法概念并加入到问题概念集合或方法概念集合中，从语法模式集合中抽取出全部的分隔标记生成一个分隔标记列表，包含了分隔标记和所属的语法模式编号，判断标题中是否含有某个分隔标记，由步骤S23得到有效问题方法概念集合，根据语法模式的指示，提取出问题概念集合与方法概念集合。

步骤S5，利用笛卡尔积搭配问题概念集合和方法概念集合，得到论文标题中的问题方法对，具体包括：

S56、返回空集，结束。

参照图6，在具体方案中，若问题概念集合或方法概念集合中某个集合为空，则用某种特殊标记和另一集合中的每个元素进行配对，表示某个概念为一个问题或某个概念为一个方法，笛卡尔积搭配步骤S4得到的问题概念集合和方法概念集合得到最终的问题方法对提取结果，如果问题或方法集合为空，则对应位置用符号“*”代替。

例如，如果问题集合为“{P1,P2}”，方法集合为“{M1,M2}”，步骤S5最终返回“{(P1,M1),(P1,M2),(P2,M1),(P2,M2)}”；如果问题集合为“{P1,P2}”，方法集合为“{}”，步骤S5最终返回“{(P1,*),(P2,*)}”；如果问题集合为“{}”，方法集合为“{M1,M2}”，步骤S5最终返回“{(*,M1),(*,M2)}”；如果问题集合为“{}”，方法集合为“{}”，步骤S5最终返回“{}”。

在对多个论文标题进行方法对匹配时，一个论文标题进行步骤S5完成配对返回操作后，回到步骤S42对下一个论文标题进行提取。也就是说，对于每个论文标题，对于每种可能的语法模式，按照S4进行分类，按照S5进行配对提取，直到所有论文标题均进行步骤S4和步骤S5的操作。

本实施方式解决了语法模式多样性问题，提供一个可供定制的语法模式匹配选择，使用户可以在发现新的语法模式时轻松扩展，提升提取出的问题方法概念精度，使用黑名单方式规定停用概念，使用白名单方式进行定向抽取，通过统一的标准化操作调整最后进行抽取所使用的概念集合，使用户在概念抽取的不同阶段得以更精确地控制向其他模块传递的结果。本发明为了更精确地匹配信息，定义了标准化操作，对全部的文本进行统一的标准化，在一定程度上克服了精确文本的匹配问题。本实施方式利用简单明确的语法规则，结合概念抽取和位置指示，实现了概念提取和分类。利用笛卡尔积对二元实体进行了配对。通过规范-合并架构提高了抽取系统的扩展性，从而准确、规范并易于扩展地提取问题方法对。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种提取论文标题中的问题方法对的方法，其特征在于，包括：

S3、构建用于分隔问题和方法的目标语法模式集合；

S5、利用笛卡尔积搭配问题概念集合和方法概念集合，得到论文标题中的问题方法对；

步骤S3，具体包括：

S31、获取语法模式串集合中的一个语法模式串；

S33、重复执行步骤S31、S32，直到语法模式串集合中所有语法模式串均执行步骤S31、S32操作后，合并所有的语法模式列表，得到用于分隔问题和方法的目标语法模式集合，其中，目标语法模式集合包括位置标记和分隔标记，位置标记用于标明该位置所属的概念属于问题还是方法；分隔标记用于标明何种语法模式可以用来指示问题和方法的位置；

步骤S4，具体包括：

2.根据权利要求1所述的提取论文标题中的问题方法对的方法，其特征在于，步骤S1，具体包括：

3.根据权利要求1所述的提取论文标题中的问题方法对的方法，其特征在于，步骤S2，具体包括：

4.根据权利要求1所述的提取论文标题中的问题方法对的方法，其特征在于，步骤S5，具体包括：

S56、返回空集，结束。