CN108460021B - 一种提取论文标题中的问题方法对的方法 - Google Patents

一种提取论文标题中的问题方法对的方法 Download PDF

Info

Publication number
CN108460021B
CN108460021B CN201810219012.1A CN201810219012A CN108460021B CN 108460021 B CN108460021 B CN 108460021B CN 201810219012 A CN201810219012 A CN 201810219012A CN 108460021 B CN108460021 B CN 108460021B
Authority
CN
China
Prior art keywords
list
concept set
grammar
concept
paper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810219012.1A
Other languages
English (en)
Other versions
CN108460021A (zh
Inventor
赵姝
王炤宇
陈洁
段震
陈喜
张燕平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201810219012.1A priority Critical patent/CN108460021B/zh
Publication of CN108460021A publication Critical patent/CN108460021A/zh
Application granted granted Critical
Publication of CN108460021B publication Critical patent/CN108460021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取论文标题中的问题方法对的方法,包括:对论文标题进行标准化处理,在论文标题中进行论文关键词匹配`,得到初步问题方法概念集合;利用黑名单、白名单对初步问题方法概念集合进行调整,得到有效问题方法概念集合;构建用于分隔问题和方法的目标语法模式集合;根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合;利用笛卡尔积搭配问题概念集合和方法概念集合,得到论文标题中的问题方法对。

Description

一种提取论文标题中的问题方法对的方法
技术领域
本发明涉及文本信息提取技术领域,尤其涉及一种提取论文标题中的问题方法对的方法。
背景技术
科学文献分析中的一个关键要素是分析某个领域具有哪些研究问题,以及目前主要有哪些方法可以用来解决这些问题。随着时代的高速发展,科研能力的不断进步,科学文献的总数也在快速增长,因此越来越需要一种技术可以从大量的科学文献中提取问题方法对,从而进一步分析科技发展趋势,帮助优化研究资源配置。
论文作为科学文献的重要组成部分,具有时效性高、总量大、增长速度快等特点,是对科研工作者最新研究成果的分享和总结。论文具有非常丰富的信息,但是同时也具有高度的复杂性和弱结构化的特点。尽管可以人工阅读论文,分析出论文所研究问题与所使用方法的组合,但是论文的特点决定了这种方法是低效的,由于论文具有高时效性,在需要追踪新技术时甚至是不可取的。因此,如何在大量科学文献,特别是弱结构的论文中提取出问题方法对,来追踪技术发展是一个非常有价值的工作。
发明内容
基于背景技术存在的技术问题,本发明提出了一种提取论文标题中的问题方法对的方法;
本发明提出的一种提取论文标题中的问题方法对的方法,包括:
S1、对论文标题进行标准化处理,在论文标题中进行论文关键词匹配,得到初步问题方法概念集合;
S2、利用黑名单、白名单对初步问题方法概念集合进行调整,得到有效问题方法概念集合;
S3、构建用于分隔问题和方法的目标语法模式集合;
S4、根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合;
S5、利用笛卡尔积搭配问题概念集合和方法概念集合,得到论文标题中的问题方法对。
优选地,步骤S1,具体包括:
S11、将论文标题文本转换为小写,并对其进行分词、词性标注和词性还原;
S12、在论文标题中进行论文关键词匹配,得到初步问题方法概念集合。
优选地,步骤S2,具体包括:
S21、根据预设的停用概念列表建立黑名单,根据预设的定向抽取概念列表建立白名单;
S22、从初步问题方法概念集合中删除黑名单中的概念,得到微调初步问题方法概念集合;
S23、向微调初步问题方法概念集合中添加白名单中的概念,得到有效问题方法概念集合。
优选地,步骤S3,具体包括:
S31、获取语法模式串集合中的一个语法模式串;
S32、解析出该语法模式串包含的语法模式,得到语法模式列表;
S33、重复执行步骤S31、S32,直到语法模式串集合中所有语法模式串均执行步骤S31、S32操作后,合并所有的语法模式列表,得到用于分隔问题和方法的目标语法模式集合,其中,目标语法模式集合包括位置标记和分隔标记,位置标记用于标明该位置所属的概念属于问题还是方法;分隔标记用于标明何种语法模式可以用来指示问题和方法的位置。
优选地,步骤S4,具体包括:
S41、从目标语法模式集合中抽取所有的分隔标记生成第一列表;
S42、根据一个论文标题中是否含有第一列表中的分隔标记,将语法模式编号按位进行或运算,得到指示符x;
S43、判断x是否为0,当判断结果为是时,获取下一个论文标题,执行S42;否则,执行步骤S44;
S44、从论文标题中按顺序抽取出有效问题方法概念集合中的概念和语法模式中的分隔符,生成第二列表,第二列表包括词组和其类别,其中,类别0表示该组为概念,类别1表示该组为分隔符;
S45、将位置标记初始化为-1,将第二列表位置标记为起始位置;
S46、对于x每一位所代表的每一个语法模式,从语法模式开头判断语法模式中的标记是否为位置标记,当判断结果为是时,执行S47;当判断结果为否时,执行步骤S48;当到达语法模式结尾时,执行步骤S491;
S47、设置位置标记为语法模式中的位置标记,问题设置为0,方法设置为1,执行步骤S46;
S48、判断抽取列表位置是否超出抽取列表长度,当判断结果为是时,获取下一个个论文标题执行步骤S42;否则,按抽取列表位置从抽取列表中选择词组,抽取列表位置自增,执行步骤S49;
S49、判断词组是否为概念,若词组为概念,则按位置标记的指示加入到相应的概念集合中,执行步骤S48;否则,抽取列表位置自增,并判断分隔标记和分隔符是否一致,若不一致执行步骤S48;若一致,执行步骤S46;
S491、对从当前抽取列表位置到抽取列表结束的每一个概念词组,按位置标记的指示加入到相应的问题概念集合或方法概念集合。
优选地,步骤S5,具体包括:
S51、判断问题概念集合是否不为空,当判断结果为是时,执行步骤S52;否则,执行步骤S53;
S52、判断方法概念集合是否不为空,当判断结果为是时,执行步骤S54;否则,执行步骤S55;
S53、判断方法概念集合是否不为空,当判断结果为是时,对方法概念集合中的每一个方法利用笛卡尔积搭配问题“*”,结束;否则,执行步骤S56;
S54、对问题概念集合中的每一个问题利用笛卡尔积搭配方法概念集合中的每一个方法,结束;
S55、对问题概念集合中的每一个问题利用笛卡尔积搭配方法“*”,结束;
S56、返回空集,结束。
本发明解决了语法模式多样性问题,提供一个可供定制的语法模式匹配选择,使用户可以在发现新的语法模式时轻松扩展,提升提取出的问题方法概念精度,使用黑名单方式规定停用概念,使用白名单方式进行定向抽取,通过统一的标准化操作调整最后进行抽取所使用的概念集合,使用户在概念抽取的不同阶段得以更精确地控制向其他模块传递的结果。本发明为了更精确地匹配信息,定义了标准化操作,对全部的文本进行统一的标准化,在一定程度上克服了精确文本的匹配问题。
本发明利用简单明确的语法规则,结合概念抽取和位置指示,实现了概念提取和分类。利用笛卡尔积对二元实体进行了配对。通过规范-合并架构提高了抽取系统的扩展性,从而准确、规范并易于扩展地提取问题方法对。
附图说明
图1为本发明提出的一种提取论文标题中的问题方法对的方法的流程示意图;
图2为图1中步骤S1的具体流程图;
图3为图1中步骤S2的具体流程图;
图4为图1中步骤S3的具体流程图;
图5为图1中步骤S4的具体流程图;
图6为图1中步骤S5的具体流程图。
具体实施方式
参照图1,本发明提出的一种提取论文标题中的问题方法对的方法,包括:
步骤S1,对论文标题进行标准化处理,在论文标题中进行论文关键词匹配,得到初步问题方法概念集合,具体包括:
S11、将论文标题文本转换为小写,并对其进行分词、词性标注和词性还原;
S12、在论文标题中进行论文关键词匹配,得到初步问题方法概念集合。
参照图2,在具体方案中,将文本转化为小写,例如,“A Database Architecturefor Supporting Business Transactions”转化为“a database architecture forsupporting business transactions”;将文本分词、词性标注和词性还原,例如,由上例得到“database architecture for support business transaction”;在论文标题中进行论文关键词匹配,得到初步的问题方法概念集合,例如,在“database architecture forsupport business transaction”中匹配“database architecture,businesstransaction”,得到匹配“{database architecture,business transaction}”,在所有论文匹配完成后,对全部匹配集合做并操作,得到一个完整的初步的问题方法概念集合,其中,标准化操作能使相同词的不同形式得到一致的识别。
步骤S2,利用黑名单、白名单对初步问题方法概念集合进行调整,得到有效问题方法概念集合,具体包括:
S21、根据预设的停用概念列表建立黑名单,根据预设的定向抽取概念列表建立白名单;
S22、从初步问题方法概念集合中删除黑名单中的概念,得到微调初步问题方法概念集合;
S23、向微调初步问题方法概念集合中添加白名单中的概念,得到有效问题方法概念集合。
参照图3,在具体方案中,黑名单为一个概念集合,用于定义停用概念,或加入中间结果中效果不好的概念,阻止方法对这些概念进行提取;白名单为一个概念集合,用于定向提取,或利用其他概念提取方法从语料中提取得到的问题方法概念,对现有问题方法概念进行扩充;根据黑名单和白名单来对初步问题方法概念集合进行相应的删除和添加,来得到有效问题方法概念集合,黑名单、白名单中的概念应当使用与步骤S1中相同的标准化操作进行处理。
步骤S3,构建用于分隔问题和方法的目标语法模式集合,具体包括:
S31、获取语法模式串集合中的一个语法模式串,例如,“<m>[for,to]<p>”;
S32、解析出该语法模式串包含的语法模式,得到语法模式列表,其中,0代表问题,1代表方法,例如,两个语法模式列表,分别为“[1,‘for’,0]”和“[1,‘to’,0]”;
S33、重复执行步骤S31、S32,直到语法模式串集合中所有语法模式串均执行步骤S31、S32操作后,合并所有的语法模式列表,得到用于分隔问题和方法的目标语法模式集合,其中,目标语法模式集合包括位置标记和分隔标记,位置标记用于标明该位置所属的概念属于问题还是方法;分隔标记用于标明何种语法模式可以用来指示问题和方法的位置。
参照图4,在具体方案中,定义一组用于分隔问题和方法的语法模式集合,包括位置标记和分隔标记;位置标记用于标明该位置所属的概念属于问题还是方法;分隔标记用于标明何种语法模式可以用来指示问题和方法的位置,由定义的语法模式语法解析出语法模式,构成语法模式集合。语法模式语法包含两类标记,一类是由尖括号构成的位置标记,例如,“<p>|<m>”,其中“<p>”代表问题位置,“<m>”代表方法位置;另一类是由方括号构成的分隔标记,例如“[using,by,via]”,多个分隔标记间用逗号隔开。例如,语法模式串“<p>[using,by,via]<m>”包含这样的含义:如果一个标题包含“using”或“by”或“via”,那么这些分隔符前面出现的概念属于问题概念,后面出现的概念属于方法概念。特别地,语法模式中多个位置标记不能相邻,多个分隔标记可以相邻。
步骤S4,根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合,具体包括:
S41、从目标语法模式集合中抽取所有的分隔标记生成第一列表;
S42、根据一个论文标题中是否含有第一列表中的分隔标记,将语法模式编号按位进行或运算,得到指示符x;
S43、判断x是否为0,当判断结果为是时,获取下一个论文标题,执行S42;否则,执行步骤S44;
S44、从论文标题中按顺序抽取出有效问题方法概念集合中的概念和语法模式中的分隔符,生成第二列表,第二列表包括词组和其类别,其中,类别0表示该组为概念,类别1表示该组为分隔符;
S45、将位置标记初始化为-1,将第二列表位置标记为起始位置;
S46、对于x每一位所代表的每一个语法模式,从语法模式开头判断语法模式中的标记是否为位置标记,当判断结果为是时,执行S47;当判断结果为否时,执行步骤S48;当到达语法模式结尾时,执行步骤S491;
S47、设置位置标记为语法模式中的位置标记,问题设置为0,方法设置为1,执行步骤S46;
S48、判断抽取列表位置是否超出抽取列表长度,当判断结果为是时,获取下一个个论文标题执行步骤S42;否则,按抽取列表位置从抽取列表中选择词组,抽取列表位置自增,执行步骤S49;
S49、判断词组是否为概念,若词组为概念,则按位置标记的指示加入到相应的概念集合中,执行步骤S48;否则,抽取列表位置自增,并判断分隔标记和分隔符是否一致,若不一致执行步骤S48;若一致,执行步骤S46;
S491、对从当前抽取列表位置到抽取列表结束的每一个概念词组,按位置标记的指示加入到相应的问题概念集合或方法概念集合,按照x的指示,对当前标题判断下一个可能匹配的语法模式,执行步骤S42,直到所有可能语法模式均匹配完成。
参照图5,在具体方案中,将语法模式中出现的全部分隔标记生成一个对应的列表,通过在标题中匹配分隔标记来判断标题是否可能满足某个语法模式;如果标题可能满足某个语法模式,则根据语法模式的指示,利用有效问题方法概念集合在标题中提取问题方法概念并加入到问题概念集合或方法概念集合中,从语法模式集合中抽取出全部的分隔标记生成一个分隔标记列表,包含了分隔标记和所属的语法模式编号,判断标题中是否含有某个分隔标记,由步骤S23得到有效问题方法概念集合,根据语法模式的指示,提取出问题概念集合与方法概念集合。
步骤S5,利用笛卡尔积搭配问题概念集合和方法概念集合,得到论文标题中的问题方法对,具体包括:
S51、判断问题概念集合是否不为空,当判断结果为是时,执行步骤S52;否则,执行步骤S53;
S52、判断方法概念集合是否不为空,当判断结果为是时,执行步骤S54;否则,执行步骤S55;
S53、判断方法概念集合是否不为空,当判断结果为是时,对方法概念集合中的每一个方法利用笛卡尔积搭配问题“*”,结束;否则,执行步骤S56;
S54、对问题概念集合中的每一个问题利用笛卡尔积搭配方法概念集合中的每一个方法,结束;
S55、对问题概念集合中的每一个问题利用笛卡尔积搭配方法“*”,结束;
S56、返回空集,结束。
参照图6,在具体方案中,若问题概念集合或方法概念集合中某个集合为空,则用某种特殊标记和另一集合中的每个元素进行配对,表示某个概念为一个问题或某个概念为一个方法,笛卡尔积搭配步骤S4得到的问题概念集合和方法概念集合得到最终的问题方法对提取结果,如果问题或方法集合为空,则对应位置用符号“*”代替。
例如,如果问题集合为“{P1,P2}”,方法集合为“{M1,M2}”,步骤S5最终返回“{(P1,M1),(P1,M2),(P2,M1),(P2,M2)}”;如果问题集合为“{P1,P2}”,方法集合为“{}”,步骤S5最终返回“{(P1,*),(P2,*)}”;如果问题集合为“{}”,方法集合为“{M1,M2}”,步骤S5最终返回“{(*,M1),(*,M2)}”;如果问题集合为“{}”,方法集合为“{}”,步骤S5最终返回“{}”。
在对多个论文标题进行方法对匹配时,一个论文标题进行步骤S5完成配对返回操作后,回到步骤S42对下一个论文标题进行提取。也就是说,对于每个论文标题,对于每种可能的语法模式,按照S4进行分类,按照S5进行配对提取,直到所有论文标题均进行步骤S4和步骤S5的操作。
本实施方式解决了语法模式多样性问题,提供一个可供定制的语法模式匹配选择,使用户可以在发现新的语法模式时轻松扩展,提升提取出的问题方法概念精度,使用黑名单方式规定停用概念,使用白名单方式进行定向抽取,通过统一的标准化操作调整最后进行抽取所使用的概念集合,使用户在概念抽取的不同阶段得以更精确地控制向其他模块传递的结果。本发明为了更精确地匹配信息,定义了标准化操作,对全部的文本进行统一的标准化,在一定程度上克服了精确文本的匹配问题。本实施方式利用简单明确的语法规则,结合概念抽取和位置指示,实现了概念提取和分类。利用笛卡尔积对二元实体进行了配对。通过规范-合并架构提高了抽取系统的扩展性,从而准确、规范并易于扩展地提取问题方法对。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种提取论文标题中的问题方法对的方法,其特征在于,包括:
S1、对论文标题进行标准化处理,在论文标题中进行论文关键词匹配,得到初步问题方法概念集合;
S2、利用黑名单、白名单对初步问题方法概念集合进行调整,得到有效问题方法概念集合;
S3、构建用于分隔问题和方法的目标语法模式集合;
S4、根据目标语法模式集合和有效问题方法概念集合从论文标题中提取出问题概念集合和方法概念集合;
S5、利用笛卡尔积搭配问题概念集合和方法概念集合,得到论文标题中的问题方法对;
步骤S3,具体包括:
S31、获取语法模式串集合中的一个语法模式串;
S32、解析出该语法模式串包含的语法模式,得到语法模式列表;
S33、重复执行步骤S31、S32,直到语法模式串集合中所有语法模式串均执行步骤S31、S32操作后,合并所有的语法模式列表,得到用于分隔问题和方法的目标语法模式集合,其中,目标语法模式集合包括位置标记和分隔标记,位置标记用于标明该位置所属的概念属于问题还是方法;分隔标记用于标明何种语法模式可以用来指示问题和方法的位置;
步骤S4,具体包括:
S41、从目标语法模式集合中抽取所有的分隔标记生成第一列表;
S42、根据一个论文标题中是否含有第一列表中的分隔标记,将语法模式编号按位进行或运算,得到指示符x;
S43、判断x是否为0,当判断结果为是时,获取下一个论文标题,执行S42;否则,执行步骤S44;
S44、从论文标题中按顺序抽取出有效问题方法概念集合中的概念和语法模式中的分隔符,生成第二列表,第二列表包括词组和其类别,其中,类别0表示该组为概念,类别1表示该组为分隔符;
S45、将位置标记初始化为-1,将第二列表位置标记为起始位置;
S46、对于x每一位所代表的每一个语法模式,从语法模式开头判断语法模式中的标记是否为位置标记,当判断结果为是时,执行S47;当判断结果为否时,执行步骤S48;当到达语法模式结尾时,执行步骤S491;
S47、设置位置标记为语法模式中的位置标记,问题设置为0,方法设置为1,执行步骤S46;
S48、判断抽取列表位置是否超出抽取列表长度,当判断结果为是时,获取下一个个论文标题执行步骤S42;否则,按抽取列表位置从抽取列表中选择词组,抽取列表位置自增,执行步骤S49;
S49、判断词组是否为概念,若词组为概念,则按位置标记的指示加入到相应的概念集合中,执行步骤S48;否则,抽取列表位置自增,并判断分隔标记和分隔符是否一致,若不一致执行步骤S48;若一致,执行步骤S46;
S491、对从当前抽取列表位置到抽取列表结束的每一个概念词组,按位置标记的指示加入到相应的问题概念集合或方法概念集合。
2.根据权利要求1所述的提取论文标题中的问题方法对的方法,其特征在于,步骤S1,具体包括:
S11、将论文标题文本转换为小写,并对其进行分词、词性标注和词性还原;
S12、在论文标题中进行论文关键词匹配,得到初步问题方法概念集合。
3.根据权利要求1所述的提取论文标题中的问题方法对的方法,其特征在于,步骤S2,具体包括:
S21、根据预设的停用概念列表建立黑名单,根据预设的定向抽取概念列表建立白名单;
S22、从初步问题方法概念集合中删除黑名单中的概念,得到微调初步问题方法概念集合;
S23、向微调初步问题方法概念集合中添加白名单中的概念,得到有效问题方法概念集合。
4.根据权利要求1所述的提取论文标题中的问题方法对的方法,其特征在于,步骤S5,具体包括:
S51、判断问题概念集合是否不为空,当判断结果为是时,执行步骤S52;否则,执行步骤S53;
S52、判断方法概念集合是否不为空,当判断结果为是时,执行步骤S54;否则,执行步骤S55;
S53、判断方法概念集合是否不为空,当判断结果为是时,对方法概念集合中的每一个方法利用笛卡尔积搭配问题“*”,结束;否则,执行步骤S56;
S54、对问题概念集合中的每一个问题利用笛卡尔积搭配方法概念集合中的每一个方法,结束;
S55、对问题概念集合中的每一个问题利用笛卡尔积搭配方法“*”,结束;
S56、返回空集,结束。
CN201810219012.1A 2018-03-16 2018-03-16 一种提取论文标题中的问题方法对的方法 Active CN108460021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810219012.1A CN108460021B (zh) 2018-03-16 2018-03-16 一种提取论文标题中的问题方法对的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810219012.1A CN108460021B (zh) 2018-03-16 2018-03-16 一种提取论文标题中的问题方法对的方法

Publications (2)

Publication Number Publication Date
CN108460021A CN108460021A (zh) 2018-08-28
CN108460021B true CN108460021B (zh) 2021-10-12

Family

ID=63236825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810219012.1A Active CN108460021B (zh) 2018-03-16 2018-03-16 一种提取论文标题中的问题方法对的方法

Country Status (1)

Country Link
CN (1) CN108460021B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
WO2013103174A1 (ko) * 2012-01-06 2013-07-11 ㈜광개토연구소 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템
US8744840B1 (en) * 2013-10-11 2014-06-03 Realfusion LLC Method and system for n-dimentional, language agnostic, entity, meaning, place, time, and words mapping
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN105975475A (zh) * 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN106649289A (zh) * 2016-12-16 2017-05-10 中国科学院自动化研究所 同时识别双语术语与词对齐的实现方法及实现系统
CN107122403A (zh) * 2017-03-22 2017-09-01 安徽大学 一种网页学术报告信息抽取方法和系统
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107436955A (zh) * 2017-08-17 2017-12-05 齐鲁工业大学 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN107491561A (zh) * 2017-09-25 2017-12-19 北京航空航天大学 一种基于本体的城市交通异构数据集成系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
WO2013103174A1 (ko) * 2012-01-06 2013-07-11 ㈜광개토연구소 기술적 과제와 기술적 솔루션 간의 맵핑 정보 처리 방법 및 그 정보를 처리하는 특허 정보 시스템
US8744840B1 (en) * 2013-10-11 2014-06-03 Realfusion LLC Method and system for n-dimentional, language agnostic, entity, meaning, place, time, and words mapping
CN105975475A (zh) * 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN105930509A (zh) * 2016-05-11 2016-09-07 华东师范大学 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN106649289A (zh) * 2016-12-16 2017-05-10 中国科学院自动化研究所 同时识别双语术语与词对齐的实现方法及实现系统
CN107122403A (zh) * 2017-03-22 2017-09-01 安徽大学 一种网页学术报告信息抽取方法和系统
CN107423279A (zh) * 2017-04-11 2017-12-01 美林数据技术股份有限公司 一种金融信贷短信的信息抽取和分析方法
CN107145523A (zh) * 2017-04-12 2017-09-08 浙江大学 基于迭代匹配的大型异构知识库对齐方法
CN107436955A (zh) * 2017-08-17 2017-12-05 齐鲁工业大学 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN107491561A (zh) * 2017-09-25 2017-12-19 北京航空航天大学 一种基于本体的城市交通异构数据集成系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文电子病历实体关系抽取研究;程健一;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;第I138-4707页 *
面向互动百科的知识抽取和知识库构建方法研究;盛晓昌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;第I138-2039页 *

Also Published As

Publication number Publication date
CN108460021A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN110298032A (zh) 文本分类语料标注训练系统
CN104978587B (zh) 一种基于文档类型的实体识别合作学习算法
CN111191022A (zh) 商品短标题生成方法及装置
CN110910175B (zh) 一种旅游门票产品画像生成方法
CN101980211A (zh) 一种机器学习模型及其建立方法
CN104991955A (zh) 一种自动构建模板库的方法及系统
CN105426358A (zh) 一种疾病名词自动识别方法
CN110781297B (zh) 基于层次判别树的多标签科研论文的分类方法
CN101452443B (zh) 逻辑结构模型创建辅助设备和方法
CN101980210A (zh) 一种标的词分类分级方法及系统
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN103294820A (zh) 基于语义扩展的web页面归类方法和系统
CN109858025A (zh) 一种地址标准化语料的分词方法及系统
CN101470699B (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN103218420A (zh) 一种网页标题提取方法及装置
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN103929499A (zh) 一种物联网异构标识识别方法和系统
CN108460021B (zh) 一种提取论文标题中的问题方法对的方法
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN113282686B (zh) 一种不平衡样本的关联规则确定方法及装置
CN104298752A (zh) 基于web网页资源的程序代码缩略词的自动扩充方法
CN114612071A (zh) 一种基于知识图谱的数据管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant