CN111737985B - 一种从文章标题层次结构提取过程体系的方法和装置 - Google Patents

一种从文章标题层次结构提取过程体系的方法和装置 Download PDF

Info

Publication number
CN111737985B
CN111737985B CN202010727220.XA CN202010727220A CN111737985B CN 111737985 B CN111737985 B CN 111737985B CN 202010727220 A CN202010727220 A CN 202010727220A CN 111737985 B CN111737985 B CN 111737985B
Authority
CN
China
Prior art keywords
title
level title
article
sequence
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010727220.XA
Other languages
English (en)
Other versions
CN111737985A (zh
Inventor
宋永生
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenling Technology Beijing Co ltd
Original Assignee
Jiangsu United Industrial Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu United Industrial Ltd By Share Ltd filed Critical Jiangsu United Industrial Ltd By Share Ltd
Priority to CN202010727220.XA priority Critical patent/CN111737985B/zh
Publication of CN111737985A publication Critical patent/CN111737985A/zh
Application granted granted Critical
Publication of CN111737985B publication Critical patent/CN111737985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种从文章标题层次结构提取过程体系的方法和装置,涉及人工智能技术领域,通过识别第一文章的第一文章格式信息获得第一级别标题以及第一段落;对第一级别标题进行过程识别,确定第一级别标题为第一过程的部分;获得第一级别标题的上层标题的第一过程名称与第一级别标题所在的下层标题,并获得在下层标题中描述第一过程的第二级别标题以及第二段落;根据时间识别第一段落与第二段落,获得第一级别标题与第二级别标题在第一过程中的第一步骤序列;获得多篇第二文章的第一过程中的第二步骤序列;根据第一过程名称集合第一步骤序列与第二步骤序列获得第一过程体系与第一过程体系的步骤序列,实现过程体系的完整性和一致性的技术效果。

Description

一种从文章标题层次结构提取过程体系的方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种从文章标题层次结构提取过程体系的方法和装置。
背景技术
机器智能的基础是计算机的认知体系,其包括两大类:一类是静态的概念体系,例如:依据属性特征的分类体系、依据物理连接的结构体系、以及依据逻辑关系的关系体系;另一类是动态的事件(过程)体系。在一个特定的时空发生的过程就是事件。因此,对过程体系的识别、提取是计算机获取机器智能不可或缺的一步,是计算机能够对历史事件做出判断、对未来事件做出预测的基础,也是当今对机器智能研究的一个重要方向。
识别文章标题的布局和层次是业内成熟技术,因为人们常用的文本软件(比如:word、PDF、HTML等)都自带格式信息,人们往往还用标题编号、字体渲染、段落缩进和对仗等来突出标题和段落的层次。故此,计算机可以获得丰富的信息识别出文章标题的层次。识别出文章标题的层次,并将其转换为容易计算和统计的编码后,就可以确定每一个标题的语义,从而完成一篇文章中过程体系的识别。
但本发明申请人发现现有技术至少存在如下技术问题:
现有的一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性。
发明内容
本发明实施例提供了一种从文章标题层次结构提取过程体系的方法和装置,解决了现有技术中一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性的技术问题,达到了对大量的文章按过程名称同义和过程步骤序列相似性聚类、补缺,保证一个过程体系的完整性和一致性的技术效果。
鉴于上述问题,提出了本申请实施例以便提供一种从文章标题层次结构提取过程体系的方法和装置。
第一方面,本发明提供了一种从文章标题层次结构提取过程体系的方法,所述方法包括:获得第一文章的第一文章格式信息;根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。
优选地,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。
优选地,所述根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:
获得所述第一级别标题的第一关键词;判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。
优选地,所述根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:
根据所述第一级别标题对应的所述第一段落获得第一时间量;根据所述第二级别标题对应的所述第二段落获得第二时间量;根据所述第一时间量与所述第一级别标题获得第一二元组;根据所述第二时间量与所述第二级别标题获得第二二元组;根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。
优选地,所述根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,包括:
根据所述第一过程名称获得所述第二步骤序列与所述第一步骤序列中具有第一相似度的第一序列数据;根据所述第一序列数据与所述第二步骤序列获得第二序列数据,其中,所述第二序列数据与所述第一序列数据的交集数据为零;根据所述第二序列数据、所述第一序列数据与所述第一步骤序列获得初步过程体系与初步过程体系的步骤序列;对所述初步过程体系与初步过程体系的步骤序列进行校验,获得所述第一过程体系与所述第一过程体系的步骤序列。
第二方面,本发明提供了一种从文章标题层次结构提取过程体系的装置,所述装置包括:
第一获得单元,所述第一获得单元用于获得第一文章的第一文章格式信息;
第二获得单元,所述第二获得单元用于根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;
第一确定单元,所述第一确定单元用于根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;
第三获得单元,所述第三获得单元用于根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;
第四获得单元,所述第四获得单元用于获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;
第五获得单元,所述第五获得单元用于根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;
第六获得单元,所述第六获得单元用于获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;
第七获得单元,所述第七获得单元用于根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。
优选地,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。
优选地,所述第一确定单元中根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:
第八获得单元,所述第八获得单元用于获得所述第一级别标题的第一关键词;
第一判断单元,所述第一判断单元用于判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;
第二确定单元,所述第二确定单元用于当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。
优选地,所述第五获得单元中根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:
第九获得单元,所述第九获得单元用于根据所述第一级别标题对应的所述第一段落获得第一时间量;
第十获得单元,所述第十获得单元用于根据所述第二级别标题对应的所述第二段落获得第二时间量;
第十一获得单元,所述第十一获得单元用于根据所述第一时间量与所述第一级别标题获得第一二元组;
第十二获得单元,所述第十二获得单元用于根据所述第二时间量与所述第二级别标题获得第二二元组;
第十三获得单元,所述第十三获得单元用于根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;
第三确定单元,所述第三确定单元用于根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。
优选地,所述第七获得单元中根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,包括:
第十四获得单元,所述第十四获得单元用于根据所述第一过程名称获得所述第二步骤序列与所述第一步骤序列中具有第一相似度的第一序列数据;
第十五获得单元,所述第十五获得单元用于根据所述第一序列数据与所述第二步骤序列获得第二序列数据,其中,所述第二序列数据与所述第一序列数据的交集数据为零;
第十六获得单元,所述第十六获得单元用于根据所述第二序列数据、所述第一序列数据与所述第一步骤序列获得初步过程体系与初步过程体系的步骤序列;
第十七获得单元,所述第十七获得单元用于对所述初步过程体系与初步过程体系的步骤序列进行校验,获得所述第一过程体系与所述第一过程体系的步骤序列。
第三方面,本发明提供了一种从文章标题层次结构提取过程体系的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明实施例提供的一种从文章标题层次结构提取过程体系的方法和装置,通过获得第一文章的第一文章格式信息;根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。通过对大量的文章进行统计,按过程名称同义和过程步骤序列相似性聚合,以多余元素最少、体系熵值最小为优化目标进行补缺和完整性校验,并按过程时序的不可逆性对一个过程步骤序列的补缺进行一致性校验,得到一个完整的过程体系,达到了对大量的文章按过程名称同义和过程步骤序列相似性聚类、补缺,保证一个过程体系的完整性和一致性的技术效果,从而解决了现有技术中一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性的技术问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种从文章标题层次结构提取过程体系的方法的流程示意图;
图2为本发明实施例中一种从文章标题层次结构提取过程体系的装置的结构示意图;
图3为本发明实施例中另一种从文章标题层次结构提取过程体系的装置的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第一确定单元13,第三获得单元14,第四获得单元15,第五获得单元16,第六获得单元17,第七获得单元18,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种从文章标题层次结构提取过程体系的方法和装置,用于解决现有技术中一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性的技术问题。
本发明提供的技术方案总体思路如下:获得第一文章的第一文章格式信息;根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,从而达到了对大量的文章按过程名称同义和过程步骤序列相似性聚类、补缺,保证一个过程体系的完整性和一致性的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种从文章标题层次结构提取过程体系的方法的流程示意图。如图1所示,本发明实施例提供了一种从文章标题层次结构提取过程体系的方法,所述方法包括:
步骤110:获得第一文章的第一文章格式信息。
步骤120:根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落。
进一步的,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。
具体而言,通过对第一文章的第一文章文本格式、第一文章字体格式、第一文章段落格式进行分析,如对标题字体、标题字号、段落缩进和对仗进行分析。根据第一文章格式信息中的第一文章文本格式、第一文章字体格式、第一文章段落格式等识别出第一文章的标题层次,进而获得标题的级别,即第一级别标题,包含一级标题、二级标题、三级标题等。第一级别标题中包含标题信息与第一级别标题对应的第一段落,其中,第一段落是描述或进一步扩展第一级别标题的具体文字内容,第一段落属于第一级别标题挂接的内容。
步骤130:根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分。
进一步的,所述根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:获得所述第一级别标题的第一关键词;判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。
具体而言,语义工程辞典中每个词的注释部分将根据语义模型库和数码大脑的不断丰富和完善而动态变化,区别于传统辞典中每个词的注释部分往往是一段由语言专家手工输入的文字,是固定不变的。通过借助语义工程辞典对第一级别标题进行过程识别,也就是说,首先,将第一级别标题进行语义分析,提取出第一级别标题中的第一关键词;由于在语义工程辞典中标注过大量描述过程的行为词,其次,判断第一关键词与语义工程辞典中标注的描述第一过程的行为词的匹配度是否满足第一预设阈值,即判断第一级别标题中的第一关键词与描述第一过程的行为词的匹配度大小是否满足第一预设阈值,如第一预设阈值设定为80%等。这也就是区分出第一级别标题描述的是实体或是过程,以诉讼过程为例,在许多关于诉讼的文章中,“案由”不会是任何过程的一部分,而“起诉”、“受理”、“判决”等都是诉讼过程的一部分。最后,当第一关键词与语义工程辞典中标注的描述第一过程的行为词的匹配度满足第一预设阈值时,也就是说,第一关键词与语义工程辞典中标注的描述第一过程的行为词匹配成功,则确定第一级别标题为第一过程的部分。
步骤140:根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题。
步骤150:获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落。
具体而言,通过步骤130中利用语义工程辞典识别出第一级别标题是描述第一过程中的一个步骤时,获得第一级别标题的上层标题的第一过程名称。同时,获得第一级别标题所在的下层标题中所有描述过程的第二级别标题,其中,第二级别标题包含第二级别标题对应的第二段落。换言之,获得第一级别标题的同层标题中所有描述过程的其他标题以及其他标题挂接的段落内容。以诉讼过程为例,某篇文章的上层标题(第一层标题)提取出了“诉讼”关键词,下层标题(第二层标题)提取出了“起诉”、“上诉”、“受理”、“开庭”、“驳回”、“判决”等过程相关标题,则作为备选的第一过程名称就是“诉讼”,下层标题中与过程相关的标题都是该过程的一个步骤,即“起诉”、“上诉”、“受理”、“开庭”、“驳回”、“判决”均属于描述该过程的第二级别标题。
步骤160:根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。
进一步的,所述根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:根据所述第一级别标题对应的所述第一段落获得第一时间量;根据所述第二级别标题对应的所述第二段落获得第二时间量;根据所述第一时间量与所述第一级别标题获得第一二元组;根据所述第二时间量与所述第二级别标题获得第二二元组;根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。
具体而言,将第一级别标题所在的下层标题中所有描述第一过程的第二级别标题统计在一起,进而可以获得第一级别标题挂接的第一段落与所有的第二级别标题挂接的第二段落。通过时间识别获得第一级别标题对应的第一段落中的第一时间量与第二级别标题对应的第二段落中的第二时间量。将第一时间量与第一级别标题组成第一二元组,将第二时间量与第二级别标题组成第二二元组。按时间的先后顺序对第一二元组与所有的第二二元组进行排序,获得第一时间序列,进而根据第一时间序列确定第一级别标题与第二级别标题在第一过程中的第一步骤序列。例如,诉讼过程的步骤是“起诉”、“受理”、“开庭”、“判决”、“上诉”、“驳回”,如第一级别标题为受理,第二级别标题为起诉,则第一步骤序列为第二级别标题、第一级别标题。
步骤170:获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词。
步骤180:根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。
进一步的,所述根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,包括:根据所述第一过程名称获得所述第二步骤序列与所述第一步骤序列中具有第一相似度的第一序列数据;根据所述第一序列数据与所述第二步骤序列获得第二序列数据,其中,所述第二序列数据与所述第一序列数据的交集数据为零;根据所述第二序列数据、所述第一序列数据与所述第一步骤序列获得初步过程体系与初步过程体系的步骤序列;对所述初步过程体系与初步过程体系的步骤序列进行校验,获得所述第一过程体系与所述第一过程体系的步骤序列。
具体而言,通过步骤160对第一级别标题、第二级别标题进行排序之后,获得第一过程的第一步骤序列,由于在一篇文章中,各标题下的段落中不一定有完整的时间信息,对过程各步骤的判断不一定准确,即第一步骤序列可能是残缺不全的。因此需要对大量的同类文章进行统计,进而获得多篇第二文章的第一过程中包含的第二步骤序列,也就是说,第二文章与第一文章的文章名称属于同义词,进而获得多篇第二文章中的第一过程中包含的第二步骤序列。针对具有第一过程名称同义的第一步骤序列与第二步骤序列中具有第一相似度的步骤序列进行聚类,获得第一序列数据。通过对第一序列数据与第二步骤序列进行比对,获得第二步骤序列中不包含第一序列数据的第二序列数据,也就是说,第二序列数据与第一序列数据的交集数据为零,第二序列数据为第一步骤序列缺少的序列步骤数据。根据第一步骤序列与第二步骤序列聚类获得的第一序列数据,以及第二步骤序列对第一步骤序列补缺获得的第二序列数据,获得一个初步过程体系与初步过程体系的步骤序列。随之,对初步过程体系与初步过程体系的步骤序列进行完整性与一致性校验,以保证输出一个完整性极高的第一过程体系与第一过程体系的步骤序列。换言之,按第一过程名称同义下的第一步骤序列与第二步骤序列具有的第一相似性聚合,以多余元素最少、体系熵值最小为优化目标对第一步骤序列与第二步骤序列进行补缺和完整性校验,并且按第一过程中时序的不可逆性利用第二步骤序列对第一过程步骤序列进行补缺,进行一致性校验,在对第一过程的步骤序列填补空缺时,新增的步骤不能与现有的步骤发生时序冲突,进而达到第一过程体系更完善,第一过程体系的步骤序列具有更高的完整性。因此,本申请实施例只是在两层标题之间操作,即上层标题定义过程名称,下层标题确定步骤序列。对于一个有大于两层的多层标题层次结构来说,可以自底向上或自顶向下地、两层、两层地操作,进而得出一个复杂的过程层次结构。
实施例二
基于与前述实施例中一种从文章标题层次结构提取过程体系的方法同样的发明构思,本发明还提供一种从文章标题层次结构提取过程体系的方法装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于获得第一文章的第一文章格式信息;
第二获得单元12,所述第二获得单元12用于根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;
第一确定单元13,所述第一确定单元13用于根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;
第三获得单元14,所述第三获得单元14用于根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;
第四获得单元15,所述第四获得单元15用于获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;
第五获得单元16,所述第五获得单元16用于根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;
第六获得单元17,所述第六获得单元17用于获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;
第七获得单元18,所述第七获得单元18用于根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。
进一步的,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。
进一步的,所述第一确定单元中根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:
第八获得单元,所述第八获得单元用于获得所述第一级别标题的第一关键词;
第一判断单元,所述第一判断单元用于判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;
第二确定单元,所述第二确定单元用于当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。
进一步的,所述第五获得单元中根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:
第九获得单元,所述第九获得单元用于根据所述第一级别标题对应的所述第一段落获得第一时间量;
第十获得单元,所述第十获得单元用于根据所述第二级别标题对应的所述第二段落获得第二时间量;
第十一获得单元,所述第十一获得单元用于根据所述第一时间量与所述第一级别标题获得第一二元组;
第十二获得单元,所述第十二获得单元用于根据所述第二时间量与所述第二级别标题获得第二二元组;
第十三获得单元,所述第十三获得单元用于根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;
第三确定单元,所述第三确定单元用于根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。
进一步的,所述第七获得单元中根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,包括:
第十四获得单元,所述第十四获得单元用于根据所述第一过程名称获得所述第二步骤序列与所述第一步骤序列中具有第一相似度的第一序列数据;
第十五获得单元,所述第十五获得单元用于根据所述第一序列数据与所述第二步骤序列获得第二序列数据,其中,所述第二序列数据与所述第一序列数据的交集数据为零;
第十六获得单元,所述第十六获得单元用于根据所述第二序列数据、所述第一序列数据与所述第一步骤序列获得初步过程体系与初步过程体系的步骤序列;
第十七获得单元,所述第十七获得单元用于对所述初步过程体系与初步过程体系的步骤序列进行校验,获得所述第一过程体系与所述第一过程体系的步骤序列。
前述图1实施例一中的一种从文章标题层次结构提取过程体系的方法的各种变化方式和具体实例同样适用于本实施例的一种从文章标题层次结构提取过程体系的装置,通过前述对一种从文章标题层次结构提取过程体系的方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种从文章标题层次结构提取过程体系的装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种从文章标题层次结构提取过程体系的方法同样的发明构思,本发明还提供一种从文章标题层次结构提取过程体系的装置,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文所述购物社交的方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于与前述实施例中一种从文章标题层次结构提取过程体系的方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获得第一文章的第一文章格式信息;根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。
在具体实施过程中,该程序被处理器执行时,还可以实现实施例一中的任一方法步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明实施例提供的一种从文章标题层次结构提取过程体系的方法和装置,通过获得第一文章的第一文章格式信息;根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,从而解决了现有技术中一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性的技术问题,达到了对大量的文章按过程名称同义和过程步骤序列相似性聚类、补缺,保证一个过程体系的完整性和一致性的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种从文章标题层次结构提取过程体系的方法,其特征在于,所述方法包括:
获得第一文章的第一文章格式信息;
根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,第一级别标题为所述第一文章的标题的级别,所述第一级别标题包含所述第一级别标题对应的第一段落;
根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,其中,所述语义工程辞典中标注有描述过程的行为词;
根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;
获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题为与所述第一级别标题同层的标题中所有描述所述第一过程的其他标题,所述第二级别标题包含所述第二级别标题对应的第二段落;
根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;
获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;
根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列;
其中,所述根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:
获得所述第一级别标题的第一关键词;
判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;
当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分;
其中,所述根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,包括:
根据所述第一过程名称获得所述第二步骤序列与所述第一步骤序列中具有第一相似度的第一序列数据;
根据所述第一序列数据与所述第二步骤序列获得第二序列数据,其中,所述第二序列数据与所述第一序列数据的交集数据为零;
根据所述第二序列数据、所述第一序列数据与所述第一步骤序列获得初步过程体系与初步过程体系的步骤序列;
对所述初步过程体系与初步过程体系的步骤序列进行校验,获得所述第一过程体系与所述第一过程体系的步骤序列。
2.如权利要求1所述的方法,其特征在于,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。
3.如权利要求1所述的方法,其特征在于,所述根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:
根据所述第一级别标题对应的所述第一段落获得第一时间量;
根据所述第二级别标题对应的所述第二段落获得第二时间量;
根据所述第一时间量与所述第一级别标题获得第一二元组;
根据所述第二时间量与所述第二级别标题获得第二二元组;
根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;
根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。
4.一种从文章标题层次结构提取过程体系的装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得第一文章的第一文章格式信息;
第二获得单元,所述第二获得单元用于根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,第一级别标题为所述第一文章的标题的级别,所述第一级别标题包含所述第一级别标题对应的第一段落;
第一确定单元,所述第一确定单元用于根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,其中,所述语义工程辞典中标注有描述过程的行为词;
第三获得单元,所述第三获得单元用于根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;
第四获得单元,所述第四获得单元用于获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题为与所述第一级别标题同层的标题中所有描述所述第一过程的其他标题,所述第二级别标题包含所述第二级别标题对应的第二段落;
第五获得单元,所述第五获得单元用于根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;
第六获得单元,所述第六获得单元用于获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;
第七获得单元,所述第七获得单元用于根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列;
其中,所述第一确定单元中根据语义工程辞典对所述第一级别标题进行过程识 别,确定所述第一级别标题为第一过程的部分,包括:
第八获得单元,所述第八获得单元用于获得所述第一级别标题的第一关键词;
第一判断单元,所述第一判断单元用于判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;
第二确定单元,所述第二确定单元用于当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分;
其中,所述第七获得单元中根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,包括:
第十四获得单元,所述第十四获得单元用于根据所述第一过程名称获得所述第二步骤序列与所述第一步骤序列中具有第一相似度的第一序列数据;
第十五获得单元,所述第十五获得单元用于根据所述第一序列数据与所述第二步骤序列获得第二序列数据,其中,所述第二序列数据与所述第一序列数据的交集数据为零;
第十六获得单元,所述第十六获得单元用于根据所述第二序列数据、所述第一序列数据与所述第一步骤序列获得初步过程体系与初步过程体系的步骤序列;
第十七获得单元,所述第十七获得单元用于对所述初步过程体系与初步过程体系的步骤序列进行校验,获得所述第一过程体系与所述第一过程体系的步骤序列。
5.一种从文章标题层次结构提取过程体系的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-3任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3任一项所述方法的步骤。
CN202010727220.XA 2020-07-27 2020-07-27 一种从文章标题层次结构提取过程体系的方法和装置 Active CN111737985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010727220.XA CN111737985B (zh) 2020-07-27 2020-07-27 一种从文章标题层次结构提取过程体系的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010727220.XA CN111737985B (zh) 2020-07-27 2020-07-27 一种从文章标题层次结构提取过程体系的方法和装置

Publications (2)

Publication Number Publication Date
CN111737985A CN111737985A (zh) 2020-10-02
CN111737985B true CN111737985B (zh) 2021-02-12

Family

ID=72657742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010727220.XA Active CN111737985B (zh) 2020-07-27 2020-07-27 一种从文章标题层次结构提取过程体系的方法和装置

Country Status (1)

Country Link
CN (1) CN111737985B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751455A (zh) * 2009-12-31 2010-06-23 浙江大学 采用人工智能技术自动产生标题的方法
CN103440232A (zh) * 2013-09-10 2013-12-11 青岛大学 一种科技论文标准化自动检测编辑方法
CN107908650A (zh) * 2017-10-12 2018-04-13 浙江大学 基于海量数字图书的知识脉络自动构建方法
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN110852079A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 文档目录自动生成方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825227B2 (en) * 2018-04-03 2020-11-03 Sri International Artificial intelligence for generating structured descriptions of scenes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751455A (zh) * 2009-12-31 2010-06-23 浙江大学 采用人工智能技术自动产生标题的方法
CN103440232A (zh) * 2013-09-10 2013-12-11 青岛大学 一种科技论文标准化自动检测编辑方法
CN107908650A (zh) * 2017-10-12 2018-04-13 浙江大学 基于海量数字图书的知识脉络自动构建方法
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN110852079A (zh) * 2019-10-11 2020-02-28 平安科技(深圳)有限公司 文档目录自动生成方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN111737985A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
US11928879B2 (en) Document analysis using model intersections
CN110321466A (zh) 一种基于语义分析的证券资讯查重方法及系统
CN105612515A (zh) 矛盾表现收集装置以及用于其的计算机程序
CN114153962A (zh) 一种数据匹配方法、装置及电子设备
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN115794798A (zh) 一种市场监管信息化标准管理与动态维护系统及方法
CN110659365A (zh) 一种基于多层次结构词典的畜产品安全事件文本分类方法
CN111737694B (zh) 一种基于行为树的恶意软件同源性分析方法
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN111737985B (zh) 一种从文章标题层次结构提取过程体系的方法和装置
CN113268614B (zh) 标签体系更新方法、装置、电子设备及可读存储介质
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
Castano et al. Reuse of conceptual requirement specifications
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN115204179A (zh) 基于电网公共数据模型的实体关系预测的方法及装置
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质
CN100378713C (zh) 为对象分类的自动确定显著特点的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220513

Address after: Room 408, unit 2, building 15, courtyard 16, Yingcai North Third Street, future science city, Changping District, Beijing 102200

Patentee after: Wenling Technology (Beijing) Co.,Ltd.

Address before: Room 1502, Tongfu building, 501 Zhongshan South Road, Qinhuai District, Nanjing, Jiangsu 210006

Patentee before: Jiangsu United Industrial Limited by Share Ltd.

TR01 Transfer of patent right