CN110738033B - 报告模板生成方法、装置及存储介质 - Google Patents
报告模板生成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110738033B CN110738033B CN201810719305.6A CN201810719305A CN110738033B CN 110738033 B CN110738033 B CN 110738033B CN 201810719305 A CN201810719305 A CN 201810719305A CN 110738033 B CN110738033 B CN 110738033B
- Authority
- CN
- China
- Prior art keywords
- chapter
- report
- sentence
- word
- labels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例提出一种报告模板生成方法、装置及计算机可读存储介质。其中报告模板生成方法包括:采集与领域事件相关的报告文档集合;对所述报告文档集合进行章节对齐处理,得到章节标签;对所述报告文档集合进行语句对齐处理,得到语句标签;对所述报告文档集合进行词对齐处理,得到词标签;根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板。本发明实施例依靠公开的报告数据挖掘报告树状模板,使生成的模板的表达方式更多、更加生动灵活。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种报告模板生成方法、装置及计算机可读存储介质。
背景技术
随着时代的发展,结构化数据到文本的生成技术得到了越来越多的重视。在该应用场景下,天气预报文本、体育新闻、财经报告、医疗总结等等规范化的文本均可以通过将结构化数据嵌套进模板的方法生成出来。该方法极大的降低了基础编辑的手工成本,也大大提升了报告产出的速度,实现了行业的变革。
然而传统的基于结构化数据嵌套进模板的方法,由于模板固定,生成的报告也不够生动。并且由于固定模板的表现形式有限,需要大量的判别方法来定义模板,对模板编辑人员的要求也较高。而且目前的报告模板生成方案还停留在人工专家撰写、编辑的阶段,需要依赖强大的专家知识。人工撰写不仅成本较高,而且枚举的模板数量有限。
发明内容
本发明实施例提供一种报告模板生成方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种报告模板生成方法,包括:采集与领域事件相关的报告文档集合;对所述报告文档集合进行章节对齐处理,得到章节标签;对所述报告文档集合进行语句对齐处理,得到语句标签;对所述报告文档集合进行词对齐处理,得到词标签;根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,在采集与领域事件相关的报告文档集合之后,还包括:通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;对语义化处理后的所述报告文档集合进行所述章节对齐处理、所述语句对齐处理和所述词对齐处理。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,对所述报告文档集合进行章节对齐处理,得到章节标签,包括:将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,将所述章节聚类并提取章节标签,包括:将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征;和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;将所述章节聚类特征进行聚类分析;将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第四种实现方式中,对所述报告文档集合进行章节对齐处理,还包括:记录所述报告文档集合的文档中各章节的前后顺序;将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各章节的前后顺序。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第五种实现方式中,对所述报告文档集合进行语句对齐处理,得到语句标签,包括:将章节标签相同的章节中的语句聚类,并提取语句标签。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,将章节标签相同的章节中的语句聚类,包括:将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;将所述语句聚类特征进行聚类分析。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第七种实现方式中,对所述报告文档集合进行语句对齐处理,还包括:记录所述章节标签相同的章节中各语句的前后顺序;将记录的所述各语句的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各语句的前后顺序。
结合第一方面或第一方面的第一种实现方式,本发明实施例在第一方面的第八种实现方式中,对所述报告文档集合进行词对齐处理,得到词标签,包括:将语句标签相同的语句中的词聚类,并提取词标签。
第二方面,本发明实施例提供了一种报告模板生成装置,包括:采集单元,用于采集与领域事件相关的报告文档集合;章节对齐单元,用于对所述报告文档集合进行章节对齐处理,得到章节标签;语句对齐单元,用于对所述报告文档集合进行语句对齐处理,得到语句标签;词对齐单元,用于对所述报告文档集合进行词对齐处理,得到词标签;报告生成单元,用于根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述装置还包括语义化单元,用于:在采集与领域事件相关的报告文档集合之后,还包括:通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;对语义化处理后的所述报告文档集合进行所述章节对齐处理、所述语句对齐处理和所述词对齐处理。
结合第二方面或第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述章节对齐单元还用于:将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
结合第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述章节对齐单元还用于:将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征,和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;将所述章节聚类特征进行聚类分析;将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
结合第二方面或第二方面的第一种实现方式,本发明实施例在第二方面的第四种实现方式中,所述章节对齐单元还用于:记录所述报告文档集合的文档中各章节的前后顺序;将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各章节的前后顺序。
结合第二方面或第二方面的第一种实现方式,本发明实施例在第二方面的第五种实现方式中,所述语句对齐单元还用于:将章节标签相同的章节中的语句聚类,并提取语句标签。
结合第二方面的第五种实现方式,本发明实施例在第二方面的第六种实现方式中,所述语句对齐单元还用于:将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;将所述语句聚类特征进行聚类分析。
结合第二方面或第二方面的第一种实现方式,本发明实施例在第二方面的第七种实现方式中,所述语句对齐单元还用于:记录所述章节标签相同的章节中各语句的前后顺序;将记录的所述各语句的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各语句的前后顺序。
结合第二方面或第二方面的第一种实现方式,本发明实施例在第二方面的第八种实现方式中,所述词对齐单元还用于:将语句标签相同的语句中的词聚类,并提取词标签。
在一个可能的设计中,报告模板生成装置的结构中包括处理器和存储器,所述存储器用于存储支持报告模板生成装置执行上述第一方面中报告模板生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述报告模板生成装置还可以包括通信接口,用于报告模板生成装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种报告模板生成装置,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:依靠公开的报告数据挖掘报告树状模板,使生成的模板的表达方式更多、更加生动灵活。
上述技术方案中的另一个技术方案具有如下优点或有益效果:依靠公开的报告数据,对文档进行了语义化分析并挖掘报告树状模板,通过语义分析的结果能更好地理解报告内容,在此基础上挖掘报告树状模板,使生成的模板的表达方式更多、更加生动灵活。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明一实施例提供的报告模板生成方法的流程图。
图2为本发明另一实施例提供的报告模板生成方法的模板结构示意图。
图3为本发明另一实施例提供的报告模板生成方法的流程图。
图4为本发明另一实施例提供的报告模板生成方法的文档语义化流程图。
图5为本发明另一实施例提供的报告模板生成方法的流程图。
图6为本发明一实施例提供的报告模板生成装置的结构框图。
图7为本发明另一实施例提供的报告模板生成装置的结构框图。
图8为本发明另一实施例提供的报告模板生成装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为本发明一实施例提供的报告模板生成方法的流程图。如图1所示,本发明实施例的报告模板生成方法包括:步骤S110,采集与领域事件相关的报告文档集合;步骤S120,对所述报告文档集合进行章节对齐处理,得到章节标签;步骤S130,对所述报告文档集合进行语句对齐处理,得到语句标签;步骤S140,对所述报告文档集合进行词对齐处理,得到词标签;步骤S150,根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板。
本发明实施例针对结构化的数据,利用大规模报告文本,采用统计学习来挖掘模板,能够自动化地生成生动的报告。结构化的数据一般具有一定的存储和/或排列规则例如,通过关系型数据库表示和存储二维形式的数据。本发明实施例提供的报告模板生成方法具体的输入是一些事件数据以及其对应的报告文档,输出是一个树状结构的模板树。一个示例的模板树可以包括篇章层、语句层和词层,每个层次上的分支节点均描述报告可以生成的路径。本发明一实施例提供的报告模板生成方法具体可以应用在一些互联网分析报告、或者公司金融财报等领域。其中,事件数据具体包括一些描述事件状态的内容,例如数字、主体客体等,其中,主体客体可包括公司名、人物名等。
图2为本发明另一实施例提供的报告模板生成方法的模板结构示意图。如图2所示,对所述报告文档集合进行章节对齐处理,得到章节标签,章节标签构成了报告模板的篇章拓扑骨架;对所述报告文档集合进行语句对齐处理,得到语句标签,语句标签构成了报告模板的语句集合;对所述报告文档集合进行词对齐处理,得到词标签,词标签构成了报告模板的语义词集合。
图3为本发明另一实施例提供的报告模板生成方法的流程图。如图3所示,根据本发明报告模板生成方法的一种实施方式,在步骤S110,采集与领域事件相关的报告文档集合之后,还包括:步骤S115,通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;然后执行步骤S120、步骤S130、步骤S140,对语义化处理后的所述报告文档集合进行所述章节对齐处理、所述语句对齐处理和所述词对齐处理。
具体地,针对某个行业领域,采集其领域内发生的某事件及与该事件相关的所有报告,构成文档集合,并与事件数据对应。
然后将采集到的报告内的数据语义化,报告内的数据可包括一些抽象性数字、以及一些实体名称,如公司名、人物名等。将报告内的文本内容用一些语义描述词来替代,如将“1028亿”替换为“营收金额”、“王XX”替换成“公司董事”、“2017年1月”替换成“月份”等,以降低目标事件不同给报告内容带来的影响。
具体地说,本发明实施例提供的报告模板生成方法并不限制领域,甚至也不需要特定的报告对应数据。只需要圈选一批报告,并通过知识库或者其他语义识别的方法,将报告内一些语义相关的内容识别出来,并用对应标签替换掉,即可作为下一步骤聚类目标的数据。鉴于语义识别的难度较高,而且知识库采集的难度也很大,一种较常出现的场景是通过半自动化学习的方法,来完成文档内部的语义化。
图4为本发明另一实施例提供的报告模板生成方法的文档语义化流程图。如图4所示,半自动的文档语义化方法如下:
1)标注少量的报告文档D1,将其内部可以语义化的部分S1摘录出来。其中标注的内容包括语义词S1和其对应的上下文结构C1,例如:报告文档的一部分包括“人们都说法国是一个美丽的地方”,其中,可以将“法国”标注为语义词,将“人们都说……是一个美丽的地方”标注为上下文结构。
2)提取这些语义化部分的上下文,考虑置信度阈值,组织成固定上下文结构C1。其中,考虑置信度阈值的方法包括:选择对应语义词数量足够多、对应语义词种类足够少的上下文结构C1。例如:对应语义词数量足够多的示例包括“人们都说美国是一个美丽的地方”、“人们都说英国是一个美丽的地方”等等很多,其中的语义词是“美国”、“英国”等等很多。再如:语义词种类足够少的示例为,对应的语义词只有【国家】。
3)使用这些上下文结构C1在别的报告D2(未标注文档)中匹配。若匹配到D2中存在上下文结构C1,则将D2中与C1匹配内容S2提取出来。如在D2中有“人们都说德国是一个美丽的地方”,则上下文结构匹配成功,将新的语义词S2“德国”提取出来。
4)将S1、S2在全量文档中扫描,找到包含S1、S2的上下文内容,以此扩展得到上下文结构C2。例如在全量文档中扫描到“人们都说法国是一个富强的地方”,则扩展出上下文结构“人们都说……是一个富强的地方”。
5)将C2去其他文档中匹配。例如可能会找到“人们都说中国是一个富强的地方”,再将新的语义词S3“中国”提取出来,继续执行循环。
6)循环以上步骤,直到上下文结构不再变化。得到一系列的语义词和上下文结构。例如语义集合包括:法国、美国、英国、德国、中国;上下文结构的集合包括:“人们都说……是一个美丽的地方”、“人们都说……是一个富强的地方”。
以上所说的上下文结构置信度阈值,主要度量点是上下文结构可以匹配到的语义化内容数量,以及匹配到的内容的标签种类数。可以匹配到的内容越多,置信度越高;匹配到的标签种类数越多、置信度越低。
除了以上描述的这种语义化方法外,还有先标注、后提取特征、最后进行机器学习分类的方法,识别出语义片段,以进行文档内语义化识别。
在完成报告文档的语义化识别后,需要做的就是三层聚类,也称之为三层对齐。本发明实施例的模板生成算法,其本质是一种聚类算法。这种算法主要将报告分为三层:篇章层、语句层、词层。其中篇章层控制报告结构,语句层控制描述方法,而词层控制语义内容。在给定领域下,针对所有涉及到的报告文档集合,聚类得到这三层内容,产出的就是树状报告模板。具体包括以下步骤:
1)章节对齐
在一种可能的实现方式中,对所述报告文档集合进行章节对齐处理,得到章节标签,包括:将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
在这一步骤中,首先将文档按照章节切割,然后将章节聚类并识别章节标签,完成章节层面的对齐,了解该领域报告所需要描述、涉及到的章节。最后同步记录下章节的前后可能顺序。
图5为本发明另一实施例提供的报告模板生成方法的流程图。如图5所示,在一种可能的实现方式中,将所述章节聚类并提取章节标签,包括:步骤S210,将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征;和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;步骤S220,将所述章节聚类特征进行聚类分析;步骤S230,将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
具体地,在获取到大量报告文档后,首先要确定在这个场景下的报告通常需要具备哪些方面的内容。例如:商业银行类的年报,包括但不限于宏观经济分析、当年收益统计、当前资金与流动性、当前资本率与杠杆、资产质量评估、管理状况与运行状况、外部状况、总结等篇章;而互联网行业的分析报告,包括但不限于背景介绍、行业分析、运作状态分析、竞争分析、人群分析、总结等篇章。通过报告的缩进与字体情况,以及简单的规则来划分篇章。在确定全部文档的好篇章部分后,具体操作步骤如下:
11)将所有篇章的标题进行切词并提取关键词,作为聚类特征;
12)将所有篇章的内部内容进行LDA(Latent Dirichlet Allocation,文档主题生成模型)学习,抽取topic(主题)向量;
13)将以上两个步骤中的至少一个步骤产出的特征向量作为输出,采用自学习参数的方式进行聚类,并将聚类后的结果产出;
14)将聚在同类别下的所有篇章的标题提取出来,进行关键短语抽取,以出现频次最高的作为该类篇章的标签,并进行人工矫正。
完成了篇章的聚类过程之后,下一步骤还需要确定篇章的前后顺序。在一种可能的实现方式中,对所述报告文档集合进行章节对齐处理,还包括:记录所述报告文档集合的文档中各章节的前后顺序;将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各章节的前后顺序。
通过对已有的报告文档的统计,可以产出表现篇章前后顺序的序列统计,表明每一个篇章出现在某个位置的概率,以及在出现某个篇章后,下一个该出现哪个篇章的内容。通过以上统计数据确定篇章的前后顺序。
2)语句对齐
在一种可能的实现方式中,对所述报告文档集合进行语句对齐处理,得到语句标签,包括:将章节标签相同的章节中的语句聚类,并提取语句标签。
在这一步骤中,将标签一致的章节聚合到一起,按照章节里面的语句打散聚类、提取语句标签,完成语句的对齐。
在一种可能的实现方式中,将章节标签相同的章节中的语句聚类,包括:将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;将所述语句聚类特征进行聚类分析。
具体地,对于属于同一个篇章下面的语句,可以简单理解为均服务于这个篇章的意图,但有些是从描述性出发,有些是从结论性出发,所以需要将其区分开来,以明确为了完成某个篇章目的,具体需要哪些语句描述。其具体的对齐步骤如下:
21)针对某个语句,产出其对应的关键词;
22)针对某个语句,产出其对应的句法结构树;
23)针对某个语句,产出其每个词对应的词性标签;
24)针对某个语句,产出每个word叠加而来的word2vec向量;
25)将上述至少一个步骤生成的数据作为特征,进行聚类。
其中,产出每个word叠加而来的word2vec向量,也就是对组成语句的每个词产生的词向量做加权平均处理,即将组成语句的每个词的词向量累加求和再除以词的总数。
在一种可能的实现方式中,对所述报告文档集合进行语句对齐处理,还包括:记录所述章节标签相同的章节中各语句的前后顺序;将记录的所述各语句的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各语句的前后顺序。
与上述确定篇章的前后顺序的方法一样,在产出语句类别后,统计现有篇章内语句间的顺序关系,以明确某个语句出现在某个位置的概率是多少,以及出现了某个语句后,下一个语句的可能性分布是多少。通过以上统计数据确定语句的前后顺序。
3)词对齐
在一种可能的实现方式中,对所述报告文档集合进行词对齐处理,得到词标签,包括:将语句标签相同的语句中的词聚类,并提取词标签。
完成篇章对齐、语句对齐后,结合句子内的部分数据语义化处理的结果,去进行词语对齐。对于属于同一类下的句子,考虑句子内一些固定好的实体,同样进行词语聚类,以完成进一步的词语对齐。示例如下:“2018年1月份北京乌鸣有限公司净利润达1200万”、“乌鸣2018年初竟然拿到了1200w的净收入”这两条,经过映射后成为:“【时间】【公司】净利润达【净盈利】”、【公司】【时间】获得了【净盈利】的净收入。那这个时候,去掉标签之后的文本内容“净利润”与“净收入”就达成了对齐。在这个过程中也同时进行了同义词的挖掘,使生成的模板的表达方式更多、更生动了。
词对齐的目的是,在产出具体语句时,语句中的每一个位置可以动态地生成,从而表现丰富。最主要的是通过语义化的方法。通过语义化已经覆盖了语句中绝大多数重要的词,但还有部分有意义的词不在语义化范围之内,所以需要继续进行词对齐。例如在上述示例中,“净利润”与“净收入”达成了对齐。词对齐主要是找出同义词、或者词映射到其他表述结构中去。词对齐的一个副产物是文法结构,也就是说,概率大的词序列和比较合理的词序列才是可以被生成的词序列。产出的文法结构也可用于构建报告模板。
最后,对于一个指定范围的报告集合,通过分析报告集合里面的语义部分,将其拆解为三个层次:篇章层、语句层、词层。进而由这三个层次组织成树状报告模板。篇章层和语句层控制报告结构信息,词层控制了报告最终展示的语义内容。树状报告模板的每个节点均提供了大量的可填充的模板实例,可以方便产出多样性的生动的报告内容,供生成动态报告时使用。
上述技术方案中的一个技术方案具有如下优点或有益效果:依靠公开的报告数据挖掘报告树状模板,使生成的模板的表达方式更多、更加生动灵活。
上述技术方案中的另一个技术方案具有如下优点或有益效果:依靠公开的报告数据,对文档进行了语义化分析并挖掘报告树状模板,通过语义分析的结果能更好地理解报告内容,在此基础上挖掘报告树状模板,使生成的模板的表达方式更多、更加生动灵活。
图6为本发明一实施例提供的报告模板生成装置的结构框图。如图6所示,本发明实施例的报告模板生成装置包括:采集单元100,用于采集与领域事件相关的报告文档集合;章节对齐单元200,用于对所述报告文档集合进行章节对齐处理,得到章节标签;语句对齐单元300,用于对所述报告文档集合进行语句对齐处理,得到语句标签;词对齐单元400,用于对所述报告文档集合进行词对齐处理,得到词标签;报告生成单元500,用于根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板。
图7为本发明另一实施例提供的报告模板生成装置的结构框图。如图7所示,根据本发明报告模板生成装置的一种实施方式,所述装置还包括语义化单元600,用于:在采集与领域事件相关的报告文档集合之后,还包括:通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;对语义化处理后的所述报告文档集合进行所述章节对齐处理、所述语句对齐处理和所述词对齐处理。
根据本发明报告模板生成装置的一种实施方式,所述章节对齐单元200还用于:将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
根据本发明报告模板生成装置的一种实施方式,所述章节对齐单元200还用于:将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征,和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;将所述章节聚类特征进行聚类分析;将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
根据本发明报告模板生成装置的一种实施方式,所述章节对齐单元200还用于:记录所述报告文档集合的文档中各章节的前后顺序;将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各章节的前后顺序。
根据本发明报告模板生成装置的一种实施方式,所述语句对齐单元300还用于:将章节标签相同的章节中的语句聚类,并提取语句标签。
根据本发明报告模板生成装置的一种实施方式,所述语句对齐单元300还用于:将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;将所述语句聚类特征进行聚类分析。
根据本发明报告模板生成装置的一种实施方式,所述语句对齐单元300还用于:记录所述章节标签相同的章节中各语句的前后顺序;将记录的所述各语句的前后顺序进行概率统计分析,根据概率统计分析的结果所述确定在生成的报告模板中各语句的前后顺序。
根据本发明报告模板生成装置的一种实施方式,所述词对齐单元400还用于:将语句标签相同的语句中的词聚类,并提取词标签。
本发明实施例的报告模板生成装置中各单元的功能可以参见上述方法的相关描述,在此不再赘述。
在一个可能的设计中,报告模板生成装置的结构中包括处理器和存储器,所述存储器用于存储支持报告模板生成装置执行上述报告模板生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述报告模板生成装置还可以包括通信接口,用于报告模板生成装置与其他设备或通信网络通信。
图8为本发明另一实施例提供的报告模板生成装置的结构框图。如图8所示,该装置包括:存储器101和处理器102,存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中报告模板生成方法。所述存储器101和处理器102的数量可以为一个或多个。
该装置还包括:
通信接口103,用于与外界设备进行通信,进行数据交互传输。
存储器101可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器101、处理器102和通信接口103独立实现,则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器101、处理器102及通信接口103集成在一块芯片上,则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。
又一方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述报告模板生成方法中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (18)
1.一种报告模板生成方法,其特征在于,包括:
采集与领域事件相关的报告文档集合;
通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;
对语义化处理后的所述报告文档集合进行章节对齐处理,得到章节标签;
对语义化处理后的所述报告文档集合进行语句对齐处理,得到语句标签;
对语义化处理后的所述报告文档集合进行词对齐处理,得到词标签;
根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板;
其中,所述语义化处理通过如下步骤实现:
标注少量的文档,其中,标注的内容包括语义词和该语义词对应的上下文结构;
根据置信度阈值,将标注的上下文结构组织成固定上下文结构;
利用所述固定上下文结构在未标注的文档中匹配,以提取匹配的上下文结构和与匹配的上下文结构对应的语义词;
从全量文档中获取与标注的语义词和基于匹配提取的语义词对应的上下文结构作为扩展上下文结构;
利用扩展上下文结构在未标注的文档中匹配,以提取匹配的上下文结构和与匹配的上下文结构对应的语义词;
循环上述步骤直至上下文结构不再变化,得到语义词集合和对应的上下文结构集合。
2.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行章节对齐处理,得到章节标签,包括:
将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
3.根据权利要求2所述的方法,其特征在于,将所述章节聚类并提取章节标签,包括:
将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征;和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;
将所述章节聚类特征进行聚类分析;
将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
4.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行章节对齐处理,还包括:
记录所述报告文档集合的文档中各章节的前后顺序;
将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果确定在生成的报告模板中各章节的前后顺序。
5.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行语句对齐处理,得到语句标签,包括:
将章节标签相同的章节中的语句聚类,并提取语句标签。
6.根据权利要求5所述的方法,其特征在于,将章节标签相同的章节中的语句聚类,包括:
将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;
将所述语句聚类特征进行聚类分析。
7.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行语句对齐处理,还包括:
记录所述章节标签相同的章节中各语句的前后顺序;
将记录的所述各语句的前后顺序进行概率统计分析,根据概率统计分析的结果确定在生成的报告模板中各语句的前后顺序。
8.根据权利要求1所述的方法,其特征在于,对所述报告文档集合进行词对齐处理,得到词标签,包括:
将语句标签相同的语句中的词聚类,并提取词标签。
9.一种报告模板生成装置,其特征在于,包括:
采集单元,用于采集与领域事件相关的报告文档集合;
语义化单元,用于在采集与领域事件相关的报告文档集合之后,还包括:通过语义词及上下文结构的匹配,将所述报告文档集合进行语义化处理;
章节对齐单元,用于对语义化处理后的所述报告文档集合进行章节对齐处理,得到章节标签;
语句对齐单元,用于对语义化处理后的所述报告文档集合进行语句对齐处理,得到语句标签;
词对齐单元,用于对语义化处理后的所述报告文档集合进行词对齐处理,得到词标签;
报告生成单元,用于根据所述章节标签、所述语句标签和所述词标签,生成与领域事件相关的报告模板;
其中,所述语义化处理通过如下步骤实现:
标注少量的文档,其中,标注的内容包括语义词和该语义词对应的上下文结构;
根据置信度阈值,将标注的上下文结构组织成固定上下文结构;
利用所述固定上下文结构在未标注的文档中匹配,以提取匹配的上下文结构和与匹配的上下文结构对应的语义词;
从全量文档中获取与标注的语义词和基于匹配提取的语义词对应的上下文结构作为扩展上下文结构;
利用扩展上下文结构在未标注的文档中匹配,以提取匹配的上下文结构和与匹配的上下文结构对应的语义词;
循环上述步骤直至上下文结构不再变化,得到语义词集合和对应的上下文结构集合。
10.根据权利要求9所述的装置,其特征在于,所述章节对齐单元还用于:将所述报告文档集合划分为章节,将所述章节聚类并提取章节标签。
11.根据权利要求10所述的装置,其特征在于,所述章节对齐单元还用于:
将每个章节的标题进行切词处理并提取关键词,将所述关键词作为章节聚类特征,和/或,将每个章节的内容利用文档主题生成模型抽取主题向量,将所述主题向量作为章节聚类特征;
将所述章节聚类特征进行聚类分析;
将聚类分析产生的同类章节的标题提取出来,从所述标题中抽取关键短语,将出现频次最高的关键短语作为该类章节的标签。
12.根据权利要求9所述的装置,其特征在于,所述章节对齐单元还用于:
记录所述报告文档集合的文档中各章节的前后顺序;
将记录的所述各章节的前后顺序进行概率统计分析,根据概率统计分析的结果确定在生成的报告模板中各章节的前后顺序。
13.根据权利要求9所述的装置,其特征在于,所述语句对齐单元还用于:将章节标签相同的章节中的语句聚类,并提取语句标签。
14.根据权利要求13所述的装置,其特征在于,所述语句对齐单元还用于:
将章节中每个语句中的关键词、每个语句的句法结构树、每个语句中每个词的词性标签和每个语句中每个词的词向量的叠加值中的至少一项,作为语句聚类特征;
将所述语句聚类特征进行聚类分析。
15.根据权利要求9所述的装置,其特征在于,所述语句对齐单元还用于:
记录所述章节标签相同的章节中各语句的前后顺序;
将记录的所述各语句的前后顺序进行概率统计分析,根据概率统计分析的结果确定在生成的报告模板中各语句的前后顺序。
16.根据权利要求9所述的装置,其特征在于,所述词对齐单元还用于:将语句标签相同的语句中的词聚类,并提取词标签。
17.一种报告模板生成装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719305.6A CN110738033B (zh) | 2018-07-03 | 2018-07-03 | 报告模板生成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810719305.6A CN110738033B (zh) | 2018-07-03 | 2018-07-03 | 报告模板生成方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738033A CN110738033A (zh) | 2020-01-31 |
CN110738033B true CN110738033B (zh) | 2023-09-19 |
Family
ID=69234195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810719305.6A Active CN110738033B (zh) | 2018-07-03 | 2018-07-03 | 报告模板生成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738033B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527870B (zh) * | 2020-12-03 | 2023-09-12 | 北京百度网讯科技有限公司 | 电子报告的生成方法、装置、电子设备和存储介质 |
CN113704383A (zh) * | 2021-08-26 | 2021-11-26 | 北京智通云联科技有限公司 | 篇章语义标注的方法、系统及装置 |
CN114139517A (zh) * | 2021-11-11 | 2022-03-04 | 浙江华东工程数字技术有限公司 | 一种基于章节标签自动组合报告的方法及系统 |
CN115310413B (zh) * | 2022-04-13 | 2023-07-18 | 北京梦天门科技股份有限公司 | 流行病学调查报告生成方法、装置、存储介质和电子设备 |
CN114582456B (zh) * | 2022-05-07 | 2022-08-05 | 慧创科仪(北京)科技有限公司 | 医学报告生成方法、装置及近红外脑功能成像系统 |
CN117592451B (zh) * | 2023-11-21 | 2024-07-30 | 北京瑞风协同科技股份有限公司 | 基于智能推荐的试验方案在线编写方法、系统及电子设备 |
CN118133973B (zh) * | 2024-05-10 | 2024-07-26 | 北京网智天元大数据科技有限公司 | 基于大语言模型的报告生成方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001024053A2 (en) * | 1999-09-28 | 2001-04-05 | Xmlexpress, Inc. | System and method for automatic context creation for electronic documents |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
US9785705B1 (en) * | 2014-10-16 | 2017-10-10 | Google Inc. | Generating and applying data extraction templates |
CN107341171A (zh) * | 2017-05-03 | 2017-11-10 | 刘洪利 | 提取数据(基因)特征模板方法与应用模板的方法和系统 |
CN107423289A (zh) * | 2017-07-19 | 2017-12-01 | 东华大学 | 一种跨类型乳腺肿瘤临床文档的结构化处理方法 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
-
2018
- 2018-07-03 CN CN201810719305.6A patent/CN110738033B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001024053A2 (en) * | 1999-09-28 | 2001-04-05 | Xmlexpress, Inc. | System and method for automatic context creation for electronic documents |
CN102737039A (zh) * | 2011-04-07 | 2012-10-17 | 北京百度网讯科技有限公司 | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 |
US9785705B1 (en) * | 2014-10-16 | 2017-10-10 | Google Inc. | Generating and applying data extraction templates |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN107341171A (zh) * | 2017-05-03 | 2017-11-10 | 刘洪利 | 提取数据(基因)特征模板方法与应用模板的方法和系统 |
CN107423289A (zh) * | 2017-07-19 | 2017-12-01 | 东华大学 | 一种跨类型乳腺肿瘤临床文档的结构化处理方法 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
Non-Patent Citations (3)
Title |
---|
The image enhancement of forward vehicle video based on catenary semantics;Hu Yanhua等;《IEEE ICEMI》;全文 * |
基于自动模板方法的汉语语义标注;高研博;赵京雷;陆汝占;;计算机工程与应用(第07期);全文 * |
田驰远 ; 陈德华 ; 王梅 ; 乐嘉锦 ; .基于依存句法分析的病理报告结构化处理方法.计算机研究与发展.2016,(第12期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110738033A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738033B (zh) | 报告模板生成方法、装置及存储介质 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
US11501082B2 (en) | Sentence generation method, sentence generation apparatus, and smart device | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
US9183436B2 (en) | Matching text to images | |
CN101251855B (zh) | 一种互联网网页清洗方法、系统及设备 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN112667940B (zh) | 基于深度学习的网页正文抽取方法 | |
CN106777236B (zh) | 基于深度问答的查询结果的展现方法和装置 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
Banerjee et al. | Bengali question classification: Towards developing qa system | |
CN108090178B (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
US20050050086A1 (en) | Apparatus and method for multimedia object retrieval | |
JP2008123486A (ja) | デジタルメディアで1つまたは複数の概念を検出する方法、システム及びプログラム | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN109165373B (zh) | 一种数据处理方法及装置 | |
CN110737770B (zh) | 文本数据敏感性识别方法、装置、电子设备及存储介质 | |
CN103440315A (zh) | 一种基于主题的Web页面清洗方法 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN112949299A (zh) | 新闻稿件的生成方法及装置、存储介质、电子装置 | |
Feng et al. | Multiple style exploration for story unit segmentation of broadcast news video | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |