CN112597314A - 报文信息处理方法及系统 - Google Patents
报文信息处理方法及系统 Download PDFInfo
- Publication number
- CN112597314A CN112597314A CN202110232664.0A CN202110232664A CN112597314A CN 112597314 A CN112597314 A CN 112597314A CN 202110232664 A CN202110232664 A CN 202110232664A CN 112597314 A CN112597314 A CN 112597314A
- Authority
- CN
- China
- Prior art keywords
- message
- battlefield
- information processing
- event
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种报文信息处理方法及系统,该方法包括:基于第一预设规则从文档中提取出一份或多份报文;对所述报文中的报头进行删除处理;基于文本分类算法从所述报文中提取出战地报文;基于序列标注算法从所述战地报文中抽取事件要素,并获取所述事件要素在所述战地报文中的位置;根据抽取的所述事件要素、所述事件要素在所述战地报文中的位置以及第二预设规则将同一人的事件要素归结到同一事件中,从而得到结构化的数据。本发明的报文信息处理方法及系统针对非结构化的信息,基于文本分类算法、序列标注算法以及规则算法,统一将文本信息转换为结构化的数据信息,便于工作人员修改储存以及分析使用。
Description
技术领域
本发明是关于数据处理技术领域,特别是关于一种报文信息处理方法及系统。
背景技术
在情报机构,工作人员需提交日报,周报,月报,季报的报告。然而情报数据常常是未经处理的文本信息并以非结构化及半结构化形式保存,给信息查找和信息利用造成困难。此外,孤立的文档的信息使用价值有限,不利于信息的整合和综合利用开发。如何将孤立文本信息进行整合并综合利用,以及如何有效解决内部大规模电子文本重要信息查找困难、利用困难是目前亟待解决的问题。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种报文信息处理方法及系统,其针对非结构化的信息,基于文本分类算法、序列标注算法以及规则算法,统一将文本信息转换为结构化的数据信息,便于工作人员修改储存以及分析使用。
为实现上述目的,本发明提供了一种报文信息处理方法,其包括:基于第一预设规则从文档中提取出一份或多份报文;对所述报文中的报头进行删除处理;基于文本分类算法从所述报文中提取出战地报文;基于序列标注算法从所述战地报文中抽取事件要素,并获取所述事件要素在所述战地报文中的位置;根据抽取的所述事件要素、所述事件要素在所述战地报文中的位置以及第二预设规则将同一人的事件要素归结到同一事件中,从而得到结构化的数据。
在本发明的一实施方式中,所述第一预设规则为将所述文档中报头相同的各条报文进行合并,作为同一份报文。
在本发明的一实施方式中,所述事件要素包括:人名、师、营、团、职务、军衔、兵力、地点、坐标、时间、军号、军区、特占局、日期、目的中的一个或多个。
在本发明的一实施方式中,所述第二预设规则为所述事件要素与人名的位置关系。
在本发明的一实施方式中,所述报文信息处理方法还包括:对所述结构化的数据采用词库进行翻译。
在本发明的一实施方式中,所述报文信息处理方法还包括:在基于文本分类算法从所述报文中提取出战地报文之后,对提取出的报文进行校对,剔除错误数据。
在本发明的一实施方式中,所述报文信息处理方法还包括:在基于序列标注算法从所述战地报文中抽取事件要素之后,对提取出的事件要素进行校对,提出错误数据。
基于同样的发明构思,本发明还提供了一种报文信息处理系统,其包括:报文提取模块、报头删除模块、战地报文提取模块、事件要素提取模块、结构化模块。报文提取模块用于基于第一预设规则从文档中提取出一份或多份报文。报头删除模块与所述报文提取模块相耦合,用于对所述报文中的报头进行删除处理。战地报文提取模块与所述报头删除模块相耦合,用于基于文本分类算法从删除了报头的所述报文中提取出战地报文。事件要素提取模块与所述战地报文提取模块相耦合,用于基于序列标注算法从所述战地报文中抽取事件要素,并获取所述事件要素在所述战地报文中的位置。结构化模块与所述事件要素提取模块相耦合,用于根据抽取的所述事件要素、所述事件要素在所述战地报文中的位置以及第二预设规则将同一人的事件要素归结到同一事件中,从而得到结构化的数据。
基于同样的发明构思,本发明还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述任一项所述的报文信息处理方法的步骤。
基于同样的发明构思,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一项所述的报文信息处理的步骤。
与现有技术相比,根据本发明的报文信息处理方法及系统,其针对非结构化的信息,基于文本分类算法、序列标注算法以及规则算法,统一将文本信息转换为结构化的数据信息,将孤立文本信息进行整合并综合利用,以及有效解决了内部大规模电子文本重要信息查找困难、利用困难的问题,便于工作人员修改储存以及分析使用。在优选的实施方式中,还对信息处理过程中的产生的数据进行校对,可以保证最终可以得到更加准确的结构化的数据。
附图说明
图1是根据本发明一实施方式的报文信息处理方法;
图2是根据本发明一实施方式的结构化数据的示意图;
图3是根据本发明一实施方式的报文信息处理方法;
图4是根据本发明一实施方式的报文信息处理系统;
图5是根据本发明一实施方式的报文信息处理系统。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
为了将孤立文本信息进行整合并综合利用,以及有效解决内部大规模电子文本重要信息查找困难、利用困难的问题,一实施方式中提供了一种报文信息处理方法,如图1所示,其包括:步骤S1~步骤S5。
在步骤S1中,基于第一预设规则从文档中提取出一份或多份报文。其中,所述第一预设规则为将所述文档中报头相同的各条报文进行合并,作为同一份报文。通常而言,报文大部分采用word文档保存,一个word文档含有多份报文,一份报文可含有多个事件信息。处理时首先利用第一预设规则以报文为单位进行分割和合并,同时去掉报头等干扰信息。每篇报文都会有报头,依据报头将所有报文进行拆分,同时相同的报头为同一份报文,识别后会对报头相同的各条报文进行合并。
在步骤S2中,对所述报文中的报头进行删除处理。
在步骤S3中,基于文本分类算法从删除了报头的所述报文中提取出战地报文。由于文档中可能含有各种类的报文,而本方案主要需要战地报文,所以需要对战地报文进行识别和确认才可进行进一步的信息抽取,具体地,本方案采用文本分类的算法进行识别。优选地,在其他优选的实施方式中,在步骤S3中还包括对报文进行人工校对以确保准确性。
在步骤S4中,基于序列标注算法从所述战地报文中抽取事件要素,并获取所述事件要素在所述战地报文中的位置。具体而言,在提取出战地报文后,利用序列标注的算法抽取战地报文中的信息事件。在抽取之前首先确定抽取的事件要素如:人名、师、营、团、职务、军衔、兵力、地点、坐标、时间、军号、军区、特占局、日期、目的等。确定要素后利用序列标注的算法对文本进行信息提取,抽取结果为事件要素以及事件要素在战地报文中的位置信息。根据抽取结果可以溯源到原文。优选地,在其他实施方式中,在步骤S4中还包括对事件要素以及事件要素在战地报文中的位置信息进行校对,确保信息完全准确。对于抽取结果中含有多个事件的非结构化的信息进行规则化整理。
在步骤S5中,根据抽取的所述事件要素、所述事件要素在所述战地报文中的位置以及第二预设规则将同一人的事件要素归结到同一事件中,从而得到结构化的数据。具体而言,首先根据事件要素以及位置信息确定第二预设规则。报文事件皆以人为中心,报文事件为某个人在什么时间做了什么事情,他的职位,兵力,军号兵力是什么。同时战地报文的结构写法有一定规律。例如在某些国家的战地报文中,军衔一定会出现在人名前,位置坐标以及目的一定会出现在人名后。所以采用多少个人名出现就为对应多少个事件的理论,将属于同一个的人的属性要素包括师、营、团、职务、军衔、兵力、地点、坐标、时间、军号、军区、特占局、日期、目的都归结到同一事件下就可以形成结构化的数据。图2为本发明一实施方式得到的结构化数据的示意图。
由此,上述实施方式的报文信息处理方法,基于文本分类算法、序列标注算法以及规则算法,统一将文本信息转换为结构化的数据信息,将孤立文本信息进行整合并综合利用,有效解决了内部大规模电子文本重要信息查找困难、利用困难的问题。
若事件要素抽取后的数据为外语,为方便工作人员后期分析查找,数据内容需翻译为本国语言保存。考虑到结构化后的数据将以几个词组的形式做为一个事件,因此采用词库的方式进行翻译,提高翻译准确性。对于该种情况,一实施方式的所述报文信息处理方法还包括:步骤S6,如图3所示。在步骤S6中对所述结构化的数据采用词库进行翻译。
基于同样的发明构思,一实施方式中还提供了一种报文信息处理系统,如图4所示,其包括:报文提取模块10、报头删除模块11、战地报文提取模块12、事件要素提取模块13、结构化模块14。
报文提取模块10用于基于第一预设规则从文档中提取出一份或多份报文。其中,所述第一预设规则为将所述文档中报头相同的各条报文进行合并,作为同一份报文。
报头删除模块11与所述报文提取模块10相耦合,用于对所述报文中的报头进行删除处理。
战地报文提取模块12与所述报头删除模块11相耦合,用于基于文本分类算法从删除了报头的所述报文中提取出战地报文。
事件要素提取模块13与所述战地报文提取模块12相耦合,用于基于序列标注算法从所述战地报文中抽取事件要素,并获取所述事件要素在所述战地报文中的位置。其中,所述事件要素包括:人名、师、营、团、职务、军衔、兵力、地点、坐标、时间、军号、军区、特占局、日期、目的中的一个或多个。
结构化模块14与所述事件要素提取模块13相耦合,用于根据抽取的所述事件要素、所述事件要素在所述战地报文中的位置以及第二预设规则将同一人的事件要素归结到同一事件中,从而得到结构化的数据。其中,所述第二预设规则为所述事件要素与人名的位置关系。例如在某些国家的战地报文中,军衔一定会出现在人名前,位置坐标以及目的一定会出现在人名后。
优选地,为了能够提高得到的结构化数据的准确率,所述战地报文提取模块12还用于在基于文本分类算法从删除了报头的所述报文中提取出战地报文之后,对提取出的报文进行校对,剔除错误数据。
优选地,为了能够提高得到的结构化数据的准确率,所述事件要素提取模块13还用于在基于序列标注算法从所述战地报文中抽取事件要素之后,对提取出的事件要素进行校对,剔除错误数据。
若事件要素抽取后的数据为外语,为方便工作人员后期分析查找,数据内容需翻译为本国语言保存。考虑到结构化后的数据将以几个词组的形式做为一个事件,因此采用词库的方式进行翻译,提高翻译准确性。对于该种情况,一实施方式的所述报文信息处理系统还包括:翻译模块15,如图5所示。翻译模块15用于对所述结构化的数据采用词库进行翻译。
基于同样的发明构思,本发明还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述任一项所述的报文信息处理方法的步骤。
基于同样的发明构思,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一项所述的报文信息处理的步骤。
综上所述,根据本实施方式的报文信息处理方法及系统,其针对非结构化的信息,基于文本分类算法、序列标注算法以及规则算法,统一将文本信息转换为结构化的数据信息,将孤立文本信息进行整合并综合利用,以及有效解决了内部大规模电子文本重要信息查找困难、利用困难的问题,便于工作人员修改储存以及分析使用。在优选的实施方式中,还对信息处理过程中的产生的数据进行校对,可以保证最终可以得到更加准确的结构化的数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (10)
1.一种报文信息处理方法,其特征在于,包括:
基于第一预设规则从文档中提取出一份或多份报文;
对所述报文中的报头进行删除处理;
基于文本分类算法从删除了报头的所述报文中提取出战地报文;
基于序列标注算法从所述战地报文中抽取事件要素,并获取所述事件要素在所述战地报文中的位置;
根据抽取的所述事件要素、所述事件要素在所述战地报文中的位置以及第二预设规则将同一人的事件要素归结到同一事件中,从而得到结构化的数据。
2.如权利要求1所述的报文信息处理方法,其特征在于,
所述第一预设规则为将所述文档中报头相同的各条报文进行合并,作为同一份报文。
3.如权利要求1所述的报文信息处理方法,其特征在于,所述事件要素包括:人名、师、营、团、职务、军衔、兵力、地点、坐标、时间、军号、军区、特占局、日期、目的中的一个或多个。
4.如权利要求1所述的报文信息处理方法,其特征在于,所述第二预设规则为所述事件要素与人名的位置关系。
5.如权利要求1所述的报文信息处理方法,其特征在于,所述报文信息处理方法还包括:
对所述结构化的数据采用词库进行翻译。
6.如权利要求1所述的报文信息处理方法,其特征在于,所述报文信息处理方法还包括:
在基于文本分类算法从删除了报头的所述报文中提取出战地报文之后,对提取出的报文进行校对,剔除错误数据。
7.如权利要求1所述的报文信息处理方法,其特征在于,所述报文信息处理方法还包括:
在基于序列标注算法从所述战地报文中抽取事件要素之后,对提取出的事件要素以及事件要素在战地报文中的位置信息进行校对,剔除错误数据。
8.一种报文信息处理系统,其特征在于,包括:
报文提取模块,用于基于第一预设规则从文档中提取出一份或多份报文;
报头删除模块,与所述报文提取模块相耦合,用于对所述报文中的报头进行删除处理;
战地报文提取模块,与所述报头删除模块相耦合,用于基于文本分类算法从删除了报头的所述报文中提取出战地报文;
事件要素提取模块,与所述战地报文提取模块相耦合,用于基于序列标注算法从所述战地报文中抽取事件要素,并获取所述事件要素在所述战地报文中的位置;
结构化模块,与所述事件要素提取模块相耦合,用于根据抽取的所述事件要素、所述事件要素在所述战地报文中的位置以及第二预设规则将同一人的事件要素归结到同一事件中,从而得到结构化的数据。
9.一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的报文信息处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的报文信息处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110232664.0A CN112597314A (zh) | 2021-03-03 | 2021-03-03 | 报文信息处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110232664.0A CN112597314A (zh) | 2021-03-03 | 2021-03-03 | 报文信息处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597314A true CN112597314A (zh) | 2021-04-02 |
Family
ID=75210115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110232664.0A Pending CN112597314A (zh) | 2021-03-03 | 2021-03-03 | 报文信息处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597314A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN112380300A (zh) * | 2020-12-11 | 2021-02-19 | 武汉烽火众智数字技术有限责任公司 | 多类别事件要素抽取分析方法及设备 |
-
2021
- 2021-03-03 CN CN202110232664.0A patent/CN112597314A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582949A (zh) * | 2018-09-14 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN110717049A (zh) * | 2019-08-29 | 2020-01-21 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN111159415A (zh) * | 2020-04-02 | 2020-05-15 | 成都数联铭品科技有限公司 | 序列标注方法及系统、事件要素抽取方法及系统 |
CN112380300A (zh) * | 2020-12-11 | 2021-02-19 | 武汉烽火众智数字技术有限责任公司 | 多类别事件要素抽取分析方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN107832229B (zh) | 一种基于nlp的系统测试用例自动生成方法 | |
CN106446072B (zh) | 网页内容的处理方法和装置 | |
KR101724398B1 (ko) | 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
Rupp et al. | Dealing with heterogeneous big data when geoparsing historical corpora | |
CN110909123A (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN117668180A (zh) | 文档问答方法、文档问答设备以及可读存储介质 | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN104572618A (zh) | 一种问答系统中基于语义的相似度分析方法、系统及应用 | |
CN116306498B (zh) | 文字渲染方法及装置 | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN109558580B (zh) | 一种文本分析方法及装置 | |
CN112597314A (zh) | 报文信息处理方法及系统 | |
CN114528393B (zh) | 一种学者研究兴趣标签挖掘与演变分析方法、系统及介质 | |
CN114817186A (zh) | 一种结构化数据的转换系统和方法 | |
CN115098657A (zh) | 自然语言转换数据库查询语句的方法、设备及介质 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
CN113468307A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN112685549A (zh) | 融入篇章语义的涉案新闻要素实体识别方法及系统 | |
CN111339272A (zh) | 代码缺陷报告检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210402 |