CN107644090B - 一种变更信息处理方法及装置 - Google Patents

一种变更信息处理方法及装置 Download PDF

Info

Publication number
CN107644090B
CN107644090B CN201710882911.5A CN201710882911A CN107644090B CN 107644090 B CN107644090 B CN 107644090B CN 201710882911 A CN201710882911 A CN 201710882911A CN 107644090 B CN107644090 B CN 107644090B
Authority
CN
China
Prior art keywords
sentence
information
modification information
group
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710882911.5A
Other languages
English (en)
Other versions
CN107644090A (zh
Inventor
胡静
程浩
朱迪
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201710882911.5A priority Critical patent/CN107644090B/zh
Publication of CN107644090A publication Critical patent/CN107644090A/zh
Application granted granted Critical
Publication of CN107644090B publication Critical patent/CN107644090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种变更信息处理方法及装置,该方法包括:获取变更信息;对变更信息进行断句处理,得到变更信息对应的句组;在句组中标志出已变更的句子。本发明对变更前信息和变更后信息进行了断句处理,通过添加换行符将变更前信息和变更后信息划分为多个句子,以句组形式来显示变更前信息和变更后信息,对大字符串形式的信息进行句子划分,条理清晰,便于阅读。且对变更前信息和变更后信息中发生变更的句子进行突出标志,对变更内容自动区分,为已变更的句子设置颜色或加粗等样式,或者在已变更的句子开始或结尾处添加“已删除”或“新增加”等字样,如此在展示变更前信息和变更后信息时,用户无需对比变更前后的信息就可以快速区分出变更内容。

Description

一种变更信息处理方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种变更信息处理方法及装置。
背景技术
企业通常在终端上存储大量的企业信息,如人事信息、业务信息、客户信息等。当需要查看企业信息时,可以通过终端展示这些企业信息。
当前,企业信息通常以大字符串的形式存储在终端中。且企业信息经常出现变更情况,如变更投资公司信息、变更投资人信息、人员任职变更、经营范围变更等。对于出现变更情况的企业信息,终端以大字符串的形式记录变更前的企业信息和变更后的企业信息。当需要查看存在变更情况的企业信息时,终端直接以大字符串的形式展示变更前的企业信息和变更后的企业信息。
变更前后的企业信息直接以大字符串的形式展示,信息繁杂,条理性差,造成展示混乱,不便于阅读。且未对变更内容进行区分,依赖于用户自己对比变更前后的企业信息来区分变更内容,不利于快速区分变更内容。
发明内容
有鉴于此,本发明实施例的目的在于提供一种变更信息处理方法及装置,以解决现有技术存在的以下问题:现有技术中直接以大字符串的形式展示变更信息,信息繁杂,条理性差,造成展示混乱,不便于阅读。且未对变更内容进行区分,依赖于用户自己对比变更前后的企业信息来区分变更内容,不利于快速区分变更内容。
第一方面,本发明实施例提供了一种变更信息处理方法,所述方法包括:
获取变更信息;
对所述变更信息进行断句处理,得到所述变更信息对应的句组;
在所述句组中标志出已变更的句子。
结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述对所述变更信息进行断句处理,得到所述变更信息对应的句组,包括:
对所述变更信息进行文本分割,得到所述变更信息对应的分词组;
按照预设标记规则对所述分词组包括的分词进行标记,得到所述变更信息对应的标记序列;
根据所述标记序列将所述变更信息划分为多个句子,得到所述变更信息对应的句组。
结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述根据所述标记序列将所述变更信息划分为多个句子,得到所述变更信息对应的句组,包括:
确定出所述标记序列中包括的实体标记的位置;
根据所述实体标记的位置,确定所述变更信息中需要换行的位置;
在所述变更信息中所述需要换行的位置处添加换行符,将所述变更信息划分为多个句子,得到所述变更信息对应的句组。
结合第一方面的第二种可能的实现方式,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述根据所述实体标记的位置,确定所述变更信息中需要换行的位置,包括:
根据所述实体标记的位置,计算所述标记序列中任意相邻的两个实体标记之间的位置差;
将所述位置差确定为所述相邻的两个实体标记中排序在前的实体标记对应的句子包括的标记数目;
根据每个实体标记对应的句子包括的标记数目,确定所述变更信息中需要换行的位置。
结合第一方面,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述变更信息包括变更前信息和变更后信息;所述变更信息对应的句组包括所述变更前信息对应的变更前句组和所述变更后信息对应的变更后句组;
所述在所述句组中标志出已变更的句子,包括:
比较所述变更前句组和所述变更后句组,从所述变更前句组和所述变更后句组中确定出已变更的句子;
在所述变更前句组和所述变更后句组中,为所述已变更的句子添加变更标志。
结合第一方面的第四种可能的实现方式,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,所述在所述变更前句组和所述变更后句组中,为所述已变更的句子添加变更标志,包括:
在所述变更前句组和所述变更后句组中,将所述已变更的句子的样式修改为预设样式;或者,
在所述变更前句组和所述变更后句组中,在所述已变更的句子的开始或结尾处添加预设字样。
结合第一方面,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,所述在所述句组中标志出已变更的句子之后,还包括:
存储标志操作后的所述句组,当接收到所述变更信息对应的展示命令时,获取并显示标志操作后的所述句组。
第二方面,本发明实施例提供了一种变更信息处理装置,所述装置包括:
获取模块,用于获取变更信息;
断句模块,用于对所述变更信息进行断句处理,得到所述变更信息对应的句组;
标志模块,用于在所述句组中标志出已变更的句子。
结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述断句模块包括:
文本分割单元,用于对所述变更信息进行文本分割,得到所述变更信息对应的分词组;
标记单元,用于按照预设标记规则对所述分词组包括的分词进行标记,得到所述变更信息对应的标记序列;
划分单元,用于根据所述标记序列将所述变更信息划分为多个句子,得到所述变更信息对应的句组。
结合第二方面的第一种可能的实现方式,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述划分单元包括:
确定子单元,用于确定出所述标记序列中包括的实体标记的位置;根据所述实体标记的位置,确定所述变更信息中需要换行的位置;
添加单元,用于在所述变更信息中所述需要换行的位置处添加换行符,将所述变更信息划分为多个句子,得到所述变更信息对应的句组。
在本发明实施例提供的方法及装置中,获取变更信息;对变更信息进行断句处理,得到变更信息对应的句组;在句组中标志出已变更的句子。本发明对变更前信息和变更后信息进行了断句处理,通过添加换行符将变更前信息和变更后信息划分为多个句子,以句组形式来显示变更前信息和变更后信息,对大字符串形式的信息进行句子划分,条理清晰,便于阅读。且对变更前信息和变更后信息中发生变更的句子进行突出标志,对变更内容自动区分,为已变更的句子设置颜色或加粗等样式,或者在已变更的句子开始或结尾处添加“已删除”或“新增加”等字样,如此在展示变更前信息和变更后信息时,用户无需对比变更前后的信息就可以快速区分出变更内容。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的一种变更信息处理方法的流程图;
图2示出了本发明实施例1所提供的对变更信息进行断句处理的流程示意图;
图3示出了本发明实施例1所提供的一种变更信息的示意图;
图4示出了本发明实施例1所提供的另一种变更信息的示意图;
图5示出了本发明实施例2所提供的一种变更信息处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有技术中直接以大字符串的形式展示,信息繁杂,条理性差,造成展示混乱,不便于阅读。且未对变更内容进行区分,依赖于用户自己对比变更前后的企业信息来区分变更内容,不利于快速区分变更内容。基于此,本发明实施例提供了一种变更信息处理方法及装置,下面通过实施例进行描述。
实施例1
本发明实施例提供了一种变更信息处理方法。该方法适用于任何存储或展示变更信息的场景,如企事业单位的人事信息、业务信息、客户信息等企业信息经常发生变更,通过本发明实施例提供的方法对企事业单位发生变更的变更信息进行处理并展示时,对变更信息进行了断句处理,展示的信息条理性强,便于阅读。而且展示的变更信息中明显标志出发生变更的句子,对变更内容进行了自动区分,用户无需对比变更前后的企业信息就能够分辨出变更内容,有利于快速区分变更内容。
参见图1,该方法具体包括以下步骤:
步骤101:获取变更信息。
变更信息包括变更前信息和变更后信息。以企业的人事变更为例进行说明,如企业人事调整前对应的变更前信息为“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5包丁 监事”,该企业人事调整后对应的变更后信息为“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5李戊 监事”。
企事业单元的变更信息都存储在企事业单位对应的服务器中,本发明实施例的执行主体可以直接为企事业单位对应的服务器,也可以为专门用于变更信息处理的终端。当执行主体为企事业单位对应的服务器时可以直接从本地获取已存储的变更信息。当执行主体为专门用于变更信息处理的终端时,该终端可以与企事业单位对应的服务器建立通信连接,从企事业单位对应的服务器获取变更信息。或者,也可以由技术人员将企事业单位对应的服务器存储的变更信息拷贝到该终端中。
步骤102:对获取的变更信息进行断句处理,得到该变更信息对应的句组。
如图2所示,本发明实施例中具体通过如下步骤A1-A3的操作来对变更信息进行断句处理,包括:
A1:对获取的变更信息进行文本分割,得到该变更信息对应的分词组。
本发明实施例中分别对变更信息包括的变更前信息和变更后信息进行文本分割,得到变更前信息对应的分词组和变更后信息对应的分词组。
对于变更前信息,对变更前信息进行文本识别,识别出变更前信息中包括的数字、标点符号、中文、英文、特殊符号等数据类型,特殊符号包括星号*、百分号%、井号#及空格等除数字、标点、中英文以外的字符。识别出变更前信息中包括的各种不同数据类型后,根据数据类型的不同进行文本分割,得到该变更信息对应的分词组。该分词组中包括多个不同数据类型的分词。对于变更后信息,同样采取上述文本分割方式对变更后信息进行分割,得到变更后信息对应的分词组。
例如,对变更前信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5包丁 监事”进行文本分割,得到的分词组包括的分词为“1”、空格、“王甲”、“*”、“董事长”、“2”、空格、“韩乙”、空格、“董事”、“3”、空格、“秦丙”、空格、“董事”、“4”、空格、“王甲”、“*”、“总经理”、“5”、空格、“包丁”、空格、“监事”。其中,“1”、“2”、“3”、“4”、“5”为数字类型,空格和“*”特殊符号类型,“王甲”、“董事长”、“韩乙”、“董事”、“秦丙”、“总经理”、“包丁”、“监事”为中文类型。
同样地,对变更后信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5李戊 监事”进行文本分割,得到的分词组包括的分词为“1”、空格、“王甲”、“*”、“董事长”、“2”、空格、“韩乙”、空格、“董事”、“3”、空格、“秦丙”、空格、“董事”、“4”、空格、“王甲”、“*”、“总经理”、“5”、空格、“李戊”、空格、“监事”。
A2:按照预设标记规则对上述分词组包括的分词进行标记,得到该变更信息对应的标记序列。
本发明实施例中分别对变更前信息对应的分词组和变更后信息对应的分词组进行标记,得到变更前信息对应的标记序列和变更后信息对应的标记序列。
上述预设标记规则中规定了不同的分词类型以及不同分词类型对应的标记符,如预设标记规则规定的分词类型包括人名、数字、职位及分隔符等,并规定人名对应的标记符为H,数字对应的标记符为D,职位对应的标记符为J,分隔符对应的标记符为S。对于不同的分词类型,本发明实施例的执行主体服务器或终端中预先设置了各分词类型对应的分词库,如预先设置包含多个姓氏的姓氏库,预先设置包含多个表示职位的分词的职位库,预先设置包含多个起分隔作用的特殊字符的分隔符库等。
对于变更前信息对应的分词组,通过预先设置的各个分词库识别出变更前信息对应的分词组中每个分词所属的分词类型,然后根据预设标记规则中规定的分词类型与标记符的对应关系,将变更前信息对应的分词组中的每个分词表示为对应的标记符,得到变更前信息对应的标记序列。对于变更后信息对应的分词组,同样按照上述方式进行标记,得到变更后信息对应的标记序列。
为了便于理解上述标记操作,下面举例进行说明。例如,对于变更前信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5包丁 监事”,其对应的分词组为“1”、空格、“王甲”、“*”、“董事长”、“2”、空格、“韩乙”、空格、“董事”、“3”、空格、“秦丙”、空格、“董事”、“4”、空格、“王甲”、“*”、“总经理”、“5”、空格、“包丁”、空格、“监事”。预设标记规则规定的分词类型包括人名、数字、职位及分隔符,这些分词类型对应的标记符依次为H、D、J、S。服务器或终端中预先设置了姓氏库、职位库和分隔符库。通过查询姓氏库,并判断字符串的结合关系来识别上述变更信息对应的分词组中的人名“王甲”、“韩乙”、“秦丙”、“包丁”,并用标记符H来表示这些人名。通过计算机数字编码范围来识别上述变更信息对应的分词组中的数字“1”、“2”、“3”、“4”、“5”,并用标记符D来表示这些数字。通过查询预先设置的职位库来识别职位“董事长”、“董事”、“总经理”、“监事”,并用标记符J来表示这些职位。以及通过查询分隔符库来识别分隔符空格和“*”,并用标记符S来表示这些分隔符。最终得到变更前信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5包丁 监事”对应的标记序列为DSHSJDSHSJDSHSJDSHSJDSHSJ。
同样地,对于变更后信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理5李戊 监事”,按照上述方式进行标记后得到的标记序列也为DSHSJDSHSJDSHSJDSHSJDSHSJ。
在本发明实施例中,除上述人名、数字、职位、分隔符以外,也可以在预设标记规则中规定其他分词类型对应的标记符,从而实现对其他分词类型的标记,如可以在预设标记规则中规定公司名对应的标记符为C,投资比例对应的标记符为R,除上述提及的分词外的其他分词类型标记为O等。其中,公司名和投资比例可以通过后缀名来识别。
通过上述操作获得变更前信息对应的标记序列及变更后信息对应的标记序列后,通过如下步骤A3分别将变更前信息和变更后信息断句为多个句子。
A3:根据上述标记序列将该变更信息划分为多个句子,得到该变更信息对应的句组。
在划分时,首先确定出上述标记序列中包括的实体标记的位置;根据实体标记的位置,确定变更信息中需要换行的位置;在变更信息中需要换行的位置处添加换行符,将变更信息划分为多个句子,得到变更信息对应的句组。上述实体标记可以为人名或公司名称等分词类型对应的标记符。
在确定变更信息中需要换行的位置时,根据实体标记的位置,计算标记序列中任意相邻的两个实体标记之间的位置差;将该位置差确定为该相邻的两个实体标记中排序在前的实体标记对应的句子包括的标记数目;根据标记序列中每个实体标记对应的句子包括的标记数目,确定该变更信息中需要换行的位置。
在本发明实施例中,变更信息中即包括公司名称又包括人名时,上述实体标记可以为公司名称和/或人名。即在计算标记序列中任意相邻的两个实体标记之间的位置差时,可以仅以人名对应的标记符为实体标记,计算标记序列中任意相邻的两个人名对应的标记符之间的位置差。也可以仅以公司名称对应的标记符为实体标记,计算任意相邻的两个公司名称对应的标记符之间的位置差。还可以同时以人名和公司名称对应的标记符为实体标记,计算任意相邻的两个实体标记之间的位置差。
在本发明实施例中,按照上述方式分别将变更前信息对应的标记序列和变更后信息对应的标记序列划分为多个句子,得到变更前信息对应的句组和变更后信息对应的句组。
为了便于理解上述句子划分的操作,下面举例进行说明。例如,假设实体标记为人名对应的标记符H。对于变更前信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5包丁 监事”对应的标记序列DSHSJDSHSJDSHSJDSHSJDSHSJ,则确定出该标记序列中共有5个实体标记H,这5个实体标记H的位置序号从前往后依次为3、8、13、18、23。计算第一个实体标记H与第二个实体标记之间的位置差为5,则确定第一个实体标记H对应的句子包括的标记数目为5。同样地依次计算第二个实体标记H与第三个实体标记H之间的位置差、第三个实体标记H与第四个实体标记H之间的位置差以及第四个实体标记H与第五个实体标记H之间的位置差,从而确定出这五个实体标记H对应的句子包括的标记数目均为5。因此从该变更前信息对应的标记序列DSHSJDSHSJDSHSJDSHSJDSHSJ的第一个标记符开始每隔5个标记符添加一个空格,添加后的标记序列为DSHSJ DSHSJ DSHSJ DSHSJ DSHSJ。由于标记序列中的标记符与变更前信息对应的分词组中的分词是一一对应的,所以将该标记序列中的空格所在的位置确定为变更前信息中需要换行的位置,在变更前信息中需要换行的位置添加换行符后,得到如下所示的该变更前信息对应的句组:
“1王甲*董事长
2韩乙 董事
3秦丙 董事
4王甲*总经理
5包丁 监事”。
同样地,对于变更后信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理5李戊 监事”,按照上述句子划分方式进行划分,得到变更后信息对应的句组如下所示:
“1王甲*董事长
2韩乙 董事
3秦丙 董事
4王甲*总经理
5李戊 监事”。
步骤103:在上述句组中标志出已变更的句子。
比较变更前句组和变更后句组,从变更前句组和变更后句组中确定出已变更的句子;在变更前句组和变更后句组中,为已变更的句子添加变更标志。
在比较变更前句组和变更后句组时,从变更前句组中取出一个句子,遍历变更后句组包括的每个句子,确定变更后句组中是否包含从变更前句组中取出的这个句子,若包含,则确定这个句子未发生变更。若不包含,则确定该句子已被删除,将该句子确定为已变更的句子。对于变更前句组中的每个句子都按照上述方式来分别确定每个句子是否为已变更的句子。同样地,也从变更后句组中取出一个句子,遍历变更前句组包括的每个句子,确定变更前句组中是否包含从变更后句组中取出的这个句子,若包含,则确定这个句子未发生变更。若不包含,则确定该句子是新增加的句子,将该句子确定为已变更的句子。对于变更后句组中的每个句子都按照这种方式来确定每个句子是否为已变更的句子。
通过上述方式确定出已变更的句子后,在变更前句组和变更后句组中,将已变更的句子的样式修改为预设样式,如将已变更的句子的字体颜色修改为红色或黄色等颜色,或者将已变更的句子的字体加粗或倾斜等。如图3所示,对于变更前信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5包丁 监事”以及变更后信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5李戊 监事”,将已变更的句子“5包丁 监事”和“5李戊 监事”加粗显示。
或者,在变更前句组和变更后句组中,在已变更的句子的开始或结尾处添加预设字样。预设字样可以为“已删除”或“新增加”等。如图4所示,对于变更前信息“1王甲*董事长2韩乙 董事 3秦丙 董事 4王甲*总经理 5包丁 监事”以及变更后信息“1王甲*董事长 2韩乙 董事 3秦丙 董事 4王甲*总经理 5李戊 监事”,在变更前信息包括的已变更的句子“5包丁 监事”的结尾处添加“已删除”,在变更后信息包括的已变更的句子“5李戊 监事”的结尾处添加“新增加”。如图3和4所示,在显示变更信息时,还显示变更时间和变更项目。
企事业单位存储的信息中经常包含资金数额,在比较变更前句组和变更后句组时,若变更前句组中一个句子和变更后句组中一个句子中均包含资金数额,则首先对比这两个句子中除资金数额外的部分是否相同,如果相同,则分别提取出这两个句子中包括的资金数额,换算成人民币,然后比较这两个句子中包括的资金数额是否一致,若一致,则确定这两个句子不是已变更句子,若不一致则,则确定这两个句子为已变更的句子。进一步比较这两个资金数额的大小,若变更前句组包括的这个句子中的数额更大,则在变更后句组包括的这个句子中添加“变少”字样。若变更后句组包括的这个句子中的数额更大,则在变更后句组包括的这个句子中添加“变多”字样。
在本发明实施例中,通过上述步骤101-103的操作在变更信息对应的句组中标志出已变更的句子之后,还存储标志操作后的句组,当后续接收到该变更信息对应的展示命令时,直接获取并显示标志操作后的句组。
或者,当接收到某信息对应的展示命令时,首先根据该信息的存储记录确定该信息是否为变更信息,如果否,则直接展示该信息。如果是,则进一步确定是否已存储该变更信息对应的标志操作后的句组,如果已存储,则直接获取并显示该变更信息对应的句组。如果未存储,则先通过步骤101-103的操作获得该变更信息对应的标志后的句组,然后显示该变更信息对应的句组,并存储该变更信息对应的句组,以便后续再次接收到该变更信息对应的句组时直接进行显示。
在本发明实施例中,获取变更信息;对变更信息进行断句处理,得到变更信息对应的句组;在句组中标志出已变更的句子。本发明对变更前信息和变更后信息进行了断句处理,通过添加换行符将变更前信息和变更后信息划分为多个句子,以句组形式来显示变更前信息和变更后信息,对大字符串形式的信息进行句子划分,条理清晰,便于阅读。且对变更前信息和变更后信息中发生变更的句子进行突出标志,对变更内容自动区分,为已变更的句子设置颜色或加粗等样式,或者在已变更的句子开始或结尾处添加“已删除”或“新增加”等字样,如此在展示变更前信息和变更后信息时,用户无需对比变更前后的信息就可以快速区分出变更内容。
实施例2
参见图5,本发明实施例提供了一种变更信息处理装置,该装置用于执行上述实施例1所提供的变更信息处理方法,该装置包括:
获取模块20,用于获取变更信息;
断句模块21,用于对变更信息进行断句处理,得到变更信息对应的句组;
标志模块22,用于在句组中标志出已变更的句子。
上述断句模块21包括:
文本分割单元,用于对变更信息进行文本分割,得到变更信息对应的分词组;
标记单元,用于按照预设标记规则对分词组包括的分词进行标记,得到变更信息对应的标记序列;
划分单元,用于根据标记序列将变更信息划分为多个句子,得到变更信息对应的句组。
上述划分单元包括:
确定子单元,用于确定出标记序列中包括的实体标记的位置;根据实体标记的位置,确定变更信息中需要换行的位置;
添加单元,用于在变更信息中需要换行的位置处添加换行符,将变更信息划分为多个句子,得到变更信息对应的句组。
上述确定子单元,用于根据实体标记的位置,计算标记序列中任意相邻的两个实体标记之间的位置差;将位置差确定为相邻的两个实体标记中排序在前的实体标记对应的句子包括的标记数目;根据每个实体标记对应的句子包括的标记数目,确定变更信息中需要换行的位置。
在本发明实施例中,变更信息包括变更前信息和变更后信息;变更信息对应的句组包括变更前信息对应的变更前句组和变更后信息对应的变更后句组;
上述标志模块22包括:
比较单元,用于比较变更前句组和变更后句组,从变更前句组和变更后句组中确定出已变更的句子;
添加单元,用于在变更前句组和变更后句组中,为已变更的句子添加变更标志。
上述添加单元,用于在变更前句组和变更后句组中,将已变更的句子的样式修改为预设样式;或者,用于在变更前句组和变更后句组中,在已变更的句子的开始或结尾处添加预设字样。
在本发明实施例中,该装置还包括:
存储模块,用于存储标志操作后的句组。
展示模块,用于当接收到变更信息对应的展示命令时,获取并显示标志操作后的句组。
在本发明实施例中,获取变更信息;对变更信息进行断句处理,得到变更信息对应的句组;在句组中标志出已变更的句子。本发明对变更前信息和变更后信息进行了断句处理,通过添加换行符将变更前信息和变更后信息划分为多个句子,以句组形式来显示变更前信息和变更后信息,对大字符串形式的信息进行句子划分,条理清晰,便于阅读。且对变更前信息和变更后信息中发生变更的句子进行突出标志,对变更内容自动区分,为已变更的句子设置颜色或加粗等样式,或者在已变更的句子开始或结尾处添加“已删除”或“新增加”等字样,如此在展示变更前信息和变更后信息时,用户无需对比变更前后的信息就可以快速区分出变更内容。
本发明实施例所提供的变更信息处理装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种变更信息处理方法,其特征在于,所述方法包括:
获取变更信息;
对所述变更信息进行断句处理,得到所述变更信息对应的句组;
在所述句组中标志出已变更的句子;
所述对所述变更信息进行断句处理,得到所述变更信息对应的句组,包括:
对所述变更信息进行文本分割,得到所述变更信息对应的分词组;
按照预设标记规则对所述分词组包括的分词进行标记,得到所述变更信息对应的标记序列;
根据所述标记序列将所述变更信息划分为多个句子,得到所述变更信息对应的句组;
所述根据所述标记序列将所述变更信息划分为多个句子,得到所述变更信息对应的句组,包括:
确定出所述标记序列中包括的实体标记的位置;
根据所述实体标记的位置,确定所述变更信息中需要换行的位置;
在所述变更信息中所述需要换行的位置处添加换行符,将所述变更信息划分为多个句子,得到所述变更信息对应的句组;
所述根据所述实体标记的位置,确定所述变更信息中需要换行的位置,包括:
根据所述实体标记的位置,计算所述标记序列中任意相邻的两个实体标记之间的位置差;
将所述位置差确定为所述相邻的两个实体标记中排序在前的实体标记对应的句子包括的标记数目;
根据每个实体标记对应的句子包括的标记数目,确定所述变更信息中需要换行的位置。
2.根据权利要求1所述的方法,其特征在于,所述变更信息包括变更前信息和变更后信息;所述变更信息对应的句组包括所述变更前信息对应的变更前句组和所述变更后信息对应的变更后句组;
所述在所述句组中标志出已变更的句子,包括:
比较所述变更前句组和所述变更后句组,从所述变更前句组和所述变更后句组中确定出已变更的句子;
在所述变更前句组和所述变更后句组中,为所述已变更的句子添加变更标志。
3.根据权利要求2所述的方法,其特征在于,所述在所述变更前句组和所述变更后句组中,为所述已变更的句子添加变更标志,包括:
在所述变更前句组和所述变更后句组中,将所述已变更的句子的样式修改为预设样式;或者,
在所述变更前句组和所述变更后句组中,在所述已变更的句子的开始或结尾处添加预设字样。
4.根据权利要求1所述的方法,其特征在于,所述在所述句组中标志出已变更的句子之后,还包括:
存储标志操作后的所述句组,当接收到所述变更信息对应的展示命令时,获取并显示标志操作后的所述句组。
5.一种变更信息处理装置,其特征在于,所述装置包括:
获取模块,用于获取变更信息;
断句模块,用于对所述变更信息进行断句处理,得到所述变更信息对应的句组;
标志模块,用于在所述句组中标志出已变更的句子;
所述断句模块包括:
文本分割单元,用于对所述变更信息进行文本分割,得到所述变更信息对应的分词组;
标记单元,用于按照预设标记规则对所述分词组包括的分词进行标记,得到所述变更信息对应的标记序列;
划分单元,用于根据所述标记序列将所述变更信息划分为多个句子,得到所述变更信息对应的句组;
所述划分单元包括:
确定子单元,用于确定出所述标记序列中包括的实体标记的位置;根据所述实体标记的位置,确定所述变更信息中需要换行的位置;
添加单元,用于在所述变更信息中所述需要换行的位置处添加换行符,将所述变更信息划分为多个句子,得到所述变更信息对应的句组;
上述确定子单元,用于根据实体标记的位置,计算标记序列中任意相邻的两个实体标记之间的位置差;将位置差确定为相邻的两个实体标记中排序在前的实体标记对应的句子包括的标记数目;根据每个实体标记对应的句子包括的标记数目,确定变更信息中需要换行的位置。
CN201710882911.5A 2017-09-26 2017-09-26 一种变更信息处理方法及装置 Active CN107644090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710882911.5A CN107644090B (zh) 2017-09-26 2017-09-26 一种变更信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710882911.5A CN107644090B (zh) 2017-09-26 2017-09-26 一种变更信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN107644090A CN107644090A (zh) 2018-01-30
CN107644090B true CN107644090B (zh) 2019-02-05

Family

ID=61113849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710882911.5A Active CN107644090B (zh) 2017-09-26 2017-09-26 一种变更信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN107644090B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399240B (zh) * 2018-02-28 2020-04-14 北京金堤科技有限公司 企业变更信息数据挖掘方法和系统
CN111382992A (zh) * 2018-12-29 2020-07-07 达丰(上海)电脑有限公司 信息变更管理方法及其装置、设备和存储介质
CN113901834A (zh) * 2021-10-14 2022-01-07 盐城金堤科技有限公司 文本展示方法及其装置、计算机存储介质、电子设备
CN114048243A (zh) * 2021-10-19 2022-02-15 盐城金堤科技有限公司 人员变迁历程的挖掘方法和装置、及存储介质和电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096660B (zh) * 2009-12-15 2012-10-31 北大方正集团有限公司 一种文档并行处理方法及系统
CN104391894A (zh) * 2014-11-11 2015-03-04 广州科腾信息技术有限公司 一种重复数据的检查处理方法
CN106933782A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种文本资源文件的比对方法及装置

Also Published As

Publication number Publication date
CN107644090A (zh) 2018-01-30

Similar Documents

Publication Publication Date Title
CN107644090B (zh) 一种变更信息处理方法及装置
US11010768B2 (en) Character-based attribute value extraction system
CN107358208B (zh) 一种pdf文档结构化信息提取方法及装置
EP1739574A1 (en) Method of identifying words in an electronic document
CN105630817B (zh) 一种电子发票内容解析的方法及系统
WO2012055067A1 (en) Extraction of content from a web page
CN108268884B (zh) 一种文档对比方法及装置
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN104978577B (zh) 信息处理方法、装置及电子设备
CN111695555A (zh) 一种基于题号的精准框题方法、装置、设备和介质
CN111723213A (zh) 学习数据获取方法及电子设备、计算机可读存储介质
CN110059636B (zh) 一种检查纠正学生的学习作业的方法及系统
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
US10261987B1 (en) Pre-processing E-book in scanned format
CN110490237A (zh) 数据处理方法、装置、存储介质及电子设备
CN110765107B (zh) 基于数字化编码的题型识别方法及其系统
WO2019136920A1 (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN110347686A (zh) 记录工程图修改信息的方法和系统
CN111143312A (zh) 一种电力日志的格式解析方法、装置、设备和存储介质
CN110471597A (zh) 一种数据标注方法和装置、计算机可读存储介质
CN115761049A (zh) 一种图片自动标注方法、装置、设备和存储介质
CN104156345A (zh) 识别便携文件格式文件中图注的方法和装置
CN108509960A (zh) 一种文本朝向检测方法及装置
CN104899211A (zh) 网页嵌入对象的配色方法及装置
US20090009519A1 (en) Specifying Wildcard Characters for Priority in XLFD At Font Set Creation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant