CN113297238B - 基于历史变更记录进行信息挖掘的方法和装置 - Google Patents

基于历史变更记录进行信息挖掘的方法和装置 Download PDF

Info

Publication number
CN113297238B
CN113297238B CN202110371877.1A CN202110371877A CN113297238B CN 113297238 B CN113297238 B CN 113297238B CN 202110371877 A CN202110371877 A CN 202110371877A CN 113297238 B CN113297238 B CN 113297238B
Authority
CN
China
Prior art keywords
change
history
text
information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110371877.1A
Other languages
English (en)
Other versions
CN113297238A (zh
Inventor
夏玉龙
梁森
陈超
刘浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Credit Service Co ltd
Original Assignee
Beijing Jindi Credit Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Credit Service Co ltd filed Critical Beijing Jindi Credit Service Co ltd
Priority to CN202110371877.1A priority Critical patent/CN113297238B/zh
Publication of CN113297238A publication Critical patent/CN113297238A/zh
Application granted granted Critical
Publication of CN113297238B publication Critical patent/CN113297238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于历史变更记录进行信息挖掘的方法和装置、以及存储介质和电子设备,其中方法包括:基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录;根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整;以及获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。通过在历史变更记录中进行信息挖掘,提供了融合多方数据的信息变更结果,并且提高了数据的完整程度。

Description

基于历史变更记录进行信息挖掘的方法和装置
技术领域
本发明涉及计算机信息处理技术领域,尤其是一种基于历史变更记录进行信息挖掘的方法和装置、以及存储介质和电子设备。
背景技术
随着中国市场经济的蓬勃发展,国内各种规模的公司层出不穷,并且大量公司的发展也是日新月异。可以说,公司的变迁见证了中国市场经济的发展壮大。因此,了解公司的变迁对研究中国市场经济有着极为重要的意义。
为了能够确定特定公司的当前股东,需要使用从海量的公司变更记录中所挖掘出来的连续变更记录作为数据基础。目前,由于国家市场监督管理局登记在案的公司变更记录数以亿计,因此从这些海量的公司变更记录中挖掘出连续变更记录是较为困难且低效率的过程。据此,如何能够有效地在海量历史变更记录中进行信息挖掘是现有技术中所需要解决的技术问题。
发明内容
本发明要解决的问题包括从海量数据中挖掘出与目标对象相关联的信息,进而推断出目标对象的当前信息,使得对当前信息的识别更加准确且更具说服力。然而,由于海量的变更记录的多样性,现有技术中没有切实可用的用于对信息进行挖掘的技术方案。此外,由于变更记录的特殊性,特定目标对象在某些情况下可以选择不公示数据,为此需要融合其它公开数据源。
为了解决上述诸如信息融合、信息挖掘等的技术问题,提出了本发明。本发明的实施例提供了一种基于历史变更记录进行信息挖掘的方法和装置、以及存储介质和电子设备。
根据本发明实施例的一个方面,提供了一种基于历史变更记录进行信息挖掘的方法,包括:
基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,其中每条历史变更记录包括:变更时间和变更信息项;
根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整;以及
获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。
可选地,在本发明上述各方法实施例中,在所述基于目标对象的识别信息进行搜索之前还包括:
接收针对目标对象的信息挖掘请求,对所述信息挖掘请求进行解析以获取目标对象的识别信息。
可选地,在本发明上述各方法实施例中,所述基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,包括:
基于目标对象的识别信息确定需要搜索的搜索主题;
根据预先设定的搜索范围确定需要搜索的数据源;
基于搜索主题在数据源内进行搜索,以获取与目标对象相关联的多条历史变更记录。
可选地,在本发明上述各方法实施例中,所述根据变更时间确定多个时间节点包括:
根据变更时间对多条历史变更记录进行分组以获得多组历史变更记录,其中,多组历史变更记录中的每组历史变更记录具有相同的变更时间并且包括至少一条历史变更记录;
对每组历史变更记录各自所包括的每条历史变更记录的变更信息项进行完整性检查,并将完整性检查的结果为信息不完整的历史变更记录删除;以及
将删除了信息不完整的历史变更记录之后,仍具有至少一条历史变更记录的每组历史变更记录的变更时间确定为时间节点,从而确定多个时间节点。
可选地,在本发明上述各方法实施例中,所述根据变更信息项对同一时间节点处的历史变更记录进行信息融合包括:
按照时间顺序将多个时间节点中的每个时间节点依次选择作为当前时间节点:
在当前时间节点处仅具有单条历史变更记录时,对单条历史变更记录中的多个变更信息项进行信息融合,以获得经过信息融合的单条历史变更记录;
在当前时间节点处具有多条历史变更记录时,根据变更信息项和多条历史变更记录的变更类型进行信息融合,以获得经过信息融合的单条历史变更记录。
可选地,在本发明上述各方法实施例中,所述根据变更信息项和多条历史变更记录的变更类型进行信息融合包括:
在当前时间节点处的多条历史变更记录属于相同变更类型时,对多条历史变更记录进行去重处理;
根据变更信息项对经过去重处理的多条历史变更记录进行信息融合。
可选地,在本发明上述各方法实施例中,还包括,在获得每个时间节点处各自的经过信息融合的历史变更记录之后,确定多个时间节点中所有时间上相邻的两个时间节点的时间差值;
确定时间差值小于时间阈值的两个时间节点处的历史变更记录是否属于相同的变更记录;
当确定属于相同的变更记录时,根据预先设定的删除规则从两个时间节点中删除一个时间节点及相应的历史变更记录。
可选地,在本发明上述各方法实施例中,所述对每个时间节点处的经过信息融合的历史变更记录进行一致性调整包括:
根据每个时间节点处的经过信息融合的历史变更记录确定经过信息融合的多条历史变更记录;
在经过信息融合的多条历史变更记录中选择具有相同变更类型的两条历史变更记录,以构成多个记录对,其中每个记录对包括<前一条历史变更记录,当前历史变更记录>;
按照时间节点的时间顺序,对每个记录对中的两条历史变更记录进行文本一致性调整和/或数值一致性调整。
可选地,在本发明上述各方法实施例中,其中对每个记录对中的两条历史变更记录进行文本一致性调整包括:
获取每个记录对中前一条历史变更记录的变更信息项中的变更后文本和当前历史变更记录的变更信息项中的变更前文本;
如果变更后文本和变更前文本相同,则确定两条历史变更记录符合文本一致性;
如果变更后文本和变更前文本不相同,则利用文本匹配处理来确定两条历史变更记录是否符合文本一致性;
当两条历史变更记录符合文本一致性时,根据第一调整规则对两条历史变更记录进行文本一致性调整,当两条历史变更记录不符合文本一致性时,根据第二调整规则对两条历史变更记录进行文本一致性调整。
可选地,在本发明上述各方法实施例中,所述利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本和变更前文本的字数均小于或等于字数阈值,则确定变更后文本和变更前文本的字数是否相同;
如果字数不相同,则确定两条历史变更记录不符合文本一致性,如果字数相同,则确定变更后文本和变更前文本的发音编码是否相同;
如果发音编码相同,则确定两条历史变更记录符合文本一致性,如果发音编码不相同,则确定变更后文本和变更前文本的发音规则是否相同;
如果发音规则相同,则确定两条历史变更记录符合文本一致性,如果发音规则不相同,则确定变更后文本和变更前文本的是否属于相同字符集合;
如果属于相同字符集合,则确定两条历史变更记录符合文本一致性,如果不属于相同字符集合,则确定两条历史变更记录不符合文本一致性。
可选地,在本发明上述各方法实施例中,所述利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本和变更前文本的字数均大于字数阈值,则计算变更后文本和变更前文本的匹配分数Score:
其中,lcsa为变更后文本和变更前文本的最长公共子序列的字符数量,lcsb为变更后文本和变更前文本的最长公共子串的字符数量,MinEd为变更后文本和变更前文本的最小编辑距离,maxSize为变更后文本和变更前文本中的最大字符长度的字符数量,inflation为变更后文本和变更前文本的公共部分中最大的逆文档频率的值以及α为调整系数;
当匹配分数大于或等于匹配阈值时,则确定两条历史变更记录符合文本一致性,当匹配分数小匹配阈值时,则确定两条历史变更记录不符合文本一致性。
可选地,在本发明上述各方法实施例中,所述利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本的字数小于或等于字数阈值,而变更前文本的字数大于字数阈值,或者如果变更后文本的字数大于字数阈值,而变更前文本的字数小于或等于字数阈值,则确定两条历史变更记录不符合文本一致性。
可选地,在本发明上述各方法实施例中,其中对每个记录对中的两条历史变更记录进行数值一致性调整包括:
获取每个记录对中前一条历史变更记录的变更信息项中的变更后数值和当前历史变更记录的变更信息项中的变更前数值;
计算变更后数值与变更前数值的差值的绝对值,并计算绝对值与变更后数值的比值;
当比值小于或等于比值阈值时,确定两条历史变更记录符合数值一致性,当比值大于比值阈值时,确定两条历史变更记录不符合数值一致性;
当两条历史变更记录符合数值一致性时,根据第三调整规则对两条历史变更记录进行数值一致性调整,当两条历史变更记录不符合数值一致性,根据第四调整规则对两条历史变更记录进行数值一致性调整。
可选地,在本发明上述各方法实施例中,还包括,将经过文本一致性调整和/或数值一致性调整的历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
可选地,在本发明上述各方法实施例中,所述对每个时间节点处的经过信息融合的历史变更记录进行一致性调整,还包括,
对经过文本一致性调整和/或数值一致性调整后的多条历史变更记录进行语义分析,根据语义分析的结果对多条历史变更记录进行内容推导处理,从而获得经过内容推导处理的多条历史变更记录;
将经过内容推导处理的每条历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
可选地,在本发明上述各方法实施例中,还包括,获取与目标对象相关联的附加内容,所述附加内容包括:具有时间信息的附加内容和不具有时间信息的附加内容。
可选地,在本发明上述各方法实施例中,当附加内容为具有时间信息的附加内容时,确定是否存在与时间信息中的时间相同的时间节点;
当确定存在与时间信息中的时间相同的时间节点时,将附加内容添加到与时间信息中的时间相同的时间节点处的历史变更记录中;
当确定不存在与时间信息中的时间相同的时间节点时,根据时间信息中的时间确定第一关联时间节点,将附加内容添加到第一关联时间节点处的历史变更记录中。
可选地,在本发明上述各方法实施例中,当附加内容为不具有时间信息的附加内容时,计算附加内容与每个时间节点处的历史变更记录的内容匹配度;
将内容匹配度最大的历史变更记录的时间节点确定为第二关联时间节点;
将附加内容添加到第二关联时间节点处的历史变更记录中。
可选地,在本发明上述各方法实施例中,所述获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录包括:
从多个时间节点中确定与当前时间最近的时间节点;
将与当前时间最近的时间节点处的经过一致性调整的历史变更记录确定为最新的历史变更记录。
可选地,在本发明上述各方法实施例中,所述根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息包括:
确定最新的历史变更记录中的变更信息项的变更后信息;
将变更后信息作为目标对象的经过信息挖掘的当前信息,其中变更后信息包括:变更后文本和变更后数值。
根据本发明实施例的另一个方面,提供了一种基于历史变更记录进行信息挖掘的装置,其特征在于,包括:
搜索模块,用于基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,其中每条历史变更记录包括:变更时间和变更信息项;
处理模块,用于根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整;以及
获取模块,用于获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。
可选地,在本发明上述各装置实施例中,还包括接收模块,用于
接收针对目标对象的信息挖掘请求,对所述信息挖掘请求进行解析以获取目标对象的识别信息。
可选地,在本发明上述各装置实施例中,所述搜索模块包括:
第一确定单元,用于基于目标对象的识别信息确定需要搜索的搜索主题;
第二确定单元,用于根据预先设定的搜索范围确定需要搜索的数据源;
信息搜索单元,用于基于搜索主题在数据源内进行搜索,以获取与目标对象相关联的多条历史变更记录。
可选地,在本发明上述各装置实施例中,所述处理模块包括:
分组单元,用于根据变更时间对多条历史变更记录进行分组以获得多组历史变更记录,其中,多组历史变更记录中的每组历史变更记录具有相同的变更时间并且包括至少一条历史变更记录;
检查单元,用于对每组历史变更记录各自所包括的每条历史变更记录的变更信息项进行完整性检查,并将完整性检查的结果为信息不完整的历史变更记录删除;以及
第三确定单元,用于将删除了信息不完整的历史变更记录之后,仍具有至少一条历史变更记录的每组历史变更记录的变更时间确定为时间节点,从而确定多个时间节点。
可选地,在本发明上述各装置实施例中,所述处理模块还包括:
第一选择单元,用于按照时间顺序将多个时间节点中的每个时间节点依次选择作为当前时间节点:
融合单元,用于在当前时间节点处仅具有单条历史变更记录时,对单条历史变更记录中的多个变更信息项进行信息融合,以获得经过信息融合的单条历史变更记录;在当前时间节点处具有多条历史变更记录时,根据变更信息项和多条历史变更记录的变更类型进行信息融合,以获得经过信息融合的单条历史变更记录。
可选地,在本发明上述各装置实施例中,所述融合单元具体用于:
在当前时间节点处的多条历史变更记录属于相同变更类型时,对多条历史变更记录进行去重处理;
根据变更信息项对经过去重处理的多条历史变更记录进行信息融合。
可选地,在本发明上述各装置实施例中,还包括删除模块,用于在获得每个时间节点处各自的经过信息融合的历史变更记录之后,确定多个时间节点中所有时间上相邻的两个时间节点的时间差值;
确定时间差值小于时间阈值的两个时间节点处的历史变更记录是否属于相同的变更记录;
当确定属于相同的变更记录时,根据预先设定的删除规则从两个时间节点中删除一个时间节点及相应的历史变更记录。
可选地,在本发明上述各装置实施例中,所述处理模块还包括:
第四确定单元,用于根据每个时间节点处的经过信息融合的历史变更记录确定经过信息融合的多条历史变更记录;
第二选择单元,用于在经过信息融合的多条历史变更记录中选择具有相同变更类型的两条历史变更记录,以构成多个记录对,其中每个记录对包括<前一条历史变更记录,当前历史变更记录>;
调整单元,用于按照时间节点的时间顺序,对每个记录对中的两条历史变更记录进行文本一致性调整和/或数值一致性调整。
可选地,在本发明上述各装置实施例中,其中所述调整单元具体用于:
获取每个记录对中前一条历史变更记录的变更信息项中的变更后文本和当前历史变更记录的变更信息项中的变更前文本;
如果变更后文本和变更前文本相同,则确定两条历史变更记录符合文本一致性;
如果变更后文本和变更前文本不相同,则利用文本匹配处理来确定两条历史变更记录是否符合文本一致性;
当两条历史变更记录符合文本一致性时,根据第一调整规则对两条历史变更记录进行文本一致性调整,当两条历史变更记录不符合文本一致性时,根据第二调整规则对两条历史变更记录进行文本一致性调整。
可选地,在本发明上述各装置实施例中,所述调整单元具体还用于:
如果变更后文本和变更前文本的字数均小于或等于字数阈值,则确定变更后文本和变更前文本的字数是否相同;
如果字数不相同,则确定两条历史变更记录不符合文本一致性,如果字数相同,则确定变更后文本和变更前文本的发音编码是否相同;
如果发音编码相同,则确定两条历史变更记录符合文本一致性,如果发音编码不相同,则确定变更后文本和变更前文本的发音规则是否相同;
如果发音规则相同,则确定两条历史变更记录符合文本一致性,如果发音规则不相同,则确定变更后文本和变更前文本的是否属于相同字符集合;
如果属于相同字符集合,则确定两条历史变更记录符合文本一致性,如果不属于相同字符集合,则确定两条历史变更记录不符合文本一致性。
可选地,在本发明上述各装置实施例中,所述调整单元具体还用于:
如果变更后文本和变更前文本的字数均大于字数阈值,则计算变更后文本和变更前文本的匹配分数Score:
其中,lcsa为变更后文本和变更前文本的最长公共子序列的字符数量,lcsb为变更后文本和变更前文本的最长公共子串的字符数量,MinEd为变更后文本和变更前文本的最小编辑距离,maxSize为变更后文本和变更前文本中的最大字符长度的字符数量,inflation为变更后文本和变更前文本的公共部分中最大的逆文档频率的值以及α为调整系数;
当匹配分数大于或等于匹配阈值时,则确定两条历史变更记录符合文本一致性,当匹配分数小匹配阈值时,则确定两条历史变更记录不符合文本一致性。
可选地,在本发明上述各装置实施例中,所述调整单元具体还用于:
如果变更后文本的字数小于或等于字数阈值,而变更前文本的字数大于字数阈值,或者如果变更后文本的字数大于字数阈值,而变更前文本的字数小于或等于字数阈值,则确定两条历史变更记录不符合文本一致性。
可选地,在本发明上述各装置实施例中,其中所述调整单元具体还用于:
获取每个记录对中前一条历史变更记录的变更信息项中的变更后数值和当前历史变更记录的变更信息项中的变更前数值;
计算变更后数值与变更前数值的差值的绝对值,并计算绝对值与变更后数值的比值;
当比值小于或等于比值阈值时,确定两条历史变更记录符合数值一致性,当比值大于比值阈值时,确定两条历史变更记录不符合数值一致性;
当两条历史变更记录符合数值一致性时,根据第三调整规则对两条历史变更记录进行数值一致性调整,当两条历史变更记录不符合数值一致性,根据第四调整规则对两条历史变更记录进行数值一致性调整。
可选地,在本发明上述各装置实施例中,所述调整单元具体还用于:将经过文本一致性调整和/或数值一致性调整的历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
可选地,在本发明上述各装置实施例中,还包括内容推导单元,用于对经过文本一致性调整和/或数值一致性调整后的多条历史变更记录进行语义分析,根据语义分析的结果对多条历史变更记录进行内容推导处理,从而获得经过内容推导处理的多条历史变更记录;
将经过内容推导处理的每条历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
可选地,在本发明上述各装置实施例中,还包括附加内容模块,用于获取与目标对象相关联的附加内容,所述附加内容包括:具有时间信息的附加内容和不具有时间信息的附加内容。
可选地,在本发明上述各装置实施例中,所述附加内容模块具体用于:当附加内容为具有时间信息的附加内容时,确定是否存在与时间信息中的时间相同的时间节点;
当确定存在与时间信息中的时间相同的时间节点时,将附加内容添加到与时间信息中的时间相同的时间节点处的历史变更记录中;
当确定不存在与时间信息中的时间相同的时间节点时,根据时间信息中的时间确定第一关联时间节点,将附加内容添加到第一关联时间节点处的历史变更记录中。
可选地,在本发明上述各装置实施例中,所述附加内容模块具体还用于:当附加内容为不具有时间信息的附加内容时,计算附加内容与每个时间节点处的历史变更记录的内容匹配度;
将内容匹配度最大的历史变更记录的时间节点确定为第二关联时间节点;
将附加内容添加到第二关联时间节点处的历史变更记录中。
可选地,在本发明上述各装置实施例中,所述获取模块具体用于:
从多个时间节点中确定与当前时间最近的时间节点;
将与当前时间最近的时间节点处的经过一致性调整的历史变更记录确定为最新的历史变更记录。
可选地,在本发明上述各装置实施例中,所述获取模块具体还用于:
确定最新的历史变更记录中的变更信息项的变更后信息;
将变更后信息作为目标对象的经过信息挖掘的当前信息,其中变更后信息包括:变更后文本和变更后数值。
根据本发明实施例的又一个方面,提供了一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一实施例所述的方法。
根据本发明实施例的又一个方面,提供了一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一实施例所述的方法。
基于本发明上述实施例提供的基于历史变更记录进行信息挖掘的方法和装置、以及存储介质和电子设备,基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录;根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整;以及获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。由此,本发明实施例为用户了解或挖掘目标对象(例如,公司)的信息(例如,股东信息)变更过程提供了便利,降低了用户获取知识的时间成本。用户不再需要从纷繁复杂的变更记录中挖掘信息,同时也为用户提供了融合多方数据的信息变更结果,提高了数据的完整程度。与从孤立不连贯的数据挖掘所需信息相比,从变更记录中挖掘的股东数据更具说服力。此外,本发明利用其它附加信息来补充变更记录的完整性,从而使所挖掘的数据质量更高。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明一示例性实施例提供的基于历史变更记录进行信息挖掘的方法的流程示意图。
图2是本发明一示例性实施例提供的确定多个时间节点的方法的流程示意图。
图3是本发明一示例性实施例提供的进行一致性调整的方法的流程示意图。
图4是本发明一示例性实施例提供的多个时间节点的逻辑示意图。
图5是本发明一示例性实施例提供的基于历史变更记录进行信息挖掘的装置的结构示意图。
图6是本发明一示例性实施例提供的电子设备的结构。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性方法
图1是本发明一示例性实施例提供的基于历史变更记录进行信息挖掘的方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括以下步骤:
步骤101,基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,其中每条历史变更记录包括:变更时间和变更信息项。
可选地,在基于目标对象的识别信息进行搜索之前还包括:接收针对目标对象的信息挖掘请求,对信息挖掘请求进行解析以获取目标对象的识别信息。
作为一个实施例,目标对象可以是各种类型的公司或企业并且目标对象的识别信息可以是目标对象的名称、代码、识别码等能够唯一地识别目标对象的信息。
通常,相关人员可以对公司的信息进行变更以产生历史变更记录。可以变更的信息至少包括股东名称、出资额、出资比例等各种类型的信息。例如,2018年8月8日,公司A的股东从张三(100万)、李四(100万)变更到了王五(200万)。目前,由于中国市场经济的蓬勃发展,公司数量也大量增加。为此,随着公司数量的大量增加,各种类型的历史变更记录会存在于各种数据源中。应当了解的是历史变更记录是指发生在之前时间的变更记录。
通常,当请求方(例如,用户或用户的移动终端)需要对目标对象的大量历史变更记录中进行信息挖掘时,会生成信息挖掘请求并将信息挖掘请求发送给信息挖掘的处理方(例如,服务器的处理接口)。信息挖掘请求可以包括:目标对象的识别信息。当处理方接收到来自请求方的针对目标对象的信息挖掘请求时,处理方对信息挖掘请求进行解析以获取目标对象的识别信息。
可选地,基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,包括:基于目标对象的识别信息确定需要搜索的搜索主题;根据预先设定的搜索范围确定需要搜索的数据源;基于搜索主题在数据源内进行搜索,以获取与目标对象相关联的多条历史变更记录。
其中,为了能够获取更多与目标对象相关联的信息,基于目标对象的识别信息确定目标对象的多个检索词。例如,在识别信息为目标兑现的名称时,多个检索词可以目标对象的名称、别名、缩写、简称、翻译词组等。也就是说,根据目标对象的名称、代码、识别码等,确定与目标对象相关联的多个检索词并将多个检索词作为搜索主题。
其中,预先设定的搜索范围可以由请求方指定,并且将预先设定的搜索范围添加在信息挖掘请求中。可替换地,还可以由处理方指定预先设定的搜索范围。预先设定的搜索范围可以包括:内部数据库、外部数据库、特定数据库、互联网数据库等。例如,预先设定的搜索范围可以包括搜索引擎、官方网站、封闭式数据源或开放式数据源等。
其中,为了能够获取与目标对象相关联的尽可能多的历史变更记录,基于搜索主题在数据源内进行搜索。将搜索主题在数据源内的搜索结果进行汇总,以获取与目标对象相关联的尽可能多的多条历史变更记录。历史变更记录是发生在过去特定时间的变更记录。每条历史变更记录包括:变更时间、变更信息项等内容。例如历史变更记录为,[公司A,2018年8月8日,<张三,出资100万,出资比例50%>,<李四,出资100万,出资比例50%>]:[公司A,2018年8月8日,<王五,出资200万,出资比例100%>]。
本发明通过使用搜索主题在根据预先设定的搜索范围所确定的数据源中进行搜索,能够避免漏检历史变更记录。通过这种方式,本发明能够极大程度地避免错失关键的历史变更记录,从而能够保证信息挖掘的准确性。
步骤102,根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整。
变更记录是相关部分(例如,市场监督管理局)记录公司重要人员、经营状况等变化的主要数据形式,并且变更记录分为变更之前的信息内容和变更之后的信息内容。理想的情况下,变更记录应当是“连续”的(同类型的变更意味着:上一条变更之后的信息内容应该是当条变更之前的信息内容),并且记录了公司的每一次变更。但是,因为各种原因导致变更记录有时不是特别“完美”或“完整”。这也是本发明要解决的主要技术问题,即如何通过合理的策略得出一条“连续”的时间线。
为此,本发明需要确定时间线上的多个时间节点。图2是本发明一示例性实施例提供的确定多个时间节点的方法的流程示意图。如图2所示,根据变更时间确定多个时间节点包括:
步骤201,根据变更时间对多条历史变更记录进行分组以获得多组历史变更记录,其中,多组历史变更记录中的每组历史变更记录具有相同的变更时间并且包括至少一条历史变更记录。
举例来说,当通过在数据源中进行搜索获得了公司A的8条历史变更记录后,确定每条历史变更记录中的变更时间。随后,根据变更时间将8条历史记录分为三组历史变更记录,例如,第一组<2013年6月8日,3条>,第二组<2016年9月6日,4条>以及第三组<2020年8月2日,1条>。
步骤202,对每组历史变更记录各自所包括的每条历史变更记录的变更信息项进行完整性检查,并将完整性检查的结果为信息不完整的历史变更记录删除。
对3组历史变更记录中的每条历史变更记录进行完整性检查。其中完整性检查用于检查历史变更记录中的变更信息项是否完整。例如,变更信息项仅包括变更前信息而不包括变更后信息,或者变更信息项仅包括变更后信息而不包括变更前信息,或者,变更前信息项或变更后信息项中的内容明显缺失(例如,变更前的股东为“李”)等,这些情况下,均可以将历史变更记录确定为信息不完整的历史变更记录并删除。
步骤203,将删除了信息不完整的历史变更记录之后,仍具有至少一条历史变更记录的每组历史变更记录的变更时间确定为时间节点,从而确定多个时间节点。
例如,当经过完整性检查后,确定第一组中存在2条信息不完整的历史变更记录,第二组中存在2条信息不完整的历史变更记录并且第三组中存在1条信息不完整的历史变更记录。由此,三组历史变更记录变为第一组<2013年6月8日,1条>,第二组<2016年9月6日,2条>以及第三组<2020年8月2日,0条>。由于第三组中不具有历史变更记录,因此不会将第三组的变更时间确定为时间节点。那么,公司A的时间节点包括:第一时间节点2013年6月8日和第二时间节点2016年9月6日。
本发明通过确定历史变更记录的多个时间节点,能够按照时间线的节点方式更为清楚和完整地进行信息挖掘。
其中,根据变更信息项对同一时间节点处的历史变更记录进行信息融合包括,按照时间顺序将多个时间节点中的每个时间节点依次选择作为当前时间节点。时间顺序包括从过去到现在和从现在到过去,在本发明中,以时间顺序是从过去到现在为例进行说明,如图4所示。如上所述,按照时间顺序依次将第一时间节点和第二时间节点选择作为当前时间节点。
在将第一时间节点选择作为当前时间节点时,当前时间节点处仅具有单条历史变更记录。对单条历史变更记录中的多个变更信息项进行信息融合,以获得经过信息融合的单条历史变更记录。例如,2013年6月8日的单条历史变更记录中的两个变更信息项包括:
1、变更前信息<张三,出资100万,出资比例20%>,<李四,出资100万,出资比例20%>,变更后信息<王五,出资200万,出资比例40%>
2、变更前信息<赵六,出资200万,出资比例40%>,变更后信息<刘七,出资200万,出资比例40%>
那么可以将两个变更信息项进行信息融合,从而变为:变更前信息<张三,出资100万,出资比例20%>,<李四,出资100万,出资比例20%>,<赵六,出资200万,出资比例40%>,变更后信息<王五,出资200万,出资比例40%>,<刘七,出资200万,出资比例40%>。
应当了解的是,在其它情况下,当单条历史变更记录中仅包括单个变更信息项时,对单条历史变更记录进行信息融合处理即得到原来的单条历史变更记录。
在将第二时间节点选择作为当前时间节点时,当前时间节点处具有两条条历史变更记录。根据变更信息项和多条历史变更记录的变更类型对当前时间节点处的多条历史变更记录进行信息融合,以获得经过信息融合的单条历史变更记录。
具体地,根据变更信息项和多条历史变更记录的变更类型进行信息融合包括:在当前时间节点处的多条历史变更记录属于相同变更类型时,对多条历史变更记录进行去重处理;根据变更信息项对经过去重处理的多条历史变更记录进行信息融合。
例如,2016年9月6日的两条历史变更记录均为:
1、<赵六,出资200万,出资比例40%>,变更后信息<刘七,出资200万,出资比例40%>
2、<赵六,出资200万,出资比例40%>,变更后信息<刘七,出资200万,出资比例40%>
那么将两条历史变更记录经过信息融合变为一条历史变更记录,即<赵六,出资200万,出资比例40%>,变更后信息<刘七,出资200万,出资比例40%>。
此外,为了进一步优化历史变更记录,根据一示例性实施例,还包括,在获得每个时间节点处各自的经过信息融合的历史变更记录之后,确定多个时间节点中所有时间上相邻的两个时间节点的时间差值。例如,获得每个时间节点处各自的经过信息融合的历史变更记录之后,确定多个时间节点为2014年5月9日、2015年6月25日、2015年6月28日、2017年9月1日。确定2014年5月9日和2015年6月25日的时间差值、确定2015年6月25日和2015年6月28日的时间差值,并且确定2015年6月28日和2017年9月1日的时间差值。可以确定的是,2015年6月25日和2015年6月28日的时间差值为3天。
确定时间差值小于时间阈值的两个时间节点处的历史变更记录是否属于相同的变更记录。通常,可以由处理方预先设定时间阈值,并且时间阈值可以是以天数、小时数等为单位。时间阈值可以是任何的合理数值,例如,时间阈值为7天。在这种情况下,2015年6月25日和2015年6月28日的时间差值3天小于时间阈值,确定2015年6月25日的历史变更记录和2015年6月28日的历史变更记录是否为相同的变更记录。
当确定属于相同的变更记录时,根据预先设定的删除规则从两个时间节点中删除一个时间节点及相应的历史变更记录。应当了解的是,处理方可以设置预先设定的删除规则。例如,预先设定的删除规则为在相同的变更记录的两时间节点中删除时间靠前的时间节点相应的历史变更记录,在相同的变更记录的两个时间节点中删除时间靠后的时间节点相应的历史变更记录,以及在相同的变更记录的两个时间节点中随机删除一个时间节点相应的历史变更记录。
在删除时间节点时,同时删除时间节点处的历史变更记录。并且,应当了解的是,在三个或以上时间节点的时间在密集区域中时,例如五个时间节点在7天时间内发生。那么重复执行上述步骤,可以使得相邻且具有相同的变更记录的时间节点仅保留一个。
本发明通过如上所述的信息融合,能够有效地滤除冗余或无效数据。通过这种方式可以提升信息挖掘的效率。变更记录是记录变化的数据,而没有变化的数据(即变更前后一样的数据)应该被认识是脏数据而进行忽略。此外,变更记录有时会只记录变更的部分,而对于没有变更的部分则不会记录。也就是说当条变更记录的变更前内容如果是上条变更记录变更后内容的“子集”,那么也可以认为是连续数据。
图3是本发明一示例性实施例提供的进行一致性调整的方法的流程示意图。如图3所示,对每个时间节点处的经过信息融合的历史变更记录进行一致性调整包括:
步骤301,根据每个时间节点处的经过信息融合的历史变更记录确定经过信息融合的多条历史变更记录。例如,将每个时间节点处的经过信息融合的历史变更记录进行集合或汇总,则可以确定经过信息融合的多条历史变更记录。
步骤302,在经过信息融合的多条历史变更记录中选择具有相同变更类型的两条历史变更记录,以构成多个记录对,其中每个记录对包括<前一条历史变更记录,当前历史变更记录>。应当了解到是,可以采用逐条匹配的方式来确定多个记录对,并且相同的历史变更记录可能会出现在多个记录对中。此处,前一条历史变更记录和当前历史变更记录只是为了区分两条历史变更记录的变更时间的关系或时间节点的关系。例如,前一条历史变更记录的变更时间或时间节点在时间上早于当前历史变更记录的的变更时间或时间节点。类似地,当前历史变更记录的变更时间或时间节点在时间上早于下一条历史变更记录的的变更时间或时间节点。
步骤303,按照时间节点的时间顺序,对每个记录对中的两条历史变更记录进行文本一致性调整和/或数值一致性调整。对历史变更记录进行一致性调整(例如,文本一致性调整和/或数值一致性调整)也可以被称为对数据进行对齐。一致性调整的目的是确定“连续”的同类型变更记录。因此,一致性调整需要比对上一条变更之后的内容和当条变更之前的内容。由于数据类型有文本数据(股东名称)和数值数据(例如,如注册资本,出资额),所以需要进行文本一致性调整和/或数值一致性调整。因为输入和存储时有些信息难免会出现一些错误,所以需要对齐数据或一致性调整。
在一实施例中,对每个记录对中的两条历史变更记录进行文本一致性调整,具体包括:
获取每个记录对中前一条历史变更记录的变更信息项中的变更后文本和当前历史变更记录的变更信息项中的变更前文本;如果变更后文本和变更前文本相同,则确定两条历史变更记录符合文本一致性;如果变更后文本和变更前文本不相同,则利用文本匹配处理来确定两条历史变更记录是否符合文本一致性。如果变更后文本和变更前文本不相同,则可以说明可能是缺少中间的历史变更记录、变更后文本或变更前文本有误等情况。
当两条历史变更记录符合文本一致性时,根据第一调整规则对两条历史变更记录进行文本一致性调整。可选地,第一调整规则可能是纠正文本中的明显错误、校正明显的错别字等。
当两条历史变更记录不符合文本一致性时,根据第二调整规则对两条历史变更记录进行文本一致性调整。可选地,第二调整规则可能是根据上下文来确定正确文本,并根据正确文本来修改错误的文本。
在一实施例中,如果变更后文本和变更前文本不相同,利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本和变更前文本的字数均小于或等于字数阈值,则确定变更后文本和变更前文本的字数是否相同。字数阈值用于区分自然人的姓名或公司的名称,例如字数阈值为4或5等合理数值。如果变更后文本和变更前文本的字数均小于或等于字数阈值,则可以确定涉及自然人。
如果字数不相同,则确定两条历史变更记录不符合文本一致性。即,由于姓名字数不同,则可以认定为不同的自然人。如果字数相同,则确定变更后文本和变更前文本的发音编码是否相同。例如,尹元峰和尹元锋的拼音相同,则可以认为是发音编码相同。
如果发音编码相同,则确定两条历史变更记录符合文本一致性,如果发音编码不相同,则确定变更后文本和变更前文本的发音规则是否相同。例如,由于拼音的前鼻音和后鼻音的关系,可以将张为民和张为明确定为发音规则相同。
如果发音规则相同,则确定两条历史变更记录符合文本一致性,如果发音规则不相同,则确定变更后文本和变更前文本的是否属于相同字符集合。例如,姓名的名字(不含姓)中词语顺序不一致但字符集合相同,可以将孙海英和孙英海确定为属于相同字符集合。应当了解的是,姓名的名字(含姓)中词语顺序不一致但字符集合相同,则可以根据处理方的规则来确定是否属于相同字符集合。例如,可以将孙海英和海英孙确定为属于相同字符集合(因为字符相同)或不同的字符集合(因为姓不同)。
如果属于相同字符集合,则确定两条历史变更记录符合文本一致性,如果不属于相同字符集合,则确定两条历史变更记录不符合文本一致性。
在一实施例中,利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本和变更前文本的字数均大于字数阈值(例如,如上的方式,可以确定涉及公司),则计算变更后文本和变更前文本的匹配分数Score:
其中,lcsa为变更后文本和变更前文本的最长公共子序列的字符数量,lcsb为变更后文本和变更前文本的最长公共子串的字符数量,MinEd为变更后文本和变更前文本的最小编辑距离,maxSize为变更后文本和变更前文本中的最大字符长度的字符数量,inflation为变更后文本和变更前文本的公共部分中最大的逆文档频率的值以及α为调整系数。α例如是0.0000000001,0.0000000002等任何合理数值。逆文档频率为文档频率的倒数。
举例来说,变更后文本为“北京市天地和宝有限公司”,而变更前文本为“北京市天地宝盒有限公司”,那么lcsa为“北京市天地”并且为5,lcsb为“北京市天地”和“有限公司”并且为9,MinED为将“北京市天地和宝有限公司”变更为“北京市天地宝盒有限公司”的最小编辑距离为2,例如,将“和宝”中的“和”变为“宝”,成为“宝宝”并且将“宝宝”中的第二个“宝”变为“盒”。
当匹配分数大于或等于匹配阈值时,则确定两条历史变更记录符合文本一致性,当匹配分数小匹配阈值时,则确定两条历史变更记录不符合文本一致性。
在一实施例中,利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:如果变更后文本的字数小于或等于字数阈值,而变更前文本的字数大于字数阈值,或者如果变更后文本的字数大于字数阈值,而变更前文本的字数小于或等于字数阈值,则确定两条历史变更记录不符合文本一致性。在这种情况下,由于变更后文本和变更前文本中,一个是自然人而另一个是公司,则可以确定是缺少中间的历史变更记录、变更后文本或变更前文本有误等情况。
在一实施例中,其中对每个记录对中的两条历史变更记录进行数值一致性调整包括:获取每个记录对中前一条历史变更记录的变更信息项中的变更后数值和当前历史变更记录的变更信息项中的变更前数值。例如,变更后数值为100万,而变更前数值为102万。
计算变更后数值与变更前数值的差值的绝对值,并计算绝对值与变更后数值的比值。在这种情况下,差值的绝对值为|100万-102万|=2万,并且一直为2/102。
当比值小于或等于比值阈值时,确定两条历史变更记录符合数值一致性,当比值大于比值阈值时,确定两条历史变更记录不符合数值一致性。比例阈值例如是2%、5%或8%等任意合理数值。在比例阈值为2%的情况下,2/102小于2%,并且因此比值小于比值阈值。
当两条历史变更记录符合数值一致性时,根据第三调整规则对两条历史变更记录进行数值一致性调整。第三调整规则例如是以两条历史变更记录中的任意一个数值作为一致性调整后的数值。
当两条历史变更记录不符合数值一致性,根据第四调整规则对两条历史变更记录进行数值一致性调整。根据上下文来确定正确的数值并且根据正确的数值来修改错误的数值。
在一实施例中,还包括,将经过文本一致性调整和/或数值一致性调整的历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。在存在多个时间节点的情况下,获得多个经过一致性调整的历史变更记录。
在一实施例中,对每个时间节点处的经过信息融合的历史变更记录进行一致性调整,还包括,对经过文本一致性调整和/或数值一致性调整后的多条历史变更记录进行语义分析,根据语义分析的结果对多条历史变更记录进行内容推导处理,从而获得经过内容推导处理的多条历史变更记录。
举例来说,1.对股东进行内容推导处理:例如:2021-01-30注册资本从300万变到了600万,2021-02-02股东从张三(300万)、李四(300万)变更到了王五(无金额信息)。此时算法就可以根据两条信息相互佐证,推导得出2021-01-30的注册资本是600万,股东是张三(300万)、李四(300万);2021-02-02的注册资本是600万,股东是王五(600万)。
2.对股东出资进行内容推导处理:
例如:2021-01-30股东从张三(300万)、李四(300万)变更到了张三(300万),王五(300万);2021-02-02注册资本从600万变道1200万。此时算法认为股东没有变化,而出资额根据注册资本的变化进行同比增资(此处的增幅为100%),推导得到2021-02-02注册资本是1200万,股东是张三(600万),王五(600万)。
随后,将经过内容推导处理的每条历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。例如,利用内容推导处理的一条或多条历史变更记录对相应的历史变更记录进行更新或修改。
本发明通过一致性调整能够校正历史变更记录中的错误信息,并且能够根据上下文推导来得到缺失的信息。通过这种方式,可以更为准确和方便地进行信息挖掘。
步骤103,获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。还包括,获取与目标对象相关联的附加内容,附加内容包括:具有时间信息的附加内容和不具有时间信息的附加内容。
在一实施例中,当附加内容为具有时间信息的附加内容时,确定是否存在与时间信息中的时间相同的时间节点;当确定存在与时间信息中的时间相同的时间节点时,将附加内容添加到与时间信息中的时间相同的时间节点处的历史变更记录中;当确定不存在与时间信息中的时间相同的时间节点时,根据时间信息中的时间确定第一关联时间节点,将附加内容添加到第一关联时间节点处的历史变更记录中。根据时间信息中的时间确定第一关联时间节点包括:将与时间信息在时间上最接近的时间节点确定为第一关联时间节点。
具体地,具有“时间信息”的附加数据,例如,年报。将年报插入时间线可完善时间线的时间节点信息,如果年报能精确匹配变更时间线的时间节点,那么可以认为年报时间就是变更时间节点的时间,否则年报时间设置为年报年份的12月31日。
在一实施例中,当附加内容为不具有时间信息的附加内容时,计算附加内容与每个时间节点处的历史变更记录的内容匹配度;将内容匹配度最大的历史变更记录的时间节点确定为第二关联时间节点;将附加内容添加到第二关联时间节点处的历史变更记录中。
具体地,不具有“时间信息”的数据,例如:工商数据。将不具有“时间信息”的数据插入时间线可完善时间线节点信息。如果数据能精确匹配变更时间节点,那么可以认为数据时间就是时间线的时间节点的时间,否则将忽略此数据。
其中获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录包括:从多个时间节点中确定与当前时间最近的时间节点;将与当前时间最近的时间节点处的经过一致性调整的历史变更记录确定为最新的历史变更记录。以及,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息包括:确定最新的历史变更记录中的变更信息项的变更后信息;将变更后信息作为目标对象的经过信息挖掘的当前信息,其中变更后信息包括:变更后文本和变更后数值。即,时间线的最新的时间节点意味着自此时间节点后,诸如股东等的信息再没有变化过,即最新的时间节点处的历史变更信息中的内容就是经过信息挖掘的所需内容。
除了变更记录,还可通过年报的时间来了解公司的变迁,但年报数据的权威性不如变更记录。如果通过变更记录来推断出时间线,那么必然需要文本匹配。除了上述介绍的方法,还可以利用标注数据通过有监督的方式来实现,或者利用词向量将文本向量化再通过相似度算法来判断相似,如余弦相似度。
图4是本发明一示例性实施例提供的多个时间节点的逻辑示意图。如图4所示,在根据历史变更记录的变更时间确定了多个时间节点后,形成如箭头线所示的时间线。在时间线上具有多个时间节点,为了进行说明,以时间节点41、42、43、44、45和46进行说明。时间线的时间按照箭头指示方向从久远到最新,其中时间节点41是时间上最久远的时间节点,并且时间节点46为时间上最新的时间节点。时间节点43和44之间的时间差值小于时间阈值。
按照时间顺序将多个时间节点中的每个时间节点依次选择作为当前时间节点:
在当前时间节点(例如,时间节点42)处仅具有单条历史变更记录时,对单条历史变更记录中的多个变更信息项进行信息融合,以获得经过信息融合的单条历史变更记录。在当前时间节点(例如,时间节点41、43、44、45和46)处具有多条历史变更记录时,根据变更信息项和多条历史变更记录的变更类型进行信息融合,以获得经过信息融合的单条历史变更记录。
确定时间差值小于时间阈值的两个时间节点(例如,时间节点43和44)处的历史变更记录是否属于相同的变更记录;当确定属于相同的变更记录时,根据预先设定的删除规则从两个时间节点中删除一个时间节点(例如,时间节点44)及相应的历史变更记录。
根据多个时间节点(例如,时间节点41、42、43、45和46)处的经过信息融合的历史变更记录确定经过信息融合的多条历史变更记录;在经过信息融合的多条历史变更记录中选择具有相同变更类型的两条历史变更记录,以构成多个记录对,其中每个记录对包括<前一条历史变更记录,当前历史变更记录>;按照时间节点的时间顺序,对每个记录对中的两条历史变更记录进行文本一致性调整和/或数值一致性调整。
对经过文本一致性调整和/或数值一致性调整后的多条历史变更记录进行语义分析,根据语义分析的结果对多条历史变更记录进行内容推导处理,从而获得经过内容推导处理的多条历史变更记录;将经过内容推导处理的每条历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
从多个时间节点中确定与当前时间最近的时间节点(例如,时间节点46)并且将与当前时间最近的时间节点处的经过一致性调整的历史变更记录确定为最新的历史变更记录。
示例性装置
图5是本发明一示例性实施例提供的基于历史变更记录进行信息挖掘的装置的结构示意图。如图5所示,本实施例包括:
搜索模块51,用于基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,其中每条历史变更记录包括:变更时间和变更信息项。
其中搜索模块51包括:第一确定单元,用于基于目标对象的识别信息确定需要搜索的搜索主题;第二确定单元,用于根据预先设定的搜索范围确定需要搜索的数据源;信息搜索单元,用于基于搜索主题在数据源内进行搜索,以获取与目标对象相关联的多条历史变更记录。
处理模块52,用于根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整。
其中处理模块52包括:分组单元,用于根据变更时间对多条历史变更记录进行分组以获得多组历史变更记录,其中,多组历史变更记录中的每组历史变更记录具有相同的变更时间并且包括至少一条历史变更记录;检查单元,用于对每组历史变更记录各自所包括的每条历史变更记录的变更信息项进行完整性检查,并将完整性检查的结果为信息不完整的历史变更记录删除;以及第三确定单元,用于将删除了信息不完整的历史变更记录之后,仍具有至少一条历史变更记录的每组历史变更记录的变更时间确定为时间节点,从而确定多个时间节点。
在一实施例中,处理模块52还包括:第一选择单元,用于按照时间顺序将多个时间节点中的每个时间节点依次选择作为当前时间节点:融合单元,用于在当前时间节点处仅具有单条历史变更记录时,对单条历史变更记录中的多个变更信息项进行信息融合,以获得经过信息融合的单条历史变更记录;在当前时间节点处具有多条历史变更记录时,根据变更信息项和多条历史变更记录的变更类型进行信息融合,以获得经过信息融合的单条历史变更记录。融合单元具体用于:在当前时间节点处的多条历史变更记录属于相同变更类型时,对多条历史变更记录进行去重处理;根据变更信息项对经过去重处理的多条历史变更记录进行信息融合。
在一实施例中,处理模块52还包括:第四确定单元,用于根据每个时间节点处的经过信息融合的历史变更记录确定经过信息融合的多条历史变更记录;第二选择单元,用于在经过信息融合的多条历史变更记录中选择具有相同变更类型的两条历史变更记录,以构成多个记录对,其中每个记录对包括<前一条历史变更记录,当前历史变更记录>;调整单元,用于按照时间节点的时间顺序,对每个记录对中的两条历史变更记录进行文本一致性调整和/或数值一致性调整。
在一实施例中,调整单元具体用于:获取每个记录对中前一条历史变更记录的变更信息项中的变更后文本和当前历史变更记录的变更信息项中的变更前文本;如果变更后文本和变更前文本相同,则确定两条历史变更记录符合文本一致性;如果变更后文本和变更前文本不相同,则利用文本匹配处理来确定两条历史变更记录是否符合文本一致性;当两条历史变更记录符合文本一致性时,根据第一调整规则对两条历史变更记录进行文本一致性调整,当两条历史变更记录不符合文本一致性时,根据第二调整规则对两条历史变更记录进行文本一致性调整。
在一实施例中,调整单元具体还用于:如果变更后文本和变更前文本的字数均小于或等于字数阈值,则确定变更后文本和变更前文本的字数是否相同;如果字数不相同,则确定两条历史变更记录不符合文本一致性,如果字数相同,则确定变更后文本和变更前文本的发音编码是否相同;如果发音编码相同,则确定两条历史变更记录符合文本一致性,如果发音编码不相同,则确定变更后文本和变更前文本的发音规则是否相同;如果发音规则相同,则确定两条历史变更记录符合文本一致性,如果发音规则不相同,则确定变更后文本和变更前文本的是否属于相同字符集合;如果属于相同字符集合,则确定两条历史变更记录符合文本一致性,如果不属于相同字符集合,则确定两条历史变更记录不符合文本一致性。
在一实施例中,调整单元具体还用于:如果变更后文本和变更前文本的字数均大于字数阈值,则计算变更后文本和变更前文本的匹配分数Score:
其中,lcsa为变更后文本和变更前文本的最长公共子序列的字符数量,lcsb为变更后文本和变更前文本的最长公共子串的字符数量,MinEd为变更后文本和变更前文本的最小编辑距离,maxSize为变更后文本和变更前文本中的最大字符长度的字符数量,inflation为变更后文本和变更前文本的公共部分中最大的逆文档频率的值以及α为调整系数;当匹配分数大于或等于匹配阈值时,则确定两条历史变更记录符合文本一致性,当匹配分数小匹配阈值时,则确定两条历史变更记录不符合文本一致性。
在一实施例中,调整单元具体还用于:如果变更后文本的字数小于或等于字数阈值,而变更前文本的字数大于字数阈值,或者如果变更后文本的字数大于字数阈值,而变更前文本的字数小于或等于字数阈值,则确定两条历史变更记录不符合文本一致性。
在一实施例中,调整单元具体还用于:获取每个记录对中前一条历史变更记录的变更信息项中的变更后数值和当前历史变更记录的变更信息项中的变更前数值;计算变更后数值与变更前数值的差值的绝对值,并计算绝对值与变更后数值的比值;当比值小于或等于比值阈值时,确定两条历史变更记录符合数值一致性,当比值大于比值阈值时,确定两条历史变更记录不符合数值一致性;当两条历史变更记录符合数值一致性时,根据第三调整规则对两条历史变更记录进行数值一致性调整,当两条历史变更记录不符合数值一致性,根据第四调整规则对两条历史变更记录进行数值一致性调整。
在一实施例中,调整单元具体还用于:将经过文本一致性调整和/或数值一致性调整的历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
在一实施例中,还包括内容推导单元,用于对经过文本一致性调整和/或数值一致性调整后的多条历史变更记录进行语义分析,根据语义分析的结果对多条历史变更记录进行内容推导处理,从而获得经过内容推导处理的多条历史变更记录;将经过内容推导处理的每条历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
获取模块53,用于获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。获取模块53具体用于:从多个时间节点中确定与当前时间最近的时间节点;将与当前时间最近的时间节点处的经过一致性调整的历史变更记录确定为最新的历史变更记录。获取模块53具体还用于:确定最新的历史变更记录中的变更信息项的变更后信息;将变更后信息作为目标对象的经过信息挖掘的当前信息,其中变更后信息包括:变更后文本和变更后数值。
接收模块54,用于接收针对目标对象的信息挖掘请求,对信息挖掘请求进行解析以获取目标对象的识别信息。
删除模块55,用于在获得每个时间节点处各自的经过信息融合的历史变更记录之后,确定多个时间节点中所有时间上相邻的两个时间节点的时间差值;确定时间差值小于时间阈值的两个时间节点处的历史变更记录是否属于相同的变更记录;当确定属于相同的变更记录时,根据预先设定的删除规则从两个时间节点中删除一个时间节点及相应的历史变更记录。
附加内容模块56,用于获取与目标对象相关联的附加内容,附加内容包括:具有时间信息的附加内容和不具有时间信息的附加内容。
在一实施例中,附加内容模块56具体用于:当附加内容为具有时间信息的附加内容时,确定是否存在与时间信息中的时间相同的时间节点;当确定存在与时间信息中的时间相同的时间节点时,将附加内容添加到与时间信息中的时间相同的时间节点处的历史变更记录中;当确定不存在与时间信息中的时间相同的时间节点时,根据时间信息中的时间确定第一关联时间节点,将附加内容添加到第一关联时间节点处的历史变更记录中。
在一实施例中,附加内容模块具体还用于:当附加内容为不具有时间信息的附加内容时,计算附加内容与每个时间节点处的历史变更记录的内容匹配度;将内容匹配度最大的历史变更记录的时间节点确定为第二关联时间节点;将附加内容添加到第二关联时间节点处的历史变更记录中。
示例性电子设备
图6是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图6图示了根据本公开实施例的电子设备的框图。如图6所示,电子设备包括一个或多个处理器61和存储器62。
处理器61可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器62可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器61可以运行所述程序指令,以实现上文所述的本公开的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置63和输出装置64,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置63还可以包括例如键盘、鼠标等等。
该输出装置64可以向外部输出各种信息。该输出设备64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (22)

1.一种基于历史变更记录进行信息挖掘的方法,其特征在于,包括:
基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,其中每条历史变更记录包括:变更时间和变更信息项;
根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整;以及
获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。
2.根据权利要求1所述的方法,其特征在于,所述基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,包括:
基于目标对象的识别信息确定需要搜索的搜索主题;
根据预先设定的搜索范围确定需要搜索的数据源;
基于搜索主题在数据源内进行搜索,以获取与目标对象相关联的多条历史变更记录。
3.根据权利要求1所述的方法,其特征在于,所述根据变更时间确定多个时间节点包括:
根据变更时间对多条历史变更记录进行分组以获得多组历史变更记录,其中,多组历史变更记录中的每组历史变更记录具有相同的变更时间并且包括至少一条历史变更记录;
对每组历史变更记录各自所包括的每条历史变更记录的变更信息项进行完整性检查,并将完整性检查的结果为信息不完整的历史变更记录删除;以及
将删除了信息不完整的历史变更记录之后,仍具有至少一条历史变更记录的每组历史变更记录的变更时间确定为时间节点,从而确定多个时间节点。
4.根据权利要求1所述的方法,其特征在于,所述根据变更信息项对同一时间节点处的历史变更记录进行信息融合包括:
按照时间顺序将多个时间节点中的每个时间节点依次选择作为当前时间节点:
在当前时间节点处仅具有单条历史变更记录时,对单条历史变更记录中的多个变更信息项进行信息融合,以获得经过信息融合的单条历史变更记录;
在当前时间节点处具有多条历史变更记录时,根据变更信息项和多条历史变更记录的变更类型进行信息融合,以获得经过信息融合的单条历史变更记录。
5.根据权利要求4所述的方法,其特征在于,所述根据变更信息项和多条历史变更记录的变更类型进行信息融合包括:
在当前时间节点处的多条历史变更记录属于相同变更类型时,对多条历史变更记录进行去重处理;
根据变更信息项对经过去重处理的多条历史变更记录进行信息融合。
6.根据权利要求4或5所述的方法,其特征在于,还包括,在获得每个时间节点处各自的经过信息融合的历史变更记录之后,确定多个时间节点中所有时间上相邻的两个时间节点的时间差值;
确定时间差值小于时间阈值的两个时间节点处的历史变更记录是否属于相同的变更记录;
当确定属于相同的变更记录时,根据预先设定的删除规则从两个时间节点中删除一个时间节点及相应的历史变更记录。
7.根据权利要求1所述的方法,其特征在于,所述对每个时间节点处的经过信息融合的历史变更记录进行一致性调整包括:
根据每个时间节点处的经过信息融合的历史变更记录确定经过信息融合的多条历史变更记录;
在经过信息融合的多条历史变更记录中选择具有相同变更类型的两条历史变更记录,以构成多个记录对,其中每个记录对包括<前一条历史变更记录,当前历史变更记录>;
按照时间节点的时间顺序,对每个记录对中的两条历史变更记录进行文本一致性调整和/或数值一致性调整。
8.根据权利要求7所述的方法,其特征在于,其中对每个记录对中的两条历史变更记录进行文本一致性调整包括:
获取每个记录对中前一条历史变更记录的变更信息项中的变更后文本和当前历史变更记录的变更信息项中的变更前文本;
如果变更后文本和变更前文本相同,则确定两条历史变更记录符合文本一致性;
如果变更后文本和变更前文本不相同,则利用文本匹配处理来确定两条历史变更记录是否符合文本一致性;
当两条历史变更记录符合文本一致性时,根据第一调整规则对两条历史变更记录进行文本一致性调整,当两条历史变更记录不符合文本一致性时,根据第二调整规则对两条历史变更记录进行文本一致性调整。
9.根据权利要求8所述的方法,其特征在于,所述利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本和变更前文本的字数均小于或等于字数阈值,则确定变更后文本和变更前文本的字数是否相同;
如果字数不相同,则确定两条历史变更记录不符合文本一致性,如果字数相同,则确定变更后文本和变更前文本的发音编码是否相同;
如果发音编码相同,则确定两条历史变更记录符合文本一致性,如果发音编码不相同,则确定变更后文本和变更前文本的发音规则是否相同;
如果发音规则相同,则确定两条历史变更记录符合文本一致性,如果发音规则不相同,则确定变更后文本和变更前文本的是否属于相同字符集合;
如果属于相同字符集合,则确定两条历史变更记录符合文本一致性,如果不属于相同字符集合,则确定两条历史变更记录不符合文本一致性。
10.根据权利要求8所述的方法,其特征在于,所述利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本和变更前文本的字数均大于字数阈值,则计算变更后文本和变更前文本的匹配分数Score:
其中,lcsa为变更后文本和变更前文本的最长公共子序列的字符数量,lcsb为变更后文本和变更前文本的最长公共子串的字符数量,MinEd为变更后文本和变更前文本的最小编辑距离,maxSize为变更后文本和变更前文本中的最大字符长度的字符数量,inflation为变更后文本和变更前文本的公共部分中最大的逆文档频率的值以及α为调整系数;
当匹配分数大于或等于匹配阈值时,则确定两条历史变更记录符合文本一致性,当匹配分数小匹配阈值时,则确定两条历史变更记录不符合文本一致性。
11.根据权利要求8所述的方法,其特征在于,所述利用文本匹配处理来确定两条历史变更记录是否符合文本一致性包括:
如果变更后文本的字数小于或等于字数阈值,而变更前文本的字数大于字数阈值,或者如果变更后文本的字数大于字数阈值,而变更前文本的字数小于或等于字数阈值,则确定两条历史变更记录不符合文本一致性。
12.根据权利要求7所述的方法,其特征在于,其中对每个记录对中的两条历史变更记录进行数值一致性调整包括:
获取每个记录对中前一条历史变更记录的变更信息项中的变更后数值和当前历史变更记录的变更信息项中的变更前数值;
计算变更后数值与变更前数值的差值的绝对值,并计算绝对值与变更后数值的比值;
当比值小于或等于比值阈值时,确定两条历史变更记录符合数值一致性,当比值大于比值阈值时,确定两条历史变更记录不符合数值一致性;
当两条历史变更记录符合数值一致性时,根据第三调整规则对两条历史变更记录进行数值一致性调整,当两条历史变更记录不符合数值一致性,根据第四调整规则对两条历史变更记录进行数值一致性调整。
13.根据权利要求7所述的方法,其特征在于,还包括,将经过文本一致性调整和/或数值一致性调整的历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
14.根据权利要求7所述的方法,其特征在于,所述对每个时间节点处的经过信息融合的历史变更记录进行一致性调整,还包括,
对经过文本一致性调整和/或数值一致性调整后的多条历史变更记录进行语义分析,根据语义分析的结果对多条历史变更记录进行内容推导处理,从而获得经过内容推导处理的多条历史变更记录;
将经过内容推导处理的每条历史变更记录作为相应的每个时间节点处的经过一致性调整的历史变更记录。
15.根据权利要求1、7或14所述的方法,其特征在于,还包括,获取与目标对象相关联的附加内容,所述附加内容包括:具有时间信息的附加内容和不具有时间信息的附加内容。
16.根据权利要求15所述的方法,其特征在于,当附加内容为具有时间信息的附加内容时,确定是否存在与时间信息中的时间相同的时间节点;
当确定存在与时间信息中的时间相同的时间节点时,将附加内容添加到与时间信息中的时间相同的时间节点处的历史变更记录中;
当确定不存在与时间信息中的时间相同的时间节点时,根据时间信息中的时间确定第一关联时间节点,将附加内容添加到第一关联时间节点处的历史变更记录中。
17.根据权利要求15所述的方法,其特征在于,当附加内容为不具有时间信息的附加内容时,计算附加内容与每个时间节点处的历史变更记录的内容匹配度;
将内容匹配度最大的历史变更记录的时间节点确定为第二关联时间节点;
将附加内容添加到第二关联时间节点处的历史变更记录中。
18.根据权利要求1所述的方法,其特征在于,所述获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录包括:
从多个时间节点中确定与当前时间最近的时间节点;
将与当前时间最近的时间节点处的经过一致性调整的历史变更记录确定为最新的历史变更记录。
19.根据权利要求1所述的方法,其特征在于,所述根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息包括:
确定最新的历史变更记录中的变更信息项的变更后信息;
将变更后信息作为目标对象的经过信息挖掘的当前信息,其中变更后信息包括:变更后文本和变更后数值。
20.一种基于历史变更记录进行信息挖掘的装置,其特征在于,包括:
搜索模块,用于基于目标对象的识别信息进行搜索,以获取与目标对象相关联的多条历史变更记录,其中每条历史变更记录包括:变更时间和变更信息项;
处理模块,用于根据变更时间确定多个时间节点,根据变更信息项对同一时间节点处的历史变更记录进行信息融合,并对每个时间节点处的经过信息融合的历史变更记录进行一致性调整;以及
获取模块,用于获取与当前时间最近的时间节点处经过一致性调整的最新的历史变更记录,根据最新的历史变更记录中的变更信息项为目标对象确定经过信息挖掘的当前信息。
21.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-19任一所述的方法。
22.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-19任一所述的方法。
CN202110371877.1A 2021-04-07 2021-04-07 基于历史变更记录进行信息挖掘的方法和装置 Active CN113297238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110371877.1A CN113297238B (zh) 2021-04-07 2021-04-07 基于历史变更记录进行信息挖掘的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110371877.1A CN113297238B (zh) 2021-04-07 2021-04-07 基于历史变更记录进行信息挖掘的方法和装置

Publications (2)

Publication Number Publication Date
CN113297238A CN113297238A (zh) 2021-08-24
CN113297238B true CN113297238B (zh) 2023-10-20

Family

ID=77319476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110371877.1A Active CN113297238B (zh) 2021-04-07 2021-04-07 基于历史变更记录进行信息挖掘的方法和装置

Country Status (1)

Country Link
CN (1) CN113297238B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901332B (zh) * 2021-09-28 2024-03-19 盐城天眼察微科技有限公司 任职历程信息挖掘方法和装置、以及存储介质和电子设备
CN114048243A (zh) * 2021-10-19 2022-02-15 盐城金堤科技有限公司 人员变迁历程的挖掘方法和装置、及存储介质和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133047A (zh) * 2018-01-15 2018-06-08 北京金堤科技有限公司 企业图谱的展示方法、装置及电子设备
CN108197269A (zh) * 2018-01-04 2018-06-22 北京金堤科技有限公司 一种动态关系图谱的生成方法、装置和用户终端
CN108399240A (zh) * 2018-02-28 2018-08-14 北京金堤科技有限公司 企业变更信息数据挖掘方法和系统
CN109388805A (zh) * 2018-10-23 2019-02-26 重庆誉存大数据科技有限公司 一种基于实体抽取的工商变更分析方法
CN110134663A (zh) * 2019-04-02 2019-08-16 北京三快在线科技有限公司 组织结构数据处理方法、装置、电子设备
CN111754131A (zh) * 2020-06-30 2020-10-09 苏州朗动网络科技有限公司 企业情报动态监控方法、设备及介质
CN112070402A (zh) * 2020-09-09 2020-12-11 深圳前海微众银行股份有限公司 基于图谱的数据处理方法、装置、设备及存储介质
CN112330459A (zh) * 2020-10-22 2021-02-05 北京华彬立成科技有限公司 一种基于工商数据挖掘企业投融资事件的方法及装置
CN112348353A (zh) * 2020-11-05 2021-02-09 浪潮软件股份有限公司 一种基于迁移学习的企业失信风险预测方法
CN112541698A (zh) * 2020-12-22 2021-03-23 北京中数智汇科技股份有限公司 基于企业外部特征识别企业风险的方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418124B2 (en) * 2013-12-16 2016-08-16 International Business Machines Corporation System and method of integrating time-aware data from multiple sources
US20160161375A1 (en) * 2014-12-05 2016-06-09 General Electric Company Text-mining approach for diagnostics and prognostics using temporal multidimensional sensor observations
US11308429B2 (en) * 2019-01-23 2022-04-19 Servicenow, Inc. Enterprise data mining systems

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197269A (zh) * 2018-01-04 2018-06-22 北京金堤科技有限公司 一种动态关系图谱的生成方法、装置和用户终端
CN108133047A (zh) * 2018-01-15 2018-06-08 北京金堤科技有限公司 企业图谱的展示方法、装置及电子设备
CN108399240A (zh) * 2018-02-28 2018-08-14 北京金堤科技有限公司 企业变更信息数据挖掘方法和系统
CN109388805A (zh) * 2018-10-23 2019-02-26 重庆誉存大数据科技有限公司 一种基于实体抽取的工商变更分析方法
CN110134663A (zh) * 2019-04-02 2019-08-16 北京三快在线科技有限公司 组织结构数据处理方法、装置、电子设备
CN111754131A (zh) * 2020-06-30 2020-10-09 苏州朗动网络科技有限公司 企业情报动态监控方法、设备及介质
CN112070402A (zh) * 2020-09-09 2020-12-11 深圳前海微众银行股份有限公司 基于图谱的数据处理方法、装置、设备及存储介质
CN112330459A (zh) * 2020-10-22 2021-02-05 北京华彬立成科技有限公司 一种基于工商数据挖掘企业投融资事件的方法及装置
CN112348353A (zh) * 2020-11-05 2021-02-09 浪潮软件股份有限公司 一种基于迁移学习的企业失信风险预测方法
CN112541698A (zh) * 2020-12-22 2021-03-23 北京中数智汇科技股份有限公司 基于企业外部特征识别企业风险的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种顾及级联时空变化描述的土地利用变更数据模型;谢炯;张丰;薛存金;;中国土地科学(第11期);第83-89页 *
土地动态利用时空数据挖掘的方法及其实现;朱炎;滕龙妹;徐财江;刘仁义;;经济地理(第S1期);第127-130页 *

Also Published As

Publication number Publication date
CN113297238A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
Su et al. Information resources processing using linguistic analysis of textual content
CN108388632B (zh) 数据分群、分段、以及并行化
US9280569B2 (en) Schema matching for data migration
CN102713834A (zh) 管理记录格式信息
CN113297238B (zh) 基于历史变更记录进行信息挖掘的方法和装置
Woodall et al. A classification of data quality assessment and improvement methods
Köhler et al. Sampling dirty data for matching attributes
CN114625809A (zh) 一种基于Binlog日志的数据同步方法、装置以及存储介质和电子设备
CN114091426A (zh) 一种处理数据仓库中字段数据的方法和装置
US11768954B2 (en) System, method and computer-accessible medium for capturing data changes
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
WO2014191719A1 (en) Datasets profiling tools, methods, and systems
CN109542890B (zh) 数据修改方法、装置、计算机设备及存储介质
CN116701355A (zh) 数据视图处理方法、装置、计算机设备及可读存储介质
Loster et al. Curex: A system for extracting, curating, and exploring domain-specific knowledge graphs from text
CN115952168A (zh) 一种面向教育行业的多尺度渐进式差异数据定位方法
Higazy et al. Web-based Arabic/English duplicate record detection with nested blocking technique
US10474666B2 (en) Metadata validation tool
CN111708819B (zh) 用于信息处理的方法、装置、电子设备和存储介质
CN114611471A (zh) 一种电子文档的读取方法、装置、电子设备及存储介质
CN116881262B (zh) 一种智能化的多格式数字身份映射方法及系统
Fedoryszak et al. Methodology for evaluating citation parsing and matching
CN113609407B (zh) 地区一致性校验方法和装置
US11893008B1 (en) System and method for automated data harmonization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant