CN108133009A - 一种信息存储方法及装置 - Google Patents

一种信息存储方法及装置 Download PDF

Info

Publication number
CN108133009A
CN108133009A CN201711406090.4A CN201711406090A CN108133009A CN 108133009 A CN108133009 A CN 108133009A CN 201711406090 A CN201711406090 A CN 201711406090A CN 108133009 A CN108133009 A CN 108133009A
Authority
CN
China
Prior art keywords
information
word
stored
keyword
splits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711406090.4A
Other languages
English (en)
Inventor
闵剑
温煦峰
郝景坡
张静静
翟素校
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Austrian (china) Gas Investment Co Ltd
Original Assignee
New Austrian (china) Gas Investment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Austrian (china) Gas Investment Co Ltd filed Critical New Austrian (china) Gas Investment Co Ltd
Priority to CN201711406090.4A priority Critical patent/CN108133009A/zh
Publication of CN108133009A publication Critical patent/CN108133009A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提供了一种信息存储方法及装置,该方法包括:创建至少两个信息类别,并分别为每一个所述信息类别定义相对应的至少一个第一关键词;接收待存储信息;获取所述待存储信息所对应的至少一个第二关键词;根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别;将所述待存储信息存储到与所述目标信息类别相对应的存储空间。该装置包括:预处理单元、获取单元、分类单元和存储单元。本方案能够提高大数据分析的效率。

Description

一种信息存储方法及装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种信息存储方法及装置。
背景技术
随着计算机技术和互联网技术的不断发展与进步,大数据分析已经成为企业经营和发展过程中必不可少的数据处理方法,通过对大数据进行分析可以为企业领导决策提供数据支撑。在对大数据进行分析之前,需要通过网络抓爬、线下录入和文档导入等多种方式获取行业资讯、宏观政策等信息,并对获取到的信息进行存储,以便通过大数据处理方法对获取到的信息进行分析。
目前,在获取到行业资讯、宏观政策等信息后,将获取到的信息统一存储到数据库中。
针对目前将行业资讯、宏观政策等信息统一存储到数据库中的信息存储方法,在进行大数据分析时,无论大数据分析模型如何定义,都需要对数据库中存储的所有信息进行分析,无法选择同一类型的部分信息进行有针对性的分析,因此每一次大数据分析都需要对较多的不相关信息进行分析,造成大数据分析的效率较低。
发明内容
本发明实施例提供了一种信息存储方法及装置,能够提高大数据分析的效率。
第一方面,本发明实施例提供了一种信息存储方法,创建至少两个信息类别,并分别为每一个所述信息类别定义相对应的至少一个第一关键词,还包括:
接收待存储信息;
获取所述待存储信息所对应的至少一个第二关键词;
根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别;
将所述待存储信息存储到与所述目标信息类别相对应的存储空间。
可选地,
在所述创建至少两个信息类别之后,进一步包括:分别为每一个所述信息类别设置相对应的优先级,其中,不同所述信息类别对应不同优先级;
所述根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别,包括:
按照对应优先级从高至低的顺序,依次将各个所述信息类别对应的所述至少一个第一关键词与各个所述第二关键词进行对比;
将所对应优先级较高,并且所对应各个所述第一关键词中存在与所述第二关键词相同的所述第一关键词的一个所述信息类别确定为所述目标信息类别。
可选地,
所述获取所述待存储信息所对应的至少一个第二关键词,包括:
获取所述待存储信息的标题;
对所述标题进行拆分,获得至少两个第一拆分词;
根据预先创建的停用词动态库,从所述至少两个第一拆分词中去除被记录在所述停用词动态库中的所述第一拆分词,将剩余的至少一个所述第一拆分词确定为所述第二关键词。
可选地,
所述获取所述待存储信息所对应的至少一个第二关键词,包括:
对所述待存储信息包括的文字进行拆分,获得至少两个第二拆分词;
根据预先创建的停用词动态库,从所述至少两个第二拆分词中去除被记录在所述停用词动态库中的所述第二拆分词,将剩余的各个所述第二拆分词作为第三拆分词;
针对每一个所述第三拆分词,根据所述第三拆分词对应的语义贡献值、在所述待存储信息中的位置、词长、词性及出现频率,通过如下公式计算所述第三拆分词的关键度:
其中,所述W表征所述第三拆分词的关键度;所述D表征所述第三拆分词的语义贡献值,所述语义贡献值根据各个所述第三拆分词之间的语义相似度计算获得;所述L1表征所述第三拆分词是否在所述待存储信息的段首出现,当所述第三拆分词在所述待存储信息的段首出现时所述L1等于1,否则所述L1等于0;所述L2表征所述第三拆分词是否在所述待存储信息的段中出现,当所述第三拆分词在所述待存储信息的段中出现时所述L2等于1,否则所述L2等于0;所述L3表征所述第三拆分词是否在所述待存储信息的段尾出现,当所述第三拆分词在所述待存储信息的段尾出现时所述L3等于1,否则所述L3等于0;所述C表征所述第三拆分词的词长;所述Xj表征所述的第三拆分词的词性参数,所述xj表征与所述第三拆分词的词性相对应的权重值;所述P表征所述第三拆分词在所述待存储信息中出现的频率,所述k1、k0、l1、l2、l3、k2和k4均为常数;
将对应所述关键度大于预设阈值的各个所述第三拆分词确定为所述第二关键词。
可选地,
在所述接收待存储信息之后,进一步包括:
如果所述待存储信息不存在相对应的所述第二关键词,将所述待存储信息存储到预先创建的信息获取记录库中。
第二方面,本发明实施例还提供了一种信息存储装置,包括:预处理单元、获取单元、分类单元和存储单元;
所述预处理单元,用于创建至少两个信息类别,并分别为每一个所述信息类别定义相对应的至少一个第一关键词;
所述获取单元,用于接收待存储信息,并获取所述待存储信息所对应的至少一个第二关键词;
所述分类单元,用于根据所述获取单元获取到的所述至少一个第二关键词,以及由所述预处理单元定义的每一个所述信息类别相对应的所述至少一个第一关键词,从所述预处理单元创建的所述至少两个类别中确定所述待存储信息所属的目标信息类别;
所述存储单元,用于将所述待存储信息存储到与所述分类单元确定出的所述目标信息类别相对应的存储空间。
可选地,
所述预处理单元,进一步用于分别为每一个所述信息类别设置相对应的优先级,其中,不同所述信息类别对应不同优先级;
所述分类单元,用于按照所述预处理单元所定义优先级从高至低的顺序,依次将各个所述信息类别对应的所述至少一个第一关键词与各个所述第二关键词进行对比,将所对应优先级较高且所对应各个所述第一关键词中存在与所述第二关键词相同的所述第一关键词的一个所述信息类别确定为所述目标信息类别。
可选地,
所述获取单元,用于获取所述待存储信息的标题,对所述标题进行拆分,获得至少两个第一拆分词,根据预先创建的停用词动态库,从所述至少两个第一拆分词中去除被记录在所述停用词动态库中的所述第一拆分词,将剩余的至少一个所述第一拆分词确定为所述第二关键词。
可选地,
所述获取单元包括:拆分子单元、筛选子单元、计算子单元和执行子单元;
所述拆分子单元,用于对所述待存储信息包括的文字进行拆分,获得至少两个第二拆分词;
所述筛选子单元,用于根据预先创建的停用词动态库,从所述拆分子单元获得的所述至少两个第二拆分词中去除被记录在所述停用词动态库中的所述第二拆分词,将剩余的各个所述第二拆分词作为第三拆分词;
所述计算子单元,用于针对所述筛选子单元确定出的每一个所述第三拆分词,根据所述第三拆分词对应的语义贡献值、在所述待存储信息中的位置、词长、词性及出现频率,通过如下公式计算所述第三拆分词的关键度:
其中,所述W表征所述第三拆分词的关键度;所述D表征所述第三拆分词的语义贡献值,所述语义贡献值根据各个所述第三拆分词之间的语义相似度计算获得;所述L1表征所述第三拆分词是否在所述待存储信息的段首出现,当所述第三拆分词在所述待存储信息的段首出现时所述L1等于1,否则所述L1等于0;所述L2表征所述第三拆分词是否在所述待存储信息的段中出现,当所述第三拆分词在所述待存储信息的段中出现时所述L2等于1,否则所述L2等于0;所述L3表征所述第三拆分词是否在所述待存储信息的段尾出现,当所述第三拆分词在所述待存储信息的段尾出现时所述L3等于1,否则所述L3等于0;所述C表征所述第三拆分词的词长;所述Xj表征所述的第三拆分词的词性参数,所述xj表征与所述第三拆分词的词性相对应的权重值;所述P表征所述第三拆分词在所述待存储信息中出现的频率,所述k1、k0、l1、l2、l3、k2和k4均为常数;
所述执行子单元,用于根据所述计算子单元的计算结果,将对应所述关键度大于预设阈值的各个所述第三拆分词确定为所述第二关键词。
可选地,
所述存储单元,进一步用于在所述获取单元没有获取到与所述待存储信息相对应的所述第二关键词时,将所述待存储信息存储到预先创建的信息获取记录库中。
本发明实施例提供的信息存储方法及装置,预先创建至少两个信息类别,并分别为每一个信息类别定义相对应的第一关键词,在接收到待存储信息后,获取待存储信息对应的第二关键词,根据第二关键词和各个信息类别对应的第一关键词从各个信息类别中确定待存储信息所属的目标信息类别,进而将待存储信息存储到与目标信息类别相对应的存储空间中。由此可见,为每一个信息类别定义对应的第一关键词,获取待存储信息对应的第二关键词,通过第一关键词与第二关键词的匹配,确定待存储信息所属的信息类别,进而将待存储信息存储到所属信息类别对应的存储空间,实现了信息的分类存储,在进行大数据分析时可以选择性的对一个或多个信息类别所对应存储空间中的信息进行分析,减少对不相关信息进行分析所耗费的时间,从而可以提高大数据分析的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种信息存储方法的流程图;
图2是本发明一个实施例提供的另一种信息存储方法的流程图;
图3是本发明一个实施例提供的一种信息存储装置所在设备的示意图;
图4是本发明一个实施例提供的一种信息存储装置的示意图;
图5是本发明一个实施例提供的另一个信息存储装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种信息存储方法,该方法可以包括以下步骤:
步骤101:创建至少两个信息类别,并分别为每一个所述信息类别定义相对应的至少一个第一关键词;
步骤102:接收待存储信息;
步骤103:获取所述待存储信息所对应的至少一个第二关键词;
步骤104:根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别;
步骤105:将所述待存储信息存储到与所述目标信息类别相对应的存储空间。
本发明实施例提供了一种信息存储方法,预先创建至少两个信息类别,并分别为每一个信息类别定义相对应的第一关键词,在接收到待存储信息后,获取待存储信息对应的第二关键词,根据第二关键词和各个信息类别对应的第一关键词从各个信息类别中确定待存储信息所属的目标信息类别,进而将待存储信息存储到与目标信息类别相对应的存储空间中。由此可见,为每一个信息类别定义对应的第一关键词,获取待存储信息对应的第二关键词,通过第一关键词与第二关键词的匹配,确定待存储信息所属的信息类别,进而将待存储信息存储到所属信息类别对应的存储空间,实现了信息的分类存储,在进行大数据分析时可以选择性的对一个或多个信息类别所对应存储空间中的信息进行分析,减少对不相关信息进行分析所耗费的时间,从而可以提高大数据分析的效率。
可选地,如图1所示,在步骤101中创建至少两个信息类别后,还可以分别为每一个信息类别设置相对应的优先级,使得不同信息类别对应不同的优先级。相应地,在步骤104中确定待存储信息所属目标信息类别时,按照对应优先级从高至低的顺序,依次将各个信息类别对应的第一关键词与各个第二关键词进行对比,将所对应优先级较高且所对应各个第一关键词中存在与第二关键词相同的第一关键词的一个信息类别确定为目标信息类别。
例如,预先创建了3个信息类别,按照优先级从高至低依次为信息类别1、信息类别2和信息类别3,信息类别1对应第一关键词1至第一关键词3,信息类别2对应第一关键词4至第一关键词7,信息类别3对应第一关键词8至第一关键词10。待存储信息对应第二关键词1和第二关键词2,按照3个信息类别的优先级,首先将信息类别1对应的第一关键词1至第一关键词3与第二关键词1和第二关键词2进行对比,如果第一关键词1至第一关键词3中存在任意一个或多个第一关键词与第二关键词1或第二关键词2相同,则将信息类别1确定为目标信息类别,否则将信息类别2对应的第一关键词4至第一关键词7与第二关键词1和第二关键词2进行对比;如果第一关键词4至第一关键词7中存在任意一个或多个第一关键词与第二关键词1或第二关键词2相同,则将信息类别2确定为目标信息类别,否则将信息类别3对应的第一关键词8至第一关键词10与第二关键词1和第二关键词2进行对比;如果第一关键词8至第一关键词10中存在任意一个或多个第一关键词与第二关键词1或第二关键词2相同,则将信息类别3确定为目标信息类别。
由于待存储信息可能对应有多个第二关键词,而各个第二关键词可能分别与不同信息类别所对应的第一关键词相同,为了保证能够将待存储信息划分到一个信息类别中,为各个信息类别定义相对应的优先级。按照优先级从高至低的顺序依次将各个信息类别所对应的第一关键词与待存储信息对应的第二关键词进行对比,将存储信息划分到对应有与第二关键词相同的第一关键词且优先级较高的一个信息类别中。通过为各个信息类别设置对应的优先级,保证能够根据各个信息类别对应的第一关键词和待存储信息对应的第二关键词确定待存储信息所属的信息类别,进而可以避免待存储信息对应的第二关键词与多个信息类别所对应的第一关键词匹配成功,导致无法确定待存储信息所属信息类别的情况发送,保证可以成功实现对待存储信息进行分类存储。
可选地,如图1所示,在步骤103中获取待存储信息对应的第二关键词时,可以从待存储信息的标题中获取第二关键词。具体地,在接收到待存储信息后,获取待存储信息的标题,对获取到的标题进行拆分,获得至少两个第一拆分词,根据预先创建的停用词动态库,从各个第一拆分词中去除被记录在停用词动态库中的第一拆分词,将剩余部分的第一拆分词确定为第二关键词。
当待存储信息为资讯、宏观政策等信息时,待存储信息一般具有对应的标题,在接收待存储信息的同时可以获取到待存储信息的标题,标题集中体现了待存储信息所包括的内容。通过对待存储信息的标题进行拆封,获得多个第一拆分词,通过将各个第一拆分词与预先创建停用词动态库进行比对,可以去除已经被记录到停用词动态库中的第一拆分词,即将各个第一拆分词中没有实际含义的第一拆分词去除,将剩余部分的第一拆分词作为第二关键词。
停用词动态库中所记录的词为没有实际含义的介词、助词和动词等,比如“的”、“是”、“在”等。将没有实际含义的词记录在停用词动态库中,在将待存储信息的标题拆分成多个第一拆分词后,将各个第一拆分词与停用词动态库中记录的各个词进行比对,可以去除没有实际含义的第一拆分词,从而可以减少待存储信息所对应第二关键词的数量,进而可以缩短根据第二关键词确定待存储信息所属信息类别的时间,提高信息存储的效率。
由于待存储信息的标题通常比较短,所包括词语较少,从待存储信息的标题中获取待存储信息的第二关键词,可以缩短获取第二关键词所需要消耗的时间,从而可以缩短对待存储信息进行存储的时间,提高信息存储的效率。
可选地,如图1所示,步骤103获取待存储信息对应的第二关键词时,可以从待存储信息的正文内容中获取。具体地,对待存储信息包括的文字进行拆分,获得多个第二拆分词,将各个第二拆分词与预先创建的停用词动态库中记录的词进行比对,将被记录在停用词动态库中的第二拆分词去除后,将剩余部分的第二拆分词作为第三拆分词。针对每一个第三拆分词,根据该第三拆分词的语义贡献值、在待存储信息中的位置、词长、词性以及在待存储信息中的出现频率,计算该第三拆分词的关键度。在计算出各个第三拆分词的关键度后,将对应关键度大于预设阈值的各个第三拆分词确定为第二关键词。
针对每一个第三拆分词,可以通过如下公式计算该第三拆分词的关键度:
其中,W表征该第三拆分词的关键度;D表征该第三拆分词的语义贡献值,语义贡献值根据各个第三拆分词之间的语义相似度计算获得;L1表征该第三拆分词是否在待存储信息的段首出现,当该第三拆分词在待存储信息的段首出现时L1等于1,否则L1等于0;L2表征该第三拆分词是否在待存储信息的段中出现,当该第三拆分词在待存储信息的段中出现时L2等于1,否则L2等于0;L3表征该第三拆分词是否在待存储信息的段尾出现,当该第三拆分词在待存储信息的段尾出现时L3等于1,否则L3等于0;C表征该第三拆分词的词长;Xj表征的该第三拆分词的词性参数,xj表征与该第三拆分词的词性相对应的权重值;P表征该第三拆分词在待存储信息中出现的频率,k1、k0、l1、l2、l3、k2和k4均为常数。
首先,将待存储信息包括的文字拆分成多个第二拆分词,将第二拆分词与停用词动态库进行比对,去除各个第二拆分词中没有实际含义的第二拆分词,将剩余部分的第二拆分词作为第三拆分词进行后续处理,减少进行后续出的拆分词的数量,提高获取第二关键词的效率。
然后,在通过上述公式计算一个第三拆分词的关键度时,需要根据该第三拆分词与其他各个第三拆分词之间的相似度,计算该第三拆分词对应的语义贡献值。具体地,《哈工大信息检索研究室同义词词林扩展版》中记录中多个词语,每一个词对应有多个编码,每个编码由多位代码组成,针对任意两个记录在上述《哈工大信息检索研究室同义词词林扩展版》中的词,根据这两个词所对应的编码可以计算这两个词之间的相似度。在计算出该第三拆分词与其他各个第三拆分词的相似度之后,可以根据计算出的相似度构建相似度网络,进而根据网络中各个点的坐标可以计算出该第三拆分词居间度密度,将计算出的居间度密度作为该第三拆分词对应的语义贡献值。
然后,针对任意一个第三拆分词,该第三拆分词在待存储信息中所处的位置不同,该第三拆分词在待存储信息中的关键程度也不同,将待存储信息划分为段首、段中和段尾三个部分,为三个部分设定不同的权重值,以将该第三拆分词在待存储信息中的位置因素作为关键度计算的一个参数。具体地,将待存储信息中第二个句号之前的内容作为段首部分,将待存储信息中倒数第二个句号之后的内容作为段尾部分,将待存储信息中除上述两部分之前的内容作为段中部分。
然后,针对每一个第三拆分词,该第三拆分词的词长、词性以及在待存储信息中出现的频率均可以表征该第三拆分词的关键度。
针对每一个第三拆分词,根据该第三拆分词所对应的语义贡献值、所在位置、词长、词性以及出现频率等因素来计算该第三拆分词的关键度,进而通过关键度来从各个第三拆分词中确定第二关键词,保证确定出的各个第二关键词能够反映待存储信息所描述的内容,从而可以准确地将待存储信息存储到相关信息类别对应的存储空间,保证对信息进行分类存储的准确性。
可选地,如图1所示,步骤102接收到待存储信息后,如果待存储信息不存在相对应的第二关键词,则将接收到的待存储信息存储到预先创建的信息获取记录库中。
待存储信息不存在相对应的第二关键词,包括从待存储信息的标题中获取第二关键词时待存储信息不存在标题的情况,还包括从待存储信息所包括文字中获取第二关键词时各个第三拆分词的关键度均小于预设阈值的情况。在无法获取待存储信息所对应第二关键词的情况下,无法根据所对应第二关键词确定待存储信息所属信息类别,因此无法将待存储信息存储到相应空间中,此时将待存储信息存储到信息获取记录库中。存储到信息获取记录库中的待存储信息,后期可以根据待存储信息的来源确定待存储信息所属的信息类别,再将待存储信息转存到相对应的存储空间。
针对无法确定相对应第二关键词的待存储信息,将待存储信息存储到信息获取记录库中,后续通过人为分类等方法确定所述的信息类别,保证对信息进行分类存储的准确性。
下面以从待存储信息的标题中获取相对应第二关键词为例,对本发明实施例提供的信息存储方法作进一步详细说明,如图2所示,该方法可以包括以下步骤:
步骤201:接收待存储信息。
在本发明实施例中,接收通过从网站抓取、线下录入或文档导入等方式获取到待存储信息。
例如,通过爬取程序从政府网站、友商网站、资讯网站等抓爬与天然气相关的信息后,需要对爬取程序抓爬到的信息进行存储,即爬取程序抓爬到的信息为待存储信息,接收爬取程序发送的待存储信息。
步骤202:判断待存储信息的标题中是否包括第二关键词,如果是,执行步骤203,否则执行步骤207。
在本发明实施例中,在接收到待存储信息后,确定待存储信息是否具有标题,如果有,则进一步判断待存储信息的标题是否可以拆分出第二关键词,如果可以从待存储信息的标题中拆分出第二关键词,则相应地执行步骤203,如果待存储信息没有标题或无法从待存储信息的标题中拆分出第二关键词,则相应地执行步骤207。
步骤203:获取待存储信息对应的第二关键词。
在本发明实施例中,在接收到待存储信息后,获取待存储信息的标题,对标题进行拆分获得多个第一拆分词,分别将各个第一拆分词与停用词动态库中记录的词进行对比,将各个第一拆分词中被记录在停用词动态库中的第一拆分词去除后,将剩余部分的第一拆分词作为第二关键词。
例如,待存储信息的标题为“关于12月全国天气然价格变化的趋势分析”,将标题拆封为“关于”、“12月”、“全国”、“天然气”、“价格”、“变化”、“的”、“趋势”和“分析”这9个第一拆分析,其中停用词动态库中记录有“关于”、“全国”、“变化”、“的”和“趋势”,则将“12月”、“天然气”、“价格”和“分析”这4个第一拆分词作为待存储信息对应的第二关键词。
步骤204:按照优先级从高至低的顺序,依次将各个信息类别对应的第一关键词与各个第二关键词对比,确定目标信息类别。
在本发明实施例中,预先创建多个信息类别,并分别为每一个信息类别定义相对应的一个或多个第一关键词,使得不同信息类别对应不同的第一关键词。另外,分别为各个信息类别定义优先级,使得各个信息类别具有不同的优先级。在确定出待存储信息对应的各个第二关键词后,按照优先级从高至低的顺序,依次将各个信息类别对应的各个第一关键词与待存储信息对应的各个第二关键词进行对比,将优先级较高且所对应各个第一关键词中存在一个或多个第一关键词与待存储信息对应的第二关键词相同的一个信息类别确定为目标信息类别。如果从最高优先级到最低优先级,所有信息类别对应的各个第一关键词均不与任意一个第二关键词相同,则确定目标信息类别确定失败。
例如,预先创建了行业资讯、宏观政策和友商信息这3个信息类型,其中,行业资讯对应的第一关键词包括“天然气”、“液化气”和“气态煤”,宏观政策对应的第一关键词包括“新能源”、“清洁燃料”和“资助”,友商信息对应的第一关键词包括友商A名称、友商B名称和友商C名称。另外,按照优先级从高至低的顺序3个信息类别依次为宏观政策、行业资讯和友商信息。
按照优先级从高至低的顺序,首先将宏观政策对应的3个第一关键词与待存储信息对应的4个第二关键词对比,由于宏观政策对应的3个第一关键词中没有任何一个第一关键词与待存储信息对应的4个第二关键词相同,然后将行业资讯对应的3个第一关键词与待存储信息对应的4个第二关键词对比,由于行业资讯对应的第一关键词“天然气”与待存储信息对应的第二关键词“天然气”相同,将行业资讯确定为目标信息类别。
步骤205:判断是否成功确定出目标信息类别,如果是,执行步骤206,否则执行步骤207。
在本发明实施例中,步骤204在确定目标信息类别时,有可能会无法确定出与待存储信息相对应的目标信息类别,因此,如果成功确定出了目标信息类别则相应地执行步骤206,如果没有成功确定出目标信息类别则相应地执行步骤207。
步骤206:将待存储信息存储到目标信息类别对应的存储空间,并结束当前流程。
在本发明实施例中,每一个信息类别都均有相对应的存储空间,不同信息类别对应不同的存储空间,在成功确定出目标信息类别后,将待存储信息存储到目标信息类别对应的存储空间中。
例如,在数据库中创建有3个存储空间,分别为存储空间1、存储空间2和存储空间3,其中,存储空间1与行业资讯相对应,存储空间2与宏观政策相对应,存储空间3与友商信息相对应。在确定行业资讯为目标信息类别后,将待存储信息存储到存储空间1中。
步骤207:将待存储信息存储到信息获取记录库中。
在本发明实施例中,在无法从待存储信息的标题中获取到第二关键词时,或没有成功确定出目标信息类别时,将待存储信息存储到预先创建的信息获取记录库中。
例如,在数据库中还创建存储空间4,存储空间4用作信息获取记录库。当无法从待存储信息的标题中获取相对应的第二关键词或没有成功确定目标信息类别时,将待存储信息存储到存储空间4中。
如图3、图4所示,本发明实施例提供了一种信息存储装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的信息存储装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的信息存储装置,包括:预处理单元401、获取单元402、分类单元403和存储单元404;
预处理单元401,用于创建至少两个信息类别,并分别为每一个信息类别定义相对应的至少一个第一关键词;
获取单元402,用于接收待存储信息,并获取待存储信息所对应的至少一个第二关键词;
分类单元403,用于根据获取单元402获取到的至少一个第二关键词,以及由预处理单元401定义的每一个信息类别相对应的至少一个第一关键词,从预处理单元401创建的至少两个类别中确定待存储信息所属的目标信息类别;
存储单元404,用于将待存储信息存储到与分类单元403确定出的目标信息类别相对应的存储空间。
可选地,如图4所示,
预处理单元401,进一步用于分别为每一个信息类别设置相对应的优先级,其中,不同信息类别对应不同优先级;
分类单元403,用于按照预处理单元401所定义优先级从高至低的顺序,依次将各个信息类别对应的至少一个第一关键词与各个第二关键词进行对比,将所对应优先级较高且所对应各个第一关键词中存在与第二关键词相同的第一关键词的一个信息类别确定为目标信息类别。
可选地,如图4所示,
获取单元402,用于获取待存储信息的标题,对标题进行拆分,获得至少两个第一拆分词,根据预先创建的停用词动态库,从至少两个第一拆分词中去除被记录在停用词动态库中的第一拆分词,将剩余的至少一个第一拆分词确定为第二关键词。
可选地,在图4所示信息存储装置的基础上,如图5所示,获取单元402包括:拆分子单元4021、筛选子单元4022、计算子单元4023和执行子单元4024;
拆分子单元4021,用于对待存储信息包括的文字进行拆分,获得至少两个第二拆分词;
筛选子单元4022,用于根据预先创建的停用词动态库,从拆分子单元4021获得的至少两个第二拆分词中去除被记录在停用词动态库中的第二拆分词,将剩余的各个第二拆分词作为第三拆分词;
计算子单元4023,用于针对筛选子单元4022确定出的每一个第三拆分词,根据第三拆分词对应的语义贡献值、在待存储信息中的位置、词长、词性及出现频率,通过如下公式计算第三拆分词的关键度:
其中,W表征第三拆分词的关键度;D表征第三拆分词的语义贡献值,语义贡献值根据各个第三拆分词之间的语义相似度计算获得;L1表征第三拆分词是否在待存储信息的段首出现,当第三拆分词在待存储信息的段首出现时L1等于1,否则L1等于0;L2表征第三拆分词是否在待存储信息的段中出现,当第三拆分词在待存储信息的段中出现时L2等于1,否则L2等于0;L3表征第三拆分词是否在待存储信息的段尾出现,当第三拆分词在待存储信息的段尾出现时L3等于1,否则L3等于0;C表征第三拆分词的词长;Xj表征的第三拆分词的词性参数,xj表征与第三拆分词的词性相对应的权重值;P表征第三拆分词在待存储信息中出现的频率,k1、k0、l1、l2、l3、k2和k4均为常数;
执行子单元4024,用于根据计算子单元4023的计算结果,将对应关键度大于预设阈值的各个第三拆分词确定为第二关键词。
可选地,如图4或图5所示,
存储单元404,进一步用于在获取单元402没有获取到与待存储信息相对应的第二关键词时,将待存储信息存储到预先创建的信息获取记录库中。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述各个实施例提供的信息存储方法。
本发明实施例还提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述各个实施例提供的信息存储方法。
综上所述,本发明各个实施例提供的信息存储方法及装置,至少具有如下有益效果:
1、在本发明实施例中,预先创建至少两个信息类别,并分别为每一个信息类别定义相对应的第一关键词,在接收到待存储信息后,获取待存储信息对应的第二关键词,根据第二关键词和各个信息类别对应的第一关键词从各个信息类别中确定待存储信息所属的目标信息类别,进而将待存储信息存储到与目标信息类别相对应的存储空间中。由此可见,为每一个信息类别定义对应的第一关键词,获取待存储信息对应的第二关键词,通过第一关键词与第二关键词的匹配,确定待存储信息所属的信息类别,进而将待存储信息存储到所属信息类别对应的存储空间,实现了信息的分类存储,在进行大数据分析时可以选择性的对一个或多个信息类别所对应存储空间中的信息进行分析,减少对不相关信息进行分析所耗费的时间,从而可以提高大数据分析的效率。
2、在本发明实施例中,通过为各个信息类别设置对应的优先级,保证能够根据各个信息类别对应的第一关键词和待存储信息对应的第二关键词确定待存储信息所属的信息类别,进而可以避免待存储信息对应的第二关键词与多个信息类别所对应的第一关键词匹配成功,导致无法确定待存储信息所属信息类别的情况发送,保证可以成功实现对待存储信息进行分类存储。
3、在本发明实施例中,由于待存储信息的标题通常比较短,所包括词语较少,从待存储信息的标题中获取待存储信息的第二关键词,可以缩短获取第二关键词所需要消耗的时间,从而可以缩短对待存储信息进行存储的时间,提高信息存储的效率。
4、在本发明实施例中,针对每一个第三拆分词,根据该第三拆分词所对应的语义贡献值、所在位置、词长、词性以及出现频率等因素来计算该第三拆分词的关键度,进而通过关键度来从各个第三拆分词中确定第二关键词,保证确定出的各个第二关键词能够反映待存储信息所描述的内容,从而可以准确地将待存储信息存储到相关信息类别对应的存储空间,保证对信息进行分类存储的准确性。
5、在本发明实施例中,针对无法确定相对应第二关键词的待存储信息,将待存储信息存储到信息获取记录库中,后续通过人为分类等方法确定所述的信息类别,保证对信息进行分类存储的准确性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种信息存储方法,其特征在于,创建至少两个信息类别,并分别为每一个所述信息类别定义相对应的至少一个第一关键词,还包括:
接收待存储信息;
获取所述待存储信息所对应的至少一个第二关键词;
根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别;
将所述待存储信息存储到与所述目标信息类别相对应的存储空间。
2.根据权利要求1所述的方法,其特征在于,
在所述创建至少两个信息类别之后,进一步包括:分别为每一个所述信息类别设置相对应的优先级,其中,不同所述信息类别对应不同优先级;
所述根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别,包括:
按照对应优先级从高至低的顺序,依次将各个所述信息类别对应的所述至少一个第一关键词与各个所述第二关键词进行对比;
将所对应优先级较高,并且所对应各个所述第一关键词中存在与所述第二关键词相同的所述第一关键词的一个所述信息类别确定为所述目标信息类别。
3.根据权利要求1所述的方法,其特征在于,所述获取所述待存储信息所对应的至少一个第二关键词,包括:
获取所述待存储信息的标题;
对所述标题进行拆分,获得至少两个第一拆分词;
根据预先创建的停用词动态库,从所述至少两个第一拆分词中去除被记录在所述停用词动态库中的所述第一拆分词,将剩余的至少一个所述第一拆分词确定为所述第二关键词。
4.根据权利要求1所述的方法,其特征在于,所述获取所述待存储信息所对应的至少一个第二关键词,包括:
对所述待存储信息包括的文字进行拆分,获得至少两个第二拆分词;
根据预先创建的停用词动态库,从所述至少两个第二拆分词中去除被记录在所述停用词动态库中的所述第二拆分词,将剩余的各个所述第二拆分词作为第三拆分词;
针对每一个所述第三拆分词,根据所述第三拆分词对应的语义贡献值、在所述待存储信息中的位置、词长、词性及出现频率,通过如下公式计算所述第三拆分词的关键度:
其中,所述W表征所述第三拆分词的关键度;所述D表征所述第三拆分词的语义贡献值,所述语义贡献值根据各个所述第三拆分词之间的语义相似度计算获得;所述L1表征所述第三拆分词是否在所述待存储信息的段首出现,当所述第三拆分词在所述待存储信息的段首出现时所述L1等于1,否则所述L1等于0;所述L2表征所述第三拆分词是否在所述待存储信息的段中出现,当所述第三拆分词在所述待存储信息的段中出现时所述L2等于1,否则所述L2等于0;所述L3表征所述第三拆分词是否在所述待存储信息的段尾出现,当所述第三拆分词在所述待存储信息的段尾出现时所述L3等于1,否则所述L3等于0;所述C表征所述第三拆分词的词长;所述Xj表征所述的第三拆分词的词性参数,所述xj表征与所述第三拆分词的词性相对应的权重值;所述P表征所述第三拆分词在所述待存储信息中出现的频率,所述k1、k0、l1、l2、l3、k2和k4均为常数;
将对应所述关键度大于预设阈值的各个所述第三拆分词确定为所述第二关键词。
5.根据权利要求1至4中任一所述的方法,其特征在于,在所述接收待存储信息之后,进一步包括:
如果所述待存储信息不存在相对应的所述第二关键词,将所述待存储信息存储到预先创建的信息获取记录库中。
6.一种信息存储装置,其特征在于,包括:预处理单元、获取单元、分类单元和存储单元;
所述预处理单元,用于创建至少两个信息类别,并分别为每一个所述信息类别定义相对应的至少一个第一关键词;
所述获取单元,用于接收待存储信息,并获取所述待存储信息所对应的至少一个第二关键词;
所述分类单元,用于根据所述获取单元获取到的所述至少一个第二关键词,以及由所述预处理单元定义的每一个所述信息类别相对应的所述至少一个第一关键词,从所述预处理单元创建的所述至少两个类别中确定所述待存储信息所属的目标信息类别;
所述存储单元,用于将所述待存储信息存储到与所述分类单元确定出的所述目标信息类别相对应的存储空间。
7.根据权利要求6所述的装置,其特征在于,
所述预处理单元,进一步用于分别为每一个所述信息类别设置相对应的优先级,其中,不同所述信息类别对应不同优先级;
所述分类单元,用于按照所述预处理单元所定义优先级从高至低的顺序,依次将各个所述信息类别对应的所述至少一个第一关键词与各个所述第二关键词进行对比,将所对应优先级较高且所对应各个所述第一关键词中存在与所述第二关键词相同的所述第一关键词的一个所述信息类别确定为所述目标信息类别。
8.根据权利要求6所述的装置,其特征在于,
所述获取单元,用于获取所述待存储信息的标题,对所述标题进行拆分,获得至少两个第一拆分词,根据预先创建的停用词动态库,从所述至少两个第一拆分词中去除被记录在所述停用词动态库中的所述第一拆分词,将剩余的至少一个所述第一拆分词确定为所述第二关键词。
9.根据权利要求6所述的装置,其特征在于,所述获取单元包括:拆分子单元、筛选子单元、计算子单元和执行子单元;
所述拆分子单元,用于对所述待存储信息包括的文字进行拆分,获得至少两个第二拆分词;
所述筛选子单元,用于根据预先创建的停用词动态库,从所述拆分子单元获得的所述至少两个第二拆分词中去除被记录在所述停用词动态库中的所述第二拆分词,将剩余的各个所述第二拆分词作为第三拆分词;
所述计算子单元,用于针对所述筛选子单元确定出的每一个所述第三拆分词,根据所述第三拆分词对应的语义贡献值、在所述待存储信息中的位置、词长、词性及出现频率,通过如下公式计算所述第三拆分词的关键度:
其中,所述W表征所述第三拆分词的关键度;所述D表征所述第三拆分词的语义贡献值,所述语义贡献值根据各个所述第三拆分词之间的语义相似度计算获得;所述L1表征所述第三拆分词是否在所述待存储信息的段首出现,当所述第三拆分词在所述待存储信息的段首出现时所述L1等于1,否则所述L1等于0;所述L2表征所述第三拆分词是否在所述待存储信息的段中出现,当所述第三拆分词在所述待存储信息的段中出现时所述L2等于1,否则所述L2等于0;所述L3表征所述第三拆分词是否在所述待存储信息的段尾出现,当所述第三拆分词在所述待存储信息的段尾出现时所述L3等于1,否则所述L3等于0;所述C表征所述第三拆分词的词长;所述Xj表征所述的第三拆分词的词性参数,所述xj表征与所述第三拆分词的词性相对应的权重值;所述P表征所述第三拆分词在所述待存储信息中出现的频率,所述k1、k0、l1、l2、l3、k2和k4均为常数;
所述执行子单元,用于根据所述计算子单元的计算结果,将对应所述关键度大于预设阈值的各个所述第三拆分词确定为所述第二关键词。
10.根据权利要求6至9中任一所述的装置,其特征在于,
所述存储单元,进一步用于在所述获取单元没有获取到与所述待存储信息相对应的所述第二关键词时,将所述待存储信息存储到预先创建的信息获取记录库中。
CN201711406090.4A 2017-12-22 2017-12-22 一种信息存储方法及装置 Pending CN108133009A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711406090.4A CN108133009A (zh) 2017-12-22 2017-12-22 一种信息存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711406090.4A CN108133009A (zh) 2017-12-22 2017-12-22 一种信息存储方法及装置

Publications (1)

Publication Number Publication Date
CN108133009A true CN108133009A (zh) 2018-06-08

Family

ID=62392235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711406090.4A Pending CN108133009A (zh) 2017-12-22 2017-12-22 一种信息存储方法及装置

Country Status (1)

Country Link
CN (1) CN108133009A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959645A (zh) * 2018-07-28 2018-12-07 安徽赛迪信息技术有限公司 一种政策法规收集分析系统
CN109597986A (zh) * 2018-10-16 2019-04-09 深圳壹账通智能科技有限公司 异常问题的定位方法、装置、设备及存储介质
CN117035406A (zh) * 2023-07-31 2023-11-10 北京华夏电通科技股份有限公司 审判流程智能管控方法、装置和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN104216979A (zh) * 2014-09-01 2014-12-17 西北工业大学 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN107368489A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN104216979A (zh) * 2014-09-01 2014-12-17 西北工业大学 中文工艺专利自动分类系统及利用该系统进行专利分类的方法
CN107368489A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种资讯数据处理方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959645A (zh) * 2018-07-28 2018-12-07 安徽赛迪信息技术有限公司 一种政策法规收集分析系统
CN109597986A (zh) * 2018-10-16 2019-04-09 深圳壹账通智能科技有限公司 异常问题的定位方法、装置、设备及存储介质
CN117035406A (zh) * 2023-07-31 2023-11-10 北京华夏电通科技股份有限公司 审判流程智能管控方法、装置和设备

Similar Documents

Publication Publication Date Title
US10430469B2 (en) Enhanced document input parsing
US8027834B2 (en) Technique for training a phonetic decision tree with limited phonetic exceptional terms
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
US20190129942A1 (en) Methods and systems for automatically generating reports from search results
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
CN106682097A (zh) 一种处理日志数据的方法和装置
JPWO2020037217A5 (zh)
CN108875040A (zh) 词典更新方法及计算机可读存储介质
JP2004005648A (ja) 自然言語理解システムに関するトレーニングデータの自動注釈付けのための方法およびユーザインターフェース
CN108133009A (zh) 一种信息存储方法及装置
CN109885828A (zh) 基于语言模型的词语纠错方法、装置、计算机设备及介质
CN110032859A (zh) 异常帐户鉴别方法与装置及介质
CN113361258A (zh) 基于图卷积网络和选择注意力的方面级情感分析方法及系统
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN111860981B (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
JP2016201112A (ja) ウェブページ処理装置及びウェブページ処理方法
JP2007157058A (ja) 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN109189675A (zh) 大数据架构软件测试方法、装置、计算机设备和存储介质
CN104580109A (zh) 生成点选验证码的方法及装置
US6889219B2 (en) Method of tuning a decision network and a decision tree model
CN110309214A (zh) 一种指令执行方法及其设备、存储介质、服务器
CN110309513A (zh) 一种文本依存分析的方法和装置
Sleeman et al. Discovering scientific influence using cross-domain dynamic topic modeling
CN114141235A (zh) 语音语料库生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180608

RJ01 Rejection of invention patent application after publication