CN109670183B - 一种文本重要性的计算方法、装置、设备和存储介质 - Google Patents

一种文本重要性的计算方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109670183B
CN109670183B CN201811573594.XA CN201811573594A CN109670183B CN 109670183 B CN109670183 B CN 109670183B CN 201811573594 A CN201811573594 A CN 201811573594A CN 109670183 B CN109670183 B CN 109670183B
Authority
CN
China
Prior art keywords
text
importance
score
file
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811573594.XA
Other languages
English (en)
Other versions
CN109670183A (zh
Inventor
万月亮
韩石磊
火一莽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201811573594.XA priority Critical patent/CN109670183B/zh
Publication of CN109670183A publication Critical patent/CN109670183A/zh
Application granted granted Critical
Publication of CN109670183B publication Critical patent/CN109670183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本重要性的计算方法、装置、设备和存储介质,该方法包括:获取文本文件库中多个文本文件的文本内容和文本版式;提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;根据内容重要性得分和版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。本发明实施例的技术方案,根据文本内容和文本版式实现了各个文本重要性的分析,有效的获取到所需的文本文件,在避免人工筛选过程的同时,提高了文本文件的筛选准确率。

Description

一种文本重要性的计算方法、装置、设备和存储介质
技术领域
本发明实施例涉及信息检索和信息分类领域,尤其涉及一种文本重要性的计算方法、装置、设备和存储介质。
背景技术
随着科技的快速发展以及互联网技术的普及,文本文件的数量与日俱增,因此,如何在众多文本文件中筛选出最重要的一个或多个文件就变得尤为重要。
现有技术中,通常利用信息检索和信息分类技术对文本文件进行筛选,判定其重要性,以最常见的词频-逆向文件频率方法为例,通过构造与行业类型、业务类型或分类类型等相关的关键词,计算该关键词在各个文本文件中的出现频率,以及包含该关键词的文本文件数量在整个文本文件数据库中的占比来判断各个文本文件在这个关键词下的重要性,继而对多个文本文件进行重要性排序。
发明人在实现本发明的过程中,发现现有技术有如下缺陷:现有技术中,对于文本重要性的判定完全依赖于文本内容本身,常常会导致筛选后获得的文件并不是想要获取的目标文件,使得文本重要性的判断出现偏差。例如,用户想要获取各种法律文件,将“法律”定义为关键词,可能获取到的文件是一个或多个其它类型文件,只是因为这个文件本身较多次出现了“法律”这个关键字,所以获取到的目标文件并不准确。
发明内容
本发明实施例提供了一种文本重要性的计算方法、装置、设备和存储介质,以优化现有的文本重要性的确定技术,提高对用户实际需要的文本文件的命中准确性。
第一方面,本发明实施例提供了一种文本重要性的计算方法,该方法包括:
获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式;
提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;
根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;
根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;
根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
第二方面,本发明实施例还提供了一种文本重要性的计算装置,该装置包括:
文本文件获取模块,用于获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式;
目标文件集提取模块,用于提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;
内容重要性得分计算模块,用于根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;
版式重要性得分计算模块,用于根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;
重要性排序模块,用于根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明任意实施例所述的文本重要性的计算方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任意实施例所述的文本重要性的计算方法。
本发明通过对文本文件库中多个文本文件的读取,并根据内容得分规则和版式得分规则,获取到对应的内容重要性得分和版式重要性得分,进而对各文本文件进行重要性排序。避免了完全依赖文本内容而导致的判定偏差,避免了人工筛选、过滤和判断的繁琐过程,提高了对用户实际需要的文本文件的命中准确率,使得用户迅速、高效的获取到最需要的文本文件。
附图说明
图1是本发明实施例一中的一种文本重要性的计算方法的流程图;
图2是本发明实施例二中的一种文本重要性的计算方法的流程图;
图3是本发明实施例三中的一种文本重要性的计算方法的流程图;
图4是本发明实施例四中的一种文本重要性的计算装置的结构框图;
图5是本发明实施例五中的一种文本重要性的计算设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本重要性的计算方法的流程图,本实施例可适用于计算文本文件的重要性的情况,该方法可以由文本重要性的计算装置来执行,该装置可以通过软件和/或硬件实现,并一般可以集成在对一个或者多个文本文件计算文本重要性的计算设备中,该方法具体包括如下步骤:
S110、获取多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式。
文本文件是一种由若干行字符构成的计算机文件,存在于计算机文件系统中,一般通过在文本文件最后一行后放置文件结束标志来指明文件的结束。对应不同的应用软件,文本文件有很多种不同的格式,例如:ASCll、MIME、*.txt等等。在本发明实施例中,对文本文件的格式不作限定。
自然语言,即人们日常使用的语言。自然语言处理,即实现人与计算机之间的自然语言通信。利用计算机识别技术识别出各文本文件中的文本内容和文本版式。
文本内容包括了文本文件中包含的字、词、句子、标点、符号和字母等与内容相关的参数;文本版式包括字体类型、字体大小和字体颜色等与版式相关的参数。
在很多标准的文本文件中,其版式相对固定,例如,带有大红字标题和红色印章的文件、声明、公告、公式类等政策文件,其标题的字体类型一般为仿宋、字体颜色为红色、字体大小为三号字等,可以根据对字体版式的设定,作为获取目标文件的判定准则之一。
在本发明实施例中,可选的,可以根据需要只获取每个文本文件特定部分的文本版式,例如,大红字标题一般出现在首页,而红色印章一般出现在末页结尾处,因此可以获取每个文本文件首页的文本版式,和/或获取每个文本文件末页的文本版式;如果预先定义了关键词集合,该关键词集合包括一个或多个关键词,还可以只获取每个文本文件中各关键词的版式,不包含任何关键词的文本文件则不需要获取文本版式。
S120、提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分。
将多个文本文件中的全部,或多个文本文件中的部分,定义为一个目标文件集。如果把全部文本文件定义为一个目标文件集,则是对全部文本文件均进行后续操作;如果把部分文本文件定义为一个目标文件集,则只是对该部分文本文件进行后续操作。
S130、根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分。
在本发明实施例中,可选的,内容得分规则与获取到的关键词集合相关。关键词集合中包括至少一个关键词,关键词可以根据行业类型、业务类型或分类类型的不同要求而设定,关键词可以是字、词、句子、标点、符号和字母等与文本内容相关的参数。
在发明本实施例中,可选的,对于关键词集合,根据词频-逆向文件频率方法,计算目标文件集中的各文本文件的内容重要性得分。词频(Term Frequency,简称TF),表示该关键词在该文本文件在中出现的频率。例如,关键词为“法律”,“法律”在文本文件A中出现了5次,而文本文件A中共有100个字,那么TF为5/100=0.05,特别的,也可以将文本文件A中包括的词语总数作为分母,例如文本文件A中包括60个词语,那么TF值为5/60=0.12。IDF逆向文件频率(Inverse Document Frequency,简称IDF),是关键词普遍重要性的度量,如果包含该关键词的文档越少,那么IDF越大,说明该关键词具有很好的区别特征,IDF可以由文本文件总数除以包括该关键词的文本文件数目,再将得到的商除以10为底的对数得到,例如,文本文件总数为100,文本内容包括“法律”的文本文件数目为10,经过计算IDF值为
Figure BDA0001916129950000062
特别的,为了避免IDF计算时分母为零,也可以先将包括该关键词的文本文件数目加1,再除全部文本文件总数;最后将IF乘以IDF,得到该文本文件内容重要性得分,例如上述文本文件A,在关键词为“法律”的前提下,内容重要性得分为0.05×1=0.05,特别的,当关键词集合包括多个关键词时,内容重要性得分为多个关键词经过TF-IDF计算后得到数值的累加,例如,关键词集合除了包括“法律”外,还包括“政策”,而在上述文本文件A中,“政策”出现了3次,那么TF为3/100=0.03,全部文本文件中包括“政策”的文本文件数目为1,那么IDF值为/>
Figure BDA0001916129950000061
IF乘以IDF为0.06,上述文本文件A,在关键词集合为“法律”和“政策”的前提下,内容重要性得分为0.05+0.06=0.11。
S140、根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分。
在本发明实施例中,可选的,文本版式包括:字体类型、字体大小、字体颜色中的至少一个,并根据如下公式计算目标文件集中各文本文件的版式重要性得分:
版式重要性得分=字体类型得分×字体类型权重+字体大小得分×字体大小权重+字体颜色得分×字体颜色权重。
特别的,当一个文本文件中包括多种字体时,获取该文本文件中字体版式得分最高的作为版式重要性得分。
例如:定义字体类型为宋体和仿宋时,字体类型得分分别为9和10分;定义字体大小为四号字和三号字时,则字体大小得分分别为9分和10分;定义字体颜色为黑色和红色时,则字体颜色得分分别为9分和10分;定义字体类型权重、字体大小权重、字体颜色权重分别为0.8、0.9和1。一个文本文件中包括两种字体,一种是宋体四号字黑色,其字体版式得分为26.1分,一种是宋体三号字红色,其字体版式得分为27分,则该文本文件的版式重要性得分为27分。
S150、根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
在本发明实施例中,可选的,根据如下公式对所述目标文件集中各文本文件进行重要性的排序:
重要性得分=内容重要性得分×内容权重+版式重要性得分×版式权重
重要性得分越高,则该文本文件重要性越高,重要性得分越低,则该文本文件重要性越低。
特别的,内容权重和版式权重可以根据需要设定,可以设定相同值,也可以设定不同值。
在本发明实施例中,可选的,为了保证文本文件库的信息完整性,文本文件库中的文件数量可以是动态的,不定期的会有若干新的文本文件加入到文本文件库中。在检测到所述文本文件库中动态增加与所述目标文件集匹配的至少一个新的文本文件时,根据所述新的文本文件的文本内容和文本版式,计算与每个新的文本文件对应的内容重要性得分以及版式重要性得分;根据计算得到的所述内容重要性得分以及版式重要性得分,将所述新的文本文件与所述目标文件集中的原始文件进行重要性排序。
特别的,文本文件库中文本文件总数的计算方式可以根据需要设定。例如,文本文件库中的文件数量可以按月调整,每个月新加入的文本文件不计入当月总数,计入下个月的总数中。例如,文本文件库原有1000个文本文件,当月有5个新的文本文件加入,在当月计算重要性得分时,文本文件总数依然看作是1000个,在下个月计算重要性得分时,文本文件总数调整为1005个。由于文本文件总数发生了变化,对于已经存在于文本文件库中的这1005个文件,下个月需要重新计算IDF数值,并更新对应的重要性得分,进而再进行重要性的排序。
特别的,在保证文本文件库信息完整性的同时,也为了保证文本文件库中信息的时效性,不定期的有若干新的文本文件加入到文本文件库中,也可以有若干旧的文本文件不定期的从文本文件库中移除。而文本文件库中文本文件总数的计算方式也同样可以根据需要设定。例如,文本文件库中只保留最近12个月加入的文本文件,例如,今年8月份统计文本文件库中文本文件的总数,是根据去年8月份至今年7月份,这12个月份里加入到文本文件库中的文本文件的数量之和;还可以文本文件库中保留当年以及上一个自然年加入的所有文本文件,例如,今年8月份统计文本文件库中文本文件的总数,是根据去年1月至12月以及今年1月份至7月份里加入到文本文件库中的文本文件的数量之和。同样,由于文本文件总数发生了变化,对于已经存在于文本文件库中的各个文件,下个月也需要重新计算IDF数值,并更新对应的重要性得分,进而再进行重要性的排序。
本发明实施例的技术方案通过对文本文件库中多个文本文件的读取,并根据内容得分规则和版式得分规则,获取到对应的内容重要性得分和版式重要性得分,进而对各文本文件进行重要性排序。避免了完全依赖文本内容而导致的判定偏差,避免了人工筛选、过滤和判断的繁琐过程,提高了对用户实际需要的文本文件的命中准确率,使得用户迅速、高效的获取到最需要的文本文件。
实施例二
图2为本发明实施例二提供的一种文本重要性的计算方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,只获取包括至少一个关键词的文本文件作为目标文件集,并根据关键词集合计算内容得分和版式得分。相应的,本实施例的方法具体包括如下操作:
S210、获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式。
S220、获取关键词集合;将文本内容中包括所述至少一个关键词的文本文件加入至目标文件集中,所述关键词集合中包括至少一个关键词。
例如,上述关键词集合只包括一个关键词“法律”,全部文本文件总数为100,文本内容“法律”的文本文件数量为10,那么只将这10个文本文件加入至目标文件集。
S230、根据关键词集合,计算所述目标文件集中各文本文件的内容重要性得分。
S240、根据所述至少一个关键词计算所述目标文件集中各文本文件的版式重要性得分。
因为在S220中,加入目标文件集中的文件都是包括所述至少一个关键词的文本文件,因此根据关键词的版式来计算各文本文件的版式重要性得分。
例如,上述文本文件A中,关键词“法律”出现了5次,包括了两种不同的版式,一种是宋体四号字黑色,其字体版式得分为26.1分,一种是宋体三号字红色,其字体版式得分为27分,则该文本文件的版式重要性得分为所有“法律”版式中的最高值27分。特别的,当关键词集合包括多个关键词时,取各关键词对应的字体版式得分中的最高值,例如,关键词还包括“政策,”上述文本文件A中“政策”出现了3次,均为宋体四号字黑色,其字体版式得分为26.1分,取各关键词对应的字体版式得分中的最高值27分作为文本文件A的版式重要性得分。
S250、根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
本发明实施例的技术方案只获取包括至少一个关键词的文本文件作为目标文件集,并根据内容得分规则和版式得分规则,获取到对应的内容重要性得分和版式重要性得分,进而有针对性的对包括至少一个关键词的各个文本文件进行重要性排序,在过滤掉大部分无用文件的同时,又综合内容和版式两个因素,确定了各文本文件的重要性高低,避免了完全依赖文本内容而导致的判定偏差,避免了人工筛选、过滤和判断的繁琐过程,提高了对用户实际需要的文本文件的命中准确率,使得用户迅速、高效的获取到最需要的文本文件。
实施例三
图3为本发明实施例三提供的一种文本重要性的计算方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,获取全部文本文件作为目标文件集,根据获取的关键词集合计算内容得分,根据设定规则计算版式得分。相应的,本实施例的方法具体包括如下操作:
S310、获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式。
S320、获取关键词集合;提取所述多个文本文件中的全部文本文件构成所述目标文件集。
目标文件集的选取与关键词无关,例如,上述关键词集合只包括一个关键词“法律”,全部文本文件总数为100,文本内容“法律”的文本文件数量为10,那么只将全部100份文本文件加入至目标文件集。
S330、根据关键词集合,计算所述目标文件集中各文本文件的内容重要性得分。
S340、根据设定规则计算所述目标文件集中各文本文件的版式重要性得分。
在S320中,将全部文本文件加入目标文件集中,因此根据设定规则来计算各文本文件的版式重要性得分,设定规则可以根据需要设定,例如,将各文本文件标题或首页中出现的字体版式得分最高的值作为该文本文件的版式重要性得分。
以上述用户获取法律文件为例,关键字定义为“法律”,但一个文本文件中不包括“法律”两字,但其文件类型却与法律相关或相似,比如,带有大红字标题和红色印章的文件、声明、公告、公式类等政策文件,虽然不是直接相关的法律,但也是具有法律效益的,因此,在进行信息检索和筛选时,虽然不包含相关的关键词,但根据版式重要性得分依然可以获得较高的重要性。
S350、根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
本发明实施例的技术方案获取全部文本文件作为目标文件集,并根据内容得分规则和版式得分规则,获取到对应的内容重要性得分和版式重要性得分,进而对全部文本文件进行重要性排序,对于不包含关键字的文本文件,依然可能由于文本版式符合要求,获得较高的重要性得分,避免了遗漏相关文本文件,保证了相关文件的完整性,同时综合内容和版式两个因素,确定了全部文本文件的重要性高低,避免了完全依赖文本内容而导致的文件遗漏,避免了人工筛选、过滤和判断的繁琐过程,提高了对用户实际需要的文本文件的命中准确率,使得用户迅速、高效的获取到最需要的文本文件。
实施例四
图4为本发明实施例四提供的一种文本重要性的计算装置的结构示意图。本实施例可适用计算文本重要程度,该装置可采用软件和/或硬件的方式实现,该装置可集成在任何提供文本重要性的计算功能的设备中,如图4所示,文本重要性的计算装置具体包括:文本文件获取模块410、目标文件集提取模块420、内容重要性得分计算模块430、版式重要性得分计算模块440和重要性排序模块450。
文本文件获取模块410,用于获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式;
目标文件集提取模块420,用于提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;
内容重要性得分计算模块430,用于根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;
版式重要性得分计算模块440,用于根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;
重要性排序模块450,用于根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
本发明实施例的技术方案通过对文本文件库中多个文本文件的读取,并根据内容得分规则和版式得分规则,获取到对应的内容重要性得分和版式重要性得分,进而对各文本文件进行重要性排序。避免了完全依赖文本内容而导致的判定偏差,避免了人工筛选、过滤和判断的繁琐过程,提高了对用户实际需要的文本文件的命中准确率,使得用户迅速、高效的获取到最需要的文本文件。
在上述各实施例的基础上,目标文件集提取模块420,具体用于:
获取关键词集合;并将文本内容中包括所述至少一个关键词的文本文件加入至所述目标文件集中,所述关键词集合中包括至少一个关键词;或者
提取所述多个文本文件中的全部文本文件构成所述目标文件集。
在上述各实施例的基础上,文本文件获取模块410,具体用于:
获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式,所述文本版式,包括字体类型、字体大小和字体颜色中的至少一项。
在上述各实施例的基础上,版式重要性得分计算模块440,具体用于:
根据如下公式计算目标文件集中各文本文件的版式重要性得分:
版式重要性得分=字体类型得分×字体类型权重+字体大小得分×字体大小权重+字体颜色得分×字体颜色权重。
在上述各实施例的基础上,重要性排序模块450,具体用于:
根据如下公式对所述目标文件集中各文本文件进行重要性的排序:
重要性得分=内容重要性得分×内容权重+版式重要性得分×版式权重。
在上述各实施例的基础上,版式重要性得分计算模块440,具体用于:
如果所述目标文件集为所述文本内容中包括所述至少一个关键词的文本文件,则根据所述至少一个关键词计算所述目标文件集中各文本文件的版式重要性得分。
在上述各实施例的基础上,版式重要性得分计算模块440,具体用于:
如果所述目标文件集为所述多个文本文件中的全部文本文件,则根据设定规则计算所述目标文件集中各文本文件的版式重要性得分。
上述装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的方法。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的文本重要性的计算方法:获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式;提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的文本重要性的计算方法:
获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式;
提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;
根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;
根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;
根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种文本重要性的计算方法,其特征在于,包括:
获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式;所述文本版式,包括下述至少一项:字体类型、字体大小和字体颜色;
提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;
根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;
根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;
根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序;
其中,所述根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分,包括:
根据如下公式计算所述目标文件集中各文本文件的版式重要性得分:
版式重要性得分=字体类型得分×字体类型权重+字体大小得分×字体大小权重+字体颜色得分×字体颜色权重。
2.根据权利要求1所述的方法,其特征在于,提取所述多个文本文件中的目标文件集,包括:
获取关键词集合;其中,所述关键词集合中包括至少一个关键词;
将文本内容中包括所述至少一个关键词的文本文件加入至所述目标文件集中;或者
提取所述多个文本文件中的全部文本文件构成所述目标文件集。
3.根据权利要求1所述的方法,其特征在于,根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序,包括:
根据如下公式对所述目标文件集中各文本文件进行重要性的排序:
重要性得分=内容重要性得分×内容权重+版式重要性得分×版式权重。
4.根据权利要求2所述的方法,其特征在于,根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分,还包括:
如果所述目标文件集为所述文本内容中包括所述至少一个关键词的文本文件,则根据所述至少一个关键词计算所述目标文件集中各文本文件的版式重要性得分。
5.根据权利要求2所述的方法,其特征在于,根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分,包括:
如果所述目标文件集为所述多个文本文件中的全部文本文件,则根据设定规则计算所述目标文件集中各文本文件的版式重要性得分。
6.根据权利要求1所述的方法,其特征在于,还包括:
在检测到所述文本文件库中动态增加与所述目标文件集匹配的至少一个新的文本文件时,根据所述新的文本文件的文本内容和文本版式,计算与每个新的文本文件对应的内容重要性得分以及版式重要性得分;
根据计算得到的所述内容重要性得分以及版式重要性得分,将所述新的文本文件与所述目标文件集中的原始文件进行重要性排序。
7.一种文本重要性的计算装置,其特征在于,包括:
文本文件获取模块,用于获取文本文件库中多个文本文件,并对多个所述文本文件进行自然语言处理,获取每个文本文件的文本内容和文本版式;所述文本版式,包括下述至少一项:字体类型、字体大小和字体颜色;
目标文件集提取模块,用于提取所述多个文本文件中的目标文件集,所述目标文件集为所述多个文本文件中的全部或者部分;
内容重要性得分计算模块,用于根据内容得分规则,计算所述目标文件集中各文本文件的内容重要性得分;
版式重要性得分计算模块,用于根据版式得分规则,计算所述目标文件集中各文本文件的版式重要性得分;
重要性排序模块,用于根据所述内容重要性得分和所述版式重要性得分,对所述目标文件集中各文本文件进行重要性的排序;
版式重要性得分计算模块,具体用于:
根据如下公式计算所述目标文件集中各文本文件的版式重要性得分:
版式重要性得分=字体类型得分×字体类型权重+字体大小得分×字体大小权重+字体颜色得分×字体颜色权重。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的文本重要性的计算方法。
9.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的文本重要性的计算方法。
CN201811573594.XA 2018-12-21 2018-12-21 一种文本重要性的计算方法、装置、设备和存储介质 Active CN109670183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811573594.XA CN109670183B (zh) 2018-12-21 2018-12-21 一种文本重要性的计算方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811573594.XA CN109670183B (zh) 2018-12-21 2018-12-21 一种文本重要性的计算方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN109670183A CN109670183A (zh) 2019-04-23
CN109670183B true CN109670183B (zh) 2023-03-24

Family

ID=66145778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811573594.XA Active CN109670183B (zh) 2018-12-21 2018-12-21 一种文本重要性的计算方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN109670183B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489539A (zh) * 2019-08-21 2019-11-22 北京航空航天大学 基于文档的智能办公文件推送技术
CN112995243A (zh) * 2019-12-02 2021-06-18 重庆市科学技术研究院 一种基于大数据的政策信息推送方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) * 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN104050163A (zh) * 2013-03-11 2014-09-17 捷达世软件(深圳)有限公司 内容推荐系统及方法
CN105653737A (zh) * 2016-03-01 2016-06-08 广州神马移动信息科技有限公司 用于内容文档排序的方法、设备和电子设备
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309347A (ja) * 2005-04-26 2006-11-09 Saga Univ 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN104050163A (zh) * 2013-03-11 2014-09-17 捷达世软件(深圳)有限公司 内容推荐系统及方法
CN105653737A (zh) * 2016-03-01 2016-06-08 广州神马移动信息科技有限公司 用于内容文档排序的方法、设备和电子设备
CN108287927A (zh) * 2018-03-05 2018-07-17 北京百度网讯科技有限公司 用于获取信息的方法及装置

Also Published As

Publication number Publication date
CN109670183A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
US10095780B2 (en) Automatically mining patterns for rule based data standardization systems
US9411790B2 (en) Systems, methods, and media for generating structured documents
US9881037B2 (en) Method for systematic mass normalization of titles
US10755045B2 (en) Automatic human-emulative document analysis enhancements
US9720912B2 (en) Document management system, document management method, and document management program
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US10445063B2 (en) Method and apparatus for classifying and comparing similar documents using base templates
US11734782B2 (en) Automated document analysis for varying natural languages
US20180300323A1 (en) Multi-Factor Document Analysis
US11393237B1 (en) Automatic human-emulative document analysis
US10528609B2 (en) Aggregating procedures for automatic document analysis
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN111259160A (zh) 知识图谱构建方法、装置、设备及存储介质
US20150286706A1 (en) Forensic system, forensic method, and forensic program
CN115687655A (zh) 一种基于pdf文档的知识图谱构建方法、系统、设备及存储介质
CN113761334A (zh) 一种可视化推荐方法、装置、设备和存储介质
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
US11676231B1 (en) Aggregating procedures for automatic document analysis
CN111046627A (zh) 一种中文文字显示方法及系统
WO2019136920A1 (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN107145947B (zh) 一种信息处理方法、装置及电子设备
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
US10002450B2 (en) Analyzing a document that includes a text-based visual representation
CN111931480A (zh) 文本主要内容的确定方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant