CN113836272A - 关键信息的展示方法、系统、计算机设备及可读存储介质 - Google Patents

关键信息的展示方法、系统、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN113836272A
CN113836272A CN202111151063.3A CN202111151063A CN113836272A CN 113836272 A CN113836272 A CN 113836272A CN 202111151063 A CN202111151063 A CN 202111151063A CN 113836272 A CN113836272 A CN 113836272A
Authority
CN
China
Prior art keywords
target
word
target word
hash
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111151063.3A
Other languages
English (en)
Inventor
温永杰
袁旭嵩
肖丽娜
郭玉龙
戴伊澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Asset Management Co Ltd
Original Assignee
Ping An Asset Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Asset Management Co Ltd filed Critical Ping An Asset Management Co Ltd
Priority to CN202111151063.3A priority Critical patent/CN113836272A/zh
Publication of CN113836272A publication Critical patent/CN113836272A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种关键信息的展示方法,所述展示方法包括:对用户输入的关键词进行搜索,以获取与关键词关联的多个文档;对多个文档进行分词处理,获取到多个目标单词;在哈希加链表中查询各个目标单词的目标数据结果集;根据各个目标单词及各个目标单词的目标数据结果集,构建倒排索引表;根据各个目标单词在哈希加链表中的出现频数及权重值,对倒排索引表中的各个目标单词排序;根据排序结果,对高于预设阈值的目标单词进行索引以获取多个文档中的多个目标文档,将多个目标文档作为关键信息进行展示;本发明通过权重值和在哈希加链表出现的频数展示排序靠前的若干个与关键词关联的关键信息,提高了获取关键信息的效率,降低了计算机的能耗。

Description

关键信息的展示方法、系统、计算机设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及关键信息的展示方法、系统、计算机设备及可读存储介质。
背景技术
现有的搜索引擎在互联网广泛运用,例如金融领域的银行流水查询、银行交易数据查询等,当用户在搜索引擎上输入关键词,系统根据关键词查询到相关的数据,通过现有的数据挖掘手段和自然语言处理方法,无法针对如文本报告之类的非结构化数据进行精确查询,提取到有价值的数据,而针对此类文本报告,如需提取有价值的信息,往往需要花费海量的筛选才能获取到有用的信息。
发明内容
本发明的目的是提供一种关键信息的展示方法、系统、计算机设备及可读存储介质,用于解决以下问题:提高了关键信息的获取效率。
本发明实施例的一个方面提供了一种关键信息的展示方法,所述展示方法包括:
对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;
对所述多个文档进行分词处理,获取到多个目标单词;
在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;
根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;
获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;
根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
可选地,所述数据结果集包括所述各个目标单词对应的文档编号、所述各个目标单词在一个文档中出现的频数以及所述各个目标单词在对应文档中的位置。
可选地,在所述对所述多个文档进行分词处理,获取到多个目标单词的步骤之后,还包括:根据预设正则表达式对各个目标单词的数据格式进行校验;若目标单词满足预设正则表达式的校验规则,则得到校验成功的结果。
可选地,所述在哈希加链表中查询各个目标单词的目标数据结果集的步骤,包括:通过哈希函数获取所述各个目标单词的哈希值;在所述哈希加链表中读取所述各个目标单词的哈希值的指针,其中一个哈希值对应一个指针;通过所述各个目标单词的哈希值的指针,定位到所述各个目标单词对应的冲突链表;根据所述各个目标单词对应的冲突链表,获取所述各个目标单词的目标数据结果集。
可选地,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序,对所述倒排索引表中的各个单词排序的步骤,包括:将所述关键词作为聚类中心,计算所述各个目标单词与所述聚类中心的距离;所述各个目标单词与所述聚类中心的距离,将所述多个目标单词划分为第一单词集合和第二单词集合,其中,第一单词集合中的各个目标单词与所述聚类中心的距离小于预设距离,第二单词集合中的各个目标单词与所述聚类中心的距离不小于预设距离;将第一单词集合中的各个目标单词的权重值设置为第一数值;将第二单词集合中的各个目标单词的权重值设置为第二数值,所述第一数值大于所述第二数值;根据所述各个目标单词在所述哈希加链表中出现的频数以及各个单词的权重值,计算所述各个目标单词的重要性排序值;对所述各个目标单词的重要性排序值,对所述各个目标单词进行排序。
可选地,所述计算所述各个目标单词的重要性排序值的步骤,包括:通过以下公式计算所述各个目标单词的重要性排序值:
Ri=σ1Mi2Pi
其中,所述Ri表示单词i的重要性排序值,所述σ1表示所述各个目标单词在所述哈希加链表中出现的频数所占的比重;所述σ2表示所述各个目标单词的权重所占的比重,其中σ12=1;Mi表示单词i在所述哈希表中出现的频数;Pi表示单词i的权重值。
可选地,所述倒排索引表中包括所述多个目标单词对应的单词编号、所述多个目标单词以及所述各个目标单词对应的目标数据结果集。
本发明实施例的一个方面又提供了一种关键信息的展示系统,所述展示系统包括:
搜索模块,用于对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;
分词模块,用于对所述多个文档进行分词处理,获取到多个目标单词;
查询模块,用于在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;
构建模块,用于根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;
排序模块,用于获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;
展示模块,用于根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
本发明实施例的一个方面又提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述关键信息的展示方法的步骤。
本发明实施例的一个方面又提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述关键信息的展示方法的步骤。
本发明实施例提供的关键信息的展示方法、系统、计算机设备及可读存储介质;本实施例首先通过关键词进行模糊搜索,获取多个文档,然后通过多个文档更新哈希加链表,通过哈希加链表获取数据结果集,通过数据结果集构建倒排索引表,然后对索引表中的单词进行重要性排序,通过权重值和在哈希加链表出现的频数展示排序靠前的若干个与关键词关联的关键信息,提高了获取关键信息的效率,降低了计算机的能耗。
附图说明
图1示意性示出了根据本发明实施例一的关键信息的展示方法的流程图;
图2示意性示出了图1中的步骤S102的子步骤图;
图3示意性示出了图1中的步骤S104的子步骤图;
图4示意性示出了根据本发明实施例二的关键信息的展示系统的框图;及
图5示意性示出了根据本发明实施例三的适于实现关键信息的展示方法的计算机设备的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明提供的关键信息的展示方案可用于金融技术领域的银行流水明细审计场景、或者基于司法案件的批量银行交易数据查询场景中。
下面将以数字计算机为执行主体对本发明提供的关键信息的展示方案进行示例性描述。
实施例一
图1示意性示出了根据本发明实施例一的关键信息的展示方法的流程图。
如图1所示,该关键信息的展示方法可以包括步骤S100~S105,其中:
步骤S100,对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档。
作为优选方案,首先通过用户输入的关键词在数据库中进行搜索,返回批量数据;其中批量数据可以包括多个文档,文档(Document):一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖更多种形式,比如Word,PDF,html,XML等不同格式的文件都可以称之为文档。再比如一封邮件,一条短信,一条微博也可以称之为文档。
步骤S101,对所述多个文档进行分词处理,获取到多个目标单词。
作为优选方案,基本的数据类型包括,布尔型、字节型、短整型、整型、长整型、字符型、单精度浮点型、双精度浮点型;在对关键词进行索引之前,需要使用分词器进行分词,分词的目的是为了搜索。分词的主要过程就是先分词后过滤。其中分词和过滤的过程如下所示。
分词:采集到的数据会存储到文档的域中,分词就是将文档中域的value值切分成一个一个的词。
过滤:包括去除标点符号过滤、去除停用词过滤(的、是、a、an、the等)、大写转小写、词的形还原(复数形式转成单数形参、过去式转成现在式)等。
步骤S102:在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集。
作为优选方案,哈希加链表包括哈希表、指针以及多个冲突链表,其中每个哈希表包括多个关键码值以及多个指针,其中每个关键码值(即哈希值)对应一个指针,每个指针指向一个冲突链表,冲突链表中的数据结果集包括有单词对应的数据信息。
作为优选方案,所述数据结果集包括所述各个目标单词对应的文档编号、所述各个目标单词在一个文档中出现的频数以及所述各个目标单词在对应文档中的位置。
作为优选方案,文档编号(Document ID):在搜索引擎内部,会将文档集合内每个文档赋予一个唯一的内部编号,以此编号来作为这个文档的唯一标识,这样方便内部处理,每个文档的内部编号即称之为“文档编号”;例如现有一个文档“男生喜欢穿黑色鞋子和黑色袜子”,假设上述文档的文档编号是5,将上述文档进行分词处理后变成“男生”“喜欢”“黑色”“鞋子”“和”“袜子”;在上述文档中,单词“黑色”出现的频率是2,单词黑色在文档中的位置是4和6,则单词黑色对应的目标数据结果集是(5;2;<4>;<7>)。
在所述对所述多个文档进行分词处理,获取到多个目标单词的步骤之后,还包括:
步骤S201:根据预设正则表达式对各个目标单词的数据格式进行校验;若目标单词满足预设正则表达式的校验规则,则得到校验成功的结果。
作为优选方案,数据校验的目的是为了验证数据的格式是否正确,例如现有的预设正则表达式为电子邮箱,电子邮箱格式中包括一个@符号,在@后有一个或者多个“.”用于分隔域名后缀;因此,电子邮箱的正则表达式为:\w+([_-.]\w+)*@\w+([_-.]\w+)*\.\w+([_-.]\w+)*,通过电子邮箱的正则表达式对各个单词中进行读取,若目标单词满足电子邮箱正则表达式的校验规则,则得到校验成功的结果。
作为优选方案,如图2所示,所述在哈希加链表中查询各个目标单词的目标数据结果集的步骤,包括:
步骤S102-1:通过哈希函数获取所述各个目标单词的哈希值;
步骤S102-2:在所述哈希加链表中读取所述各个目标单词的哈希值对应的指针,其中一个哈希值对应一个指针;
步骤S102-3:通过所述各个目标单词的哈希值的指针,定位到所述各个目标单词对应的冲突链表;
步骤S102-4:根据所述各个目标单词对应的冲突链表,获取所述各个目标单词的目标数据结果集。
作为优选方案,在解析一个新文档时,对于某个在文档中出现的单词M,首先利用哈希函数获得单词M的哈希值,然后根据单词M的哈希值在哈希表中读取对应的指针,通过指针指引就找到了对应的冲突链表。如果冲突链表里已经存在这个单词,说明单词在之前解析的文档里已经出现过。如果在冲突链表里没有发现这个单词,说明该单词是首次碰到,则将其加入冲突链表里,从而完成哈希表的更新。通过上述方式,当所述多个文档解析完毕时,相应的哈希加链表也就建立起来了。
步骤S103:根据所述各个目标单词及各个目标单词的目标数据结果集,构建倒排索引表。
作为优选方案,所述倒排索引表包括所述多个目标单词对应的单词编号、所述多个目标单词以及所述各个目标单词对应的目标数据结果集。
示例性地,假设现有三个文档,第一个文档内容是“男生喜欢穿黑色鞋子和黑色袜子”,文档编号为1;第二个文档内容是“男生喜欢白色衬衫和灰色帽子”,文档编号为2;第三个文档内容是“男生喜欢黑色和白色的搭配风格”,文档编号为3;上述三个文档进行分词处理后分别为“男生”、“喜欢”、“穿”、“黑色”、“鞋子”、“和”、“袜子”“白色”“搭配风格”“衬衫”“灰色”“帽子”;根据分词的信息生成如下倒排索引表:
Figure BDA0003287109220000091
Figure BDA0003287109220000101
步骤S104:获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序。
作为优选方案,目标单词在哈希加链表中出现的频数越大,可能表示目标单词与关键词的关联性越强,为了进一步精确的对各个目标单词进行排序,从而筛选出关键信息,本实施例在频数的基础上引入了各个目标单词的权重值,而权重值的确定方法可通过相似度算法,计算各个目标单词与关键词之间的相似度,将目标单词划为两类,其中获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,如图3所示,对所述倒排索引表中的各个目标单词排序的步骤如下:
步骤S104-1:将所述关键词作为聚类中心,计算所述各个目标单词与所述聚类中心的距离;
步骤S104-2:所述各个目标单词与所述聚类中心的距离,将所述多个目标单词划分为第一单词集合和第二单词集合,其中,第一单词集合中的各个目标单词与所述聚类中心的距离小于预设距离,第二单词集合中的各个目标单词与所述聚类中心的距离不小于预设距离;
步骤S104-3:将第一单词集合中的各个目标单词的权重值设置为第一数值;
步骤S104-4:将第二单词集合中的各个目标单词的权重值设置为第二数值,所述第一数值大于所述第二数值;
步骤S104-5:根据所述各个目标单词在所述哈希加链表中出现的频数以及各个单词的权重值,计算所述各个目标单词的重要性排序值;
步骤S104-6:对所述各个目标单词的重要性排序值,对所述各个目标单词进行排序。
示例性地,单词“男生”和“黑色”在上述倒排索引表中出现的总频率均为3,假设用户输入的关键词为“男人”;将“男人”作为聚类中心,计算“黑色”与“男人”之间的距离,计算“男生”与“男人”之间的距离;“男生”与“男人”之间的距离小于预设距离,将“男生”作为第一单词集合中的目标单词;“黑色”与“男人”之间的距离不小于预设距离,将“黑色”作为第二单词集合中的目标单词;假设赋予“男生”的第一数值为1;赋予“黑色”的第二数值为0.5,即可通过上述第一数值和第二数值计算单词“男生”以及“黑色”的重要性排序值。
其中,计算所述各个目标单词的重要性排序值的步骤如下:
步骤S104-5A:通过以下公式计算所述各个目标单词的重要性排序值:
Ri=σ1Mi2Pi
其中,所述Ri表示单词i的重要性排序值,所述σ1表示所述各个目标单词在所述哈希加链表中出现的频数所占的比重;所述σ2表示所述各个目标单词的权重所占的比重,其中σ12=1;Mi表示单词i在所述哈希表中出现的频数;Pi表示单词i的权重值。
示例性的,单词“黑色”的权重值为0.5,单词“黑色”在上述倒排索引表中出现的频数为3,假设目标单词在所述哈希加链表中出现的频数对重要性排序值的影响和目标单词权重对重要性排序值影响相同,即σ1、σ2的值均为0.5,即可计算出“男生”的重要性排序值R男生为2,“黑色”的重要性排序值R黑色为1.75,即“男生”的排名在“黑色”之前。
步骤S105:根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
示例性的,在现有的四个文档中,第一个文档内容是“男生喜欢穿黑色鞋子和白色袜子”;第二个文档内容是“女生喜欢白色衬衫和灰色帽子”;第三个文档内容是“女生喜欢黑色和白色的搭配风格”;假设预设阀值为1.1,计算出单词“黑色”的重要性排序值为1.25,“男生”的重要性排序值为1,重要性排序值大于1.1的单词是“黑色”,即可索引出关于“黑色”的文档:“男生喜欢穿黑色鞋子和白色袜子”和“女生喜欢黑色和白色的搭配风格”进行展示。
本实施例首先在数据库中进行模糊搜索,搜索出与关键词相关的批量数据,然后进行分词处理;去除冗余信息,然后进行数据校验,以保证数据的完整性;然后根据切分出的多个单词,刷新哈希加链表,通过哈希加链表提取出与多个单词关联的数据结果集,根据数据结果集以及多个单词构建倒排索引表,对倒排索引表的单词进行重要性排序,从而筛选出排序靠前的若干个与关键词关联的关键单词,通过关键单词索引出关键信息,提高了提取关键信息的效率,降低了计算机的能耗。
实施例二
图2示意性示出了根据本发明的关键信息的展示系统的框图,该展示系统可以被分割成程序模块,一个或者多个程序模块被存储于存储介质中,并由处理器所执行,以完成本发明实施例。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。
如图2所示,该关键信息的展示系统130可以包括搜索模块131、分词模块132、查询模块133、构建模块134、排序模块135、展示模块136。其中:
搜索模块131,用于对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;
分词模块132,用于对所述多个文档进行分词处理,获取到多个目标单词;
查询模块133,用于在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;
构建模块134,用于根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;
排序模块135,用于获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;
展示模块136,用于根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
作为优选方案,所述查询模块133还用于根据预设正则表达式对各个目标单词的数据格式进行校验;若目标单词满足预设正则表达式的校验规则,则得到校验成功的结果。
作为优选方案,所述查询模块133还用于通过哈希函数获取所述各个目标单词的哈希值;在所述哈希加链表中读取所述各个目标单词的哈希值对应的指针,其中一个哈希值对应一个指针;通过所述各个目标单词的哈希值的指针,定位到所述各个目标单词对应的冲突链表;根据所述各个目标单词对应的冲突链表,获取所述各个目标单词的目标数据结果集。
作为优选方案,所述排序模块135还用于将所述关键词作为聚类中心,计算所述各个目标单词与所述聚类中心的距离;所述各个目标单词与所述聚类中心的距离,将所述多个目标单词划分为第一单词集合和第二单词集合,其中,第一单词集合中的各个目标单词与所述聚类中心的距离小于预设距离,第二单词集合中的各个目标单词与所述聚类中心的距离不小于预设距离;将第一单词集合中的各个目标单词的权重值设置为第一数值;将第二单词集合中的各个目标单词的权重值设置为第二数值,所述第一数值大于所述第二数值;根据所述各个目标单词在所述哈希加链表中出现的频数以及各个单词的权重值,计算所述各个目标单词的重要性排序值;对所述各个目标单词的重要性排序值,对所述各个目标单词进行排序。
作为优选方案,所述排序模块135还用于通过以下公式计算所述各个目标单词的重要性排序值:
Ri=σ1Mi2Pi
其中,所述Ri表示单词i的重要性排序值,所述σ1表示所述各个目标单词在所述哈希加链表中出现的频数所占的比重;所述σ2表示所述各个目标单词的权重所占的比重,其中σ12=1;Mi表示单词i在所述哈希表中出现的频数;Pi表示单词i的权重值。
实施例三
图3示意性示出了根据本发明实施例三的适于实现关键信息的展示方法的计算机设备6的硬件架构示意图。本实施例中,计算机设备6是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)、网关等。如图3所示,计算机设备6至少包括但不限于:可通过系统总线相互通信链接存储器141、处理器142、网络接口143。其中:
存储器141至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器141可以是计算机设备6的内部存储模块,例如该计算机设备6的硬盘或内存。在另一些实施例中,存储器141也可以是计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(SmartMedia Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器141还可以既包括计算机设备6的内部存储模块也包括其外部存储设备。本实施例中,存储器141通常用于存储安装于计算机设备6的操作系统和各类应用软件,例如关键信息的展示方法的程序代码等。此外,存储器141还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器142在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器142通常用于控制计算机设备6的总体操作,例如执行与计算机设备6进行数据交互或者通信相关的控制和处理等。本实施例中,处理器142用于运行存储器141中存储的程序代码或者处理数据。
网络接口143可包括无线网络接口或有线网络接口,该网络接口143通常用于在计算机设备6与其他计算机设备之间建立通信链接。例如,网络接口143用于通过网络将计算机设备6与外部终端相连,在计算机设备6与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件141-143的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器141中的关键信息的展示方法还可以被分割为一个或者多个程序模块,并由处理器(本实施例为处理器142)所执行,以完成本发明实施例。
实施例四
本发明还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的关键信息的展示方法的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中异常账号的识别方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种关键信息的展示方法,其特征在于,所述展示方法包括:
对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;
对所述多个文档进行分词处理,获取到多个目标单词;
在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;
根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;
获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;
根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
2.根据权利要求1所述的关键信息的展示方法,其特征在于,所述数据结果集包括所述各个目标单词对应的文档编号、所述各个目标单词在一个文档中出现的频数以及所述各个目标单词在对应文档中的位置。
3.根据权利要求1所述的关键信息的展示方法,其特征在于,在所述对所述多个文档进行分词处理,获取到多个目标单词的步骤之后,还包括:
根据预设正则表达式对各个目标单词的数据格式进行校验;
若目标单词满足预设正则表达式的校验规则,则得到校验成功的结果。
4.根据权利要求1所述的关键信息的展示方法,其特征在于,所述在哈希加链表中查询各个目标单词的目标数据结果集的步骤,包括:
通过哈希函数获取所述各个目标单词的哈希值;
在所述哈希加链表中读取所述各个目标单词的哈希值对应的指针,其中一个哈希值对应一个指针;
通过所述各个目标单词的哈希值的指针,定位到所述各个目标单词对应的冲突链表;
根据所述各个目标单词对应的冲突链表,获取所述各个目标单词的目标数据结果集。
5.根据权利要求1所述的关键信息的展示方法,其特征在于,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序的步骤,包括:
将所述关键词作为聚类中心,计算所述各个目标单词与所述聚类中心的距离;
所述各个目标单词与所述聚类中心的距离,将所述多个目标单词划分为第一单词集合和第二单词集合,其中,第一单词集合中的各个目标单词与所述聚类中心的距离小于预设距离,第二单词集合中的各个目标单词与所述聚类中心的距离不小于预设距离;
将第一单词集合中的各个目标单词的权重值设置为第一数值;
将第二单词集合中的各个目标单词的权重值设置为第二数值,所述第一数值大于所述第二数值;
根据所述各个目标单词在所述哈希加链表中出现的频数以及各个单词的权重值,计算所述各个目标单词的重要性排序值;
对所述各个目标单词的重要性排序值,对所述各个目标单词进行排序。
6.根据权利要求5所述的关键信息的展示方法,其特征在于,所述计算所述各个目标单词的重要性排序值的步骤,包括:
通过以下公式计算所述各个目标单词的重要性排序值:
Ri=σ1Mi2Pi
其中,所述Ri表示单词i的重要性排序值,所述σ1表示所述各个目标单词在所述哈希加链表中出现的频数所占的比重;所述σ2表示所述各个目标单词的权重所占的比重,其中σ12=1;Mi表示单词i在所述哈希表中出现的频数;Pi表示单词i的权重值。
7.根据权利要求1所述的关键信息的展示方法,其特征在于,所述倒排索引表中包括所述多个目标单词对应的单词编号、所述多个目标单词以及所述各个目标单词对应的目标数据结果集。
8.一种关键信息的展示系统,其特征在于,所述展示系统包括:
搜索模块,用于对用户输入的关键词进行搜索,以获取与所述关键词关联的多个文档;
分词模块,用于对所述多个文档进行分词处理,获取到多个目标单词;
查询模块,用于在哈希加链表中查询各个目标单词的目标数据结果集;所述哈希加链表包括多个指针以及多个冲突链表,每个指针对应于一个冲突链表,每个冲突链表包括哈希值相同的多个单词以及所述多个单词中的各个单词对应的数据结果集;
构建模块,用于根据所述各个目标单词及所述各个目标单词的目标数据结果集,构建倒排索引表;
排序模块,用于获取各个目标单词的权重值,根据所述各个目标单词在所述哈希加链表中的出现频数及权重值,对所述倒排索引表中的各个目标单词排序;
展示模块,用于根据排序结果,对高于预设阈值的目标单词进行索引以获取所述多个文档中的多个目标文档,将所述多个目标文档作为关键信息进行展示。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时用于实现权利要求1~7中任一项所述的关键信息的展示方法的步骤。
10.一种计算机可读存储介质,其特征在于,其内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行权利要求1~7中任一项所述的关键信息的展示方法的步骤。
CN202111151063.3A 2021-09-29 2021-09-29 关键信息的展示方法、系统、计算机设备及可读存储介质 Pending CN113836272A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111151063.3A CN113836272A (zh) 2021-09-29 2021-09-29 关键信息的展示方法、系统、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111151063.3A CN113836272A (zh) 2021-09-29 2021-09-29 关键信息的展示方法、系统、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113836272A true CN113836272A (zh) 2021-12-24

Family

ID=78967268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111151063.3A Pending CN113836272A (zh) 2021-09-29 2021-09-29 关键信息的展示方法、系统、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113836272A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009384A (zh) * 2023-09-27 2023-11-07 湖南立人科技有限公司 一种基于快速检索算法的列表查询方法
CN116821940B (zh) * 2023-08-23 2024-02-13 青岛阿斯顿工程技术转移有限公司 一种培训考核数据智能采集方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821940B (zh) * 2023-08-23 2024-02-13 青岛阿斯顿工程技术转移有限公司 一种培训考核数据智能采集方法
CN117009384A (zh) * 2023-09-27 2023-11-07 湖南立人科技有限公司 一种基于快速检索算法的列表查询方法
CN117009384B (zh) * 2023-09-27 2023-12-19 湖南立人科技有限公司 一种基于快速检索算法的列表查询方法

Similar Documents

Publication Publication Date Title
CN109871428B (zh) 用于确定文本相关度的方法、装置、设备和介质
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
CN101978348B (zh) 管理关于近似串匹配的档案
US20200327172A1 (en) System and method for processing contract documents
EP2092419B1 (en) Method and system for high performance data metatagging and data indexing using coprocessors
CN113836272A (zh) 关键信息的展示方法、系统、计算机设备及可读存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN111797245B (zh) 基于知识图谱模型的信息匹配方法及相关装置
US20130282727A1 (en) Unexpectedness determination system, unexpectedness determination method and program
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN110909536A (zh) 用于自动生成产品的文章的系统和方法
CN106815265B (zh) 裁判文书的搜索方法及装置
CN111209396A (zh) 实体识别模型的训练方法及实体识别方法、相关装置
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN111428503A (zh) 同名人物的识别处理方法及处理装置
TW202123026A (zh) 資料歸檔方法、裝置、電腦裝置及存儲介質
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
CN116450916A (zh) 基于定段分级的信息查询方法、装置、电子设备及介质
CN111985836B (zh) 医保评分指标体系构建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination