CN114662474A - 关键词的确定方法、装置、电子设备及存储介质 - Google Patents

关键词的确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114662474A
CN114662474A CN202210384645.4A CN202210384645A CN114662474A CN 114662474 A CN114662474 A CN 114662474A CN 202210384645 A CN202210384645 A CN 202210384645A CN 114662474 A CN114662474 A CN 114662474A
Authority
CN
China
Prior art keywords
keyword
event
total number
determining
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210384645.4A
Other languages
English (en)
Other versions
CN114662474B (zh
Inventor
莫坤东
王思远
周家林
张灵
苏煜鋆
蔡奉君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210384645.4A priority Critical patent/CN114662474B/zh
Publication of CN114662474A publication Critical patent/CN114662474A/zh
Application granted granted Critical
Publication of CN114662474B publication Critical patent/CN114662474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种关键词的确定方法、装置、电子设备及存储介质,所述方法包括:确定与待监控业务相关联的第一关键词集合;根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,预设时段预先划分为多个时间区段;从每个文本中提取得到至少一个第二关键词,得到第二关键词集合;确定每个第二关键词的重复出现次数和所对应的目标时间区段的总数量;根据每个第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定第二关键词对应的事件是否为偶发事件;从第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;根据至少一个第三关键词,搜索包含第三关键词的文本信息。

Description

关键词的确定方法、装置、电子设备及存储介质
技术领域
本申请属于数据处理技术领域,具体涉及一种关键词的确定方法、装置、电子设备及存储介质。
背景技术
关键词是对文本主题信息的精炼,高度概括了文本的主要内容,能帮助用户快速理解文本的主旨,易于使用户判断出文本是否为自己所需的内容,从而提高信息访问和信息搜索的效率,常用于信息检索、文档归类、文档内容快速理解等。
在相关技术中,通常采用有监督和无监督两种模型训练方式提取关键词,其中无监督方式常用基于逆文档权重和词频的关键词提取方式和基于词图模型的关键词提取方式;有监督方式通常是将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定标签,判断候选词是否为关键词,最后训练关键词抽取分类器。
上述关键词的提取方式仅能够提取普通关键词,并不能够准确快速地挖掘与待监控业务有关的偶发事件。
发明内容
本申请实施例提供一种关键词的确定方法、装置、电子设备及存储介质,以解决相关技术中不能准确快速地挖掘与待监控业务有关的偶发事件的问题。
第一方面,本申请实施例提供了一种关键词的确定方法,该方法包括:确定与待监控业务相关联的第一关键词集合,其中,所述第一关键词集合中包括至少一个第一关键词;根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,其中所述预设时段预先划分为多个时间区段;从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,其中,所述第一关键词集合为所述第二关键词集合的子集;确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,其中,所述目标时间区段为所述第二关键词出现的时间区段,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数或在每个时间区段出现的重复次数;根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件;从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息。
第二方面,本申请实施例提供了一种关键词的确定装置,该装置包括:第一确定模块,用于确定与待监控业务相关联的第一关键词集合,其中,所述第一关键词集合中包括至少一个第一关键词;第一搜索模块,用于根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,其中所述预设时段预先划分为多个时间区段;提取模块,用于从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,其中,所述第一关键词集合为所述第二关键词集合的子集;第二确定模块,用于确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,其中,所述目标时间区段为所述第二关键词出现的时间区段,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数或在每个时间区段出现的重复次数;第三确定模块,用于根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件筛选模块,用于从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;第二搜索模块,用于根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
在本申请实施例中,通过确定与待监控业务相关联的第一关键词集合;根据第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,预设时段预先划分为多个时间区段;从每个文本中提取得到至少一个第二关键词,得到第二关键词集合;确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量;根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定第二关键词对应的事件是否为偶发事件;从第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;根据至少一个第三关键词,搜索包含第三关键词的文本信息。由于第二关键词出现的时间区段的总数量和重复出现次数均与第二关键词出现的频率相关,且第二关键词出现的频率能够对检测第二关键词对应的事件是否为偶发事件提供参考,从而使得通过第二关键词出现的时间区段的总数量和重复出现次数检测第二关键词对应的事件是否为偶发事件时能够提高检测的准确性,进而能够提高从第二关键词集合中筛选得到对应事件为偶发事件的第三关键词的准确性;此外,由于第一关键词集合与待监控业务相关联,使得根据第一关键词集合搜索出的多个文本均与待监控业务相关联,由此可以确定从文本中提取得到的第二关键词同样与待监控业务相关联,并可以确定所筛选出的第三关键词同样与待监控业务相关联,此时根据至少一个第三关键词,得到第三关键词的文本信息,实现了准确、快速地挖掘与待监控业务有关的偶发性的事件,从而使得能够在系统中准确监控与待监控业务相关的偶发性的事件。
附图说明
图1是本申请实施例提供的一种关键词的确定方法的流程示意图;
图2是本申请实施例提供的另一种关键词的确定方法的流程示意图;
图3是本申请实施例提供的一种关键词的确定方法的场景示意图;
图4是本申请实施例提供的另一种关键词的确定方法的流程示意图;
图5是本申请实施例提供的关键词的确定装置的结构示意图;
图6是本申请的实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的关键词的确定方法、装置、电子设备及存储介质进行详细地说明。
其中,关键词的确定方法应用于业务监控客户端,该业务监控客户端可以为业务监控应用,例如监控客户端,能够实现对业务的监控。如图1所示,该方法包括如下步骤:
步骤102:确定与待监控业务相关联的第一关键词集合。
具体的,业务监控客户端可以先确定待监控业务,然后确定与该待监控业务相关联的第一关键词集合,其中第一关键词集合中包括至少一个第一关键词。
与待监控业务相关联的关键词,可以是指与待监控业务有联系的,能够搜索、理解、概括待监控业务的关键词。
通过确定与待监控业务相关联的第一关键词集合,能够通过该第一关键词集合搜索与待监控业务相关的文本。
步骤104:根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本。
具体的,业务监控客户端可以根据第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,当然此时每个所述文本中包括至少一个所述第一关键词。由于第一关键词与待监控业务相关联,这使得根据第一关键词集合所搜索得到的文本同样与待监控业务相关联。
数据库可以是业务监控客户端本地的数据库,还可以是业务监控客户端能够进行通信的公共数据库,在此并不对此进行具体限定。
此外,预设时段预先划分为多个时间区段。
具体的,多个时间区段的划分方式可以包括:按照预设间隔对所述预设时段进行划分,或者按照所述待检测文本的数量对所述预设时段进行划分。
例如,作为一个示例,假设预设时段为30天,预设间隔为1天,则可以以天为时间间隔对预设时段进行划分,即将预设时间段划分为30个时间区段。当然可以理解的是,还可以采用其他预设间隔对预设时段进行划分,例如以小时为时间间隔对预设时段进行划分等,上述示例中的划分方式仅为举例。
作为另一个示例,假设预设时段为30天,待检测文本的数量为N个,则可以将N/30的值确定为所划分的时间区段的数量。
步骤106:从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合。
具体的,业务监控客户端在获取文本后,还可以从每个文本中提取至少一个第二关键词,得到第二关键词集合,从而为筛选偶发事件提供数据支撑。
其中,所述第一关键词集合为所述第二关键词集合的子集,即第二关键词集合不仅包括第一关键词,还包括其他关键词。
由于第一关键词集合与待监控业务相关联,使得根据第一关键词集合搜索出的多个文本均与待监控业务相关联,由此可以确定从文本中提取得到的第二关键词集合同样与待监控业务相关联。
步骤108:确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量。
其中,目标时间区段为第二关键词出现的时间区段,重复出现次数包括第二关键词在预设时段内出现的总重复次数或在每个时间区段出现的重复次数。
具体的,由于预设时段划分为多个时间区段,则预设时段内的多个文本可以按照多个时间区段进行划分,得到每个时间区段所对应的文本,文本所对应的时间区段即为该文本中第二关键词所对应的时间区段。基于此可以确定每个第二关键词所对应的目标时间区段,从而确定目标时间区段的总数量。
例如,作为一个示例,假设预设时段为30天,文本A为出现在第一天中的文本,文本B为出现在第二天中的文本,文本C为出现在第三天中的文本。若按照天为时间间隔划分为30个时间区段,则文本A所属的时间区段为第一天,文本B所属的时间区段为第二天,文本C所属的时间区段为第三天;相应的,文本A中的第二关键词所属的目标时间区段为第一天,文本B中的第二关键词所属的目标时间区段为第二天,文本C中的第二关键词所属的目标时间区段为第三天。
此外,每个第二关键词在预设时段内出现的总重复次数,指每个第二关键词在所有的文本中出现的总次数。例如,针对第二关键词Wi,假设所有的文本中该第二关键词Wi总共出现了M次,则第二关键词Wi在预设时段内出现的总重复次数为M。
每个第二关键词在每个时间区段出现的重复次数,指每个第二关键词在每个时间区段所对应的文本中出现的总次数。例如,针对第二关键词Wi,假设第一个时间区段的文本中该第二关键词Wi总共出现了Q次,则第二关键词 Wi在第一个时间区段内出现的重复次数为Q。
例如,作为一个示例,假设关键词Wi所属的目标时间区段包括第一天、第二天、第三天、第四天和第五天,则确定关键词Wi所对应的目标时间区段的总数量为5,假设Wi在第一天内重复出现了10次,在第二天内重复出现了 20次,在第三天内重复出现了5次,在第四天内重复出现了5次,在第五天内重复出现了10次,则该关键词Wi在预设时段内出现的总重复次数为50,在每个时段区段出现的重复次数即为上述每天重复出现的次数。
这样,通过确定每个第二关键词所对应的目标时间区段的总数量和重复出现次数,能够为检测对应事件为偶发事件的关键词提供数据支撑。
步骤110:根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件。
具体的,业务监控客户端根据每个第二关键词所对应的目标时间区段的总数量和重复出现次数,可以检测第二关键词对应的事件是否为偶发事件。
偶发事件是指在某种过程中遇到的事先难以预料、出现频率较低,但必须迅速作出处理的事件。偶发事件的显著特征为触发条件不可控,难以追溯原因,发生概率低。偶发事件具有偶然性、突发性、爆炸性、紧迫性等特点。例如:事件A,系统宕机超n小时;事件B,应用数据库被物理删除等。
具体的,作为一个示例,例如针对事件A:通常情况下系统宕机后会启动重启程序,使得系统宕机后可以立即重启,即系统宕机不会超过n小时,超过 n小时只是极小概率能发生的情况,因此在系统宕机超n小时时,可以确定系统宕机超n小时为偶发事件,n的取值可以视情况而定。
作为另一个示例,针对事件B:应用数据库用于存储数据,通常情况下为了保证系统的正常运作,与系统有关的应用数据库不会被物理删除,且大多数人不具有对应用数据库的操作权限,进一步保证了应用数据库不会被删除,而极小概率可能会出现有权限人员误删除的情况,因此,当应用数据库被物理删除时,可以确定应用数据库被物理删除为偶发事件。
这样,通过根据每个第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定第二关键词对应的事件是否为具有偶然性、突发性的偶发事件,实现了准确、快速地挖掘与待监控业务有关的偶发性的事件,从而使得能够在系统中对偶发性的事件进行准确的监控,使得用户能够对确定为偶发事件的第二关键词所对应信息作出快速反应。
步骤112:从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词。
具体的,业务监控客户端在确定每个第二关键词对应的事件是否为偶发事件之后,从第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词,即可以将第二关键词集合中对应事件为偶发事件的至少一个第二关键词确定为第三关键词。
步骤114:根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息。
具体的,业务监控客户端可以根据所筛选得到的至少一个第三关键词,从数据库中搜索包含第三关键词的文本信息,此时由于第三关键词对应事件为偶发事件,则搜索得到的文本信息同样为偶发事件对应的文本信息。
这样,本申请确定与待监控业务相关联的第一关键词集合,根据第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,预设时段预先划分为多个时间区段;从每个文本中提取得到至少一个第二关键词,得到第二关键词集合,确定每个第二关键词的重复出现次数和所对应的目标时间区段的总数量,根据每个第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定第二关键词对应的事件是否为偶发事件;从第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;根据至少一个第三关键词,搜索包含第三关键词的文本信息。
由于第二关键词出现的时间区段的总数量和重复出现次数均与第二关键词出现的频率相关,且第二关键词出现的频率能够对检测第二关键词对应的事件是否为偶发事件提供参考,从而使得通过第二关键词出现的时间区段的总数量和重复出现次数检测第二关键词对应的事件是否为偶发事件时能够提高检测的准确性,进而能够提高从第二关键词集合中筛选得到对应事件为偶发事件的第三关键词的准确性;此外,由于第一关键词集合与待监控业务相关联,使得根据第一关键词集合搜索出的多个文本均与待监控业务相关联,由此可以确定从文本中提取得到的第二关键词同样与待监控业务相关联,并可以确定所筛选出的第三关键词同样与待监控业务相关联,此时根据至少一个第三关键词,得到第三关键词的文本信息,实现了准确、快速地挖掘与待监控业务有关的偶发事件,从而使得能够在系统中对偶发事件实现准确地监控。
在一种实现方式中,所述根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息,包括:
在所述业务监控客户端的界面上显示所述至少一个第三关键词;接收用户对所述至少一个第三关键词的筛选操作,确定用户所筛选得到的至少一个第三关键词;根据用户所筛选得到的至少一个第三关键词,搜索包含用户所筛选得到的第三关键词的文本信息。
具体的,业务监控客户端的界面上可以显示至少一个第三关键词,用户可以确定是否对第三关键词进行筛选操作,若用户确定对第三关键词进行筛选操作,则业务监控客户端接收用户对至少一个关键词的筛选操作,并确定用户筛选得到的至少一个第三关键词,然后根据用户所筛选得到的至少一个第三关键词,搜索得到包含所筛选得到的第三关键词的文本信息这提高了文本信息搜索的精准度,使得所搜索得到的文本信息更满足用户需求,且提高了文本信息搜索的效率。
作为一个示例,假设如图2所示,业务监控客户端的显示界面上显示5个第三关键词:C1、C2、C3、C4和C5,用户选择对第三关键词C1进行筛选操作。此时,如图2所示,用户可以在业务监控客户端的界面上通过鼠标点击第三关键词C1(即向业务监控端后台发送筛选第三关键词C1的指令),业务监控后台对应的接收该对第三关键词C1的筛选指令,并根据对第三关键词C1 的筛选指令,搜索得到包含所筛选得到的第三关键词C1的文本信息,并将该文本信息返回至业务监控客户端的显示界面上进行显示。
此外,在一种实现方式中,从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词之后,还包括:
将所述至少一个第三关键词加入至所述第一关键词集合中,得到更新后的第一关键词集合,其中,所述更新后的第一关键词集合用于从数据库中搜索预设时段内包括更新后的第一关键词的文本。
具体的,从第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词之后,可以将至少一个第三关键词加入至第一关键词集合中,能够得到更新后的第一关键词集合,其中,更新后的第一关键词集合用于从数据库中搜索预设时段内包括更新后的第一关键词的文本。这样,将得到的第三关键词加入至第一关键词集合,丰富了第一关键词集合中的关键词,从而能够通过该更新后的第一关键词集合搜索得到更多的与待监控业务相关的文本,扩大了与待监控业务相关的文本的搜索范围。
此外,在一种实现方式中,所述从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,包括:
对所述文本进行分词处理;通过预设语言模型计算得到每个分词在所述文本中出现的概率;按照在所述文本中出现的概率从大到小的顺序对所有分词进行排序,并将排在前预设个数的分词确定为所述第二关键词,根据确定的至少一个第二关键词,确定第二关键词集合。
可以理解的是,预设个数的数值可以基于实际情况进行设定,例如可以为 30个或50个,在此并不对此进行具体限定。
可选的,预设语言模型可以为词向量(Word2Vec)模型。即本实施例可以通过Word2Vec模型计算得到每个分词在文本中出现的概率,例如,通过 Word2Vec模型计算分词之间的转移概率,通过分词之间的转移概率以及使用朴素贝叶斯假设获取每个分词在文本中出现的概率。
具体的,通过预设语言模型计算得到每个分词在文本中出现的概率时,可以通过下述公式计算得到:
p(s|wi)=p(w1,w2,…,wn|wi);
其中,p(s|wi)表示分词wi文本s中出现的概率,wn|wi示分词wn与分词wi之间的转移概率,表明在分词wi给定的情况下,下一个分词为wn的概率。
需要说明的是,转移概率可以通过训练语言模型word2vec所学习到,因此通过语言模型能够轻易的学习到每个分词在文本中出现的概率。
当然,本申请还可以通过其他方式获取文本中的第二关键词,例如基于逆文档权重和词频的关键词提取方式和基于词图模型的关键词提取方式等。
通过对文本进行分词处理,并且通过预设语言模型计算得到每个分词在文本中出现的概率,按照每个分词在文本中出现的概率从大到小的顺序对所述分词进行排序,并将排序在前的预设个数的分词确定为第二关键词,实现了对文本中第二关键词的提取。
此外,在一种实现方式中,如图3所示,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数;所述根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件,包括以下步骤:
步骤302:针对每个第二关键词,计算所述总重复次数与所述目标时间区段的总数量的第一比值。
具体的,可以将突然集中出现作为偶发事件判断的标准,而突然集中出现与第二关键词的出现持续时长和一定时间内的出现次数有关。
其中,一定时间内的出现次数可以通过第二关键词出现的总重复次数与目标时间区段的总数量之间的第一比值进行确定,且第二关键词出现的次数越高,目标时间区段的总数量越小,则说明第二关键词集中出现的程度越高,第二关键词对应的事件是偶发事件的概率越大;因此第二关键词出现的总重复次数与目标时间区段的总数量之间的比值越大,则说明第二关键词对应的事件是偶发事件的概率越大。
具体的,针对每个第二关键词,可以通过以下公式计算得到总重复次数与目标时间区段的总数量的第一比值;
Figure BDA0003594418470000121
其中,wwt_p表示第一比值,wcount表示第二关键词在预设时段内出现的总重复次数,wtcount表示目标时间区段的总数量。
步骤304:计算所述目标时间区段的总数量与所述时间区段的总数量的第二比值。
每个第二关键词的出现持续时长可以通过目标时间区段的总数量与时间区段的总数量之间的第二比值进行确定,且目标时间区段的总数量与时间区段的总数量之间的比值越小,则说明第二关键词的出现持续时长越短,第二关键词出现越集中,则该第二关键词对应的事件为偶发事件的概率越大。
具体的,可以通过以下公式计算得到,目标时间区段的总数量与时间区段的总数量的第二比值;
Figure BDA0003594418470000122
其中,tp表示第二比值,wtcount表示目标时间区段的总数量,tcount表示时间区段的总数量。
步骤306:计算所述第二比值与所述第一比值的第一商值。
具体的,可以将第二比值与第一比值的商值确定为第二关键词集中出现的概率,即第二关键词集中出现的概率的公式为:
Figure BDA0003594418470000131
其中,tw表示第二比值与第一比值的商值,tp表示第二比值,wtcount表示目标时间区段的总数量,tcount表示时间区段的总数量,wwt_p表示第一比值, wcount表示总重复次数,wtcount表示目标时间区段的总数量。
步骤308:若所述第一商值小于第一预设阈值,则确定所述第二关键词对应的事件为偶发事件。
具体的,第二比值与第一比值的商值越小说明第二关键词集中出现的概率越高,即第二关键词对应的事件为偶发事件的概率越大,则可以将集中出现的概率小于预设阈值的第二关键词对应的事件确定为偶发事件。
可以理解的是,在不同的场景下,预设阈值也可以不同,若计算得到的第二关键词集中出现的概率大于1,则可以将计算得到的值进行归一化处理,即将第二关键词集中出现的概率缩放到0和1之间,以方便与预设阈值之间的比较。
下面通过具体实施例对关键词的确定过程进行说明。
例如,作为一个示例,首先根据与金融(待监控业务)相关联的第一关键词,收集一个月(预设时段)内金融相关的新闻文章等文本数据,并按照时间顺序以天分隔为若干份数据。即将一个月按天为时间间隔进行划分得到30个时间区段,且金融相关的新闻文章等数据(文本)同样按天为时间间隔进行划分。
然后,从文本中提取得到第二关键词,并统计第二关键词的出现次数,出现的时间区段等信息。
例如,假设计算到的第二关键词包括“W1”、“W2”、“W3”、“W4”,统计得到W1出现5000次,出现的时间区段有25天,即出现的时间区段的总数量为25;W2出现1000次,出现的时间区段有15天,即出现的时间区段的总数量为15;W3出现200次,出现的时间区段有5天,即出现的时间区段的总数量为5;W4出现1000次,出现的时间区段有2天,即出现的时间区段的总数量为2,第一预设阈值为0.001。
最后,根据第二关键词集中出现的概率的计算公式来计算得到每个关键词集中出现的概率。
其中,第二关键词集中出现的概率的计算公式为:
Figure BDA0003594418470000141
此时计算得到第二关键词W1的tw=0.00417,第二关键词W2的tw=0.0075,第二关键词W3的tw=0.00417,第二关键词W4的tw=0.00013。
可以看到,“W4”出现时间短,数量大,第二关键词W4的tw小于第一预设阈值0.001,因此,第二关键词W4对应的事件为偶发事件。
这样通过上述方式确定偶发事件,实现了将第二关键词的出现持续时长因素和出现数量因素考虑在内,从而使得能够准确、快速地挖掘偶发事件,避免了将与偶发事件无关的其他因素计算在内,解决了在文本挖掘时无法准确快速挖掘偶发事件对应的关键词的问题,有利于监控。
在一种实现方式中,如图4所示,所述重复出现次数包括在每个时间区段出现的重复次数;
所述根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件,包括以下步骤:
步骤402:针对每个第二关键词,计算所述第二关键词在每个时间区段出现的重复次数与第四关键词在该时间区段出现的重复次数的第三比值。
所述第四关键词为所述时间区段内重复次数最多的关键词。
具体的,可以先判断第二关键词在每个目标时间区段是否集中出现,即可以计算第二关键词在时间区段出现的重复次数与第四关键词在时间区段出现的重复次数的第三比值。
具体的,可以通过以下公式计算得到第二关键词在时间区段出现的重复次数与第四关键词在时间区段出现的重复次数的第三比值:
Figure BDA0003594418470000151
其中,core_rate表示第三比值,wcount表示第二关键词在时间区段出现的重复次数,w_max_count表示第四关键词在时间区段出现的重复次数。
当然,需要说明的是,针对每个第二关键词,还可以依次计算第二关键词在每个时间区段出现的重复次数与第四关键词在该时间区段出现的重复次数的第三比值,若存在所计算的第三比值小于第二预设阈值,则停止计算后续时间区段所对应的第三比值,并直接确定第二关键词对应的事件不是偶发事件。
步骤404:计算所述第二关键词所对应的目标时间区段的总数量与所述时间区段的总数量的第四比值。
具体的,第二关键词所对应的目标时间区段的总数量与时间区段的总数量的第四比值能够反应第二关键词对应的事件的偶发性,其中,第四比值越小,第二关键词对应的事件为偶发事件的概率越高。
具体的,可以通过以下公式计算得到第二关键词所对应的目标时间区段的总数量与时间区段的总数量的第四比值;
Figure BDA0003594418470000152
其中,day_rate表示第四比值,wt_count表示第二关键词所对应的目标时间区段的总数量,t_count表示时间区段的总数量。
步骤406:若计算得到的所有第三比值均大于第二预设阈值,且所述第四比值小于第三预设阈值,则确定所述第二关键词对应的事件为偶发事件。
第三比值反映的是第二关键词在第二关键词对应的时间区段中的集中出现程度,第三比值越高,说明第二关键词的集中出现程度越高,即第二关键词对应的事件为偶发事件的概率越高,第四比值反映的是第二关键词出现的时间区段在预设时间区段内的占比,第四比值越小,说明第二关键词出现的时间区段在预设时间区段内的占比越小,即第二关键词对应的事件为偶发事件的概率越高,因此若所有第三比值均大于第二预设阈值,且第四比值小于第三预设阈值,则可以确定第二关键词对应的事件为偶发事件。
具体的,第二预设阈值可以根据需求设定,第三预设阈值与时间区段的总数量相关,可以根据业务场景合理设定。
下面通过具体实施例对关键词的确定过程进行说明。
例如,作为一个示例,首先根据与金融(待监控业务)相关联的第一关键词,收集一个月(预设时段)内金融相关的新闻文章等数据,并按照时间顺序以天分隔为若干份数据。即将一个月按天为时间间隔进行划分得到30个时间区段,且金融相关的新闻文章等数据(文本)同样按天为时间间隔进行划分。
然后,从文本中提取得到第二关键词,并统计第二关键词出现次数,出现的时间区段等信息。
例如,假设计算到的第二关键词包括“N1”、“N2”、“N3”、“N4”,则统计得到N1出现650次,出现的总时间区段有3天,第一天出现300次,第二天出现200次,第三天出现150次;N2出现100次,出现的总时间区段有2 天,第一天出现50次,第二天出现50次;N3出现810次,出现的总时间区段有4天,第一天出现400次,第二天出现300次,第三天出现10次,第四天出现100次;N4出现300次,出现的总时间区段有4天,第一天出现100 次,第二天出现100次,第三天出现50次,第四天出现50次。
通过以下公式计算得到第二关键词在时间区段出现的重复次数与第四关键词在时间区段出现的重复次数的第三比值:
Figure BDA0003594418470000161
此时,计算得到的第二关键词N1第一天的core_rate=0.75,N1第二天的 core_rate=0.6667,N1第三天的core_rate=0.75;
计算得到的第二关键词N2第一天的core_rate=0.125,N2第二天的 core_rate=0.1667;
计算得到的第二关键词N3第一天的core_rate=1,N3第二天的core_rate=1; N3第三天的core_rate=1,N3第四天的core_rate=0.2;
计算得到的第二关键词N4第一天的core_rate=0.25,N4第二天的core_rate=0.3333,N4第三天的core_rate=0.25,N4第四天的core_rate=1;
通过以下公式计算得到第二关键词所对应的目标时间区段的总数量与时间区段的总数量的第四比值;
Figure BDA0003594418470000171
此时,计算得到的第二关键词N1的day_rate=0.1,第二关键词N2的 day_rate=0.0666,第二关键词N3的day_rate=0.1333,第二关键词N4的 day_rate=0.1333.
此时若预设第二阈值为0.5,预设第三阈值为0.5,通过上述数据可知,仅第二关键词N1的所有day_rate均大于第二预设阈值,且day_rate小于第三阈值,因此,第二关键词N1对应的事件为偶发事件。
这样通过上述方式确定偶发事件,实现了将第二关键词的持续时长因素和出现数量因素考虑在内,从而使得能够准确、快速地挖掘偶发事件,避免了将与偶发事件无关的其他因素计算在内,解决了在文本挖掘时无法准确快速挖掘偶发事件对应的关键词的问题,有利于监控。
需要说明的是,本申请实施例提供的关键词的确定方法,执行主体可以为关键词的确定装置,或者该关键词的确定装置中的用于执行关键词的确定方法的控制模块。本申请实施例中以关键词的确定装置执行关键词的确定方法为例,说明本申请实施例提供的关键词的确定装置。
图5是根据本发明实施例的关键词的确定装置的结构示意图。如图5所示,关键词的确定装置500包括:第一确定模块510、第一搜索模块520、提取模块530、第二确定模块540、第三确定模块550、筛选模块560和第二搜索模块 570。
第一确定模块510,用于确定与待监控业务相关联的第一关键词集合,其中,所述第一关键词集合中包括至少一个第一关键词;第一搜索模块520,用于根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,其中所述预设时段预先划分为多个时间区段;提取模块530,用于从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,其中,所述第一关键词集合为所述第二关键词集合的子集;第二确定模块540,用于确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,其中,所述目标时间区段为所述第二关键词出现的时间区段,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数或在每个时间区段出现的重复次数;第三确定模块550,用于根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件;筛选模块560,用于从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;第二搜索模块570,用于根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息。
在一种实现方式中,第二搜索模块570,用于在所述业务监控客户端的界面上显示所述至少一个第三关键词;接收用户对所述至少一个第三关键词的筛选操作,确定用户所筛选得到的至少一个第三关键词;根据用户所筛选得到的至少一个第三关键词,搜索包含用户所筛选得到的第三关键词的文本信息。
在一种实现方式中,第二搜索模块570,还用于将所述至少一个第三关键词加入至所述第一关键词集合中,得到更新后的第一关键词集合,其中,所述更新后的第一关键词集合用于从数据库中搜索预设时段内包括更新后的第一关键词的文本。
在一种实现方式中,提取模块530,用于对每个所述文本进行分词处理;通过预设语言模型计算得到每个分词在所述文本中出现的概率;按照在所述文本中出现的概率从大到小的顺序对所有分词进行排序,并将排在前预设个数的分词确定为所述第二关键词;根据确定的至少一个第二关键词,确定第二关键词集合。
在一种实现方式中,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数,第三确定模块550,用于针对每个第二关键词,计算所述总重复次数与所述目标时间区段的总数量的第一比值;计算所述目标时间区段的总数量与所述时间区段的总数量的第二比值;计算所述第二比值与所述第一比值的第一商值;若所述第一商值小于第一预设阈值,则确定所述第二关键词对应的事件为偶发事件。
在一种实现方式中,所述重复出现次数包括在每个时间区段出现的重复次数,第三确定模块550,用于针对每个第二关键词,计算所述第二关键词在每个时间区段出现的重复次数与第四关键词在该时间区段出现的重复次数的第三比值,所述第四关键词为所述时间区段内重复次数最多的关键词;计算所述第二关键词所对应的目标时间区段的总数量与所述时间区段的总数量的第四比值;若计算得到的所有第三比值均大于第二预设阈值,且所述第四比值小于第三预设阈值,则确定所述第二关键词对应的事件为偶发事件。
在一种实现方式中,所述多个时间区段的划分方式包括:按照预设间隔对所述预设时段进行划分,或者按照所述待检测文本的数量对所述预设时段进行划分。
本申请实施例提供的关键词的确定装置能够实现图1至图3的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
本申请实施例中的关键词的确定装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer, UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的关键词的确定装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
可选地,如图6所示,本申请实施例另提供一种电子设备600,包括处理器610、通信接口620、存储器630和通信总线640,存储器630上存储有可在所述处理器610上运行的程序或指令,该程序或指令被处理器610执行时实现:确定与待监控业务相关联的第一关键词集合,其中,所述第一关键词集合中包括至少一个第一关键词;根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,其中所述预设时段预先划分为多个时间区段;从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,其中,所述第一关键词集合为所述第二关键词集合的子集;确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,其中,所述目标时间区段为所述第二关键词出现的时间区段,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数或在每个时间区段出现的重复次数;根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件;从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息。
在一种实现方式中,在所述业务监控客户端的界面上显示所述至少一个第三关键词接收用户对所述至少一个第三关键词的筛选操作,确定用户所筛选得到的至少一个第三关键词;根据用户所筛选得到的至少一个第三关键词,搜索包含用户所筛选得到的第三关键词的文本信息。
在一种实现方式中,将所述至少一个第三关键词加入至所述第一关键词集合中,得到更新后的第一关键词集合,其中,所述更新后的第一关键词集合用于从数据库中搜索预设时段内包括更新后的第一关键词的文本。
在一种实现方式中,对每个所述文本进行分词处理;通过预设语言模型计算得到每个分词在所述文本中出现的概率;按照在所述文本中出现的概率从大到小的顺序对所有分词进行排序,并将排在前预设个数的分词确定为所述第二关键词;根据确定的至少一个第二关键词,确定第二关键词集合。
在一种实现方式中,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数,针对每个第二关键词,计算所述总重复次数与所述目标时间区段的总数量的第一比值计算所述目标时间区段的总数量与所述时间区段的总数量的第二比值;计算所述第二比值与所述第一比值的第一商值;若所述第一商值小于第一预设阈值,则确定所述第二关键词对应的事件为偶发事件。
在一种实现方式中,所述重复出现次数包括在每个时间区段出现的重复次数;针对每个第二关键词,计算所述第二关键词在每个时间区段出现的重复次数与第四关键词在该时间区段出现的重复次数的第三比值,所述第四关键词为所述时间区段内重复次数最多的关键词计算所述第二关键词所对应的目标时间区段的总数量与所述时间区段的总数量的第四比值;若计算得到的所有第三比值均大于第二预设阈值,且所述第四比值小于第三预设阈值,则确定所述第二关键词对应的事件为偶发事件。
在一种实现方式中,所述多个时间区段的划分方式包括:按照预设间隔对所述预设时段进行划分,或者按照所述待检测文本的数量对所述预设时段进行划分。
具体执行步骤可以参见上述关键词的确定方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括:服务器、终端或除终端之外的其他设备。
以上电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,例如,输入单元,可以包括图形处理器(Graphics Processing Unit,GPU)和麦克风,显示单元可以采用液晶显示器、有机发光二极管等形式来配置显示面板。用户输入单元包括触控面板以及其他输入设备中的至少一种。触控面板也称为触摸屏。其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器可用于存储软件程序以及各种数据。存储器可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括易失性存储器或非易失性存储器,或者,存储器可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM, PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM, DRRAM)。
处理器可包括一个或多个处理单元;可选的,处理器集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述关键词的确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种关键词的确定方法,应用于业务监控客户端,其特征在于,所述方法包括:
确定与待监控业务相关联的第一关键词集合,其中,所述第一关键词集合中包括至少一个第一关键词;
根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,其中所述预设时段预先划分为多个时间区段;
从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,其中,所述第一关键词集合为所述第二关键词集合的子集;
确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,其中,所述目标时间区段为所述第二关键词出现的时间区段,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数或在每个时间区段出现的重复次数;
根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件;
从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;
根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息,包括:
在所述业务监控客户端的界面上显示所述至少一个第三关键词;
接收用户对所述至少一个第三关键词的筛选操作,确定用户所筛选得到的至少一个第三关键词;
根据用户所筛选得到的至少一个第三关键词,搜索包含用户所筛选得到的第三关键词的文本信息。
3.根据权利要求1所述的方法,其特征在于,从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词之后,还包括:
将所述至少一个第三关键词加入至所述第一关键词集合中,得到更新后的第一关键词集合,其中,所述更新后的第一关键词集合用于从数据库中搜索预设时段内包括更新后的第一关键词的文本。
4.根据权利要求1所述的方法,其特征在于,所述从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,包括:
对每个所述文本进行分词处理;
通过预设语言模型计算得到每个分词在所述文本中出现的概率;
按照在所述文本中出现的概率从大到小的顺序对所有分词进行排序,并将排在前预设个数的分词确定为所述第二关键词;
根据确定的至少一个第二关键词,确定第二关键词集合。
5.根据权利要求1所述的方法,其特征在于,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数;
所述根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件,包括:
针对每个第二关键词,计算所述总重复次数与所述目标时间区段的总数量的第一比值;
计算所述目标时间区段的总数量与所述时间区段的总数量的第二比值;
计算所述第二比值与所述第一比值的第一商值;
若所述第一商值小于第一预设阈值,则确定所述第二关键词对应的事件为偶发事件。
6.根据权利要求1所述的方法,其特征在于,所述重复出现次数包括在每个时间区段出现的重复次数;
所述根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件,包括:
针对每个第二关键词,计算所述第二关键词在每个时间区段出现的重复次数与第四关键词在该时间区段出现的重复次数的第三比值,所述第四关键词为所述时间区段内重复次数最多的关键词;
计算所述第二关键词所对应的目标时间区段的总数量与所述时间区段的总数量的第四比值;
若计算得到的所有第三比值均大于第二预设阈值,且所述第四比值小于第三预设阈值,则确定所述第二关键词对应的事件为偶发事件。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述多个时间区段的划分方式包括:按照预设间隔对所述预设时段进行划分,或者按照所述待检测文本的数量对所述预设时段进行划分。
8.一种关键词的确定装置,其特征在于,包括:
第一确定模块,用于确定与待监控业务相关联的第一关键词集合,其中,所述第一关键词集合中包括至少一个第一关键词;
第一搜索模块,用于根据所述第一关键词集合中的每个第一关键词,从数据库中搜索预设时段内的多个文本,其中所述预设时段预先划分为多个时间区段;
提取模块,用于从每个所述文本中提取得到至少一个第二关键词,得到第二关键词集合,其中,所述第一关键词集合为所述第二关键词集合的子集;
第二确定模块,用于确定每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,其中,所述目标时间区段为所述第二关键词出现的时间区段,所述重复出现次数包括所述第二关键词在所述预设时段内出现的总重复次数或在每个时间区段出现的重复次数;
第三确定模块,用于根据每个所述第二关键词的重复出现次数和所对应的目标时间区段的总数量,确定所述第二关键词对应的事件是否为偶发事件;
筛选模块,用于从所述第二关键词集合中筛选得到对应事件为偶发事件的至少一个第三关键词;
第二搜索模块,用于根据所述至少一个第三关键词,搜索包含所述第三关键词的文本信息。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的关键词的确定方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的关键词的确定方法的步骤。
CN202210384645.4A 2022-04-13 2022-04-13 关键词的确定方法、装置、电子设备及存储介质 Active CN114662474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210384645.4A CN114662474B (zh) 2022-04-13 2022-04-13 关键词的确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210384645.4A CN114662474B (zh) 2022-04-13 2022-04-13 关键词的确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114662474A true CN114662474A (zh) 2022-06-24
CN114662474B CN114662474B (zh) 2024-06-11

Family

ID=82034822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210384645.4A Active CN114662474B (zh) 2022-04-13 2022-04-13 关键词的确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114662474B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5542251B1 (ja) * 2013-10-30 2014-07-09 楽天株式会社 処理装置、処理方法、プログラム、及び記録媒体
US8838546B1 (en) * 2012-08-10 2014-09-16 Google Inc. Correcting accidental shortcut usage
CN104899201A (zh) * 2014-03-04 2015-09-09 腾讯科技(北京)有限公司 文本提取方法、敏感词判定方法、装置和服务器
KR20150105753A (ko) * 2014-03-10 2015-09-18 노경원 관심키워드 제공방법 및 그 시스템
CN106547817A (zh) * 2016-09-28 2017-03-29 昆明理工大学 一种针对环境法律法规的查询方法
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN110457672A (zh) * 2019-06-25 2019-11-15 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN111460796A (zh) * 2020-03-30 2020-07-28 北京航空航天大学 一种基于词网络的偶发敏感词发现方法
US20200327120A1 (en) * 2019-04-07 2020-10-15 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Method and system for interactive keyword optimization for opaque search engines
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112819512A (zh) * 2021-01-22 2021-05-18 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质
CN114020876A (zh) * 2021-11-16 2022-02-08 网易(杭州)网络有限公司 文本的关键词提取方法、装置、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838546B1 (en) * 2012-08-10 2014-09-16 Google Inc. Correcting accidental shortcut usage
JP5542251B1 (ja) * 2013-10-30 2014-07-09 楽天株式会社 処理装置、処理方法、プログラム、及び記録媒体
CN104899201A (zh) * 2014-03-04 2015-09-09 腾讯科技(北京)有限公司 文本提取方法、敏感词判定方法、装置和服务器
KR20150105753A (ko) * 2014-03-10 2015-09-18 노경원 관심키워드 제공방법 및 그 시스템
CN106547817A (zh) * 2016-09-28 2017-03-29 昆明理工大学 一种针对环境法律法规的查询方法
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
US20200327120A1 (en) * 2019-04-07 2020-10-15 B. G. Negev Technologies And Applications Ltd., At Ben-Gurion University Method and system for interactive keyword optimization for opaque search engines
CN110457672A (zh) * 2019-06-25 2019-11-15 平安科技(深圳)有限公司 关键词确定方法、装置、电子设备及存储介质
CN111460796A (zh) * 2020-03-30 2020-07-28 北京航空航天大学 一种基于词网络的偶发敏感词发现方法
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112819512A (zh) * 2021-01-22 2021-05-18 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质
CN114020876A (zh) * 2021-11-16 2022-02-08 网易(杭州)网络有限公司 文本的关键词提取方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DANFENG YAN等: "DESIGN AND IMPLEMENTATION OF TEXT FILTERING WITH NO SEMANTIC ACCIDENTAL INJURY", 《2011 4TH IEEE INTERNATIONAL CONFERENCE ON BROADBAND NETWORK AND MULTIMEDIA TECHNOLOGY》, 23 February 2012 (2012-02-23), pages 61 - 65 *
VAN TUAN TRAN等: "Analyzing and Visualizing Projects and their Relations in Software Ecosystems", 《2021 WORKING CONFERENCE ON SOFTWARE VISUALIZATION(VISSOFT)》, 11 November 2021 (2021-11-11), pages 105 - 109 *
曹春萍;杨青林;: "基于信息传播特性的新词发现方法研究", 《软件》, vol. 41, no. 09, 15 September 2020 (2020-09-15), pages 209 - 211 *
李志明;邓辉宇;李玖栋;: "基于Lucene的全文检索系统在SSRF-PDM的应用", 《微计算机信息》, vol. 26, no. 28, 5 October 2010 (2010-10-05), pages 205 - 206 *

Also Published As

Publication number Publication date
CN114662474B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
CN108319630B (zh) 信息处理方法、装置、存储介质和计算机设备
US9699295B2 (en) Method for displaying an icon and terminal device thereof
US20230161957A1 (en) Methods and systems for trending issue identification in text streams
US20190205743A1 (en) System and method for detangling of interleaved conversations in communication platforms
WO2020263228A1 (en) Developing event-specific provisional knowledge graphs
CN110457595B (zh) 突发事件报警方法、装置、系统、电子设备及存储介质
CN105335383B (zh) 输入信息的处理方法及装置
US11080348B2 (en) System and method for user-oriented topic selection and browsing
CN106611065B (zh) 搜索方法和装置
CN114205212A (zh) 一种网络安全预警方法、装置、设备及可读存储介质
CN112532624A (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN111859900A (zh) 消息显示方法、装置和电子设备
CN111880668A (zh) 输入显示方法、装置及电子设备
CN111639333A (zh) 信息管理方法、装置及电子设备
CN115204889A (zh) 文本处理方法、装置、计算机设备及存储介质
CN116450814A (zh) 基于事件处理模型的事件处理方法、装置、设备及介质
CN114117299A (zh) 一种网站入侵篡改检测方法、装置、设备及存储介质
CN110618797B (zh) 生成文字走马灯的方法、装置及终端设备
US20230281990A1 (en) Target Object Recognition
CN114662474B (zh) 关键词的确定方法、装置、电子设备及存储介质
CN111626356A (zh) 一种广告识别方法,模型训练方法,电子设备及存储介质
CN111241274A (zh) 刑事法律文书处理方法和装置、存储介质和电子设备
CN111367962B (zh) 数据库的更新方法及装置、计算机可读存储介质、电子设备
CN114461896A (zh) 信息处理方法、信息展示方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant