CN114648027B - 一种文本信息的处理方法、装置、计算机设备及存储介质 - Google Patents
一种文本信息的处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114648027B CN114648027B CN202210560702.XA CN202210560702A CN114648027B CN 114648027 B CN114648027 B CN 114648027B CN 202210560702 A CN202210560702 A CN 202210560702A CN 114648027 B CN114648027 B CN 114648027B
- Authority
- CN
- China
- Prior art keywords
- word
- target
- target text
- text
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本信息的处理方法、装置、计算机设备及存储介质,涉及文本处理技术领域,用于提高文本信息审核的准确度。方法包括:获取待处理的目标文本,对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词,遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表,若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
Description
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本信息的处理方法、装置、计算机设备及存储介质。
背景技术
互联网飞速发展的时代,高新技术的深入发展与广泛运用,正在深刻地改变着人们几千年来形成的生活习惯,例如信息传递方式、生产结构方式、人际交流方式、社会方式,也深刻地改变着生活运作方式。互联网负向信息的识别过滤对促进互联网舆情技术发展有重要意义。
目前使用的负向信息检测产品中,检测产品自带负向信息特征库,用户在对网站中的信息进行检测时,只能按照负向信息特征库中的信息进行检测。但是,仅根据负向信息特征库检测文本中的负向信息,并没有考虑文本中各个词在上下文所代表的含义,因此现有的文本信息的处理准确率较低。
发明内容
本申请实施例提供一种文本信息的处理方法、装置、计算机设备及存储介质,用于提高文本信息审核的准确度。
本发明实施例提供一种文本信息的处理方法,所述方法包括:
获取待处理的目标文本;
对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词;
遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库;
若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表;
若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
具体地,在对所述目标文本进行处理,得到目标文本的分词结果之前,所述方法还包括:
获取发送原始文本的APP名称;
若所述APP名称属于APP名称黑名单库,则确定所述原始文本的内容信息为负向信息;
若所述APP名称属于APP名称白名单库,则确定所述原始文本的内容信息为正向信息;
若所述APP名称不属于所述APP名称黑名单库也不属于所述APP名称白名单库,则确定原始文本为目标文本。
具体地,所述正向标注词库包括若干个领域对应的正向标注词列表,其中,每一领域对应的正向标注词列表包括正向单个词和正向组合词。
具体地,所述负向标注词库包括若干个领域对应的负向标注词列表,其中,每一领域对应的负向标注词列表包括负向单个词和负向组合词。
具体地,在确定所述目标文本的内容信息为负向信息之后,所述方法还包括:
获取负向标注词的优先级列表,其中,所述负向标注词的优先级列表包括所述负向标注词库中每一负向标注词的优先级;
根据所述负向标注词的优先级列表,获取目标文本中所述关键词的优先级;
根据关键词的优先级和目标文本中的关键词的词频,确定出目标文本的优先级,以提示所述目标文本的负向信息的原因。
本发明实施例还提供一种文本信息的处理装置,所述装置包括:
第一获取模块,获取待处理的目标文本;
分词模块,对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词;
判断模块,遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库;
第一执行模块,若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表;
第二执行模块,若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
具体地,所述装置还包括:
第二获取模块,获取发送原始文本的APP名称;
第一确定模块,若所述APP名称属于APP名称黑名单库,则确定所述原始文本的内容信息为负向信息;
第二确定模块,若所述APP名称属于APP名称白名单库,则确定所述原始文本的内容信息为正向信息;
第三确定模块,若所述APP名称不属于所述APP名称黑名单库也不属于所述APP名称白名单库,则确定原始文本为目标文本。
具体地,所述正向标注词库包括若干个领域对应的正向标注词列表,其中,每一领域对应的正向标注词列表包括正向单个词和正向组合词。
具体地,所述负向标注词库包括若干个领域对应的负向标注词列表,其中,每一领域对应的负向标注词列表包括负向单个词和负向组合词。
具体地,所述装置包括:
第一优先级获取模块,获取负向标注词的优先级列表,其中,所述负向标注词的优先级列表包括所述负向标注词库中每一负向标注词的优先级;
第二优先级获取模块,根据所述负向标注词的优先级列表,获取目标文本中所述关键词的优先级;
优先级确定模块,根据关键词的优先级和目标文本中的关键词的词频,确定出目标文本的优先级,以提示所述目标文本的负向信息的原因。
本发明实施还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述如权利要求所述的文本信息的处理方法。
本发明实施还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述如权利要求所述的文本信息的处理方法。
本发明提供一种文本信息的处理方法、装置、计算机设备及存储介质,所述方法包括步骤:获取待处理的目标文本,对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词,遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库,若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表,若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息;由于本发明中的向标注词库和负向标注词库中包括由多个词组成的组合词,因此通过正向组合词库和负向组合词库可确定文本信息中由多个词组合而成的组合词的词性,即本发明考虑了文本信息中多个词组合所对应的词性,避免了仅用单个词确定词性所带来的误区,从而通过本发明可以提高文本信息审核的准确度。
附图说明
图1为本申请一个实施例提供的文本信息的处理方法的流程图;
图2为本申请一个实施例提供的S10步骤之前的步骤流程图;
图3为本申请一个实施例提供的S20步骤的步流程图;
图4为本申请一个实施例提供的S40步骤的步流程图;
图5为本申请一个实施例提供的S50步骤的步流程图;
图6为本申请另一个实施例提供的文本信息的处理方法的流程图;
图7为本申请一个实施例提供的文本信息的处理装置的的结构框图;
图8为本申请一个实施例提供的文本信息的处理装中模块10对应的结构框图;
图9为本申请一个实施例提供的文本信息的处理装中模块20对应的结构框图;
图10为本申请一个实施例提供的文本信息的处理装中模块40对应的结构框图;
图11为本申请一个实施例提供的文本信息的处理装中模块50对应的结构框图;
图12为本申请另一个实施例提供的文本信息的处理装置的的结构框图;
图13为本申请一个实施例提供的计算机设备的一示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请实施例的技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请实施例技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
请参阅图1,所示为本发明第一实施例当中的文本信息的处理方法,所述方法具体包括步骤S10-步骤S50:
S10、获取待处理的目标文本。
具体地,在对所述目标文本进行处理,得到目标文本的分词结果之前,所述方法还包括,如图2所示:
S101、获取发送原始文本的APP名称,其中,原始文本为需要判断文本的内容信息是否包含负向信息的文本,原始文本具体可从不同的APP客户端或是网页端获取,该APP或是网页具体可以为新闻类、娱乐类、游戏类、财务类等,本发明实施例不做具体限定。
具体地,本实施例接收用户通过APP发送的目标文本信息,然后获取APP的名称。
S103、若所述APP名称属于APP名称黑名单库,则确定所述原始文本的内容信息为负向信息;其中,APP名称黑名单库中存储有多个APP名称,若发送原始文本的APP名称在APP名称黑名单库中,则说明发送原始文本的APP是不可信的,因此可直接确定目标原始文本的内容信息为负向信息。
S105、若所述APP名称属于APP名称白名单库,则确定所述原始文本的内容信息为正向信息;其中,APP名称白名单库中存储有多个APP名称,若发送原始文本的APP名称在APP名称白名单库中,则说明发送原始文本的APP是可信的,因此可直接确定原始文本的内容信息不涉及负向信息,即为正向信息。
S107、若所述APP名称不属于所述APP名称黑名单库也不属于所述APP名称白名单库,则确定原始文本为目标文本,然后跳转到步骤S20继续执行,即对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表。
具体地,确定APP名称是否属于APP名称黑名单库或APP名称白名单库,可以快速确定目标文本信息中的内容是否涉及负向信息。即若APP名称属于APP名称黑名单库,则确定目标文本信息中的内容涉及负向信息;若APP名称属于APP名称白名单库,则确定目标文本信息中的内容不涉及负向信息;若APP名称不属于APP名称黑名单库也不属于APP名称白名单库,则对目标文本信息进行分词得到对应的分词结果,以便在后续步骤中遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,确定目标文本的内容信息是否为负向信息。
S20、对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词。
具体地,在S20步骤中还通过如下步骤获取目标词,如图3所示:
S201、对所述目标文本进行处理,得到目标文本的分词列表;
S202、遍历分词列表且根据分词列表与预设的常规词库进行比对,获取目标文本的分词结果,即目标文本的分词结果中不包括常规词库中词,例如,“你”、“我”、“他”等。
S30、遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库。
具体地,所述正向标注词库包括若干个领域对应的正向标注词列表,其中,每一领域对应的正向标注词列表包括领域对应的正向单个词和领域对应的正向组合词。
具体地,所述负向标注词库包括若干个领域对应的负向标注词列表,其中,每一领域对应的负向标注词列表包括负向单个词和负向组合词。
其中,所述正向组合词和所述负向组合词均是指由多个词组成的组合词,所述词性包括正向词性和负向词性,正向词性和负向词性可选的为用户设置的词性标签。正向标注词库中存储有多个正向词性的单个词和/或组合词,负向标注词库中存储有多个负向词性的单个词和/或组合词;具体的,组合词则由两个或两个以的词组合而成,例如,目标文本中包含词“快递地址”和“A公司”,两个词组成的组合词为(快递地址,A公司),若根据正向标注词库和负向标注词库确定词“快递地址”为正向词性,“A公司”为负向词性,但是根据正向标注词库则可以确定组合词(快递地址,A公司)为正向词性。
对于本发明实施例,在对目标文本信息分词之后,可以将目标文本信息中的多个词进行排列组合得到组合词,然后将组合词与正向组合词库中的词进行匹配,若匹配成功,则确定组合词为正向词性。
需要说明的是,在对多个词进行排列组合得到组合词之前,首选需要确定正向组合词库中组合词内词的数量,然后根据词的数量确定目标文本信息中的组合词。例如,正向组合词库中组合词内词的数量为2,目标文本信息中包括:词A、词B、词C,则对目标文本信息中的词进行排列组合得到组合词:(词A、词B),(词A、词C),(词B、词C),之后将得到的组合词分别与正向组合词库中的组合词进行匹配,如果匹配成功,则可以确定多个词组合的组合词为正向词性。
对于本发明实施例,在对目标文本分词之后,可以将目标文本中的多个词进行排列组合得到组合词,即目标词包括目标单个词和/或目标组合词,然后将将任一所述目标词与标注词库中任一标注词进行匹配,以确定目标词的词性。
对需要说明的是,可以首先确定目标文本中正向词性的词或组合词,也可以首先确定目标文本信息中负向词性的词或组合词,本发明实施例对此不做具体限定。进一步的,本实施例可首先确定目标文本信息中是否出现正向词性的词,如果有正向词性的词,则可直接确定目标文本信息中的内容不涉及负向信息,如果没有正向词性的词,则确定目标文本信息中是否出现正向词性的组合词,如果有正向词性的组合词,则确定目标文本信息中的内容不涉及负向信息,如果没有正向词性的组合词,则目标文本信息中负向词性的词或组合词。
S40、若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表。
具体地,在S40步骤中还包括如下步骤,如图4所示:
S401、获取目标文本的APP名称;
S403、根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
S405、当目标文本的APP名称对应的领域与正向标注词库中领域一致时,确定目标文本对应的所述正向标注词列表,以若所述目标文本的分词结果中目标词与所述目标文本对应的所述正向标注词列表中正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表。
S50、若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
具体地,在S50步骤中还包括如下步骤,如图5所示:
S501、获取目标文本的APP名称;
S503、根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
S505、当目标文本的APP名称对应的领域与负向标注词库中领域一致时,确定目标文本对应的所述负向标注词列表,以若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
本实施例提供一种文本信息的处理方法,所述方法包括步骤:获取待处理的目标文本,对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词,遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库,若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表,若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息;由于本发明中的正向标注词库和负向标注词库中包括由多个词组成的组合词,因此通过正向组合词库和负向组合词库可确定文本信息中由多个词组合而成的组合词的词性,即本发明考虑了文本信息中多个词组合所对应的词性,避免了仅用单个词确定词性所带来的误区,从而通过本发明可以提高文本信息审核的准确度。
需要说明的是,对于不同的领域涉及的负向信息是不同的,如存在一个词对于A领域来说属于负向信息,而对于B领域则不属于负向信息,因此在确定目标文本信息中的内容涉及负向信息之后,还需要进一步的确定涉及负向信息的词是否为在其领域是否属于负向信息,即将负向词性的词与对应领域白名单词库中的词进行匹配计算,如果与领域白名单词库中的词匹配成功,则说明负向词性的词在其所在的领域属于正向词,则需要确定目标文本信息中的内容不涉及负向信息;如果与领域白名单词库中的词未匹配成功,则确定目标文本信息中的内容涉及负向信息,从而通过本实施例可以进一步提高文本信息审核的准确度。
在本发明提供的一个实施例中,在确定所述目标文本的内容信息为负向信息之后,所述方法还包括,如图6所示:
S60、获取负向标注词的优先级列表,其中,所述负向标注词的优先级列表包括所述负向标注词库中每一负向标注词的优先级,其中,负向标注词的优先级是指反映负向标注词涉及非正向含义的程度。
S70、根据所述负向标注词的优先级列表,获取目标文本中所述关键词的优先级。
S80、根据关键词的优先级和目标文本中的关键词的词频,确定出目标文本的优先级,以提示所述目标文本的负向信息的原因。
具体地,在本实施例中,所述目标文本的优先级是指在每一关键词的优先级与其对应的权重值的乘积之上,与每一关键词的词频之和;能够准确的反映出目标文本的优先级,有利于向用户提示目标文本的内容信息。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一个具体的实施例中,提供一种文本信息的处理装置,该文本信息的处理装置与上述实施例中文本信息的处理方法一一对应。如图7所示,所述文本信息的处理装置各功能模块详细说明如下:
第一获取模块10、获取待处理的目标文本。
如图8所示,所述装置之前还包括:
第一APP名称获取模块101、获取发送原始文本的APP名称。
第一APP名称确定模块103、若所述APP名称属于APP名称黑名单库,则确定所述原始文本的内容信息为负向信息。
第二APP名称确定模块S105、若所述APP名称属于APP名称白名单库,则确定所述原始文本的内容信息为正向信息。
第三APP名称确定模块S107、若所述APP名称不属于所述APP名称黑名单库也不属于所述APP名称白名单库,则确定原始文本为目标文本,然后跳转到步骤S20继续执行,即对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表。
分词模块20,对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词。
如图9所示,所述装置还包括:
分词列表获取模块201、对所述目标文本进行处理,得到目标文本的分词列表;
词库判断模块202、遍历分词列表且根据分词列表与预设的常规词库进行比对,获取目标文本的分词结果,即目标文本的分词结果中不包括常规词库中词,例如,“你”、“我”、“他”等。
判断模块30,遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库。
具体地,所述正向标注词库包括若干个领域对应的正向标注词列表,其中,每一领域对应的正向标注词列表包括领域对应的正向单个词和领域对应的正向组合词。
具体地,所述负向标注词库包括若干个领域对应的负向标注词列表,其中,每一领域对应的负向标注词列表包括负向单个词和负向组合词。
第一执行模块40,若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表。
如图10所示,所述装置还包括:
第二APP名称获取模块401、获取目标文本的APP名称;
第一领域确定模块403、根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
正向标注词列表确定模块405、当目标文本的APP名称对应的领域与正向标注词库中领域一致时,确定目标文本对应的所述正向标注词列表,以若所述目标文本的分词结果中目标词与所述目标文本对应的所述正向标注词列表中正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表。
第二执行模块50,若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
如图11所示,所述装置还包括:
第三APP名称获取模块S501、获取目标文本的APP名称;
第二领域确定模块503、根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
负向标注词列表确定模块505、当目标文本的APP名称对应的领域与负向标注词库中领域一致时,确定目标文本对应的所述负向标注词列表,以若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
在本发明提供的一个实施例中,所述装置还包括,如图12所示:
第一优先级获取模块60,获取负向标注词的优先级列表,其中,所述负向标注词的优先级列表包括所述负向标注词库中每一负向标注词的优先级,其中,负向标注词的优先级是指反映负向标注词涉及非正向含义的程度。
第二优先级获取模块70、根据所述负向标注词的优先级列表,获取目标文本中所述关键词的优先级。
优先级确定模块80、根据关键词的优先级和目标文本中的关键词的词频,确定出目标文本的优先级,以提示所述目标文本的负向信息的原因。
具体地,在本实施例中,所述目标文本的优先级是指在每一关键词的优先级与其对应的权重值的乘积之上,与每一关键词的词频之和;能够准确的反映出目标文本的优先级,有利于向用户提示目标文本的内容信息。
关于文本信息的处理装置的具体限定可以参见上文中对于文本信息的处理方法的限定,在此不再赘述。上述设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本信息的处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待处理的目标文本;
对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词;
遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库;
若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表;
若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理的目标文本;
对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词;
遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库;
若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表;
若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (6)
1.一种文本信息的处理方法,其特征在于,所述方法包括:
获取待处理的目标文本;
对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词;
遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库;
若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表,其中,获取关键词列表包括:
获取目标文本的APP名称;
根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
当目标文本的APP名称对应的领域与正向标注词库中领域一致时,确定目标文本对应的正向标注词列表,以若所述目标文本的分词结果中目标词与所述目标文本对应的所述正向标注词列表中正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表;
若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息,其中,确定所述目标文本的内容信息为负向信息包括:
获取目标文本的APP名称;
根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
当目标文本的APP名称对应的领域与负向标注词库中领域一致时,确定目标文本对应的负向标注词列表,以若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息;
其中,所述正向标注词库包括若干个领域对应的正向标注词列表,每一领域对应的正向标注词列表包括正向单个词和正向组合词;
其中,所述负向标注词库包括若干个领域对应的负向标注词列表,每一领域对应的负向标注词列表包括负向单个词和负向组合词;
获取负向标注词的优先级列表,其中,所述负向标注词的优先级列表包括所述负向标注词库中每一负向标注词的优先级,其中,负向标注词的优先级是指反映负向标注词涉及非正向含义的程度;
根据所述负向标注词的优先级列表,获取目标文本中所述关键词的优先级;
根据关键词的优先级和目标文本中的关键词的词频,确定出目标文本的优先级,以提示所述目标文本的负向信息的原因,其中,所述目标文本的优先级是指在每一关键词的优先级与其对应的权重值的乘积之上,与每一关键词的词频之和。
2.根据权利要求1所述的文本信息的处理方法,其特征在于,在对所述目标文本进行处理,得到目标文本的分词结果之前,所述方法还包括:
获取发送原始文本的APP名称;
若所述APP名称属于APP名称黑名单库,则确定所述原始文本的内容信息为负向信息;
若所述APP名称属于APP名称白名单库,则确定所述原始文本的内容信息为正向信息;
若所述APP名称不属于所述APP名称黑名单库也不属于所述APP名称白名单库,则确定原始文本为目标文本。
3.一种文本信息的处理装置,其特征在于,所述装置包括:
第一获取模块,获取待处理的目标文本;
分词模块,对所述目标文本进行处理,得到目标文本的分词结果,所述分词结果为目标文本对应的目标分词列表,其中,所述目标分词列表中包括若干个目标词;
判断模块,遍历目标文本对应的分词列表且将任一所述目标词与标注词库中任一标注词进行匹配,其中,标注词库包括:正向标注词库和负向标注词库;
第一执行模块,若所述目标词与正向标注词库中任一正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表,其中,获取关键词列表包括:
获取目标文本的APP名称;
根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
当目标文本的APP名称对应的领域与正向标注词库中领域一致时,确定目标文本对应的正向标注词列表,以若所述目标文本的分词结果中目标词与所述目标文本对应的所述正向标注词列表中正向标注词均一致时,则从目标分词列表中删除所述目标词后,获取关键词列表;
第二执行模块,若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息,其中,确定所述目标文本的内容信息为负向信息包括:
获取目标文本的APP名称;
根据目标文本的APP名称,确定目标文本的APP名称对应的领域;
当目标文本的APP名称对应的领域与负向标注词库中领域一致时,确定目标文本对应的负向标注词列表,以若所述关键词列表中关键词与负向标注词库中任一负向标注词一致时,则确定所述目标文本的内容信息为负向信息;
其中,所述正向标注词库包括若干个领域对应的正向标注词列表,每一领域对应的正向标注词列表包括正向单个词和正向组合词;
其中,所述负向标注词库包括若干个领域对应的负向标注词列表,每一领域对应的负向标注词列表包括负向单个词和负向组合词;
第一优先级获取模块,获取负向标注词的优先级列表,其中,所述负向标注词的优先级列表包括所述负向标注词库中每一负向标注词的优先级,其中,负向标注词的优先级是指反映负向标注词涉及非正向含义的程度;
第二优先级获取模块,根据所述负向标注词的优先级列表,获取目标文本中所述关键词的优先级;
优先级确定模块,根据关键词的优先级和目标文本中的关键词的词频,确定出目标文本的优先级,以提示所述目标文本的负向信息的原因,其中,所述目标文本的优先级是指在每一关键词的优先级与其对应的权重值的乘积之上,与每一关键词的词频之和。
4.根据权利要求3所述的文本信息的处理装置,其特征在于,所述装置还包括:
第二获取模块,获取发送原始文本的APP名称;
第一确定模块,若所述APP名称属于APP名称黑名单库,则确定所述原始文本的内容信息为负向信息;
第二确定模块,若所述APP名称属于APP名称白名单库,则确定所述原始文本的内容信息为正向信息;
第三确定模块,若所述APP名称不属于所述APP名称黑名单库也不属于所述APP名称白名单库,则确定原始文本为目标文本。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述的文本信息的处理方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述的文本信息的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210560702.XA CN114648027B (zh) | 2022-05-23 | 2022-05-23 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210560702.XA CN114648027B (zh) | 2022-05-23 | 2022-05-23 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114648027A CN114648027A (zh) | 2022-06-21 |
CN114648027B true CN114648027B (zh) | 2022-09-30 |
Family
ID=81997542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210560702.XA Active CN114648027B (zh) | 2022-05-23 | 2022-05-23 | 一种文本信息的处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648027B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422071B (zh) * | 2023-12-19 | 2024-03-15 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682090A (zh) * | 2012-04-26 | 2012-09-19 | 焦点科技股份有限公司 | 一种基于聚合词树的敏感词匹配处理系统及方法 |
CN102769632A (zh) * | 2012-07-30 | 2012-11-07 | 珠海市君天电子科技有限公司 | 钓鱼网站分级检测和提示的方法及系统 |
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
CN103428186A (zh) * | 2012-05-24 | 2013-12-04 | 中国移动通信集团公司 | 一种检测钓鱼网站的方法及装置 |
CN107147623A (zh) * | 2017-04-24 | 2017-09-08 | 绿网天下(福建)网络科技股份有限公司 | 一种特定浏览器过滤网址的方法 |
CN107977423A (zh) * | 2017-11-27 | 2018-05-01 | 厦门二五八网络科技集团股份有限公司 | 基于含有违法词的互联网文章自动过滤处理方法及系统 |
CN109829043A (zh) * | 2018-12-28 | 2019-05-31 | 广州华多网络科技有限公司 | 词性确认方法、装置、电子设备及存储介质 |
CN110110217A (zh) * | 2018-02-02 | 2019-08-09 | 优视科技有限公司 | 一种对信息的情感倾向性分析及信息推荐方法和装置 |
CN111061874A (zh) * | 2019-12-10 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 敏感信息检测方法和装置 |
CN111241389A (zh) * | 2019-12-30 | 2020-06-05 | 陕西数字基地出版传媒集团有限公司 | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 |
CN111767403A (zh) * | 2020-07-07 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
CN112287385A (zh) * | 2020-10-09 | 2021-01-29 | 杭州电魂网络科技股份有限公司 | 敏感词过滤方法、装置、计算机设备和可读存储介质 |
CN112631436A (zh) * | 2020-12-22 | 2021-04-09 | 科大讯飞股份有限公司 | 输入法敏感词的过滤方法及装置 |
CN112749251A (zh) * | 2020-03-09 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1040253A (ja) * | 1996-07-19 | 1998-02-13 | Nippon Telegr & Teleph Corp <Ntt> | 文章中の単語の観点生成方法及び装置 |
US8515828B1 (en) * | 2012-05-29 | 2013-08-20 | Google Inc. | Providing product recommendations through keyword extraction from negative reviews |
CN104866465B (zh) * | 2014-02-25 | 2017-11-03 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
CN104933044B (zh) * | 2014-03-17 | 2019-05-31 | 北京奇虎科技有限公司 | 应用卸载原因的分类方法及分类装置 |
CN104008186B (zh) * | 2014-06-11 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
WO2017149540A1 (en) * | 2016-03-02 | 2017-09-08 | Feelter Sales Tools Ltd | Sentiment rating system and method |
CN108280130A (zh) * | 2017-12-22 | 2018-07-13 | 中国电子科技集团公司第三十研究所 | 一种在文本大数据中发现敏感数据的方法 |
CN110717514A (zh) * | 2019-09-06 | 2020-01-21 | 平安国际智慧城市科技股份有限公司 | 会话意图识别方法、装置、计算机设备和存储介质 |
-
2022
- 2022-05-23 CN CN202210560702.XA patent/CN114648027B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682090A (zh) * | 2012-04-26 | 2012-09-19 | 焦点科技股份有限公司 | 一种基于聚合词树的敏感词匹配处理系统及方法 |
CN103428186A (zh) * | 2012-05-24 | 2013-12-04 | 中国移动通信集团公司 | 一种检测钓鱼网站的方法及装置 |
CN102769632A (zh) * | 2012-07-30 | 2012-11-07 | 珠海市君天电子科技有限公司 | 钓鱼网站分级检测和提示的方法及系统 |
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
CN107147623A (zh) * | 2017-04-24 | 2017-09-08 | 绿网天下(福建)网络科技股份有限公司 | 一种特定浏览器过滤网址的方法 |
CN107977423A (zh) * | 2017-11-27 | 2018-05-01 | 厦门二五八网络科技集团股份有限公司 | 基于含有违法词的互联网文章自动过滤处理方法及系统 |
CN110110217A (zh) * | 2018-02-02 | 2019-08-09 | 优视科技有限公司 | 一种对信息的情感倾向性分析及信息推荐方法和装置 |
CN109829043A (zh) * | 2018-12-28 | 2019-05-31 | 广州华多网络科技有限公司 | 词性确认方法、装置、电子设备及存储介质 |
CN111061874A (zh) * | 2019-12-10 | 2020-04-24 | 苏州思必驰信息科技有限公司 | 敏感信息检测方法和装置 |
CN111241389A (zh) * | 2019-12-30 | 2020-06-05 | 陕西数字基地出版传媒集团有限公司 | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 |
CN112749251A (zh) * | 2020-03-09 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN111767403A (zh) * | 2020-07-07 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
CN112287385A (zh) * | 2020-10-09 | 2021-01-29 | 杭州电魂网络科技股份有限公司 | 敏感词过滤方法、装置、计算机设备和可读存储介质 |
CN112631436A (zh) * | 2020-12-22 | 2021-04-09 | 科大讯飞股份有限公司 | 输入法敏感词的过滤方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114648027A (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897734B (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN114648027B (zh) | 一种文本信息的处理方法、装置、计算机设备及存储介质 | |
CN110955608B (zh) | 测试数据处理方法、装置、计算机设备和存储介质 | |
CN112559526A (zh) | 数据表导出方法、装置、计算机设备及存储介质 | |
CN111339137A (zh) | 一种数据校验方法及装置 | |
CN110704719B (zh) | 企业搜索文本分词方法和装置 | |
CN113961768B (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
CN113408660A (zh) | 图书聚类方法、装置、设备和存储介质 | |
US11647046B2 (en) | Fuzzy inclusion based impersonation detection | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN115203758A (zh) | 一种数据安全存储方法、系统及云平台 | |
CN114036266A (zh) | 一种基于自然语言处理的智能策略组卷方法、装置及设备 | |
CN109067726B (zh) | 建站系统识别方法、装置、电子设备及存储介质 | |
CN112364640A (zh) | 实体名词链接方法、装置、计算机设备和存储介质 | |
US20230325715A1 (en) | Systems and methods for self-training a communication document parser | |
CN109522423B (zh) | 指纹植入和信息识别方法、装置、计算机设备和存储介质 | |
CN114237509B (zh) | 数据访问方法及装置 | |
CN112035427B (zh) | 基于Redis和HBase的数据查询方法及相关设备 | |
CN116701615B (zh) | 业务文档在线管理方法、装置、电子设备及可读存储介质 | |
CN111460307B (zh) | 一种移动终端精确搜索方法和装置 | |
CN109446336B (zh) | 新闻筛选的方法、装置、计算机设备和存储介质 | |
CN117114098A (zh) | 知识图谱处理方法、电子设备和存储介质 | |
CN115221300A (zh) | 日志模式识别方法及装置、计算机可读存储介质、终端 | |
CN115600999A (zh) | 经验文档生成方法、终端及存储介质 | |
CN114626060A (zh) | 代码文件的识别方法、装置、计算机设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |