CN108319630A - 信息处理方法、装置、存储介质和计算机设备 - Google Patents

信息处理方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN108319630A
CN108319630A CN201710543213.2A CN201710543213A CN108319630A CN 108319630 A CN108319630 A CN 108319630A CN 201710543213 A CN201710543213 A CN 201710543213A CN 108319630 A CN108319630 A CN 108319630A
Authority
CN
China
Prior art keywords
text
standard
keyword
snippet
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710543213.2A
Other languages
English (en)
Other versions
CN108319630B (zh
Inventor
赵自翔
吴昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710543213.2A priority Critical patent/CN108319630B/zh
Publication of CN108319630A publication Critical patent/CN108319630A/zh
Application granted granted Critical
Publication of CN108319630B publication Critical patent/CN108319630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息处理方法,包括:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。通过文本摘要计算相似度,检测待处理文本信息的敏感性,能够解决文本局部变形造成的干扰,提高抗干扰能力。还提供一种信息处理装置、存储介质和计算机设备。

Description

信息处理方法、装置、存储介质和计算机设备
技术领域
本发明涉及计算机技术领域,特别是涉及一种信息处理方法、装置、存储介质和计算机设备。
背景技术
在社交场景中,经常出现谣言消息,并且谣言消息通过改变时间地点等方式不断变形,带来不容忽视的安全隐患和舆论风险。
传统技术中,通常采用预设目标关键词的方式检测接收到的消息,在检测到消息包括预设目标关键词时,进行对用户发送提醒消息等操作。由于关键词需要人为预先设置,因此,采用关键词对消息进行检测,运营成本较高且抗干扰能力较差。
发明内容
基于此,有必要针对上述问题,提供一种信息处理方法、装置、存储介质和计算机设备,能够获取文本摘要,降低运营成本且根据文本摘要对信息内容进行检测,有效解决文本局部变形造成的干扰,提高了抗干扰能力。
一种信息处理方法,所述方法包括:
接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;
获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;
计算所述第一文本摘要与标准敏感文本摘要之间的相似度;
根据所述相似度确定所述待处理文本信息的敏感检测结果。
一种信息处理装置,所述装置包括:
第一获取模块,用于接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;
第二获取模块,用于获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;
相似度计算模块,用于计算所述第一文本摘要与标准敏感文本摘要之间的相似度;
结果确定模块,用于根据所述相似度确定所述待处理文本信息的敏感检测结果。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,使得所述处理器执行以下步骤:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算所述第一文本摘要与标准敏感文本摘要之间的相似度;根据所述相似度确定所述待处理文本信息的敏感检测结果。
上述信息处理方法、装置、存储介质和计算机设备,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要,并获取标准敏感文本摘要,通过计算标准敏感文本摘要和第一文本摘要之间的相似度确定待处理文本信息的敏感检测结果。能够根据待处理文本信息获取到待处理文本信息的第一文本摘要,不需要预先人为的根据经验进行设置,降低了对人工运营经验的要求,从而降低了运营成本。进一步地,通过计算第一文本摘要与标准敏感文本摘要之间的相似度确定待处理文本信息是否是敏感文本信息,利用文本摘要对待处理文本信息是否敏感进行检测,文本摘要具有一定的可读性和不可逆性且包括多个关键信息,能够解决文本局部变形造成的干扰,提高抗干扰能力,并且根据相似度确定敏感检测结果,而不是直接比较是否相同,增强了敏感检测结果的可控性。
附图说明
图1为一个实施例中信息处理方法的流程图;
图2为一个实施例中第一文本摘要提取方法的流程图;
图3为另一个实施例中第一文本摘要提取方法的流程图;
图4为一个实施例中相似度计算方法的流程图;
图5为另一个实施例中相似度计算方法的流程图;
图6为一个实施例中倒排索引文档生成方法的流程图;
图6A为一个实施例中倒排索引文档的组成示意图;
图7为一个实施例中信息处理方法的流程图;
图8为一个具体实施例中信息处理方法的流程图;
图8A为一个实施例中安全提醒消息的界面图;
图9为一个实施例中信息处理装置的结构框图;
图10为一个实施例中摘要提取模块的结构框图;
图11为另一个实施例中摘要提取模块的结构框图;
图12为一个实施例中相似度计算模块的结构框图;
图13为一个实施例中第三获取模块的结构框图;
图14为一个实施例中信息处理装置的结构框图;
图15为另一个实施例中信息处理装置的结构框图;
图16为又一个实施例中信息处理装置的结构框图;
图17为一个实施例中计算机设备内部结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供一种信息处理方法,包括以下内容:
步骤S110,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要。
其中,待处理文本信息是指待进行是否包含敏感信息检测的文本信息,敏感信息是指违法违规的信息内容,包括但不限于谣言、欺诈、赌博、刷票、广告等。待处理文本信息可以是终端接收到的文本信息,如从第一终端获取第二终端发送到第一终端的文本消息或从第一终端获取系统或服务器推送至第一终端的文本消息。待处理文本信息也可以是终端发送的消息,如第二终端通过服务器向第一终端发送消息,服务器获取第二终端发送的消息作为待处理文本消息。进一步地,接收到的待处理文本消息可以是原始文本消息,也可以是包括原始文本消息以及对应的文本摘要共同组成的文本消息。
其中,文本摘要是指能够简明、确切的记载文本重要内容,反映文本重要信息的内容,文本摘要包括多个关键词。
具体地,第一文本摘要可以是接收到待处理文本信息后提取得到的,也可以是在接收到待处理文本信息之前预先对待处理文本信息进行摘要提取并存储,在接收到待处理文本信息后直接获取得到的。若服务器接收到的待处理文本信息为原始文本信息,则利用摘要提取算法对待处理文本信息进行文本分析,结合待处理文本信息的内容语义等信息进行分析,对文本内容进行归纳,并生成对应的第一文本摘要,进一步地,摘要提取算法是一种实现自动提取文本摘要的算法,能够实现文本分析、内容归纳和摘要自动生成。若服务器接收到的待处理文本信息为包括原始文本消息和对应的文本摘要共同组成的文本消息时,则直接获取待处理文本信息对应的第一文本摘要。
进一步地,为了更好的对文本内容进行归纳,可以对文本进行分词或切词。若待处理文本为长文本则采用分词加摘要的处理方式,对待处理文本进行分词后,根据分词结果提取对应的文本摘要,能够实现对文本进行降维,提高处理效率。若待处理文本为短文本,如以链接标题为代表的短文本,由于这类文本词汇较少,比较容易被同音字、形近字或加符号等形式对抗干扰,导致文本中许多词汇失去意义,无法成功进行分词,为了获取准确的文本摘要,使用切词算法对短文本进行切词,得到文本中多个相邻的字形成的组合,根据切词结果提取文本摘要。
步骤S120,获取标准敏感文本摘要,标准敏感文本摘要通过对标准敏感文本进行摘要提取得到。
其中,标准敏感文本是指用来判断待处理文本信息是否为敏感文本信息的参考敏感文本。标准敏感文本摘要是标准敏感文本通过对标准敏感文本进行摘要提取得到的,包括标准敏感文本的重要信息。进一步地,可以预先人为的根据标准敏感文本提取多个关键字作为标准敏感文本摘要,也可以根据摘要提取算法提取标准敏感文本对应的标准敏感文本摘要。特别地,可以根据新闻媒体报道或统计用户举报行为增加或更改标准敏感文本,并获取对应的标准敏感文本摘要,保证能够及时检测到最新出现或变形后的敏感信息文本。
具体地,步骤S120由服务器执行,服务器根据预先存储的标准敏感文本摘要或者服务器根据预先存储的标准敏感文本利用摘要提取算法提取对应的标准敏感文本对应的文本摘要。
获取待处理文本信息对应的第一文本摘要与获取标准敏感文本摘要是两个并行的过程,没有先后顺序,本实施例中的标号先后不限定获取待处理文本信息的第一文本摘要和标准敏感文本摘要的先后顺序。
步骤S130,计算第一文本摘要与标准敏感文本摘要之间的相似度,根据相似度确定待处理文本信息的敏感检测结果。
其中,相似度用来反映两个文本之间的相似程度,可以根据文本相似度算法计算得到。在一个实施例中,可以使用Jaccard Index(杰卡德相似系数)度量待处理文本与标准敏感文本之间的相似度。Jaccard系数值越大,样本相似度越高,获取第一文本摘要和标准敏感文本摘要的交集和并集,计算交集与并集的比值表示相似度。
由于第一文本摘要能够反映待处理文本信息的重要信息,标准敏感文本摘要能够反映标准敏感文本的重要信息,因此,第一文本摘要与标准敏感文本摘要之间的相似度可以用来表征待处理文本与标准敏感文本之间的相似度。
具体地,服务器根据计算得到的相似度判断待处理文本信息是否为敏感文本信息,例如预设相似度阈值,当计算得到的相似度超过预设相似度阈值时,则待处理文本信息的敏感检测结果为待处理文本信息为敏感文本信息。或者,计算得到相似度后,结合第一文本摘要与标准敏感文本摘要相同部分判断待处理文本信息是否为敏感文本信息,例如利用第一文本摘要中的关键词与标准敏感文本摘要中的关键词计算相似度后,结合第一文本摘要与标准敏感文本摘要中相同的关键词对应的权重,相同的关键词对应的权重较大,则判定第一文本摘要对应的待处理文本信息为敏感文本信息。本实施例中,接收待处理文本信息后,获取待处理文本信息对应的第一文本摘要,并获取标准敏感文本摘要,通过计算标准敏感文本摘要和第一文本摘要之间的相似度确定待处理文本信息的敏感检测结果。能够通过摘要提取算法直接提取待处理文本信息的第一文本摘要,不需要预先人为的根据经验进行设置,降低了对人工运营经验的要求,从而降低了运营成本。进一步地,通过计算第一文本摘要与标准敏感文本摘要之间的相似度确定待处理文本信息是否是敏感文本信息,利用文本摘要对待处理文本信息是否敏感进行检测,文本摘要具有一定的可读性和不可逆性且包括多个关键信息,能够解决文本局部变形造成的干扰,提高抗干扰能力,并且根据相似度确定敏感检测结果,而不是直接比较是否相同,改变几个关键词几乎不会影响检测结果,增强了敏感检测结果的可控性。
如图2所示,在一个实施例中,步骤S110包括:
步骤S110A,根据分词切分算法得到待处理文本信息对应的分词。
其中,分词切分算法是将连续的字序列按照一定的规范重新组合成词序列的算法,可以按照一定的策略将待处理文本信息与预设的机械词典中的词进行匹配,匹配成功则获取对应的分词。或者利用算法对待处理文本信息进行语义分析,利用待处理文本的句法信息和语义信息对待处理文本信息进行分词。也可以利用基于统计机器学习的算法,建立模型并进行训练,利用训练得到的模型对待处理文本信息进行分词。
具体地,服务器接收到待处理文本信息后,调用预先存储在服务器中的分词切分算法,对待处理文本消息进行分词。
步骤S110B,计算分词对应的词频,利用语料库计算各个分词对应的逆文档频率,分别将各个分词对应的词频与逆文档频率相乘得到对应的权重值。
其中,分词对应的词频是指该分词在待处理文本中出现的频率。进一步地,由于文本有长短之分,为了便于不同文本之间的比较,使用某个分词在文本中出现的次数与文本总词数的比值或者某个分词在文本中出现的次数与文本中出现次数最多的词的出现次数的比值作为词频。
分词逆文档频率为语料库中的文档总数与包含该分词的文档数加1的值的比值取对数得到的值。如果一个分词越常见,对应的逆文档频率就越小。其中,语料库存放的是在语言的实际使用中真实出现过的语言材料,是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过分析和处理,才能成为有用的资源。
具体地,由于一个文本中一个分词出现的频率较高,但可能是比较常见的词,不能反映出文本的重要信息,因此需要使用分词逆文档频率调整分词的权重,比较常见的词对应较小的逆文档频率,不常见的词则对应较大的逆文档频率。服务器通过调用词频计算方法和分词逆文档频率计算方法分别计算得到词频和分词逆文档频率后,将分词词频和分词逆文档频率相乘得到该分词对应的最终权重值,体现该分词在文本中的重要程度。
步骤S110C,将权重值排序,并按照权重值从高到低的顺序获取预设数目的分词构成待处理文本信息对应的第一文本摘要。
具体地,服务器将计算得到的各个权重值进行排序,按照权重值从高到低的顺序获取预设数目的分词,将获取的分词构成待处理文本信息对应的第一文本摘要。
本实施例中,对待处理文本信息进行分词,并在分词后计算文本中各个分词对应的词频、逆文档频率,使用词频与逆文档频率相乘得到的值作为分词的对应的权重值,能够快速简单的根据实际情况获取分词的权重值,判断分词的重要程度,从而确定待处理文本信息对应的第一文本摘要。
如图3所示,在一个实施例中,步骤S110包括:
步骤S111,根据分词切分算法得到待处理文本信息对应的分词。
其中,分词切分算法是将连续的字序列按照一定的规范重新组合成词序列的算法,可以按照一定的策略将待处理文本信息与预设的机械词典中的词进行匹配,匹配成功则获取对应的分词。或者利用算法对待处理文本信息进行语义分析,利用待处理文本的句法信息和语义信息对待处理文本信息进行分词。也可以利用基于统计机器学习的算法,建立模型并进行训练,利用训练得到的模型对待处理文本信息进行分词。步骤S111由服务器执行,服务器根据预先存储分词切分算法对待处理文本信息进行分词。
步骤S112,对分词进行词性标注,去除分词中的停用词得到候选关键词集合。
其中,停用词是指在信息检索中,为节省存储空间或提高搜索效率,在处理文本之前或之后自动过滤掉的词,如应用十分广泛的词或语气助词、副词、介词、连接词等通常自身并无明确意义的词,如在、的、是。
对待处理文本信息进行分词,并对分析进行词性标注,如注明分词为名词、形容词、动词等,根据预先设置的停用词表以及词性标注去除待处理文本信息中的停用词,得到剩余的分词作为候选关键词集合。
步骤S113,根据预设的窗体长度截取候选关键词集合,得到各个窗体对应的目标候选关键词集合。
其中,窗体是一个矩形区域,在同一个窗体中的分词具有共现关系。其中,出现关系是指共同出现的分词之间的相互关系。
预设窗体长度如为K,则表示每个窗体中的分词数量为K,根据预设窗体长度将待处理文本得到的候选关键词按照窗体长度进行划分,得到每一个窗体对应的目标候选关键词集合。具体地,如待处理文本中包括的分词数目为N,分别为w1、w2、w3、w4、w5、…、wn,预设的窗体长度为K,则根据预设的窗体长度截取候选关键词集合得到的结果为w1、w2、w3、w4、w5、…、wk为同一个窗体内的分词,w2、w3、w4、w5、…、wk+1为同一个窗体内的分词。每一个窗体中的分词构成了该窗体对应的目标候选关键词集合。
步骤S114,将每个候选关键词作为一个节点,构造各个目标候选关键词集合中任意两个节点之间的边,构建候选关键词集合对应的候选关键词图。
具体地,用窗体对候选关键词集合进行截取,将分词与相邻的词划分到同一个窗体中,在同一个窗体中的分词存在着相互关系,将每个分词作为一个节点,在每一个窗体中构造任意两个节点之间的边,体现分词之间的相互关系,构建候选关键词集合对应的候选关键词图。
步骤S115,预设各个节点的初始化权重,利用网页排名迭代算法循环迭代候选关键词图,得到各个节点对应的节点权重值。
具体地,网页排名迭代算法是指Page-Rank算法,用来计算网页的重要性,整个万维网看作是一个有向图,节点是网页。使用如下公式计算各个节点的重要性。
其中,S(Vi)是指网页i的重要性,d是阻尼系数,一般设置为0.85。In(Vi)是存在指向网页i的链接的网页集合。Out(Vj)是网页j中的链接存在的链接指向的网页的集合,|Out(Vj)|是指向的网页的集合中元素的个数。
预设各个分词对应的节点的初始权重为1,根据待处理文本信息中的各个分词对应的节点的初始权重以及各个节点之间的关系,按照预设迭代次数利用上述关系迭代各个分词节点的权重。
步骤S116,按照节点权重值由高到低的顺序获取预设数目的候选关键词构成待处理文本信息对应的第一文本摘要。
具体地,得到各个节点权重值后,对各个分词对应的节点权重值进行排序,并按照节点权重值由高到低的顺序获取预设数目的候选关键词,将获取到的候选关键词构成待处理文本信息对应的第一文本摘要。
本实施例中,通过对待处理文本信息进行分词处理,去除停用词得到候选关键词,使用预设长度的窗体截取候选关键词,获取每一个窗体对应的目标候选关键词集合以及各个候选关键词之间的共现关系,将每个候选关键词作为节点,构建候选关键词之间的边,形成候选关键词图,利用网页排名迭代算法根据候选关键词图循环迭代计算各个节点的权重值,根据关键词之间的关系计算各个关键词对应的节点的权重值,考虑了邻域对关键词造成的影响,增加了文本摘要的可靠性。
在另外一个实施例中,可以使用TF-IDF算法计算待处理文本信息中各个分词的权重,提取待处理文本信息摘要。
如图4所示,在一个实施例中,步骤S130包括:
步骤S131,获取第一文本摘要与目标标准敏感文本摘要中相同关键词的数目。
其中,目标标准敏感文本摘要是指与第一文本摘要进行比较的标准敏感文本摘要。如预先对存储的标准敏感文本摘要进行分类,并按照分类存储在服务器中,服务器根据第一文本摘要的信息对应的分类确定目标标准敏感文本摘要。进一步地,也可以通过将第一文本摘要对应的关键词与每一个标准敏感文本摘要对应的关键词对比后,将关键词相同数目较多的标准敏感文本摘要作为目标标准敏感文本摘要。
具体地,预先设置关键词标识,用来唯一标识关键词,当关键词标识相同时,说明对应的关键词相同。依次获取第一文本摘要中的关键词对应的关键词标识,分别与目标标准敏感文本摘要中的关键词标识逐一对比,记录相同的关键词标识,第一文本摘要对应的关键词对比完成后,统计记录的关键词标识,获取相同的关键词数目。进一步地,若目标标准敏感文本摘要有多个,则依次获取与每个目标标准敏感文本摘要之间相同的关键词数目,并将相同关键词数目与对应的目标标准敏感文本摘要标识建立关联关系。
步骤S132,获取目标标准敏感文本摘要对应的关键词数目得到第一特征值,获取第一文本摘要对应的关键词数目得到第二特征值。
本实施例中,第一特征值即为对应的目标标准敏感文本摘要中关键词的数目,第二特征值即为第一文本摘要中关键词的数目。
步骤S133,获取第一特征值与第二特征值中的较大特征值作为目标特征值,计算相同关键词的数目与目标特征值的比值得到相似度。
对Jaccard Index相似系数计算方法进行改进,使用公式
计算相似度,其中,分子代表第一文本摘要与标准敏感文本摘要之间的交集,分母表示第一文本摘要与标准敏感文本摘要对应的特征值较大的值。
本实施例中,将获取目标标准敏感文本摘要与第一文本摘要中的相同关键词数目作为第一文本摘要与目标标准敏感文本摘要的交集,将第一特征值和第二特征值中数值较大的特征值代替第一文本摘要与目标标准敏感文本摘要的并集,只需要统计依次各个标准敏感文本摘要的特征值,不需要重复统计第一文本摘要与目标标准敏感文本摘要的并集,简化了计算步骤,提高了相似度计算的效率。
如图5所示,在一个实施例中,步骤S131包括:
步骤S131A,获取倒排索引文档,倒排索引文档记录了标准敏感文本库中各个标准关键词和标准关键词对应的标准敏感文本编号组合的关联关系。
其中,倒排索引是指根据属性值查找存在该属性值的记录。倒排索引文档就是能够利用标准关键词查找具有该标准关键词的标准敏感文本的文档。标准敏感文本编号组合是指存在同一标准关键词的各个标准敏感文本编号的集合。
预先获取标准敏感文本库中包含的各个标准关键词,并获取包含各个关键词的标准敏感文本,将包含同一个标准关键词的标准敏感文本对应的标准敏感文本编号形成该标准关键词对应的标准敏感文本编号组合,并建立关联关系。
步骤S131B,获取第一文本摘要中包括的待测关键词,依次获取各个待测关键词在倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合。
具体地,服务器获取到对应的倒排索引文件后,获取第一文本摘要中的第一待测关键词,将第一待测关键词作为当前待测关键词,获取倒排索引文档中与第一待测关键词相同的标准关键词,根据记录的标准关键词与标准敏感文本编号组合的对应关系,获取第一待测关键词对应的标准敏感文本标号组合。如,关键词A对应的标准敏感文本编号组合为1、3、5,也就是标准敏感文本1、3、5出现过关键词A,第一文本摘要的第一待测关键词A对应的标准敏感文本标号组合就是标准敏感文本1、3、5。获取第一文本摘要中的下一个待测关键词,重复执行上述过程,直至检测完第一文本摘要中所有的关键词。
步骤S131C,统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本,将目标标准敏感文本对应的重复次数作为相同关键词的数目。
具体地,服务器检测完第一文本摘要中的所有关键词后,统计与第一文本摘要中的各个关键词对应的标准敏感文本标号组合中包括的标准敏感文本编号,将重复次数最多的标准敏感文本标号对应的标准敏感文本作为目标标准敏感文本。
进一步地,将目标标准敏感文本与第一文本摘要的重复次数作为相同关键词的数目,将目标标准敏感文本对应的关键词数目作为第一特征值,获取第一特征值与第一文本摘要对应的关键词数目作为第二特征值,获取第一特征值和第二特征值中数值较大的作为目标特征值,计算第一文本摘要与目标标准敏感文本摘要的相似度。
进一步地,结合倒排索引文档和相似度算法计算相似度之后,将相似度与预设相似度阈值比较,当判断相似度大于预设相似度阈值时,则说明第一文本摘要对应的待处理文本信息为敏感文本信息,若小于预设相似度阈值,则说明待处理文本信息不是敏感文本信息,更进一步地,可以将计算得到的相似度与其他文本特征,比如相同关键字的权重值等结合判断待处理文本信息是否为敏感信息。
本实施例中,通过获取倒排索引文档,获取与第一文本摘要中各个待测关键词相同的标准关键词,通过标准关键词获取与第一文本摘要中各个待测关键词对应的标准敏感文本编号组合,统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本,将目标标准敏感文本对应的特征值与第一文本摘要对应的特征值对比获取到目标特征值,实现对相似度的计算。将倒排索引文档与相似度计算算法相结合,可以以最快的时间效率计算相似度,可以满足实时在线使用要求。
如图6所示,在一个实施例中,步骤S131A之前还包括:
步骤S210,以标准敏感文本摘要库中的各个标准关键词建立索引。
具体地,服务器根据设置的关键词标识符,以关键词标识符唯一标识关键词,相同的关键词对应相同的关键词标识符,获取标准敏感文本摘要库中所有的标准关键词标识符,以各个标准关键词标识符建立索引。
步骤S220,将第一标准关键词作为当前处理关键词,获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的编号,将获取的各个标准敏感文本编号组成标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系。
具体地,服务器将第一标准关键词标识符对应的第一标准关键词作为当前处理关键词,将当前处理关键词依次遍历标准敏感文本库中的各个标准敏感文本,记录存在当前处理关键词标准敏感文本对应的标准敏感文本编号,将所有存在当前处理关键词的标准敏感文本编号组合形成当前处理关键词对应的标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系。
步骤S230,获取下一个标准关键词作为当前处理关键词,进入步骤S220,直至所有标准关键词建立与标准敏感文本编号的关联关系。
步骤S240,将各个标准关键词和标准关键词对应的标准敏感文本编号组合的关联关系形成倒排索引文档。
具体地,服务器将各个标准关键词和标准关键词对应的标准敏感文本编号组合的关联关系形成倒排索引文档,并存储倒排索引文档。
如图6A所示,倒排索引文档600包括以关键词建立索引形成索引序列610,索引序列600中包括多个不同的标准关键词,如标准关键词A、标准关键词B、标准关键词C,记录每一个标准关键词对应的存在该标准关键词的标准敏感文本对应的标准敏感文本编号,如关键词A在标准敏感文本1、3、5中出现过,关键词B在标准敏感文本2、3、6中出现过,关键词C在关键词A在标准敏感文本2、4、5中出现过,将各个标准关键词与对应的包括该关键词的标准敏感文本对应的标准敏感文本编号组合的关联关系形成倒排索引文档。
本实施例中,以标准敏感文本库中的标准关键词建立索引,获取存在标准关键词的标准敏感文本,将同一个标准敏感关键词与对应的各个标准敏感文本的标准敏感文本编号建立关联关系,形成倒排索引文档,便于对待处理文本信息进行相似度计算。进一步地,利用计算得到的相似度判断待处理文本信息是否为敏感信息,提高相似度的计算效率,进一步提高了对待处理文本信息的处理效率,能够满足实时性要求。
如图7所示,在一个实施例中,步骤S110之前还包括:
步骤S100A,根据权威机构或用户举报获取敏感文本信息。
其中,权威机构是指在某些领域确定该领域事实数据的机构,可以是专门的认证机构也可以权威媒体。根据权威机构近期公布或权威媒体近期报道的消息,如谣言消息等,获取对应的敏感文本信息。
也可以通过用户举报获取敏感文本信息,如在社交场景内设置举报通道,当用户发现社交场景内出现敏感文本信息,如谣言信息等可以进行举报,服务器通过举报口径获取对应的举报消息,并对用户举报的文本信息按照一定规则或者让权威机构进行认证判断是否为敏感文本信息,如果是,则记录该文本消息为敏感文本信息。
步骤S100B,获取敏感文本信息对应的安全提醒信息,安全提醒消息包括敏感文本信息的部分原始信息和对应的提醒信息。
具体地,服务器根据权威机构认证或者用户通过终端举报,获取到敏感文本信息后,获取根据敏感文本信息制定对应的安全提醒信息。从敏感文本信息中提取一部分原始信息作为安全提醒信息,帮助用户确认敏感文本信息并节省空间以及保护隐私。并根据敏感文本信息设置对应的提醒信息,该提醒信息可以是权威机构出具的关于敏感文本信息的实施认证,以及相关报道。
步骤S100C,将敏感文本信息与安全提醒信息建立绑定关系后形成标准敏感文本,将标准敏感文本存储至标准敏感文本信息库。
具体地,将敏感文本信息与安全提醒信息建立绑定关系后形成标准敏感文本,将标准敏感文本存储至预先建立的标准敏感文本库中。标准敏感文本中包括敏感文本信息与安全提醒信息,对标准敏感文本使用摘要提取算法进行摘要提取时,只对标准敏感文本中的敏感文本信息进行摘要提取,并将待处理文本信息对应的第一文本摘要与敏感文本信息对应的文本摘要进行相似度计算。
本实施例中,通过权威机构和用户举报获取敏感文本信息,并为敏感文本信息制定对应的安全提醒信息,并将将敏感文本信息与安全提醒信息建立绑定关系后形成标准敏感文本,有助于在发现敏感文本信息时对用户进行安全提醒。标准敏感文本信息库中的标准敏感信息文本均来源于权威机构或用户举报的文本消息,具有很高的真实性,能够保证敏感文本信息检测的权威性,提高敏感文本信息检测的准确性。
在一个实施例中,步骤S130之后还包括:若敏感检测结果为待处理文本信息为敏感文本信息,则获取待处理文本信息对应的用户标识;评定用户标识对应的敏感信息传播等级,当敏感信息传播等级超过预设敏感等级时,向用户标识对应的终端下发待处理文本信息对应的标准敏感文本中的安全提醒消息。
具体地,在社交场景中,文本消息能够携带发送或发表该文本消息的用户标识,服务器根据接收到的待处理文本信息获取对应的用户标识,评定该用户标识对敏感信息的传播等级,具体的评定方法可以是服务器统计用户发送的敏感文本消息的数量和频率,如发送预设数目的敏感文本消息或者在用户发送敏感文本消息的频率超过预设阈值时,增加用户标识的敏感信息传播等级,并判断当前用户标识对应的敏感信息传播等级是否超过预设敏感等级,如果是,则从存储的标准敏感文本库中获取待处理文本消息对应的最接近的标准敏感文本对应的安全提醒消息,向该用户标识对应的终端下发对应的安全提醒消息。
进一步地,可以以安全卡片的形式下发安全提醒消息,同时设置安全提醒消息下发的频率,保证一定时间内即使敏感文本信息发送者发送了大量的敏感文本信息,也只进行一次安全提醒,降低网络资源的占用。
本实施例中,通过获取待处理文本信息对应的用户标识,评定用户标识敏感信息传播等级,进一步地,对敏感信息传播等级超过预设敏感等级的用户标识对应的终端发送安全提醒消息。通过敏感信息传播等级确定接收安全提醒消息的用户标识,节省网络资源,保持良好的社交通信环境。
如图8所示,在一个具体实施例中,以社交场景内谣言信息为例,提供一种信息处理方法,包括以下内容:
步骤S801,根据权威机构或用户举报获取谣言信息。
步骤S802,获取谣言信息对应的安全提醒信息,安全提醒消息包括敏感文本信息的部分原始信息和对应的提醒信息。
步骤S803,将谣言信息与安全提醒信息建立绑定关系后形成标准谣言文本,将标准谣言文本存储至标准谣言文本信息库。
步骤S804,以标准谣言文本摘要库中的各个标准关键词建立索引,将第一标准关键词作为当前处理关键词,获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的编号,将获取的各个标准敏感文本编号组成标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系。
步骤S805,获取下一个标准关键词作为当前处理关键词,进入获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的编号的步骤,直至所有标准关键词建立与标准敏感文本编号的关联关系。
步骤S806,将各个标准关键词和标准关键词对应的标准敏感文本编号组合的关联关系形成倒排索引文档。
步骤S807,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要。
步骤S808,获取倒排索引文档,获取第一文本摘要中包括的待测关键词,获取各个待测关键词在倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合。
步骤S809,统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本。
步骤S810,将目标标准敏感文本对应的重复次数作为相同关键词的数目,获取目标标准谣言文本对应的关键词数目得到第一特征值,获取第一文本摘要对应的关键词数目得到第二特征值。
步骤S811,获取第一特征值与第二特征值中的较大特征值作为目标特征值,计算相同关键词的数目与目标特征值的比值得到相似度。
具体地,如第一文本摘要对应的关键词分别为A、C、E,在倒排索引文档中,存在标准关键词A、标准关键词C和标准关键词E,倒排索引文档中标准关键词A对应的标准敏感文本编号分别为1、3、5,也就是标准敏感文本1、标准敏感文本3、标准敏感文本5中存在关键词A,标准关键词C对应的标准敏感文本编号分别为2、3、4,标准关键词E对应的标准敏感文本编号分别为3、4、6。统计与第一文本摘要对应的关键词重复次数最多的为标准敏感文本编号为3,重复次数为3次,若记载到标准敏感文本编号为3的标准敏感文本对应的关键词数目为5,则第一文本摘要与标准敏感文本的相似度为0.6。进一步地,可以根据预设相似度阈值判断第一文本摘要对应的待处理文本信息是否为敏感文本信息,若预设相似度阈值低于0.6,则待处理文本信息为敏感文本信息。
步骤S812,当根据相似度确定待处理文本信息为谣言信息时,获取待处理文本信息对应的用户标识。
步骤S813,评定用户标识对应的谣言信息传播等级,当谣言信息传播等级超过预设谣言等级时,向用户标识对应的终端下发待处理文本信息对应的标准谣言文本中的安全提醒消息。
如图8A所示,以在微信中发送谣言消息为例,当检测到多人会话中当前发送的消息为谣言消息,则在当前页面800中获取谣言消息810对应的用户标识810A,通过系统向用户标识810A对应的终端推送安全提醒消息页面820,包括部分原始谣言信息820A和提醒信息820B,点击详情按钮830,进入详情页面840,阅读详情信息后,还可以跳转至投票页面850对谣言安全提醒信息进行投票,便于统计安全提醒信息的反馈情况,便于后续调整安全提醒信息,增强谣言提醒的准确性和真实性。
本实施例中,通过权威机构和用户举报获取谣言信息,并将谣言信息与对应的安全提醒信息建立绑定关系,形成标准谣言文本存储至标准谣言文本库。通过倒排索引文档确定目标标准敏感文件和相同关键词数目,进一步地,根据关键词相同数目和文本摘要特征值计算第一文本摘要和目标标准谣言文本摘要的相似度,从而根据相似度判断待处理文本信息是否是谣言信息,当待处理文本信息是谣言信息时,获取对应的用户标识下发安全提醒信息进行提醒。采用倒排索引文档对相似度进行计算,提高了计算效率,同时通过提取文本摘要确定相似度,判断待处理文本信息是否为谣言信息,能够解决文本局部变形造成的干扰,提高了检测谣言的抗干扰能力。
如图9所示,在一个实施例中,提供一种信息处理装置,包括:
第一获取模块910,用于接收待处理文本信息,获取待处理文本信息对应的第一文本摘要。
第二获取模块920,用于获取标准敏感文本摘要,标准敏感文本摘要通过对标准敏感文本进行摘要提取得到。
相似度计算模块930,用于计算第一文本摘要与标准敏感文本摘要之间的相似度。
结果确定模块940,用于根据相似度确定待处理文本信息的敏感检测结果。
本实施例中,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要,并获取标准敏感文本摘要,通过计算标准敏感文本摘要和第一文本摘要之间的相似度确定待处理文本信息的敏感检测结果。能够通过摘要提取算法直接提取待处理文本信息的第一文本摘要,不需要预先人为的根据经验进行设置,降低了对人工运营经验的要求,从而降低了运营成本。进一步地,通过计算第一文本摘要与标准敏感文本摘要之间的相似度确定待处理文本信息是否是敏感文本信息,利用文本摘要对待处理文本信息是否敏感进行检测,文本摘要具有一定的可读性和不可逆性且包括多个关键信息,能够解决文本局部变形造成的干扰,提高抗干扰能力,并且根据相似度确定敏感检测结果,而不是直接比较是否相同,增强了敏感检测结果的可控性。
如图10所示,在一个实施例中,第一获取模块910包括:
分词模块911,用于根据分词切分算法得到待处理文本信息对应的分词。
权重值计算模块913,用于计算分词对应的词频,利用语料库计算各个分词对应的逆文档频率,分别将各个分词对应的词频与逆文档频率相乘得到对应的权重值。
文本摘要生成模块915,用于将权重值排序,并按照权重值从高到低的顺序获取预设数目的分词构成待处理文本信息对应的第一文本摘要。
如图11所示,在一个实施例中,第一获取模块910包括:
分词模块911,还用于根据分词切分算法得到待处理文本信息对应的分词。
窗体划分模块912,用于对分词进行词性标注,去除分词中的停用词得到候选关键词集合,根据预设的窗体长度截取候选关键词集合,得到各个窗体对应的目标候选关键词集合。
构建模块914,用于将每个候选关键词作为一个节点,构造各个目标候选关键词集合中任意两个节点之间的边,构建候选关键词集合对应的候选关键词图。
权重值计算模块913,还用于预设各个节点的初始化权重,利用网页排名迭代算法循环迭代候选关键词图,得到各个节点对应的节点权重值。
文本摘要生成模块915,还用于按照节点权重值由高到低的顺序获取预设数目的候选关键词构成待处理文本信息对应的第一文本摘要。
如图12所示,在一个实施例中,相似度计算模块930包括:
第三获取模块931,用于获取第一文本摘要与目标标准敏感文本摘要中相同关键词的数目。
目标特征值获取模块933,用于获取目标标准敏感文本摘要对应的关键词数目得到第一特征值,获取第一文本摘要对应的关键词数目得到第二特征值,获取第一特征值与第二特征值中的较大特征值作为目标特征值。
计算模块935,用于计算相同关键词的数目与目标特征值的比值得到相似度。
如图13所示,在一个实施例中,第三获取模块931包括:
调用模块931A,用于获取倒排索引文档,倒排索引文档记录了标准敏感文本库中各个标准关键词和标准关键词的标准敏感文本编号组合的关联关系。
索引模块931B,用于获取第一文本摘要中包括的待测关键词,依次获取各个待测关键词在倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合。
统计模块931C,用于统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本,将目标标准敏感文本对应的重复次数作为相同关键词的数目。
如图14所示,在一个实施例中,信息处理装置还包括:
索引建立模块930A,用于以标准敏感文本摘要库中的各个标准关键词建立索引。
关联关系建立模块930B,用于将第一标准关键词作为当前处理关键词,获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的编号,将获取的各个标准敏感文本编号组成标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系。
循环模块930C,用于获取下一个标准关键词作为当前处理关键词,进入关联关系建立模块930B,直至所有标准关键词建立与对应的标准敏感文本编号组合的关联关系。
倒排索引文档生成模块930D,用于将各个标准关键词和标准关键词与标准敏感文本编号组合的关联关系形成倒排索引文档。
如图15所示,在一个实施例中,信息处理装置还包括:
敏感文本信息获取模块950,用于根据权威机构或用户举报获取敏感文本信息。
安全提醒信息获取模块960,用于获取敏感文本信息对应的安全提醒信息,安全提醒消息包括敏感文本信息的部分原始信息和对应的提醒信息。
标准敏感文本信息库建立模块970,用于将敏感文本信息与安全提醒信息建立绑定关系后形成标准敏感文本,将标准敏感文本存储至标准敏感文本信息库。
如图16所示,在一个实施例中,信息处理装置还包括:
用户标识获取模块980,用于若敏感检测结果为待处理文本信息为敏感文本信息,则获取待处理文本信息对应的用户标识。
下发模块990,用于评定用户标识对应的敏感信息传播等级,当敏感信息传播等级超过预设敏感等级时,向用户标识对应的终端下发待处理文本信息对应的标准敏感文本中的安全提醒消息。
如图17所示,为一个实施例中计算机设备的内部结构图,该计算机设备通过系统连接总线连接处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质可存储操作系统和计算机可读指令,该计算机可读指令被执行时,可使得处理器执行一种信息处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种信息处理方法。计算机设备的网络接口用于进行网络通信,如接收待处理文本信息,发送待处理文本信息的敏感检测结果等。该计算机设备可以是服务器,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。计算机设备也可以是终端,终端的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。触摸层和显示屏构成触控屏。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的信息处理装置可以实现为一种计算机程序的形式,计算机程序可在如图17所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该信息处理装置的各个程序模块,比如图9中的第一获取模块910、第二获取模块920、相似度计算模块930及结果确定模块940。各个程序模块中包括计算机可读指令,计算机可读指令用于使计算机设备执行本说明书中描述的本申请各个实施例的信息处理方法中的步骤,计算机设备中的处理器能够调用计算机设备的非易失性存储介质中存储的信息处理装置的各个程序模块,运行对应的可读指令,实现本说明书中信息处理装置的各个模块对应的功能。例如,计算机设备可以通过如图9所示的信息处理装置中的第一获取模块910接收待处理文本信息,获取待处理文本信息对应的第一文本摘要,通过第二获取模块920获取标准敏感文本摘要,标准敏感文本摘要通过对标准敏感文本进行摘要提取得到,通过相似度计算模块930计算第一文本摘要与标准敏感文本摘要之间的相似度,并通过结果确定模块940根据相似度确定待处理文本信息的敏感检测结果。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,计算机可执行指令被处理器执行时,使得处理器执行以下步骤:接收待处理文本信息获取待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算第一文本摘要与标准敏感文本摘要之间的相似度;根据相似度确定待处理文本信息的敏感检测结果。
上述计算机存储介质,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要,并获取标准敏感文本摘要,通过计算标准敏感文本摘要和第一文本摘要之间的相似度确定待处理文本信息的敏感检测结果。能够通过摘要提取算法直接提取待处理文本信息的第一文本摘要,不需要预先人为的根据经验进行设置,降低了对人工运营经验的要求,从而降低了运营成本。进一步地,通过计算第一文本摘要与标准敏感文本摘要之间的相似度确定待处理文本信息是否是敏感文本信息,利用文本摘要对待处理文本信息是否敏感进行检测,文本摘要具有一定的可读性和不可逆性且包括多个关键信息,能够解决文本局部变形造成的干扰,提高抗干扰能力,并且根据相似度确定敏感检测结果,而不是直接比较是否相同,增强了敏感检测结果的可控性。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:根据分词切分算法得到待处理文本信息对应的分词;计算分词对应的词频;利用语料库计算各个分词对应的逆文档频率,分别将各个分词对应的词频与逆文档频率相乘得到对应的权重值;将权重值排序,并按照权重值从高到低的顺序获取预设数目的分词构成待处理文本信息对应的第一文本摘要。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:根据分词切分算法得到待处理文本信息对应的分词;对分词进行词性标注,去除分词中的停用词得到候选关键词集合;根据预设的窗体长度截取候选关键词集合,得到各个窗体对应的目标候选关键词集合;将每个候选关键词作为一个节点,构造各个目标候选关键词集合中任意两个节点之间的边,构建候选关键词集合对应的候选关键词图;预设各个节点的初始化权重,利用网页排名迭代算法循环迭代候选关键词图,得到各个节点对应的节点权重值;按照节点权重值由高到低的顺序获取预设数目的候选关键词构成待处理文本信息对应的第一文本摘要。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:获取第一文本摘要与目标标准敏感文本摘要中相同关键词的数目;获取目标标准敏感文本摘要对应的关键词数目得到第一特征值;获取第一文本摘要对应的关键词数目得到第二特征值;获取第一特征值与第二特征值中的较大特征值作为目标特征值;计算相同关键词的数目与目标特征值的比值得到相似度。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:获取倒排索引文档,倒排索引文档记录了标准敏感文本库中各个标准关键词和该标准关键词对应的标准敏感文本编号组合的关联关系;获取第一文本摘要中包括的待测关键词,依次获取各个待测关键词在倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合;统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本;将目标标准敏感文本对应的重复次数作为相同关键词的数目。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:以标准敏感文本摘要库中的各个标准关键词建立索引;将第一标准关键词作为当前处理关键词,获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的编号,将获取的各个标准敏感文本编号组成标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系;获取下一个标准关键词作为当前处理关键词,进入获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的各个标准敏感文本编号组成标准敏感文本编号组合的步骤,直至所有标准关键词建立与标准敏感文本编号的关联关系;将各个标准关键词和标准关键词对应的标准敏感文本编号组合的关联关系形成倒排索引文档。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:根据权威机构或用户举报获取敏感文本信息;获取敏感文本信息对应的安全提醒信息,安全提醒消息包括敏感文本信息的部分原始信息和对应的提醒信息;将敏感文本信息与安全提醒信息建立绑定关系后形成标准敏感文本,将标准敏感文本存储至标准敏感文本信息库。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:若敏感检测结果为待处理文本信息为敏感文本信息,则获取待处理文本信息对应的用户标识;评定用户标识对应的敏感信息传播等级,当敏感信息传播等级超过预设敏感等级时,向用户标识对应的终端下发待处理文本信息对应的标准敏感文本中的安全提醒消息。
在一个实施例中,提供一种计算机设备,包括存储器和处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:接收待处理文本信息获取待处理文本信息对应的第一文本摘要;获取标准敏感文本摘要,标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;计算第一文本摘要与标准敏感文本摘要之间的相似度;根据相似度确定待处理文本信息的敏感检测结果。
上述计算机设备,接收待处理文本信息,获取待处理文本信息对应的第一文本摘要,并获取标准敏感文本摘要,通过计算标准敏感文本摘要和第一文本摘要之间的相似度确定待处理文本信息的敏感检测结果。能够通过摘要提取算法直接提取待处理文本信息的第一文本摘要,不需要预先人为的根据经验进行设置,降低了对人工运营经验的要求,从而降低了运营成本。进一步地,通过计算第一文本摘要与标准敏感文本摘要之间的相似度确定待处理文本信息是否是敏感文本信息,利用文本摘要对待处理文本信息是否敏感进行检测,文本摘要具有一定的可读性和不可逆性且包括多个关键信息,能够解决文本局部变形造成的干扰,提高抗干扰能力,并且根据相似度确定敏感检测结果,而不是直接比较是否相同,增强了敏感检测结果的可控性。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:根据分词切分算法得到待处理文本信息对应的分词;计算分词对应的词频;利用语料库计算各个分词对应的逆文档频率,分别将各个分词对应的词频与逆文档频率相乘得到对应的权重值;将权重值排序,并按照权重值从高到低的顺序获取预设数目的分词构成待处理文本信息对应的第一文本摘要。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:根据分词切分算法得到待处理文本信息对应的分词;对分词进行词性标注,去除分词中的停用词得到候选关键词集合;根据预设的窗体长度截取候选关键词集合,得到各个窗体对应的目标候选关键词集合;将每个候选关键词作为一个节点,构造各个目标候选关键词集合中任意两个节点之间的边,构建候选关键词集合对应的候选关键词图;预设各个节点的初始化权重,利用网页排名迭代算法循环迭代候选关键词图,得到各个节点对应的节点权重值;按照节点权重值由高到低的顺序获取预设数目的候选关键词构成待处理文本信息对应的第一文本摘要。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:获取第一文本摘要与目标标准敏感文本摘要中相同关键词的数目;获取目标标准敏感文本摘要对应的关键词数目得到第一特征值;获取第一文本摘要对应的关键词数目得到第二特征值;获取第一特征值与第二特征值中的较大特征值作为目标特征值;计算相同关键词的数目与目标特征值的比值得到相似度。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:获取倒排索引文档,倒排索引文档记录了标准敏感文本库中各个标准关键词和标准关键词对应的标准敏感文本编号组合的关联关系;获取第一文本摘要中包括的待测关键词,依次获取各个待测关键词在倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合;统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本;将目标标准敏感文本对应的重复次数作为相同关键词的数目。
在一个实施例中,计算机可执行指令被处理器执行时,还使得处理器执行以下步骤:以标准敏感文本摘要库中的各个标准关键词建立索引;将第一标准关键词作为当前处理关键词,获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的编号,将获取的各个标准敏感文本编号组成标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系;获取下一个标准关键词作为当前处理关键词,进入获取标准敏感文本库中存在当前处理关键词的标准敏感文本对应的各个标准敏感文本编号组成标准敏感文本编号组合的步骤,直至所有标准关键词建立与标准敏感文本编号的关联关系;将各个标准关键词和标准关键词对应的标准敏感文本编号组合的关联关系形成倒排索引文档。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:根据权威机构或用户举报获取敏感文本信息;获取敏感文本信息对应的安全提醒信息,安全提醒消息包括敏感文本信息的部分原始信息和对应的提醒信息;将敏感文本信息与安全提醒信息建立绑定关系后形成标准敏感文本,将标准敏感文本存储至标准敏感文本信息库。
在一个实施例中,计算机可读指令被处理器执行时,还使得处理器执行以下步骤:若敏感检测结果为待处理文本信息为敏感文本信息,则获取待处理文本信息对应的用户标识;评定用户标识对应的敏感信息传播等级,当敏感信息传播等级超过预设敏感等级时,向用户标识对应的终端下发待处理文本信息对应的标准敏感文本中的安全提醒消息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种信息处理方法,所述方法包括:
接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;
获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;
计算所述第一文本摘要与标准敏感文本摘要之间的相似度;
根据所述相似度确定所述待处理文本信息的敏感检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文本信息对应的第一文本摘要的步骤包括:
根据分词切分算法得到所述待处理文本信息对应的分词;
计算所述分词对应的词频;
利用语料库计算各个分词对应的逆文档频率,分别将各个分词对应的词频与逆文档频率相乘得到对应的权重值;
将所述权重值排序,并按照权重值从高到低的顺序获取预设数目的分词构成所述待处理文本信息对应的第一文本摘要。
3.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文本信息对应的第一文本摘要的步骤包括:
根据分词切分算法得到所述待处理文本信息对应的分词;
对所述分词进行词性标注,去除所述分词中的停用词得到候选关键词集合;
根据预设的窗体长度截取所述候选关键词集合,得到各个窗体对应的目标候选关键词集合;
将每个所述候选关键词作为一个节点,构造各个目标候选关键词集合中任意两个节点之间的边,构建所述候选关键词集合对应的候选关键词图;
预设各个节点的初始化权重,利用网页排名迭代算法循环迭代所述候选关键词图,得到各个节点对应的节点权重值;按照所述节点权重值由高到低的顺序获取预设数目的候选关键词构成所述待处理文本信息对应的第一文本摘要。
4.根据权利要求1所述的方法,其特征在于,所述计算所述第一文本摘要与标准敏感文本摘要之间的相似度的步骤包括:
获取所述第一文本摘要与目标标准敏感文本摘要中相同关键词的数目;
获取所述目标标准敏感文本摘要对应的关键词数目得到第一特征值;
获取所述第一文本摘要对应的关键词数目得到第二特征值;
获取所述第一特征值与所述第二特征值中的较大特征值作为目标特征值;
计算所述相同关键词的数目与所述目标特征值的比值得到所述相似度。
5.根据权利要求4述的方法,其特征在于,所述获取所述第一文本摘要与目标标准敏感文本摘要中相同关键词的数目的步骤包括:
获取倒排索引文档,所述倒排索引文档记录了标准敏感文本库中各个标准关键词和所述标准关键词对应的标准敏感文本编号组合的关联关系;
获取所述第一文本摘要中包括的待测关键词,依次获取各个待测关键词在所述倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合;
统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本;
将所述目标标准敏感文本对应的重复次数作为所述相同关键词的数目。
6.根据权利要求5所述的方法,其特征在于,所述获取倒排索引文档的步骤之前,还包括:
以所述标准敏感文本摘要库中的各个标准关键词建立索引;
将第一标准关键词作为当前处理关键词,获取所述标准敏感文本库中存在所述当前处理关键词的标准敏感文本对应的编号,将获取的各个标准敏感文本编号组成标准敏感文本编号组合,建立当前处理关键词与对应的标准敏感文本编号组合的关联关系;
获取下一个标准关键词作为当前处理关键词,进入获取所述标准敏感文本库中存在所述当前处理关键词的标准敏感文本对应的编号的步骤,直至所有标准关键词建立与对应的标准敏感文本编号组合的关联关系;
将所述各个标准关键词和所述标准关键词对应的标准敏感文本编号组合的关联关系形成所述倒排索引文档。
7.根据权利要求1所述的方法,其特征在于,所述接收待处理文本信息的步骤之前,还包括:
根据权威机构或用户举报获取敏感文本信息;
获取所述敏感文本信息对应的安全提醒信息,所述安全提醒消息包括所述敏感文本信息的部分原始信息和对应的提醒信息;
将所述敏感文本信息与所述安全提醒信息建立绑定关系后形成标准敏感文本,将所述标准敏感文本存储至标准敏感文本信息库。
8.根据权利要求7所述的方法,其特征在于,所述根据所述相似度确定所述待处理文本信息的敏感检测结果的步骤之后,还包括:
若所述敏感检测结果为所述待处理文本信息为敏感文本信息,则获取所述待处理文本信息对应的用户标识;
评定所述用户标识对应的敏感信息传播等级,当所述敏感信息传播等级超过预设敏感等级时,向用户标识对应的终端下发所述待处理文本信息对应的标准敏感文本中的安全提醒消息。
9.一种信息处理装置,其特征在于,所述装置包括:
第一获取模块,用于接收待处理文本信息,获取所述待处理文本信息对应的第一文本摘要;
第二获取模块,用于获取标准敏感文本摘要,所述标准敏感文本摘要通过对标准敏感文本进行摘要提取得到;
相似度计算模块,用于计算所述第一文本摘要与标准敏感文本摘要之间的相似度;
结果确定模块,用于根据所述相似度确定所述待处理文本信息的敏感检测结果。
10.根据权利要求9所述的装置,其特征在于,所述相似度计算模块包括:
第三获取模块,用于获取所述第一文本摘要与目标标准敏感文本摘要中相同关键词的数目;
目标特征值获取模块,用于获取所述目标标准敏感文本摘要对应的关键词数目得到第一特征值,获取所述第一文本摘要对应的关键词数目得到第二特征值,获取所述第一特征值与所述第二特征值中的较大特征值作为目标特征值;
计算模块,用于计算所述相同关键词的数目与所述目标特征值的比值得到所述相似度。
11.根据权利要求10述的装置,其特征在于,所述第三获取模块包括:
调用模块,用于获取倒排索引文档,所述倒排索引文档记录了标准敏感文本库中各个标准关键词和所述标准关键词对应的标准敏感文本编号组合的关联关系;
索引模块,用于获取所述第一文本摘要中包括的待测关键词,依次获取各个待测关键词在所述倒排索引文档中相同的标准关键词,根据相同的标准关键词获取各个待测关键词对应的标准敏感文本编号组合;
统计模块,用于统计所有待测关键词对应的标准敏感文本编号,将重复次数最多的标准敏感文本编号对应的标准敏感文本作为目标标准敏感文本,将所述目标标准敏感文本对应的重复次数作为所述相同关键词的数目。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
敏感文本信息获取模块,用于根据权威机构或用户举报获取敏感文本信息;
安全提醒信息获取模块,用于获取所述敏感文本信息对应的安全提醒信息,所述安全提醒消息包括所述敏感文本信息的部分原始信息和对应的提醒信息;
标准敏感文本信息库建立模块,用于将所述敏感文本信息与所述安全提醒信息建立绑定关系后形成标准敏感文本,将所述标准敏感文本存储至标准敏感文本信息库。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
用户标识获取模块,用于若所述敏感检测结果为所述待处理文本信息为敏感文本信息,则获取所述待处理文本信息对应的用户标识;
下发模块,用于评定所述用户标识对应的敏感信息传播等级,当所述敏感信息传播等级超过预设敏感等级时,向用户标识对应的终端下发所述待处理文本信息对应的标准敏感文本中的安全提醒消息。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,使得所述处理器执行权利要求1至8中任一项所述方法的步骤。
15.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行权利要求1至8中任一项所述方法的步骤。
CN201710543213.2A 2017-07-05 2017-07-05 信息处理方法、装置、存储介质和计算机设备 Active CN108319630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710543213.2A CN108319630B (zh) 2017-07-05 2017-07-05 信息处理方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710543213.2A CN108319630B (zh) 2017-07-05 2017-07-05 信息处理方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN108319630A true CN108319630A (zh) 2018-07-24
CN108319630B CN108319630B (zh) 2021-12-14

Family

ID=62891447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710543213.2A Active CN108319630B (zh) 2017-07-05 2017-07-05 信息处理方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN108319630B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446288A (zh) * 2018-10-18 2019-03-08 重庆邮电大学 一种基于Spark互联网涉密地图检测算法
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109710402A (zh) * 2018-12-17 2019-05-03 平安普惠企业管理有限公司 处理资源获取请求的方法、装置、计算机设备和存储介质
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110162750A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统
CN110275965A (zh) * 2019-06-27 2019-09-24 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质
CN110460583A (zh) * 2019-07-15 2019-11-15 中国平安人寿保险股份有限公司 一种敏感信息记录方法及装置、电子设备
CN110705287A (zh) * 2019-09-27 2020-01-17 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN110866407A (zh) * 2018-08-17 2020-03-06 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN111221944A (zh) * 2020-01-13 2020-06-02 平安科技(深圳)有限公司 文本意图识别方法、装置、设备和存储介质
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
CN112183087A (zh) * 2020-09-27 2021-01-05 武汉华工安鼎信息技术有限责任公司 一种敏感文本识别的系统和方法
WO2021042529A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 文章摘要自动生成方法、装置及计算机可读存储介质
CN113590765A (zh) * 2021-09-27 2021-11-02 成都索贝数码科技股份有限公司 多模态信息融合广播电视新闻关键词与摘要联合抽取方法
CN114386422A (zh) * 2022-01-14 2022-04-22 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
CN106227722A (zh) * 2016-09-12 2016-12-14 中山大学 一种基于上市公司公告摘要的自动提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
孙秀胜: "基于概念对象模型的文本摘要技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑 2016年第08期》 *
崔灵珍: "Web文本摘要技术的研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
徐学文: "《科技信息工作自动化概论》", 31 March 2008 *
樊重俊等: "《大数据分析与应用》", 31 January 2016 *
王继成: "一种篇章结构指导的中文Web文档自动摘要方法", 《计算机研究与发展》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866407B (zh) * 2018-08-17 2024-03-01 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN110866407A (zh) * 2018-08-17 2020-03-06 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN109471933A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109471933B (zh) * 2018-10-11 2024-05-07 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109446288A (zh) * 2018-10-18 2019-03-08 重庆邮电大学 一种基于Spark互联网涉密地图检测算法
CN109710402A (zh) * 2018-12-17 2019-05-03 平安普惠企业管理有限公司 处理资源获取请求的方法、装置、计算机设备和存储介质
CN110162750A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110162750B (zh) * 2019-01-24 2023-07-07 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统
CN110147499A (zh) * 2019-05-21 2019-08-20 智者四海(北京)技术有限公司 打标签方法、推荐方法及记录介质
CN110275965B (zh) * 2019-06-27 2021-12-21 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质
CN110275965A (zh) * 2019-06-27 2019-09-24 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质
CN110460583B (zh) * 2019-07-15 2022-06-03 中国平安人寿保险股份有限公司 一种敏感信息记录方法及装置、电子设备
CN110460583A (zh) * 2019-07-15 2019-11-15 中国平安人寿保险股份有限公司 一种敏感信息记录方法及装置、电子设备
WO2021042529A1 (zh) * 2019-09-02 2021-03-11 平安科技(深圳)有限公司 文章摘要自动生成方法、装置及计算机可读存储介质
CN110705287A (zh) * 2019-09-27 2020-01-17 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN111221944A (zh) * 2020-01-13 2020-06-02 平安科技(深圳)有限公司 文本意图识别方法、装置、设备和存储介质
CN111221944B (zh) * 2020-01-13 2024-04-23 平安科技(深圳)有限公司 文本意图识别方法、装置、设备和存储介质
CN111767733A (zh) * 2020-06-11 2020-10-13 安徽旅贲科技有限公司 一种基于统计分词的文献密级甄别方法
CN112183087A (zh) * 2020-09-27 2021-01-05 武汉华工安鼎信息技术有限责任公司 一种敏感文本识别的系统和方法
CN112183087B (zh) * 2020-09-27 2024-05-28 武汉华工安鼎信息技术有限责任公司 一种敏感文本识别的系统和方法
CN113590765A (zh) * 2021-09-27 2021-11-02 成都索贝数码科技股份有限公司 多模态信息融合广播电视新闻关键词与摘要联合抽取方法
CN113590765B (zh) * 2021-09-27 2021-12-10 成都索贝数码科技股份有限公司 多模态信息融合广播电视新闻关键词与摘要联合抽取方法
CN114386422A (zh) * 2022-01-14 2022-04-22 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置
CN114386422B (zh) * 2022-01-14 2023-09-15 淮安市创新创业科技服务中心 基于企业污染舆情抽取的智能辅助决策方法及装置

Also Published As

Publication number Publication date
CN108319630B (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN108319630A (zh) 信息处理方法、装置、存储介质和计算机设备
Portnoff et al. Tools for automated analysis of cybercriminal markets
Lui et al. Automatic detection and language identification of multilingual documents
RU2517368C2 (ru) Способ и устройство определения и оценки значимости слов
Sunilkumar et al. A survey on semantic similarity
Stamatatos Authorship Verification: A Review of Recent Advances.
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US11755841B2 (en) Method for updating a knowledge base of a sentiment analysis system
JP6605022B2 (ja) 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス
CN103927297A (zh) 基于证据理论的中文微博可信度评估方法
JP2011108053A (ja) ニュース記事評価システム
CN109918621A (zh) 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
JP5387577B2 (ja) 情報分析装置、情報分析方法、及びプログラム
JP5136910B2 (ja) 情報分析装置、情報分析方法、情報分析用プログラム、及び検索システム
Yin et al. Annobert: Effectively representing multiple annotators’ label choices to improve hate speech detection
Schraagen et al. Extraction of semantic relations in noisy user-generated law enforcement data
Balalau et al. From the stage to the audience: Propaganda on reddit
Wagner Privacy Policies Across the Ages: Content and Readability of Privacy Policies 1996--2021
Siddiqui et al. Quality Prediction of Wearable Apps in the Google Play Store.
Shrestha Detecting fake news with sentiment analysis and network metadata
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
Locker “Because the computer said so!”: Can computational authorship analysis be trusted?
Goyal et al. Fake News Detection using Machine Learning: A Review
Guo et al. Storyline extraction from news articles with dynamic dependency
Tang et al. Toward machine understanding of information quality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant