CN107357824A - 信息处理方法、服务平台及计算机存储介质 - Google Patents

信息处理方法、服务平台及计算机存储介质 Download PDF

Info

Publication number
CN107357824A
CN107357824A CN201710450920.7A CN201710450920A CN107357824A CN 107357824 A CN107357824 A CN 107357824A CN 201710450920 A CN201710450920 A CN 201710450920A CN 107357824 A CN107357824 A CN 107357824A
Authority
CN
China
Prior art keywords
violated
information
probability
phonetic
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710450920.7A
Other languages
English (en)
Other versions
CN107357824B (zh
Inventor
李季冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710450920.7A priority Critical patent/CN107357824B/zh
Publication of CN107357824A publication Critical patent/CN107357824A/zh
Application granted granted Critical
Publication of CN107357824B publication Critical patent/CN107357824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种信息处理方法、服务平台及计算机存储介质。所述信息处理方法包括:将待识别的第一信息转换拼音;将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率;和/或将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率;基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息。

Description

信息处理方法、服务平台及计算机存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种信息处理方法、服务平台及计算机存储介质。
背景技术
在论坛中会有很多用户发表评论或发布信息,在网页中很多人会对网页的原始内容进行评论或给出留言等,但是这些内容可能有些是违法内容、违反规定的黄色或暴力内容,还有的一些是广告。
为了减少这些不利用言论在网络上的肆意泛滥,需要对这些言论进行过滤,过滤之前需要识别出这些违禁信息。虽然在现有技术中也存在对违禁信息的识别方法,但是现有的方法的有识别正确率低及过滤效果差的问题。
发明内容
有鉴于此,本发明实施例期望提供一种信息处理方法、服务平台及计算机存储介质,至少解决上述识别正确率和/或过滤效果低的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种信息处理方法,包括:
将待识别的第一信息转换拼音;
将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率;和/或
将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率;
基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息。
基于上述方案,所述将待识别的第一信息转换拼音,包括:
将所述第一信息转换成无声调的拼音;
所述将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率,包括:
将转换的无声调的拼音,与由违禁词汇的无声调的拼音构成的拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率。
基于上述方案,所述将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率,包括:
将所述待识别的第一信息中每一个字符转换字形图片;
将转换的字形图片,与由违禁词汇的字形形成的字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率。
基于上述方案,所述方法还包括:
将所述第一信息与常用词表进行匹配;
根据匹配的程度,确定出所述第一信息包括的未位于所述常用词表中的字符比例;
基于所述字符比例,获得第三违禁概率;
所述基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息,包括:
在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息。
基于上述方案,所述在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息,包括以下至少之一:
计算所述第一违禁概率、所述第二违禁概率及所述第三违禁概率的至少两个的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积,所述第三违禁概率与第三权重的第三乘积;计算所述第一乘积、第二乘积及所述第三乘积中至少两个的和,基于所述和判断所述第一信息是否是违禁信息。
基于上述方案,所述方法还包括:
去除待识别的第二信息中的特殊标点和/或特殊符号去除,获得所述待识别的所述第一信息。
基于上述方案,所述在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息,包括以下至少之一:
计算所述第一违禁概率及所述第二违禁概率的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积;计算所述第一乘积及第二乘积的和,基于所述和判断所述第一信息是否是违禁信息。
本发明实施例第二方面提供一种服务平台,其特征在于,包括一台服务器或多台连接的服务器,其中所述服务器包括:
存储器,用于存储计算机程序;
处理器,与所述存储器相连,用于通过执行所述计算机程序,实现前述方案一项或多项提供的信息处理方法。
本发明实施例第三面方面提供一种服务平台,包括一台服务器或多台连接的服务器,其中所述服务器包括:处理器及计算机程序;
所述处理器,用于通过执行所述计算机程序,实现前述方案一项或多项提供的信息处理方法。
本发明实施例第四方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后,能够通过执行所述计算机程序,实现前述方案一项或多项提供的信息处理方法。
本发明实施例提供的信息处理方法、服务平台及计算机存储介质,在进行违禁信息的识别时,利用拼音匹配识别及字形的模糊匹配,获得违禁概率,再基于违禁概率判断出是否为违禁信息,这样就可以识别出发布者故意通过同音子变体及字形简单变体绕过精确匹配的识别,从而提升了服务平台的识别能力及识别精确度,提升了违禁信息的过滤效果。
附图说明
图1为本发明实施例提供的一种信息处理方法的流程示意图;
图2为本发明实施例提供的一种字形匹配获得违禁概率的流程示意图;
图3为本发明实施例提供的另一种信息处理方法的流程示意图;
图4为本发明实施例提供的一种服务平台的结构示意图;
图5为本发明实施例提供的一种服务器的结构示意图;
图6为本发明实施例提供的另一种信息处理方法的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种信息处理方法,包括:
步骤S110:将待识别的第一信息转换拼音;
步骤S120:将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率;和/或
步骤S130:将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率;
步骤S140:基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息。
本实施例提供的信息处理方法可为应用于一台或多台服务器中的信息处理方法,在本实施例中所述信息处理方法又可以称为违禁信息处理方法。
在一些情况下,违禁信息的发布者,为了避免机器对违禁信息的识别和过滤,会采用一些特别方法绕过识别和过滤。例如,采用同音字,绕过关键词表中字词的匹配,从而避免被识别为违禁信息。在例如,通过字体变形,使得字体发生轻微变化之后,绕过被识别为违禁信息。可是这些信息一旦被发布到互联网中,例如,发布在社交应用中,如微博、微信或网页中,其他用户查看之后,还是会理解到发布者想要表达的真正意思。而这些信息本身就可能涉及暴力、恐怖、反社会或黄色信息等。
为了提升对这种信息的识别和过滤能力。在本实施例中,会将待识别的第一信息转换成拼音,通过拼音比对,确定第一信息为违禁信息的第一概率,在本实施例中该概率可称为第一违禁概率。
所述拼音关键词表中存储有各种导致一条信息为违禁信息的字、词及短语的拼音。
在具体的实现过程中,若一条第一信息包括:N个拼音组成,具体可包括:
首先,N个拼音分别与拼音关键词表中的单字拼音词表进行匹配,确定出第一信息对应的拼音包括属于违禁信息的单字拼音的个数和/或比例,得到第一子概率;
其次,将N个拼音按照拼音在第一信息中的排布,依次拆分为2个拼音组成的拼音组合、3个拼音组成的拼音组合,确定出第n次拆分之后,第一信息对应的拼音包括属于违禁信息的拼音组合的个数和/或比例,得到第n个子概率。所述n为小于M的整整数;所述M等于所述N,或小于预定值,例如5等。
结合第1子概率到第M子概率,得到所述第一违禁概率。例如,计算第1子概率到第M子概率的均值,作为所述第一违禁概率。当然这里仅是一种举例,具体实现时,不局限于该种方式。
例如,在具体实现时,可以按照分词法将所述第一信息转换的拼音,为了减少拆分次数和匹配次数,可以根据第一信息的表达的意思,进行拆分,得到最有可能的单字的拼音、词的拼音及短语的拼音,在将拆分后的这些单字的拼音、词组的拼音及短语的拼音,与拼音关键词表统一进行匹配,得到匹配程度,进而得到所述第一违禁概率。例如,第一信息中包括N个拼音,其中,n个拼音属于违禁信息对应的拼音关键词表中的拼音,则可计算出匹配比例为n/N,则基于n/N,得到所述第一违禁概率。在本实施例中所述第一违禁概率与所述第一信息转换后的拼音与所述拼音关键词表的匹配程度正相关。具体可如,可以直接以匹配比例作为所述第一违禁概率。
在一些实施例中为了避免字形转化,绕过违禁信息的识别和过滤。在本实施例中实现的字形近似匹配,根据字形近似匹配的相似度,确定第一信息中的字形是否属于违禁信息对应的字形关键词表中违禁字词。例如,第一信息中的某一个词,由S个字组成,发布者为了避免被过滤掉,将其中的S1个字的字形做了简略的变化。所述S1的取值可为1或2等取值,若采用现有技术的精确匹配算法,需要百分百匹配才认为该词是属于违禁信息对应的关键词表中的违禁词,而在本实施例中若将该词视为了一个整体,与字形关键词表中的违禁字词的字形进行匹配,若匹配成对达到预设阈值,例如80%,例如,其中S-S1个字形完全匹配,而另外S1个字形,单字匹配率达到单字匹配阈值,则可人第一信息存在所述违禁信息的字词。总而言之,若一个词中有部分词的与违禁信息中的字形关键词表中的字形完全匹配,而不完全匹配的部分字词的单字的字形匹配度达到单匹配阈值,就可认为该字词为违禁字词。
故在本实施例中所述字形匹配是基于字形相似度的模糊匹配,减少违禁信息发布者通过简单的变化一两笔违禁字词的字形来绕过服务器对其识别。
在本实施例中通过第一信息的字形与字形关键词表的匹配,将得到指示第一信息的字形为违禁信息的第二概率,在本实施例中该第二概率被称之为第二违禁概率。
为了提升识别精确度,在本实施例中会基于第一违禁概率和第二违禁概率的至少其中之一,来判断第一信息是否为违禁信息。通常情况下,第一违禁概率和第二违禁概率的概率值越高,则第一信息被判定为违禁信息的概率就越高。
总之,在本实施例中通过拼音转换识别及字形相似度模糊匹配识别,可以提升对同音字变体及字形变体企图绕过识别的违禁信息,识别出来,从而提升了设备的识别能力,提升了识别精确度,可以更好的够率网络上发布的违禁信息。
可选地,所述步骤S110可包括:
将所述第一信息转换成无声调的拼音;
所述步骤S120可包括:
将转换的无声调的拼音,与由违禁词汇的无声调的拼音构成的拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率。
在本实施例中将第一信息转化成五声调的拼音。通常拼音包括字母及位于字母上的音调。一般情况下,针对于汉字包括:4个声调。若进行精确匹配,一个拼音的声调不同,则会认为这两个拼音是不同的。但是在进行违禁信息的识别时,信息发布者为了绕过识别,可能会转变一下可辨别该信息为违禁信息的字词的声调。为了再次提升设备的识别能力,直接转换成的是无声调的拼音。
且同时拼音关键词表中违禁词汇(包括:单字、词及短语)中的拼音也是无声调的,显然进行的是无声调的匹配。若不包括声调的拼音匹配成功,就认为是匹配的,基于这种匹配的匹配度,可以得到所述第一违禁概率,显然这样再次提升了对违禁信息的识别能力。
在一些实施例中,如图2所示,所述步骤S130包括:
步骤S131:将所述待识别的第一信息中每一个字符转换字形图片;
步骤S132:将转换的字形图片,与由违禁词汇的字形形成的字形关键词词表进行匹配;
步骤S133:基于图片的匹配程度获得第二违禁概率。
在本实施例中为了实现字形的模糊匹配或近似匹配,会首先将第一信息中的每一个字符转换成字形图片。再将自行图片与字形关键词词表中字形进行匹配。通常情况下,所述字形关键词词表中的字词也是也图片的形式呈现的。这样的话,通过两种图片的匹配,可以获得图片的相似度。
具体如,将所述第一信息的字体,转换成字形关键词词表中各个图片中字形对应的字体。然后通过将两个图片中的至少一个转换成半透明图层,通过半透明图层覆盖叠加,简便确定出匹配度或相似度。
再例如,将所述第一信息的字体,转换成字形关键词词表中各个图片中字形对应的字体,再将完成字体转换后的字形,生成对应的图片。将该图片生成二值化图片。这里的二值化,每一个像素的取值仅可可能是两种,例如,是255或0,例如,0表示该像素为空白像素,255表示该像素为有笔画的像素。然后通过该二值化图片,与字形关键词表中的二值化图片的匹配,计算出匹配程度,从而进而可以根据匹配程度与第二违禁概率的正相关性,计算出所述第二违禁概率。
当然,以上仅是几种计算所述第二违禁概率具体方式,具体实现时,不局限于上述任意一种。
可选地,如图3所示,所述方法还包括:
步骤S111:将所述第一信息与常用词表进行匹配;
步骤S112:根据匹配的程度,确定出所述第一信息包括的未位于所述常用词表中的字符比例;
步骤S113:基于所述字符比例,获得第三违禁概率;
所述步骤S140可包括步骤S141,所述步骤S141可包括:
在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息。
在本实施例中首先会将待识别的第一信息与常用词表进行匹配。在本实施例中所述常用词表为合法信息的字词组成。例如,针对汉字,所述常用词表可为国家发布的常用字词组成。若当前的第一信息为违禁信息的概率越高,则其包含的字词与常用词表中的字词的匹配程度可能会越低。故在本实施例中还会将第一信息与常用词表进行匹配,并基于与常用词表的匹配得到的匹配程度,例如,第一信息中包括的不在所述常用词表中的字词占第一信息所有字符的比例(即所述字符比例),生成一个表征第一信息为违禁信息的概率,该概率称为第三违禁概率。
故在步骤S141中会结合第一违禁概率、第二违禁概率及第三违禁概率中的至少两个,综合判断出第一信息是否为违禁信息。
在本实施例中再次引入了一个判断参量,引入了更多的参量综合判断一条信息是否是违禁信息,可以再次提升违禁信息的识别能力和识别精确度,提升违禁信息的过滤能力。
可选地,所述步骤S141的具体实现方式有多种,以下提供几种可选方式:
可选方式一:
所述步骤S141可包括:
计算所述第一违禁概率、所述第二违禁概率及所述第三违禁概率的至少两个的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息。
在本实施例中,会计算出至少两个违禁概率的概率乘积,将概率乘积作为最后判断第一信息是否为违禁信息的最终判断依据。例如,将概率乘积与乘积阈值进行比较,若大于乘积阈值,则可认为违禁信息,否则可人认为是合法信息。
可选方式二:
所述步骤S141可包括:
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积,所述第三违禁概率与第三权重的第三乘积;计算所述第一乘积、第二乘积及所述第三乘积中至少两个的和,基于所述和判断所述第一信息是否是违禁信息。
基于拼音、字形及是否为常用字词进行违禁概率的获取,但是不同方式判断一条信息是否确实是违禁信息的可信度是不同的。在本实施例中还引入了与可信度正相关的权重来进行综合判断。所述第一权重、第二权重及第三权重可以是预先设置的仿真值或经验值,也可以是人机交互接口接收的工作人员输入的值。
总之,在本实施例中会基于第一乘积至第三乘积中的至少两个的和,综合判断出所述第一信息是否为违禁信息。例如,在一些实施例中例如,拼音识别模型的可信度相对较低,就可以适当的降低第一权值,以使得整个第一乘积更加精确的指示当前第一信息是否为违禁信息的,从而以提升识别精确度。总之,通过第一权值、第二权值及第三权重的引入和动态调整,能够确保识别精确度。
可选地,所述方法还包括:
去除待识别的第二信息中的特殊标点和/或特殊符号去除,获得所述待识别的所述第一信息。
在为了绕过机器将某些信息识别为违禁信息,从而阻止其发布,有些发布者会在发布的信息中引入特殊符号,例如,在不该引入破折号的地方引入破折号,引入数学符号,引入具有特点含义的小图片等,这些在现有技术中都会干扰识别。在本实施例中进行前述与拼音关键词表、字形关键词表及常用词表的匹配之前,先去除原始信息中包括的这些特殊标点和/或特殊符号,使得原始信息呈现正常语序表达,从而获得方便识别的第一信息。通过这种特殊标点和/或特殊字符的去除,可以再次提升识别精确度。
可选地,所述步骤S140可包括以下至少之一:
计算所述第一违禁概率及所述第二违禁概率的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积;计算所述第一乘积及第二乘积的和,基于所述和判断所述第一信息是否是违禁信息。
在本实施例中至少会基于第一违禁概率和第二违禁概率,来综合判断第一信息是否为违禁信息,以至少从两个维度来进行判断,以确保识别精确度。
本发明实施例还提供一种服务器,包括:
转换单元,用于将待识别的第一信息转换拼音;
第一匹配单元,用于将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率;和/或
第二匹配单元,用于将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率;
判断单元,用于基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息。
可选地,所述转换单元,具体用于将所述第一信息转换成无声调的拼音;
所述第一匹配单元,具体用于将转换的无声调的拼音,与由违禁词汇的无声调的拼音构成的拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率。
可选地,所述第二匹配单元,具体用于将所述待识别的第一信息中每一个字符转换字形图片;将转换的字形图片,与由违禁词汇的字形形成的字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率。
可选地,所述装置还包括:
第三匹配单元,用于将所述第一信息与常用词表进行匹配;
确定单元,用于根据匹配的程度,确定出所述第一信息包括的未位于所述常用词表中的字符比例;
获得单元,用于基于所述字符比例,获得第三违禁概率;
所述判断单元,具体用于在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息。
可选地,所述判断单元,具体用于执行以下至少之一:
计算所述第一违禁概率、所述第二违禁概率及所述第三违禁概率的至少两个的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积,所述第三违禁概率与第三权重的第三乘积;计算所述第一乘积、第二乘积及所述第三乘积中至少两个的和,基于所述和判断所述第一信息是否是违禁信息。
在一些还是例中,所述装置还包括:
去除单元,用于去除待识别的第二信息中的特殊标点和/或特殊符号去除,获得所述待识别的所述第一信息。
可选地,所述判断单元,具体用于执行以下至少之一:
计算所述第一违禁概率及所述第二违禁概率的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积;计算所述第一乘积及第二乘积的和,基于所述和判断所述第一信息是否是违禁信息。
上述各个单元,例如,第一匹配单元至第三匹配单元,转换单元及判断单元等均可以对应于服务器中的处理器或处理电路。所述处理器可包括:中央处理器、微处理器、数字信号处理器、应用处理器或可编程阵列等。所述处理电路可包括:专用集成电路。所述处理器或处理电路通过计算机程序等可执行代码的执行,可实现上述各个功能单元的操作,同时确保识别精确度,和违禁信息的过滤干净程度。
本实施例提供一种服务平台,包括一台服务器或多台连接的服务器。如图4所示,所述服务平台可包括多台相互连接的服务器,这些服务器之间可以采用各种网络拓扑相连,例如,采用星型拓扑相邻,采用总线型拓扑相连等,具体可以根据需求进行设置。
如图5所示,所述服务器包括:
存储器110,用于存储计算机程序;
处理器120,与所述存储器110相连,用于通过执行所述计算机程序,实现前述一个或多个技术方案提供的信息处理方法,具体可执行如图1至图3任意一个或多个提供的信息处理方法。
所述存储器110可包括:各种计算机存储介质,可选为非瞬间存储介质,至少可用于存储计算机程序。
所述处理器120可为处理器或处理电路。所述处理器可包括:中央处理器、微处理器、数字信号处理器、应用处理器或可编程阵列等。所述处理电路可包括:专用集成电路.
所述处理器120,可通过总线,例如,集成电路总线,与所述存储器110连接,通过读取并执行所述存储器110中的计算机程序,实现上述一个或多个所述信息处理方法的执行流程,从而实现度违禁信息的精确识别。
如图4所示,本发明实施例还提供一种服务平台,其特征在于,包括一台服务器或多台连接的服务器。所述服务器包括:处理器及计算机程序;
所述处理器,用于通过执行所述计算机程序,实现前述一个或多个技术方案提供的信息处理方法,具体可执行如图1至图3任意一个或多个提供的信息处理方法。
本实施例中的处理器的相关描述,可以参见前述处理器的对应部分,在此就不重复了。
所述计算机程序可为安装并运行在所述处理器中的计算机可执行指令,所述处理器通过计算机程序的执行,可实现前述任意一个提供的信息处理方法,从而提升度违禁信息的识别正确率,确保服务平台对违禁信息的识别能力,更好的过滤掉互联网中发布的违禁信息,维护网络环境。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后,能够通过执行所述计算机程序,实现前述一个或多个技术方案提供的信息处理方法,具体可执行如图1至图3任意一个或多个提供的信息处理方法。
在本发明实施例中前述的计算机存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,所述计算机存储介质可为非瞬间存储介质。
以下结合上述任意一个实施例提供几个具体示例:
示例1:
针对现有方法中识别精确度低的问题,本示例提供一种识别方法,包括:
1)构建词表:
构建种子关键词词表;基于种子关键词词表,转换成拼音关键词表和包括字形图片的字形关键词表。这里的种子关键词词表中包括的字、词及短语等词汇,均为来自确定为违禁信息的违禁词汇。
2)预处理
2.1:特殊符号
2.2:对原文本去除掉特殊符号,因为广告中多包含特殊符号用来分割关键词以绕过关键词检测。
3)非常用汉字的检测
因为广告变体多使用非常用汉字,所以对包含3755个常用一级汉字外过多的回复或留言给出违禁概率。
4)同音字变体识别
分词后将汉字转化为拼音,与种子关键词词表进行比对,给出违禁概率
5)字形变体识别
分词后将词转化为适当大小的图片,二值化处理后即得到每个汉字对应的0/1像素矩阵。同样方法生成种子关键词词表每个词对应的0/1像素矩阵。之后按照两个矩阵中对应位置值的异同求出矩阵相似度,给出违禁概率
综合上述各种方式得到的违禁概率,综合判断原文是否为广告等违禁信息。
相比现有方法,本示例提供的方法有以下优点:
只需要构建一次种子关键词词表,针对同音字变体、字形变体两种情况可以做到自动识别,无需人工添加变形违禁词;针对识别出来的广告可以构建成广告语料库,可作为后续使用其他算法模型的训练集;综合多个违禁概率与策略,判断本条回复或评论是否为广告等违禁信息。
示例2:
本示例涉及一种基于多策略的论坛变体广告识别方法,属于广告识别领域。该方法首先通过对论坛中的回复或评论进行预处理,给出初步的违禁概率,然后针对广告变体中的同音字变体与字形变体两种情况,分别进行识别并给出违禁概率。最后综合多个违禁概率与策略判断本条回复或评论是否为广告。本示例综合考虑广告变体中的常见情况,分别针对特殊符号、非常用字、同音字变体与字形变体给出了识别方案,从而对变体广告进行识别,其意义在于:与现有技术相比,不仅能够提高识别的质量,并且也大幅度减少了人工工作量,提高了识别效率。
示例3:
如图6所示,本示例提供违禁信息识别方法,包括:
步骤S1:获取评论或回复文字信息;
步骤S2:去除特殊符号;
步骤S3:非常用字的比例判断,得到一个违禁概率;
步骤S4:同音字变体识别,例如,可以采用无声调拼音的转换,及与拼音关键词词表的匹配,进行同音字变体识别,获得一个违禁概率;
步骤S5:字形变体识别,例如,可以采用图2所示的方式进行字形变体识别,得到一个违禁概率。
步骤S6:综合所有违禁概率及判断策略,以判断出是否为广告等违禁信息;
步骤S7:过滤掉掉广告等违禁信息。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
将待识别的第一信息转换拼音;
将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率;和/或
将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率;
基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息。
2.根据权利要求1所述的方法,其特征在于,
所述将待识别的第一信息转换拼音,包括:
将所述第一信息转换成无声调的拼音;
所述将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率,包括:
将转换的无声调的拼音,与由违禁词汇的无声调的拼音构成的拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率。
3.根据权利要求1所述的方法,其特征在于,
所述将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率,包括:
将所述待识别的第一信息中每一个字符转换字形图片;
将转换的字形图片,与由违禁词汇的字形形成的字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率。
4.根据权利要求1、2或3所述的方法,其特征在于,
所述方法还包括:
将所述第一信息与常用词表进行匹配;
根据匹配的程度,确定出所述第一信息包括的未位于所述常用词表中的字符比例;
基于所述字符比例,获得第三违禁概率;
所述基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息,包括:
在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息。
5.根据权利要求4所述的方法,其特征在于,
所述在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息,包括以下至少之一:
计算所述第一违禁概率、所述第二违禁概率及所述第三违禁概率的至少两个的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积,所述第三违禁概率与第三权重的第三乘积;计算所述第一乘积、第二乘积及所述第三乘积中至少两个的和,基于所述和判断所述第一信息是否是违禁信息。
6.根据权利要求1、2或3所述的方法,其特征在于,
所述方法还包括:
去除待识别的第二信息中的特殊标点和/或特殊符号去除,获得所述待识别的所述第一信息。
7.根据权利要求1、2或3所述的方法,其特征在于,
所述在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息,包括以下至少之一:
计算所述第一违禁概率及所述第二违禁概率的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
分别计算所述第一违禁概率与第一权重的第一乘积、所述第二违禁概率与第二权重的第二乘积;计算所述第一乘积及第二乘积的和,基于所述和判断所述第一信息是否是违禁信息。
8.一种服务平台,其特征在于,包括一台服务器或多台连接的服务器,其中所述服务器包括:
存储器,用于存储计算机程序;
处理器,与所述存储器相连,用于通过执行所述计算机程序,实现权利要求1至7任一项所述的方法。
9.一种服务平台,其特征在于,包括一台服务器或多台连接的服务器,其中所述服务器包括:处理器及计算机程序;
所述处理器,用于通过执行所述计算机程序,实现权利要求1至7任一项所述的方法。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后,能够通过执行所述计算机程序,实现权利要求1至7任一项所述的方法。
CN201710450920.7A 2017-06-15 2017-06-15 信息处理方法、服务平台及计算机存储介质 Active CN107357824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710450920.7A CN107357824B (zh) 2017-06-15 2017-06-15 信息处理方法、服务平台及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710450920.7A CN107357824B (zh) 2017-06-15 2017-06-15 信息处理方法、服务平台及计算机存储介质

Publications (2)

Publication Number Publication Date
CN107357824A true CN107357824A (zh) 2017-11-17
CN107357824B CN107357824B (zh) 2020-10-27

Family

ID=60273570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710450920.7A Active CN107357824B (zh) 2017-06-15 2017-06-15 信息处理方法、服务平台及计算机存储介质

Country Status (1)

Country Link
CN (1) CN107357824B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182246A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN110287286A (zh) * 2019-06-13 2019-09-27 北京百度网讯科技有限公司 短文本相似度的确定方法、装置及存储介质
CN110674262A (zh) * 2019-10-16 2020-01-10 北京百度网讯科技有限公司 词语识别方法、装置、电子设备和介质
CN110917626A (zh) * 2019-11-29 2020-03-27 武汉极意网络科技有限公司 基于机器学习的游戏盗量监督方法和装置
CN111159338A (zh) * 2019-12-23 2020-05-15 北京达佳互联信息技术有限公司 一种恶意文本的检测方法、装置、电子设备及存储介质
CN113141332A (zh) * 2020-01-17 2021-07-20 深信服科技股份有限公司 一种命令注入识别方法、系统、设备及计算机存储介质
CN113194106A (zh) * 2021-07-02 2021-07-30 北京易华录信息技术股份有限公司 一种网络数据安全识别系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312284A (ja) * 2001-04-10 2002-10-25 Clover Network Com:Kk ホームページ改竄検知装置及び改竄検知プログラム
CN101729520A (zh) * 2008-10-28 2010-06-09 北京大学 敏感信息的检测方法及装置
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN103020651A (zh) * 2012-11-27 2013-04-03 华中科技大学 一种微博图片敏感信息检测方法
CN104504579A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种信息审核方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312284A (ja) * 2001-04-10 2002-10-25 Clover Network Com:Kk ホームページ改竄検知装置及び改竄検知プログラム
CN101729520A (zh) * 2008-10-28 2010-06-09 北京大学 敏感信息的检测方法及装置
CN102880636A (zh) * 2012-08-03 2013-01-16 深圳证券信息有限公司 不良信息检测方法及服务端
CN103020651A (zh) * 2012-11-27 2013-04-03 华中科技大学 一种微博图片敏感信息检测方法
CN104504579A (zh) * 2014-12-09 2015-04-08 北京奇虎科技有限公司 一种信息审核方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182246A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN108182246B (zh) * 2017-12-28 2020-10-30 东软集团股份有限公司 敏感词检测过滤方法、装置和计算机设备
CN110287286A (zh) * 2019-06-13 2019-09-27 北京百度网讯科技有限公司 短文本相似度的确定方法、装置及存储介质
CN110287286B (zh) * 2019-06-13 2022-03-08 北京百度网讯科技有限公司 短文本相似度的确定方法、装置及存储介质
CN110674262A (zh) * 2019-10-16 2020-01-10 北京百度网讯科技有限公司 词语识别方法、装置、电子设备和介质
CN110917626A (zh) * 2019-11-29 2020-03-27 武汉极意网络科技有限公司 基于机器学习的游戏盗量监督方法和装置
CN111159338A (zh) * 2019-12-23 2020-05-15 北京达佳互联信息技术有限公司 一种恶意文本的检测方法、装置、电子设备及存储介质
CN113141332A (zh) * 2020-01-17 2021-07-20 深信服科技股份有限公司 一种命令注入识别方法、系统、设备及计算机存储介质
CN113141332B (zh) * 2020-01-17 2023-03-21 深信服科技股份有限公司 一种命令注入识别方法、系统、设备及计算机存储介质
CN113194106A (zh) * 2021-07-02 2021-07-30 北京易华录信息技术股份有限公司 一种网络数据安全识别系统及方法

Also Published As

Publication number Publication date
CN107357824B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN107357824A (zh) 信息处理方法、服务平台及计算机存储介质
CN110222152B (zh) 一种基于机器阅读理解的问题答案获取方法及系统
CN105893344A (zh) 基于用户语义情感分析的应答方法和装置
CN109800413A (zh) 新闻事件的识别方法、装置、设备及可读存储介质
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN106649739B (zh) 多轮交互信息继承识别方法、装置以及交互系统
CN112800225B (zh) 一种微博评论情绪分类方法和系统
CN109992769A (zh) 基于语义解析的语句合理性判断方法、装置、计算机设备
CN110516697A (zh) 基于证据图聚合与推理的声明验证方法及系统
CN110347787A (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN106202031A (zh) 一种基于在线社交平台群聊数据对群成员进行关联的系统及方法
CN113722483A (zh) 话题分类方法、装置、设备及存储介质
CN113469214A (zh) 虚假新闻检测方法、装置、电子设备和存储介质
CN108197337B (zh) 一种文本分类方法及装置
CN109558591A (zh) 中文事件检测方法及装置
Chong et al. Understanding toxicity triggers on Reddit in the context of Singapore
KR20230171234A (ko) 사용자 참여 기반의 질의응답 서비스 제공방법 및 이를 위한 장치
CN115221864A (zh) 一种多模态假新闻检测方法及系统
CN113918704A (zh) 基于机器学习的问答方法、装置、电子设备及介质
CN111241843A (zh) 基于复合神经网络的语义关系推断系统和方法
CN111382366B (zh) 基于语言和非语言特征的社交网络用户识别方法及装置
CN111597580B (zh) 机器人听觉隐私信息监听处理方法
CN116881408A (zh) 基于ocr和nlp的视觉问答防诈骗方法及系统
CN113220964A (zh) 一种基于网信领域短文本的观点挖掘方法
CA2691342A1 (en) Method for the automatic classification of a text with the aid of a computer system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant