CN110633351B - 用于处理评论的方法、装置、设备和计算机可读存储介质 - Google Patents
用于处理评论的方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN110633351B CN110633351B CN201810538882.5A CN201810538882A CN110633351B CN 110633351 B CN110633351 B CN 110633351B CN 201810538882 A CN201810538882 A CN 201810538882A CN 110633351 B CN110633351 B CN 110633351B
- Authority
- CN
- China
- Prior art keywords
- comment
- processing
- signature
- database
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
根据本公开内容的示例性实现方式,提供了一种用于处理评论的方法。在该方法中,响应于接收到用户针对第一资讯源中的资讯输入的评论,提取所述评论的有效部分。基于预定签名规则获取所述有效部分的签名。确定所述签名在评论数据库中的出现频率,所述评论数据库包括在针对所述第一资讯源以及不同于所述第一资讯源的第二资讯源中的多个资讯的历史评论的签名。继而,基于所述出现频率来处理所述评论。根据本公开内容的示例性实现方式,还提供了用于处理评论的装置、设备和计算机存储介质。
Description
技术领域
本公开内容的实现方式概括地涉及评论处理,并且更具体地,涉及用于针对资讯源中的资讯的评论进行处理的方法、装置、设备和计算机存储介质。
背景技术
随着信息技术和互联网的飞速发展,在线资讯越来越受到人们的欢迎,并且已经成为人们日常生活中获取信息的一种主要的途径。人们可以通过多种资讯源(例如,新闻网站或者提供新闻的应用等),来获取资讯。目前,互联网中每时每刻可能涌现出上亿甚至更多的资讯。当某资讯是有关重大新闻的资讯时,该资讯的阅读量将达到数百万次甚至更多。
资讯源的用户经常会针对这些资讯发表自己的评论。此时,评论将与资讯本身一起被显示。然而,在评论中可能会存在例如广告、脏话或者其他不良信息。当资讯成为热点资讯时,评论同样可以获得极高的阅读量,因而导致不良信息被广泛传播。此时,如何处理资讯并且过滤包括不良信息的资讯,成为一个研究热点。因而,期望能够提供一种以更为方便并且有效的方式来处理评论的技术方案。
发明内容
根据本公开内容的示例实现方式,提供了一种用于处理评论的方案。
在本公开内容的第一方面中,提供了一种用于处理评论的方法。在该方法中,响应于接收到用户针对第一资讯源中的资讯输入的评论,提取所述评论的有效部分。基于预定签名规则获取所述有效部分的签名。确定所述签名在评论数据库中的出现频率,所述评论数据库包括在针对所述第一资讯源以及不同于所述第一资讯源的第二资讯源中的多个资讯的历史评论的签名。接着,基于所述出现频率来处理所述评论。
在本公开内容的第二方面中,提供了一种用于处理评论的装置。该装置包括:提取模块,配置用于响应于接收到用户针对第一资讯源中的资讯输入的评论,提取所述评论的有效部分;获取模块,配置用于基于预定签名规则获取所述有效部分的签名;确定模块,配置用于确定所述签名在评论数据库中的出现频率,所述评论数据库包括在针对所述第一资讯源以及不同于所述第一资讯源的第二资讯源中的多个资讯的历史评论的签名;以及处理模块,配置用于基于所述出现频率来处理所述评论。
在本公开内容的第三方面中,提供了一种设备。该设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开内容的第一方面的方法。
在本公开内容的第四方面中,提供了一种其上存储有计算机程序的计算机可读介质,该程序在被处理器执行时实现根据本公开内容的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开内容的实现方式的关键或重要特征,亦非用于限制本公开内容的范围。本公开内容的其他特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开内容的各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示意性示出了其中可以采用根据本公开内容的示例性实现方式的技术方案的应用环境的图示;
图2示意性示出了根据本公开内容的示例性实现方式的技术方案的框图;
图3示意性示出了根据本公开内容的示例性实现方式的方法的流程图;
图4示意性示出了根据本公开内容的示例性实现方式的另一方法的流程图;
图5示意性示出了根据本公开内容的示例性实现方式的用于从评论中提取有效成分的方法的流程图;
图6示意性示出了根据本公开内容的示例性实现方式的用于对未被过滤的评论执行进一步处理的方法的流程图;
图7示意性示出了根据本公开内容的示例性实现方式的用于处理评论的装置的框图;以及
图8示出了能够实施本公开内容的多个实现方式的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开内容的实现方式。虽然附图中显示了本公开内容的某些实现方式,然而应当理解的是,本公开内容可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实现方式,相反提供这些实现方式是为了更加透彻和完整地理解本公开内容。应当理解的是,本公开内容的附图及实现方式仅用于示例性作用,并非用于限制本公开内容的保护范围。
在本公开内容的实现方式的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
为了便于描述,首先介绍本公开中所涉及的术语的含义。在本公开的上下文中,资讯源表示可以提供资讯的来源,例如,可以将一个新闻网站作为一个资讯源,而将另一新闻网站作为另一资讯源。还可以将运行在电子设备上的应用作为资讯源。例如,假设某新闻网站提供者分别提供了web网站和用于在移动设备上安装的应用,则此时web网站和应用可以被认为是不同的资讯源。
将会理解,尽管在本公开中以新闻网站和新闻应用来作为资讯源的具体示例,在其他实现中,资讯源例如还可以是其他公司、机构、组织或者个人提供的网站、应用或者其他形式的可以提供资讯的来源,诸如社交平台、论坛等。在本公开的上下文中,资讯例如可以包括文本、图像、音频、视频或者其他多媒体信息。
图1示意性示出了其中可以采用根据本公开内容的示例性实现方式的技术方案的应用环境100的图示。在图1中示意性示出了在一个资讯源中的一个资讯110,在该资讯110被公开后,资讯源的用户可以针对该资讯110输入自己的评论。例如,用户可以分别输入评论120、122和124等。将会理解,根据资讯源的不同实现方式,用户可以发表一个或多个评论。
目前已经开发出多种用于处理评论的工具,然而现有工具通常是为了过滤特定的网站或者应用中的资讯的评论而开发的,功能不全面,并且针对各个网站或者应用而开发工具存在大量重复劳动。另一方面,现有工具主要借助于各自的关键字数据库来过滤评论中的敏感信息,过滤的效果严重依赖于关键字数据库的更新,并不能有效地识别出评论中的期望被过滤的各种敏感信息。
基于现有技术中的上述不足,期望提供一种可以以更为方便快捷的方式来处理评论的技术方案。进一步,期望该技术方案可以与现有的技术方案相结合,并且在尽量不改变现有技术方案的硬件架构的情况下实现。
根据本公开内容的示例性实现方式,提出了评论数据库的概念,该评论数据库可以包括针对多个资讯源(例如,新闻网站、社交网站以及相应的客户端应用等)中的资讯的历史评论的相关信息,通过将用户的评论与评论数据库进行比较并确定评论在评论数据库中的出现频率,可以更加准确地识别出不良评论。尤其是对于难以提取关键字的各种广告、煽动性言论、水军文字等,可以大大提高识别效率。
图2示意性示出了根据本公开内容的示例性实现方式的技术方案的框图200。如图2所示,响应于接收到用户针对第一资讯源中的资讯输入的评论210,如箭头212所示,可以提取评论210的有效部分220。接着,如箭头214所示,可以基于预定签名规则获取有效部分220的签名230。将会理解,在此评论210的签名230是指基于签名210的内容和哈希函数确定的哈希值,并且可以将确定签名230所基于的哈希函数称为签名规则。在本公开的不同实现中,可以根据具体应用环境的需要来选择不同的哈希函数作为预定签名规则,只要确保针对不同的评论210所获得的签名230是唯一的即可。
继而,可以通过比较签名230与评论数据库240,来确定签名230在评论数据库240中的出现频率250。在此,评论数据库240可以包括在针对第一资讯源以及不同于第一资讯源的第二资讯源中的多个资讯的历史评论的签名。最后,可以基于出现频率250来处理评论。将会理解,尽管在此示出了评论数据库240涉及来自两个不同资讯源中的评论的情况,在其他示例中,评论数据库240还可以涉及来自更多的资讯源中的评论。
在下文中,将参见图3详细描述有关处理评论210的更多细节。图3示意性示出了根据本公开内容的示例性实现方式的方法300的流程图。如图3所示,在方框310处,判断是否接收到用户针对第一资讯源中的资讯而输入的评论。如果判断结果为“是”,则操作前进至方框320以提取评论210的有效部分220。在此实现中,可以基于多种方式来从评论210中提取有效部分220。例如,可以基于以下处理中的一个或多个来提取有效部分220:标点符号处理、表情符号处理、繁体字处理、重复内容处理、乱码处理、以及内容关键字处理。
在方框330处,基于预定签名规则获取有效部分220的签名230。在此实现方式中,预定签名规则可以选自多种候选签名规则。例如,可以选择选择消息摘要算法第五版(MD5)规则、SHA-1规则或者其他的候选规则。
在方框340处,确定签名230在评论数据库240中的出现频率250,评论数据库240包括在针对第一资讯源以及不同于第一资讯源的第二资讯源中的多个资讯的历史评论的签名。将会理解,在此评论数据库240中所包括的签名与从有效部分220确定签名230的规则应当是相同的,以便可以在签名230和评论数据库240中的签名之间进行比较。
在方框350处,基于出现频率250来处理评论210。将会理解,在此可以以多种方式来处理评论210。在此过程中,如果发现该评论210是不良评论,可以直接删除该评论或者还可以针对该评论进行进一步处理。在下文中,将结合评论数据库240的具体示例来描述如何针对评论210进行处理。
根据本公开的一个示例性实现,如果确定出现频率250高于预定义的阈值,则可以删除评论。通过将用户的评论210与评论数据库240进行比较并确定评论210在评论数据库240中的出现频率250,可以更加准确地识别出不良评论。尤其是对于难以提取关键字的各种广告、煽动性言论、水军文字等难以通过关键字方式识别的不良评论。
根据本公开的一个示例性实现,可以基于签名230来更新评论数据库250。在此实现中,尽管评论210被删除并且未被显示在资讯源中,利用该签名230更新评论数据库250可以记录用户输入的评论的历史,以便后续用于其他评论时使用。
根据本公开的一个示例性实现,出现频率250可以表示签名230在评论数据库240中出现的次数。在下文中,将基于评论数据库240的不同实现来描述如何确定出现频率250。根据本公开的一个示例性实现,可以采用如下文表1所示的数据结构来存储评论数据库240。
表1评论数据库的示例
如表1所示,第一列表示各个签名的序号,第二列表示签名的具体内容,以及第三列表示各个签名在整个评论数据库240中的出现次数。此时,假设接收到的评论210的签名230为“签名1”,则可以基于第三列中的数字确定出现频率250为500次。以此方式,可以在多个资讯源的范围内过滤来自用户的各个评论。如果评论210在多个资讯源的范围内的出现次数超过预定值(例如3000),则可以将其删除;否则可以保留该评论210并且在资讯的相关位置处显示该评论210。
根据本公开的一个示例性实现,出现频率250可以表示签名230在评论数据库240中与给定资讯的评论相关联的出现的次数。根据本公开的一个示例性实现,可以采用如下文表2所示的数据结构来存储评论数据库240。
表2评论数据库的示例
序号 | 签名 | 资讯ID | 出现次数 |
1 | 签名1 | ID1 | 500 |
2 | 签名2 | ID2 | 4000 |
…… | …… | …… |
如表2所示,第一列表示各个签名的序号,第二列表示签名的具体内容,以及第三列表示与签名相关联的评论所针对的资讯的ID,第四列表示各个签名在评论数据库240中与不同资讯的评论相关联的出现的次数出现次数。此时,假设接收到的评论210的签名230为“签名1”,则可以基于第三、第四列中的数字确定该评论210在针对资讯“ID1”的评论中出现了500次。以此方式,可以在多个资讯源的范围内以更为精细的粒度来过滤来自用户的各个评论。如果评论210在针对某个资讯的评论中的出现次数超过预定值(例如300),则可以将其删除;否则可以保留该评论210并且在资讯的相关位置处显示该评论。
根据本公开的一个示例性实现,还可以基于评论210更新用于定义将被过滤的敏感内容的词典。在此的敏感内容的词典可以包括敏感内容的部分或者全部信息。一旦在评论210中发现与敏感内容相对应的文字,则可以立刻删除该评论210。敏感内容的词典例如可以包括多个词典,以用于记录从多个资讯源获取的多方面的内容。例如,广告词典可以包括“详询qq”、“批发零售”、“欢迎询价”等内容。煽动性言论词典例如可以包括“帮忙转发”、“转发扩散”、“求求大家”等内容。将会理解,在此并不限定以何种方式来存储词典。例如,词典中可以直接包括评论的文字,或者还可以包括评论的签名。
在针对多个评论的处理过程中,如果发现某个评论的出现频率极高,则可以将该评论加入敏感内容的词典。例如,假设在已有的广告词典中仅包括“详询qq”、“批发零售”、“降价优惠”、“欢迎询价”。如果发现在一段时间内评论“降价优惠”的出现频率逐渐升高并且高于预定阈值,则此时可以将“降价优惠”加入广告词典。
根据本公开的一个示例性实现,可以将有效部分220与定义将被过滤的敏感内容的词典进行比较,以确定有效部分220是否包括将被过滤的敏感内容。继而,如果确定有效部分220不包括将被过滤的敏感内容,基于预定签名规则获取有效部分220的签名230。以此方式,可以在执行确定签名的步骤之前首先进行预处理,如果有效部分220的内容已经可以足够确定该评论210属于不良评论,则可以不进行后续的确定签名和与评论数据库进行比较的过程。在此可以直接删除该评论210以便提高处理效率。
图4示意性示出了根据本公开内容的示例性实现方式的另一方法400的流程图。如图4所示,在方框320至350处所示的处理的步骤与图3中的相应方框处的处理步骤相同,因而不再赘述。图4与图3的不同之处在于,在方框320与方框330之间还包括方框410,其目的在于确定有效部分220中是否包括将被过滤的敏感内容。如图所示,可以仅在确定不包括敏感内容的情况下,才执行方框330处的处理。否则,可以直接将评论210删除。
根据本公开的一个示例性实现,如果确定有效部分220包括将被过滤的敏感关内容,删除评论。再次参见图4,在方框410处,如果确定有效部分220包括将被过滤的敏感内容,则操作流程前进至方框420处以将该评论210删除。
根据本公开的一个示例性实现,提取评论210的有效部分220可以包括多方面的处理,例如可以包括以下中的至少任一项:标点符号处理、表情符号处理、繁体字处理、重复内容处理、乱码处理、内容关键字处理。图5示意性示出了根据本公开内容的示例性实现方式的用于从评论中提取有效成分的方法500的流程图。在下文中,将参见图5详细描述更多信息。
如图5所示,在方框510处,可以执行标点符号处理。在此处理的规则在于,如果同一个标点符号出现多次,那么最多保留三次即可。假设评论210为:
“我特别特别喜欢Alice!!!!!!!!!!!!!!!!!!!!!!!!!!!!!”
由于该评论210中包括大量叹号,因而可以删除过多的叹号,并且处理后的有效部分220为:
“我特别特别喜欢Alice!!!”
如图5所示,在方框520处,可以执行表情符号处理。在此处理的规则在于,如果同一个表情符号出现多次,那么最多保留三次即可。假设评论210为:
“我特别特别喜欢Alice[爱心][爱心][爱心][爱心][爱心][爱心]”
由于该评论210中包括大量表情符号,因而可以删除过多的部分,并且处理后的有效部分220为:
“我特别特别喜欢Alice[爱心][爱心][爱心]”。
如图5所示,在方框530处,可以执行繁体字处理。在此处理的规则在于,如果评论中出现繁体字,则将繁体字转换为简体字。假设评论210为:
“我特別特別喜歡Alice”。
由于该评论210中包括繁体字,因而可以将繁体字转换为简体字,并且处理后的有效部分220为:
“我特别特别喜欢Alice”。
如图5所示,在方框540处,可以执行重复内容处理。在此处理的规则在于,如果评论中存在大量重复内容,则可以将重复内容删除。太长的评论通常期望表达强调的含义,然而却包括大量冗余信息。此时,去除重复部分并不会导致丧失评论原有的含义。重复内容可以包括两种情况:(1)单个词语重复多次,例如,“哈哈哈哈哈哈哈哈哈!”;(2)短语被重复多次,例如,“我特别喜欢Alice!我特别喜欢Alice!我特别喜欢Alice!我特别喜欢Alice!”此时,处理后的有效部分220可以分别表示为“哈哈”和“我特别喜欢Alice!”
将会理解,由于去除重复可以大大缩短评论内容,此时还可能出现有效部分过短的情况。对于例如“哈哈”这类的过短内容,由于“哈哈”并不具有太多的语义,因而根据本公开的一个示例性实现,还可以直接删除与过短的有效部分相关联的评论。
如图5所示,在方框550处,可以执行乱码处理。在此处理的规则在于,如果评论中出现乱码,则删除乱码部分。假设评论210为“赑猊狴鸱魑畿劂”,则可以直接将该评论210删除。又例如,评论的一部分可能包括乱码,例如对于评论“我特别喜欢Alice!赑畿”,则此时可以认为后半部分评论是用户的错误输入,并且仅保留前半部分评论。
如图5所示,在方框560处,可以执行内容关键字处理。在此处理的规则在于,如果评论中出现在关键字词典中定义的关键字,则对相关关键字进行屏蔽。关键字可以包括多个类型的关键字,例如脏话关键字和淫秽关键字等。为了更准确地识别期望被屏蔽的关键字,关键字词典中还可以包括关键字异体字、拼音、拼音首字母缩写等。
对于包含少量关键字的评论,可以将命中词典的部分用特殊符号替代。如果某个评论出现关键字词典中的大量关键字,或者进行屏蔽后特殊符号所占比例过大,则此时可以将整条评论都删除。
将会理解,尽管在图5中以顺序方式描述了各个处理的具体细节,在具体应用环境中,上述处理可以按照不同的顺序执行,可以并行地执行,或者还可以重复执行。例如,假设评论210为:
“哈哈哈哈哈哈哈哈!我特別特別喜歡Alice!我特别喜欢Alice!我特别喜欢Alice!我特别喜欢Alice![爱心][爱心][爱心][爱心][爱心]我特别喜欢Alice!赑猊狴”。
则所确定的有效部分220可以表示为:
“哈哈!我特别喜欢Alice![爱心][爱心][爱心]”。
根据本公开的一个示例性实现,还可以针对未被过滤的评论进行进一步处理。图6示意性示出了根据本公开内容的示例性实现方式的用于对未被过滤的评论执行进一步处理的方法600的流程图。在方框610处,可以确定评论210的情感评分。在此的情感评分可以指示用户对于资讯内容的支持程度。例如,可以在区间[-1,1]中表示情感评分,其中“-1”表示评论对资讯持强烈反对态度,“-1”表示评论对资讯持强烈支持态度。在方框620处,可以确定指示评论是否为优质评论的评分。例如,可以在区间[0,1]中表示优质评论评分,其中“0”表示较差的评论,而“1”表示优质评论。在方框630处,还可以从评论210中提取句子主干,以便确定来自各个用户的评论的主要观点。
根据本公开的一个示例性实现,可以获取预定义的情感关键字数据库,情感关键字数据库定义分别表示支持、反对以及中立情感的关键字。继而,可以比较从评论中提取的一个或多个关键字以及情感关键字数数据库。接着,可以基于比较来确定评论表达的情感。以此方式,可以确定各个用户对于资讯的支持/反对态度,并且可以基于确定的情感评分来针对评论进行进一步处理。例如,可以基于支持的评论来撰写有关支持资讯的文章。
在此实现中,情感关键字数据库可以包括有关支持、反对、中立的关键字集合。例如,有关支持的数据库可以包括:支持、赞同、赞成、同意等关键字;有关反对的数据库可以包括:反对、拒绝、差评等关键字;有关中立的数据库可以包括:一般、无所谓、差不多等关键字。根据本公开的一个示例性实现,可以根据评论210命中各个数据库中的关键字的次数,来确定情感评分。例如,如果评论210中包括支持、赞同、赞成、同意,则可以将该评论210的情感评分设置为1。又例如,例如,如果评论210中包括无所谓、一般,则可以将该评论210的情感评分设置为0。
根据本公开的一个示例性实现,可以从评论中提取句子主干,继而基于句子主干提取评论的观点。在此实现方式中,可以提取主语+谓语形式的短句来表达评论的观点,或者还可以提取形容词+名词形式的短语来表达评论的观点。例如,假设评论210表示为“Alice长相甜美,而且在那部电影里的演技特别好”。则所提取的观点可以是“Alice长相甜美,演技好”。
根据本公开的一个示例性实现,可以获取基于历史评论来训练的优质评论模型,基于优质评论模型来评价评论。在此实现中,可以根据预设的优质评论模型,从评论数据中选取目标评论集。在此优质评论是指具有代表性或观点独特、新颖的评论。具体地,可以预先对大量的评论数据进行标注,得到优质评论数据,然后基于原始评论数据及标注出的优质评论数据,以评论内容和点赞数为特征,采用贝叶斯多项式模型,训练优质评论模型。然后,在获取与热点资讯对应的评论数据后,利用已训练的优质评论模型,对每条评论进行打分,从而选出分数大于预设分值的评论构成目标评论集。在此实现中,训练优质评论模型时,也可以利用神经网络等其他模型,在本公开的上下文中并不给出更多限制。
在上文中已经参见附图描述了如何处理有关处理文本评论的具体步骤。根据本公开的一个示例性实现,评论可以包括音频内容等。此时,可以首先将评论从音频转换为文字,继而按照上文描述的方法来进行处理。
根据本公开的一个示例性实现,评论还可以包括图片内容。例如,用户可能会上传图片来表达自己的观点。此时,可以按照图像处理的方式来处理图片。例如,可以识别图片的主题、黑白/彩色、清晰度、相似度、是否包括水印等。
图7示意性示出了根据本公开内容的示例性实现方式的用于处理评论的装置700的框图。具体地,该装置700可以包括:提取模块710,配置用于响应于接收到用户针对第一资讯源中的资讯输入的评论,提取评论的有效部分;获取模块720,配置用于基于预定签名规则获取有效部分的签名;确定模块730,配置用于确定签名在评论数据库中的出现频率,评论数据库包括在针对第一资讯源以及不同于第一资讯源的第二资讯源中的多个资讯的历史评论的签名;以及处理模块740,配置用于基于出现频率来处理评论。
根据本公开的一个示例性实现,处理模块740包括:删除模块,配置用于响应于确定出现频率高于预定义的阈值,删除评论;以及更新模块,配置用于基于签名更新评论数据库。
根据本公开的一个示例性实现,出现频率包括以下中的至少任一项:签名在评论数据库中出现的次数;以及签名在评论数据库中与给定资讯的评论相关联的出现的次数。
根据本公开的一个示例性实现,处理模块740进一步包括:词典更新模块,配置用于基于评论更新用于定义将被过滤的敏感内容的词典。
根据本公开的一个示例性实现,进一步包括:比较模块,配置用于将有效部分与定义将被过滤的敏感内容的词典进行比较以确定有效部分是否包括将被过滤的敏感内容;以及其中获取模块进一步配置用于响应于确定有效部分不包括将被过滤的敏感内容,基于预定签名规则获取有效部分的签名。
根据本公开的一个示例性实现,进一步包括:删除模块,配置用于响应于确定有效部分包括将被过滤的敏感关内容,删除评论。
根据本公开的一个示例性实现,提取模块710被配置用于执行以下中的至少任一项:标点符号处理、表情符号处理、繁体字处理、重复内容处理、乱码处理、内容关键字处理。
根据本公开的一个示例性实现,进一步包括:数据库获取模块,配置用于获取预定义的情感关键字数据库,情感关键字数据库定义分别表示支持、反对以及中立情感的关键字;比较模块,配置用于比较从评论中提取的一个或多个关键字以及情感关键字数据库;以及情感确定模块,配置用于基于比较来确定评论表达的情感。
根据本公开的一个示例性实现,进一步包括:主干提取模块,配置用于从评论中提取句子主干;以及观点提取模块,配置用于基于句子主干提取评论的观点。
根据本公开的一个示例性实现,进一步包括:模型获取模块,配置用于获取基于历史评论来训练的优质评论模型;以及评价模块,配置用于基于优质评论模型来评价评论。
图8示出了能够实施本公开内容的多个实现方式的计算设备800的框图。设备800可以用于实现图1的计算设备82。如图所示,设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元801执行上文所描述的各个方法和处理,例如过程400。例如,在一些实现方式中,过程400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实现方式中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时,可以执行上文描述的过程400的一个或多个步骤。备选地,在其他实现方式中,CPU 801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程400。
根据本公开内容的示例性实现方式,提供了一种其上存储有计算机程序的计算机可读存储介质。程序被处理器执行时实现本公开所描述的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开内容的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开内容的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开内容的范围的限制。在单独的实现方式的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (22)
1.一种用于处理评论的方法,包括:
响应于接收到用户针对第一资讯源中的资讯输入的评论,提取所述评论的有效部分;
基于预定签名规则获取所述有效部分的签名;
通过对所述有效部分的签名与评论数据库中的多个签名进行比较,确定所述有效部分的签名在所述评论数据库中的出现频率,所述多个签名包括在针对所述第一资讯源以及不同于所述第一资讯源的第二资讯源中的多个资讯的历史评论的签名,所述出现频率包括:所述签名在所述评论数据库中与给定资讯的评论相关联的出现的次数;以及
基于所述出现频率来处理所述评论。
2.根据权利要求1所述的方法,其中基于所述出现频率来处理所述评论包括:
响应于确定所述出现频率高于预定义的阈值,删除所述评论;以及
基于所述签名更新所述评论数据库。
3.根据权利要求2所述的方法,其中所述出现频率进一步包括:所述签名在所述评论数据库中出现的次数。
4.根据权利要求2所述的方法,其中基于所述出现频率来处理所述评论进一步包括:
基于所述评论更新用于定义将被过滤的敏感内容的词典。
5.根据权利要求1所述的方法,进一步包括:
将所述有效部分与定义将被过滤的敏感内容的词典进行比较以确定所述有效部分是否包括将被过滤的敏感内容;以及
响应于确定所述有效部分不包括将被过滤的敏感内容,基于所述预定签名规则获取所述有效部分的所述签名。
6.根据权利要求1所述的方法,进一步包括:
响应于确定所述有效部分包括将被过滤的敏感关内容,删除所述评论。
7.根据权利要求1所述的方法,其中提取所述评论的所述有效部分包括以下中的至少任一项:
标点符号处理、表情符号处理、繁体字处理、重复内容处理、乱码处理、以及内容关键字处理。
8.根据权利要求1所述的方法,进一步包括:
获取预定义的情感关键字数据库,所述情感关键字数据库定义分别表示支持、反对以及中立情感的关键字;
比较从所述评论中提取的一个或多个关键字以及所述情感关键字数据库;以及
基于所述比较来确定所述评论表达的情感。
9.根据权利要求1所述的方法,进一步包括:
从所述评论中提取句子主干;以及
基于所述句子主干提取所述评论的观点。
10.根据权利要求1所述的方法,进一步包括:
获取基于历史评论来训练的优质评论模型;以及
基于所述优质评论模型来评价所述评论。
11.一种用于处理评论的装置,包括:
提取模块,配置用于响应于接收到用户针对第一资讯源中的资讯输入的评论,提取所述评论的有效部分;
获取模块,配置用于基于预定签名规则获取所述有效部分的签名;
确定模块,配置用于通过对所述有效部分的签名与评论数据库中的多个签名进行比较确定所述有效部分的签名在所述评论数据库中的出现频率,所述多个签名包括在针对所述第一资讯源以及不同于所述第一资讯源的第二资讯源中的多个资讯的历史评论的签名,所述出现频率包括:所述签名在所述评论数据库中与给定资讯的评论相关联的出现的次数;以及
处理模块,配置用于基于所述出现频率来处理所述评论。
12.根据权利要求11所述的装置,其中所述处理模块包括:
删除模块,配置用于响应于确定所述出现频率高于预定义的阈值,删除所述评论;以及
更新模块,配置用于基于所述签名更新所述评论数据库。
13.根据权利要求12所述的装置,其中所述出现频率进一步包括:所述签名在所述评论数据库中出现的次数。
14.根据权利要求12所述的装置,其中所述处理模块进一步包括:
词典更新模块,配置用于基于所述评论更新用于定义将被过滤的敏感内容的词典。
15.根据权利要求11所述的装置,进一步包括:
比较模块,配置用于将所述有效部分与定义将被过滤的敏感内容的词典进行比较以确定所述有效部分是否包括将被过滤的敏感内容;以及
其中所述获取模块进一步配置用于响应于确定所述有效部分不包括将被过滤的敏感内容,基于所述预定签名规则获取所述有效部分的所述签名。
16.根据权利要求11所述的装置,进一步包括:
删除模块,配置用于响应于确定所述有效部分包括将被过滤的敏感关内容,删除所述评论。
17.根据权利要求11所述的装置,其中所述提取模块被配置用于执行以下中的至少任一项:标点符号处理、表情符号处理、繁体字处理、重复内容处理、乱码处理、以及内容关键字处理。
18.根据权利要求11所述的装置,进一步包括:
数据库获取模块,配置用于获取预定义的情感关键字数据库,所述情感关键字数据库定义分别表示支持、反对以及中立情感的关键字;
比较模块,配置用于比较从所述评论中提取的一个或多个关键字以及所述情感关键字数据库;以及
情感确定模块,配置用于基于所述比较来确定所述评论表达的情感。
19.根据权利要求11所述的装置,进一步包括:
主干提取模块,配置用于从所述评论中提取句子主干;以及
观点提取模块,配置用于基于所述句子主干提取所述评论的观点。
20.根据权利要求11所述的装置,进一步包括:
模型获取模块,配置用于获取基于历史评论来训练的优质评论模型;以及
评价模块,配置用于基于所述优质评论模型来评价所述评论。
21.一种设备,所述设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1-10中任一项所述的方法。
22.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810538882.5A CN110633351B (zh) | 2018-05-30 | 2018-05-30 | 用于处理评论的方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810538882.5A CN110633351B (zh) | 2018-05-30 | 2018-05-30 | 用于处理评论的方法、装置、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633351A CN110633351A (zh) | 2019-12-31 |
CN110633351B true CN110633351B (zh) | 2022-09-13 |
Family
ID=68966132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810538882.5A Active CN110633351B (zh) | 2018-05-30 | 2018-05-30 | 用于处理评论的方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633351B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968408A (zh) * | 2012-11-23 | 2013-03-13 | 西安电子科技大学 | 识别用户评论的实体特征方法 |
CN103778109A (zh) * | 2014-02-13 | 2014-05-07 | 北京奇艺世纪科技有限公司 | 一种识别用户评论的方法及装置 |
CN103957275A (zh) * | 2014-05-19 | 2014-07-30 | 北京奇虎科技有限公司 | 用户评论信息的推送方法、客户端、服务器及系统 |
CN106708816B (zh) * | 2015-07-16 | 2019-12-10 | 北京国双科技有限公司 | 网页解析中网页正文重复内容的处理方法及装置 |
CN107729538A (zh) * | 2017-10-31 | 2018-02-23 | 广东欧珀移动通信有限公司 | 评论信息处理方法、装置、终端设备及存储介质 |
-
2018
- 2018-05-30 CN CN201810538882.5A patent/CN110633351B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110633351A (zh) | 2019-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hill et al. | Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study | |
US20170185581A1 (en) | Systems and methods for suggesting emoji | |
US8725717B2 (en) | System and method for identifying topics for short text communications | |
US9367603B2 (en) | Systems and methods for behavioral segmentation of users in a social data network | |
CN108628833B (zh) | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 | |
CN108805598B (zh) | 相似度信息确定方法、服务器及计算机可读存储介质 | |
US11416680B2 (en) | Classifying social media inputs via parts-of-speech filtering | |
EP3035210A1 (en) | Method and device for obtaining web page category standards, and method and device for categorizing web page categories | |
US9311372B2 (en) | Product record normalization system with efficient and scalable methods for discovering, validating, and using schema mappings | |
US8793120B1 (en) | Behavior-driven multilingual stemming | |
KR102034346B1 (ko) | 학습 기반의 비속어 탐지 장치 및 방법 | |
US20170060841A1 (en) | Text Extraction | |
Kantharaj et al. | Opencqa: Open-ended question answering with charts | |
CN108536676B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111091883B (zh) | 一种医疗文本处理方法、装置、存储介质及设备 | |
US20140324740A1 (en) | Ontology-Based Attribute Extraction From Product Descriptions | |
KR100998696B1 (ko) | 광고 키워드 검색 시스템 및 추천 광고키워드 제공 방법 | |
CN109918490B (zh) | 一种内容抽取方法及装置 | |
CN111259223B (zh) | 基于情感分析模型的新闻推荐和文本分类方法 | |
CN110633351B (zh) | 用于处理评论的方法、装置、设备和计算机可读存储介质 | |
CN110991169A (zh) | 一种风险内容变种的识别方法、装置及电子设备 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
US9348902B2 (en) | Automated attribute disambiguation with human input | |
CN107943781B (zh) | 关键词识别方法及装置 | |
CN111753533B (zh) | 标题文本生成方法、装置、计算机存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |