CN102750344A

CN102750344A - 基于知识问答平台的回答排重方法及装置

Info

Publication number: CN102750344A
Application number: CN2012101853943A
Authority: CN
Inventors: 赵鹏伟
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2012-06-06
Filing date: 2012-06-06
Publication date: 2012-10-24
Anticipated expiration: 2032-06-06
Also published as: CN102750344B

Abstract

本发明涉及问答平台开发技术领域，公开了一种基于知识问答平台的回答排重方法及装置。该方法包括：获取当前用户提交的回答内容；确定回答内容的长度；如果所述长度小于或等于预设的长度阈值，则判断回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串；如果是，则禁止将回答内容提交到回答数据库中；否则，将回答内容提交到回答数据库中；如果所述长度大于所述长度阈值，则将回答内容按所述长度阈值顺序切割为多个子段；判断所述多个子段中是否有任意一个子段为所述字符串的子串，如果是，则禁止将回答内容提交到回答数据库中；否则，将回答内容提交到回答数据库中。本发明可以实现回答排重，节省网络资源。

Description

基于知识问答平台的回答排重方法及装置

技术领域

本发明涉及问答平台开发技术领域，具体涉及一种基于知识问答平台的回答排重方法及装置。

背景技术

知识问答平台，例如新浪爱问、百度知道、搜搜问问等，相比于被动的搜索而言，更注重主动知识分享和经验交流。近几年，这种更为人性化、实用性更强的问答平台，已被越来越多的用户关注和使用。

目前知识问答平台中，一些用户为了获得积分，往往利用复制粘贴单个用户已回答的内容或者拼接剪辑多个用户已回答的内容，来提交自己的答案，给后台审核管理员审核时造成了很大的障碍，大量重复的答案白白耗费了网络资源，严重影响了知识问答平台的正常良性运作。因此，在知识问答平台中，如何及时、有效地针对提问进行回答排重，成为现有技术中亟待解决的技术问题之一。

发明内容

本发明实施例针对上述现有技术存在的问题，提供一种基于知识问答平台的回答排重方法及装置，以实现及时、有效的回答排重，节省网络资源。

为此，本发明实施例提供如下技术方案：

一种基于知识问答平台的回答排重方法，包括：

获取当前用户提交的回答内容；

确定所述回答内容的长度；

如果所述长度小于或等于预设的长度阈值，则判断所述回答内容是否为预先生成的字符串的子串，所述字符串包括其他用户已提交到回答数据库中的已回答内容和问题标题；如果是，则禁止将所述回答内容提交到所述回答数据库中；否则，将所述回答内容提交到所述回答数据库中；

如果所述长度大于所述长度阈值，则将所述回答内容按所述长度阈值顺序切割为多个子段；

判断所述多个子段中是否有任意一个子段为所述字符串的子串，如果是，则禁止将所述回答内容提交到所述回答数据库中；否则，将所述回答内容提交到所述回答数据库中。

优选地，所述方法还包括：

在确定所述回答内容的长度之前，生成所述字符串。

可选地，所述获取当前用户提交的回答内容包括：

在浏览器上采用脚本程序解析超文本标记语言HTML页面的方式获取当前用户提交的回答内容；

所述判断所述回答内容是否为所述字符串的子串包括：

利用页面脚本语言中判断字符位置的函数确定所述回答内容在所述字符串中的位置；

如果所述位置大于或等于0，则确定所述回答内容是所述字符串的子串；否则，确定所述回答内容不是所述字符串的子串。

可选地，所述获取当前用户提交的回答内容包括：

在服务器上采用嵌入HTML文档的脚本程序从对应所述当前用户的数据库中提取所述当前用户提交的回答内容；

所述判断所述回答内容是否为所述字符串的子串包括：

利用服务器脚本语言中的切割函数，以所述回答内容为正则表达式切割所述字符串；

如果所述切割函数的结果大于1，则确定所述回答内容是所述字符串的子串；否则，确定所述回答内容不是所述字符串的子串。

一种基于知识问答平台的回答排重装置，包括：

获取单元，用于获取当前用户提交的回答内容；

长度计算单元，用于确定所述回答内容的长度；

第一判断单元，用于判断所述长度是否小于或等于预设的长度阈值；

第二判断单元，用于在所述第一判断单元判断所述长度小于或等于预设的长度阈值后，判断所述回答内容是否为预先生成的字符串的子串，所述字符串包括其他用户已提交到回答数据库中的已回答内容和问题标题；

提交控制单元，用于在所述第二判断单元判断所述回答内容是所述字符串的子串后，禁止将所述回答内容提交到所述回答数据库中；在所述第二判断单元判断所述回答内容不是所述字符串的子串后，将所述回答内容提交到所述回答数据库中；

切割单元，用于在所述第一判断单元判断所述长度大于所述长度阈值后，将所述回答内容按所述长度阈值顺序切割为多个子段；

所述第二判断单元，还用于判断所述切割单元切割得到的所述多个子段中是否有任意一个子段为所述字符串的子串；

所述提交控制单元，还用于在所述第二判断单元判断所述多个子段中有任意一个子段为所述字符串的子串后，禁止将所述回答内容提交到所述回答数据库中；在所述第二判断单元判断所述多个子段中没有子段为所述字符串的子串后，将所述回答内容提交到所述回答数据库中。

优选地，所述装置还包括：

字符串生成单元，用于在确定所述回答内容的长度之前，生成所述字符串。

可选地，所述获取单元，具体用于在用户终端上采用脚本程序解析超文本标记语言HTML页面的方式获取当前用户提交的回答内容；

所述第二判断单元，具体用于利用页面脚本语言中判断字符位置的函数确定所述回答内容在所述字符串中的位置；如果所述位置大于或等于0，则确定所述回答内容是所述字符串的子串；否则，确定所述回答内容不是所述字符串的子串。

优选地，所述装置集成在浏览器上。

可选地，所述获取单元，具体用于采用嵌入HTML文档的脚本程序从对应所述当前用户的数据库中提取所述当前用户提交的回答内容；

所述第二判断单元，具体用于利用服务器脚本语言中的切割函数，以所述回答内容为正则表达式切割所述字符串；如果所述切割函数的结果大于1，则确定所述回答内容是所述字符串的子串；否则，确定所述回答内容不是所述字符串的子串。

优选地，所述装置集成在服务器上。

本发明实施例提供的基于知识问答平台的回答排重方法及装置，在获取当前用户提交的回答内容后，确定该回答内容的长度。对于长度在设定的长度阈值内的回答内容，则直接检查所述回答内容是否为由其他用户已提交到回答数据库中的已回答内容和问题标题拼接成的字符串的子串；如果是，则禁止将该回答内容提交到所述回答数据库中；对于长度超过设定的长度阈值的回答内容，先对所述回答内容按所述长度阈值顺序切割为多个子段，再检查所述多个子段中是否有任意一个子段为所述字符串的子串，如果是，则禁止将该回答内容提交到所述回答数据库中。从而可以及时、有效地阻止用户在知识问答平台上进行抄袭的行为，节省了网络资源，维护了知识问答平台的正常良性运作。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例基于知识问答平台的回答排重方法的流程图；

图2是利用本发明实施例基于知识问答平台的回答排重方法实现前端排重的流程图；

图3是利用本发明实施例基于知识问答平台的回答排重方法实现后端排重的流程图；

图4是本发明实施例基于知识问答平台的回答排重装置的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

通常，在问答平台上，针对某一问题的页面，会显示问题标题，文本输入框、提交按钮等信息。用户在文本输入框中输入自己的回答内容，该回答内容可以是中文和/或英文字符串。

在本发明实施例中，用户点击提交按钮后，并不将所述用户输入的回答内容直接提交到回答数据库中，而是先对其进行排重检查，禁止与已回答内容重复的回答内容提交到回答数据库，仅将未重复的回复内容提交到回答数据库中，从而及时、有效地阻止用户在知识问答平台上进行抄袭的行为，节省网络资源，维护知识问答平台的正常良性运作。

如1所示，是本发明实施例基于知识问答平台的回答排重方法的流程图，包括以下步骤：

步骤101，获取当前用户提交的回答内容。

步骤102，确定所述回答内容的长度。

所述回答内容可以是中文和/或英文字符串等文本内容。

其中，每个汉字占用2个字符长度，每个英文字母占用1个字符长度。因此，统计该回答内容占用的字符长度，即可得到所述回答内容的长度。

步骤103，判断所述长度是否小于或等于预设的长度阈值；如果是，则执行步骤104；否则，执行步骤105。

所述长度阈值可根据不同的问题、以及不同语言所占的字符长度范围来确定，例如汉字的范围为0x80-0xff，可以将所述长度阈值设置为20到30之间。

步骤104，检查所述回答内容是否为预先生成的字符串的子串，所述字符串包括其他用户已提交到回答数据库中的已回答内容和问题标题；如果是，则执行步骤107；否则，执行步骤108。

需要说明的是，上述已回答内容是其他用户针对与所述用户回答的问题的同一问题（即所述问题标题）的回答内容，并且该回答内容已经过排重检查，提交到回答数据库中。

在本发明实施例中，允许用户对自己已提交的回答内容进行修改，也就是说，用户在提交回答内容并且该回答内容已经过排重检查提交到了回答数据库中后，该用户还可以继续对自己的已回答内容进行修改。由于在排重检查时所依据的字符串中不包含当前用户自己的已回答内容，因此，只要当前用户提交的回答内容经过排重检查后确定不属于所述字符串的子串，即可将所述回答内容更新到回答数据库中，替换掉该回答数据库中所述当前用户的已回答内容。

在实际应用中，上述检查所述回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串可以有多种实现方式，具体将在后面详细说明。

步骤105，将所述回答内容按所述长度阈值顺序切割为多个子段。

在切割时，可以将用户提交的回答内容从起始字符开始进行切割。

假设所述长度阈值为p，所述回答内容的长度为s，则如果s能被p整除，则切割后得到的子段个数为s/p；如果s不能被p整除，则切割后得到的子段个数为[s/p]+1，其中[s/p]表示对s/p取整。

需要说明的是，在对回答内容顺序切割时，如果当前切割得到的子段的末尾为汉字的一部分，则将该子段的长度设置为p-1，即将末尾的汉字归入下一个切割子段。

步骤106，检查所述多个子段中是否有任意一个子段为所述字符串的子串；如果是，则执行步骤107；否则，执行步骤108。

在进行检查时，可以按切割顺序，依次对切割得到的各子段检查是否为所述字符串的子串。当然，也可以按其他顺序或随机抽取的方式逐个对各子段进行检查，对此本发明实施例不做限定。

步骤107，禁止将所述回答内容提交到所述回答数据库中。

步骤108，将所述回答内容提交到所述回答数据库中。

需要说明的是，在本发明实施例中，可以在上述步骤101和步骤102之间、或者在步骤102和步骤103之间，从回答数据库中提取除所述当前用户之外的其他用户的已回答内容和问题标题，然后将其拼接成成字符串，作为进行回答内容排重检查的依据。

当然，也可以先根据回答数据库中的信息，生成包括所有已提交到所述回答数据库中的已回答内容和问题标题的字符串，为了区别于前面所述的只包括其他用户已提交到回答数据库中的已回答内容和问题标题的字符串，将这种括所有已提交到所述回答数据库中的已回答内容和问题标题的字符串称为初始字符串。然后，在获取当前用户提交的回答内容后，检查所述回答数据库库是否有对应所述当前用户的已回答内容，如果有，则将其从所述初始字符串中删除，从而得到作为排重检查依据的字符串。

所述初始字符串可以在每次将所述回答内容提交到所述回答数据库中后，即执行上述步骤108后，从回答数据库中提取相应信息生成。

在进行字符串拼接时，可以利用php（Hypertext Preprocessor，超级文本预处理语言）的字符串拼接运算符“.”将已回答内容和问题标题拼接成字符串，也可以利用javascript语言的字符串拼接运算符“+”将已回答内容和问题标题拼接成字符串。

本发明实施例基于知识问答平台的回答排重方法可以应用在用户本地终端上，由浏览器采用脚本程序解析HTML（Hypertext Markup Language，超文本标记语言）页面的方式获取所述用户提交的回答内容，实现对本地用户提交的回答内容的排重检查与控制。这种应用方式不仅速度快，而且可以减轻服务器的负荷。为了描述方便，后面将这种应用方式称为前端排重。

当然，本发明实施例基于知识问答平台的回答排重方法也可以应用在服务器上，由服务器从用户的数据库中获取提交的回答内容，实现对所有用户提交的回答内容的排重检查与控制。这种应用方式在一定程度上会增加服务器的负荷，但高全性高。为了描述方便，后面将这种应用方式称为后端排重。

需要说明的是，在实际应用中，可以根据需要选择上述前端排重或后端排重方式，当然，也可以将两种排重方式相结合应用，对此本发明实施例不做限定。

下面分别对上述前端排重和后端排重两种实现方式进行详细说明。

如图2所示，是利用本发明实施例基于知识问答平台的回答排重方法实现前端排重的流程图，包括以下步骤：

步骤201，在浏览器上采用脚本程序解析HTML页面的方式获取当前用户提交的回答内容。

由javascript脚本程序根据页面上添加的区隔标记“div”（页面元素中的独立块，可在里面放置文字、图片、视频等）来抓取问题标题、回答内容。

“div”的起始标签和结束标签之间的所有内容都是用来构成所述独立块的，其中所包含元素的特性由“div”标签的属性来控制，或者是通过使用样式表格式化这个块来进行控制。

步骤202，确定所述回答内容的长度。

首先设置回答内容的长度初始值s为0，然后遍历所述回答内容形成的字符串，判断其中每个字符是否在/[^\x00-\xff]/g（字符编码中文范围）范围内，如果是，则说明是中文字符，s的值加2，否则加1，遍历完成后，得到的s的值即为所述回答内容的长度。

步骤203，判断所述长度是否小于或等于预设的长度阈值；如果是，则执行步骤204；否则，执行步骤205。

步骤204，利用页面脚本语言中判断字符位置的函数检查所述回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串；如果是，则执行步骤207；否则，执行步骤208。

比如，可以利用Javascript的判断字符位置的函数确定所述回答内容是否为已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串。具体地，假设sample表示所述字符串，s表示所述回答内容，则利用以下函数确定所述回答内容在所述字符串中的位置：

indexOf（var flag=sample.indexOf(s)（1）

如果flag的值大于或等于0，则确定所述回答内容s是已提交到回答数据库中的已回答内容和问题标题拼接的字符串sample的子串；否则，确定所述回答内容s不是已提交到回答数据库中的已回答内容和问题标题拼接的字符串sample的子串。

当然，还可以采用网页设计中的其他函数来确定所述回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串，对此本发明实施例不做限定。

步骤205，将所述回答内容按所述长度阈值顺序切割为多个子段。

步骤206，利用页面脚本语言中判断字符位置的函数检查所述多个子段中是否有任意一个子段为所述字符串的子串；如果是，则执行步骤207；否则，执行步骤208。

对于任意一个子段，检查过程与上述步骤204中对整个回答内容的检查过程相同，在此不再赘述。

步骤207，禁止将所述回答内容提交到所述回答数据库中。

步骤208，将所述回答内容提交到所述回答数据库中。

如图3所示，是利用本发明实施例基于知识问答平台的回答排重方法实现后端排重的流程图，包括以下步骤：

步骤301，采用嵌入HTML文档的脚本程序从对应当前用户的数据库中提取所述当前用户提交的回答内容。

在该实施例中，客户端在用户提交回答内容后，将该回答内容上传到服务器，服务器将该回答内容先保存到对应该用户的数据库中。因此，可以采用服务器语言比如php从对应用户的数据库中提取所述用户提交的回答内容。

步骤302，确定所述回答内容的长度。

步骤303，判断所述长度是否小于或等于预设的长度阈值；如果是，则执行步骤304；否则，执行步骤305。

步骤304，利用服务器脚本语言中的切割函数检查所述回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串；如果是，则执行步骤307；否则，执行步骤308。

比如，可以利用php的切割函数确定所述回答内容是否为已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串。具体地，假设sample表示所述字符串，s表示所述回答内容，则利用以下函数切割字符串sample：

$test_res=explode($s,$sample) （2）

如果$test_res的值大于1，则确定所述回答内容s是已提交到回答数据库中的已回答内容和问题标题拼接的字符串sample的子串；否则，确定所述回答内容s不是已提交到回答数据库中的已回答内容和问题标题拼接的字符串sample的子串

当然，还可以采用嵌入HTML文档的脚本语言中的其他函数来确定所述回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串，对此本发明实施例不做限定。

步骤305，将所述回答内容按所述长度阈值顺序切割为多个子段。

步骤306，利用服务器脚本语言中的切割函数检查所述多个子段中是否有任意一个子段为所述字符串的子串；如果是，则执行步骤307；否则，执行步骤308。

对于任意一个子段，检查过程与上述步骤304中对整个回答内容的检查过程相同，在此不再赘述。

步骤307，禁止将所述回答内容提交到所述回答数据库中。

步骤308，将所述回答内容提交到所述回答数据库中。

本发明实施例提供的基于知识问答平台的回答排重方法，在获取当前用户提交的回答内容后，确定该回答内容的长度。对于长度在设定的长度阈值内的回答内容，则直接检查所述回答内容是否为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串；如果是，则禁止将该回答内容提交到所述回答数据库中；对于长度超过设定的长度阈值的回答内容，先对所述回答内容按所述长度阈值顺序切割为多个子段，再检查所述多个子段中是否有任意一个子段为其他用户已提交到回答数据库中的已回答内容和问题标题拼接的字符串的子串，如果是，则禁止将该回答内容提交到所述回答数据库中。从而可以及时、有效地阻止用户在知识问答平台上进行抄袭的行为，而且通过对回答内容的切割，可以有效地阻止组合多人回答内容的抄袭行为，节省了网络资源，维护了知识问答平台的正常良性运作。

相应地，本发明实施例还提供一种基于知识问答平台的回答排重装置，如图4所示，是该装置的一种结构示意图。

在该实施例中，所述装置包括：获取单元401，长度计算单元402，第一判断单元403，第二判断单元404，提交控制单元405和切割单元406。其中：

获取单元401用于获取当前用户提交的回答内容；

长度计算单元402用于确定所述回答内容的长度；

第一判断单元403用于判断所述长度是否小于或等于预设的长度阈值；

第二判断单元404用于在所述第一判断单元403判断所述长度小于或等于预设的长度阈值后，判断所述回答内容是否为预先生成的字符串的子串，所述字符串包括其他用户已提交到回答数据库中的已回答内容和问题标题；

提交控制单元405，用于在所述第二判断单元404判断所述回答内容是所述字符串的子串后，禁止将所述回答内容提交到所述回答数据库中；在所述第二判断单元404判断所述回答内容不是所述字符串的子串后，将所述回答内容提交到所述回答数据库中；

切割单元406，用于在所述第一判断单元403判断所述长度大于所述长度阈值后，将所述回答内容按所述长度阈值顺序切割为多个子段；

所述第二判断单元404，还用于判断所述切割单元406切割得到的所述多个子段中是否有任意一个子段为所述字符串的子串；

所述提交控制单元405，还用于在所述第二判断单元404判断所述多个子段中有任意一个子段为所述字符串的子串后，禁止将所述回答内容提交到所述回答数据库中；在所述第二判断单元404判断所述多个子段中没有子段为所述字符串的子串后，将所述回答内容提交到所述回答数据库中。

在本发明实施例中，包括其他用户已提交到回答数据库中的已回答内容和问题标题的字符串可以在不同时刻采用多种不同的方式生成，比如，在一种具体实现中，所述装置还可进一步包括：字符串生成单元（未图示），用于在确定所述回答内容的长度之前，生成所述字符串。

本发明实施例基于知识问答平台的回答排重装置可以集成在浏览器或者服务器上，也就是说，作为浏览器或者服务器的一部分而存在。

在不同的应用情况下，所述装置中的各功能单元可以有不同的实现方式，比如：

应用在浏览器上，所述获取单元401具体可以在用户终端上采用脚本程序解析HTML页面的方式获取当前用户提交的回答内容；所述第二判断单元404具体用于利用页面脚本语言中判断字符位置的函数确定所述回答内容在所述字符串中的位置；如果所述位置大于或等于0，则确定所述回答内容是所述字符串的子串；否则，确定所述回答内容不是所述字符串的子串。

应用在服务器上，所述获取单元401具体可以采用嵌入HTML文档的脚本程序从对应所述当前用户的数据库中提取所述当前用户提交的回答内容；所述第二判断单元404具体可以利用服务器脚本语言中的切割函数，以所述回答内容为正则表达式切割所述字符串；如果所述切割函数的结果大于1，则确定所述回答内容是所述字符串的子串；否则，确定所述回答内容不是所述字符串的子串。

利用本发明基于知识问答平台的回答排重装置实现对用户回答内容排重检查的具体过程可参照前面本发明基于知识问答平台的回答排重方法各实施例中的流程，在此不再详细说明。

当然，无论应用在浏览器上还是应用在服务器上，本发明实施例并不限定所述装置中各单元的具体实现方式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于知识问答平台的回答排重方法，其特征在于，包括：

获取当前用户提交的回答内容；

确定所述回答内容的长度；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在确定所述回答内容的长度之前，生成所述字符串。

3.根据权利要求1或2所述的方法，其特征在于，

所述获取当前用户提交的回答内容包括：

所述判断所述回答内容是否为所述字符串的子串包括：

4.根据权利要求1或2所述的方法，其特征在于，

所述获取当前用户提交的回答内容包括：

所述判断所述回答内容是否为所述字符串的子串包括：

5.一种基于知识问答平台的回答排重装置，其特征在于，包括：

获取单元，用于获取当前用户提交的回答内容；

长度计算单元，用于确定所述回答内容的长度；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5或6所述的装置，其特征在于，

所述获取单元，具体用于采用脚本程序解析超文本标记语言HTML页面的方式获取当前用户提交的回答内容；

8.根据权利要求7所述的装置，其特征在于，所述装置集成在浏览器上。

9.根据权利要求5或6所述的装置，其特征在于，

所述获取单元，具体用于采用嵌入HTML文档的脚本程序从对应所述当前用户的数据库中提取所述当前用户提交的回答内容；

10.根据权利要求9所述的装置，其特征在于，所述装置集成在服务器上。