CN112131354B - 答案筛选方法、装置、终端设备和计算机可读存储介质 - Google Patents

答案筛选方法、装置、终端设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112131354B
CN112131354B CN202011343387.2A CN202011343387A CN112131354B CN 112131354 B CN112131354 B CN 112131354B CN 202011343387 A CN202011343387 A CN 202011343387A CN 112131354 B CN112131354 B CN 112131354B
Authority
CN
China
Prior art keywords
answer
question
pair
text
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011343387.2A
Other languages
English (en)
Other versions
CN112131354A (zh
Inventor
熊智
江琳
陈科第
张铨
王耿鑫
庞磊
郭志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202011343387.2A priority Critical patent/CN112131354B/zh
Publication of CN112131354A publication Critical patent/CN112131354A/zh
Application granted granted Critical
Publication of CN112131354B publication Critical patent/CN112131354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请提供了一种答案筛选方法、装置、终端设备和计算机可读存储介质,其方法包括获取待测试的问题答案数据,计算每一个问题答案对中问题与答案之间的文本得分,得到问题答案对的第一得分;检测每一个问题答案对中答案的错误率占比,根据错误率占比确定问题答案对的第二得分;统计每一个问题答案对中答案的长度值,根据长度值计算问题答案对的第三得分;计算每一个问题答案对中答案的图像得分,得到问题答案对的第四得分;根据第一得分、第二得分、第三得分和第四得分计算出每一个问题答案对的最终得分值;根据多个最终得分值筛选出每一个问题对应的最优答案。通过综合评分能快速且准确筛选出最优答案,方便用户查看。

Description

答案筛选方法、装置、终端设备和计算机可读存储介质
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种答案筛选方法、装置、终端设备和计算机可读存储介质。
背景技术
随着互联网络技术地不断发展,移动互联网已经深入到生活的各方面,使得人们能够随时随地接触到网络信息。当生活和工作中遇到问题时,人们通常会选择在各种网站平台上搜索问题答案,例如论坛、问答社区等已经成为重要的信息来源。对于一些网站平台而言(如论坛或者问答社区),用户可在上面提出问题,其他用户可根据自己的经验进行回答。通常而言,网站平台为了能够形成一个良好的问答环境会设置一定的奖励机制,来鼓励用户进行提问和回答。这可能会导致一些用户以获得奖励为目的,随意填写答案,甚至有一些与提问完全不相关的回答。长此以往,各种不相关的答案会越来越多,可能还会将正确答案淹没,容易造成用户无法从平台上快速找出准确答案。
发明内容
有鉴于此,本申请实施例中提供了一种答案筛选方法、装置、终端设备和计算机可读存储介质,以克服现有技术中无法从平台上快速找出准确答案的问题。
第一方面,本申请实施例提供了一种答案筛选方法,所述方法包括:
获取待测试的问题答案数据,其中,所述问题答案数据包括多个问题和答案,每一个所述问题对应一个或多个所述答案,每一个所述问题与对应的任一个所述答案形成一个问题答案对;
计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分;
检测每一个所述问题答案对中答案的错误率占比,根据所述错误率占比确定所述问题答案对的第二得分;
统计每一个所述问题答案对中答案的长度值,根据所述长度值计算所述问题答案对的第三得分;
计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分;
根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值;
根据多个所述最终得分值筛选出每一个问题对应的最优答案。
第二方面,本申请实施例提供了一种答案筛选装置,所述装置包括:
问题答案数据获取模块,用于获取待测试的问题答案数据,其中,所述问题答案数据包括多个问题和答案,每一个所述问题对应一个或多个答案,每一个所述问题与对应的任一个所述答案形成一个问题答案对;
第一得分获得模块,用于计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分;
第二得分获得模块,用于检测每一个所述问题答案对中答案的错误率占比,根据所述错误率占比确定问题答案对的第二得分;
第三得分获得模块,用于统计每一个所述问题答案对中答案的长度值,根据所述长度值计算问题答案对的第三得分;
第四得分获得模块,用于计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分;
最终得分值计算模块,用于根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值;
筛选模块,用于根据多个所述最终得分值筛选出每一个问题对应的最优答案。
第三方面,本申请实施例提供了一种终端设备,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的答案筛选方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的答案筛选方法。
本申请实施例提供的答案筛选方法、装置、终端设备和计算机可读存储介质,获取待测试的问题答案数据,其中,问题答案数据包括多个问题和答案,每一个问题对应一个或多个答案,每一个问题与对应的任一个答案形成一个问题答案对;计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分;检测每一个问题答案对中答案的错误率占比,根据错误率占比确定问题答案对的第二得分;统计每一个问题答案对中答案的长度值,根据长度值计算问题答案对的第三得分;计算每一个问题答案对中答案的图像得分,得到问题答案对的第四得分;根据第一得分、第二得分、第三得分和第四得分计算出每一个问题答案对的最终得分值;根据多个最终得分值筛选出每一个问题对应的最优答案。该答案筛选方法通过对每一个问题答案对进行多个得分(包括第一得分、第二得分、第三得分以及第四得分)计算,从而确定出每一个问题答案对的最终得分值;对每一个问题答案对的最终得分值进行计算分析,快速且准确地筛选出每一个问题对应的最优答案,进而方便用户从网站平台中找出所需的答案。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的答案筛选方法的应用场景示意图;
图2为本申请一个实施例提供的答案筛选方法流程示意图;
图3为本申请另一个实施例提供的答案筛选方法流程示意图;
图4为本申请一个实施例提供的文本特征提取模型训练过程的流程示意图;
图5为本申请另一个实施例答案筛选方法流程示意图;
图6为本申请一个实施例提供的图像分类模型训练过程的流程示意图;
图7为本申请一个实施例提供的答案筛选装置的结构示意图;
图8为本申请一个实施例中提供的终端设备的结构示意图;
图9为本申请一个实施例中提供的计算机可读存储介质的结构示意图。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更详细说明本申请,下面结合附图对本申请提供的一种答案筛选方法、装置、终端设备和计算机可读存储介质,进行具体地描述。
请参考图1,图1示出了本申请实施例提供的答案筛选方法的应用场景的示意图,该应用场景包括本申请实施例提供的终端设备102和服务器104,其中服务器104与终端设备102之间设置有网络。网络用于在终端设备102和服务器104之间提供通信链路的介质。其中,终端设备102通过网络与服务器104交互,以接收或发送消息等,服务器104可以是提供各种服务的服务器104。其中服务器104可以用来执行本申请实施例中提供的答案筛选方法。终端设备102可以将一些网站平台上的待测试的问题答案数据发送至服务器104,服务器104可以对待测试的问题答案数据执行答案筛选方法中的相关步骤,从而筛选出每个问题对应的最优答案,服务器104可以将每个问题对应的最优答案的结果返回至终端设备102,从而在相关的网站平台上进行显示。
此外,服务器104可以训练出文本特征提取模型和图像分类模型,并且存储文本特征提取模型和图像分类模型。
可选的,终端设备102可以是具有显示屏的各种电子设备,包括但不限于智能手机和计算机设备,其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。终端设备102可以泛指多个终端设备中的一个。此外,终端设备102也可以用来执行本申请实施例中提供的答案筛选方法。
应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。
随着互联网络技术地不断发展,移动互联网已经深入到生活的各方面,使得人们能够随时随地接触到网络信息。当生活和工作中遇到问题时,人们通常会选择在各种网站平台上搜索问题答案,例如论坛、问答社区等已经成为重要的信息来源。对于一些网站平台而言(如论坛或者问答社区),用户可在上面提出问题,其他用户可根据自己的经验进行回答。通常而言,网站平台为了能够形成一个良好的问答环境会设置一定的奖励机制,来鼓励用户进行提问和回答。这可能会导致一些用户以获得奖励为目的,随意填写答案,甚至有一些与提问完全不相关的回答。长此以往,各种不相关的答案会越来越多,可能还会将正确答案淹没,容易造成用户无法从平台上快速找出准确答案。另外对于网站平台(例如论坛以及问答社区),用户可能恶意发帖,发表的内容可能存在违规内容,例如涉黄、涉暴等等。需要考虑对这些包含有违规内容的发帖进行处理。而人工审核这些内容需要耗费大量的人力和财力,显然是不和实际的。综上,本发明实施例中提供一种自动化处理方法来解决上述提到的问题。
基于此,本申请实施例中还提供了一种答案筛选方法。请参阅图2,图2示出了本申请实施例提供的一种答案筛选方法的流程示意图,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S110,获取待测试的问题答案数据,其中,问题答案数据包括多个问题和答案,每一个问题对应一个或多个答案,每一个问题与对应的任一个答案形成一个问题答案对;
其中,待测试的问题答案数据是指需要进行答案筛选的、包含一系列问题和答案的数据;在本实施例中,待测试的问题答案数据可以是网站平台(例如论坛、社区或者贴吧等)中所有的已发帖的用户提出的问题和对问题的回答。此外,当网站平台中有新的问题和/或回答(即答案)发布时,可以采用数据采集设备实时从网站平台采集这些数据;或者定时从网站平台中扫描或采集数据,以便及时处理新增数据。
问题答案数据包括多个问题和多个答案,每一个问题可以对应一个或多个答案,即当一个用户提出一个问题时,可以有一个或多个用户来针对该问题给出不同的答案,当有多个用户回答内容完全相同(即给出完全相同的答案)时,可将相同答案进行合并,等效为一个答案,以便于避免后期对重复数据进行多次处理,从而减少工作量。
其中,对于一个问题和该问题对应的所有答案可以形成一个集合,记为问题答案对集合,其中每一个问题和该问题对应的任一个答案可以形成一个问题答案对,即
Figure 964135DEST_PATH_IMAGE001
Figure 547563DEST_PATH_IMAGE002
表示第
Figure 987159DEST_PATH_IMAGE003
个问题,
Figure 910116DEST_PATH_IMAGE004
表示第
Figure 219875DEST_PATH_IMAGE003
个答案。可选地,问题答案对集合可以表示为
Figure 477549DEST_PATH_IMAGE005
另外,在获取待测试的问题答案数据之前,还可以包括在网站平台中的设置黑名单,并统计黑名单用户。具体过程为:定时对网站平台(论坛或社区)中发帖回答(即答案)的用户进行统计,统计用户在某一设定时间段内用户发帖的时间间隔以及发帖频率。如果某一用户频繁发帖,则判断该用户存在恶意刷帖行为,可以将其纳入黑名单。对于纳入黑名单的用户进行一些列相应的行为限制,可根据具体的应用场景采取不同方案,例如可对首次纳入黑名单的用户进行警告提示,如果多次纳入黑名单,则可禁止用户登陆,或者禁止发表问题和回答,或者删除该用户所有回答等方式来处理等。
可选地,判断某一用户频繁发帖的步骤为:当某一用户在某一设定时间段内发帖数目大于一个阈值
Figure 530956DEST_PATH_IMAGE006
,且发帖平均时间间隔小于阈值
Figure 308419DEST_PATH_IMAGE007
,则判断该用户频繁发帖。其中,
Figure 789079DEST_PATH_IMAGE006
Figure 268471DEST_PATH_IMAGE007
可以是预先设置的值,具体的可以根据实际需求,并集合网站平台的类型等确定。
步骤S120,计算每一个问题答案对中问题与答案之间的文本得分,得到问题答案对的第一得分;
对于一个问题而言,判断其答案的好坏或优劣一个重要的判断因素是考虑答案与问题的相关性、准确性等。在本实施例中,通过计算每一个问题答案对中问题与答案之间的文本得分从而来确定问题与答案之间的相关性、准确性等,即得到问题答案对的第一得分。
步骤S130,检测每一个问题答案对中答案的错误率占比,根据错误率占比确定问题答案对的第二得分;
在本实施例中,需要对答案的错误率进行统计计算,其中错误率是指错误所占的总体的比例。其中错误可以指答案中文字的拼写错误、句子使用的错误、语法错误等。在计算出错误率之后,根据错误率占比从而计算出每一个定问题答案对的第二得分。
步骤S140,统计每一个问题答案对中答案的长度值,根据长度值计算问题答案对的第三得分;
具体地,对每个问题答案的长度进行评估,即统计每个问题答案对中答案的长度值,然后根据长度值确定第三得分。对于一个问题而言,其答案的好坏或优劣与其长度有一定的关系,通常认为长度适中的回答是最优的答案,即过长或过短的回答其质量往往没有适中长度的回答好,因此在本实施例中,通过答案的长度进而来对答案进行评估。
步骤S150,计算每一个问题答案对中答案的图像得分,得到问题答案对的第四得分;
对于一个问题的答案来说,通常认为图文并茂的答案比单纯的文字答案更优。因此,在本实施例中,计算每一个问题答案对中答案的图像得分,通过图像得分来进一步对答案进行评估。
步骤S160,根据第一得分、第二得分、第三得分和第四得分计算出每一个问题答案对的最终得分值;
在一些实施例中,根据第一得分、第二得分、第三得分和第四得分计算出每一个问题答案对的最终得分值的步骤中,包括:对第一得分、第二得分、第三得分和第四得分进行加权计算,得到最终得分值;其中加权系数为预设值。
在计算得到第一得分、第二得分、第三得分以及第四得分之后,根据第一得分、第二得分、第三得分和第四得分计算出每一个问题答案对的最终得分值。具体地,在计算最终得分值时,采用加权计算方法,每一个得分对应的加权系数可以为预设值。
在一种可选的实施方式中,采用以下公式来计算最终得分值:
Figure 125568DEST_PATH_IMAGE008
,其中
Figure 757538DEST_PATH_IMAGE009
表示第一得分,
Figure 596050DEST_PATH_IMAGE010
表示第二得分,
Figure 641366DEST_PATH_IMAGE011
表示第三得分,
Figure 974259DEST_PATH_IMAGE012
表示第四得分;
Figure 523052DEST_PATH_IMAGE013
分别表示加权系数,又称为超参,可以是预设值,在实际应用中需要进行测试和调整。
步骤S170,根据多个最终得分值筛选出每一个问题对应的最优答案。
具体地,对于每一个问题来说,当依次计算出该问题与其对应的所有答案的最终得分值(即多个最终得分值)之后,可以根据多个最终得分值来筛选最优答案。可选地,可以根据多个最终得分值来进行排序,将最高分的最终得分值对应的答案标记为最优答案,最低的最终得分值对应的答案标记为低质量答案。最后根据排序或筛选结果在网站平台上进行答案显示或展示,例如将最优答案进行优先展示(例如放在第一位展示)、对于低质量的答案可以进行折叠或隐藏等。
本申请实施例提供的答案筛选方法,获取待测试的问题答案数据,其中,问题答案数据包括多个问题和答案,每一个问题对应一个或多个答案,每一个问题与对应的任一个答案形成一个问题答案对;计算每一个问题答案对中问题与答案之间的文本得分,得到问题答案对的第一得分;检测每一个问题答案对中答案的错误率占比,根据错误率占比确定问题答案对的第二得分;统计每一个问题答案对中答案的长度值,根据长度值计算问题答案对的第三得分;计算每一个问题答案对中答案的图像得分,得到问题答案对的第四得分;根据第一得分、第二得分、第三得分和第四得分计算出每一个问题答案对的最终得分值;根据多个最终得分值筛选出每一个问题对应的最优答案。该答案筛选方法通过对每一个问题答案对多个得分(包括第一得分、第二得分、第三得分以及第四得分)进行计算,从而确定出每一个问题答案对的最终得分值;对每一个问题答案对的最终得分值进行计算分析,快速且准确地筛选出每一个问题对应的最优答案,进而方便用户从网站平台中找出所需的答案。
应当理解,尽管在本实施例中采用术语第一、第二、第三和第四等来描述得分,但得分并不应限于这些术语。这些术语仅用来将同一类型的得分彼此区分开。例如,在不脱离本发明范围的情况下,第一得分也可以被称为第二得分、第三得分或第四得分,类似地,第二得分也可以被称为第一得分等。
如图3所示,在一个实施例中,问题包括问题文本,答案包括答案文本和答案图像;每一个问题答案对包括问题答案文本对和/或问题答案图像对;采用文本特征提取模型对每一个问题答案对进行特征提取,计算每一个问题答案对中问题与答案之间的文本得分,得到问题答案对的第一得分的步骤,包括:
步骤S122,当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,将问题答案文本对输入文本特征提取模型得到问题文本的特征向量与答案文本的特征向量,并将问题文本的特征向量与答案文本的特征向量进行内积计算,得到问题答案对的第一得分;其中文本特征提取模型是采用标记的文本数据对第一深度神经网络进行训练得到的,文本数据包括多个问题文本和答案文本,每一个问题文本对应一个或多个答案文本,每一个问题文本与对应的任一个答案文本形成一个问题答案文本对;
步骤S124,当一个问题答案对为问题答案图像对时,采用第一预设值作为问题答案对的第一得分。
具体地,对于一个问题而言,其类型可以是文本形式和/或图像形式,即问题可以是问题文本(即问题是采用普通文本形式提出的)、问题图像(即问题是采用图像形式(如图片等)提出的)以及问题文本和问题图像(即问题采用普通文本和图像形式两种集合方式提出的)的结合。而对于一个答案而言,其类型也可以是文本形式和/或图像形式,即答案可以是答案文本(即答案是采用普通文本形式)、答案图像(即答案是采用图像形式)、以及答案文本和答案图像(即答案是采用普通文本和图像形式)的结合。由于在本实施例中,后期的计算仅需要用到问题文本,对于其他形式的问题可以先将其转换成文本形式,即问题文本。因此,后面提到的问题可以指问题文本。
因此,对于一个问题答案对而言,其包括问题答案文本对、问题答案图像对、以及问题答案文本对和问题答案图像对;其中问题答案文本对是指一个问题文本与一个答案文本组成的问题答案对;问题答案图像对是指一个问题文本与一个答案图像组成的问题答案对;问题答案对和问题图像对是指一个问题文本与一个答案文本和答案图像组成的问题答案对。
在计算第一得分时主要分为两种方式:一种是采用文本特征提取模型对每一个问题答案对进行特征提取,根据特征提取得到的特征向量计算得到,另一种是采用第一预设值来计算。这两种方式在实际应用中根据答案类型(即答案存在的形式)来确定。
具体过程为:当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,即问题答案对中只要包括问题答案文本对时,将问题答案文本对输入文本特征提取模型,文本特征提取模型可以对问题答案文本对进行特征提取,得到问题文本的特征向量和答案文本的特征向量,然后将问题文本的特征向量与答案文本的特征向量做内积计算,从而得到第一得分。例如,一个问题答案文本对
Figure 795114DEST_PATH_IMAGE001
输入文本特征提取模型可以得到特征向量
Figure 62148DEST_PATH_IMAGE014
,两个特征向量(即
Figure 198731DEST_PATH_IMAGE014
)之间做内积操作,就可以得到该问题文本
Figure 602030DEST_PATH_IMAGE002
和答案文本
Figure 47924DEST_PATH_IMAGE004
之间的第一得分,记为
Figure 802254DEST_PATH_IMAGE009
。其中,两个特征向量做内积操作得到的第一得分,该数值可以理解为这两个向量之间的相关性。相关性越高,这两个向量的内积得到的数值也就越大,即该得分越大。
当一个问题答案对为问题答案图像对时,即一个问题答案对仅包括问题答案图像对(一个问题对应的答案只采用图像形式)时,采用第一预设值作为问题答案对的第一得分。此时,答案中不包括文本形式,不需要根据两个特征向量来计算问题文本与答案文本的相关性得分,直接采用第一预设值作为第一得分即可。第一预设值是一个预先设置的值,可以是任意数,例如可以取0,正数或负数。
采用该方法可以使得每一个问题答案都有第一得分,从而方便后期计算最终得分值。
在一个实施例中,如图4所示,文本特征提取模型通过以下方法获得:
步骤S210,获取文本数据;
其中,文本数据为以文本格式或形式存在的数据;问题文本和答案文本是指分别以文本形式存在或存储的问题和答案。一个问题文本可以对应多个答案,即一个用户提出一个问题(即一个问题文本),可以有多个用户来解决或回答,从未形成多个答案文本。一个答案文本对其对应的任意一个答案文本可以形成一个问题答案文本对。
文本数据通常是从网站平台上获取的一些历史数据,例如从论坛、问答社区以及贴吧等网站平台上抓取的一些问题以及问题对应的答案;其中问题和答案的形式可以是多种的,例如包括文本格式、图像格式等;如果是图像格式的问题和答案先进行文字识别与提取,从而获得文本数据。
步骤S220,对文本数据进行标记,并将标记后的文本数据按照第一预设比例分为训练集和测试集;
在获取到文本数据后,需要对文本数据进行标记。可选地,在标记过程中,可以采用不同的标签来对文本数据进行标记。
在一种可选地实施方式中,在对文本数据进行标记的步骤中,包括:
对每一个问题答案文本对进行相关性以及准确度计算分析;根据分析结果,选择最佳的问题答案文本对标记为正样本,剩余的问题答案文本对标记为负样本。
具体地,在对每一个问题答案文本对进行标记之前,通常需要对其相关性以及准确度进行分析;具体过程是将每一个问题答案文本对中的问题文本和答案文本进行相关性、答案文本的准确度以及语言表达上的准确度进行分析;然后根据分析结果,将最佳的问题答案文本对标记为正样本,剩余的问题答案文本对标记为负样本,即选择出每一个问题文本所对应的最佳的答案文本形成的最佳的问题答案文本对标记为正样本,其中一个问题文本可能对应一个或多个最佳的答案问题。
在一些实施例中,在对文本数据进行标记之前,还包括:对文本数据采用关键字过滤的方式,判断文本数据中是否存在敏感词汇(例如涉黄等),当存在敏感词汇时,删除包含敏感词汇的文本数据。
另外,对文本数据进行标记之后,通常需要分别将标记后的文本数据按照第一预设比例分为训练集和测试集。其中第一预设比例可以是预先设置的一个值,具体的可以根据不同模型训练过程中的实际需求进行确定。
步骤S230,将训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型;
步骤S240,采用测试集中的问题答案文本对对初始文本特征提取模型进行测试,当测试效果最优时,获得文本特征提取模型。
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
虽然DNN看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:
Figure 476948DEST_PATH_IMAGE015
其中,
Figure 334DEST_PATH_IMAGE016
是输入向量,
Figure 617129DEST_PATH_IMAGE017
是输出向量,
Figure 530858DEST_PATH_IMAGE018
是偏移向量,W是权重矩阵(也称系数),α( )是激活函数。每一层仅仅是对输入向量
Figure 71561DEST_PATH_IMAGE016
经过如此简单的操作得到输出向量
Figure 901982DEST_PATH_IMAGE017
。由于DNN层数多,系数W和偏移向量
Figure 237149DEST_PATH_IMAGE018
的数量也比较多。这些参数在DNN中的定义如下:以系数W为例,假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为
Figure 903754DEST_PATH_IMAGE019
。上标3代表系数W所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。综上,第L-1层的第k个神经元到第L层的第j个神经元的系数定义为
Figure 982568DEST_PATH_IMAGE020
需要注意的是,输入层是没有W参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。
其次,第一深度神经网络通常是一些开源的网络结构,主要用于对问题答案文本进行特征提取,从而得到问题文本的特征向量和答案文本的特征向量。
在一种可选的实施方式中,第一深度神经网络可以包括BERT网络、ELECTRA网络等。
模型训练就是给定输入向量和目标输出值,然后将输入向量来输入一个或多个网络结构或函数来求得实际输出值,并根据目标输出值和实际输出值来计算偏量,并判断偏量是否在容许范围内;若在容许范围内,则训练结束并固定相关参数;若不在容许范围内,不断去调整网络结构或函数中的一些参数,直至在偏量在容许范围内或达到了某一结束条件时,训练结束并固定相关参数,最后根据固定的相关参数即可得到训练完成的模型。在本实施例中,采用训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型(即初步训练完成的模型)。
当获得初始文本特征提取模型之后采用测试集中的问题答案文本对对初始文本特征提取模型进行测试,当测试效果最优时,获得文本特征提取模型;若测试效果不是最优,那还需要对第一深度神经网络再进行训练,直至效果最优,从而得到文本特征提取模型。该方法能快速且准确地训练出模型,以便在答案筛选时使用该模型进行相应计算,操作方便且效率高。
在一些实施例中,第一深度神经网络包括预训练好的BERT网络,初始文本特征提取模型包括初始BERT文本特征提取模型;将训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型的步骤中,包括:
将训练集中的问题答案文本对输入预训练好的BERT网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始BERT文本特征提取模型;其中预训练好的BERT网络是采用开源数据库中的文本数据对BERT模型进行训练得到的。
具体而言,BERT网络是一个开源深度神经网络模型,对文本数据的处理有比较好的效果。在实际的应用中,对BERT网络进行训练需要比较多的样本数据,因此在本实施例中采用预训练好的BERT网络,其中预训练好的BERT网络是采用开源数据库中的文本数据对BERT模型进行学习训练得到的;然后,再采用训练集中的问题答案文本对来对预训练好的BERT网络进行训练,从而使得其适用于网络平台(例如论坛和/或社区)的问答场景模式中。采用上述的方法可以快速完成模型训练,大大减少了操作量,提高了效率。
应当理解,第一深度神经网络不限于本实施例中提到的训练好的BERT网络,根据本发明的技术启示,本领域技术人员还可以采用其他开源的深度神经网络算法,只要能实现对文本信息或数据进行特征提取从而得到相应的特征向量即可。
如图3所示,在一个实施例中,错误率占比包括错别字占比,在检测每一个问题答案对中答案的错误率占比,计算得到问题答案对的第二得分的步骤中,包括:
步骤S132,当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,将问题答案文本对中的答案文本采用SymSpell方法检测错别字的个数,并计算出错别字占比,根据错别字占比计算得到问题答案对的第二得分;
步骤S134,当一个问题答案对为问题答案图像对时,采用第二预设值记为问题答案对的第二得分。
具体而言,错误率占比包括错别字占比。具体过程为:当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,即问题答案对中只要包括问题答案文本对时,采用Symspell方法检测问题答案文本对中答案文本错别字的数目,然后计算问题答案文本错别字占比,然后根据占比计算得到第二得分,记为
Figure 670426DEST_PATH_IMAGE010
Symspell是一种开源算法,可以用来对文本格式的文字进行检测,并判断正确还是错误。该算法使用比较灵活,可以支持多种语言,例如Python等。
当一个问题答案对为问题答案图像对时,即一个问题答案对仅包括问题答案图像对(一个问题对应的答案只采用图像形式)时,采用第二预设值作为问题答案对的第二得分。此时,答案中不包括文本形式,不需要检测文本中文字的错误率,直接采用第二预设值作为第二得分即可,第二预设值可以是任意值,可以取0,正数或负数。
采用该方法可以使得每一个问题答案都有第二得分,从而方便后期计算最终得分值。
如图3所示,在一个实施例中,统计每一个问题答案对中答案的长度值,根据长度值计算问题答案对的第三得分的步骤中,包括:
步骤S142,当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,统计问题答案文本对中的答案文本的长度;采用预设长度来对答案文本的长度进行分段,根据分段结果对答案文本进行评分,得到问题答案对的第三得分;
步骤S144,当一个问题答案对为问题答案图像对时,采用第三预设值作为问题答案对的第三得分。
在本实施例中,当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,即问题答案对中只要包括问题答案文本对时,对问题答案文本对中的答案文本的长度进行统计计算,然后对答案文本的长度进行分段处理,根据分段处理的结果来进行评分,从而得到问题答案对的第三得分。
为了便于理解,给出一个详细的实施例。某一个问题答案对中答案文本的长度为
Figure 176494DEST_PATH_IMAGE021
,预设长度为
Figure 330394DEST_PATH_IMAGE007
(又可以称为预设步长),然后对
Figure 212900DEST_PATH_IMAGE021
以步长
Figure 752334DEST_PATH_IMAGE007
为分段标准,对每一个分段的文本,赋值一个得分
Figure 694883DEST_PATH_IMAGE022
。将每一个分段区间的值求和从而来得到该得到问题答案对的第三得分,记为
Figure 70500DEST_PATH_IMAGE023
。其中,每一个分段的文本对应的得分可以是不相同的。
当一个问题答案对为问题答案图像对时,即一个问题答案对仅包括问题答案图像对(一个问题对应的答案只采用图像形式)时,采用第三预设值作为问题答案对的第三得分。此时,答案中不包括文本形式,不需要检测文本的长度,直接采用第三预设值作为第三得分即可,第三预设值可以是任意值,可以取0,正数或负数。
采用该方法可以使得每一个问题答案都有第三得分,从而方便后期计算最终得分值。
如图5所示,在一些实施例中,计算每一个问题答案对中答案的图像得分,得到问题答案对的第四得分的步骤中,包括:
步骤S152,当一个问题答案对为问题答案图像对,或为问题答案文本对和问题答案图像对时,将问题答案图像对中的答案图像输入图像分类模型,得到答案图像的分类结果;其中图像分类模型是采用标记的图像数据对第二深度神经网络进行训练得到的,图像数据包括多种图像,且数量为多张;
步骤S154,当答案图像为普通图像时,得到第一图像得分;
步骤S156,采用第三深度神经网络对答案图像进行文字提取,得到对应的答案文本;
步骤S158,将问题答案图像对中的问题文本与对应的答案文本输入文本特征提取模型,得到问题文本的特征向量与对应的答案文本的特征向量,并将问题文本的特征向量与对应的答案文本的特征向量进行内积计算,将计算结果记为第二图像得分;根据第一图像得分和第二图像得分,计算得出问题答案对的第四得分;
步骤S1510,当一个问题答案对为问题答案文本对时,采用第四预设值作为问题答案对的第四得分。
具体地,当一个问题答案对为问题答案图像对,或为问题答案文本对和问题答案图像对时,即当问题答案对中只要包括问题答案图像对时,将问题答案图像对中的答案图像输入图像分类模型,得到答案图像的分类结果。
在一个实施例中,如图6所示,图像分类模型通过以下方式获得:
步骤S310,获取图像数据;
其中,图像数据是指一些图像或图片,其中图像数据通常是从网站平台中获取的也可以是自行拍摄收集,例如可以采用爬虫工具等从图片库中抓取一些图片来作为图像数据。在本实施例中,准备比较多(例如几千张、几万张等)数量的图像样本。通常情况下,图像数据越多,其训练的模型更加精确;但图像数据太多会降低模型训练的速度。因此,在实际应用中,选择合适数量的图像数据即可,但在准备图像数据时尽可能使样本多样化,即图像数据中图像种类要比较多,例如包括普通的图片、敏感图片(例如涉黄、涉暴等)。
步骤S320,对图像数据进行标记,并将标记后的图像数据按照第二预设预设比例分为训练集和测试集;
在获取到图像数据后,需要对图像数据进行标记。可选地,在标记过程中,可以采用不同的标签来对图像数据进行标记。
在一种可选地实施方式中,在对图像数据进行标记的步骤中,包括:对每一张图像进行判断,当为普通图像时,采用第一标签进行标记;当为敏感图像时,采用第二标签进行标记。
在本实施例中,图像数据中包括多种图像且数量为多张。为了方便标记,将图像分为两大类,普通图像和敏感图像;其中,将包含敏感信息的图像记为敏感图像(例如涉黄、涉暴等);将敏感图像之外的图像都记为普通图像。
其次,第一标签和第二标签的种类可以是多种,例如数字标签、字符标签等,第一标签和第二标签的种类可以相同也可以不相同,只要能将普通图像和敏感图像进行区分即可。
在一种具体的实施例中,可以采用数字标签来对图像数据进行标记。例如,对于每任意一张图像
Figure 678068DEST_PATH_IMAGE024
,其类别为
Figure 150638DEST_PATH_IMAGE025
,如果
Figure 936191DEST_PATH_IMAGE024
是涉黄涉暴图像,其标签
Figure 861422DEST_PATH_IMAGE026
,否则
Figure 272680DEST_PATH_IMAGE027
另外,对图像数据进行标记之后,通常需要分别将标记后的图像数据按照第二预设比例分为训练集和测试集。其中第二预设比例可以是预先设置的一个值,具体的可以根据不同模型训练过程中的实际需求进行确定。
步骤S330,将训练集中的图像数据输入第二深度神经网络,计算第二损失函数,更新网络参数,得到初始图像分类模型;
步骤S340,采用测试集中的图像数据对初始图像分类模型进行测试,当效果最优时,获得图像分类模型。
其中,第二深度神经网络通常是一些开源的网络结构,主要用于对图像数据进行分类,以确定图像的类别。
在一种可选的实施方式中,第二深度神经网络可以包括VGG网络、ResNet网络等。
模型训练的过程为:采用训练集中的图像数据输入第二深度神经网络,计算第二损失函数,更新网络参数,得到初始图像分类模型(即初步训练完成的模型)。
当获得初始图像分类模型之后采用测试集中的图像数据对初始图像分类模型进行测试,当效果最优时,获得图像分类模型;若测试效果不是最优,那还需要对第二深度神经网络再进行训练,直至效果最优,从而得到图像分类模型。采用该方法可以保证得到的图像分类模型可以保证在图像分类时得到的结果更加精确。
另外,当第二深度神经网络为VGG网络时,在采用训练集中的图像数据对VGG网络进行训练时,VGG网络中最后的全连接层的激活单元数目应该包括两个,因为需要对两类图像数据进行分类。具体为:依次将训练集中的图像数据输入到VGG网络中,对于每一张图像,网络输出其类别概率向量
Figure 599756DEST_PATH_IMAGE028
根据softmax损失进行损失函数计算。得到损失函数后,可通过反向传播算法进行网络参数的更新。在测试集上进行网络效果的评价,保存最好的网络模型,从而得到图像分类模型。该方法能快速且准确地训练出模型,以便在答案筛选时使用该模型进行相应计算,操作方便且效率高。
应当理解,第二深度神经网络不限于本实施例中提到的VGG网络,根据本发明的技术启示,本领域技术人员还可以采用其他开源的深度神经网络算法,只要能实现对图像进行分类从而得到相应的分类结果(例如图像是敏感图像还是普通图像)即可。当分类结果显示答案图像为普通图像时,此时给该普通图像一个得分从而得到第一图像得分。可选地,第一图像得分可以是个预设值,例如
Figure 821790DEST_PATH_IMAGE029
,其中
Figure 441776DEST_PATH_IMAGE030
表示第一图像得分,
Figure 204195DEST_PATH_IMAGE031
表示预设值,预设值可以是任意值。
然后,采用第三深度神经网络对答案图像进行文字提取,得到对应的答案文本。在一种可选地实施方式中,可以采用OCR技术来识别答案图像中包含的文字;在对文字提取过程可以使用CRNN和CTC算法。其中,CRNN和CTC算法是一种开源的文字提取算法,识别准确率较高,其中CRNN主要用于文字定位,而CTC主要用于文字识别。
将问题答案图像对中的问题文本与对应的答案文本输入文本特征提取模型,得到问题文本的特征向量与对应的答案文本的特征向量,并将问题文本的特征向量与对应的答案文本的特征向量进行内积计算,将计算结果记为第二图像得分;根据第一图像得分和第二图像得分,计算得出问题答案对的第四得分;
在得到对应的答案文本之后,问题答案图像对中的问题文本与对应的答案文本输入文本特征提取模型,得到问题文本的特征向量与对应的答案文本的特征向量,并将问题文本的特征向量与对应的答案文本的特征向量进行内积计算,将计算结果记为第二图像得分,根据第一图像得分和第二图像得分,计算得出问题答案对的第四得分;从上面的描述可知,对于问题答案图像对的第四得分分为两部分,一部分是图像本身的得分(即为第一图像得分),一部分是图像中包含的文字对应的得分(即第二图像得分),其中,在本实施例中图像中包含的文字对应的得分可以是采用文本特征提取模型提取特征向量,然后根据特征向量计算的结果得到(即第二图像得分是通过问题答案图像对中的问题文本与对应的答案文本的第一得分得到)。
在一种可选的实施例方式中,图像中包含的文字对应的得分还可以包括对问题答案图像对中对应的答案文本的第二得分、第三得分进行计算,具体的计算过程请参考对问题答案文本对中的答案文本的第二得分和第三得分的计算过程,在此不再赘述。因此,第二图像得分可以包括问题答案图像对中的问题文本与对应的答案文本的第一得分、问题答案图像对中对应的答案文本的第二得分和第三得分。
为了便于理解给出一个详细实施例。例如有一个问题图像对,其答案图像为普通图像,此时第一图像得分记为
Figure 323461DEST_PATH_IMAGE029
。对答案图像进行文字提取,得到对应的答案文本为h,经计算得到问题答案图像对中的问题文本与对应的答案文本h的第一得分为
Figure 778713DEST_PATH_IMAGE032
,对应的答案文本h的第二得分为
Figure 865487DEST_PATH_IMAGE033
,对应的答案文本h的第三得分为
Figure 431597DEST_PATH_IMAGE034
。那么此时,第二图像得分
Figure 405369DEST_PATH_IMAGE035
。那么,问题答案图像对的第四得分为
Figure 218474DEST_PATH_IMAGE036
另外,当一个问题答案对为问题答案文本对时,即一个问题答案对仅包括问题答案文本对(一个问题对应的答案只采用文本形式)时,采用第四预设值作为问题答案对的第四得分。此时,答案中不包括图像形式,不需要进行图像分类等,直接采用第四预设值作为第四得分即可,第四预设值可以是任意值,可以取0,正数或负数。
采用该方法可以使得每一个问题答案都有第四得分,从而方便后期计算最终得分值。
在一些实施例中,当答案图像为敏感图像时,删除问题答案对。
具体地,当答案图像为敏感图像时,删除该问题答案对,其实就是删除该敏感答案。
在一种可选的实施方式中,在删除该问题答案对后,将发表该敏感答案的用户加入黑名单。采用该方法可以对网站平台中的违规内容进行自动化处理,减少人工监控,也能保证网站平台的安全性。
应该理解的是,虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图2至图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
上述本申请公开的实施例中详细描述了一种答案筛选方法,对于本申请公开的上述方法可采用多种形式的设备实现,因此本申请还公开了对应上述方法的答案筛选装置,下面给出具体的实施例进行详细说明。
请参阅图7,为本申请实施例公开的答案筛选装置,装置包括:
问题答案数据获取模块702,用于获取待测试的问题答案数据,其中,问题答案数据包括多个问题和答案,每一个问题对应一个或多个答案,每一个问题与对应的任一个答案形成一个问题答案对;
第一得分获得模块704,用于计算每一个问题答案对中问题与答案之间的文本得分,得到问题答案对的第一得分;
第二得分获得模块706,用于检测每一个问题答案对中答案的错误率占比,根据错误率占比确定问题答案对的第二得分;
第三得分获得模块708,用于统计每一个问题答案对中答案的长度值,根据长度值计算问题答案对的第三得分;
第四得分获得模块710,用于计算每一个问题答案对中答案的图像得分,得到问题答案对的第四得分;
最终得分值计算模块712,用于根据第一得分、第二得分、第三得分和第四得分计算出每一个问题答案对的最终得分值;
筛选模块714,用于根据多个最终得分值筛选出每一个问题对应的最优答案。
在一个实施例中,问题包括问题文本,答案包括答案文本和答案图像;每一个问题答案对包括问题答案文本对和/或问题答案图像对;第一得分获得模块包括特征向量提取模块:
特征向量提取模块,用于当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,将问题答案文本对输入文本特征提取模型得到问题文本的特征向量与答案文本的特征向量;其中文本特征提取模型是采用标记的文本数据对第一深度神经网络进行训练得到的,文本数据包括多个问题文本和答案文本,每一个问题文本对应一个或多个答案文本,每一个问题文本与对应的任一个答案文本形成一个问题答案文本对
第一得分获得模块,还用于将问题文本的特征向量与答案文本的特征向量进行内积计算,得到问题答案对的第一得分;
第一得分获得模块,还用于当一个问题答案对为问题答案图像对时,采用第一预设值作为问题答案对的第一得分。
在一个实施例中,错误率占比包括错别字占比,第二得分获得模块包括:错别字占比计算模块:
错别字占比计算模块,用于当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,将问题答案文本对中的答案文本采用SymSpell方法检测错别字的个数,并计算出错别字占比,
第二得分获得模块,还用于根据错别字占比计算得到问题答案对的第二得分;
第二得分获得模块,还用于当一个问题答案对为问题答案图像对时,采用第二预设值记为问题答案对的第二得分。
在一个实施例中,第三得分获得模块包括文本长度统计模块:
文本长度统计模块,用于当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,统计问题答案文本对中的答案文本的长度;
第三得分获得模块,还用于采用预设长度来对答案文本的长度进行分段,根据分段结果对答案文本进行评分,得到问题答案对的第三得分;
第三得分获得模块,还用于当一个问题答案对为问题答案图像对时,采用第三预设值作为问题答案对的第三得分。
在一个实施例中,第四得分获得模块包括分类模块、第一图像得分获得模块、文字提取模块和第二图像得分获得模块:
分类模块,用于当一个问题答案对为问题答案图像对,或为问题答案文本对和问题答案图像对时,将问题答案图像对中的答案图像输入图像分类模型,得到答案图像的分类结果;其中图像分类模型是采用标记的图像数据对第二深度神经网络进行训练得到的,图像数据包括多种图像,且数量为多张;
第一图像得分获得模块,用于当答案图像为普通图像时,得到第一图像得分;
文字提取模块,用于采用第三深度神经网络对答案图像进行文字提取,得到对应的答案文本;
第二图像得分获得模块,用于将问题答案图像对中的问题文本与对应的答案文本输入文本特征提取模型,得到问题文本的特征向量与对应的答案文本的特征向量,并将问题文本的特征向量与对应的答案文本的特征向量进行内积计算,将计算结果记为第二图像得分;
第四得分获得模块,还用于根据第一图像得分和第二图像得分,计算得出问题答案对的第四得分;
第四得分获得模块,还用于当一个问题答案对为问题答案文本对时,采用第四预设值作为问题答案对的第四得分。
在一个实施例中,还包括:
答案对删除模块,用于当答案图像为敏感图像时,删除问题答案对。
在一个实施例中,最终得分值计算模块还用于对第一得分、第二得分、第三得分和第四得分进行加权计算,得到最终得分值;其中加权系数为预设值。
在一个实施例中,还包括:
文本数据获取模块,用于获取文本数据;
第一标记模块,用于对文本数据进行标记,并将标记后的文本数据按照第一预设比例分为训练集和测试集;
第一训练模块,用于将训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型;
第一测试模块,采用测试集中的问题答案文本对对初始文本特征提取模型进行测试,当测试效果最优时,获得文本特征提取模型。
在一个实施例中,还包括:
图像数据获取模块,用于获取图像数据;
第二标记模块,用于对图像数据进行标记,并将标记后的图像数据按照第二预设预设比例分为训练集和测试集;
第二训练模块,用于将训练集中的图像数据输入第二深度神经网络,计算第二损失函数,更新网络参数,得到初始图像分类模型;
第二测试模块,用于采用测试集中的图像数据对初始图像分类模型进行测试,当效果最优时,获得图像分类模型。
在一个实施例中,第一标记模块包括分析模块:
分析模块,用于对每一个问题答案文本对进行相关性以及准确度计算分析;
第一标记模块,还用于根据分析结果,选择最佳的问题答案文本对标记为正样本,剩余的问题答案文本对标记为负样本。
在一个实施例中,第二标记模块还包括判断模块:
判断模块,用于对每一张图像进行判断;
第二标记模块,还用于当为普通图像时,采用第一标签进行标记;
第二标记模块,还用于当为敏感图像时,采用第二标签进行标记。
在一个实施例中,第一深度神经网络包括预训练好的BERT网络,初始文本特征提取模型包括初始BERT文本特征提取模型;第一训练模块还用于将训练集中的问题答案文本对输入预训练好的BERT网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始BERT文本特征提取模型;其中预训练好的BERT网络是采用开源数据库中的文本数据对BERT模型进行训练得到的。
关于答案筛选装置的具体限定可以参见上文中对于方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中,也可以以软件形式存储于终端设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参考图8,图8其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备80可以是计算机设备。本申请中的终端设备80可以包括一个或多个如下部件:处理器82、存储器84以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器84中并被配置为由一个或多个处理器82执行,一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法,也可以配置用于执行上述答案筛选方法实施例中所描述的方法。
处理器82可以包括一个或者多个处理核。处理器82利用各种接口和线路连接整个终端设备80内的各个部分,通过运行或执行存储在存储器84内的指令、程序、代码集或指令集,以及调用存储在存储器84内的数据,执行终端设备80的各种功能和处理数据。可选地,处理器82可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PL A)中的至少一种硬件形式来实现。处理器1002可集成中央处理器(CentralProcessing Unit,CPU)、埋点数据的上报验证器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器82中,单独通过一块通信芯片进行实现。
存储器84可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器84可用于存储指令、程序、代码、代码集或指令集。存储器84可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备80在使用中所创建的数据等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
综上,本申请实施例提供的终端设备用于实现前述方法实施例中相应的答案筛选方法,并具有相应的方法实施例的有益效果,在此不再赘述。
请参阅图9,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质90中存储有程序代码,程序代码可被处理器调用执行上述答案筛选方法实施例中所描述的方法,也可以被处理器调用执行上述答案筛选方法实施例中所描述的方法。
计算机可读取存储介质90可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质90包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质90具有执行上述方法中的任何方法步骤的程序代码92的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码92可以例如以适当形式进行压缩。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种答案筛选方法,其特征在于,所述方法包括:
获取待测试的问题答案数据,其中,所述问题答案数据包括多个问题和答案,每一个所述问题对应一个或多个所述答案,每一个所述问题与对应的任一个所述答案形成一个问题答案对;
计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分;
检测每一个所述问题答案对中答案的错误率占比,根据所述错误率占比确定所述问题答案对的第二得分;
统计每一个所述问题答案对中答案的长度值,根据所述长度值计算所述问题答案对的第三得分;
计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分;
根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值;
根据多个所述最终得分值筛选出每一个问题对应的最优答案;
所述问题包括问题文本,所述答案包括答案文本和答案图像;每一个所述问题答案对包括问题答案文本对和/或问题答案图像对;
计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分的步骤中,包括:
当一个所述问题答案对为问题答案文本对,或为所述问题答案文本对和所述问题答案图像对时,将所述问题答案文本对输入文本特征提取模型得到问题文本的特征向量与答案文本的特征向量,并将所述问题文本的特征向量与所述答案文本的特征向量进行内积计算,得到所述问题答案对的第一得分;其中所述文本特征提取模型是采用标记的文本数据对第一深度神经网络进行训练得到的,所述文本数据包括多个问题文本和答案文本,每一个所述问题文本对应一个或多个所述答案文本,每一个所述问题文本与对应的任一个所述答案文本形成一个问题答案文本对。
2.根据权利要求1所述的方法,其特征在于,所述错误率占比包括错别字占比,在检测每一个所述问题答案对中答案的错误率占比,计算得到所述问题答案对的第二得分的步骤中,包括:
当一个所述问题答案对为问题答案文本对,或为所述问题答案文本对和所述问题答案图像对时,将所述问题答案文本对中的答案文本采用SymSpell方法检测错别字的个数,并计算出错别字占比,根据所述错别字占比计算得到所述问题答案对的第二得分;
当一个所述问题答案对为所述问题答案图像对时,采用第二预设值记为所述问题答案对的第二得分。
3.根据权利要求1所述的方法,其特征在于,统计每一个所述问题答案对中答案的长度值,根据所述长度值计算问题答案对的第三得分的步骤中,包括:
当一个所述问题答案对为问题答案文本对,或为所述问题答案文本对和所述问题答案图像对时,统计所述问题答案文本对中的答案文本的长度;
采用预设长度来对所述答案文本的长度进行分段,根据分段结果对所述答案文本进行评分,得到所述问题答案对的第三得分;
当一个所述问题答案对为所述问题答案图像对时,采用第三预设值作为所述问题答案对的第三得分。
4.根据权利要求2或3所述的方法,其特征在于,计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分的步骤中,包括:
当一个所述问题答案对为问题答案图像对,或为所述问题答案文本对和所述问题答案图像对时,将所述问题答案图像对中的答案图像输入图像分类模型,得到所述答案图像的分类结果;其中所述图像分类模型是采用标记的图像数据对第二深度神经网络进行训练得到的,所述图像数据包括多种图像,且数量为多张;
当所述答案图像为普通图像时,得到第一图像得分;
采用第三深度神经网络对所述答案图像进行文字提取,得到对应的答案文本;
将所述问题答案图像对中的问题文本与所述对应的答案文本输入所述文本特征提取模型,得到所述问题文本的特征向量与所述对应的答案文本的特征向量,并将所述问题文本的特征向量与所述对应的答案文本的特征向量进行内积计算,将计算结果记为第二图像得分;
根据所述第一图像得分和第二所述图像得分,计算得出所述问题答案对的第四得分;
当一个所述问题答案对为所述问题答案文本对时,采用第四预设值作为所述问题答案对的第四得分。
5.根据权利要求4所述的方法,其特征在于,当所述答案图像为敏感图像时,删除所述问题答案对。
6.根据权利要求1-3任一项所述的方法,其特征在于,根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值的步骤中,包括:
对所述第一得分、所述第二得分、所述第三得分和所述第四得分进行加权计算,得到所述最终得分值;其中加权系数为预设值。
7.根据权利要求2或3所述的方法,其特征在于,所述文本特征提取模型通过以下方法获得:
获取文本数据,对所述文本数据进行标记,并将标记后的文本数据按照第一预设比例分为训练集和测试集;
将训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型;
采用测试集中的问题答案文本对对所述初始文本特征提取模型进行测试,当测试效果最优时,获得所述文本特征提取模型。
8.根据权利要求4所述的方法,其特征在于,所述图像分类模型通过以下方式获得:
获取图像数据,对所述图像数据进行标记,并将标记后的图像数据按照第二预设比例分为训练集和测试集;
将训练集中的图像数据输入第二深度神经网络,计算第二损失函数,更新网络参数,得到初始图像分类模型;
采用测试集中的图像数据对所述初始图像分类模型进行测试,当效果最优时,获得图像分类模型。
9.根据权利要求7所述的方法,其特征在于,在对所述文本数据进行标记的步骤中,包括:
对每一个所述问题答案文本对进行相关性以及准确度计算分析;
根据分析结果,选择最佳的问题答案文本对标记为正样本,剩余的问题答案文本对标记为负样本。
10.根据权利要求8所述的方法,其特征在于,在对所述图像数据进行标记的步骤中,包括:
对每一张所述图像进行判断,当为普通图像时,采用第一标签进行标记;
当为敏感图像时,采用第二标签进行标记。
11.根据权利要求7所述的方法,其特征在于,所述第一深度神经网络包括预训练好的BERT网络,所述初始文本特征提取模型包括初始BERT文本特征提取模型;将训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型的步骤中,包括:
将所述训练集中的问题答案文本对输入所述预训练好的BERT网络,计算第一损失函数,更新网络参数直至网络收敛,获得所述初始BERT文本特征提取模型;其中所述预训练好的BERT网络是采用开源数据库中的文本数据对BERT模型进行训练得到的。
12.一种答案筛选装置,其特征在于,所述装置包括:
问题答案数据获取模块,用于获取待测试的问题答案数据,其中,所述问题答案数据包括多个问题和答案,每一个所述问题对应一个或多个答案,每一个所述问题与对应的任一个所述答案形成一个问题答案对;
第一得分获得模块,用于计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分;
第二得分获得模块,用于检测每一个所述问题答案对中答案的错误率占比,根据所述错误率占比确定问题答案对的第二得分;
第三得分获得模块,用于统计每一个所述问题答案对中答案的长度值,根据所述长度值计算问题答案对的第三得分;
第四得分获得模块,用于计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分;
最终得分值计算模块,用于根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值;
筛选模块,用于根据多个所述最终得分值筛选出每一个问题对应的最优答案;
问题包括问题文本,答案包括答案文本和答案图像;每一个问题答案对包括问题答案文本对和/或问题答案图像对;第一得分获得模块包括特征向量提取模块:
特征向量提取模块,用于当一个问题答案对为问题答案文本对,或为问题答案文本对和问题答案图像对时,将问题答案文本对输入文本特征提取模型得到问题文本的特征向量与答案文本的特征向量;其中文本特征提取模型是采用标记的文本数据对第一深度神经网络进行训练得到的,文本数据包括多个问题文本和答案文本,每一个问题文本对应一个或多个答案文本,每一个问题文本与对应的任一个答案文本形成一个问题答案文本对
第一得分获得模块,还用于将问题文本的特征向量与答案文本的特征向量进行内积计算,得到问题答案对的第一得分。
13.一种终端设备,其特征在于,包括:
存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如权利要求1-11任一项所述的方法。
14.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-11任一项所述的方法。
CN202011343387.2A 2020-11-26 2020-11-26 答案筛选方法、装置、终端设备和计算机可读存储介质 Active CN112131354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011343387.2A CN112131354B (zh) 2020-11-26 2020-11-26 答案筛选方法、装置、终端设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011343387.2A CN112131354B (zh) 2020-11-26 2020-11-26 答案筛选方法、装置、终端设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112131354A CN112131354A (zh) 2020-12-25
CN112131354B true CN112131354B (zh) 2021-04-16

Family

ID=73852314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011343387.2A Active CN112131354B (zh) 2020-11-26 2020-11-26 答案筛选方法、装置、终端设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112131354B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204489B (zh) * 2021-05-28 2024-04-30 中国工商银行股份有限公司 一种测试问题处理方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657390A (zh) * 2013-11-22 2015-05-27 清华大学 一种问答平台实现方法和系统
CN108304587A (zh) * 2018-03-07 2018-07-20 中国科学技术大学 一种社区问答平台回答排序方法
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置
CN110334199A (zh) * 2019-07-09 2019-10-15 北京百度网讯科技有限公司 获得问题答案的方法和装置、电子设备、计算机可读介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078062A1 (en) * 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
US20120216123A1 (en) * 2011-02-23 2012-08-23 Evoworx Inc. Energy audit systems and methods

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657390A (zh) * 2013-11-22 2015-05-27 清华大学 一种问答平台实现方法和系统
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN108304587A (zh) * 2018-03-07 2018-07-20 中国科学技术大学 一种社区问答平台回答排序方法
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置
CN110334199A (zh) * 2019-07-09 2019-10-15 北京百度网讯科技有限公司 获得问题答案的方法和装置、电子设备、计算机可读介质

Also Published As

Publication number Publication date
CN112131354A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN107391760B (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN108345587B (zh) 一种评论的真实性检测方法与系统
CN104408095B (zh) 一种基于改进的knn文本分类方法
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN111221939A (zh) 评分方法、装置和电子设备
CN108009287A (zh) 一种基于对话系统的回答数据生成方法以及相关装置
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN112347367A (zh) 信息服务提供方法、装置、电子设备和存储介质
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN109800309A (zh) 课堂话语类型分类方法及装置
CN112948823A (zh) 一种数据泄露风险评估方法
CN112131354B (zh) 答案筛选方法、装置、终端设备和计算机可读存储介质
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN112434862B (zh) 上市企业财务困境预测方法及装置
CN109101984A (zh) 一种基于卷积神经网络的图像识别方法及装置
CN114118398A (zh) 目标类型网站的检测方法、系统、电子设备及存储介质
CN112732908B (zh) 试题新颖度评估方法、装置、电子设备和存储介质
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN110309285B (zh) 自动问答方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant