CN114647733B

CN114647733B - 一种问答语料评估方法、装置、计算机设备及存储介质

Info

Publication number: CN114647733B
Application number: CN202210559547.XA
Authority: CN
Inventors: 林晓琳
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-09-13
Anticipated expiration: 2042-05-23
Also published as: CN114647733A

Abstract

本申请公开了一种问答语料评估方法、装置、计算机设备及存储介质，属于人工智能技术领域。本申请通过获取待评估语料和示例语料，对待评估语料和示例语料进行实体抽取，得到第一实体和第二实体，计算第一实体和第二实体的相似度，得到第一相似度，对待评估语料中的第一实体和对示例语料中的第二实体进行标记，对标记后的待评估语料和标记后的示例语料进行关系抽取，得到第一实体关系和第二实体关系，计算第一实体关系和第二实体关系的相似度，得到第二相似度，基于第一相似度和第二相似度对语料进行评估，得到语料评估结果。此外，本申请还涉及区块链技术，待评估语料可存储于区块链中。本申请剔除待评估语料中的无效语料，以降低运算压力。

Description

一种问答语料评估方法、装置、计算机设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种问答语料评估方法、装置、计算机设备及存储介质。

背景技术

随着近年大数据以及人工智能技术在各行各业的普及与发展，各行各业的智能场景层出不穷，其中问答系统为主要的智能场景代表。

目前问答系统主要以词向量相似度计算方法为基础，由用户输入问题文本，通过将用户输入文本转变为词向量，并计算词向量与词库的文本向量在空间距离的大小，通过词向量和文本向量之间的空间距离确定用户输入文本和词库文本之间的相似度，最后选择相似度最大的词库文本对应的示例答案作为用户问题的答案。

但是在目前的问答系统中，用户发起提问之后，仅单纯根据词向量和文本向量之间的空间距离确定文本之间的相似度，然后根据相似度选择答案文本输出，在此之前缺少专门的模型来评估问题质量，导致系统没有忽略无效问题，增加系统服务器工作量。

发明内容

本申请实施例的目的在于提出一种问答语料评估方法、装置、计算机设备及存储介质，以解决现有问答系统单纯根据文本空间距离确定文本之间的相似度，无法分辨无效问题，导致系统服务器开销过大的技术问题。

为了解决上述技术问题，本申请实施例提供一种问答语料评估方法，采用了如下所述的技术方案：

一种问答语料评估方法，其特征在于，包括：

接收语料评估指令，获取待评估语料和示例语料；

对待评估语料进行文本实体抽取，得到第一实体，以及对示例语料进行文本实体抽取，得到第二实体；

计算第一实体和第二实体的相似度，得到第一相似度；

对待评估语料中的第一实体进行标记，以及对示例语料中的第二实体进行标记；

利用预训练的关系抽取模型对标记后的待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的示例语料进行关系抽取，得到第二实体关系；

计算第一实体关系和第二实体关系的相似度，得到第二相似度；

基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。

进一步地，对待评估语料中的第一实体进行标记，以及对示例语料中的第二实体进行标记的步骤，具体包括：

对待评估语料中的第一实体进行位置标记，得到第一实体位置信息，以及对示例语料中的第二实体进行位置标记，得到第二实体位置信息。

进一步地，对待评估语料中的第一实体进行位置标记，得到第一实体位置信息，以及对示例语料中的第二实体进行位置标记，得到第二实体位置信息的步骤，具体包括：

识别第一实体在待评估语料中的位置，以及识别第二实体在示例语料中的位置，其中，位置包括起始位置和结束位置；

在起始位置插入起始标记符，以及在结束位置插入结束标记符；

利用起始标记符与结束标记符在待评估语料中标记第一实体，得到第一实体位置信息；

以及利用起始标记符与结束标记符在示例语料中标记第二实体，得到第二实体位置信息。

进一步地，利用预训练的关系抽取模型对标记后的待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的示例语料进行关系抽取，得到第二实体关系的步骤，具体包括：

对第一实体进行编码，得到第一实体编码向量，以及对第二实体进行编码，得到第二实体编码向量；

对第一实体位置信息进行编码，得到第一位置编码向量，以及对第二实体位置信息进行编码，得到第二位置编码向量；

对第一实体编码向量和第一位置编码向量进行拼接，得到第一拼接向量，以及对第二实体编码向量和第二位置编码向量进行拼接，得到第二拼接向量；

对第一拼接向量进行关系抽取，得到第一实体关系，以及对第二拼接向量进行关系抽取，得到第二实体关系。

进一步地，对第一拼接向量进行关系抽取，得到第一实体关系，以及对第二拼接向量进行关系抽取，得到第二实体关系的步骤，具体包括：

对第一拼接向量进行分类，得到第一实体关系数据；

将第一实体关系数据映射至预设的关系文件中，得到第一实体关系；

对第二拼接向量进行分类，得到第二实体关系数据；

将第二实体关系数据映射至预设的关系文件中，得到第二实体关系。

进一步地，基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果的步骤，具体包括：

比对第一相似度和预设第一阈值，得到第一比对结果；

比对第二相似度和预设第二阈值，得到第二比对结果；

基于第一比对结果和第二比对结果评估待评估语料，得到最终评估结果。

进一步地，接收语料评估指令，获取待评估语料和示例语料的步骤，具体包括：

接收语料评估指令，根据语料评估指令调用预设的爬虫算子爬取待评估语料；

对待评估语料进行预处理，其中，预处理包括分句处理、数据去重和数据过滤；

根据语料评估指令从预设语料库中查找示例语料。

为了解决上述技术问题，本申请实施例还提供一种问答语料评估装置，采用了如下所述的技术方案：

一种问答语料评估装置，包括：

语料获取模块，用于接收语料评估指令，获取待评估语料和示例语料；

实体抽取模块，用于对待评估语料进行文本实体抽取，得到第一实体，以及对示例语料进行文本实体抽取，得到第二实体；

第一相似度计算模块，用于计算第一实体和第二实体的相似度，得到第一相似度；

实体标记模块，用于对待评估语料中的第一实体进行标记，以及对示例语料中的第二实体进行标记；

关系抽取模块，用于利用预训练的关系抽取模型对标记后的待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的示例语料进行关系抽取，得到第二实体关系；

第二相似度计算模块，用于计算第一实体关系和第二实体关系的相似度，得到第二相似度；

语料评估模块，用于基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述任一项所述的问答语料评估方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述中任一项所述的问答语料评估方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种问答语料评估方法、装置、计算机设备及存储介质，属于人工智能技术领域。本申请通过获取待评估语料和示例语料，对待评估语料和示例语料进行文本实体抽取，得到第一实体和第二实体，通过计算第一实体和第二实体的相似度，得到第一相似度，然后对待评估语料中的第一实体以及对示例语料中的第二实体进行位置标记，利用预训练的关系抽取模型分别对标记后的待评估语料和标记后的示例语料进行关系抽取，得到第一实体关系和第二实体关系，通过计算第一实体关系和第二实体关系的相似度，得到第二相似度，基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。本申请通过计算语料中实体的相似度和实体关系的相似度，并通过上述两个相似度对语料进行综合评估，在待评估语料中识别无效语料，并效剔除待评估语料中的无效语料，以降低系统服务器的运算压力。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2 示出了根据本申请的问答语料评估方法的一个实施例的流程图；

图3示出了根据本申请的问答语料评估装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100包括终端设备、网络104和服务器105，终端设备可以包括计算机终端101、平板电脑终端102、手机终端103。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备通过网络104与服务器105交互，以接收或发送消息等。终端设备上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3 )、MP4( Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备上显示的页面提供支持的后台服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的问答语料评估方法一般由服务器执行，相应地，问答语料评估装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的问答语料评估方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在目前的问答系统中，用户发起提问之后，问答系统单纯根据提问文本的词向量和词库的文本向量之间的空间距离确定两个文本之间的相似度，在此之前缺少专门的模型来评估问题质量，导致问答系统无法在提问文本中分离出某些无效问题。例如，在车圈提问场景中，用户上传提问“车险车险车险车险车险车险”，服务器通过计算词向量与词库的文本向量在空间距离，可能会认定该提问文本与词库中的“什么是车险”这个示例问题文本相似度较接近，因此将该问题文本的答案推送给用户，但用户的提问可能只是随意输入的无效问题，并不是真正想要了解什么是是车险，但由于系统未内识别出该问题文本属于无效问题，并按照相似度识别结果查找词库中的“什么是车险”这个示例问题的答案推送给用户，增加系统服务器的工作量。

为此，本申请提供一种问答语料评估，通过识别语料中实体和实体关系，计算语料中实体的相似度和实体关系的相似度，并通过上述两个相似度对语料进行综合评估，在待评估语料中识别无效语料，并效剔除待评估语料中的无效语料，以降低系统服务器的运算压力。

所述的问答语料评估方法，包括以下步骤：

S201，接收语料评估指令，获取待评估语料和示例语料。

具体的，服务器接在收语料评估指令后，获取待评估语料和示例语料。其中，在本发明具体的实施例中，可以采用多种方式获取待评估语料，比如利用爬虫手段从网络页面中爬取相关的文本数据，并整理后得到待评估语料。示例语料可以从预先构建的语料中获取，例如车圈问答语料库，车圈问答语料库预先收集了大量关于汽车知识的问题文本及问题文本对应的答案文本。

在本实施例中，问答语料评估方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收语料评估指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。

S202，对待评估语料进行文本实体抽取，得到第一实体，以及对示例语料进行文本实体抽取，得到第二实体。

其中，实体抽取又称命名实体识别（Named Entities Recognition，NER），主要任务是识别命名实体的文本范围，并将其分类为预定义的类别，学术上所涉及一般包含三大类，实体类、时间类、数字类和7个小类，比如人、地名、时间、组织、日期、货币、百分比，是问答系统、翻译系统、知识图谱的基础，早期的NER的方法主要由语言学家手工构造规则模板，选用特定特征，包括统计信息、标点符号、指示词、方向词、中心词等，以模式与字符串相匹配为主要手段，但是此方法需要大量人力构建语言模型、系统周期较长、知识更新较慢、移植性较差。随着机器学习应用，提出了基于统计学的方法，主要包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF)，基于统计方法的对特征选择要求较高，对语料库的依赖较大。深度学习的表征学习相比于机器学习特征工程，在特征学习方面具有较大优势，采用句子嵌入到CNN-CRF中，自动学习特征，对实体进行分类，提取的LSTM-CRF模型和BiLSTM-CRF模型，对实体识别提高了一个新的高度。

具体的，服务器通对待评估语料进行文本实体识别，并将待评估语料中识别的文本实体抽取出来，得到第一实体，通对示例语料进行文本实体识别，并将示例语料中识别的文本实体抽取出来，得到第二实体。

S203，计算第一实体和第二实体的相似度，得到第一相似度。

具体的，服务器分别对第一实体和第二实体进行向量转化，得到第一实体向量和第二实体向量，通过余弦相似度计算第一实体向量和第二实体向量的相似度，得到第一相似度，其中，第一相似度越大说明第一实体和第二实体相似度越高。

其中，余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为-1到1之间。

S204，对待评估语料中的第一实体进行标记，以及对示例语料中的第二实体进行标记。

其中，服务器可以利用NER((Named Entity Recognition ,简称NER，命名实体识别)在文本中识别实体位置，可以将实体第一个字符位置作为实体的起始位置，将实体最后一个字符位置作为实体的结束位置，起始位置和结束位置确定了实体在文本中的位置。

具体的，服务器基于NER识别待评估语料中第一实体的位置，并根据第一实体的位置在待评估语料中标记第一实体，然后识别示例语料中第二实体的位置，并根据第一实体的位置在示例语料中标记第一实体。

S205，利用预训练的关系抽取模型对标记后的待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的示例语料进行关系抽取，得到第二实体关系。

其中，在进行实体关系抽取前，服务器先通过一个预训练的语言模型对语料进行特征编码和特征拼接，预训练语言模型可以是使用自然语言文本作为训练语料，通过对神经网络语言模型进行预训练后所得到本申请的预训练语言模型。

在本申请具体的实施例中，预训练语言模型可以采用BERT(BidirectionalEncoder Representation from Transformers)模型。BERT模型是由12层双向的Transformer构造的一个编码器，编码器用于特征编码，同时BERT模型中还配置有与编码器配合使用的全连接层，全连接层用于特征拼接，通过softmax函数得到最终的输出，通过收集大量的语料预训练所构造的预训练语言模型。

具体的，服务器通过分别对预训练的语言模型对待评估语料和示例语料进行特征编码，并进行特征拼接，然后利用预训练关系抽取模型对完成特征编码和特征拼接的待评估语料进行关系抽取，得到第一实体关系，利用预训练关系抽取模型对完成特征编码和特征拼接的示例语料进行关系抽取，得到第二实体关系。

S206，计算第一实体关系和第二实体关系的相似度，得到第二相似度。

具体的，服务器分别对第一实体关系和第二实体关系进行向量转化，得到第一实体关系向量和第二实体关系向量，再次通过余弦相似度计算第一实体关系向量和第二实体关系向量的相似度，得到第二相似度，其中，第二相似度越大说明第一实体关系和第二实体关系相似度越高。

S207，基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。

具体的，服务器通过比对第一相似度和预设第一阈值，得到第一相似度比对结果，比对第二相似度和预设第二阈值，得到第二相似度比对结果，最后通过第一相似度比对结果和第二相似度比对结果来对待评估语料进行评估，得到待评估语料的最终评估结果。例如，当第一相似度大于第一阈值且第二相似度也大于第二阈值时，确定待评估语料为优质问题，服务器获取与待评估语料的第一相似度最大的示例问题对应的答案作为输出，反馈给用户。再如，当第一相似度大于第一阈值但第二相似度也小于第二阈值时，确定待评估语料为无效问题，并忽略该问题，不对该问题进行后续处理，减小系统服务器的运算量。

在上述实施例中，本申请通过计算语料中实体的相似度和实体关系的相似度，并通过上述两个相似度对语料进行综合评估，在待评估语料中识别无效语料，并效剔除待评估语料中的无效语料，以降低系统服务器的运算压力。

具体的，服务器基于NER识别待评估语料中第一实体的位置，并根据第一实体的位置在待评估语料中标记第一实体，并根据标记信息第一实体位置信息，然后识别示例语料中第二实体的位置，并根据第一实体的位置在示例语料中标记第一实体，并根据标记信息第二实体位置信息，其中，实体位置信息表征实体在语料中的位置关系，通过分析实体位置关系获取两个实体之间的关系类型。

具体的，服务器通过识别第一实体在待评估语料中的位置以及识别第二实体在示例语料中的位置，其中，位置包括起始位置和结束位置，在起始位置插入起始标记符，以及在结束位置插入结束标记符，利用起始标记符与结束标记符在待评估语料中标记第一实体，以及利用起始标记符与结束标记符在示例语料中标记第二实体。

例如，将语料的主语开始位置标注为B-sub，将主语中间位置标注为I-sub，将主语终止位置标注为E-sub；将语料的非实体词表示为O；将语料的宾语开始位置标注为B-be，将宾语中间位置标注为I-be，将宾语终止位置标注为E-be。如“XX公司出售的车强险性价比很高”，通过标记符标记后，得到如下信息“B-sub、I-sub、I-sub、E-sub、O、O、O、B-be、I-be、E-be、O、O、O、O、O”，根据上述编码提取实体位置信息如[1/2/3/4]和[8/9/10]。

在本实施例中，通过标记符对语料中的实体位置进行标记，以获取实体在语料中的位置信息，实体在语料中的位置信息，用于解析实体之间的关系。

具体的，在进行实体关系抽取前，服务器先通过一个预训练的BERT模型对语料进行特征编码和特征拼接，其中，BERT模型包括编码层和全连接层，通过BERT模型的编码层对第一实体进行编码，得到第一实体编码向量，以及对第二实体进行编码，得到第二实体编码向量，

对第一实体位置信息进行编码，得到第一位置编码向量，以及对第二实体位置信息进行编码，得到第二位置编码向量；通过BERT模型的全连接层对第一实体编码向量和第一位置编码向量进行拼接，得到第一拼接向量，以及对第二实体编码向量和第二位置编码向量进行拼接，得到第二拼接向量；最后通过预训练的关系抽取模型对第一拼接向量进行关系抽取，得到第一实体关系，以及对第二拼接向量进行关系抽取，得到第二实体关系。

在本实施例中，通过预训练的BERT模型完成对语料特征的编码和特征融合，然后再通过预训练的关系抽取模型对融合得到的拼接向量进行实体抽取，得到实体关系。

对第一拼接向量进行分类，得到第一实体关系数据；

对第二拼接向量进行分类，得到第二实体关系数据；

其中，预训练关系抽取模型包括分类器和关系文件，服务器上预先存储了用于识别关系类别的关系文件，关系文件中记录了多种关系类别，其中，以实体为人物名称为例，关系类别可以包括父母、子女、夫妻、兄弟、同学等。

具体的，服务器通过分类器对第一拼接向量进行分类，得到第一实体关系数据，将第一实体关系数据映射至关系文件中，得到第一实体关系，通过分类器对第二拼接向量进行分类，得到第二实体关系数据，将第二实体关系数据映射至关系文件中，得到第二实体关系。

在本实施例中，通过预训练的关系抽取模型的分类分类器对特征融合后的拼接向量进行分类，得到实体关系数据，通过将实体关系数据量映射至预设的关系文件中，得到实体关系，其中，关系文件中预先记录了多种关系类别，通过关系映射可以直接获得匹配的实体关系。

比对第一相似度和预设第一阈值，得到第一比对结果；

比对第二相似度和预设第二阈值，得到第二比对结果；

具体的，比对第一相似度和预设第一阈值（例如80%），得到第一比对结果，比对第二相似度和预设第二阈值（60%），得到第二比对结果，基于第一比对结果和第二比对结果评估待评估语料，得到最终评估结果。

例如，车圈提问场景中，当第一相似度大于第一阈值且第二相似度也大于第二阈值时，确定待评估语料为优质问题，服务器将与待评估语料的第一相似度最大的示例问题对应的答案作为输出。再如，当第一相似度大于第一阈值但第二相似度也小于第二阈值时，确定待评估语料为无效问题，并忽略该问题。当服务器认定待评估语料为无效问题后，服务器自动忽略无效问题，以减轻运算压力。

根据语料评估指令从预设语料库中查找示例语料。

在本申请一种具体的实施例中，服务器接收语料评估指令后，根据语料评估指令调用预设的爬虫算子爬取待评估语料，对待评估语料进行预处理，其中，预处理包括分句处理、数据去重和数据过滤，其次根据语料评估指令从预设语料库中查找示例语料。

需要说明的是，在获取待评估语料后，需要对待评估语料进行预处理，预处理包括分句处理、数据去重和数据过滤，以进一步较少处理的数据量。

在本实施例中，本申请公开了一种问答语料评估方法，属于人工智能技术领域。本申请通过获取待评估语料和示例语料，对待评估语料和示例语料进行文本实体抽取，得到第一实体和第二实体，通过计算第一实体和第二实体的相似度，得到第一相似度，然后对待评估语料中的第一实体以及对示例语料中的第二实体进行位置标记，利用预训练的关系抽取模型分别对标记后的待评估语料和标记后的示例语料进行关系抽取，得到第一实体关系和第二实体关系，通过计算第一实体关系和第二实体关系的相似度，得到第二相似度，基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。本申请通过计算语料中实体的相似度和实体关系的相似度，并通过上述两个相似度对语料进行综合评估，在待评估语料中识别无效语料，并效剔除待评估语料中的无效语料，以降低系统服务器的运算压力。

需要强调的是，为进一步保证上述待评估语料的私密和安全性，上述待评估语料还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种问答语料评估装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的问答语料评估装置包括：

语料获取模块301，用于接收语料评估指令，获取待评估语料和示例语料；

实体抽取模块302，用于对待评估语料进行文本实体抽取，得到第一实体，以及对示例语料进行文本实体抽取，得到第二实体；

第一相似度计算模块303，用于计算第一实体和第二实体的相似度，得到第一相似度；

实体标记模块304，用于对待评估语料中的第一实体进行标记，以及对示例语料中的第二实体进行标记；

关系抽取模块305，用于利用预训练的关系抽取模型对标记后的待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的示例语料进行关系抽取，得到第二实体关系；

第二相似度计算模块306，用于计算第一实体关系和第二实体关系的相似度，得到第二相似度；

语料评估模块307，用于基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。

进一步地，实体标记模块304具体包括：

位置标记单元，用于对待评估语料中的第一实体进行位置标记，得到第一实体位置信息，以及对示例语料中的第二实体进行位置标记，得到第二实体位置信息。

进一步地，位置标记单元具体包括：

位置识别单元，用于识别第一实体在待评估语料中的位置，以及识别第二实体在示例语料中的位置，其中，位置包括起始位置和结束位置；

标记符插入单元，用于在起始位置插入起始标记符，以及在结束位置插入结束标记符；

第一实体标记单元，用于利用起始标记符与结束标记符在待评估语料中标记第一实体，得到第一实体位置信息；

第二实体标记单元，用于以及利用起始标记符与结束标记符在示例语料中标记第二实体，得到第二实体位置信息。

进一步地，关系抽取模块305具体包括：

实体编码单元，用于对第一实体进行编码，得到第一实体编码向量，以及对第二实体进行编码，得到第二实体编码向量；

位置编码单元，用于对第一实体位置信息进行编码，得到第一位置编码向量，以及对第二实体位置信息进行编码，得到第二位置编码向量；

向量拼接单元，用于对第一实体编码向量和第一位置编码向量进行拼接，得到第一拼接向量，以及对第二实体编码向量和第二位置编码向量进行拼接，得到第二拼接向量；

关系抽取单元，用于对第一拼接向量进行关系抽取，得到第一实体关系，以及对第二拼接向量进行关系抽取，得到第二实体关系。

进一步地，关系抽取单元具体包括：

第一分类子单元，用于对第一拼接向量进行分类，得到第一实体关系数据；

第一映射子单元，用于将第一实体关系数据映射至预设的关系文件中，得到第一实体关系；

第二分类子单元，用于对第二拼接向量进行分类，得到第二实体关系数据；

第二映射子单元，用于将第二实体关系数据映射至预设的关系文件中，得到第二实体关系。

进一步地，语料评估模块307具体包括：

第一比对单元，用于比对第一相似度和预设第一阈值，得到第一比对结果；

第一比对单元，用于比对第二相似度和预设第二阈值，得到第二比对结果；

语料评估单元，用于基于第一比对结果和第二比对结果评估待评估语料，得到最终评估结果。

进一步地，语料获取模块301具体包括：

语料爬取单元，用于接收语料评估指令，根据语料评估指令调用预设的爬虫算子爬取待评估语料；

语料预处理单元，用于对待评估语料进行预处理，其中，预处理包括分句处理、数据去重和数据过滤；

语料库查找单元，用于根据语料评估指令从预设语料库中查找示例语料。

本申请公开了一种问答语料评估装置，属于人工智能技术领域。本申请通过获取待评估语料和示例语料，对待评估语料和示例语料进行文本实体抽取，得到第一实体和第二实体，通过计算第一实体和第二实体的相似度，得到第一相似度，然后对待评估语料中的第一实体以及对示例语料中的第二实体进行位置标记，利用预训练的关系抽取模型分别对标记后的待评估语料和标记后的示例语料进行关系抽取，得到第一实体关系和第二实体关系，通过计算第一实体关系和第二实体关系的相似度，得到第二相似度，基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。本申请通过计算语料中实体的相似度和实体关系的相似度，并通过上述两个相似度对语料进行综合评估，在待评估语料中识别无效语料，并效剔除待评估语料中的无效语料，以降低系统服务器的运算压力。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如问答语料评估方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述问答语料评估方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请公开了一种计算机设备，属于人工智能技术领域。本申请通过获取待评估语料和示例语料，对待评估语料和示例语料进行文本实体抽取，得到第一实体和第二实体，通过计算第一实体和第二实体的相似度，得到第一相似度，然后对待评估语料中的第一实体以及对示例语料中的第二实体进行位置标记，利用预训练的关系抽取模型分别对标记后的待评估语料和标记后的示例语料进行关系抽取，得到第一实体关系和第二实体关系，通过计算第一实体关系和第二实体关系的相似度，得到第二相似度，基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。本申请通过计算语料中实体的相似度和实体关系的相似度，并通过上述两个相似度对语料进行综合评估，在待评估语料中识别无效语料，并效剔除待评估语料中的无效语料，以降低系统服务器的运算压力。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的问答语料评估方法的步骤。

本申请公开了一种存储介质，属于人工智能技术领域。本申请通过获取待评估语料和示例语料，对待评估语料和示例语料进行文本实体抽取，得到第一实体和第二实体，通过计算第一实体和第二实体的相似度，得到第一相似度，然后对待评估语料中的第一实体以及对示例语料中的第二实体进行位置标记，利用预训练的关系抽取模型分别对标记后的待评估语料和标记后的示例语料进行关系抽取，得到第一实体关系和第二实体关系，通过计算第一实体关系和第二实体关系的相似度，得到第二相似度，基于第一相似度和第二相似度对待评估语料进行评估，得到待评估语料的最终评估结果。本申请通过计算语料中实体的相似度和实体关系的相似度，并通过上述两个相似度对语料进行综合评估，在待评估语料中识别无效语料，并效剔除待评估语料中的无效语料，以降低系统服务器的运算压力。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种问答语料评估方法，其特征在于，包括：

接收语料评估指令，获取待评估语料和示例语料；

对所述待评估语料进行文本实体抽取，得到第一实体，以及对所述示例语料进行文本实体抽取，得到第二实体；

计算所述第一实体和所述第二实体的相似度，得到第一相似度；

对所述待评估语料中的所述第一实体进行标记，以及对所述示例语料中的所述第二实体进行标记；

利用预训练的关系抽取模型对标记后的所述待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的所述示例语料进行关系抽取，得到第二实体关系；

计算所述第一实体关系和所述第二实体关系的相似度，得到第二相似度；

基于所述第一相似度和所述第二相似度对所述待评估语料进行评估，得到所述待评估语料的最终评估结果；

所述基于所述第一相似度和所述第二相似度对所述待评估语料进行评估，得到所述待评估语料的最终评估结果的步骤，具体包括：

比对所述第一相似度和预设第一阈值，得到第一比对结果；

比对所述第二相似度和预设第二阈值，得到第二比对结果；

基于所述第一比对结果和所述第二比对结果评估所述待评估语料，得到所述最终评估结果；

所述待评估语料的最终评估结果包括优质语料和无效语料，所述基于所述第一比对结果和所述第二比对结果评估所述待评估语料，得到所述最终评估结果，具体包括：

当所述第一相似度大于所述第一阈值但所述第二相似度小于所述第二阈值时，判定所述待评估语料为无效语料；

当所述第一相似度大于所述第一阈值且所述第二相似度也大于所述第二阈值时，判定待评估语料为优质语料。

2.如权利要求1所述的问答语料评估方法，其特征在于，所述对所述待评估语料中的所述第一实体进行标记，以及对所述示例语料中的所述第二实体进行标记的步骤，具体包括：

对所述待评估语料中的所述第一实体进行位置标记，得到第一实体位置信息，以及对所述示例语料中的所述第二实体进行位置标记，得到第二实体位置信息。

3.如权利要求2所述的问答语料评估方法，其特征在于，所述对所述待评估语料中的所述第一实体进行位置标记，得到第一实体位置信息，以及对所述示例语料中的所述第二实体进行位置标记，得到第二实体位置信息的步骤，具体包括：

识别所述第一实体在所述待评估语料中的位置，以及识别所述第二实体在所述示例语料中的位置，其中，所述位置包括起始位置和结束位置；

在所述起始位置插入起始标记符，以及在所述结束位置插入结束标记符；

利用所述起始标记符与所述结束标记符在所述待评估语料中标记所述第一实体，得到所述第一实体位置信息；

以及利用所述起始标记符与所述结束标记符在所述示例语料中标记所述第二实体，得到所述第二实体位置信息。

4.如权利要求2所述的问答语料评估方法，其特征在于，所述利用预训练的关系抽取模型对标记后的所述待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的所述示例语料进行关系抽取，得到第二实体关系的步骤，具体包括：

对所述第一实体进行编码，得到第一实体编码向量，以及对所述第二实体进行编码，得到第二实体编码向量；

对所述第一实体位置信息进行编码，得到第一位置编码向量，以及对所述第二实体位置信息进行编码，得到第二位置编码向量；

对所述第一实体编码向量和所述第一位置编码向量进行拼接，得到第一拼接向量，以及对所述第二实体编码向量和所述第二位置编码向量进行拼接，得到第二拼接向量；

对所述第一拼接向量进行关系抽取，得到第一实体关系，以及对所述第二拼接向量进行关系抽取，得到第二实体关系。

5.如权利要求4所述的问答语料评估方法，其特征在于，所述对所述第一拼接向量进行关系抽取，得到第一实体关系，以及对所述第二拼接向量进行关系抽取，得到第二实体关系的步骤，具体包括：

对所述第一拼接向量进行分类，得到第一实体关系数据；

将所述第一实体关系数据映射至预设的关系文件中，得到所述第一实体关系；

对所述第二拼接向量进行分类，得到第二实体关系数据；

将所述第二实体关系数据映射至预设的关系文件中，得到所述第二实体关系。

6.如权利要求5所述的问答语料评估方法，其特征在于，所述接收语料评估指令，获取待评估语料和示例语料的步骤，具体包括：

接收语料评估指令，根据所述语料评估指令调用预设的爬虫算子爬取所述待评估语料；

对所述待评估语料进行预处理，其中，预处理包括分句处理、数据去重和数据过滤；

根据所述语料评估指令从预设语料库中查找所述示例语料。

7.一种问答语料评估装置，其特征在于，包括：

实体抽取模块，用于对所述待评估语料进行文本实体抽取，得到第一实体，以及对所述示例语料进行文本实体抽取，得到第二实体；

第一相似度计算模块，用于计算所述第一实体和所述第二实体的相似度，得到第一相似度；

实体标记模块，用于对所述待评估语料中的所述第一实体进行标记，以及对所述示例语料中的所述第二实体进行标记；

关系抽取模块，用于利用预训练的关系抽取模型对标记后的所述待评估语料进行关系抽取，得到第一实体关系，以及利用预训练的关系抽取模型对标记后的所述示例语料进行关系抽取，得到第二实体关系；

第二相似度计算模块，用于计算所述第一实体关系和所述第二实体关系的相似度，得到第二相似度；

语料评估模块，用于基于所述第一相似度和所述第二相似度对所述待评估语料进行评估，得到所述待评估语料的最终评估结果；

所述语料评估模块具体包括：

第一比对单元，用于比对所述第一相似度和预设第一阈值，得到第一比对结果；

第二比对单元，用于比对所述第二相似度和预设第二阈值，得到第二比对结果；

语料评估单元，用于基于所述第一比对结果和所述第二比对结果评估所述待评估语料，得到所述最终评估结果；

所述待评估语料的最终评估结果包括优质语料和无效语料，所述语料评估单元具体包括：

第一评估子单元，用于当所述第一相似度大于所述第一阈值但所述第二相似度小于所述第二阈值时，判定所述待评估语料为无效语料；

第二评估子单元，用于当所述第一相似度大于所述第一阈值且所述第二相似度也大于所述第二阈值时，判定待评估语料为优质语料。

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的问答语料评估方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的问答语料评估方法的步骤。