CN115719058A

CN115719058A - 一种内容分析方法、电子设备和存储介质

Info

Publication number: CN115719058A
Application number: CN202211504604.0A
Authority: CN
Inventors: 朱翔
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-02-28

Abstract

本申请实施例提供了一种内容分析方法、电子设备和存储介质。所述方法包括：获取目标问题对应的答复数据，确定所述答复数据对应的答复文本数据；对所述答复文本数据进行文本问题分析，确定对应的问题分析结果；若所述问题分析结果通过问题校验，则分析所述目标问题和答复文本数据的语义相关性，确定相关度信息；若所述相关度信息满足相关性校验，确定所述答复文本数据有效；基于有效的答复文本数据，得到所述目标问题的分析结果。能够基于语言逻辑进行分析，确定答复是否存在语言逻辑问题，还可基于相关度确定有效的答复，从问题的海量的答复中筛选出高质量答复。

Description

一种内容分析方法、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种内容分析方法、一种电子设备和一种存储介质。

背景技术

随着技术的发展，越来越多的用户通过网络访问各种网站，网页也可提供一些问卷给用户，从而了解用户的需求，提供更优质的服务。

然而，目前的文件通常是选择题的形式，方便收集答复，但难以准确反映用户的需求。因此有些问卷是采用提出问题并收集文本答复的方式，但是答复文本难以进行收集和筛选。

因此，本领域亟待解决的一个技术问题在于：如何从海量的答复中筛选出高质量答复。

发明内容

本申请实施例提供了一种内容分析方法，如何从海量的答复中筛选出高质量答复。

相应的，本申请实施例还提供了一种电子设备和一种存储介质，用以保证上述系统的实现及应用。

为了解决上述问题，本申请实施例公开了一种内容分析方法，所述方法包括：

获取目标问题对应的答复数据，确定所述答复数据对应的答复文本数据；

对所述答复文本数据进行文本问题分析，确定对应的问题分析结果；

若所述问题分析结果通过问题校验，则分析所述目标问题和答复文本数据的语义相关性，确定相关度信息；

若所述相关度信息满足相关性校验，确定所述答复文本数据有效；

基于有效的答复文本数据，得到所述目标问题的分析结果。

可选的，所述对所述答复文本数据进行文本文问题分析，确定对应的问题分析结果，包括：

按照问题类型对所述答复文本数据进行语言逻辑检测，确定各问题类型对应的问题分析结果。

可选的，所述按照问题类型对所述答复文本数据进行语言逻辑检测，确定各问题类型对应的问题分析结果，包括以下至少一种：

针对重复类型，对所述答复文本数据进行重叠词检测，确定重复类型的问题分析结果；

针对拷贝类型，采用所述答复文本数据与问题文本数据进行重复检测，确定拷贝类型的问题分析结果；

针对通顺类型，对所述答复文本数据进行通顺度检测，确定通顺类型的问题分析结果。

可选的，所述对所述答复文本数据进行重叠词检测，确定重复类型的问题分析结果，包括：

基于统计语言模型对所述答复文本数据进行统计分析，确定重复文本的重复度；

采用所述重复文本及重复度，生成重复类型的问题分析结果。

可选的，所述采用所述答复文本数据与问题文本数据进行重复检测，确定拷贝类型的问题分析结果，包括：

将所述答复文本数据与问题文本数据进行比对，确定重合文本的重合度；

采用重合文本的重合度，生成拷贝类型的问题分析结果。

可选的，所述对所述答复文本数据进行通顺度检测，确定通顺类型的问题分析结果，包括：

基于自然语言模型对所述答复文本数据进行检测，确定所述答复文本数据的通顺度；

依据所述答复文本数据的通顺度，生成通顺类型的问题分析结果。

可选的，所述分析所述目标问题和答复文本数据的语义相关性，确定相关度信息，包括：

将所述目标问题和答复文本数据输入到语义模型中进行分析，确定相关度信息；所述语义模型基于对比学习的语言模型训练。

可选的，还包括训练语义模型的步骤：

预先收集问题数据、所述问题数据的相关答复文本数据、以及所述问题数据的不相关答复文本数据，作为训练数据；

将所述训练数据输入到基于对比学习的语言模型中进行处理，得到对应的输出结果；

依据所述输出结果确定损失函数，基于所述损失函数调整所述语言模型的参数。

可选的，还包括：

获取所述有效的答复文本数据对应的资源数据，反馈所述资源数据给所述有效的答复文本数据对应的用户。

可选的，还包括：

所述确定所述答复数据对应的答复文本数据，包括以下至少一种：

若所述答复数据为文本数据，则将所述文本数据作为答复文本数据；

若所述答复数据为语音数据，则对所述答复数据进行语音识别，将识别文本作为答复文本数据；

若所述答复数据为图像数据，则对所述图像数据进行识别处理，将识别文本作为答复文本数据。

可选的，还包括：

对有效的答复数据进行分析，提取改进建议信息；

依据所述改进建议信息改进商品对象。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被处理器执行时，执行如本申请实施例所述的方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，执行如本申请实施例所述的方法。

与现有技术相比，本申请实施例包括以下优点：

本申请实施例中，获取目标问题的答复数据并确定对应的答复文本数据，对所述答复文本数据进行文本问题分析，确定对应的问题分析结果，从而能够基于语言逻辑进行分析，确定答复是否存在语言逻辑问题，若所述问题分析结果通过问题校验，则分析所述目标问题和答复文本数据的语义相关性，确定相关度信息，若所述相关度信息满足相关性校验，确定所述答复文本数据有效，能够基于相关度确定有效的答复，基于有效的答复文本数据，得到目标问题的分析结果，从问题的海量的答复中筛选出高质量答复。

附图说明

图1是本申请的一种内容分析方法实施例的步骤流程图；

图2是本申请的另一种内容分析方法实施例的步骤流程图；

图3是本申请一个实施例提供的示例性装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例可以应用于内容场景，例如问答场景、评论场景等针对内容进行分析场景。可以通过各种方式获取内容文本，分析文本数据的有效性，该有效性可基于多种维度评价，如文本的语言逻辑角度、文本与主题的相关度等，从而能够筛选有效的答复文本，从海量的答复中筛选出高质量答复，如应用于问答、问卷场景下可从海量的问卷中筛选出高质量问卷，又如应用于评论场景下可从海量的评价中筛选出高质量评价。又如对于商品对象的评价数据，可以筛选有效评价后改进商品对象等。

参照图1，示出了本申请的一种内容分析方法实施例的步骤流程图。

步骤102，获取目标问题对应的答复数据，确定所述答复数据对应的答复文本数据。

可以收集目标问题及其对应的答复数据。其中，一个问题可对应多个用户的多个答复数据。例如在电子商务网站中设置针对商品对象、促销等对象的问卷，每个问卷中可包括多个问题。可以邀请电子商务平台中的买家用户或卖家(商家)用户回答问卷，得到相应的问卷结果数据。又如在社交网络、生活分享等网站设置问卷并要求用户答复，用户答复的问卷结果数据。从问卷结果数据中获取问题及其对应的答复数据。其中，针对每个问题可确定其对应的答复文本数据集合，每个答复文本对应用户属性来标记提供该答复的用户。又如应用于评论场景中，可以将商品对象的评论作为问题，如这个商品怎么样等，然后后续相应的评论数据作为答复数据。

本申请实施例中，答复数据可为多种形式的数据，如文本数据、图像数据、语音数据、视频数据等。例如在网站提供文本问卷，用户通过文本答复，相应可获取文本形式的答复数据；若所述答复数据为视频数据，对所述视频数据进行识别处理，将识别文本作为答复文本数据。又如，用户的答复数据可为图像数据。又如，在一些采访视频、访问视频等中进行问答，相应答复数据通过视频或音频的形式承载。因此针对不同的答复数据可通过相应的方式转化为文本数据。其中，所述确定所述答复数据对应的答复文本数据，包括以下至少一种：若所述答复数据为文本数据，则将所述文本数据作为答复文本数据；若所述答复数据为语音数据，则对所述答复数据进行语音识别，将识别文本作为答复文本数据；若所述答复数据为图像数据，则对所述图像数据进行识别处理，将识别文本作为答复文本数据。若答复数据为语音数据，可以对该语音数据进行语音识别处理，通过语音识别得到识别的文本数据，作为答复文本数据。对于图像数据也可进行识别处理，如通过光学字符识别(OpticalCharacter Recognition，OCR)识别图像中的文本数据。针对视频数据可通过上述语音识别、OCR识别等对视频所包含的语音、图像等数据进行识别，得到文本数据。还可对图像数据进行对象识别，然后对对象在视频流中各帧图像进行肢体、姿态等识别，结合姿态、肢体等识别文本数据作为答复文本数据。例如，一些残障人士通过手语进行答复，可以通过视频进行答复并转换为文本数据等，得到答复文本数据。其中，手语的语言逻辑与其他自然语言的语言逻辑并不完全一致，因此可在转换文本是基于自然语言的逻辑转换，也可针对手语的语言逻辑设置后续的处理。

步骤104，对所述答复文本数据进行文本问题分析，确定对应的问题分析结果。

针对目标问题对应的答复文本数据，可以对答复文本数据进行文本问题分析，文本问题分析指的是针对文本的语言逻辑问题的分析，确定该文本在语言逻辑上是否存在问题，因此可对答复文本数据在语言逻辑上的表述进行分析，确定对应的问题分析结果。所述对所述答复文本数据进行文本文问题分析，确定对应的问题分析结果，包括：按照问题类型对所述答复文本数据进行语言逻辑检测，确定各问题类型对应的问题分析结果。针对语言逻辑可基于问题确定类型，针对不同类型的问题采用不同的方式进行分析，如语言通顺问题、语言重复问题等。语言重复问题可能包括文本本身的重复以及从问题等其他数据复制内容导致的重复的，从而针对不同的问题类型采用相应的方式进行分析，确定各问题类型对应的问题分析结果，该问题分析结果包括各问题类型下的问题程度，如重复度、通顺度等。

所述按照问题类型对所述答复文本数据进行语言逻辑检测，确定各问题类型对应的问题分析结果，包括以下至少一种：针对重复类型，对所述答复文本数据进行重叠词检测，确定重复类型的问题分析结果；针对拷贝类型，采用所述答复文本数据与问题文本数据进行重复检测，确定拷贝类型的问题分析结果；针对通顺类型，对所述答复文本数据进行通顺度检测，确定通顺类型的问题分析结果。

对于重复类型的问题，通常是重复一些字词、短句等，因此可以对答复文本数据进行重叠词检测，例如可对答复文本数据进行语句分析，然后进行切割，确定各字词、短句的重复次数、重复频率等信息，得到重复类型的问题分析结果。还可训练统计语言模型，如N-gram、基于词向量的语言模型、基于决策树的语言模型(Decision Tree Models)、最大熵模型以及自适应语言模型(Adaptive Models)等。其中，统计语言模型是用于统计词、语句的等语法单元的概率分布的模型，能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。其中，N-gram是基于稀疏表示(Sparse Representation)的语言模型，基于词向量的语言模型可为以词向量(Word Embedding)为代表的分布式表示(Distributed Representation)的语言模型。可以确定训练集对统计语言模型进行训练，得到训练完成的统计语言模型。

相应，所述对所述答复文本数据进行重叠词检测，确定重复类型的问题分析结果，包括：基于统计语言模型对所述答复文本数据进行统计分析，确定重复文本的重复度；采用所述重复文本及重复度，生成重复类型的问题分析结果。将答复文本数据输入到统计语言模型中进行统计分析处理，该统计语言模型可统计重复的字词、短语的重复文本，及其重复次数、重复频率等重复度，如重复频率为重复的字词数量占总文本字数的比例，采用所述重复文本及重复度，生成重复类型的问题分析结果。例如，答复文本为“棒，6666666666666”，可以预先训练N–gram模型，将该答复文本输入到N–gram模型中，输出重复度ngramScore＝0.867。又如，答复文本为“好棒，冲冲冲冲冲冲冲冲冲冲冲冲冲冲冲冲冲冲”，将该答复文本输入到N–gram模型中，输出重复度ngramScore＝0.857。答复文本为“可口可乐了可口可乐了”，将该答复文本输入到N–gram模型中，输出重复度ngramScore＝0.6。

对于拷贝类型的问题，通常其答复文本是将从其他位置辅助的文本作为答复文本。所述采用所述答复文本数据与问题文本数据进行重复检测，确定拷贝类型的问题分析结果，包括：将所述答复文本数据与问题文本数据进行比对，确定重合文本的重合度；采用重合文本的重合度，生成拷贝类型的问题分析结果。例如从问卷中的问题复制文本作为答复文本，因此可获取问卷中的各问题的问题文本数据，将所述答复文本数据与问题文本数据进行比对，例如确定答复文本数据与问题文本数据的最长公共子串，基于该最长公共子串确定重合文本的重合度，例如基于最长公共子串的字数在答复文本数据(或问题文本数据)的字数的占比等。例如，问题文本数据为“稻XXX新品特别推出'亲友鲜米礼品卡'！快来妙笔生辉，为你的厨神亲友设计一张创意礼品卡封面吧！”，答复文本数据为“快来妙笔生辉，为你的厨神亲友设计一张创意礼品卡封面吧！”，得到相应的重复度分值score＝0.574。

对于通顺类型的问题，其答复文本数据存在不通顺的问题，对于文本是否通顺可基于语言习惯等确定。所述对所述答复文本数据进行通顺度检测，确定通顺类型的问题分析结果，包括：基于自然语言模型对所述答复文本数据进行检测，确定所述答复文本数据的通顺度；依据所述答复文本数据的通顺度，生成通顺类型的问题分析结果。

可预先训练自然语言模型来进行通顺度的检测，其中，自然语言模型的核心目标是确定自然语言中任意词序列S＝(w1,w2,...,wn)的概率P(S)，基本任务是在给定上下文C的情况下，预测下一个词w的条件概率P(w|C)。自然语言模型可以使用困惑度(perplexity，PPL)来评估语言模型的质量，PPL用于度量模型的数据的好坏程度，对于自然语言模型而言，其可以度量一个文本是否符合自然语言的语言习惯、语言逻辑等，从而可以作为通顺度来衡量文本的通顺问题。自然语言模型可以有多种，如基于去噪自编码的语言模型BERT(Bidirectional Encoder Representation from Transformers)、自回归语言模型GPT-2等。

其中，BERT模型是一种掩码语言模型，其中每个词的出现概率同时依赖于前后文。BERT模型在计算困惑度时，对于给定的词序列，按顺序依次遮盖(mask)掉一个词，并计算所预测单词的对数似然值，然后求和取平均。GPT-2作为自回归语言模型，每个词的出现概率只依赖于其所有的前文，因此依次计算当前输入下的下一个词的出现概率，最后将求得的PPL作为文本通顺度的度量值。本申请实施例可预先选取自然语言模型并进行训练，采用训练完成的自然语言模型对答复文本数据进行检测，将输出的PPL作为述答复文本数据的通顺度的度量值，然后依据所述答复文本数据的通顺度，生成通顺类型的问题分析结果。

本申请实施例中，针对每种问题类型可设置相应的问题校验条件，然后可检测各问题类型的问题分析结果是否满足问题校验条件，若满足则通过问题校验，若不满足则不通过问题校验。其中，可针对重复类型设置重复阈值，拷贝类型设置拷贝阈值，通顺类型设置通顺阈值。例如重复类型的重复问题校验条件为重复度不超过重复阈值；拷贝类型的拷贝问题校验条件为重合度不超过拷贝阈值；通顺类型的通顺问题校验条件为通顺度超过通顺阈值。可以在每种分析每一种问题类型并得到问题分析结果后，与相应的阈值进行比较来确定是否满足问题校验条件，如果不满足问题校验条件，则可忽略该问题，不执行后续检测。

步骤106，若所述问题分析结果通过问题校验，则分析所述目标问题和答复文本数据的语义相关性，确定相关度信息。

如果问题分析结果通过问题校验，即该答复文本数据符合语言逻辑，可以进一步分析该答复文本数据和目标问题之间的语义相关性，从而确定该答复针对问题是否相关，并确定答复的质量。其中语义相关性可基于语义模型进行分析，语义模型可采用各种深度语义模型，例如基于对比学习的语言模型、Deeprank模型等。一种基于对比学习的语言模型可基于利用对比学习优化文本表征学习的框架simCSE构建。

其中，在问答场景下，对于问题的答复质量，问题和答复的相关性计算属于一个开域问题，例如在新的问题主题、用户具有创意性的答复是一个较为鲜明的属性，而具有创意性的答复的衡量，可通过文本向量来实现，相应文本的向量表示对任务的结果起到较为重要的作用。本申请实施例可借鉴simCSE模型的工作，采用对比学习进行模型训练。通过文本向量来衡量创意性的答复，即答复质量时，一种示例可以基于问题与答复的文本对的距离来衡量，其中，相关文本对的距离尽可能近，不相关的文本对的距离尽可能远。

一个示例中，通过监督学习的方式训练语义模型，训练语义模型的步骤：预先收集问题数据、所述问题数据的相关答复文本数据、以及所述问题数据的不相关答复文本数据，作为训练数据；将所述训练数据输入到基于对比学习的语言模型中进行处理，得到对应的输出结果；依据所述输出结果确定损失函数，基于所述损失函数调整所述语言模型的参数。

可以收集历史的问卷数据、答复文本等，获取各问题对应的答复文本数据，并基于答复文本数据与问题的相关对进行打标，即基于相关度给答复文本添加标签，从而训练集中包括问题数据、所述问题数据的相关答复文本数据、以及所述问题数据的不相关答复文本数据。例如按照“问题主题\t相关性创意回答\t不相关创意回答”的格式构造训练数据集，又如构建问题数据和答复文本数据的文本対，每个文本对中答复文本数据对应相关或不相关的标签数据，如对应的相关度。然后可将问题数据和对应的答复文本数据输入到语言模型中，通过该语言模型进行处理，分别得到问题、答复的文本向量，如embedding向量等，然后可计算两个向量的距离作为相似度，如计算余弦相似度等，作为输出结果。然后可基于该输出结果和答复文本数据对应标签的相关度计算损失函数，然后将该损失函数反向传播回语言模型，调整所述语言模型的参数，通过多次迭代得到语言模型。可将目标问题和答复文本数据输入到训练完成的语义模型中进行分析，获取输出的相关度信息。

针对相关度可设置相关度阈值，若相关度信息超过相关度阈值，则确认满足相关性校验，若相关度信息未超过相关度阈值，则确认不满足相关性校验。

步骤108，若所述相关度信息满足相关性校验，确定所述答复文本数据有效。

若所述相关度信息满足相关性校验，确认答复文本数据与问题的相关度较高，为有效的答复文本数据。

步骤110，基于有效的答复文本数据，得到所述目标问题的分析结果。

筛选各用户的有效的答复文本数据，例如在问卷场景下可收集包含有效答复文本数据的问卷数据，并筛选其中有效的答复文本数据。基于各用户的有效的答复文本数据得到分析结果，如统计本次问卷的有效性，还可基于有效的答复文本数据执行后续的分析处理，如改进商品对象、改进网站等。此外，分析结果也可包括无效的分析结果，如上述各分析过程中未通过校验的答复文本数据，可以记录有效或无效的原因。在一个场景中，可以针对某一商品对象进行问卷或评论，如商品对象上市前的测评阶段，给测评用户体验使用后收集体验效果，相应可获取用户反馈的文本、图像、语音、视频等各种答复数据，在转换成答复文本数据后，通过上述方式进行分析确定有效的答复数据后，可对该有效的答复数据进行分析，如对文本进行文本分析提取关键词等，生成改进建议信息。又如对于语音数据，视频中的音频数据等进行音频分析，对图像数据、视频中的图像数据进行图像分析等处理，从而提取改进建议信息，或者与所述改进建议信息相关的问题点等。例如，测试商品对象为音响、麦克风等音频输出、输入装置，可基于音频数据分析器输出或输入的音频是否存在问题作为问题点，如存在杂音、噪声等。又如结合图像、视频的画面等显示的商品对象的问题定位问题点，如商品对象的瑕疵位置等，从而得到问题点添加到改进建议信息，依据该改进建议信息改进商品对象，从而在上市前后商品对象进行改进。

还可基于有效或无效的答复文本数据对应的用户，执行后续的反馈操作。例如针对无效答复的用户，后续不再邀请答复问卷或减少邀请答复问卷等。在另外一些实施例中，还可获取有效的答复文本数据对应的资源数据，反馈所述资源数据给所述有效的答复文本数据对应的用户。本申请实施例中，为了提高用户答复的积极性，还可给有效答复的用户提供资源数据，因此可获取有效的答复文本数据对应的资源数据，如网站的积分、优惠券、礼品(券)等资源数据，确定该有效的答复文本数据对应的用户，反馈资源数据给所述用户。

综上，获取目标问题对应的答复文本数据，对所述答复文本数据进行文本问题分析，确定对应的问题分析结果，从而能够基于语言逻辑进行分析，确定答复是否存在语言逻辑问题，若所述问题分析结果通过问题校验，则分析所述目标问题和答复文本数据的语义相关性，确定相关度信息，若所述相关度信息满足相关性校验，确定所述答复文本数据有效，能够基于相关度确定有效的答复，筛选有效的答复文本数据，得到分析结果，从问题的海量的答复中筛选出高质量答复。

在上述实施例的基础上，还提供了一种内容分析方法，能够结合多种分析方式进行问题的答复的分析，效率较高，并且能够筛选出高质量答复。

参照图2，示出了本申请的另一种内容分析方法实施例的步骤流程图。

步骤202，获取目标问题对应的答复数据，确定所述答复数据对应的答复文本数据。

所述确定所述答复数据对应的答复文本数据，包括以下至少一种：若所述答复数据为文本数据，则将所述文本数据作为答复文本数据；若所述答复数据为语音数据，则对所述答复数据进行语音识别，将识别文本作为答复文本数据；若所述答复数据为图像数据，则对所述图像数据进行识别处理，将识别文本作为答复文本数据；若所述答复数据为视频数据，对所述视频数据进行识别处理，将识别文本作为答复文本数据。

步骤204，采用正则匹配规则对所述答复文本数据进行匹配，确定匹配结果。

可以预先设置正则匹配规则，如基于答复文本的语言规则等设置正则匹配规则，从而与答复文本数据进行匹配，确定是否符合该正则匹配规则，若符合则生成成功的匹配结果，若不符合则生成失败的匹配结果。

步骤206，判断所述匹配结果是否满足正则校验规则。

其中，若是，即成功的匹配结果，则可确认符合正则校验规则，继续执行后续步骤210。若否，即失败的匹配结果，则确定不合符正则校验规则，执行步骤208。

步骤208，生成无效输入的分析结果。

若不合符正则校验规则，可生成不相关的分析结果，将该答复文本数据的相关性得分确定为-1，还可设置该答复文本数据的状态为无效，还可设置状态码来表征所处状态的原因，如状态码为401，表征为无效空输入。

步骤210，对所述答复文本数据进行重叠词检测，确定重复类型的问题分析结果。

可基于统计语言模型对所述答复文本数据进行统计分析，确定重复文本的重复度；采用所述重复文本及重复度，生成重复类型的问题分析结果。

步骤212，基于所述重复类型的问题分析结果判断是否满足重复问题校验条件。

若是，即重复度不超过重复阈值，确定满足重复问题校验条件，执行步骤216。若否，即重复度超过重复阈值，确定不满足重复问题校验条件，执行步骤214。

步骤214，生成无效重复的分析结果。

若不满足重复问题校验条件，可生成无效重复的分析结果，即不相关的分析结果，将该答复文本数据的相关性得分确定为-1，还可设置该答复文本数据的状态为无效，还可设置状态码来表征所处状态的原因，如状态码为403，表征为无效重复叠词。

步骤216，采用所述答复文本数据与问题文本数据进行重复检测，确定拷贝类型的问题分析结果。

将所述答复文本数据与问题文本数据进行比对，确定重合文本的重合度；采用重合文本的重合度，生成拷贝类型的问题分析结果。

步骤218，基于所述拷贝类型的问题分析结果判断是否满足拷贝问题校验条件。

若是，即重合度不超过拷贝阈值，确定满足拷贝问题校验条件，执行步骤222。若否，即重合度超过拷贝阈值，确定不满足拷贝问题校验条件，执行步骤220。

步骤220，生成无效拷贝的分析结果。

若不满足拷贝问题校验条件，可生成无效拷贝的分析结果，即不相关的分析结果，将该答复文本数据的相关性得分确定为-1，还可设置该答复文本数据的状态为无效，还可设置状态码来表征所处状态的原因，如状态码为402，表征为无效原句拷贝。

步骤222，对所述答复文本数据进行通顺度检测，确定通顺类型的问题分析结果。

基于自然语言模型对所述答复文本数据进行检测，确定所述答复文本数据的通顺度；依据所述答复文本数据的通顺度，生成通顺类型的问题分析结果。

步骤224，基于所述通顺类型的问题分析结果判断是否满足通顺问题校验条件。

若是，即通顺度超过通顺阈值，确定满足通顺问题校验条件，执行步骤228。若否，即通顺度未超过通顺阈值，确定不满足通顺问题校验条件，执行步骤226。

步骤226，生成无效不相关的分析结果。

若不满足拷贝问题校验条件，可生成无效不相关的分析结果，将该答复文本数据的相关性得分确定为-1，还可设置该答复文本数据的状态为无效，还可设置状态码来表征所处状态的原因，如状态码为404，表征为无效不相关。

步骤228，分析所述目标问题和答复文本数据的语义相关性，确定相关度信息。

可将目标问题和答复文本数据输入到训练完成的语义模型中进行分析，获取输出的相关度信息。

步骤230，判断相关度信息是否满足相关性校验。

针对相关度可设置相关度阈值，若相关度信息超过相关度阈值，则确认满足相关性校验，执行步骤234。若相关度信息未超过相关度阈值，则确认不满足相关性校验，执行步骤232。

步骤232，生成无效不相关的分析结果。

若不满足相关性校验，可生成无效不相关的分析结果，将该答复文本数据的相关性得分确定为-1，还可设置该答复文本数据的状态为无效，还可设置状态码来表征所处状态的原因，如状态码为404，表征为无效不相关。

步骤234，生成有效的分析结果。

若满足相关性校验，可生成有效的分析结果，基于相关度信息确定该答复文本数据的相关性得分并基于相关性得分确定对应的状态。

例如，相关性得分为[0.4,1]，可设置该答复文本数据的状态为有效，还可设置状态码来表征所处状态的原因，如状态码为200，表征为有效且高质量相关。

又如，相关性得分为[0.1,0.4]，可设置该答复文本数据的状态为有效，还可设置状态码来表征所处状态的原因，如状态码为201，表征为有效且低质量相关。

在另外一些实施例中，有些答复文本数据的检测可能存在一些问题，可以重新检测或者默认为有效。相应可将相关性得分置为1，状态为正常，状态码为400，表征服务异常，默认合理。

步骤236，基于各答复文本数据的分析结果，确定所述目标问题的分析结果。

可以收集该目标问题的各答复文本数据的分析结果。如表1所示为一种问题各答复文本数据的分析结果示例：

状态码	含义	相关性得分	结果	状态
					200	有效且高质量相关	[0.4,1]	高相关	正常
201	有效且低质量相关	[0.1,0.4]	低相关	正常
					400	服务异常，默认合理	1	相关	正常
401	无效空输入	-1	不相关	无效
					402	无效原句拷贝	-1	不相关	无效
403	无效重复叠词	-1	不相关	无效
					404	无效不相关	[-1,0.1)	不相关	疑似低质

后续可基于问题、答复文本数据的分析结果进行分析，例如基于有效的答复文本数据执行后续的分析处理，如改进网站等。例如针对无效答复的用户，后续不再邀请答复问卷或减少邀请答复问卷，或者对用户进行提示等。

步骤238，获取所述有效的答复文本数据对应的资源数据，反馈所述资源数据给所述有效的答复文本数据对应的用户。

为了提高用户答复的积极性，还可给有效答复的用户提供资源数据，因此可获取有效的答复文本数据对应的资源数据，如网站的积分、优惠券、礼品(券)等资源数据，确定该有效的答复文本数据对应的用户，反馈资源数据给所述用户。

还可对有效的答复数据进行分析，提取改进建议信息；依据所述改进建议信息改进商品对象。

本申请实施例可综合应用多种算法手段，能够快速识别出无效样本，还能够在兼顾稳定性、用户需求的基础上，提升无效样本的识别准确率，提升投入产出比。

还可集合深层语义匹配进行分析，进一步区分不相关样本，通过表征型模型计算相似度，能够满足线上实时性要求。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种内容分析装置，应用于服务端的电子设备中，所述装置包括：

答复获取模块，用于获取目标问题对应的答复数据，确定所述答复数据对应的答复文本数据；

问题分析模块，用于对所述答复文本数据进行文本问题分析，确定对应的问题分析结果；

相关性分析模块，用于若所述问题分析结果通过问题校验，则分析所述目标问题和答复文本数据的语义相关性，确定相关度信息；若所述相关度信息满足相关性校验，确定所述答复文本数据有效；

结果确定模块，用于基于有效的答复文本数据，得到所述目标问题的分析结果。

综上，获取目标问题的答复数据并确定对应的答复文本数据，对所述答复文本数据进行文本问题分析，确定对应的问题分析结果，从而能够基于语言逻辑进行分析，确定答复是否存在语言逻辑问题，若所述问题分析结果通过问题校验，则分析所述目标问题和答复文本数据的语义相关性，确定相关度信息，若所述相关度信息满足相关性校验，确定所述答复文本数据有效，能够基于相关度确定有效的答复，基于有效的答复文本数据，得到目标问题的分析结果，从问题的海量的答复中筛选出高质量答复

所述问题分析模块，用于按照问题类型对所述答复文本数据进行语言逻辑检测，确定各问题类型对应的问题分析结果。

所述问题分析模块，包括：重复分析子模块、拷贝分析子模块和通顺分析子模块，其中：

所述重复分析子模块，用于针对重复类型，对所述答复文本数据进行重叠词检测，确定重复类型的问题分析结果；

所述拷贝分析子模块，用于针对拷贝类型，采用所述答复文本数据与问题文本数据进行重复检测，确定拷贝类型的问题分析结果；

所述通顺分析子模块，用于针对通顺类型，对所述答复文本数据进行通顺度检测，确定通顺类型的问题分析结果。

所述重复分析子模块，用于基于统计语言模型对所述答复文本数据进行统计分析，确定重复文本的重复度；采用所述重复文本及重复度，生成重复类型的问题分析结果。

所述拷贝分析子模块，用于将所述答复文本数据与问题文本数据进行比对，确定重合文本的重合度；采用重合文本的重合度，生成拷贝类型的问题分析结果。

所述通顺分析子模块，用于基于自然语言模型对所述答复文本数据进行检测，确定所述答复文本数据的通顺度；依据所述答复文本数据的通顺度，生成通顺类型的问题分析结果。

所述相关性分析模块，用于将所述目标问题和答复文本数据输入到语义模型中进行分析，确定相关度信息；所述语义模型基于对比学习的语言模型训练。

还包括：

语义模型训练模块，用于预先收集问题数据、所述问题数据的相关答复文本数据、以及所述问题数据的不相关答复文本数据，作为训练数据；将所述训练数据输入到基于对比学习的语言模型中进行处理，得到对应的输出结果；依据所述输出结果确定损失函数，基于所述损失函数调整所述语言模型的参数。

反馈模块，用于获取所述有效的答复文本数据对应的资源数据，反馈所述资源数据给所述有效的答复文本数据对应的用户。

所述答复获取模块，用于若所述答复数据为文本数据，则将所述文本数据作为答复文本数据；若所述答复数据为语音数据，则对所述答复数据进行语音识别，将识别文本作为答复文本数据；若所述答复数据为图像数据，则对所述图像数据进行识别处理，将识别文本作为答复文本数据；若所述答复数据为视频数据，对所述视频数据进行识别处理，将识别文本作为答复文本数据。

改进模块，用于对有效的答复数据进行分析，提取改进建议信息；依据所述改进建议信息改进商品对象。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括服务器、终端设备等设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端等电子设备。图3示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置300。

对于一个实施例，图3示出了示例性装置300，该装置具有一个或多个处理器302、被耦合到(一个或多个)处理器302中的至少一个的控制模块(芯片组)304、被耦合到控制模块304的存储器306、被耦合到控制模块304的非易失性存储器(NVM)/存储设备308、被耦合到控制模块304的一个或多个输入/输出设备310，以及被耦合到控制模块304的网络接口312。

处理器302可包括一个或多个单核或多核处理器，处理器302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置300能够作为本申请实施例中所述服务端、终端等设备。

在一些实施例中，装置300可包括具有指令314的一个或多个计算机可读介质(例如，存储器306或NVM/存储设备308)以及与该一个或多个计算机可读介质相合并被配置为执行指令314以实现模块从而执行本公开中所述的动作的一个或多个处理器302。

对于一个实施例，控制模块304可包括任意适当的接口控制器，以向(一个或多个)处理器302中的至少一个和/或与控制模块304通信的任意适当的设备或组件提供任意适当的接口。

控制模块304可包括存储器控制器模块，以向存储器306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器306可被用于例如为装置300加载和存储数据和/或指令314。对于一个实施例，存储器306可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块304可包括一个或多个输入/输出控制器，以向NVM/存储设备308及(一个或多个)输入/输出设备310提供接口。

例如，NVM/存储设备308可被用于存储数据和/或指令314。NVM/存储设备308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备308可包括作为装置300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备308可通过网络经由(一个或多个)输入/输出设备310进行访问。

(一个或多个)输入/输出设备310可为装置300提供接口以与任意其他适当的设备通信，输入/输出设备310可以包括通信组件、音频组件、传感器组件等。网络接口312可为装置300提供接口以通过一个或多个网络通信，装置300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器302中的至少一个可与控制模块304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器302中的至少一个可与控制模块304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器302中的至少一个可与控制模块304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器302中的至少一个可与控制模块304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置300可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

本申请实施例还提供了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的方法。本申请实施例中存储器中可存储各种数据，如目标文件、文件与应用关联数据等各种数据，还可包括用户行为数据等，从而为各种处理提供数据基础。

本申请实施例还提供了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种内容分析方法、一种电子设备和一种存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种内容分析方法，其特征在于，所述方法包括：

基于有效的答复文本数据，得到所述目标问题的分析结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述答复文本数据进行文本文问题分析，确定对应的问题分析结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述按照问题类型对所述答复文本数据进行语言逻辑检测，确定各问题类型对应的问题分析结果，包括以下至少一种：

4.根据权利要求3所述的方法，其特征在于，所述对所述答复文本数据进行重叠词检测，确定重复类型的问题分析结果，包括：

5.根据权利要求3所述的方法，其特征在于，所述采用所述答复文本数据与问题文本数据进行重复检测，确定拷贝类型的问题分析结果，包括：

采用重合文本的重合度，生成拷贝类型的问题分析结果。

6.根据权利要求3所述的方法，其特征在于，所述对所述答复文本数据进行通顺度检测，确定通顺类型的问题分析结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述分析所述目标问题和答复文本数据的语义相关性，确定相关度信息，包括：

8.根据权利要求7所述的方法，其特征在于，还包括训练语义模型的步骤：

9.根据权利要求1所述的方法，其特征在于，还包括：

10.根据权利要求1所述的方法，其特征在于，所述确定所述答复数据对应的答复文本数据，包括以下至少一种：

若所述答复数据为图像数据，则对所述图像数据进行识别处理，将识别文本作为答复文本数据；

若所述答复数据为视频数据，对所述视频数据进行识别处理，将识别文本作为答复文本数据。

11.根据权利要求1所述的方法，其特征在于，还包括：

对有效的答复数据进行分析，提取改进建议信息；

依据所述改进建议信息改进商品对象。

12.一种电子设备，包括：处理器；

和存储器，其上存储有可执行代码，当所述可执行代码被处理器执行时，执行如权利要求1-11中任一项所述的方法。

13.一种机器可读介质，其上存储有可执行代码，当所述可执行代码被处理器执行时，执行如权利要求1-11中任一项所述的方法。