CN108376178B

CN108376178B - 一种异常访谈记录文本的确定方法及装置

Info

Publication number: CN108376178B
Application number: CN201810239374.7A
Authority: CN
Inventors: 徐振中; 肖依永; 苑星龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2020-08-11
Anticipated expiration: 2038-03-22
Also published as: CN108376178A

Abstract

本申请实施例提供了一种异常访谈记录文本的确定方法及装置，其中，该方法包括：获取每位待评价目标对应的访谈记录文本集，所述访谈记录文本集包括多条访谈记录文本；计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度；基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常。本申请实施例提高了确定出异常访谈文本的效率。

Description

一种异常访谈记录文本的确定方法及装置

技术领域

本申请涉及文本检测技术领域，具体而言，涉及一种异常访谈记录文本的确定方法及装置。

背景技术

在禁毒领域，缉毒专干负责某一片区域戒毒人员的心理访谈。期间是定期进行访谈询问，及时了解戒毒人员的心里状态。但是实际操作过程中，缉毒专干会伪造访谈的文本数据，这样无法及时了解戒毒人员的心里状态，会给戒毒人员家庭和社会造成极大的隐患。

现有的检测该异常数据的手段主要是通过人工识别，但是人工识别的难度较大，准确率较低，而且效率也很低。

发明内容

有鉴于此，本申请的目的在于提供一种异常访谈记录文本的确定方法及装置，以提高确定异常访谈记录文本的效率。

第一方面，本申请实施例提供了一种异常访谈记录文本的确定方法，包括：

获取每位待评价目标对应的访谈记录文本集，所述访谈记录文本集包括多条访谈记录文本；

计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度；

基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，所述计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度，包括：

基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换，得到该任意一条访谈记录文本的访谈向量；

计算任意两个访谈向量之间的余弦值，通过所述余弦值来记录所述任意两个访谈记录向量之间的相似度。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，所述基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换之前，还包括：

对所述任意一条访谈记录文本进行分词处理；

过滤掉进行分词处理后的所述任意一条访谈记录文本中的停用词，得到关键词。

结合第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，所述基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换，包括：

对于所述任意一条访谈记录文本，依次将该任意一条访谈记录文本中的各关键词转换为对应的数字信息；

基于依次转换得到的所述数字信息，生成该任意一条访谈记录文本对应的访谈向量。

结合第一方面，本申请实施例提供了第一方面的第四种可能的实施方式，所述基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常，包括：

根据所述访谈记录文本集个数以及每一访谈记录文本集包含的访谈记录文本条数，获取访谈记录文本总条数；

基于所述总条数、每个所述访谈记录文本集中两两访谈记录文本之间的相似度，确定所有访谈记录文本集的总平均分值；

基于任意一个访谈记录文本集中的访谈记录文本条数，以及该访谈记录文本集中两两访谈记录文本之间的相似度，确定所述任意一个访谈记录文本集的平均分值；

若访谈记录文本集的平均分值大于所述总平均分值，确定该访谈记录文本集中所有访谈记录文本均为异常文本。

第二方面，本申请实施例提供了一种异常访谈记录文本的确定装置，包括：

获取模块，用于获取每位待评价目标对应的访谈记录文本集，所述访谈记录文本集包括多条访谈记录文本；

计算模块，用于计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度；

确定模块，用于基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，所述计算模块，具体用于：

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，所述计算模块在基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换之前，还用于：

对所述任意一条访谈记录文本进行分词处理；

结合第二方面的第二种可能的实施方式，本申请实施例提供了第二方面的第三种可能的实施方式，所述计算模块，具体用于：

结合第二方面，本申请实施例提供了第二方面的第四种可能的实施方式，所述确定模块，具体用于：

与现有技术中相比，本申请实施例通过获取每位待评价目标对应的访谈记录文本集，所述访谈记录文本集包括多条访谈记录文本；计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度；基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常。

可见，本申请实施例是通过计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度，基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，自动地确定每位所述目标的访谈记录文本集是否异常，比通过人工一一检查每条访谈记录文本是否异常大大提高了效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种异常访谈记录文本的确定方法流程示意图；

图2示出了本申请实施例所提供的计算任意两条访谈记录文本之间的相似度的方法流程图；

图3示出了本申请实施例所提供的一种访谈记录文本的处理方法流程图；

图4示出了本申请实施例所提供的一种访谈记录文本的向量转换方法流程示意图；

图5示出了本申请实施例所提供的确定访谈记录本文集中的异常文本流程示意图；

图6示出了本申请实施例所提供的一种异常访谈记录文本的确定装置结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

如图1所示，本申请实施例提供了一种异常访谈记录文本的确定方法，具体包括以下步骤S100～S120：

S100，获取每位待评价目标对应的访谈记录文本集，访谈记录文本集包括多条访谈记录文本。

其中，这里的目标可以是指具有某种专门职业的人员，比如缉毒专干，本申请实施例中以目标为缉毒专干进行说明，这里的访谈记录文本则为缉毒专干对戒毒人员的心理访谈记录文本。

S110，计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度。

具体地，步骤S110中的计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度，如图2所示，具体包括如下步骤S200～S210：

S200，基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换，得到该任意一条访谈记录文本的访谈向量。

一种较佳地实施方式，在本申请实施例1提出的技术方案中，在步骤S200之前，如图3所示，该方法还包括以下步骤S300～S310：

S300，对任意一条访谈记录文本进行分词处理。

对于西方语言来说，词和词之间具有明确的分界符，进行统计或者在此基础上使用语言模型都比较直接，但是对于中文访谈记录文本来说，词语与词语之间并没有明确的分界符，因此必须对访谈记录文本进行分词，这样才可以做进一步的文本处理。

S310，过滤掉进行分词处理后的所述任意一条访谈记录文本中的停用词，得到关键词。

对访谈记录文本进行分词后，往往存在一些区分度并不高的词，例如介词、连词和标点符号，为了更好的衡量访谈记录文本的相似度，需要在分词的基础上进行去除停用词，得到关键词，比如，一条访谈记录文本为“我非常喜欢这里的环境。”，在进行分词处理后就变为“我非常喜欢这里的环境。”，在去除停用词后就变为了“我喜欢环境”。

一种较佳地实施方式，在本申请实施例1提出的技术方案中，如图4所示，步骤S200中的基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换，包括以下步骤S400～S410：

S400，对于任意一条访谈记录文本，依次将该任意一条访谈记录文本中的各关键词转换为对应的数字信息。

S410，基于依次转换得到的数字信息，生成该任意一条访谈记录文本对应的访谈向量。

比如，可以按照预设的向量转换模型，将访谈记录文本转换为访谈向量，在上述访谈记录文本“我喜欢环境”中，可以将“我”变为对应的数字4，将“喜欢”变为对应的数字5，将“环境”变为对应的数字8，从而将“我喜欢环境”变为访谈向量“(4,5,8)”。

S210，计算任意两个访谈向量之间的余弦值，通过余弦值来记录任意两个访谈记录向量之间的相似度。

比如，第一位缉毒专干中的两个访谈向量分别为A和B，且A和B均为n维向量，则这两个访谈向量的余弦相似度可以通过以下公式1进行计算：

其中，Similarity是指访谈向量A和访谈向量B之间的余弦相似度，表示访谈向量A和访谈向量B之间的余弦值cos(θ)，n为访谈向量A和访谈向量B的维度，i为访谈向量A和访谈向量B之间的各个分量的序号。

S120，基于访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位目标的访谈记录文本集是否异常。

具体地，如图5所示，步骤S120中的基于访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常，包括以下步骤S500～S530：

S500，根据访谈记录文本集个数以及每一访谈记录文本集包含的访谈记录文本条数，获取访谈记录文本总条数。

比如，有三位缉毒专干，则对应三个访谈记录文本集，第一个访谈记录文本集中包括3条访谈记录文本，第二个访谈记录文本集中包括2条访谈记录文本，第三个访谈记录文本集中也包括2条访谈记录文本，则访谈记录文本总条数为三个访谈记录文本集中的所有访谈记录文本的总和即7条。

S510，基于总条数、每个访谈记录文本集中两两访谈记录文本之间的相似度，确定所有访谈记录文本集的总平均分值。

具体地，所有访谈记录文本集的总平均值通过以下公式(2)和公式(2)进行计算：

AVE＝Score/num； (2)

其中，公式(1)中，Score表示所有访谈记录文本集的总分值；m为缉毒专干数量，n为每一位缉毒专干访谈记录数量；AVE表示所有访谈记录文本集的总平均分值；num表示所有访谈记录文本集包含的总访谈记录文本条数；s_ij表示每位缉毒专干的访谈记录文本集中的访谈记录文本之间的相似度，这里的访谈记录文本之间的相似度即为该访谈记录文本对应的访谈向量之间的相似度。

假设存在三明缉毒专干a，b，c；a缉毒专干有3条访谈记录a₁,a₂,a₃；b缉毒专干有2两条访谈记录b₁,b₂；c缉毒专干有2条访谈记录c₁,c₂。

将每个缉毒专干的访谈记录作相似度衡量，也就是说把a缉毒专干的a₁,a₂相似度记作s₁₁，a₁,a₃的相似度记作s₁₂，以此得到s₁₁,s₁₂,s₁₃，同理计算得到b的访谈记录相似度s₂₁，c的访谈记录记作s₃₁。

S520，基于任意一个访谈记录文本集中的访谈记录文本条数，以及该访谈记录文本集中两两访谈记录文本之间的相似度，确定任意一个访谈记录文本集的平均分值。

具体地，确定任意一个访谈记录文本集的平均分值通过以下公式(3)和公式(4)进行计算：

ave＝score/n； (4)

其中，score表示待评价的缉毒专干的访谈记录文本集的总分值；s_j表示该待评价的缉毒专干的访谈记录文本中两两访谈记录文本的相似度；ave表示该待评价的缉毒专干的访谈记录文本集的平均分值。

S530，若访谈记录文本集的平均分值大于总平均分值，确定该访谈记录文本集中所有访谈记录文本均为异常文本。

具体地，在确定了各个待评价缉毒专干的平均分值和所有缉毒专干的总平均分值后，再比较平均分值和总平均分值的大小关系，若ave>AVE，则确定该待评价缉毒专干的访谈记录文本集中所有访谈记录文本均为异常文本。

这里，将所有缉毒专干的访谈记录进行相似度衡量后，基于所有缉毒专干的访谈记录的总数确定总体缉毒专干的访谈记录相似度平均值，针对任意一位缉毒专干，如果该任意一位缉毒专干进行访谈评论造假，比如其访谈记录均偏好或者偏坏，则该任意一位缉毒专干的访谈评论的相似度平均值就会大于总体缉毒专干的访谈记录相似度平均值，故可以通过比较一个缉毒专干对应的访谈记录文本集的平均分值与所有缉毒专干的所有访谈记录集的总平均分值的大小来确定这一个缉毒专干对应的访谈记录文本集是否异常。

实施例2

本申请实施例2提供了一种异常访谈记录文本的确定装置，如图6所示，包括：

获取模块601，用于获取每位待评价目标对应的访谈记录文本集，该访谈记录文本集包括多条访谈记录文本。

计算模块602，用于计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度。

确定模块603，用于基于访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位目标的访谈记录文本集是否异常。

可选地，计算模块602，具体用于：

基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换，得到该任意一条访谈记录文本的访谈向量。

计算任意两个访谈向量之间的余弦值，通过余弦值来记录所述任意两个访谈记录向量之间的相似度。

可选地，计算模块602在基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换之前，还用于：

对任意一条访谈记录文本进行分词处理。

过滤掉进行分词处理后的任意一条访谈记录文本中的停用词，得到关键词。

可选地，计算模块602，具体用于：

对于任意一条访谈记录文本，依次将该任意一条访谈记录文本中的各关键词转换为对应的数字信息。

可选地，确定模块603，具体用于：

根据访谈记录文本集个数以及每一访谈记录文本集包含的访谈记录文本条数，获取访谈记录文本总条数。

基于总条数、每个访谈记录文本集中两两访谈记录文本之间的相似度，确定所有访谈记录文本集的总平均分值。

基于任意一个访谈记录文本集中的访谈记录文本条数，以及该访谈记录文本集中两两访谈记录文本之间的相似度，确定任意一个访谈记录文本集的平均分值。

若访谈记录文本集的平均分值大于总平均分值，确定该访谈记录文本集中所有访谈记录文本均为异常文本。

本申请实施例所提供的进行一种异常访谈记录文本的确定方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本申请实施例所提供的一种异常访谈记录文本的确定装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种异常访谈记录文本的确定方法，其特征在于，包括：

基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常；

所述基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常，包括：

2.根据权利要求1所述的方法，其特征在于，所述计算每位待评价的目标对应的访谈记录文本集中的两两访谈记录文本之间的相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换之前，还包括：

对所述任意一条访谈记录文本进行分词处理；

4.根据权利要求3所述的方法，其特征在于，所述基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换，包括：

5.一种异常访谈记录文本的确定装置，其特征在于，包括：

确定模块，用于基于所述访谈记录文本集个数、每个访谈记录文本集中的访谈记录文本条数以及每个访谈记录文本集中两两访谈记录文本之间的相似度，确定每位所述目标的访谈记录文本集是否异常；

所述确定模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述计算模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述计算模块在基于预设的相似度衡量模型，对任意一条访谈记录文本进行向量转换之前，还用于：

对所述任意一条访谈记录文本进行分词处理；

8.根据权利要求7所述的装置，其特征在于，所述计算模块，具体用于：