CN111209733B - 文本记录处理方法及装置 - Google Patents

文本记录处理方法及装置 Download PDF

Info

Publication number
CN111209733B
CN111209733B CN201811400953.1A CN201811400953A CN111209733B CN 111209733 B CN111209733 B CN 111209733B CN 201811400953 A CN201811400953 A CN 201811400953A CN 111209733 B CN111209733 B CN 111209733B
Authority
CN
China
Prior art keywords
entity
relationship
text
similarity
suspect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811400953.1A
Other languages
English (en)
Other versions
CN111209733A (zh
Inventor
王潇斌
谢朋峻
马春平
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811400953.1A priority Critical patent/CN111209733B/zh
Publication of CN111209733A publication Critical patent/CN111209733A/zh
Application granted granted Critical
Publication of CN111209733B publication Critical patent/CN111209733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种文本记录处理方法及装置。获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,提取第一文本记录中的第一文本内容;获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,提取第二文本记录中的第二文本内容,第二嫌疑人包括第一嫌疑人或所犯案件与第一嫌疑人所犯案件相关联的嫌疑人;根据第一文本内容和第二文本内容确定第一文本记录与第二文本记录之间的相似度。本申请无需办案人员通过人工对比来确定第一文本记录与第二文本记录之间的相似度,整个过程全部通过电子设备自动化完成,从而可以降低人工成本,且由于无需人工参与,进而可以提高确定第一文本记录与第二文本记录之间的相似度的效率。

Description

文本记录处理方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本记录处理方法及装置。
背景技术
嫌疑人在接受公安民警讯问的过程中有时候会在案件的关键信息上有意撒谎,企图欺骗民警,逃避惩罚,给讯问增加难度。
为了识别嫌疑人在讯问过程中是否撒谎,公安民警会对同一嫌疑人进行多次讯问,或者,对于与同一案件相关联的至少两个嫌疑人分别审讯,并在每一次的讯问过程中公安民警会人工记录嫌疑人交代的作案内容作为笔录,之后人工对比多份笔录是否相同来确定嫌疑人是否撒谎。
然而,发明人发现,当笔录中记录的作案内容较多时,往往需要安排多个公安民警人工对比多份笔录且每一个公安民警在对比笔录时需要耗费较多的精力,导致人工成本较高。
发明内容
为解决上述技术问题,本申请实施例示出了一种文本记录处理方法及装置。
第一方面,本申请实施例示出了一种文本记录处理方法,所述方法包括:
获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,提取所述第一文本记录中的第一文本内容;
获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,提取所述第二文本记录中的第二文本内容,所述第二嫌疑人包括第一嫌疑人或所犯案件与所述第一嫌疑人所犯案件相关联的嫌疑人;
根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度。
在一个可选的实现方式中,所述第一文本记录包括在讯问所述第一嫌疑人的当前询问过程中生成的当前口供文本记录;
所述第二文本记录包括在讯问所述第二嫌疑人的历史询问过程中生成的历史口供文本记录。
在一个可选的实现方式中,所述方法还包括:
如果所述相似度小于或等于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中存在撒谎的可能;
如果所述相似度大于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中不存在撒谎的可能。
在一个可选的实现方式中,所述方法还包括:
如果所述相似度小于或等于预设阈值,获取所述第一文本内容与所述第二文本内容之间不同的内容。
在一个可选的实现方式中,所述获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,包括:
获取在讯问所述第一嫌疑人的第一讯问过程中录制的第一录音;
对所述第一录音进行语音识别,得到所述第一文本记录。
在一个可选的实现方式中,所述提取所述第一文本记录中的第一文本内容,包括:
提取所述第一文本记录中的第一实体、所述第一实体之间的第一关系,以及基于所述第一实体和/或所述第一关系而发生的第一事件;
根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容,包括:
判断所述第一实体是否符合预设规范化描述规则;
如果所述第一实体不符合预设规范化描述规则,则将所述第一实体转换为符合规范化描述规则的规范实体;
根据所述规范实体、所述第一关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容,包括:
确定所述第一嫌疑人所犯的案件;
在所述案件的预设实体关系库中查找所述第一实体所涉及的、与所述第一关系不同的第三关系,所述预设实体关系库中存储了根据第二讯问过程而总结出的、触犯所述案件的各个实体之间的关系;
根据所述第一实体、所述第一关系、所述第三关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度,包括:
确定所述第一关系的关系类型与所述第二关系的关系类型是否相同;
如果所述第一关系的关系类型与所述第二关系的关系类型不同,则将所述相似度设置为第一相似度;
如果所述第一关系的关系类型与所述第二关系的关系类型相同,则确定所述第一实体与所述第二实体是否相同,如果所述第一实体与所述第二实体不同,则将所述相似度设置为所述第一相似度,如果所述第一实体与所述第二实体相同,则将所述相似度设置为第二相似度,所述第二相似度大于所述第一相似度。
在一个可选的实现方式中,所述根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度,包括:
根据所述第一实体、所述第一关系以及所述第一事件构建第一图谱;
根据所述第二实体、所述第二关系以及所述第二事件构建第二图谱;
确定所述第一图谱与所述第二谱图之间的相似度,并作为所述第一文本记录与所述第二文本记录之间的相似度。
第二方面,本申请实施例示出了一种文本记录处理装置,所述装置包括:
第一获取模块,用于获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,第一提取模块,用于提取所述第一文本记录中的第一文本内容;
第二获取模块,用于获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,第二提取模块,用于提取所述第二文本记录中的第二文本内容,所述第二嫌疑人包括第一嫌疑人或所犯案件与所述第一嫌疑人所犯案件相关联的嫌疑人;
第一确定模块,用于根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度。
在一个可选的实现方式中,所述第一文本记录包括在讯问所述第一嫌疑人的当前询问过程中生成的当前口供文本记录;
所述第二文本记录包括在讯问所述第二嫌疑人的历史询问过程中生成的历史口供文本记录。
在一个可选的实现方式中,所述装置还包括:
第二确定模块,用于如果所述相似度小于或等于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中存在撒谎的可能;
第三确定模块,用于如果所述相似度大于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中不存在撒谎的可能。
在一个可选的实现方式中,所述装置还包括:
第三获取模块,用于如果所述相似度小于或等于预设阈值,获取所述第一文本内容与所述第二文本内容之间不同的内容。
在一个可选的实现方式中,所述第一获取模块包括:
获取单元,用于获取在讯问所述第一嫌疑人的第一讯问过程中录制的第一录音;
识别单元,用于对所述第一录音进行语音识别,得到所述第一文本记录。
在一个可选的实现方式中,所述第一提取模块包括:
提取单元,用于提取所述第一文本记录中的第一实体、所述第一实体之间的第一关系,以及基于所述第一实体和/或所述第一关系而发生的第一事件;
第一确定单元,用于根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述第一确定单元包括:
判断子单元,用于判断所述第一实体是否符合预设规范化描述规则;
转换子单元,用于如果所述第一实体不符合预设规范化描述规则,则将所述第一实体转换为符合规范化描述规则的规范实体;
第一确定子单元,用于根据所述规范实体、所述第一关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述第一确定单元包括:
第二确定子单元,用于确定所述第一嫌疑人所犯的案件;
查找子单元,用于在所述案件的预设实体关系库中查找所述第一实体所涉及的、与所述第一关系不同的第三关系,所述预设实体关系库中存储了根据第二讯问过程而总结出的、触犯所述案件的各个实体之间的关系;
第三确定子单元,用于根据所述第一实体、所述第一关系、所述第三关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述第一确定模块包括:
第二确定单元,用于确定所述第一关系的关系类型与所述第二关系的关系类型是否相同;
第一设置单元,用于如果所述第一关系的关系类型与所述第二关系的关系类型不同,则将所述相似度设置为第一相似度;
第三确定单元,用于如果所述第一关系的关系类型与所述第二关系的关系类型相同,则确定所述第一实体与所述第二实体是否相同;所述第一设置单元还用于如果所述第一实体与所述第二实体不同,则将所述相似度设置为所述第一相似度,第二设置单元,用于如果所述第一实体与所述第二实体相同,则将所述相似度设置为第二相似度,所述第二相似度大于所述第一相似度。
在一个可选的实现方式中,所述第一确定模块包括:
第一构建单元,用于根据所述第一实体、所述第一关系以及所述第一事件构建第一图谱;
第二构建单元,用于根据所述第二实体、所述第二关系以及所述第二事件构建第二图谱;
第四确定单元,用于确定所述第一图谱与所述第二谱图之间的相似度,并作为所述第一文本记录与所述第二文本记录之间的相似度。
第三方面,本申请实施例示出了一种电子设备,所述电子设备包括:
处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如第一方面所述的文本记录处理方法。
第四方面,本申请实施例示出了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如第一方面所述的文本记录处理方法。
与现有技术相比,本申请实施例包括以下优点:
在本申请中,获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,提取第一文本记录中的第一文本内容;获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,提取第二文本记录中的第二文本内容,第二嫌疑人包括第一嫌疑人或所犯案件与第一嫌疑人所犯案件相关联的嫌疑人;根据第一文本内容和第二文本内容确定第一文本记录与第二文本记录之间的相似度。本申请无需办案人员通过人工对比来确定第一文本记录与第二文本记录之间的相似度,整个过程全部通过电子设备自动化完成,从而可以降低人工成本,且由于无需人工参与,进而可以提高确定第一文本记录与第二文本记录之间的相似度的效率。
附图说明
图1是根据一示例性实施例示出的一种文本记录处理方法的流程图。
图2是根据一示例性实施例示出的一种获取第一文本记录的方法的流程图。
图3是根据一示例性实施例示出的一种获取第一文本记录的方法的流程图。
图4是根据一示例性实施例示出的一种确定相似度的方法的流程图。
图5是根据一示例性实施例示出的另一种确定相似度的方法的流程图。
图6是根据一示例性实施例示出的一种图谱示意图。
图7是根据一示例性实施例示出的另一种图谱示意图。
图8是根据一示例性实施例示出的一种文本记录处理装置的框图。
图9是根据一示例性实施例示出的一种文本记录处理装置的框图
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
图1是根据一示例性实施例示出的一种文本记录处理方法的流程图,如图1所示,该方法应用于电子设备中,电子设备包括终端或服务器等,该方法包括以下步骤。
在步骤S101中,获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,提取第一文本记录中的第一文本内容;
第一文本记录包括在讯问第一嫌疑人的当前询问过程中生成的当前口供文本记录。
在本申请一实施例中,可以在对第一嫌疑人讯问时,可以设置一个录音设备,在讯问第一嫌疑人的第一讯问过程中,录音设备可以实时录制第一嫌疑人的第一录音,电子设备获取录音设备在讯问第一嫌疑人的第一讯问过程中录制的第一录音,然后对第一录音进行语音识别,得到第一文本记录,然后再提取第一文本记录中的第一文本内容,从而可以无需办案人员手动记录第一嫌疑人在第一讯问过程中的口供,降低办案人员的负担。
在本申请一实施例中,在提取第一文本记录中的第一文本内容时,可以通过如下流程实现,包括:
1011、提取第一文本记录中的第一实体、第一实体之间的第一关系,以及基于第一实体和/或第一关系而发生的第一事件;
在本申请中,可以事先准备多个样本文本记录,并标注样本文本记录中的样本实体、样本实体之间的样本关系以及基于样本实体和/或样本关系而发生的样本事件,并根据样本文本记录、样本实体、样本关系以及样本事件对预设神经网络模型进行训练,直至预设神经网络模型中的参数均收敛,从而得到用于根据文本记录得到文本记录中的实体、实体之间的关系以及基于实体和/或关系而发生的事件目标神经网络模型。
如此,在本步骤中,可以将第一文本记录输入至目标神经网络模型中,得到目标神经网络输出的第一实体、第一实体之间的第一关系,以及基于第一实体和/或第一关系而发生的第一事件。
其中,实体包括为文本记录中的人物、组织、时间以及地点等。
关系包括实体之间的同伙关系、夫妻关系、同学关系、父子关系以及兄弟姐妹关系等等。
1012、根据第一实体、第一关系以及第一事件确定第一文本内容。
在本申请一个实施例中,可以将第一实体、第一关系以及第一事件直接作为第一文本内容。
当然,也可以根据其他方式来根据第一实体、第一关系以及第一事件确定第一文本内容,具体可以参见如图2或图3所示的实施例,在此不做详述。
在步骤S102中,获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,提取第二文本记录中的第二文本内容;
第二文本记录包括在讯问第二嫌疑人的历史询问过程中生成的历史口供文本记录。
第二嫌疑人包括第一嫌疑人或所犯案件与第一嫌疑人所犯案件相关联的嫌疑人,与第一嫌疑人所犯案件相关联的嫌疑人包括与第一嫌疑人所犯案件相同的嫌疑人。
在本申请中,一个案件可能是由一个嫌疑人单独作案的,也可能是由多个嫌疑人合伙作案的。
在一个实施例中,如果第一嫌疑人是单独作案的,也即,第一嫌疑人没有同伙,则在本实施例中,第二嫌疑人为第一嫌疑人,在讯问第一嫌疑人的第一讯问过程之前,已对第一嫌疑人讯问了一次或多次,且每次讯问的过程中都会存储在讯问第一嫌疑人的讯问过程中生成的第二文本记录,因此,在本步骤中,可以直接获取已存储的讯问第一嫌疑人的第二讯问过程中生成的第二文本记录。
在另一个实施例中,如果第一嫌疑人是协同其他人合伙作案的,也即,第一嫌疑人具有同伙,则在本实施例中,第二嫌疑人可以为第一嫌疑人的作案同伙,在讯问第一嫌疑人的第一讯问过程之前,已对第一嫌疑人的作案同伙第二嫌疑人讯问了一次或多次,且每次讯问过程中都会存储在讯问第二嫌疑人的讯问过程中生成的第二文本记录,因此,在本步骤中,可以直接获取已存储的讯问第二嫌疑人的第二讯问过程中生成的第二文本记录。
其中,在本步骤中,可以参见步骤S101中的提取第一文本记录中的第一文本内容的具体方式来提取第二文本记录中的第二文本内容,在此不做详述。
在本申请中,可以先执行步骤S101和步骤S102,再执行步骤S103和步骤S104,也可以先执行步骤S103和步骤S104,再执行步骤S101和步骤S102。
在步骤S103中,根据第一文本内容和第二文本内容确定第一文本记录与第二文本记录之间的相似度。
其中,确定第一文本记录与第二文本记录之间的相似度的具体方法可以参见如图4或图5所示的实施例,在此不做详述。
其中,如果相似度小于或等于预设阈值,则确定第一嫌疑人在第一讯问过程中存在撒谎的可能。进一步地,还可以生成用于指示第一嫌疑人在第一讯问过程中存在撒谎的可能的指示信息,并通过麦克风播报该指示信息或在屏幕上显示该指示信息,以及时提示办案人员第一嫌疑人在第一讯问过程中存在撒谎的可能,进而可以使得办案人员及时分析第一嫌疑人是否撒谎,如果撒谎,并针对第一嫌疑人的撒谎行为采取相应措施。
进一步地,如果相似度小于或等于预设阈值,则获取第一文本内容与第二文本内容之间不同的内容,例如对第一文本内容和第二文本内容进行文本分析,分析出二者之间的不同的内容,之后可以并通过麦克风播报第一文本内容与第二文本内容之间不同的内容或在屏幕上显示第一文本内容与第二文本内容之间不同的内容,以使办案人员可以迅速获知第一文本内容与第二文本内容之间不同的内容,进而根据第一文本内容与第二文本内容之间不同的内容针对第一嫌疑人的撒谎行为采取相应措施。
或者,如果相似度大于预设阈值,则确定第一嫌疑人在第一讯问过程中不存在撒谎的可能。进一步地,还可以生成用于指示第一嫌疑人在第一讯问过程中不存在撒谎的可能的指示信息,并通过麦克风播报该指示信息或在屏幕上显示该指示信息,以及时提示办案人员第一嫌疑人在第一讯问过程中不存在撒谎的可能。
在本申请中,获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,提取第一文本记录中的第一文本内容;获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,提取第二文本记录中的第二文本内容,第二嫌疑人包括第一嫌疑人或所犯案件与第一嫌疑人所犯案件相关联的嫌疑人;根据第一文本内容和第二文本内容确定第一文本记录与第二文本记录之间的相似度。本申请无需办案人员通过人工对比来确定第一文本记录与第二文本记录之间的相似度,整个过程全部通过电子设备自动化完成,从而可以降低人工成本,且由于无需人工参与,进而可以提高确定第一文本记录与第二文本记录之间的相似度的效率。
在一种可能的情形中,同一嫌疑人在不同的讯问过程中,针对同一案件的口供,可能会使用不同的文字来表示同一实体。
或者,不同嫌疑人在不同的讯问过程中,针对同一案件的口供,可能使用不同的文字来表示同一实体。
例如,张三的哥哥叫张五,张三在第二讯问过程将张五称作张五,但是在昂奇案讯问过程中将张五称作张哥。
如此可能出现第一文本记录的第一实体与第二文本记录中存的第二实体事实上是同一实体,但描述第一实体的文字与描述第二实体的文字不同的情况,从而导致电子设备会认为第一实体与第二实体为不同的实体,进而导致在步骤S103中确定第一文本记录与第二文本记录之间的相似度时会误将第一文本记录与第二文本记录之间的相似度确定地较低,也即,导致确定出的第一文本记录与第二文本记录之间的相似度不准确。
因此,为了提高确定出的第一文本记录与第二文本记录之间的相似度的准确度,在另一实施例中,参见图2,步骤1012包括:
在步骤S201中,判断第一实体是否符合预设规范化描述规则;
其中,如果第二文本记录为本案的第一次讯问后得到的第一文本记录,则之后办案人员会对第一文本记录中的实体进行人工校正,以使矫正后的第一文本记录中的实体均符合预设规范化描述规则。例如,将口语化的张哥与嫌疑人确定之后校正为张五,或者将口语化的老李与嫌疑人确定之后校正为李四。
如果第二文本记录为本案的第一次讯问之后的一次讯问后得到的第二文本记录,则电子设备会根据校正后的第一文本记录对第二文本记录自动校正,以使矫正后的第二文本记录中的实体均符合预设规范化描述规则。之后每次为本案讯问之后得到一个文本记录,电子设备都会按照对第二文本记录的校正方式对得到的文本记录进行校正,以使校正后的文本记录中的实体均符合预设规范化描述规则。
如此,在本申请中,对于第一文本记录而言,第二本文记录中的实体均符合预设规范化描述规则。
在本申请一个实施例中,可以根据第二实体、第二事件、第一实体以及第一事件来确定第一实体是否符合预设规范化描述规则。
例如,假设第二讯问本文记录记录了张三的口供:张五诈骗了刘能3万元。第一讯问本文记录记录了张三的口供:老张诈骗了刘能3万元。
其中,由于第二讯问本文记录诈骗刘能的是张五,第一讯问本文记录诈骗刘能的是老张,同一案件中诈骗刘能三万元的是同一个人,因此张三口供中的老张应该为张五,也即,第一讯问本文记录中的第一实体老张不符合预设规范化描述规则,所以,可以将第一讯问本文记录中的老张校正为张五,以使校正后的第一讯问本文记录符合预设规范化描述规则。
如果第一实体不符合预设规范化描述规则,在步骤S202中,将第一实体转换为符合规范化描述规则的规范实体;
在步骤S203中,根据规范实体、第一关系以及第一事件确定第一文本内容。
在本申请中,可以将规范实体、第一关系以及第一事件作为第一文本内容。
在一种可能的情形中,同一嫌疑人在不同的讯问过程中,针对同一案件的口供,虽然未撒谎,但会隐瞒部分事实,例如,在第二讯问过程中交代了张三与张五是兄弟关系,但在第一讯问过程中并没有交代张三与张五是兄弟关系这一事实。
如此可能出现嫌疑人在第一讯问过程中虽然没有撒谎,但电子设备得到的第一文本记录与第二文本记录之间的文本内容在数量上差距较大,例如第二文本记录中的实体之间的关系包括第一文本记录中的实体之间的关系,但第一文本记录中的实体之间的关系少于第二文本记录中的实体之间的关系,进而导致在步骤S103中确定第一文本记录与第二文本记录之间的相似度时会误将第一文本记录与第二文本记录之间的相似度确定地较低,也即,导致确定出的第一文本记录与第二文本记录之间的相似度不准确。
因此,为了提高确定出的第一文本记录与第二文本记录之间的相似度的准确度,在另一实施例中,参见图3,步骤1012包括:
在步骤S301中,确定第一嫌疑人所犯的案件;
在步骤S302中,在案件的预设实体关系库中查找第一实体所涉及的、与第一关系不同的第三关系;
预设实体关系库中存储了根据第二讯问过程而总结出的、触犯该案件的各个实体之间的关系;
对于该案件,在第二过程中,讯问涉及该案件中的每一个嫌疑人时,电子设备就会确定嫌疑人交代的与该案件有关的各个实体之间的关系,进一步地还可以经办案人员人工与嫌疑人确定各个实体之间的关系的是否真实,然后在确定各个实体之间的关系的真实之后,电子设备就会将各个实体之间的关系存储在预设实体关系库中。
在步骤S303中,根据第一实体、第一关系、第三关系以及第一事件确定第一文本内容。
在本申请中,可以将一实体、第一关系、第三关系以及第一事件作为第一文本内容。
在本申请一个实施例中,参见图4,步骤S103可以通过如下流程实现,包括:
在步骤S401中,确定第一关系的关系类型与第二关系的关系类型是否相同;
其中,关系包括关系中的实体和关系类型,例如,文本记录中记录了张三和李四为夫妻,其中,实体包括张三和李四,张三与李四之间的关系类型为夫妻。再例如,文本记录中还记录了张三和张五为兄弟,其中,实体包括张三和张五,张三与张五之间的关系类型为兄弟。
第一关系包括第一关系的关系类型和第一实体,第二关系包括第二关系的类型和第二实体。本申请中可以根据第一关系的关系类型以及第二关系的关系类型,或,根据第一关系的关系类型、第二关系的关系类型、第一实体以及第二实体来确定第一文本记录与第二文本记录之间的相似度。
例如,可以首先确定第一关系的关系类型与第二关系的关系类型是否相同,如果第一关系的关系类型与第二关系的关系类型不同,则执行步骤S402,如果第一关系的关系类型与第二关系的关系类型相同,则执行步骤S403。
如果第一关系的关系类型与第二关系的关系类型不同,在步骤S402中,将第一文本记录与第二文本记录之间的相似度设置为第一相似度;
在本申请中,如果第一关系的关系类型与第二关系的关系类型不同,则说明第一文本内容和第二文本内容之间有不同之处,可以直接将第一文本记录与第二文本记录之间的相似度设置为较低的相似度,例如第一相似度,第一相似度可以为10%、15%或20%等,本申请对此不加以限定。
如果第一关系的关系类型与第二关系的关系类型相同,在步骤S403中,确定第一实体与第二实体是否相同;
在本申请中,如果第一关系的关系类型与第二关系的关系类型相同,进一步地还需要确定第一关系中包括的第一实体和第二关系中包括的第二实体是否相同,进而根据确定结果来设置第一文本记录与第二文本记录之间的相似度。
其中,如果第一实体与第二实体不同,则执行步骤S402,如果第一实体与第二实体相同,则执行步骤S404。
如果第一实体与第二实体不同,执行步骤S402:将第一文本记录与第二文本记录之间的相似度设置为第一相似度;
在本申请中,如果第一实体与第二实体不同,则说明第一文本内容和第二文本内容之间有不同之处,可以直接将第一文本记录与第二文本记录之间的相似度设置为较低的相似度,例如第一相似度,第一相似度可以为10%、15%或20%等,本申请对此不加以限定。
如果第一实体与第二实体相同,在步骤S404中,将第一文本记录与第二文本记录之间的相似度设置为第二相似度。
其中,第二相似度大于第一相似度。
在本申请中,如果第一实体与第二实体相同,则说明第一文本内容和第二文本内容之间没有不同之处,可以直接将第一文本记录与第二文本记录之间的相似度设置为较高的相似度,例如第二相似度,第二相似度可以为95%、90%或85%等,本申请对此不加以限定。
在本申请一个实施例中,参见图5,步骤S103可以通过如下流程实现,包括:
在步骤S501中,根据第一实体、第一关系以及第一事件构建第一图谱;
在本申请中,可以以第一实体为节点、以第一实体之间的第一关系为边、以第一事件的发生动作为边以及以第一事件的发生内容为节点构建第一图谱。
例如,在第一文本记录中,假设第一实体包括张三、李四、张五以及刘能,第一关系包括张三与李四之间的夫妻关系以及张三与张五之间的兄弟关系,第一事件包括张三和张五合伙诈骗刘能3万元。
如此,可以创建5个节点,分别为张三、李四、张五、刘能以及3万元,以及在张三与李四之间构建一条用于表示夫妻关系的边,在张三与张五之间构建一条用于表示兄弟关系的边,在张三与3万元之间构建一条用于表示张三诈骗3万元的动作的边,在张五与3万元之间构建一条用于表示张五诈骗3万元的动作的边,在刘能与3万元之间构建一条用于表示刘能被骗3万元的动作的边,其中,用于表示实体之间的关系的边为虚线,用于表示事件的发生动作的边为实线,从而得到如图6所示的第一图谱。
在步骤S502中,根据第二实体、第二关系以及第二事件构建第二图谱;
在本申请中,可以以第二实体为节点、以第二实体之间的第二关系为边、以第二事件的发生动作为边以及以第二事件的发生内容为节点构建第二图谱。
例如,在第二文本记录中,假设第二实体包括张三、李四、张五以及刘能,第二关系包括张三与李四之间的夫妻关系,张三与张五之间的兄弟关系以及张三与刘能之间的同事关系,第一事件包括张三借用刘能1万元。
如此,可以创建5个节点,分别为张三、李四、张五、刘能以及3万元,以及在张三与李四之间构建一条用于表示夫妻关系的边,在张三与张五之间构建一条用于表示兄弟关系的边,在张三与刘能之间构建一条用于表示同事关系的边,在张三与1万元之间构建一条用于表示张三借用1万元的动作的边,在刘能与1万元之间构建一条用于表示刘能出借1万元的动作的边,其中,用于表示实体之间的关系的边为虚线,用于表示事件的发生动作的边为实线,从而得到如图7所示的第二图谱。
在步骤S503中,确定第一图谱与第二谱图之间的相似度,并作为第一文本记录与第二文本记录之间的相似度。
在本申请中,可以计算第一图谱与第二图谱之间的编辑距离,编辑距离为将一个图谱转换为另一图谱的过程中,所需对该一个图片执行的操作的操作总代价,其中,对应图片执行每一个操作都有各自对应的操作代价,例如删除一个节点对应有操作代价,增加一个节点对应有操作代价,修改一个节点对应有操作代价,增加一条边对应有操作代价,删除一条边对应有操作代价,修改一条边对应有操作代价,可以计算将一个图谱转换为另一图谱的过程中,确定将执行的所有操作,然后计算每一个操作对应的操作代价的总和,可以将该总和的倒数作为一个图片与另一个图谱之间的相似度。
在将一个图谱转换为另一图谱的过程中,如果执行的操作越多,则说明两个图谱之间的不同之处越多,也即,两个图谱之间的相似度就越小,如果执行的操作越少,则说明两个图谱之间的不同之处越少,也即,两个图谱之间的相似度就越大。
在上述例子中,在将第一图谱转换为第二图谱的过程中,增加张三与刘能之间的用于表示同事关系的边,删除张五与3万元之间的用于表示张五诈骗3万元的动作的边,将张三与3万元之间的用于表示张三诈骗3万元的动作的边修改为用于表示张三借用3万元的动作的边,将刘能与3万元之间的用于表示刘能被骗3万元的动作的边修改为用于表示刘能出借3万元的动作的边,再将节点3万元改为1万元。
假设增加一条边对应有操作代价为1,删除一个节点对应有操作代价为1,修改一条边对应有操作代价为2,修改一个节点对应的操作代价为2,则执行的这些操作的操作总代价为8,将1/8作为第一图谱转换为第二图谱之间的相似度,并作为第一文本记录与第二文本记录之间的相似度。
图8是根据一示例性实施例示出的一种文本记录处理装置的框图,如图8所示,该装置包括:
第一获取模块11,用于获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,第一提取模块12,用于提取所述第一文本记录中的第一文本内容;
第二获取模块13用于获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,第二提取模块14,用于提取所述第二文本记录中的第二文本内容,所述第二嫌疑人包括第一嫌疑人或所犯案件与所述第一嫌疑人所犯案件相关联的嫌疑人;
第一确定模块15,用于根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度。
在一个可选的实现方式中,所述第一文本记录包括在讯问所述第一嫌疑人的当前询问过程中生成的当前口供文本记录;
所述第二文本记录包括在讯问所述第二嫌疑人的历史询问过程中生成的历史口供文本记录。
在一个可选的实现方式中,所述装置还包括:
第二确定模块,用于如果所述相似度小于或等于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中存在撒谎的可能;
第三确定模块,用于如果所述相似度大于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中不存在撒谎的可能。
在一个可选的实现方式中,所述装置还包括:
第三获取模块,用于如果所述相似度小于或等于预设阈值,获取所述第一文本内容与所述第二文本内容之间不同的内容。
在一个可选的实现方式中,所述第一获取模块11包括:
获取单元,用于获取在讯问所述第一嫌疑人的第一讯问过程中录制的第一录音;
识别单元,用于对所述第一录音进行语音识别,得到所述第一文本记录。
在一个可选的实现方式中,所述第一提取模块12包括:
提取单元,用于提取所述第一文本记录中的第一实体、所述第一实体之间的第一关系,以及基于所述第一实体和/或所述第一关系而发生的第一事件;
第一确定单元,用于根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述第一确定单元包括:
判断子单元,用于判断所述第一实体是否符合预设规范化描述规则;
转换子单元,用于如果所述第一实体不符合预设规范化描述规则,则将所述第一实体转换为符合规范化描述规则的规范实体;
第一确定子单元,用于根据所述规范实体、所述第一关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述第一确定单元包括:
第二确定子单元,用于确定所述第一嫌疑人所犯的案件;
查找子单元,用于在所述案件的预设实体关系库中查找所述第一实体所涉及的、与所述第一关系不同的第三关系,所述预设实体关系库中存储了根据第二讯问过程而总结出的、触犯所述案件的各个实体之间的关系;
第三确定子单元,用于根据所述第一实体、所述第一关系、所述第三关系以及所述第一事件确定所述第一文本内容。
在一个可选的实现方式中,所述第一确定模块15包括:
第二确定单元,用于确定所述第一关系的关系类型与所述第二关系的关系类型是否相同;
第一设置单元,用于如果所述第一关系的关系类型与所述第二关系的关系类型不同,则将所述相似度设置为第一相似度;
第三确定单元,用于如果所述第一关系的关系类型与所述第二关系的关系类型相同,则确定所述第一实体与所述第二实体是否相同;所述第一设置单元还用于如果所述第一实体与所述第二实体不同,则将所述相似度设置为所述第一相似度,第二设置单元,用于如果所述第一实体与所述第二实体相同,则将所述相似度设置为第二相似度,所述第二相似度大于所述第一相似度。
在一个可选的实现方式中,所述第一确定模块15包括:
第一构建单元,用于根据所述第一实体、所述第一关系以及所述第一事件构建第一图谱;
第二构建单元,用于根据所述第二实体、所述第二关系以及所述第二事件构建第二图谱;
第四确定单元,用于确定所述第一图谱与所述第二谱图之间的相似度,并作为所述第一文本记录与所述第二文本记录之间的相似度。
在本申请中,获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,提取第一文本记录中的第一文本内容;获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,提取第二文本记录中的第二文本内容,第二嫌疑人包括第一嫌疑人或所犯案件与第一嫌疑人所犯案件相关联的嫌疑人;根据第一文本内容和第二文本内容确定第一文本记录与第二文本记录之间的相似度。本申请无需办案人员通过人工对比来确定第一文本记录与第二文本记录之间的相似度,整个过程全部通过电子设备自动化完成,从而可以降低人工成本,且由于无需人工参与,进而可以提高确定第一文本记录与第二文本记录之间的相似度的效率。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的文本记录处理方法。本申请实施例中,所述电子设备包括服务器、网关、子设备等,子设备为物联网设备等设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括服务器(集群)、终端设备如IoT设备等电子设备。
图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1300。
对于一个实施例,图9示出了示例性装置1300,该装置具有一个或多个处理器1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(NVM)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310,以及被耦合到控制模块1306的网络接口1312。
处理器1302可包括一个或多个单核或多核处理器,处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1300能够作为本申请实施例中所述网关或控制器等服务器设备。
在一些实施例中,装置1300可包括具有指令1314的一个或多个计算机可读介质(例如,存储器1306或NVM/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。
对于一个实施例,控制模块1304可包括任意适当的接口控制器,以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。
控制模块1304可包括存储器控制器模块,以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例,存储器1306可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,控制模块1304可包括一个或多个输入/输出控制器,以向NVM/存储设备1308及(一个或多个)输入/输出设备1310提供接口。
例如,NVM/存储设备1308可被用于存储数据和/或指令1314。NVM/存储设备1308可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。
(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信,输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信,装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,装置1300可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1300可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
本申请实施例提供了一种电子设备,包括:一个或多个处理器;和,其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述处理器执行如本申请实施例中一个或多个所述的文本记录处理方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文本记录处理方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (18)

1.一种文本记录处理方法,其特征在于,所述方法包括:
获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,提取所述第一文本记录中的第一文本内容;
获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,提取所述第二文本记录中的第二文本内容,所述第二嫌疑人包括第一嫌疑人或所犯案件与所述第一嫌疑人所犯案件相关联的嫌疑人;
根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度;
所述提取所述第一文本记录中的第一文本内容,包括:
提取所述第一文本记录中的第一实体、所述第一实体之间的第一关系,以及基于所述第一实体和/或所述第一关系而发生的第一事件;
根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容。
2.根据权利要求1所述的方法,其特征在于,所述第一文本记录包括在讯问所述第一嫌疑人的当前询问过程中生成的当前口供文本记录;
所述第二文本记录包括在讯问所述第二嫌疑人的历史询问过程中生成的历史口供文本记录。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述相似度小于或等于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中存在撒谎的可能;
如果所述相似度大于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中不存在撒谎的可能。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述相似度小于或等于预设阈值,获取所述第一文本内容与所述第二文本内容之间不同的内容。
5.根据权利要求1所述的方法,其特征在于,所述获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,包括:
获取在讯问所述第一嫌疑人的第一讯问过程中录制的第一录音;
对所述第一录音进行语音识别,得到所述第一文本记录。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容,包括:
判断所述第一实体是否符合预设规范化描述规则;
如果所述第一实体不符合预设规范化描述规则,则将所述第一实体转换为符合规范化描述规则的规范实体;
根据所述规范实体、所述第一关系以及所述第一事件确定所述第一文本内容。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容,包括:
确定所述第一嫌疑人所犯的案件;
在所述案件的预设实体关系库中查找所述第一实体所涉及的、与所述第一关系不同的第三关系,所述预设实体关系库中存储了根据第二讯问过程而总结出的、触犯所述案件的各个实体之间的关系;
根据所述第一实体、所述第一关系、所述第三关系以及所述第一事件确定所述第一文本内容。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度,包括:
确定所述第一关系的关系类型与第二关系的关系类型是否相同;
如果所述第一关系的关系类型与所述第二关系的关系类型不同,则将所述相似度设置为第一相似度;
如果所述第一关系的关系类型与所述第二关系的关系类型相同,则确定所述第一实体与第二实体是否相同,如果所述第一实体与所述第二实体不同,则将所述相似度设置为所述第一相似度,如果所述第一实体与所述第二实体相同,则将所述相似度设置为第二相似度,所述第二相似度大于所述第一相似度。
9.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度,包括:
根据所述第一实体、所述第一关系以及所述第一事件构建第一图谱;
根据第二实体、第二关系以及第二事件构建第二图谱;
确定所述第一图谱与所述第二图谱之间的相似度,并作为所述第一文本记录与所述第二文本记录之间的相似度。
10.一种文本记录处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取在讯问第一嫌疑人的第一讯问过程中生成的第一文本记录,第一提取模块,用于提取所述第一文本记录中的第一文本内容;
第二获取模块,用于获取在讯问第二嫌疑人的第二讯问过程中生成的第二文本记录,第二提取模块,用于提取所述第二文本记录中的第二文本内容,所述第二嫌疑人包括第一嫌疑人或所犯案件与所述第一嫌疑人所犯案件相关联的嫌疑人;
第一确定模块,用于根据所述第一文本内容和所述第二文本内容确定所述第一文本记录与所述第二文本记录之间的相似度;
所述第一提取模块包括:
提取单元,用于提取所述第一文本记录中的第一实体、所述第一实体之间的第一关系,以及基于所述第一实体和/或所述第一关系而发生的第一事件;
第一确定单元,用于根据所述第一实体、所述第一关系以及所述第一事件确定所述第一文本内容。
11.根据权利要求10所述的装置,其特征在于,所述第一文本记录包括在讯问所述第一嫌疑人的当前询问过程中生成的当前口供文本记录;
所述第二文本记录包括在讯问所述第二嫌疑人的历史询问过程中生成的历史口供文本记录。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于如果所述相似度小于或等于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中存在撒谎的可能;
第三确定模块,用于如果所述相似度大于预设阈值,则确定所述第一嫌疑人在所述第一讯问过程中不存在撒谎的可能。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于如果所述相似度小于或等于预设阈值,获取所述第一文本内容与所述第二文本内容之间不同的内容。
14.根据权利要求10所述的装置,其特征在于,所述第一获取模块包括:
获取单元,用于获取在讯问所述第一嫌疑人的第一讯问过程中录制的第一录音;
识别单元,用于对所述第一录音进行语音识别,得到所述第一文本记录。
15.根据权利要求10所述的装置,其特征在于,所述第一确定单元包括:
判断子单元,用于判断所述第一实体是否符合预设规范化描述规则;
转换子单元,用于如果所述第一实体不符合预设规范化描述规则,则将所述第一实体转换为符合规范化描述规则的规范实体;
第一确定子单元,用于根据所述规范实体、所述第一关系以及所述第一事件确定所述第一文本内容。
16.根据权利要求10所述的装置,其特征在于,所述第一确定单元包括:
第二确定子单元,用于确定所述第一嫌疑人所犯的案件;
查找子单元,用于在所述案件的预设实体关系库中查找所述第一实体所涉及的、与所述第一关系不同的第三关系,所述预设实体关系库中存储了根据第二讯问过程而总结出的、触犯所述案件的各个实体之间的关系;
第三确定子单元,用于根据所述第一实体、所述第一关系、所述第三关系以及所述第一事件确定所述第一文本内容。
17.根据权利要求10所述的装置,其特征在于,所述第一确定模块包括:
第二确定单元,用于确定所述第一关系的关系类型与第二关系的关系类型是否相同;
第一设置单元,用于如果所述第一关系的关系类型与所述第二关系的关系类型不同,则将所述相似度设置为第一相似度;
第三确定单元,用于如果所述第一关系的关系类型与所述第二关系的关系类型相同,则确定所述第一实体与第二实体是否相同;所述第一设置单元还用于如果所述第一实体与所述第二实体不同,则将所述相似度设置为所述第一相似度,第二设置单元,用于如果所述第一实体与所述第二实体相同,则将所述相似度设置为第二相似度,所述第二相似度大于所述第一相似度。
18.根据权利要求10所述的装置,其特征在于,所述第一确定模块包括:
第一构建单元,用于根据所述第一实体、所述第一关系以及所述第一事件构建第一图谱;
第二构建单元,用于根据第二实体、第二关系以及第二事件构建第二图谱;
第四确定单元,用于确定所述第一图谱与所述第二图谱之间的相似度,并作为所述第一文本记录与所述第二文本记录之间的相似度。
CN201811400953.1A 2018-11-22 2018-11-22 文本记录处理方法及装置 Active CN111209733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811400953.1A CN111209733B (zh) 2018-11-22 2018-11-22 文本记录处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811400953.1A CN111209733B (zh) 2018-11-22 2018-11-22 文本记录处理方法及装置

Publications (2)

Publication Number Publication Date
CN111209733A CN111209733A (zh) 2020-05-29
CN111209733B true CN111209733B (zh) 2023-04-18

Family

ID=70788043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811400953.1A Active CN111209733B (zh) 2018-11-22 2018-11-22 文本记录处理方法及装置

Country Status (1)

Country Link
CN (1) CN111209733B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112468753B (zh) * 2020-11-20 2022-05-20 武汉烽火信息集成技术有限公司 一种基于音视频识别技术的笔录数据采集核查方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789482A (zh) * 2012-06-29 2012-11-21 安科智慧城市技术(中国)有限公司 一种利用口供识别嫌疑人的方法、系统及电子设备
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
JP6260979B1 (ja) * 2017-06-05 2018-01-17 クリスタルメソッド株式会社 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
CN108154096A (zh) * 2017-12-19 2018-06-12 科大讯飞股份有限公司 一种审讯资料的审查方法及装置
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050143629A1 (en) * 2003-06-20 2005-06-30 Farwell Lawrence A. Method for a classification guilty knowledge test and integrated system for detection of deception and information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789482A (zh) * 2012-06-29 2012-11-21 安科智慧城市技术(中国)有限公司 一种利用口供识别嫌疑人的方法、系统及电子设备
CN106448675A (zh) * 2016-10-21 2017-02-22 科大讯飞股份有限公司 识别文本修正方法及系统
JP6260979B1 (ja) * 2017-06-05 2018-01-17 クリスタルメソッド株式会社 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
CN108154096A (zh) * 2017-12-19 2018-06-12 科大讯飞股份有限公司 一种审讯资料的审查方法及装置
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周同革 ; .新技术在同步录音录像系统中的应用.中国高新技术企业.2016,(第09期),全文. *
姚春华 ; 刘潇 ; 高弘毅 ; 鄢秋霞 ; .基于句法语义特征的实体关系抽取技术.通信技术.2018,(第08期),全文. *

Also Published As

Publication number Publication date
CN111209733A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
US8144920B2 (en) Automated location estimation using image analysis
WO2017215370A1 (zh) 构建决策模型的方法、装置、计算机设备及存储设备
CN110275965B (zh) 假新闻检测方法、电子装置及计算机可读存储介质
EP3258397A1 (en) Text address processing method and apparatus
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
EP2608107A2 (en) System and method for fingerprinting video
CN111345011A (zh) App的推送方法、装置、电子设备及计算机可读存储介质
CN106959976B (zh) 一种搜索处理方法以及装置
WO2019153589A1 (zh) 消息数据处理方法、装置、计算机设备和存储介质
US20140215301A1 (en) Document template auto discovery
US9317887B2 (en) Similarity calculating method and apparatus
CN110019542B (zh) 企业关系的生成、生成组织成员数据库及识别同名成员
CN110990541A (zh) 一种实现问答的方法及装置
KR101724302B1 (ko) 특허분쟁예보장치 및 그 방법
CN111209733B (zh) 文本记录处理方法及装置
US11367311B2 (en) Face recognition method and apparatus, server, and storage medium
CN105955988B (zh) 信息搜索方法和装置
WO2021139480A1 (zh) Gis服务聚合方法、装置、计算机设备和存储介质
CN106611100B (zh) 一种用户行为分析方法和装置
CN105824871A (zh) 一种图片检测方法与设备
CN110879835A (zh) 基于区块链的数据处理方法、装置、设备及可读存储介质
EP3543882A1 (en) Method and system for identifying original data by using data order
CN104751033A (zh) 一种基于音视频文件的用户行为认证方法和装置
CN113449196B (zh) 信息生成方法及装置、电子设备和可读存储介质
CN106708872B (zh) 一种关联对象的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant