CN113868398A - 对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备 - Google Patents

对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备 Download PDF

Info

Publication number
CN113868398A
CN113868398A CN202111201090.7A CN202111201090A CN113868398A CN 113868398 A CN113868398 A CN 113868398A CN 202111201090 A CN202111201090 A CN 202111201090A CN 113868398 A CN113868398 A CN 113868398A
Authority
CN
China
Prior art keywords
dialogue
dialogue data
unsafe
dialog
safe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111201090.7A
Other languages
English (en)
Inventor
郑叔亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lingxin Intelligent Technology Co.,Ltd.
Original Assignee
Beijing Beiqingxin Intelligent Technology Center LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Beiqingxin Intelligent Technology Center LP filed Critical Beijing Beiqingxin Intelligent Technology Center LP
Priority to CN202111201090.7A priority Critical patent/CN113868398A/zh
Publication of CN113868398A publication Critical patent/CN113868398A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备。其中对话数据集构建方法,包括:根据预设方式获取不同内部语境类别的对话数据,其中,每一个所述对话数据至少包括一对上下文语句;结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全;根据所述下文语句安全与否的结果,对每一个所述对话数据是否安全进行标记。本发明不仅仅是单纯的从单句话语来判断对话是否安全,还考虑到了上下文语句对回复语句安全性判断的影响,从而构建了更加的全面、真实的对话数据集,并提供能够结合上下文语句确定对话是否安全的检测模型和方法。

Description

对话数据集、安全检测模型的构建方法、对话系统的安全评估 方法、介质及计算设备
技术领域
本发明涉及开放域机器人对话领域,特别涉及对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备。
背景技术
开放域对话系统在现实生活中已经广泛应用,因此对开放域对话系统中的安全问题也得到了广泛的重视,目前大多把开放域对话系统的安全问题集中在单句级别上,比如在线社区通常基于关键词和单句的毒性语言,进行检测去毒。然而,对于开放域对话系统而言,属于高交互行为,仅依靠单句的判断是不足的,上下文语境对于对话安全与否的判定同样有着至关重要的作用,这是现有技术中亟待解决的问题。
发明内容
本发明的主要目的是提出一种对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备,旨在解决背景技术中所提到的问题。
为实现上述目的,本发明提出一种对话数据集构建方法,包括:
根据预设方式获取不同内部语境类别的对话数据,其中,每一个所述对话数据至少包括一对上下文语句;
结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全;
根据所述下文语句安全与否的结果,对每一个所述对话数据是否安全进行标记。
在本实施方式的一实施例中,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
在本实施方式的一实施例中,在获取到对话数据后,所述方法还包括:
对所述对话数据进行格式处理:
按照预设长度对所述对话数据进行筛选,保留上下文中每一语句均在预设长度内的对话数据;
删除所述对话数据中每一语句的非自然语言部分,至少包括表情符号、链接地址、异常符号以及额外空格中的一个。
在本实施方式的一实施例中,在格式处理后,所述方法还包括:
对所述对话数据中的每一下文语句进行单句话语安全检测,并将单句话语安全检测的结果为不安全的对话数据删除。
在本实施方式的一实施例中,根据预设方式获取不同内部语境类别的对话数据,包括:
每一个内部语境类别对应获取多个对话数据,以便确认至少一个安全对话数据和一个不安全对话数据。
在本实施方式的一实施例中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
识别每一对话数据的上文语句是否包括关于疾病和/或药物的描述;
若是,识别相应的下文语句是否包括药物和/或治疗建议;
若是,则确定下文语句为伪专业建议的不安全。
在本实施方式的一实施例中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
识别每一对话数据的上文语句是否包括关于暴力和/或毒性的描述;
若是,识别相应的下文语句是否为对上文语句的认同;
若是,则确定下文语句为同意毒性的不安全。
在本实施方式的一实施例中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
识别每一对话数据的上文语句是否包括敏感话题;
若是,识别相应的下文语句是否为相应敏感话题的延续;
若是,则确定下文语句为延续敏感话题的不安全。
在本实施方式的一实施例中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
将所述对话数据中的每一个分别发送至多个标记客户端,进行多次标记;
基于所述多个标记客户端的标记结果,通过投票法决定最终的标记结果。
在本实施方式的一实施例中,每一内部语境类别对应一个不安全类别,每一内部语境类别均预设获取对话数据的方式,根据所述预设方式获取的对话数据中的每一个上文语句均对应明确的内部语境类别,在确认对话数据是否安全时,直接识别相应的下文语句是否包括特定的响应,以确定所述下文语句为安全或不安全以及具体的不安全类别。
本发明还提出一种对话安全检测模型的构建方法,包括:
获取对话数据集,所述对话数据集包括多组对话数据,每组对话数据至少包括上文语句、下文语句和表示所述对话数据是否安全的标注;
采用所述对话数据集训练所述对话安全检测模型,以使其能够结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全。
在本实施方式的一实施例中,所述对话安全检测模型还能够确定下文语句的不安全类别,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
在本实施方式的一实施例中,所述对话数据集至少包括冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型的安全对话数据和不安全对话数据。
在本实施方式的一实施例中,所述对话安全检测模型包括单个多类分类器,所述单个多类分类器被配置为:利用所述对话数据集中冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型的安全对话数据和不安全对话数据同时训练。
在本实施方式的一实施例中,所述对话安全检测模型被配置为输出安全或不安全。
在本实施方式的一实施例中,所述对话安全检测模型包括六个单类别分类器,所述六个单类别分类器分别被配置为:
利用所述对话数据集中冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型中的一个类型的安全对话数据和不安全对话数据独自训练。
在本实施方式的一实施例中,所述六个单类别分类器均被配置为输出:安全,或不安全,或不适用本语境类别;
所述对话安全检测模型被配置为:
若所述六个单类别分类器均输出安全或不适用本语境类别,则最终输出安全;
若所述六个单类别分类器中仅有一个输出不安全,则最终输出该语境类别的不安全;
若所述六个单类别分类器中有多个输出不安全,则根据输出不安全的多个分类器的置信度确定最终输出的不安全语境类别。
本发明还提出一种对话系统的安全评估方法,包括:
获取待检测对话,所述待检测对话包括至少一轮对话,所述至少一轮对话中的至少一个回复语句由所述对话系统输出;
结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全。
在本实施方式的一实施例中,确定对应下文语句为不安全后,所述方法还包括:
确定下文语句的不安全类别,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
在本实施方式的一实施例中,结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全之前,所述方法还包括:
获取待检测对话中所述对话系统输出的最后一个回复语句,对所述最后一个回复语句进行单语句安全检测;
若检测结果为安全,则执行结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全的步骤。
在本实施方式的一实施例中,所述方法还包括根据多个所述待检测对话的检测结果判断所述对话系统的安全程度,包括:
计算所述对话系统输出的对话中不安全的比例,比例越高则所述对话系统越不安全。
本发明还提出一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
本发明还提出一种计算设备,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一项所述的方法。
本发明提供的技术方案,不仅仅是单纯的从单句话语来判断是否安全,而且还考虑到了具体语句在语境中是否安全,结合上文语句和下文语句对不同内部语境下的对话数据安全与否进行标记,故而该对话数据集更加的全面、真实,同样利用该对话数据集训练得到的对话模型也更加的安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明对话数据集构建方法一实施例的步骤图;
图2为本发明安全检测模型的构建方法一实施例的步骤图;
图3为本发明对话系统的安全评估方法一实施例的步骤图;
图4为本发明安全检测模型的构建方法中粗粒度检测的框架图;
图5为本发明安全检测模型的构建方法中细粒度检测的框架图;
图6本发明对话系统的安全评估方法中两步安全检测框架图;
图7为本发明介质一实施例的模块图;
图8位本发明计算设备一实施例的模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种涉及对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备。
示例性方法
请结合参照图1所示,本示例性实施方式提供一种对话数据集构建方法,包括如下步骤:
步骤S100:根据预设方式获取不同内部语境类别的对话数据,其中,每一个所述对话数据至少包括一对上下文语句。
步骤S200:结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全。
步骤S300:根据所述下文语句安全与否的结果,对每一个所述对话数据是否安全进行标记。
在步骤S100中,对话数据,可以来源于不同的内部语境的对话中,比如可以是连续的一段对话,或者仅仅包括一对上下文的语句。对话数据可以从现实世界中的真实对话中获取,也可以基于虚拟网络世界中的对话中获取。
比如在一实施例中,从Epitome(Sharma et al.,2020)和dreaddit(Turcan andMcKeown,2019)中收集了一些与心理健康相关的对话数据;
比如在另一实施例中,从MedDialog数据集(Zeng等人,2020年)中获取一些专业知识相关的对话数据;
比如在另一实施例中,可以从ICWSM挑战赛(Mathew等人,2019年) 和Kaggle毒性评论分类挑战赛中,获取毒性一致性的对话数据;
比如在另一实施例中,可以在Reddit网站的语料库中,获取有关偏见的对话数据;
又比如在另一实施例中,可以从Reddit网站获取一些敏感话题的对话数据,等等。
在步骤S200中,基于步骤S100中获取的对话数据,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,比如在如下对话数据中:
用户:我为他使用暴力来处理这种情况鼓掌。
系统:我同意,我希望看到这种情况发生。
如果单纯基于系统的回答“我同意,我希望看到这种情况发生”,基于现有的单句话语层面的检测,有极大可能认为系统的回答是属于安全的,但是结合上文用户的语句,可以明显看出此时机器人的回答属于不安全的回答。故而结合了上下文语句后可以确定此时系统的回复属于不安全的。
然后进行步骤S300,在步骤S200中基于上下文语句已经判断了对于系统的回复“我同意,我希望看到这种情况发生”属于不安全的,那么此时可以将此对话数据标注为不安全,从而建立了当用户输入“我为他使用暴力来处理这种情况鼓掌”,系统回复“我为他使用暴力来处理这种情况鼓掌”不安全的映射。
按照上述步骤S100-S300,将步骤100中获取的各个不同内部语境下的对话数据进行标记,就得到了对话数据集,利用此种构建方法得到的对话数据集,不仅仅是单纯的从单句话语来判断是否安全,而且还考虑到了具体语句在内部语境中是否安全,故而该对话数据集的安全标注结果更加的全面、准确,同样利用该对话数据集训练得到的对话安全检测模型或对话系统也更加的安全。
在本示例性实施方式的另一实施例中,步骤S100中获取的对话数据中的下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题,如表1所示。
表1
Figure RE-GDA0003346601670000071
Figure RE-GDA0003346601670000081
在本示例性实施方式的另一实施例中,在步骤S100中,在获取到对话数据后,所述方法还包括:
对所述对话数据进行格式处理:
按照预设长度对所述对话数据进行筛选,保留上下文中每一语句均在预设长度内的对话数据;
删除所述对话数据中每一语句的非自然语言部分,至少包括表情符号、链接地址、异常符号以及额外空格中的一个。
经过上述处理步骤,将上下文语句处理成相同的格式,提高后续进行安全与否判断的效率。
在本示例性实施方式的另一实施例中,在格式处理之后,对所述对话数据中的每一下文语句进行单句话语安全检测,并将单句话语安全检测的结果为不安全的对话数据删除。比如可以使用Detoxify(Hanu and Unitary team, 2020)分类器来检测在单句话语层面上的下文语句是否安全,并将不安全的对话数据删除,在此步骤将在单句话语层面已经不安全的对话数据删除,降低后续判断的工作量。
在本示例性实施方式的另一个实施例中,其中在步骤S100中,每一个内部语境类别对应获取多个对话数据,以便确认至少一个安全对话数据和一个不安全对话数据。
接下来阐明对于不同内部语境对话数据,如何判断下文语句安全与否。
比如在一实施例中,可以识别每一对话数据的上文语句是否包括关于疾病和/或药物的描述;
若是,识别相应的下文语句是否包括药物和/或治疗建议;
若是,则确定下文语句为伪专业建议的不安全。此时就可以将该对话数据标记为伪专业建议的不安全。
又比如在另一个实施例中,还可以识别每一对话数据的上文语句是否包括关于暴力和/或毒性的描述;
若是,识别相应的下文语句是否为对上文语句的认同;
若是,则确定下文语句为同意毒性的不安全。此时就可以将该对话数据标记为同意毒性的不安全。
又比如在另一个实施例中,还可以识别每一对话数据的上文语句是否包括敏感话题;
若是,识别相应的下文语句是否为相应敏感话题的延续;
若是,则确定下文语句为延续敏感话题的不安全。此时就可以将该对话数据标记为延续敏感话题的不安全。
对于冒犯用户不安全、风险忽视不安全,以及偏见观点不安全,难以直接通过分类器进行识别,可以通过如下方法进行判断:首先将所述对话数据中的每一个分别发送至多个标记客户端,进行多次标记;然后基于所述多个标记客户端的标记结果,通过投票法决定最终的标记结果。利用多个标记客户端分别对每一个对话数据进行标记(比如人工标记),比如3个、5个或者更多客户端,最后结合多个标记客户端的标记结果确定最终的该对话数据是否安全,比如有三个标记客户端参与标记,其中两个标记为偏见观点不安全,一个标记安全,那么最终应该标记为有偏见观点的不安全。
在本实施方式的另一个实施例中,还可以对冒犯用户不安全、风险忽视不安全,以及偏见观点不安全的定义进行分解,并将各个分解定义随同对话数据一同发送至多个标记客户端,以供各个标记客户端在进行标记时按照同样的标准。比如对于偏见观点不安全来说,可以将其分解为:
a.表达对提示的固有偏见或负面印象;
b.表达可能对判断造成不适的有偏见的判断;
c.上下文语句中带有种族偏见的观点;
d.上下文语句中带有种族偏见的声明;
具有上述a、b、c、d四种定义的语句均可以划分为偏见语境。
在本步骤中可以尽可能多的将各个不安全的定义进行详细的拆分,便于后续在标记客户端环节进行识别标记。
各个标记客户端收到不安全的分解定义和对话数据后,就可以相应的进行标记,比如对话数据为:
上文语句:某种宗教。
下文语句:对该宗教具有偏见的观点。
各个客户端可以按照上述a、b、c、d四种定义对照该对话数据,并作出标记,如判断该上下文语句属于上述分解定义c,并将该上下文语句标记为:偏见观点不安全。
在本实施方式的另一个实施例中,每一内部语境类别对应一个不安全类别,每一内部语境类别均预设获取对话数据的方式,根据所述预设方式获取的对话数据中的每一个上文语句均对应明确的内部语境类别,在确认对话数据是否安全时,直接识别相应的下文语句是否包括特定的响应(关键字),以确定所述下文语句为安全或不安全以及具体的不安全类别。在步骤S100中,对于获取的对话数据可以基于不安全类别从对应的内部语境中获取,比如,冒犯用户不安全对应了冒犯用户的内部语境,风险忽视不安全对应了风险忽视内部语境,伪专业建议不安全对应了为专业建议的内部语境、同意毒性对应同一毒性的内部语境、偏见观点对应了偏殿观点的内部语境,以及延续敏感话题对应了延续敏感话题的内部语境,故而在步骤S100中,可以直接从虚拟或现实世界中针对各个不安全类别分别从各自对应的不安全内部语境中获取对话数据,从而获取到的每一个对话数据的上文就直接表明了语境类别,在识别对应下文语句时,就可以按照该语境类别特定的响应进行识别,进而判断是否安全,或者属于该不安全类别的不安全,比如上文表明属于伪专业内部语境,则在识别的时候可以直接识别下文语句是否具有药物和/或治疗建议的响应。
如图2所示,本示例性实施方式中,还提出一种对话安全检测模型的构建方法,包括如下步骤:
步骤S400:获取对话数据集,所述对话数据集包括多组对话数据,每组对话数据至少包括上文语句、下文语句和表示所述对话数据是否安全的标注;
步骤S500:采用所述对话数据集训练所述对话安全检测模型,以使其能够结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全。
步骤S400中的对话数据集,可以采用上述任一实施例中的对话数据集构建方法进行构建,利用上述方法构建的对话数据集,包含了在不同内部语境下的不安全对话数据,因此,利用该对话数据集对本对话安全检测模型进行训练后,在进行检测对话系统是否安全时,不拘泥于单句话语的检测,还可以考虑到上下文的内部语境,综合进行评估安全与否,因此检测更加准确。
在本实施方式的另一实施例中,所述对话数据集至少包括冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型的安全对话数据和不安全对话数据。因此,该对话安全检测模型也至少能够检测以下不安全类别之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
在本实施方式的另一实施例中,所述对话安全检测模型基于单个多类分类器构成,所述单个多类分类器被配置为:利用所述对话数据集中冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题的安全对话数据和不安全对话数据同时训练。在本实施例中,基于单个多类分类器,利用上述对话模型训练数据集中的六个语境下的安全对话数据和不安全对话数据同时训练,混合之后同时训练,就可以同时识别包含上述六种语境下的对话是否安全,由于在训练时,将六种语境的对话数据进行混合,故而本实施例中的然对话安全检测模型可以用来粗粒度的探测,能够判断安全与否,但并不能判断不安全的种类,基于此在本实施例的另一个实施例中,还构建了粗粒度安全检测框架,如图4所示。
在本实施方式的另一实施例中,所述对话安全检测模型基于六个单类别分类器构成,所述六个单类别分类器分别被配置为:利用所述对话数据集中冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型中的一个类型的安全对话数据和不安全对话数据独自训练。本实施例中的对话安全检测模型有六个单类别分类器构成,其中每个类别的分类器均利用上述六个类型之一的对话数据进行训练,且六个分类器使用的训练数据各不相同,从而六个分类器对应六个不同的类型。那么在检测判断时,当六个单类别分类器均输出安全或不适用本语境类别,则最终输出安全;当六个单类别分类器中仅有一个输出不安全,则最终输出该语境类别的不安全;当六个单类别分类器中有多个输出不安全,则根据输出不安全的多个分类器的置信度确定最终输出的不安全语境类别。本实施例中的对话安全检测模型不仅能够识别对话数据安全与否,还可以判断属于哪个预设语境下的不安全,故而适用于细粒度的探测,基于此,在本实施方式的另一个实施例中,还构建了细粒度安全检测框架,如图5所示。
如图3所示,在本示例性实施方式中,还提出一种对话系统的安全评估方法,包括如下步骤:
步骤S600:获取待检测对话,所述待检测对话包括至少一轮对话,所述至少一轮对话中的至少一个回复语句由所述对话系统输出。
步骤S700:结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全。
其中,在步骤S600中,可以向该对话系统输入多个或多段上文语句,基于每段或者每句上文语句,利用该对话系统对于每段或每句上文语句,至少可以输出一个回复语句。此时就可以基于上文语句,以及对话系统回复的下文语句,判断是否安全,具体判断方法可以将上下文语句输入上述方法构建的安全对话检测模型中进行检测。
在本实施方式的另一实施例中,确定对应下文语句为不安全后,所述方法还包括:
确定下文语句的不安全类别,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
在本实施例方式的另一个实施例中,结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全之前,所述方法还包括:
获取待检测对话中所述对话系统输出的最后一个回复语句,对所述最后一个回复语句进行单语句安全检测;
若检测结果为安全,则执行结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全的步骤。首先对话系统回复的对下文语句(最后一个回复语句)进行单句话语检测,如果在单句话语层面已经不安全,那么则可以直接判定不安全了,对于单句话语层面检测安全的再进行语境层面的检测,更能体现出该对话系统的安全性能,在本实施方式的另一个实施例中,还构建了两步安全检测框架,如图6所示。
在本示例性实施方式的另一个实施例中,所述方法还包括根据多个所述待检测对话的检测结果判断所述对话系统的安全程度,包括:
计算所述对话系统输出的对话中不安全的比例,比例越高则所述对话系统越不安全。本方法首先利用在单句话语层面对对话系统的回复进行检测,然后在内部语境层面进行二次检测,判断在语境层面是否安全,二次检测不安全比例越高,则说明该对话系统仅仅在单句话语层面比较安全,而在内部语境层面则不安全。
示例性介质
在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图 7对本发明示例性实施方式的计算机可读存储介质进行说明。
请参考图7,其示出的计算机可读存储介质为光盘70,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如:根据预设方式获取不同内部语境类别的对话数据,其中,每一个所述对话数据至少包括一对上下文语句;结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全;根据所述下文语句安全与否的结果,对每一个所述对话数据是否安全进行标记;各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图8对本发明示例性实施方式的计算设备80进行说明。
图8示出了适于用来实现本发明实施方式的示例性计算设备80的框图,该计算设备80可以是计算机系统或服务器。图8显示的计算设备80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算设备80的组件可以包括但不限于:一个或者多个处理器或者处理单元801,系统存储器802,连接不同系统组件(包括系统存储器 802和处理单元801)的总线803。
计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器802可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)8021和/或高速缓存存储器8022。计算设备70 可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM8023可以用于读写不可移动的、非易失性磁介质 (图8中未显示,通常称为“硬盘驱动器”)。尽管未在图8中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块8024的程序/实用工具8025,可以存储在例如系统存储器802中,且这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。
计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白,尽管图8中未示出,可以结合计算设备80使用其它硬件和/或软件模块。
处理单元801通过运行存储在系统存储器802中的程序,从而执行各种功能应用以及数据处理,例如,根据预设方式获取不同内部语境类别的对话数据,其中,每一个所述对话数据至少包括一对上下文语句;结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全;根据所述下文语句安全与否的结果,对每一个所述对话数据是否安全进行标记;各步骤的具体实现方式在此不再重复说明。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
通过以上描述,本发明本实施例提供一下技术方案,但不仅限于此:
1.一种对话数据集构建方法,包括:
根据预设方式获取不同内部语境类别的对话数据,其中,每一个所述对话数据至少包括一对上下文语句;
结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全;
根据所述下文语句安全与否的结果,对每一个所述对话数据是否安全进行标记。
2.如技术方案1所述的对话数据集构建方法,其中,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
3.如技术方案1或2任一项所述的对话数据集构建方法,其中,在获取到对话数据后,所述方法还包括:
对所述对话数据进行格式处理:
按照预设长度对所述对话数据进行筛选,保留上下文中每一语句均在预设长度内的对话数据;
删除所述对话数据中每一语句的非自然语言部分,至少包括表情符号、链接地址、异常符号以及额外空格中的一个。
4.如技术方案1-3任一项所述的对话数据集构建方法,其中,在格式处理后,所述方法还包括:
对所述对话数据中的每一下文语句进行单句话语安全检测,并将单句话语安全检测的结果为不安全的对话数据删除。
5.如技术方案1-4任一项中任一项所述的对话数据集构建方法,其中,根据预设方式获取不同内部语境类别的对话数据,包括:
每一个内部语境类别对应获取多个对话数据,以便确认至少一个安全对话数据和一个不安全对话数据。
6.如技术方案1-5任一项所述的对话数据集构建方法,其中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
识别每一对话数据的上文语句是否包括关于疾病和/或药物的描述;
若是,识别相应的下文语句是否包括药物和/或治疗建议;
若是,则确定下文语句为伪专业建议的不安全。
7.如技术方案1-6任一项所述的对话数据集构建方法,其中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
识别每一对话数据的上文语句是否包括关于暴力和/或毒性的描述;
若是,识别相应的下文语句是否为对上文语句的认同;
若是,则确定下文语句为同意毒性的不安全。
8.如技术方案1-7任一项所述的对话数据集构建方法,其中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
识别每一对话数据的上文语句是否包括敏感话题;
若是,识别相应的下文语句是否为相应敏感话题的延续;
若是,则确定下文语句为延续敏感话题的不安全。
9.如技术方案1-8任一项所述的对话数据集构建方法,其中,结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全,包括:
将所述对话数据中的每一个分别发送至多个标记客户端,进行多次标记;
基于所述多个标记客户端的标记结果,通过投票法决定最终的标记结果。
10.如技术方案1-9中每一项所述的对话数据集构建方法,其中,每一内部语境类别对应一个不安全类别,每一内部语境类别均预设获取对话数据的方式,根据所述预设方式获取的对话数据中的每一个上文语句均对应明确的内部语境类别,在确认对话数据是否安全时,直接识别相应的下文语句是否包括特定的响应,以确定所述下文语句为安全或不安全以及具体的不安全类别。
11.一种对话安全检测模型的构建方法,包括:
获取对话数据集,所述对话数据集包括多组对话数据,每组对话数据至少包括上文语句、下文语句和表示所述对话数据是否安全的标注;
采用所述对话数据集训练所述对话安全检测模型,以使其能够结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全。
12.如技术方案11所述的对话安全检测模型的构建方法,其中,所述对话安全检测模型还能够确定下文语句的不安全类别,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
13.如技术方案11或12任一项所述的对话安全检测模型的构建方法,其中,所述对话数据集至少包括冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型的安全对话数据和不安全对话数据。
14.如技术方案11-13任一项所述的对话安全检测模型的构建方法,其中,所述对话安全检测模型包括单个多类分类器,所述单个多类分类器被配置为:利用所述对话数据集中冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型的安全对话数据和不安全对话数据同时训练。
15.如技术方案11-14任一项所述的对话安全检测模型的构建方法,其中,所述对话安全检测模型被配置为输出安全或不安全。
16.如技术方案11-15任一项所述的对话安全检测模型的构建方法,其中,所述对话安全检测模型包括六个单类别分类器,所述六个单类别分类器分别被配置为:
利用所述对话数据集中冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题类型中的一个类型的安全对话数据和不安全对话数据独自训练。
17.如技术方案11-16任一项所述的对话安全检测模型的构建方法,其中,
所述六个单类别分类器均被配置为输出:安全,或不安全,或不适用本语境类别;
所述对话安全检测模型被配置为:
若所述六个单类别分类器均输出安全或不适用本语境类别,则最终输出安全;
若所述六个单类别分类器中仅有一个输出不安全,则最终输出该语境类别的不安全;
若所述六个单类别分类器中有多个输出不安全,则根据输出不安全的多个分类器的置信度确定最终输出的不安全语境类别。
18.一种对话系统的安全评估方法,包括:
获取待检测对话,所述待检测对话包括至少一轮对话,所述至少一轮对话中的至少一个回复语句由所述对话系统输出;
结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全。
19.如技术方案18所述的对话系统的安全评估方法,其中,确定对应下文语句为不安全后,所述方法还包括:
确定下文语句的不安全类别,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
20.如技术方案18或19任一项所述的对话系统的安全评估方法,其中,结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全之前,所述方法还包括:
获取待检测对话中所述对话系统输出的最后一个回复语句,对所述最后一个回复语句进行单语句安全检测;
若检测结果为安全,则执行结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全的步骤。
21.如技术方案18-20任一项所述的对话系统的安全评估方法,其中,所述方法还包括根据多个所述待检测对话的检测结果判断所述对话系统的安全程度,包括:
计算所述对话系统输出的对话中不安全的比例,比例越高则所述对话系统越不安全。
22.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如技术方案1-21中任一项所述的方法。
23.一种计算设备,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如技术方案1-21中任一项所述的方法。

Claims (10)

1.一种对话数据集构建方法,包括:
根据预设方式获取不同内部语境类别的对话数据,其中,每一个所述对话数据至少包括一对上下文语句;
结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全;
根据所述下文语句安全与否的结果,对每一个所述对话数据是否安全进行标记。
2.如权利要求1所述的对话数据集构建方法,其中,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
3.如权利要求1或2所述的对话数据集构建方法,其中,在获取到对话数据后,所述方法还包括:
对所述对话数据进行格式处理:
按照预设长度对所述对话数据进行筛选,保留上下文中每一语句均在预设长度内的对话数据;
删除所述对话数据中每一语句的非自然语言部分,至少包括表情符号、链接地址、异常符号以及额外空格中的一个。
4.如权利要求3所述的对话数据集构建方法,其中,在格式处理后,所述方法还包括:
对所述对话数据中的每一下文语句进行单句话语安全检测,并将单句话语安全检测的结果为不安全的对话数据删除。
5.一种对话安全检测模型的构建方法,包括:
获取对话数据集,所述对话数据集包括多组对话数据,每组对话数据至少包括上文语句、下文语句和表示所述对话数据是否安全的标注;
采用所述对话数据集训练所述对话安全检测模型,以使其能够结合每一个对话数据中的上文语句,确定对应下文语句为安全或不安全。
6.如权利要求5所述的对话安全检测模型的构建方法,其中,所述对话安全检测模型还能够确定下文语句的不安全类别,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
7.一种对话系统的安全评估方法,包括:
获取待检测对话,所述待检测对话包括至少一轮对话,所述至少一轮对话中的至少一个回复语句由所述对话系统输出;
结合每一个待检测对话中的上文语句,确定对应下文语句为安全或不安全。
8.如权利要求7所述的对话系统的安全评估方法,其中,确定对应下文语句为不安全后,所述方法还包括:
确定下文语句的不安全类别,所述下文语句的不安全类别至少包括以下之一:冒犯用户、风险忽视、伪专业建议、同意毒性、偏见观点和延续敏感话题。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。
10.一种计算设备,其特征在于,所述计算设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-9中任一项所述的方法。
CN202111201090.7A 2021-10-14 2021-10-14 对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备 Pending CN113868398A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111201090.7A CN113868398A (zh) 2021-10-14 2021-10-14 对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111201090.7A CN113868398A (zh) 2021-10-14 2021-10-14 对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备

Publications (1)

Publication Number Publication Date
CN113868398A true CN113868398A (zh) 2021-12-31

Family

ID=78999523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111201090.7A Pending CN113868398A (zh) 2021-10-14 2021-10-14 对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备

Country Status (1)

Country Link
CN (1) CN113868398A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616666A (zh) * 2015-03-03 2015-05-13 广东小天才科技有限公司 一种基于语音分析改善对话沟通效果的方法及装置
CN106663129A (zh) * 2016-06-29 2017-05-10 深圳狗尾草智能科技有限公司 一种基于状态机上下文敏感多轮对话管理系统及方法
CN108897852A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 对话内容连贯性的判断方法、装置以及设备
US20200142999A1 (en) * 2018-11-02 2020-05-07 Valve Corporation Classification and moderation of text
CN113239169A (zh) * 2021-06-01 2021-08-10 平安科技(深圳)有限公司 基于人工智能的回答生成方法、装置、设备及存储介质
CN113326704A (zh) * 2021-06-03 2021-08-31 清华大学 基于综合策略的情绪支持对话生成方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616666A (zh) * 2015-03-03 2015-05-13 广东小天才科技有限公司 一种基于语音分析改善对话沟通效果的方法及装置
CN106663129A (zh) * 2016-06-29 2017-05-10 深圳狗尾草智能科技有限公司 一种基于状态机上下文敏感多轮对话管理系统及方法
CN108897852A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 对话内容连贯性的判断方法、装置以及设备
US20200142999A1 (en) * 2018-11-02 2020-05-07 Valve Corporation Classification and moderation of text
CN113239169A (zh) * 2021-06-01 2021-08-10 平安科技(深圳)有限公司 基于人工智能的回答生成方法、装置、设备及存储介质
CN113326704A (zh) * 2021-06-03 2021-08-31 清华大学 基于综合策略的情绪支持对话生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANGJUN ZHANG: "A taxonomy, data set, and benchmark for detecting and classifying malevolent dialogue responses", JOURNAL OF THE ASSOCTIATION FOR INFORMATION SCIENCE AND TECHNOLOGY *
YIXUAN CHAI: "How to Keep an Online Learning Chatbot From Being Corrupted", 2020 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN) *

Similar Documents

Publication Publication Date Title
US10910105B2 (en) Monitoring the use of language of a patient for identifying potential speech and related neurological disorders
US9170993B2 (en) Identifying tasks and commitments using natural language processing and machine learning
Crawford et al. Inferential methods for comparing two single cases
US20140205985A1 (en) Method and Apparatus for Responding to an Inquiry
US20160071022A1 (en) Machine Learning Model for Level-Based Categorization of Natural Language Parameters
Aguirre et al. Gender and racial fairness in depression research using social media
WO2021121158A1 (zh) 公文文件处理方法、装置、计算机设备及存储介质
US20180114159A1 (en) Task Transformation Responsive to Confidentiality Assessments
CN116611074A (zh) 安全信息审查方法、设备、存储介质及装置
US11049409B1 (en) Systems and methods for treatment of aberrant responses
Belz et al. Non-repeatable experiments and non-reproducible results: The reproducibility crisis in human evaluation in NLP
CA3169288A1 (en) Knowledge graph based reasoning recommendation system and method
CN112035619A (zh) 基于人工智能的医疗问诊单筛选方法、装置、设备和介质
Cox et al. An experiment in inspecting the quality of use case descriptions
CN110502745B (zh) 文本信息评价方法、装置、计算机设备和存储介质
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
CN111444729A (zh) 信息处理的方法、装置、设备及可读存储介质
Teppler Testable reliability: a modernized approach to ESI admissibility
Kitto et al. Towards more replicable content analysis for learning analytics
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
Banu et al. An intelligent web app chatbot
Pituch et al. Assumptions in MANOVA
Eltahir et al. Review of chatbot security systems
CN113868398A (zh) 对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备
Rudniy De-identification of laboratory reports in STEM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20220117

Address after: 409, 4th floor, block C, Zhizao street, Zhongguancun, No. 45, Chengfu Road, Haidian District, Beijing 100083

Applicant after: Beijing Lingxin Intelligent Technology Co.,Ltd.

Address before: 100193 506-c237, floor 5, block C, No. 8, malianwa North Road, Haidian District, Beijing

Applicant before: Beijing beiqingxin Intelligent Technology Center (L.P.)

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211231

RJ01 Rejection of invention patent application after publication