CN113435182A - 自然语言处理中分类标注的冲突检测方法、装置和设备 - Google Patents

自然语言处理中分类标注的冲突检测方法、装置和设备 Download PDF

Info

Publication number
CN113435182A
CN113435182A CN202110824967.1A CN202110824967A CN113435182A CN 113435182 A CN113435182 A CN 113435182A CN 202110824967 A CN202110824967 A CN 202110824967A CN 113435182 A CN113435182 A CN 113435182A
Authority
CN
China
Prior art keywords
statement
sentences
sentence
sample data
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110824967.1A
Other languages
English (en)
Inventor
林嘉良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vipshop Guangzhou Software Co Ltd
Original Assignee
Vipshop Guangzhou Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vipshop Guangzhou Software Co Ltd filed Critical Vipshop Guangzhou Software Co Ltd
Priority to CN202110824967.1A priority Critical patent/CN113435182A/zh
Publication of CN113435182A publication Critical patent/CN113435182A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种自然语言处理中分类标注的冲突检测方法、装置、设备和存储介质,获取待检测的标注语句集;将待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出两个语句的相似度值;其中相似度检测模型是采用语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;当相似度值大于或等于预设阈值时,判断两个语句的分类标注是否相同;当两个语句的分类标注不相同时,则判定两个语句为第一分类标注冲突语句。该方法一方面能快速地确定标注冲突语句。另一方面在计算语句相似度时采用的相似度检测模型由孪生网络模型或双塔网络模型训练得到的,该模型能大大提高相似度计算的准确性,从而提高了检测结果的准确性。

Description

自然语言处理中分类标注的冲突检测方法、装置和设备
技术领域
本申请涉及数据处理技术领域,具体涉及一种自然语言处理中分类标注的冲突检测方法、装置和设备。
背景技术
随着计算机科学和人工智能不断发展,人机互动已经广泛地应用于人类生活的各方面,例如,智能设备和网上购物。对于智能设备,用户可以采用语音控制智能设备开启、关闭等。而在网上购物用户需要了解商品信息时可以向智能机器人客服发送问题,智能机器人客户给出相应的答案,这些都是一种人机互动方式。
自然语言处理(Natural Language Processing,NLP)以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科。即自然语言处理就是在机器语言和人类语言之间沟通的桥梁,是人机互动的基础。在对自然语言处理时,通常采用有监督式处理方法,数据(即语句或句子)标注是有监督式处理方法中非常关键的步骤,标注质量直接关系着处理的结果。然而,对于自然语言处理任务而言,由于语言表达非常灵活加上本身存在很多含糊的表达,并且标注人员主观理解能力不同,很容易将一些相同或相似的语句标注不同的标签,从而造成标注冲突。下面展示了智能客服机器人意图分类标注任务中一些语句标注冲突的样例,假设有一个语句“我的里面怎么没有这个真空棒”,智能客服机器人A将其标注为“漏发”标签,而智能客服机器人B将其标注为“其他”标签,从而造成同一语句具有不同标签的冲突局面。
当具有冲突标注语句大量存在于语料库中,将会对模型的训练产生负面影响,最终导致模型预测的准确度降低。然而,目前对于标注冲突的问题,一则只能采用人工反复核查的方法进行语句标注校验,但是这种方法不仅效率低下,并且很大程度上并不能有效地解决语句标注冲突问题;二则简单地使用文本编辑距离等方法来代表两个句子的相似度,然后将所有相似度很高但标签不一致的数据对作为冲突数据组,但是这种方法往往并不能从语义的层面上来找出真正冲突的标注语句。
申请内容
有鉴于此,本申请实施例中提供了一种自然语言处理中分类标注的冲突检测方法、装置、设备和存储介质。
第一方面,本申请实施例提供了一种自然语言处理中分类标注的冲突检测方法,该方法包括:
获取待检测的标注语句集;
将所述待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出两个所述语句的相似度值;其中所述相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;
当所述相似度值大于或等于预设阈值时,判断两个所述语句的分类标注是否相同;
当两个所述语句的分类标注不相同时,则判定两个所述语句为第一分类标注冲突语句。
第二方面,本申请实施例提供了一种自然语言处理中分类标注的冲突检测装置,该装置包括:
标注语句集获取模块,用于获取待检测的标注语句集;
相似度值计算模块,用于将所述待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出所述语句的相似度值;其中所述相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;
第一判断模块,用于当所述相似度值大于或等于预设阈值时,判断两个所述语句的分类标注是否相同;
第一判定模块,用于当两个所述语句的分类标注不相同时,则判定两个所述语句为第一分类标注冲突语句。
第三方面,本申请实施例提供了一种终端设备,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的自然语言处理中分类标注的冲突检测方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的自然语言处理中分类标注的冲突检测方法。
本申请实施例提供的自然语言处理中分类标注的冲突检测方法、装置、设备和存储介质,首先获取待检测的标注语句集;其中,标注语句集中包括有语句,并且每个语句被采用标注信息(例如标签等)进行了分类标注;然后将待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出两个语句的相似度值;其中相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;在计算得到两个语句的相似度值之后将相似度值与预设阈值进行比较,当相似度值大于或等于预设阈值时,说明两个语句是表达相同或相似意思的语句,然后来判断两个语句的分类标注是否相同;当两个语句的分类标注不相同时,说明两个相同或相似意思的语句被分成不同的分类,那么此时则判定两个语句为第一分类标注冲突语句。
该冲突检测方法首先采用相似度检测模型来快速地判断出表达相同或相似意思的语句,然后根据语句的分类标注来判断表达相同或相似意思的语句是否同属一个类别,如果不是同一个类别,则将表达相同或相似意思的语句判定为第一分类标注冲突语句。该方法一方面能快速地确定标注冲突语句。
另一方面在计算语句相似度时采用的相似度检测模型由孪生网络模型或双塔网络模型训练得到的,该模型能大大提高相似度计算的准确性,从而提高了检测结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的自然语言处理中分类标注的冲突检测方法的应用场景示意图;
图2为本申请一个实施例提供的自然语言处理中分类标注的冲突检测方法的流程示意图;
图3为本申请一个实施例提供的相似度检测模型训练方法的流程示意图;
图4为本申请一个实施例提供的孪生网络结构示意图;
图5为本申请一个实施例提供的采用相似度检测模型进行分类标注的冲突检测的流程示意图;
图6为本申请一个实施例提供的采用翻译冲突检测进行分类标注的冲突检测的流程示意图;
图7为本申请一个实施例提供的冲突检测方法的框架图;
图8为本申请一个实施例提供的自然语言处理中分类标注的冲突检测装置的结构图;
图9为本申请一个实施例中提供的终端设备的结构示意图;
图10为本申请一个实施例中提供的计算机可读存储介质的结构示意图。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更详细说明本申请,下面结合附图对本申请提供的一种自然语言处理中分类标注的冲突检测方法、装置、终端设备和计算机存储介质,进行具体地描述。
请参考图1,图1示出了本申请实施例提供的自然语言处理中分类标注的冲突检测方法的应用场景的示意图,该应用场景包括本申请实施例提供的终端设备100,终端设备100可以是具有显示屏的各种电子设备(如102、104、106和108的结构图),包括但不限于智能手机和计算机设备,其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。用户对终端设备100进行操作,发出自然语言处理中分类标注的冲突检测操作指示,终端设备100执行本申请的自然语言处理中分类标注的冲突检测方法,具体过程请参照自然语言处理中分类标注的冲突检测方法实施例。
其次,终端设备100可以泛指多个终端设备中的一个,本实施例仅以终端设备100来举例说明。本领域技术人员可以知晓,上述终端设备的数量可以更多或更少。比如上述终端设备可以仅为几个,或者上述终端设备为几十个或几百个,或者更多数量,本申请实施例对终端设备的数量和类型不加以限定。终端设备100可以用来执行本申请实施例中提供的一种自然语言处理中分类标注的冲突检测方法。
在一种可选的实施方式中,该应用场景包括本申请实施例提供的终端设备100之外,还可以包括服务器,其中服务器与终端设备之间设置有网络。网络用于在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。其中,终端设备通过网络与服务器交互,以接收或发送消息等。服务器可以是提供各种服务的服务器。其中服务器可以用来执行本申请实施例中提供的一种自然语言处理中分类标注的冲突检测方法的步骤。此外,终端设备在执行本申请实施例中提供的一种自然语言处理中分类标注的冲突检测方法时,可以将一部分步骤在终端设备执行,一部分步骤在服务器执行,在这里不进行限定。
基于此,本申请实施例中提供了一种自然语言处理中分类标注的冲突检测方法。请参阅图2,图2示出了本申请实施例提供的一种自然语言处理中分类标注的冲突检测方法的流程示意图,以该方法应用于图1中的终端设备为例进行说明,包括以下步骤:
步骤S110,获取待检测的标注语句集。
其中,待检测的标注语句集是指需要进行分类标注检测的、包含一系列语句的集合,其中每个语句就有分类标注,即每个语句都进行了分类标注,即采用了标注信息进行了标注。标注信息是一种用来对语句的分类与类别进行标记的信息,通常是一种标签。例如有一语句A:货品漏发了,其分类标注为:漏发。
可选地,语句的类型可以是多种的,包括陈述句、疑问句、感叹句等等。此外,为了区分语句来源,可以按照语句发出的主体分为用户问句(即由用户发出的语句)、客服语句(即由客服回复的语句)等。
在本实施例中,待检测的标注语句集可以是网站平台(例如从电商平台(如唯品会))获得语句,以及分类标注而形成的集合。
步骤S120,将待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出两个语句的相似度值。
其中相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的。
进一步地,给出了一种模型训练的具体实施方式,描述如下:
在一种实施例中,请参照图3所示,相似度检测模型通过以下方法获得:
步骤S210,获取语句样本数据,对语句样本数据进行标记,得到标记的语句样本数据。步骤S220,将标记的语句样本数据输入孪生网络模型或双塔网络模型,计算损失函数。
步骤S230,根据损失函数更新孪生网络模型或双塔网络模型的网络参数直至网络收敛,获得相似度检测模型。
具体地,模型训练就是给定输入向量和目标输出值,然后将输入向量输入到一个或多个网络结构或函数来求得实际输出值,并根据目标输出值和实际输出值来计算偏量,并判断偏量是否在容许范围内;若在容许范围内,则训练结束并固定相关参数;若不在容许范围内,不断去调整网络结构或函数中的一些参数,直至在偏量在容许范围内或达到了某一结束条件时,训练结束并固定相关参数,最后根据固定的相关参数即可得到训练完成的模型。而在本实施例中,语句样本数据输入孪生网络模型或双塔网络模型,计算损失函数,更新网络参数直至网络收敛,获得相似度检测模型。
其中,语句样本数据通常是从网络平台中获得一些历史语句数据,例如可以是唯品会客服对话产生的语句。通常情况下,语句样本数据越多,其训练的模型更加精确;但语句样本数据太多会降低模型训练的速度。因此,在实际应用中,选择合适数量的语句样本数据即可,但在准备语句样本数据时尽可能使样本多样化。其中在准备语句样本数据时可以建立数据训练集,将语句样本数据存储至数据训练集中。
此外,标记的语句样本数据是指对语句样本数据进行标记,一般情况下,就是对语句样本数据进行相似和非相似进行标记。可选地,可以采用标签来对语句样本数据进行相似和非相似进行标记。
在一种可选的实施方式中,在采用标签来对语句样本数据进行相似和非相似进行标记时可以将相似的语句标记为正样本,将不相似(或非相似)的语句标记为负样本。
另外,孪生网络模型以及双塔网络模型的结构比较类似,都是可以分类输入层、表示层和匹配层,其中输入层用来输入两个样本(例如两个语句、两张图像),而表示层通常是由两个神经网络组成,分别对输入的两个样本进行特征提取,而匹配层主要用于计算输入的两个样本的相似度或匹配度。
对于孪生网络模型而言,两个神经网络通常是相同的,并且在模型训练时采用同一套变量参数,并且两个神经网络可以共享权重。
而对于双塔网络模型来说,两个神经网络通常是不同的,在模型训练时两个神经网络采用不同的变量参数,并且两个神经网络不可以共享权重。
在一个实施例中,在执行步骤S220,将标记的语句样本数据输入孪生网络模型或双塔网络模型,计算损失函数,包括:分别将第一语句样本数据和第二语句样本数据输入到孪生网络模型或双塔网络模型的输入层;其中标记的语句样本数据包括第一语句样本数据和第二语句样本数据;采用孪生网络模型或双塔网络模型的表示层分别计算出第一语句样本数据的语句向量和第二语句样本数据的语句向量;采用孪生网络模型或双塔网络模型的匹配层计算第一语句样本数据的语句向量和第二语句样本数据的语句向量的相似度;根据第一语句样本数据的语句向量和第二语句样本数据的语句向量的相似度计算损失函数。
其中,孪生网络模型或双塔网络模型包括依次连接的输入层、表示层和匹配层,表示层中包括两个神经网络模块;神经网络模块包括ernie网络结构、bert网络结构、cnn网络结构或lstm网络结构;孪生网络模型的两个神经网络模块完全相同,双塔网络模型的两个神经网络模块不相同。
具体而言,请参考图4,孪生网络模型包括依次连接的输入层、表示层和匹配层,其中输入层包括两个输入,分别为第一语句样本数据(即user_q)和第二语句样本数据(即sim_q)。表示层包括两个神经网络模块(即ERNIE)和两个全连接层(Pooling),其中表示层主要用于对输入的第一语句样本数据(即user_q)和第二语句样本数据(即sim_q)进行特征提取,生成第一语句样本数据的语句向量(即U)和第二语句样本数据的语句向量(即V)。然后采用匹配层第一语句样本数据的语句向量(即U)和第二语句样本数据的语句向量(即V)的相似度,根据第一语句样本数据的语句向量(即U)和第二语句样本数据的语句向量(即V)的相似度计算损失函数,再根据损失函数来更新ERNIE参数。
其次,标记的语句样本数据包括第一语句样本数据和第二语句样本数据,第二语句样本数据通常是第一语句样本数据的相似语句数据,即都属于正样本。都采用正样本对孪生网络模型进行训练可以提高模型的训练速率。
需要说明的是,图4中的第一语句样本数据和第二语句样本数据采用相似语句数据(即正样本)仅仅只是为了说明模型训练过程,在模型训练过程中为了提高模型训练的精准度,通常需要正样本也有负样本。
另外,孪生网络模型在训练的过程就是以比较两个句子的相似度为目标,即目标是让|u-v|的值越小越好。
需要说明的是,图4仅对孪生网络模型进行说明,而双塔网络模型的结构与孪生网络模型的结构类似,区别仅在于神经网络模块以及训练过程采用的参数不同,在此不再赘述。
此外,孪生网络模型中的神经网络模块仅以ERNIE网络结构为例进行说明。值得注意的是,神经网络模块除ERNIE网络结构之外,还可以采用bert网络结构、cnn网络结构或lstm网络结构。
为了便于理解,给出一个孪生网络模式训练过程的详细实施例。(1)用户语句(即user_q)和相似语句(即即sim_q)经过ernie模型分别编码成语句向量U和V。(2)计算向量U和V,记为senility;并根据senility计算向量U和V的距离,即|U-V|,可以用1-simility计算得出;其中senility的计算如下:
Figure BDA0003173259130000091
(3)用softmax classifier进行归一化,得到一个预测向量y1:
Figure BDA0003173259130000092
其中,
Figure BDA0003173259130000093
(4)预测向量y1可以和实际的标签向量y进行交叉熵损失计算,即计算损失函数:
L=-[ylogy1+(1-y)log(1-y1)]
其中,实际的标签向量y是对输入的用户语句(即user_q)和相似语句(即即sim_q)进行标记产生的向量(即目标向量),可以用某一数据表示,例如1或0等。
(5)最后反向传播更新ernie参数;其中L指ernie的参数,α指的是学习率:
Figure BDA0003173259130000094
步骤S130,当相似度值大于或等于预设阈值时,判断两个语句的分类标注是否相同。
其中,预设阈值通常是一个预设的值,具体值的大小根据实际的需求选择,其值不能太大也不能太小,太大容易导致无法选出相近表达语句,而太小容易导致将不相似的语句误认为是相似语句。
具体地,在计算得到两个语句的相似度值之后将相似度值与预设阈值进行比较,当相似度值大于或等于预设阈值时,说明两个语句是表达相同或相似意思的语句。
步骤S140,当两个语句的分类标注不相同时,则判定两个语句为第一分类标注冲突语句。
具体而言,判断两个语句的分类标注是否相同;当两个语句的分类标注不相同时,说明两个相同或相似意思的语句被分成不同的分类,那么此时则判定两个语句为第一分类标注冲突语句。
为了便于理解,给出一个详细的实施例。请参照图5,采用相似度检测模型进行分类标注的冲突检测的主要步骤如下:假设有用户问句1和用户问句2,首先判断用户问句1和用户问句2的标注是否一致,当用户问句1和用户问句2的标注一致时,说明用户问句1和用户问句2的标注意图并没有冲突,可直接跳过。然而,当用户问句1和用户问句2的标注意图不一致时,则将这两句话输入孪生网络,计算这两句的相似性得分,当相似性得分大于一定阈值时,则表示两句是一对冲突数据,可将其添加至冲突数据集。
本申请实施例提供的自然语言处理中分类标注的冲突检测方法、装置、设备和存储介质,首先获取待检测的标注语句集;其中,标注语句集中包括有语句,并且每个语句被采用标注信息(例如标签等)进行了分类标注;然后将待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出两个语句的相似度值;其中相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;在计算得到两个语句的相似度值之后将相似度值与预设阈值进行比较,当相似度值大于或等于预设阈值时,说明两个语句是表达相同或相似意思的语句,然后来判断两个语句的分类标注是否相同;当两个语句的分类标注不相同时,说明两个相同或相似意思的语句被分成不同的分类,那么此时则判定两个语句为第一分类标注冲突语句。
该冲突检测方法首先采用相似度检测模型来快速地判断出表达相同或相似意思的语句,然后根据语句的分类标注来判断表达相同或相似意思的语句是否同属一个类别,如果不是同一个类别,则将表达相同或相似意思的语句判定为第一分类标注冲突语句。该方法一方面能快速地确定标注冲突语句,另一方面在计算语句相似度时采用的相似度检测模型由孪生网络模型或双塔网络模型训练得到的,该模型能大大提高相似度计算的准确性,从而提高了检测结果的准确性。
在一个实施例中,执行步骤S130,判定两个语句为第一分类标注冲突语句之后,还包括:将第一分类标注冲突语句存储于第一冲突集。
具体地,在得到第一分类标注冲突语句,将第一分类标注冲突语句存储起来,形成第一冲突集。采用该方式将第一分类标注冲突语句形成集合,方便存储以及后期查询。
进一步地,提供了一种语句分类标注的判定方式的具体实施方式,下面对该实施方式进行详细描述。
在一个实施例中,自然语言处理中分类标注的冲突检测方法,还包括:
将待检测的标注语句集中任意一个语句,记为初始语句;将初始语句翻译成任意一种与初始语句为不同语言的外语语句;将外语语句翻译成与初始语句为同种语言的目标语句;当目标语句为待检测的标注语句集中的语句时,判断初始语句与目标语句的分类标注是否相同;当初始语句与目标语句的分类标注不相同时,判定初始语句和目标语句为第二分类标注冲突语句。
具体地,将待检测的标注语句集中任意一个语句,翻译成外语,再根据翻译成的外语进行二次翻译,生成与翻译之前的语句为同种语言的语句,当同种语言的语句也存在于待检测的标注语句集中,将同种语言的语句与翻译之前的语句的分类标注进行比较,根据比较结果来确定翻译之前的语句与同种语言的语句是否为第二分类标注冲突语句。
为了便于理解,给出一个详细的实施例。请参照图6,采用翻译冲突检测法来进行分类标注的冲突检测的主要步骤如下:有一个用户问句,调用翻译接口将用户语句翻译成外文语句,然后调用翻译接口将外文语句进行翻译形成与用户语句为同种语言的翻译语句。然后比较翻译语句和用户语句的标注是否一致,当不一致时,说明翻译语句和用户语句为分类标注冲突语句。例如有一用户问句A:我要退货,先将A翻译成英文语句B:I want toreturn goods;再把英文语句B翻译成翻译语句C:我想退货。其中,翻译语句C与用户问句A都是中文,属于同种语言。然后判断翻译语句C与用户问句A的分类标注是否一致,当不一致时,则认为翻译语句C与用户问句A属于第二分类标注冲突语句。
在一个实施例中,判定语句和目标语句为第二分类标注冲突语句之后,还包括:将第二分类标注冲突语句存储于第二冲突集。
具体地,在得到第二分类标注冲突语句,将第二分类标注冲突语句存储起来,形成第二冲突集。采用该方式将第二分类标注冲突语句形成集合,方便存储以及后期查询。
在一个实施例中,自然语言处理中分类标注的冲突检测方法,还包括:将第一冲突集和第二冲突集进行并集处理,形成目标冲突集。
具体地,在得到第一冲突集(即冲突集B)和第二冲突集(即冲突集A)后,将第一冲突集和第二冲突集集合形成目标冲突集,具体结构的如图7所示。采用该方式将所有分类标注冲突语句形成集合,方便存储以及后期查询。
应该理解的是,虽然图2至图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图2至图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
上述本申请公开的实施例中详细描述了一种自然语言处理中分类标注的冲突检测方法,对于本申请公开的上述方法可采用多种形式的设备实现,因此本申请还公开了对应上述方法的自然语言处理中分类标注的冲突检测装置,下面给出具体的实施例进行详细说明。
请参阅图8,为本申请实施例公开的一种自然语言处理中分类标注的冲突检测装置,主要包括:
标注语句集获取模块810,用于获取待检测的标注语句集;
相似度值计算模块820,用于将待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出语句的相似度值;其中相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;
第一判断模块830,用于当相似度值大于或等于预设阈值时,判断两个语句的分类标注是否相同;
第一判定模块840,用于当两个语句的分类标注不相同时,则判定两个语句为第一分类标注冲突语句。
在一个实施例中,冲突检测装置还包括:
第一冲突集模块,用于将第一分类标注冲突语句存储于第一冲突集。
在一个实施例中,冲突检测装置还包括:
样本数据获取模块,用于获取语句样本数据。
标记模块,用于对语句样本数据进行标记,得到标记的语句样本数据。
损失函数计算模块,用于将标记的语句样本数据输入孪生网络模型或双塔网络模型,计算损失函数。
相似度检测模型获得模块,用于根据损失函数更新孪生网络模型或双塔网络模型的网络参数直至网络收敛,获得相似度检测模型。
在一个实施例中,损失函数计算模块,用于分别将第一语句样本数据和第二语句样本数据分别输入到孪生网络模型或双塔网络模型的输入层;其中语句样本数据包括第一语句样本数据和第二语句样本数据;采用孪生网络模型或双塔网络模型的表示层分别计算出第一语句样本数据的语句向量和第二语句样本数据的语句向量;采用孪生网络模型或双塔网络模型的匹配层计算第一语句样本数据的语句向量和第二语句样本数据的语句向量的相似度;根据第一语句样本数据的语句向量和第二语句样本数据的语句向量的相似度计算损失函数;其中,孪生网络模型或双塔网络模型包括依次连接的输入层、表示层和匹配层,表示层中包括两个神经网络模块;神经网络模块包括ernie网络结构、bert网络结构、cnn网络结构或lstm网络结构;孪生网络模型的两个神经网络模块完全相同,双塔网络模型的两个神经网络模块不相同。
在一个实施例中,冲突检测装置还包括:
语句选择模块,用于从待检测的标注语句集中选择任意一个语句,记为初始语句。
第一翻译模块,用于将初始语句翻译成任意一种与初始语句为不同语言的外语语句;
第二翻译模块,用于将外语语句翻译成与初始语句为同种语言的目标语句;
第二判断模块,用于当目标语句为待检测的标注语句集中的语句时,判断初始语句与目标语句的分类标注是否相同;
第二判定模块,用于当初始语句与目标语句的分类标注不相同时,判定初始语句和目标语句为第二分类标注冲突语句。
在一个实施例中,冲突检测装置还包括:
第二冲突集模块,用于将第二分类标注冲突语句存储于第二冲突集。
在一个实施例中,冲突检测装置还包括:
目标冲突集形成模块,用于将第一冲突集和第二冲突集进行并集处理,形成目标冲突集。
关于自然语言处理中分类标注的冲突检测装置的具体限定可以参见上文中对于方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中,也可以以软件形式存储于终端设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参考图9,图9其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备90可以是计算机设备。本申请中的终端设备90可以包括一个或多个如下部件:处理器92、存储器94以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器94中并被配置为由一个或多个处理器92执行,一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法,也可以配置用于执行上述应用于自然语言处理中分类标注的冲突检测方法实施例中所描述的方法。
处理器92可以包括一个或者多个处理核。处理器92利用各种接口和线路连接整个终端设备90内的各个部分,通过运行或执行存储在存储器94内的指令、程序、代码集或指令集,以及调用存储在存储器94内的数据,执行终端设备90的各种功能和处理数据。可选地,处理器92可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器92可集成中央处理器(Cen tralProcessingUnit,CPU)、埋点数据的上报验证器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器92中,单独通过一块通信芯片进行实现。
存储器94可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器94可用于存储指令、程序、代码、代码集或指令集。存储器94可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备90在使用中所创建的数据等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
综上,本申请实施例提供的终端设备用于实现前述方法实施例中相应的自然语言处理中分类标注的冲突检测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
请参阅图10,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质1000中存储有程序代码,程序代码可被处理器调用执行上述自然语言处理中分类标注的冲突检测方法实施例中所描述的方法,也可以被处理器调用执行上述自然语言处理中分类标注的冲突检测方法实施例中所描述的方法。
计算机可读取存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质1000包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质1000具有执行上述方法中的任何方法步骤的程序代码1002的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1002可以例如以适当形式进行压缩。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种自然语言处理中分类标注的冲突检测方法,其特征在于,所述方法包括:
获取待检测的标注语句集;
将所述待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出两个所述语句的相似度值;其中所述相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;
当所述相似度值大于或等于预设阈值时,判断两个所述语句的分类标注是否相同;
当两个所述语句的分类标注不相同时,则判定两个所述语句为第一分类标注冲突语句。
2.根据权利要求1所述的方法,其特征在于,所述判定两个所述语句为第一分类标注冲突语句之后,还包括:
将所述第一分类标注冲突语句存储于第一冲突集。
3.根据权利要求1所述的方法,其特征在于,所述相似度检测模型通过以下方法获得:
获取语句样本数据,对所述语句样本数据进行标记,得到所述标记的语句样本数据;
将所述标记的语句样本数据输入所述孪生网络模型或所述双塔网络模型,计算损失函数;
根据所述损失函数更新所述孪生网络模型或所述双塔网络模型的网络参数直至网络收敛,获得所述相似度检测模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述标记的语句样本数据输入所述孪生网络模型或所述双塔网络模型,计算损失函数,包括:
分别将第一语句样本数据和第二语句样本数据输入到所述孪生网络模型或所述双塔网络模型的输入层;其中所述标记的语句样本数据包括第一语句样本数据和第二语句样本数据;
采用所述孪生网络模型或所述双塔网络模型的表示层分别计算出所述第一语句样本数据的语句向量和所述第二语句样本数据的语句向量;
采用所述孪生网络模型或所述双塔网络模型的匹配层计算所述第一语句样本数据的语句向量和所述第二语句样本数据的语句向量的相似度;
根据所述第一语句样本数据的语句向量和所述第二语句样本数据的语句向量的相似度计算所述损失函数;
其中,所述孪生网络模型或所述双塔网络模型包括依次连接的输入层、表示层和匹配层,所述表示层中包括两个神经网络模块;
所述神经网络模块包括ernie网络结构、bert网络结构、cnn网络结构或lstm网络结构;
所述孪生网络模型的两个神经网络模块相同,所述双塔网络模型的两个神经网络模块不相同。
5.根据权利要求2-4任一项所述的方法,其特征在于,还包括:
从所述待检测的标注语句集中选择任意一个语句,记为初始语句;
将所述初始语句翻译成任意一种与所述初始语句为不同语言的外语语句;
将所述外语语句翻译成与所述初始语句为同种语言的目标语句;
当所述目标语句为所述待检测的标注语句集中的语句时,判断所述初始语句与目标语句的分类标注是否相同;
当所述初始语句与目标语句的分类标注不相同时,判定所述初始语句和所述目标语句为第二分类标注冲突语句。
6.根据权利要求5所述的方法,其特征在于,所述判定所述语句和所述目标语句为第二分类标注冲突语句之后,还包括:
将所述第二分类标注冲突语句存储于第二冲突集。
7.根据权利要求6所述的方法,其特征在于,还包括:
将所述第一冲突集和所述第二冲突集进行并集处理,形成目标冲突集。
8.一种自然语言处理中分类标注的冲突检测装置,其特征在于,所述装置包括:
标注语句集获取模块,用于获取待检测的标注语句集;
相似度值计算模块,用于将所述待检测的标注语句集中任意两个语句输入至相似度检测模型,以计算出所述语句的相似度值;其中所述相似度检测模型是采用标记的语句样本数据对孪生网络模型或双塔网络模型进行训练得到的;
第一判断模块,用于当所述相似度值大于或等于预设阈值时,判断两个所述语句的分类标注是否相同;
第一判定模块,用于当两个所述语句的分类标注不相同时,则判定两个所述语句为第一分类标注冲突语句。
9.一种终端设备,其特征在于,包括:
存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。
CN202110824967.1A 2021-07-21 2021-07-21 自然语言处理中分类标注的冲突检测方法、装置和设备 Pending CN113435182A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110824967.1A CN113435182A (zh) 2021-07-21 2021-07-21 自然语言处理中分类标注的冲突检测方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110824967.1A CN113435182A (zh) 2021-07-21 2021-07-21 自然语言处理中分类标注的冲突检测方法、装置和设备

Publications (1)

Publication Number Publication Date
CN113435182A true CN113435182A (zh) 2021-09-24

Family

ID=77761364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110824967.1A Pending CN113435182A (zh) 2021-07-21 2021-07-21 自然语言处理中分类标注的冲突检测方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113435182A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821601A (zh) * 2021-09-26 2021-12-21 北京中经惠众科技有限公司 文本对比方法、装置、设备和介质
CN115982324A (zh) * 2023-03-20 2023-04-18 广东电网有限责任公司广州供电局 基于改进的自然语言处理的采购文件检验方法
CN117829140A (zh) * 2024-03-04 2024-04-05 证通股份有限公司 用于规章与法规的自动比对方法及其系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017000777A1 (zh) * 2015-06-30 2017-01-05 芋头科技(杭州)有限公司 一种口语语义解析系统及方法
CN110377694A (zh) * 2019-06-06 2019-10-25 北京百度网讯科技有限公司 标注文本对逻辑关系的方法、装置、设备和计算机存储介质
CN111460118A (zh) * 2020-03-26 2020-07-28 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
CN111738010A (zh) * 2019-03-20 2020-10-02 百度在线网络技术(北京)有限公司 用于生成语义匹配模型的方法和装置
CN111859988A (zh) * 2020-07-28 2020-10-30 阳光保险集团股份有限公司 一种语义相似度评价方法、装置和计算机可读存储介质
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112800777A (zh) * 2021-04-14 2021-05-14 北京育学园健康管理中心有限公司 语义确定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017000777A1 (zh) * 2015-06-30 2017-01-05 芋头科技(杭州)有限公司 一种口语语义解析系统及方法
CN111738010A (zh) * 2019-03-20 2020-10-02 百度在线网络技术(北京)有限公司 用于生成语义匹配模型的方法和装置
CN110377694A (zh) * 2019-06-06 2019-10-25 北京百度网讯科技有限公司 标注文本对逻辑关系的方法、装置、设备和计算机存储介质
CN111460118A (zh) * 2020-03-26 2020-07-28 聚好看科技股份有限公司 一种人工智能冲突语义识别方法及装置
CN111859988A (zh) * 2020-07-28 2020-10-30 阳光保险集团股份有限公司 一种语义相似度评价方法、装置和计算机可读存储介质
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112800777A (zh) * 2021-04-14 2021-05-14 北京育学园健康管理中心有限公司 语义确定方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821601A (zh) * 2021-09-26 2021-12-21 北京中经惠众科技有限公司 文本对比方法、装置、设备和介质
CN115982324A (zh) * 2023-03-20 2023-04-18 广东电网有限责任公司广州供电局 基于改进的自然语言处理的采购文件检验方法
CN117829140A (zh) * 2024-03-04 2024-04-05 证通股份有限公司 用于规章与法规的自动比对方法及其系统
CN117829140B (zh) * 2024-03-04 2024-05-31 证通股份有限公司 用于规章与法规的自动比对方法及其系统

Similar Documents

Publication Publication Date Title
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN113435182A (zh) 自然语言处理中分类标注的冲突检测方法、装置和设备
CN110795913B (zh) 一种文本编码方法、装置、存储介质及终端
CN109034203B (zh) 表情推荐模型的训练、表情推荐方法、装置、设备及介质
EP3872652A2 (en) Method and apparatus for processing video, electronic device, medium and product
CN115601582A (zh) 一种基于多模态数据的商品识别方法和系统
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN112100375A (zh) 文本信息生成方法、装置、存储介质及设备
CN111666766A (zh) 数据处理方法、装置和设备
CN112069799A (zh) 基于依存句法的数据增强方法、设备和可读存储介质
CN111242710A (zh) 业务的分类处理方法、装置、服务平台及存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN110489730A (zh) 文本处理方法、装置、终端及存储介质
CN117688946A (zh) 基于大模型的意图识别方法、装置、电子设备和存储介质
CN117520497A (zh) 大模型交互处理方法、系统、终端、设备及介质
CN115809325B (zh) 文档处理模型训练方法、文档处理方法、装置及设备
CN113704471B (zh) 语句的分类方法、装置、设备和存储介质
CN116049597A (zh) 网页的多任务模型的预训练方法、装置及电子设备
CN114330285B (zh) 语料处理方法、装置、电子设备及计算机可读存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN115017914A (zh) 语言处理方法、装置、电子设备以及存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination