CN111597336A - 训练文本的处理方法、装置、电子设备及可读存储介质 - Google Patents

训练文本的处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111597336A
CN111597336A CN202010407585.4A CN202010407585A CN111597336A CN 111597336 A CN111597336 A CN 111597336A CN 202010407585 A CN202010407585 A CN 202010407585A CN 111597336 A CN111597336 A CN 111597336A
Authority
CN
China
Prior art keywords
text
training
clustering
category
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010407585.4A
Other languages
English (en)
Other versions
CN111597336B (zh
Inventor
张忱
张雨辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010407585.4A priority Critical patent/CN111597336B/zh
Publication of CN111597336A publication Critical patent/CN111597336A/zh
Application granted granted Critical
Publication of CN111597336B publication Critical patent/CN111597336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种训练文本的处理方法、装置、电子设备及可读存储介质。该方法包括:获取各训练文本;确定各训练文本之间的文本相似度;将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本,对各待聚类文本进行聚类,得到聚类结果;基于聚类结果对各待聚类文本进行处理。基于本申请实施例所提供的方案,在数据计算时可以基于训练文本所对应的聚类结果,实现对训练文本的批量处理,从而可以有效提升文本的处理效率。

Description

训练文本的处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种训练文本的处理方法、装置、电子设备及可读存储介质。
背景技术
在人工智能技术领域中,无论涉及哪个技术领域,均需要大量且准确的样本作为训练集来实现模型准确的识别,现有技术中在对训练集进处理时,大多数的方法依然是传统的人工方式单条处理。例如,采用人工的方式单条标注训练标签,对此时不仅会存在人工标注效率低下的问题,还会影响需求该样本集的技术模型的上线周期。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有的症状识别方法的识别准确性较差的技术缺陷。
第一方面,本申请实施例提供了一种训练文本的处理方法,该方法包括:
获取各训练文本;
确定各训练文本之间的文本相似度;
将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本,对各待聚类文本进行聚类,得到聚类结果;
基于聚类结果对各待聚类文本进行处理。
第二方面,本申请实施例提供了一种训练文本的处理装置,该装置包括:
文本获取模块,用于获取各训练文本;
文本相似度确定模块,用于确定各训练文本之间的文本相似度;
聚类结果确定模块,用于将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本,对各待聚类文本进行聚类,得到聚类结果;
文本处理模块,用于基于聚类结果对各待聚类文本进行处理。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:
处理器;以及存储器,该存储器配置用于存储计算机程序,该计算机程序在由该处理器执行时,使得该处理器执行第一方面中的任一项方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述第一方面中的任一项方法。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,在获取到各训练文本后,可以先确定各训练文本之间的文本相似度,然后基于各文本相似度与设定阈值的关系过滤部分训练文本,然后将保留的训练文本作为待聚类文本,并对各待聚类文本进行聚类,得到聚类结果,进一步的,基于本申请实施例所提供的方案,可以基于训练文本所对应的聚类结果,实现对训练文本的批量处理,从而可以有效提升文本的处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种训练文本的处理方法的流程示意图;
图2为本申请实施例提供的一种显示的聚类类别的示意图;
图3为本申请实施例提供的一种显示界面的示意图;
图4为本申请实施例提供的一种得到目标训练集的流程示意图;
图5为本申请实施例提供的一种各训练文本的示意图;
图6a为本申请实施例提供的一种显示聚类结果的示意图;
图6b为本申请实施例提供的一种显示非聚类结果的示意图;
图7为本申请实施例提供的一种聚类标注界面的示意图;
图8为本申请实施例提供的一种训练文本的处理装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明。
为了更好的说明本申请所提供的方案,下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例中所提供的一种训练文本的处理方法的流程示意图,该方法具体可以由任意的电子设备执行,如该方法可以由用户终端设备或者服务器执行。如图1所示,该方法可以包括:
步骤S101,获取各训练文本。
其中,训练文本指的是用于训练神经网络模型的文本,如该训练文本可以为用于训练文字识别模型的文本。其中,该训练文本的获取方式与数量可以预先配置,本申请实施例不限定,例如,可以从预设置的文本数据库中获取指定数量的文本作为训练文本。
本申请的可选实施例中,各训练文本可以是未标注训练标签的文本,或者也可以是标注有训练标签的文本。
步骤S102,确定各训练文本之间的文本相似度。
其中,文本相似度用于表征训练文本之间的相似程度,确定文本相似度的具体方式,本申请实施例不限定,可以采用现有的任一用于计算文本相似度的方式,如可以采用计算余弦相似度的方式确定训练文本之间的文本相似度。
作为一个示例,对于训练文本T1和训练文本T2,训练文本T1和训练文本T2的余弦相似度的计算公式如下所示:
Figure BDA0002491906340000051
其中,similarity表示训练文本T1和训练文本T2之间的文本相似度(即余弦相似度),其中,A表示训练文本T1的特征向量,B表示训练文本T2的特征向量,θ为特征向量A与特征向量B之间的角度,n为特征向量的维度,Ai表示特征向量A在第i个维度的取值,Bi表示特征向量A在第i维度的取值。
步骤S103,将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本,对各待聚类文本进行聚类,得到聚类结果。
在实际应用中,在对各待聚类文本进行聚之前,可以对各训练文本进行过滤,可以减少后续的聚类数据的处理量,进而可以提高数据处理效率。
具体的,在确定出各训练样本中两两训练样本之间的文本相似度之后,可以将各训练文本之间的文本相似度与设定阈值进行比较,而当设定阈值越大,表征了训练文本之间的内容越接近,此时可以将各文本相似度中大于设定阈值的相似度所对应的各训练文本保留,并作为待聚类文本;进一步的,可以对各待聚类文本进行聚类,得到聚类结果。
可以理解的是,当某个训练文本与任意一个训练文本之间的文本待聚类相似度大于设定阈值时,该训练文本即为待聚类文本;相应的,当某个训练文本与其它各训练文本之间的文本相似度均不大于设定阈值时,则将该训练文本过滤掉,并不再执行后续的聚类过程。
在一示例中,假设获取的训练文本包括样本1、样本2、……等,表中仅示出了几个样本和样本之间的相似度的示例,省略号表示其它未示出的样本或样本之间的相似度,该示例中设定阈值为0.8,此时得到的各训练文本之间的文本相似度取值如表1中的数字所示,如第二行中的0.3表示样本1与样本3之间的文本相似度为0.3;n/a表示所处的表格位置相对应的两个样本不进行文本相似度计算,如对于第二行中的n/a,其相对应的两个样本均为样本1,此时便可以不计算文本相似度。
表1
样本1 样本2 样本3 样本4 ……
样本1 n/a 0.1 0.3 0.25 ……
样本2 0.1 n/a 0.03 0.85 ……
样本3 0.3 0.03 n/a 0.96 ……
样本4 0.25 0.85 0.96 n/a ……
…… …… …… …… …… n/a
该示例中,基于表1中的文本相似度取值可知,样本1与样本2~样本之间的文本待相似度均不大于设定阈值0.8,此时可以将样本1过滤掉,将作为待聚类文本,然后对样本2对~样本4进行聚类,得到聚类结果。
步骤S104,基于聚类结果对各待聚类文本进行处理。
在本申请实施例中,在获取到各训练文本后,可以先确定各训练文本之间的文本相似度,然后基于各文本相似度与设定阈值的关系过滤部分训练文本,然后将保留的训练文本作为待聚类文本,并对各待聚类文本进行聚类,得到聚类结果,进一步的,可以基于得到聚类结果,分批次对待聚类文本进行处理。显然,在本申请实施例中,在对训练文本进行处理时,由现有技术中的单条处理变为成批量处理,进而提升了处理效率。
本申请的可选实施例中,聚类结果包括各聚类类别、以及各聚类类别所包含的训练文本;
训练文本为未标注训练标签的文本,或者为标注有训练标签的文本;
基于聚类结果对各待聚类文本进行处理,包括:
若训练文本是未标注训练标签的文本,基于聚类结果对各待聚类文本进行处理,包括:
根据聚类类别,对每个聚类类别所包含的训练文本标注训练标签;
若训练文本为标注有训练标签的文本,基于聚类结果对各待聚类文本进行处理,包括:
根据聚类类别,对每个聚类类别所包含的训练文本的训练标签进行检验。
其中,聚类结果可以包括基于待聚类文本确定各聚类类别,以及每个聚类类别所包括的各训练文本。例如,假设待聚类文本包括训练文本1~训练文本50,此时得到的聚类结果可以为训练文本1~训练文本10属于聚类类别1,训练文本11~训练文本30属于聚类类别2,训练文本31~训练文本50属于聚类类别3。
在实际应用中,训练文本可以为未标注训练标签的文本,或者也可以是标注有训练标签的文本,此时对于训练文本也将会采用不同的处理方式,下面针对这两种情况进行详细说明。
◆在实际应用中,若各训练文本是未带有标注标签的训练文本,此时根据聚类类别,对每个聚类类别所包含的训练文本标注训练标签。
其中,基于得到的聚类结果对各聚类结果包括的训练文本进行分批标注训练标签的具体实现方式、训练标签的类型本申请实施例不限定。例如,可以直接将聚类类别作为训练标签,也可以预先确定每一种聚类类别所对应的训练标签等。
在实际应用中,当各训练文本之间的相似程度满足一定条件时,此时各训练文本将会属于同一聚类类别;进一步的,由于属于同一聚类类别的各训练文本之间非常相似,此时各训练文本的标注标签也应该是相同的,因此,在本申请实施例中可以将属于同一聚类类别的各训练文本标注有相同的训练标签。例如,假设训练文本1~训练文本10属于聚类类别1,训练文本11~训练文本30属于聚类类别2,训练文本31~训练文本50属于类别结果3;进一步的,可以将训练文本1~训练文本10标注有同一训练标签、将训练文本11~训练文本30标注有同一训练标签、以及将练文本31~训练文本50标注有同一训练标签。
在本示例中,由于在对训练文本标注训练标签时,可以基于聚类结果对所包括的训练文本进行分批标注,相比于训练文本逐条标注,可以有效的提升标注效率。
◆在实际应用中,若各训练文本为标注有训练标签的训练文本,此时可以根据聚类结果对各训练文本的训练标签进行校正。
在实施应用中,由于属于同一聚类类别的各训练文本之间非常相似,此时各训练文本的标注标签也应该是相同的,因此,在本申请实施例中可以根据聚类结果中的聚类类别,对每个聚类类别所包含的训练文本的训练标签进行检验,判断属于同一聚类类别的各训练文本是否标注有相同的训练标签,当同一聚类类别的各训练文本标注有不同相似的训练标签时,说明训练文本的训练标签标注可能有误,此时可以对标注有误的训练文本重新标注训练标签。
在本申请可选的实施例中,若聚类类别所包含的训练文本的训练标签与聚类类别不对应,则生成该训练文本的校验提示信息。
例如,假设训练文本1~训练文本10标注有同一训练标签,但是此时训练文本5的训练标签与其它训练文本的训练标签不相同,则说明训练文本5的训练标签标注可能有误,此时可以生成关于对训练文本5的标注训练标签校验提示信息。
在本示例中,由于可以基于聚类结果,对训练文本的训练标签进行校验,提升了训练文本的训练标签的一致性,降低了训练文本的训练标签的错误率。
在本申请可选的实施例中,根据聚类类别,对每个聚类类别所包含的训练文本标注训练标签,包括:
显示聚类标注界面,聚类标签标注界面显示有至少一个聚类类别、至少一个聚类类别中每个聚类类别包括的训练文本、以及标注操作区域;
在通过标注操作区域接收到用户的标注操作时,根据聚类类别,对标注操作所对应的至少一个训练文本标注训练标签,训练标签与至少一个训练文本所属的聚类类别相对应。
在实际应用中,可以在终端设备中显示聚类标注界面,该聚类标注界面中可以显示有所得到的聚类类别,以及每个聚类类别中包括的训练文本,用户可以基于该聚类标注界面对各聚类结果包括的训练文本标注训练标签。其中,聚类标签标注界面所显示的至少一个聚类类别可以为按照默认顺序显示的,也可以为用户所选择的聚类类别,本申请实施例对此不限定。
此外,聚类标注界面中还可以显示有标注操作区域,并可以基于该标注操作区域接收用户输入的标注操作;相应的,在接收到标注操作后,可以确定该标注操作所针对的至少一个训练文本中每个训练文本所属于的聚类类别,然后根据每个训练文本所属于的聚类类别,将每个训练文本标注与其所属的聚类类别相对应的训练标签。
在本申请可选的实施例中,显示聚类标注界面还可以包括标注取消区域,该方法还可以包括:
在通过标注取消区域接收到用户的标注取消操作时,删除标注取消操作所对应的至少一个训练文本的训练标签。
在实际应用中,当训练文本为带有训练标签的训练文本时,还可以基于标注取消区域接收用户输入的标注取消操作,然后基于该标注取消操作,对该标注取消操作所针对的至少一个训练文本的训练标签进行删除。
在本申请可选的实施例中,聚类标注界面包含聚类类别显示区域,聚类类别显示区域用于显示至少一个聚类类别;
标注操作区域包括类别标注操作区域,在通过标注操作区域接收到用户的标注操作时,根据聚类类别,对标注操作所对应的至少一个训练文本标注训练标签,包括:
在通过类别标注操作区域接收到用户的标注操作时,基于用户的标注操作针对的聚类类别,对该聚类类别所包括的所有训练文本标注训练标签。
在本申请可选的实施例中,聚类标注界面包含文本显示区域,文本显示区域用于显示至少一个聚类类别中每个聚类类别所包括的训练文本;
标注操作区域包括文本标注操作区域,在通过标注操作区域接收到用户的标注操作时,根据聚类类别,对标注操作所对应的至少一个训练文本标注训练标签,包括:
在通过文本标注操作区域接收到用户的标注操作时,对用户的标注操作针对的训练文本标注训练标签。
在实际应用中,可以将标注操作区域划分为类别标注操作区域和文本标注操作区域;相应的,当通过类别标注操作区域接收到用户的标注操作时,用户的标注操作中可以包括用户选择的聚类类别,此时可以对用户选择的聚类类别所包括的所有训练文本标注与用户选择的聚类类别相对应的训练标签。当通过文本标注操作区域接收到用户的标注操作时,标注操作中可以包括用户选择的训练文本(可以是一个,也可以是多个),此时可以根据用户选择的训练文本所属于的聚类类别,对该训练文本标注与其所属于的聚类类别相对应的训练标签。也就是说,通过类别标注操作区域接收到的标注操作,其所对应的操作对象为聚类类别包括的所有训练文本,而通过文本标注操作区域接收到的标注操作,其所对应的操作对象为用户选择的训练文本。
可选的,聚类标注界面还可以显示有标注取消操作区域,用户通过该区域可以对已标注的训练文本进行标注取消操作。与上述类别标注操作区域和/或文本标注操作区域相对应,该标注取消操作区域可以包括类别标注取消操作区域和/或文本标注取消操作区域,用户可以基于类别标注取消操作区域对已标注的一个或多个聚类类别下的所有训练样本的标注标签进行统一的取消,基于文本标注取消操作区域可以对某个或某几个训练文本的标注标签进行取消。
其中,聚类标签标注界面中所显示的至少一个聚类类别可以是聚类得到的各聚类类别,也可以是聚类结果中的一个或多个(两个)类别。用户通过该标注界面可以看到所显示的至少一个聚类类别中各类别的类别标识,以及各类别各自所对应的训练文本。作为一可选方式,在得到聚类结果后,该标注界面中可以按照一定的顺序或者随机显示一个聚类类别、以及该类别所包含的各训练文本。可选的,在完成对当前所显示的聚类类别所对应的训练文本的标注后,可以按照设定顺序或者随机的方式显示下一个聚类类别。
在本申请可选的实施例中,上述聚类标签标注界面中还可以显示有类别选择区域,该方法还包括:
在通过所述类别选择区域接收到用户的聚类类别选择操作时,将聚类类别选择操作所对应的聚类类别确定为上述至少一个聚类类别。
也就是说,用户可以通过聚类标签标注界面中的类别选择区域,选择用户想要进行标注处理的某一个或某几个聚类类别。例如,在得到聚类结果后,可以按照预配置的策略在聚类标签标注界面显示其中一个或几个聚类类别,如果所显示的类别不是用户想要处理的,用户则可以通过类别选择区域选择其想要处理的类别,还可以是在得到聚类结果后,通过类别选择区域将各聚类类别显示给用户,用户通过该区域可以选择所想要处理的聚类类别。
在本申请可选的实施例中,获取各训练文本,包括:
在接收到文本聚类操作请求时,显示聚类文本选择界面,其中,文本聚类界面中包含有文本添加区域;
获取用户通过文本添加区域所添加的各训练文本。
在实际应用中,获取各训练文本时可以显示聚类文本选择界面,该文本聚类界面中包含有文本添加区域,用户可以基于该文本添加区域添加各训练文本。其中,用户通过文本添加区域添加各训练文本可以预先配置,本申请实施例不限定。例如,在通过文本添加区域添加时,可以将各训练样本整理至同一表格内,并采用特定格式通过文本添加区域添加各训练文本等。
在本申请可选的实施例中,该方法还包括:
显示相似度参数设置界面;
通过相似度参数设置界面接收用户输入的相似度参数,其中,该相似度参数包括上述设定阈值。
其中,相似度参数中指的是用于确定文本相似度时的相关参数,该相似度参数可以包括但不限于设定阈值,例如,还可以包括文本相似度算法等。
在实际应用中,可以显示有相似度参数设置界面,该相似度参数设置界面中可以显示有不同相似度参数的输入区域,用户可以通过该区域进行相似度参数的设置。例如,可以通过设定阈值输入区域输入设定阈值,还可以通过文本相似度算法输入区域输入选择的文本相似度算法,如可以在文本相似度算法输入区域显示各可选的相似度算法,用户可以从可选的各算法中选择在确定文本相似度时所采用的具体算法。当然,用户也可以直接选择默认的相似度参数。
可以理解的是,上述中的显示相似度参数设置界面与聚类文本选择界面可以为各自独立的界面,也可以是同一界面。
在本申请可选的实施例中,还包括:
输出文本处理结果,文本处理结果包括聚类结果和非聚类结果,非聚类结果包括除各待聚类文本之外的各训练文本。
在实际应用中,为了便于用户知晓哪些训练文本不可以作为待聚类文本,以及得到的聚类结果,此时可以输出得到的聚类结果以及除各待聚类文本之外的各训练文本(即非聚类结果)。而为了更便于用户知晓输出文本处理结果,此时可以将聚类结果和非聚类结果进行分类显示,如可以将每个聚类类别以及该聚类类别包括的训练文本统计至同一个表格,将除各待聚类文本之外的各训练文本统计至同一个表格,当用户选择不同的表格时,则可以显示不同的文本处理结果。
在本申请可选的实施例中,对各待聚类文本进行聚类,得到聚类结果,包括:
显示聚类参数设置界面;
通过聚类参数设置界面接收用户的输入的聚类参数;
根据聚类参数,对各待聚类文本进行聚类,得到聚类结果。
其中,聚类参数可以包括聚类算法和/或文本聚类阈值等,而文本聚类阈值表征了聚类半径,当文本聚类阈值越大时,聚类半径越大,得到的聚类类别中所包括的训练文本越多。对于聚类算法,可以是用户通过聚类参数设置界面设置的,也可以是预配置的,如可以包括但不限于为基于密度的DB-SCAN(Density-based spatial clustering ofapplications with noise,具有噪声的基于密度的空间的数据聚类方法等。
在实际应用中,可以显示显示聚类参数设置界面,用户可以基于该聚类参数设置界面输入选择的聚类参数。其中,聚类参数设置界面可以为独立的一个显示界面,也可以与相似度参数设置界面、聚类文本选择界面处于同一界面中。进一步的,可以根据聚类参数对各待聚类文本进行聚类,得到聚类结果。
在实际应用中,假设聚类算法为DB-SCAN算法,此时聚类参数中还包括最小簇样本数(即形成高密度区域所需要的最少点数,默认为2),聚类参数中的聚类半径为ε(eps)参数。
相应的,在采用DB-SCAN算法对待聚类文本进行聚类时,它由一个任意未被访问的点(即待聚类文本)开始,然后探索这个点的ε-邻域,如果ε-邻域里有足够的点,则建立一个新的聚类类别,否则这个点被标签为杂音。当这个点被发现在其它点的ε-邻域里,而该ε-邻域可能有足够的点,届时这个点会被加入该聚类类别中。进一步的,如果一个点位于一个聚类类别的密集区域里,它的ε-邻域里的点也属于该聚类类别,当这些新的点被加进聚类类别后,如果它(们)也在密集区域里,它(们)的ε-邻域里的点也会被加进聚类类别里。此时该过程将会被一直重复,直至不能再加进更多的点为止,最终得到几个簇(即聚类类别),如图2中所示的一个示例中,基于DB-SCAN算法,得到了3个簇。
在本申请可选的实施例中,确定各文本对之间的文本相似度,包括:
对各训练文本进行预处理,得到预处理后的各训练文本;
确定预处理后的各训练文本之间的文本相似度。
在实际应用中,为了减少后续的数据处理量,在确定各文本对之间的文本相似度之前,还可以对每个训练文本进行预处理,得到预处理后的各训练文本,然后确定预处理后的各训练文本之间的文本相似度。
可选的,文字预处理可以包括以下至少一项:
删除特定字符处理、分词处理、去除停用词处理或分字处理。
其中,特定字符具体所包括字符可以预先配置,本申请实施例不限定,例如,特定字符可以包括标点符号以及非正规字符(如
Figure BDA0002491906340000131
等)。相应的,当文字预处理包括删除特定字符处理时,此时可以将训练文本对应的Unicode(万国码)编码区域中所包括的特定字符进行删除。例如,假设训练文本为“今天天气还真不错啊!
Figure BDA0002491906340000132
”,此时可以将对应于“今天天气还真不错啊!
Figure BDA0002491906340000133
”的Unicode编码区域中所包括的标点符号“!”、以及非正规字符“
Figure BDA0002491906340000134
”进行删除。
分词处理指的是基于词粒度的文本切分,即对训练文本进行分词,并将词与词之间以空格隔开,在实际应用中,可以采用第三方分词工具对训练文本进行分词处理。延续上一示例,假设训练文本为经过删除特定字符处理后的训练文本“今天天气还真不错啊”,此时可以采用第三方分词工具对训练文本进行分词处理,得到处理后的训练文本“今天/天气/还真/不错/啊”其中,“/”只是用于示意性的表示分词。
分字处理指的是将训练按单个汉字的字符进行拆分,并将字与字之间以空格隔开。延续上一示例,假设训练文本为经过删除特定字符处理后的训练文本“今天天气还真不错啊”,此时可以对该训练文本进行分字处理,得到处理后的训练文本“今/天/天/气/还/真/不/错/啊”。
在实际应用中,有的训练文本中还会包括一些停用词,该停用词对在训练神经网络模型时并不存在实质性的作用,此时可以训练文本进行去除停用词处理,进而可以达到减少数据处理量的目的。
其中,停用词指的是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。例如,分词处理后的训练文本为“今天/天气/还/真/不错/啊”,而词语“啊”即为停用词,此时可以将词语“啊”删除,得到“今天/天气/还/真/不错”。
可以理解的是,当文字预处理包括多种处理方式时,执行各种处理方之间的顺序本申请实施例不限定。例如,可以先执行分词处理,再执行去除停用词处理。
在本申请可选的实施例中,文字预处理包括分词处理和分字处理,确定各训练文本之间的文本相似度,包括:
对于每个训练文本,对训练文本进行分词处理,得到分词结果;
对训练文本进行分字处理,得到训练文本对应的分字结果;
将分词结果和分字结果进行拼接,得到训练文本对应的拼接结果;
基于每个训练文本对应的拼接结果,确定各训练文本之间的文本相似度。
在实际应用中,当文字预处理包括分词处理和分字处理(即基于字粒度的文字切分处理)时,对于每个训练文本,此时可以先对该训练进行分词处理,得到该训练文本对应的分词结果,以及对该训练文本进行分字处理,得到该训练文本对应的分字结果,然后再基于得到的分词结果进行基于字粒度的文字切分处理,得到该训练文本对应的分字结果,并然后将分词结果和分字结果进行拼接,得到该训练文本对应的拼接结果;进一步的,在得到每个训练文本对应的拼接结果后,可以基于每个训练文本对应的拼接结果,确定各训练文本之间的文本相似度。其中,在对训练文本进行分字处理时,可以直接对训练文本进行分字处理,也可以基于分词结果进行分字处理,本申请实施例对此不限定。
在一示例中,假设训练文本为“今天天气还真不错啊”,此时可以对该训练文本进行分词处理,得到“今天/天气/还/真/不错/啊”,然后对“今天/天气/还/真/不错/啊”进行分字处理,得到“今/天/天/气/还/真/不/错/啊”;进一步,可以将分词结果“今天/天气/还/真/不错/啊”与“今/天/天/气/还/真/不/错/啊”进行拼接,得到拼接结果“今天/天气/还/真/不错/啊/今/天/天/气/还/真/不/错/啊”,并基于该训练文本的拼接结果“今天/天气/还/真/不错/啊/今/天/天/气/还/真/不/错/啊”和其它训练文本的拼接结果,确定该训练文本与其它训练文本之间的文本相似度。
在本申请的可选实施例中,确定各训练文本之间的文本相似度,包括:
确定各训练文本对应的特征向量;
基于各训练文本对应的特征向量,确定各训练文本之间的文本相似度。
在实际应用中,在确定训练文本之间的文本相似度时,可以将各训练文本转换为特征向量,并基于各训练文本对应的特征向量,确定各训练文本之间的文本相似度。其中,基于各训练文本对应的特征向量,确定各训练文本之间的文本相似度可以采用预先配置的相似度算法进行计算,而相似度算法可以预先配置,本申请实施例不限定,如可以采用余弦相似度算法确定各训练文本之间的文本相似度。
在实际应用中,作为一可选方式,每个训练文本对应的特征向量可以为词袋特征向量,每个特征向量的向量维度可以基于所有训练文本所包括的词语数量确定。例如,可以将特征向量所包括的维度与所有训练文本所包括的词语和/或文字的数量设置为相同的。在一示例中,假设所有训练文本所包括的词语数量为100,此时各训练文本对应的特征向量的维度可以设置为100维,且一个维度对应于一个词语。
进一步的,在确定各训练文本对应的特征向量所包括的维度后,可以确定每个训练文本对应的特征向量中每一个维度的取值。其中,确定每个训练文本对应的特征向量中每一个维度的取值的实现方式可以预先配置,本申请实施例不限定。
例如,在确定一个训练文本对应的特征向量时,可以在训练文本中包括的词语所对应的维度的取值填充1,在其它词语所对应于的维度的取值填充0。在一示例中,假设所有训练文本所包括的词语为“今天天气还真不错中国历史文化古迹文物”,共10个词语和字,则此时训练文本对应的特征向量的向量维度为10维,且每个维度与10个词语“今天天气还真不错中国历史文化古迹文物”中各词的排序位置一一对应。相应的,对于一训练文本“今天天气还真不错”,对文本进行分词处理后的结果为“今天天气还真不错”,则该文本的10维的特征向量中与今天、天气、还、真、不错这几个词所对应的维度填充1,在词语“中国历史文化古迹文物”对应的维度填充0,此时该训练文本“今天天气还真不错”对应的特征向量可以为[1111100000]。
当然,还可以采用其他方式确定每个训练文本对应的特征向量,在实际应用中,确定特征向量的具体方式本申请实施例不限定。例如,指定算法可以为BIM25(基于概率检索模型提出的算法)、simhash、TF-IDF(term frequency–inverse document frequency,词频-词频逆文本频率指数)等算法。
在一示例中,假设所有训练文本所包括的词语(即词袋)为“今天天气还真不错中国历史文化古迹文物”,且这些词语的排序是固定的,此时训练文本对应的特征向量所包括的维度为10维,假设确定特征向量各维度取值的方式为TF-IDF算法,则对于每个训练文本,可以基于该训练文本的分词结果,根据TF-IDF算法计算每个分词对应的TF-IDF值,将该值作为该训练文本的10维特征向量中对应维度的取值,从而得到该训练文本的特征向量。
如表2中所示的一示例中,其中示出了3个训练文本(表2中所示的样本1、样本2和样本3),该表中所示的示例中,样本1中包含了今天、天气、还、真、不错这几个词,通过TF-IDF算法确定这几个词对应的TF-IDF值分别为1.7、2.5、0.3、1、3.4,则样本1的特征向量为[1.7,2.5,0.3,1,3.4,0,0,0,0,0],而对于样本2,其包含了今天、中国、历史、文化、古迹、文物这几个词,通过TF-IDF算法确定这几个词对应的TF-IDF值分别为0.8、1.1、4.3、2.9、1.8、1.3,样本2的特征向量为[0.8,0,0,0,0,1.1,4.3,2.9,1.8,1.3],同理,样本33的特征向量为[0,0,0,0,0,0,0,0,0,0.2]。
表2
词袋 样本1 样本2 样本3
今天 1.7 0.8 0
天气 2.5 0 0
0.3 0 0
1 0 0
不错 3.4 0 0
中国 0 1.1 0
历史 0 4.3 0
文化 0 2.9 0
古迹 0 1.8 0
文物 0 1.3 0.2
为了更好地理解本申请实施例所提供的方法,下面结合具体的应用场景对本申请实施例所提供的方式进行详细描述。
在本示例中,应用场景为对训练样本标注训练标签,得到目标训练集,各训练样本为未标注有训练标签的文本,聚类参数设置界面与相似度参数设置界面和聚类文本选择界面处于同一界面中的不同区域,具体可以如图3所示。其中,图3中的A区域为相似度参数设置界面(图3中包括的相似度参数为相似度阈值(即设定阈值)),B区域为聚类参数设置界面(图3中包括的聚类参数为文本聚类阈值),C区域为聚类文本选择界面;此外,在该界面中还包括有用于用户触发进行文本聚类的触发按钮(图3中“执行”)、允许上传的文件(即训练文本)的类型信息(图3中的文件类型为xlsx)、以及训练样本是否标注有训练标签的结果选项(图3中包括“是”和“否”),由于本示例中的应用场景为对训练样本标注训练标签,即训练文本是未标注训练标签的文本,因此,图3中的训练样本的训练标签的结果为“否”的选项。相应的,如图4所示,在得到目标训练集时具体可以包括:
步骤S401,终端设备获取训练数据,其具体可以包括:
用户可以将各训练文本统计至一个xlsx格式的表格中,并将该格式的文件上传(如拖拽)到图3中的C区域以上传至终端设备,作为一示例,该表格具体可以如图5所示,其中,A列为训练文本索引(即index),B列为各训练文本(即target);进一步的,终端设备可以通过图3中所示的A区域接收用户输入的相似度阈值,以及通过B区域收用户输入的文本聚类阈值。
步骤S402,在接收到用户点击“执行”(图3中所示)按钮的操作时,确定各训练文本之间的相似度;
步骤S403,将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本,并对各待聚类文本进行聚类,得到聚类结果;
可选的,在实际应用中,在完成聚类处理后,还可以将聚类结果以及除各待聚类文本之外的各训练文本(即非聚类结果)展示给用户。作为一个示例,图6a和图6b中分别示出了一种聚类结果和非聚类结果的示意图,该示例中,聚类结果和非聚类结果具体可以是通过表格的形式展示给用户,如图6a中的cluster表格中示出的即为聚类结果,图6b中的single_samples表格示出的即为非聚类结果。由图6a可以看出,该示例中聚类结果包括两个聚类类别,图中所示cluster列(即B列)表示聚类类别,包括类别0和类别1,图中target列(即A列)表示训练文本,可以看出,类别0包含了“我顶”、“我顶”等4个训练文本,类别1包含了两个训练文本。图6b中则示出了除各待聚类文本之外的各训练文本(即图中所示的target列所对应的文本)。用户可以通过选择不同的表格,来查看聚类结果和非聚类结果。
步骤S404,根据聚类类别对各聚类类别包括的各训练文本标注训练标签,具体可以包括:
在得到聚类结果后,终端设备可以显示聚类标注界面,如图7所示,该聚类标注界面中可以包括聚类类别显示区域(图7中的A区域)以及文本显示区域(图7中的B区域),聚类类别显示区域中显示有用户选择的聚类类别(类1),文本显示区域中显示有类1所包括的各训练文本(图7中示出了“我顶”、“我顶”等四个文本);该聚类标注界面中还包括类别标注操作区域(图7中D区域所示的“全部是”的按钮)和类别标注取消操作区域(图7中D区域所示的“全部否”的按钮)、以及文本标注操作区域(图7中C区域所示的“是”的按钮,每个文本对应各自的操作区域)和文本标注取消操作区域(图7中C区域所示的“否”的按钮,每个文本对应各自的操作区域);进一步的,在通过类别标注操作区域接收到用户的标注操作时(如点击图7中的“全部是”按钮),可以对类1所包括的所有训练文本标注同一训练标签;同理,在通过文本标注操作区域接收到用户的标注操作时(如点击图7中的某一个“是”按钮),则对该“是”按钮对应的训练文本标注与类1相对应的训练标签。
可以理解的是,在对训练文本标注训练标签时,用户还可以通过类别标注取消操作区域接收到标注取消操作(如点击图7中的“全部否”按钮时),此时则可以对类1所包括的所有训练文本的标签删除;同理,当通过文本标注取消操作区域接收到文本标注取消操作(如点击图7中的某一个“否”按钮)时,则可以对该“否”按钮对应的训练文本的训练标签删除。
步骤S405,在对所有训练文本标注完成后,得到目标训练集。
本申请实施例提供了一种训练文本的处理装置,如图8所示,该训练文本的处理装置60可以包括:文本获取模块601、文本相似度确定模块602、聚类结果确定模块603以及文本处理模块604,其中,
文本获取模块601,用于获取各训练文本;
文本相似度确定模块602,用于确定各训练文本之间的文本相似度;
聚类结果确定模块603,用于将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本,对各待聚类文本进行聚类,得到聚类结果;
文本处理模块604,用于基于聚类结果对各待聚类文本进行处理。
可选的,聚类结果包括各聚类类别、以及各聚类类别所包含的训练文本;
训练文本为未标注训练标签的文本,或者标注有训练标签的文本;
训练文本为未标注训练标签的文本,或者为标注有训练标签的文本;
若训练文本是未标注训练标签的文本,文本处理模块604在基于聚类结果对各待聚类文本进行处理时,可以用于:
根据聚类类别,对每个聚类类别所包含的训练文本标注训练标签;
若训练文本为标注有训练标签的文本,文本处理模块604在基于聚类结果对各待聚类文本进行处理时,可以用于:
根据聚类类别,对每个聚类类别所包含的训练文本的训练标签进行检验。
可选的,文本处理模块604在根据聚类类别,对每个聚类类别所包含的训练文本标注训练标签时,具体可以用于:
显示聚类标注界面,聚类标签标注界面显示有至少一个聚类类别、至少一个聚类类别中每个聚类类别包括的训练文本、以及标注操作区域;
在通过标注操作区域接收到用户的标注操作时,根据聚类类别,对标注操作所对应的至少一个训练文本标注训练标签,训练标签与至少一个训练文本所属的聚类类别相对应。
可选的,聚类标注界面包含聚类类别显示区域,聚类类别显示区域用于显示至少一个聚类类别;
标注操作区域包括类别标注操作区域,文本处理模块604在通过标注操作区域接收到用户的标注操作时,根据聚类类别,对标注操作所对应的至少一个训练文本标注训练标签时,可以用于:
在通过类别标注操作区域接收到用户的标注操作时,基于标注操作针对的聚类类别,对该聚类类别所包括的所有训练文本标注训练标签。
可选的,聚类标注界面包含文本显示区域,文本显示区域用于显示至少一个聚类类别中每个聚类类别所包括的训练文本;
标注操作区域包括文本标注操作区域,文本处理模块604在通过标注操作区域接收用户的标注操作时,根据聚类类别,对标注操作所对应的至少一个训练文本标注训练标签时,可以用于:
在通过文本标注操作区域接收到用户的标注操作时,对标注操作针对的训练文本标注训练标签。
可选的,聚类标签标注界面中还显示有类别选择区域,文本处理模块604还可以用于:
在通过所述类别选择区域接收到用户的聚类类别选择操作时,将聚类类别选择操作所对应的聚类类别确定为上述至少一个聚类类别。
可选的,文本获取模块601在获取各训练文本,具体用于:
在接收到文本聚类操作请求时,显示聚类文本选择界面,其中,文本聚类界面中包含有文本添加区域;
获取用户通过文本添加区域所添加的各训练文本。
可选的,文该装置还可以包括相似度参数获取模块,该模块用于:
显示相似度参数设置界面;
通过相似度参数设置界面接收用户输入的相似度参数,其中,相似度参数包括上述设定阈值。
可选的,该装置还可以包括输出模块,该输出模块用于:
输出文本处理结果,文本处理结果包括聚类结果和非聚类结果,非聚类结果包括除各待聚类文本之外的各训练文本。
可选的,聚类结果确定模块603在对各待聚类文本进行聚类,得到聚类结果时,具体用于:
显示聚类参数设置界面;
通过聚类参数设置界面接收用户的输入的聚类参数;
根据聚类参数,对各待聚类文本进行聚类,得到聚类结果。
可选的,文本相似度确定模块602在确定各训练文本之间的文本相似度时,可以具体用于:
对各训练文本进行文本预处理,得到预处理后的各训练文本;
确定预处理后的各训练文本之间的文本相似度。
可选的,文本预处理包括以下至少一项:
删除特定字符处理、分词处理、去除停用词处理或分字处理。
可选的,文本预处理包括分词处理和分字处理,文本相似度确定模块602在确定各训练文本之间的文本相似度时,具体用于:
对于每个训练文本,对训练文本进行分词处理,得到分词结果;
对训练文本进行分字处理,得到训练文本对应的分字结果;
将分词结果和分字结果进行拼接,得到训练文本对应的拼接结果;
基于每个训练文本对应的拼接结果,确定各训练文本之间的文本相似度。
本申请实施例的训练文本的处理模块可执行本申请实施例提供的一种训练文本的处理方法,其实现原理相类似,此处不再赘述。
本申请实施例中的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供了一种电子设备,如图9所示,图9所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图8所示的各模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备,RAM或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图8所示实施例提供的训练文本的处理装置。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:处理器;以及存储器,存储器配置用于存储机器计算机程序,该计算机程序在由该处理器执行时,使得该处理器执行训练文本的处理方法。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行训练文本的处理方法。
本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种训练文本的处理方法,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (15)

1.一种训练文本的处理方法,其特征在于,包括:
获取各训练文本;
确定各所述训练文本之间的文本相似度;
将各所述文本相似度中大于设定阈值的相似度所对应的各所述训练文本作为待聚类文本,对各所述待聚类文本进行聚类,得到聚类结果;
基于所述聚类结果对各所述待聚类文本进行处理。
2.根据权利要求1所述的方法,其特征在于,所述聚类结果包括各聚类类别、以及各所述聚类类别所包含的训练文本;
所述训练文本为未标注训练标签的文本,或者为标注有训练标签的文本;
若所述训练文本是未标注训练标签的文本,所述基于所述聚类结果对各所述待聚类文本进行处理,包括:
根据所述聚类类别,对每个所述聚类类别所包含的训练文本标注训练标签;
若所述训练文本为标注有训练标签的文本,所述基于所述聚类结果对各所述待聚类文本进行处理,包括:
根据所述聚类类别,对每个所述聚类类别所包含的训练文本的训练标签进行检验。
3.根据权利要求2所述的方法,其特征在于,所述根据所述聚类类别,对每个所述聚类类别所包含的训练文本标注训练标签,包括:
显示聚类标注界面,所述聚类标签标注界面显示有至少一个聚类类别、所述至少一个聚类类别中每个所述聚类类别包括的训练文本、以及标注操作区域;
在通过所述标注操作区域接收到用户的标注操作时,根据所述聚类类别,对所述标注操作所对应的至少一个训练文本标注训练标签,所述训练标签与所述至少一个训练文本所属的聚类类别相对应。
4.根据权利要求3所述的方法,其特征在于,所述聚类标注界面包含聚类类别显示区域,所述聚类类别显示区域用于显示所述至少一个聚类类别;
所述标注操作区域包括类别标注操作区域,所述在通过所述标注操作区域接收到用户的标注操作时,根据所述聚类类别,对所述标注操作所对应的至少一个训练文本标注训练标签,包括:
在通过所述类别标注操作区域接收到用户的标注操作时,基于所述标注操作针对的聚类类别,对该聚类类别所包括的所有训练文本标注训练标签。
5.根据权利要求3所述的方法,其特征在于,所述聚类标注界面包含文本显示区域,所述文本显示区域用于显示所述至少一个聚类类别中每个所述聚类类别所包括的训练文本;
所述标注操作区域包括文本标注操作区域,所述在通过所述标注操作区域接收用户的标注操作时,根据所述聚类类别,对所述标注操作所对应的至少一个训练文本标注训练标签,包括:
在通过所述文本标注操作区域接收到用户的标注操作时,对所述标注操作针对的训练文本标注训练标签。
6.根据权利要求3所述的方法,其特征在于,所述聚类标签标注界面中还显示有类别选择区域,所述方法还包括:
在通过所述类别选择区域接收到用户的聚类类别选择操作时,将所述聚类类别选择操作所对应的聚类类别确定为所述至少一个聚类类别。
7.根据权利要求1所述的方法,其特征在于,所述获取各训练文本,包括:
在接收到文本聚类操作请求时,显示聚类文本选择界面,其中,所述文本聚类界面中包含有文本添加区域;
获取用户通过所述文本添加区域所添加的各所述训练文本。
8.根据权利要求1所述的方法,其特征在于,还包括:
显示相似度参数设置界面;
通过所述相似度参数设置界面接收用户输入的相似度参数,其中,所述相似度参数包括所述设定阈值。
9.根据权利要求1所述的方法,其特征在于,还包括:
输出文本处理结果,所述文本处理结果包括所述聚类结果和非聚类结果,所述非聚类结果包括除各所述待聚类文本之外的各所述训练文本。
10.根据权利要求1所述的方法,其特征在于,所述对各所述待聚类文本进行聚类,得到聚类结果,包括:
显示聚类参数设置界面;
通过聚类参数设置界面接收用户的输入的聚类参数;
根据所述聚类参数,对各所述待聚类文本进行聚类,得到聚类结果。
11.根据权利要求1所述的方法,其特征在于,所述确定各所述训练文本之间的文本相似度,包括:
对各所述训练文本进行文本预处理,得到预处理后的各训练文本;
确定所述预处理后的各训练文本之间的文本相似度;
其中,所述文本预处理包括以下至少一项:
删除特定字符处理、分词处理、去除停用词处理或分字处理。
12.根据权利要求11所述的方法,其特征在于,所述文本预处理包括分词处理和分字处理,所述确定各所述训练文本之间的文本相似度,包括:
对于每个所述训练文本,对所述训练文本进行所述分词处理,得到分词结果;
对所述训练文本进行分字处理,得到所述训练文本对应的分字结果;
将所述分词结果和所述分字结果进行拼接,得到所述训练文本对应的拼接结果;
基于每个所述训练文本对应的拼接结果,确定各所述训练文本之间的文本相似度。
13.一种训练文本的处理装置,其特征在于,包括:
文本获取模块,用于获取各训练文本;
文本相似度确定模块,用于确定各所述训练文本之间的文本相似度;
聚类结果确定模块,用于将各所述文本相似度中大于设定阈值的相似度所对应的各所述训练文本作为待聚类文本,对各所述待聚类文本进行聚类,得到聚类结果;
文本处理模块,用于基于所述聚类结果对各所述待聚类文本进行处理。
14.一种电子设备,其特征在于,包括处理器以及存储器:
所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得计算机可以执行上述权利要求1-12中任一项所述的方法。
CN202010407585.4A 2020-05-14 2020-05-14 训练文本的处理方法、装置、电子设备及可读存储介质 Active CN111597336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010407585.4A CN111597336B (zh) 2020-05-14 2020-05-14 训练文本的处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010407585.4A CN111597336B (zh) 2020-05-14 2020-05-14 训练文本的处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111597336A true CN111597336A (zh) 2020-08-28
CN111597336B CN111597336B (zh) 2023-12-22

Family

ID=72190855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010407585.4A Active CN111597336B (zh) 2020-05-14 2020-05-14 训练文本的处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111597336B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131890A (zh) * 2020-09-15 2020-12-25 北京慧辰资道资讯股份有限公司 一种会话意图智能识别模型的构建方法、装置及设备
CN113011152A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120116766A1 (en) * 2010-11-07 2012-05-10 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN108520009A (zh) * 2018-03-19 2018-09-11 北京工业大学 一种英文文本聚类方法及系统
CN108596770A (zh) * 2017-12-29 2018-09-28 山大地纬软件股份有限公司 基于离群值分析的医疗保险欺诈检测装置及方法
CN108710894A (zh) * 2018-04-17 2018-10-26 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN109299271A (zh) * 2018-10-30 2019-02-01 腾讯科技(深圳)有限公司 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110019703A (zh) * 2017-09-21 2019-07-16 阿里巴巴集团控股有限公司 数据标记方法及装置、智能问答方法及系统
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN110209809A (zh) * 2018-08-27 2019-09-06 腾讯科技(深圳)有限公司 文本聚类方法和装置、存储介质及电子装置
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
CN110443264A (zh) * 2018-05-03 2019-11-12 北京京东尚科信息技术有限公司 一种聚类的方法和装置
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备
US20200026965A1 (en) * 2017-04-07 2020-01-23 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
CN110807086A (zh) * 2019-10-08 2020-02-18 腾讯科技(深圳)有限公司 文本数据标注方法及装置、存储介质、电子设备
CN111126035A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种电商评论分析场景下细粒度属性分析方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120116766A1 (en) * 2010-11-07 2012-05-10 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition
US20200026965A1 (en) * 2017-04-07 2020-01-23 Intel Corporation Methods and systems for budgeted and simplified training of deep neural networks
CN108304427A (zh) * 2017-04-28 2018-07-20 腾讯科技(深圳)有限公司 一种用户客群分类方法和装置
CN110019703A (zh) * 2017-09-21 2019-07-16 阿里巴巴集团控股有限公司 数据标记方法及装置、智能问答方法及系统
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN108596770A (zh) * 2017-12-29 2018-09-28 山大地纬软件股份有限公司 基于离群值分析的医疗保险欺诈检测装置及方法
CN108520009A (zh) * 2018-03-19 2018-09-11 北京工业大学 一种英文文本聚类方法及系统
CN108710894A (zh) * 2018-04-17 2018-10-26 中国科学院软件研究所 一种基于聚类代表点的主动学习标注方法和装置
CN110443264A (zh) * 2018-05-03 2019-11-12 北京京东尚科信息技术有限公司 一种聚类的方法和装置
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN110209809A (zh) * 2018-08-27 2019-09-06 腾讯科技(深圳)有限公司 文本聚类方法和装置、存储介质及电子装置
CN109299271A (zh) * 2018-10-30 2019-02-01 腾讯科技(深圳)有限公司 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN109189934A (zh) * 2018-11-13 2019-01-11 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110413780A (zh) * 2019-07-16 2019-11-05 合肥工业大学 文本情感分析方法、装置、存储介质及电子设备
CN110807086A (zh) * 2019-10-08 2020-02-18 腾讯科技(深圳)有限公司 文本数据标注方法及装置、存储介质、电子设备
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备
CN111126035A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种电商评论分析场景下细粒度属性分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SAVCHENKO, ANDREY V.: "Clustering and maximum likelihood search for efficient statistical classification with medium-sized databases", 《OPTIMIZATION LETTERS》, pages 329 - 341 *
刘爽等: "用于多类别分类的一种加权超球支持向量机算法", 《微电子学与计算机》, pages 19 - 23 *
王宇峰: "文本情感分析及其应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 912 *
翟广鑫: "基于深度学习的FAQ问答系统实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 1500 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131890A (zh) * 2020-09-15 2020-12-25 北京慧辰资道资讯股份有限公司 一种会话意图智能识别模型的构建方法、装置及设备
CN113011152A (zh) * 2021-03-04 2021-06-22 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质
CN113011152B (zh) * 2021-03-04 2022-08-26 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111597336B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US11915104B2 (en) Normalizing text attributes for machine learning models
US20210406266A1 (en) Computerized information extraction from tables
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN111340054A (zh) 数据标注方法、装置及数据处理设备
CN108959474B (zh) 实体关系提取方法
CN113657087B (zh) 信息的匹配方法及装置
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111339784B (zh) 一种新话题的自动挖掘方法和系统
CN114691525A (zh) 测试用例的选择方法及装置
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN116610304B (zh) 页面代码生成方法、装置、设备和存储介质
CN115952800A (zh) 命名实体识别方法、装置、计算机设备及可读存储介质
CN115082598A (zh) 文本图像生成、训练、文本图像处理方法以及电子设备
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN109857838B (zh) 用于生成信息的方法和装置
CN113705692A (zh) 基于人工智能的情感分类方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027017

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant