CN110442716A - 智能文本数据处理方法和装置、计算设备、存储介质 - Google Patents

智能文本数据处理方法和装置、计算设备、存储介质 Download PDF

Info

Publication number
CN110442716A
CN110442716A CN201910718221.5A CN201910718221A CN110442716A CN 110442716 A CN110442716 A CN 110442716A CN 201910718221 A CN201910718221 A CN 201910718221A CN 110442716 A CN110442716 A CN 110442716A
Authority
CN
China
Prior art keywords
corpus
text
text data
cluster set
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910718221.5A
Other languages
English (en)
Other versions
CN110442716B (zh
Inventor
童丽霞
马鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910718221.5A priority Critical patent/CN110442716B/zh
Publication of CN110442716A publication Critical patent/CN110442716A/zh
Application granted granted Critical
Publication of CN110442716B publication Critical patent/CN110442716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种智能文本数据处理方法和装置、计算设备、存储介质,该智能文本数据处理方法包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。本发明实施例能实现文本数据的自动处理。

Description

智能文本数据处理方法和装置、计算设备、存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种智能文本数据处理方法和装置、计算设备、存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
传统的客服机器人上线之前一般需要运营人员对大量的语料进行知识梳理,并在经过不断的修改优化后,将知识录入系统,知识录入完成后,运营人员还要对每一个知识点进行语料标注。
上述技术方案存在以下不足之处:
一、知识梳理和录入需要耗费大量的人力。
二、由于标注量大,耗时长,客服机器人从立项到上线平均需要一个月(配备两个运营人员)。
三、无法将海量的工单数据利用起来,所利用的语料有限。
四、不同的运营人员存在认知差异,容易造成所梳理、录入、标注的知识不统一。
综上,上述传统的技术方案无法实现文本数据的自动处理,因此需要耗费大量的人力和时间。
故,有必要提出一种新的技术方案,以解决上述技术问题。
发明内容
本发明的目的在于提供一种智能文本数据处理方法和装置、计算设备、存储介质,其能实现文本数据的自动处理。
为解决上述问题,本发明实施例的技术方案如下:
第一方面,提供一种智能文本数据处理方法,包括:显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
第二方面,提供一种智能文本数据处理方法,包括:对获取到的语料文本数据进行聚类,得到语料聚类集合;对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;将提取到的词语组合成与所述语料聚类集合对应的词条标识。
第三方面,提供一种智能文本数据处理装置,包括:显示模块,用于显示语料文本导入界面;获取模块,用于当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;展示模块,用于在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
第四方面,提供一种智能文本数据处理装置,包括:聚类模块,用于对获取到的语料文本数据进行聚类,得到语料聚类集合;提取模块,用于对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;组合模块,用于将提取到的词语组合成与所述语料聚类集合对应的词条标识。
第五方面,提供一种计算设备,所述计算设备包括处理器和存储器,所述存储器用于存储程序代码,所述计算设备运行时,所述处理器用于执行所述程序代码,以执行上述第一方面的文本数据处理方法。
第六方面,提供一种存储有程序代码的计算机可读存储介质,所述程序代码用于使得计算机执行上述第一方面的文本数据处理方法。
在本发明实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,以得到语料聚类集合,以及通过对出现频次较高的词语进行排列组合,以生成语料聚类集合的词条标识,因此可以将语料文本数据自动处理成词条标识和词条标识对应的语料聚类集合,即,可以实现语料文本数据的自动处理。本发明实施例中的技术方案由于实现了语料文本数据的自动化处理,因此无需耗费大量的人力,并且可以节省项目时间,基于此,可以将更多工单数据等语料文本数据利用起来,使得所得出的语料聚类集合及其词条标识能够涉及更广泛的内容,即,能够针对更加全面的内容来生成更加全面的客服信息(包括多种多样的词条标识和语料聚类集合),此外,由于对语料文本数据进行统一处理,因此可以减小处理结果的差异,避免因不同的运营人员的认知差异导致的处理结果不准确的情况。通过对语料文本数据进行自动处理,可以使得运营人员仅需做部分精编辑的处理,即,只需审核、分类、编辑答案以及少量标注,节省了人力。
另外,在本发明实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,因此可以使得各语料聚类集合间的区分度较高,语料聚类集合内的数据相似度较好。另外,由于过滤掉语料文本数据中的无意义词语,并根据词语的出现频次选取预定数量出现频次最高的词语来排列组合,以组成语料聚类集合的词条标识,因此可以使得划分的知识较为细致,并且所生成的词条标识能够更加准确地反映语料聚类集合的内容。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的智能文本数据处理方法的一种运行模式的示意图。
图2是本发明实施例提供的智能文本数据处理方法的另一种运行模式的示意图。
图3是本发明实施例提供的智能文本数据处理方法的示意图。
图4是本发明实施例提供的语料文本导入界面的示意图。
图5是本发明实施例提供的语料文本分类界面的一种展示形式的示意图。
图6是本发明实施例提供的语料文本分类界面的另一种展示形式的示意图。
图7是本发明实施例提供的智能文本数据处理方法的流程图。
图8是图7所示的智能文本数据处理方法中当检测到语料文本分类界面触发的编辑指令时,展示针对语料分类结果进行编辑的编辑结果的步骤的流程图。
图9是图8中当检测到目录转移控件触发的目录转移指令时,展示语料聚类集合中的问题所转移的目标目录的步骤的流程图。
图10是图8中当检测到删除控件触发的删除指令时,展示语料聚类集合中经过删除后剩余的问题的步骤的流程图。
图11是图7所示的智能文本数据处理方法中对语料文本数据进行处理,得到语料分类结果的步骤的示意图。
图12是图7所示的智能文本数据处理方法中对语料文本数据进行处理,得到语料分类结果的步骤的流程图。
图13是图12中过滤语料聚类集合中的预定类型词语,得到文本过滤结果的步骤的流程图。
图14是图12中将提取到的词语组合成与语料聚类集合对应的词条标识的步骤的流程图。
图15是本发明实施例提供的智能文本数据处理的框图。
图16是图15所示的智能文本数据处理装置中的处理模块的框图。
图17是本发明实施例提供的计算设备的运行环境的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,术语“模块”一般指:硬件、硬件和软件的组合、软件等。例如,模块可以是运行在处理器上的进程、处理器、对象、可执行应用、执行的线程、程序等。运行在处理器上的应用和该处理器二者都可以是模块。一个或多个模块可以位于一个计算机中和/或分布在两个或更多计算机之间。
在本发明实施例中,“第一”、“第二”等仅为用于区分不同的对象,而不应对本发明实施例构成任何限定。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本发明实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:
本发明实施例提供了一种智能文本数据处理方法和装置、计算设备、存储介质。具体地,本发明实施例提供的智能文本数据处理方法和装置适用于(集成于)第一计算机设备101,或者适用于(集成于)包括第一计算机设备101和第二计算机设备103的计算系统。
在本发明实施例提供的智能文本数据处理方法和装置适用于第一计算机设备101的情况下,本发明实施例提供的智能文本数据处理方法和装置运行于所述第一计算机设备101中,所述第一计算机设备101可以为个人计算机、服务器、移动设备(例如:移动电话、个人数字助理(PDA,Personal Digital Assistant)、平板电脑)、分布式计算机系统等设备,如图1所示。
在这种情况下,第一计算机设备101(例如,个人计算机)显示语料文本导入界面,第一计算机设备101根据运营人员在语料文本导入界面上操作的指令获取语料文本数据,并对该语料文本数据进行处理,以生成词条标识和语料聚类集合,第一计算机设备101在语料文本分类界面上展示词条标识和语料聚类集合,并根据运营人员在语料文本分类界面上编辑的指令对词条标识和语料聚类集合进行进一步的编辑处理。
在本发明实施例提供的智能文本数据处理方法和装置适用于包括第一计算机设备101和第二计算机设备103的计算系统的情况下,本发明实施例的智能文本数据处理方法和装置分步骤运行于第一计算机设备101和第二计算机设备103中,所述第一计算机设备101和所述第二计算机设备103均可以为个人计算机、服务器、移动设备(例如:移动电话、个人数字助理(PDA,Personal Digital Assistant)、平板电脑)、分布式计算机系统等设备。其中,所述第一计算机设备101和所述第二计算机设备103通过网络102连接,该网络102可以是有线网络或无线网络,如图2所示。
在这种情况下,第一计算机设备101(例如,个人计算机)显示语料文本导入界面,第一计算机设备101根据运营人员在语料文本导入界面上操作的指令获取语料文本数据,并将该语料文本数据上传(发送)至第二计算机设备103(例如,服务器);第二计算机设备103在接收到该语料文本数据后,对该语料文本数据进行处理,以生成词条标识和语料聚类集合,并向第一计算机设备101输出词条标识和语料聚类集合;第一计算机设备101在接收到该词条标识和语料聚类集合后,在语料文本分类界面上展示词条标识和语料聚类集合;第一计算机设备101根据运营人员在语料文本分类界面上编辑的指令对词条标识和语料聚类集合进行进一步的编辑处理。
下文将以本发明实施例提供的智能文本数据处理方法和装置适用于第一计算机设备101来说明。该第一计算机设备101例如为个人计算机。
如图3和图7所示,本发明实施例提供的智能文本数据处理方法包括:
登录系统。
新建智能客服项目。
步骤701,显示语料文本导入界面,所述语料文本导入界面可例如为客户端的一个界面或该界面的一部分。
步骤702,当检测到所述语料文本导入界面触发的语料导入(上传)指令时,获取导入的语料文本数据。所述语料文本数据包括客服人员与客户之间的在线咨询记录、语音电话记录、工单数据等,如图3所示。
一种情况是,用户点击语料文本导入界面上的“导入语料文本”的操作控件(或针对该操作控件按键盘的回车键),所述第一计算机设备101显示语料文本数据列表。
因此,在步骤701之后,以及在步骤702之前,所述方法还包括:
当检测到所述语料文本导入界面触发的第一界面操作指令时,显示语料文本数据列表,例如,所述第一界面操作指令为响应运营人员点击所述语料文本导入界面上“导入语料文本”的按钮(所述操作控件)的操作而触发的指令,所述按钮可例如为图形按钮或文本按钮,如图4所示,具体地,在本发明实施例中,可以在所述语料文本导入界面的特定区域上显示所述语料文本数据列表,也可以在弹出的一个窗口中显示所述语料文本数据列表。
所述语料文本数据列表可以是文件的列表,此时,所述语料文本数据的表现形式为文件,该文件可以是格式为.doc的文件,也可以是格式为.xls的文件,还可以是格式为.txt的文件,诸如此类。
此时,步骤702包括:
当检测到所述语料文本导入界面触发的语料导入指令时,获取用户从所述语料文本数据列表中选择的语料文本数据,例如,所述语料导入指令为响应运营人员双击语料文本数据列表中的语料文本数据的操作而触发的指令。
另一种情况是,用户点击语料文本导入界面上的“导入语料文本”的操作控件,所述第一计算机设备101显示语料文本数据输入控件。
因此,在步骤701之后,以及在步骤702之前,所述方法还包括:
当检测到所述语料文本导入界面触发的第二界面操作指令时,显示语料文本数据输入控件,例如,所述第二界面操作指令为响应运营人员点击所述语料文本导入界面上“导入语料文本”的按钮(所述操作控件)的操作而触发的指令,所述语料文本数据输入控件为输入语料文本数据的文本输入框。
此时,步骤702包括:
当检测到所述语料文本导入界面触发的语料导入指令时,获取用户通过所述语料文本数据输入控件输入的语料文本数据,例如,所述语料导入指令为响应运营人员在输入完语料文本数据后点击“确认”的按钮的操作而触发的指令。
步骤703,对获取到的所述语料文本数据进行处理,得到所述语料分类结果。在本发明实施例中,步骤703由所述第一计算机设备101执行,在实践中,步骤703也可以由第二计算机设备103执行,此时,所述第一计算机设备101将获取到的语料文本数据发送给第二计算机设备103,所述第二计算机设备103对所述语料文本数据处理后,向所述第一计算机设备101反馈(发送)包括语料聚类集合和所述语料聚类集合对应的词条标识的语料分类结果。
步骤704,在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。其中,至少两所述词条标识以列表的形式排列,如图5和图6所示。这些词条标识包括:“关闭_自动_续费”、“开通_自动_续费”等。每一词条标识被显示为一个选项。
在步骤704之后,所述方法还包括:
接收用户选择所述词条标识的词条标识选择指令。例如,如图5和图6所示,该词条标识选择指令为选择“关闭_自动_续费”这个词条标识的指令。
在接收到用户选择所述词条标识的词条标识选择指令后,突出显示所选择的所述词条标识。例如,高亮所述词条标识,或者为所述词条标识添加背景颜色,诸如此类。
响应所述词条标识选择指令,显示词条标识编辑界面、语料聚类集合编辑界面中的至少一者。如图5所示,显示词条标识编辑界面,如图6所示,显示语料聚类集合编辑界面。图5和图6均是择一显示所述词条标识编辑界面、所述语料聚类集合编辑界面,实际上也可以以并列的方式同时显示所述词条标识编辑界面和所述语料聚类集合编辑界面。
进一步地,所述语料分类结果还包括所述词条标识的目录,如图5和图6所示,所述目录中包括“未分类”、“自动续费问题”、“退款问题”等目录项。所述目录显示于包括至少两词条标识的词条标识列表的一侧,所述目录作为所述词条标识列表的根目录。
进一步地,所述语料分类结果还包括所述目录项所对应的词条标识的词条标识数量,所述词条标识数量显示于所述目录项的一侧。
在接收用户选择所述词条标识的词条标识选择指令之前,所述方法还包括:
接收用户选择所述目录项的目录项选择指令。
响应所述目录项选择指令,显示与所述目录项选择指令对应的至少一所述词条标识。
步骤705,当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果。
进一步地,如图5所示,所述词条标识编辑界面中包括所述词条标识的名称(标题内容),该名称(标题内容)用作所述词条标识的标签(小标题)。
所述语料文本分类界面包括第一输入控件,所述第一输入控件为编辑所述词条标识的名称的控件,例如,所述第一输入控件为输入所述词条标识的名称的文本输入框,所述第一输入控件显示于所述词条标识编辑界面中。
如图8所示,步骤705包括:
步骤7051,当检测到所述第一输入控件触发的名称编辑指令时,展示所输入的所述词条标识的名称。
进一步地,如图5所示,所述词条标识编辑界面中包括与所述词条标识/所述语料聚类集合对应的答复信息,具体地,该答复信息可以是针对该所述词条标识/所述语料聚类集合的回答(答案)。
所述语料文本分类界面包括第二输入控件,所述第二输入控件为编辑所述语料聚类集合的答复信息的控件,例如,所述第二输入控件为输入所述答复信息的文本输入框。
步骤705包括:
步骤7052,当检测到所述第二输入控件触发的答复信息编辑指令时,展示所输入的所述语料聚类集合的答复信息。
进一步地,如图5所示,所述词条标识编辑界面中包括与所述词条标识对应的统一资源定位符,该统一资源定位符可以是上述答复信息的出处(网页地址)。
所述语料文本分类界面包括第三输入控件,所述第三输入控件为编辑所述答复信息的统一资源定位符的控件,例如,所述第三输入控件为输入所述统一资源定位符的文本输入框。
步骤705包括:
步骤7053,当检测到所述第三输入控件触发的统一资源定位符编辑指令时,展示所输入的所述统一资源定位符。
进一步地,如图5所示,所述语料聚类集合编辑界面中包括与所述词条标识对应语料聚类集合,所述语料聚类集合中包括至少两问题,至少两所述问题以列表的形式排列。
所述语料文本分类界面包括目录转移控件,所述目录转移控件为转移所述语料聚类集合中的问题所对应的目录的控件,例如,所述目录转移控件为包括多个目录项的下拉列表框。
步骤705包括:
步骤7054,当检测到所述目录转移控件触发的目录转移指令时,展示所述语料聚类集合中的问题所转移的目标目录。
所述编辑指令包括第一问题选择指令和所述目录转移指令,所述第一问题选择指令为选择所述语料聚类集合中的问题的指令,所述目录转移指令为将所选择的问题转移至所述目标目录的指令。
如图9所示,步骤705包括:
步骤70541,当检测到所述目录转移控件触发的所述第一问题选择指令时,展示所选择的所述问题。
步骤70542,当检测到所述目录转移控件触发的所述目录转移指令时,将所选择的所述问题的目录转移至所述目标目录。
步骤70543,展示所述问题所转移的目标目录。
所述语料文本分类界面包括删除控件,所述删除控件为删除所述语料聚类集合中的问题的控件,例如,所述删除控件为删除所述语料聚类集合的按键。
步骤705包括:
步骤7055,当检测到所述删除控件触发的删除指令时,展示所述语料聚类集合中经过删除后剩余的问题。
所述编辑指令包括第二问题选择指令和所述删除指令,所述第二问题选择指令为选择所述语料聚类集合中的问题的指令,所述删除指令为删除所选择的问题的指令。
如图10所示,步骤705包括:
步骤70551,当检测到所述删除控件触发的所述第二问题选择指令时,展示所选择的所述问题。
步骤70552,当检测到所述删除控件触发的所述删除指令时,删除所选择的所述问题。
步骤70553,展示所述语料聚类集合中经过删除后剩余的问题。
所述语料文本分类界面包括目录编辑控件,所述目录编辑控件为编辑所述词条标识的目录的控件,例如,所述目录编辑控件为编辑目录的工具栏,所述工具栏上包括针对目录项进行新增、删除、修改的控件,如图5和图6所示。
步骤705包括:
步骤7056,当检测到所述目录编辑控件触发的目录编辑指令时,展示编辑后的所述目录。
步骤706,当检测到所述语料文本分类界面触发的提交指令时,提交所述语料分类结果或所述编辑结果。
步骤707,显示提交结果。
进一步地,在步骤702之后,还包括:
显示等待信息。
在步骤703由所述第一计算机设备101执行的情况下,如图11和图12所示,步骤703包括:
步骤7031,对所述语料文本数据进行聚类,得到语料聚类集合,所述语料聚类集合包括至少两问题。
具体地,步骤7031包括:
获取所述语料文本数据。
根据语料文本数据构造一个预设空间模型,该预设空间模型包括若干个点和若干条边,语料文本数据中的每一个问题为该预设空间模型中的一个点,该预设空间模型的每两个点之间由一条边相连,该边的长度与该边的权重值对应,该边的长度越大,即该边所连接的两点之间的距离越远,则该边的权重值越低,该边的长度越小,即该边所连接的两点之间的距离越小,则该边的权重值越高,该权重值反映了与该边连接的两个点之间的相似度。因此,当两个问题是相同的问题时,该边的长度为0,即,该边所连接的两个点合为一个点。
对由该预设空间模型中所有的点组成的图进行切图处理,并输出至少两子图,其中,不同子图间边的权重之和尽可能地低,子图内边的权重之和尽可能高,该子图所对应的所有语料文本数据即为经过聚类的一个语料聚类集合。
通过对所述语料文本数据进行聚类,可以使得所生成的语料聚类集合之间的区分度较高,同时,语料聚类集合内的数据相似度较好,有利于使得后续生成的词条标识能够准确反映该语料聚类集合的内容。
步骤7032,将内容相同或相近的至少两所述语料聚类集合进行合并。
一种情况是,步骤7032包括:
步骤70321,根据预设的同义词词库识别出内容相同或相近的至少两所述语料聚类集合。
步骤70322,将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
具体地,根据预设的同义词词库对至少两所述语料聚类集合中的至少两问题的第一文本进行识别,以识别出内容相同或相近的至少两所述语料聚类集合,以及将内容相同或相近的至少两所述语料聚类集合进行合并,以得到所述语料聚类集合。其中,该两个第一文本为两个除至少一处同义词外其它部分相同或大致相同的问题的文本。通过对内容相同或相近的至少两语料聚类集合进行合并,可以进一步减少聚类后的语料聚类集合中的问题数。
例如,对于“请问,怎样关闭视频会员自动续费?”和“请问,VIP怎样关闭自动续费?”这两个第一文本,识别出“会员”和“VIP”是同义词,除了这两个词以外,这两个第一文本相同或大致相同,此时,将这两个第一文本合并为“请问,怎样关闭视频会员自动续费?”这一个问题。
另一种情况是,步骤7032包括:
步骤70323,根据所述语料聚类集合的语义识别出内容相同或相近的至少两所述语料聚类集合。
步骤70324,将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
具体地,利用预设的网络模型来对至少两所述第一文本的语义进行分析,以识别出内容相同或相近的至少两所述语料聚类集合,该预设的网络模型是预先经过训练的卷积网络模型,然后将内容相同或相近的至少两所述问题进行合并,以得到所述语料聚类集合。
步骤7033,过滤所述语料聚类集合中的预定类型词语,得到文本过滤结果。
其中,如图13所示,步骤7033包括:
步骤70331,将所述语料聚类集合与预设的预定类型词库中的预定类型词语进行匹配(比较)。
步骤70332,删除所述语料聚类集合中与所述预定类型词语相匹配的词语,得到所述文本过滤结果,即,保留删除了该词语的文本,并据此作为(生成)所述文本过滤结果。
所述预定类型词语包括标点符号和无实质意义词语,所述无实质意义词语可例如为:“请问”、“那个”、“呢”、“了”、“吗”、“亲”,等等。由所述预定类型词语组成的词库即为所述预定类型词库,所述预定类型词库中的所述预定类型词语是预先设置并存储于数据库中的。
例如,所述第一文本包括:问题1。问题1为:“请问,怎样关闭视频会员自动续费?”
通过将所述语料聚类集合中的问题1与所述预定类型词库中的预定类型词语进行比较,得出问题1的“请问”、“,”、“怎样”、“?”为所述预定类型词语,将问题1中与预定类型词语相匹配的词语进行删除,得到“关闭视频会员自动续费”这样的第二文本。
对所述第一文本中的预定类型词语进行过滤是为了避免所述第一文本中的预定类型词语对后续的分词操作等造成干扰,从而使得后续的操作能够根据真实的词语、真实的出现频次生成准确的所述词条标识。
步骤7034,对所述文本过滤结果进行分词处理,得到至少两所述词语。
进一步地,使用python中自带的一个用于分词的库(工具)jieba来对所述第二文本进行分词处理。
例如,对于“关闭视频会员自动续费”这一第二文本,将其分成:“关闭”、“视频”、“会员”、“自动”、“续费”这五个词语。
进一步地,利用一个经过学习训练的网络模型按照所述第二文本的语义对所述第二文本进行分析,得出所述第二文本的语义,并进一步地根据该语义将所述第二文本进行分词处理。
步骤7035,计算每一所述词语在所述语料聚类集合中出现的频次。
具体地,将相同的词语的出现频次进行相加(汇总统计),对于不相同的词语,则单独计算,不进行相加(汇总统计)。此外,还根据同义的至少两词语计算该词语的出现频次。
例如,对于“会员”、“续费”、“充值”、“VIP”、“充钱”、“冲钱”等词语,将这些词语的出现频次计算出来,分别是:1、1、1、1、1、1。即,“会员”(1)、“续费”(1)、“充值”(1)、“VIP”(1)、“充钱”(1)、“冲钱”(1)。
将同义的词语的频次相加,得到“会员(VIP)”、“续费(充值、充钱、冲钱)”这几个词语的出现频次分别为:2、4,即,“会员(VIP)”(2)、“续费(充值、充钱、冲钱)”(4)。
步骤7036,对于每个语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语。
具体地,选取预定数量(例如:2、3)的出现频次最高的所述词语。
所述预定数量是一个变化的量,所述预定数量可以处于大于或等于1并且小于或等于5的范围内。
所述预定数量(所选取的词语的数量)的值根据对词语的出现频次的计算结果决定。
根据计算结果中第一部分的词语的出现频次是否与其它的第二部分的词语的出现频次具有较大的差值来决定该预定数量的值,在第一部分的词语的出现频次与其它的第二部分的词语的出现频次具有较大的差值的情况下,该预定数量的值即为第一部分的词语的数量。这样可以使得所选取的词语能够更准确地反映所述语料聚类集合的内容。
例如,在计算得出5个词语中的2个的出现频次为4,其它3个的出现频次均为1,那么决定该预定数量为2。
步骤7037,将提取到的词语组合成与所述语料聚类集合对应的词条标识。
其中,如图14所示,步骤7037包括:
步骤70371,将提取到的所述词语进行排列并组合,得到至少一词语组合。
步骤70372,计算每一所述词语组合在所述语料聚类集合中出现的频次。
步骤70373,选取出现的频次最高的词语组合,得到所述词条标识。
由于将预定数量的所述词语进行排列和组合后会得出多个词语组合,这些词语组合中的词语相同,但是排列次序不同,因此,作为一种改进,步骤70373包括:
在语料聚类集合中查找每一个所述词语组合的出现频次,即,计算每一个所述词语组合与所述语料聚类集合匹配(出现)的次数,并选取出现频次最高的词语组合来作为所述词条标识。
这样可以使得所得出的词条标识能够更加准确地反映该语料聚类集合的内容。
或者,
步骤7037包括:
将预定数量的所述词语根据预定规则进行排列。
将排列后的预定数量的所述词语组合成所述词条标识。
其中,该预定规则是一个关于符合基本语法或消费者的表述习惯的句子中的词语之间的相对位置、排列顺序等的规则,例如,主语-谓语-宾语的排列顺序的规则。
例如,从“会员(VIP)”(2)、“续费(充值、充钱、冲钱)”(4)、“视频”(1)、“自动”(5)、“关闭”(5)中选取3个出现频次最高的词语“续费(充值、充钱、冲钱)”(4)、“自动”(5)、“关闭”(5),按照所述预定规则,将“关闭”排列在前,将“自动”排在中间,将“续费”排列在后,将这三个词语组合,得到“关闭_自动_充值续费”这个词条标识。
由于预定数量的所述词语是根据预定规则进行排列的,因此,所得出的词条标识能够更加准确地反映该语料聚类集合的内容。
对于上述技术方案,具体地:
1、通过谱聚类算法将零散的语料文本数据聚类成少量的语料聚类集合,语料聚类集合内的数据具有相似性。
2、通过预设的同义词库进行识别,合并同义语料聚类集合,进一步减少聚类后的语料聚类集合数。
3、通过预设的无意义词库匹配,将数据中的噪音文本进行过滤。
4、对文本过滤结果进行分词处理。
5、计算出TOP关键词,TOP关键词将在后续词条标识生成环节使用到。
6、抽取语料聚类集合中的TOP3关键词,排列组合,选取频次最高的词组作为该语料聚类集合的词条标识。
在本发明实施例提供的智能文本数据处理方法中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,以得到语料聚类集合,以及通过对出现频次较高的词语进行排列组合,以生成语料聚类集合的词条标识,因此可以将语料文本数据自动处理成词条标识和词条标识对应的语料聚类集合,即,可以实现语料文本数据的自动处理。本发明实施例中的技术方案由于实现了语料文本数据的自动化处理,因此无需耗费大量的人力,并且可以节省项目时间,基于此,可以将更多工单数据等语料文本数据利用起来,使得所得出的语料聚类集合及其词条标识能够涉及更广泛的内容,即,能够针对更加全面的内容来生成更加全面的客服信息(包括多种多样的词条标识和语料聚类集合),此外,由于对语料文本数据进行统一处理,因此可以减小处理结果的差异,避免因不同的运营人员的认知差异导致的处理结果不准确的情况。通过对语料文本数据进行自动处理,可以使得运营人员仅需做部分精编辑的处理,即,只需审核、分类、编辑答案以及少量标注,节省了人力。
另外,在本发明实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,因此可以使得各语料聚类集合间的区分度较高,语料聚类集合内的数据相似度较好。另外,由于过滤掉语料文本数据中的无意义词语,并根据词语的出现频次选取预定数量出现频次最高的词语来排列组合,以组成语料聚类集合的词条标识,因此可以使得划分的知识较为细致,并且所生成的词条标识能够更加准确地反映语料聚类集合的内容。
下文将以本发明实施例提供的智能文本数据处理方法(对获取到的所述语料文本数据进行处理,得到所述语料分类结果的方法)适用于第二计算机设备103来说明。所述第二计算机设备103例如为服务器。
在本发明实施例中,所述第二计算机设备103从所述第一计算机设备101接收所述语料文本数据,并对所述语料文本数据处理,得到所述语料分类结果,以及向所述第一计算机设备101反馈(发送)包括语料聚类集合和所述语料聚类集合对应的词条标识的语料分类结果。
其中,对获取到的所述语料文本数据进行处理,得到所述语料分类结果的方法,包括:
对所述语料文本数据进行聚类,得到语料聚类集合,所述语料聚类集合包括至少两问题。
将内容相同或相近的至少两所述语料聚类集合进行合并。
过滤所述语料聚类集合中的预定类型词语,得到文本过滤结果。
对所述文本过滤结果进行分词处理,得到至少两所述词语。
计算每一所述词语在所述语料聚类集合中出现的频次。
对于每个语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语。
将提取到的词语组合成与所述语料聚类集合对应的词条标识。
其中,对所述语料文本数据进行聚类,得到语料聚类集合,包括:
获取所述语料文本数据。
根据语料文本数据构造一个预设空间模型,该预设空间模型包括若干个点和若干条边,语料文本数据中的每一个问题为该预设空间模型中的一个点,该预设空间模型的每两个点之间由一条边相连,该边的长度与该边的权重值对应,该边的长度越大,即该边所连接的两点之间的距离越远,则该边的权重值越低,该边的长度越小,即该边所连接的两点之间的距离越小,则该边的权重值越高,该权重值反映了与该边连接的两个点之间的相似度。因此,当两个问题是相同的问题时,该边的长度为0,即,该边所连接的两个点合为一个点。
对由该预设空间模型中所有的点组成的图进行切图处理,并输出至少两子图,其中,不同子图间边的权重之和尽可能地低,子图内边的权重之和尽可能高,该子图所对应的所有语料文本数据即为经过聚类的一个语料聚类集合。
通过对所述语料文本数据进行聚类,可以使得所生成的语料聚类集合之间的区分度较高,同时,语料聚类集合内的数据相似度较好,有利于使得后续生成的词条标识能够准确反映该语料聚类集合的内容。
其中,将内容相同或相近的至少两所述语料聚类集合进行合并,包括:
根据预设的同义词词库识别出内容相同或相近的至少两所述语料聚类集合。
将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
具体地,根据预设的同义词词库对至少两所述语料聚类集合中的至少两问题的第一文本进行识别,以识别出内容相同或相近的至少两所述语料聚类集合,以及将内容相同或相近的至少两所述语料聚类集合进行合并,以得到所述语料聚类集合。其中,该两个第一文本为两个除至少一处同义词外其它部分相同或大致相同的问题的文本。通过对内容相同或相近的至少两语料聚类集合进行合并,可以进一步减少聚类后的语料聚类集合中的问题数。
例如,对于“请问,怎样关闭视频会员自动续费?”和“请问,VIP怎样关闭自动续费?”这两个第一文本,识别出“会员”和“VIP”是同义词,除了这两个词以外,这两个第一文本相同或大致相同,此时,将这两个第一文本合并为“请问,怎样关闭视频会员自动续费?”这一个问题。
或者,将内容相同或相近的至少两所述语料聚类集合进行合并,包括:
根据所述语料聚类集合的语义识别出内容相同或相近的至少两所述语料聚类集合。
将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
具体地,利用预设的网络模型来对至少两所述第一文本的语义进行分析,以识别出内容相同或相近的至少两所述语料聚类集合,该预设的网络模型是预先经过训练的卷积网络模型,然后将内容相同或相近的至少两所述问题进行合并,以得到所述语料聚类集合。
其中,过滤所述语料聚类集合中的预定类型词语,得到文本过滤结果,包括:
将所述语料聚类集合与预设的预定类型词库中的预定类型词语进行匹配(比较)。
删除所述语料聚类集合中与所述预定类型词语相匹配的词语,得到所述文本过滤结果,即,保留删除了该词语的文本,并据此作为(生成)所述文本过滤结果。
所述预定类型词语包括标点符号和无实质意义词语,所述无实质意义词语可例如为:“请问”、“那个”、“呢”、“了”、“吗”、“亲”,等等。由所述预定类型词语组成的词库即为所述预定类型词库,所述预定类型词库中的所述预定类型词语是预先设置并存储于数据库中的。
例如,所述第一文本包括:问题1。问题1为:“请问,怎样关闭视频会员自动续费?”
通过将所述语料聚类集合中的问题1与所述预定类型词库中的预定类型词语进行比较,得出问题1的“请问”、“,”、“怎样”、“?”为所述预定类型词语,将问题1中与预定类型词语相匹配的词语进行删除,得到“关闭视频会员自动续费”这样的第二文本。
对所述第一文本中的预定类型词语进行过滤是为了避免所述第一文本中的预定类型词语对后续的分词操作等造成干扰,从而使得后续的操作能够根据真实的词语、真实的出现频次生成准确的所述词条标识。
其中,对所述文本过滤结果进行分词处理,得到至少两所述词语,包括:
使用python中自带的一个用于分词的库(工具)jieba来对所述第二文本进行分词处理。例如,对于“关闭视频会员自动续费”这一第二文本,将其分成:“关闭”、“视频”、“会员”、“自动”、“续费”这五个词语。或者,
利用一个经过学习训练的网络模型按照所述第二文本的语义对所述第二文本进行分析,得出所述第二文本的语义,并进一步地根据该语义将所述第二文本进行分词处理。
其中,计算每一所述词语在所述语料聚类集合中出现的频次,包括:
将相同的词语的出现频次进行相加(汇总统计),对于不相同的词语,则单独计算,不进行相加(汇总统计)。此外,还根据同义的至少两词语计算该词语的出现频次。例如,对于“会员”、“续费”、“充值”、“VIP”、“充钱”、“冲钱”等词语,将这些词语的出现频次计算出来,分别是:1、1、1、1、1、1。即,“会员”(1)、“续费”(1)、“充值”(1)、“VIP”(1)、“充钱”(1)、“冲钱”(1)。
将同义的词语的频次相加,得到“会员(VIP)”、“续费(充值、充钱、冲钱)”这几个词语的出现频次分别为:2、4,即,“会员(VIP)”(2)、“续费(充值、充钱、冲钱)”(4)。
其中,对于每个语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语,包括:
选取预定数量(例如:2、3)的出现频次最高的所述词语。
所述预定数量是一个变化的量,所述预定数量可以处于大于或等于1并且小于或等于5的范围内。
所述预定数量(所选取的词语的数量)的值根据对词语的出现频次的计算结果决定。
根据计算结果中第一部分的词语的出现频次是否与其它的第二部分的词语的出现频次具有较大的差值来决定该预定数量的值,在第一部分的词语的出现频次与其它的第二部分的词语的出现频次具有较大的差值的情况下,该预定数量的值即为第一部分的词语的数量。这样可以使得所选取的词语能够更准确地反映所述语料聚类集合的内容。
例如,在计算得出5个词语中的2个的出现频次为4,其它3个的出现频次均为1,那么决定该预定数量为2。
其中,将提取到的词语组合成与所述语料聚类集合对应的词条标识,包括:
将提取到的所述词语进行排列并组合,得到至少一词语组合。
计算每一所述词语组合在所述语料聚类集合中出现的频次。
选取出现的频次最高的词语组合,得到所述词条标识。
由于将预定数量的所述词语进行排列和组合后会得出多个词语组合,这些词语组合中的词语相同,但是排列次序不同,因此,作为一种改进,选取出现的频次最高的词语组合,得到所述词条标识,包括:
在语料聚类集合中查找每一个所述词语组合的出现频次,即,计算每一个所述词语组合与所述语料聚类集合匹配(出现)的次数,并选取出现频次最高的词语组合来作为所述词条标识。
这样可以使得所得出的词条标识能够更加准确地反映该语料聚类集合的内容。
或者,将提取到的词语组合成与所述语料聚类集合对应的词条标识,包括:
将预定数量的所述词语根据预定规则进行排列。
将排列后的预定数量的所述词语组合成所述词条标识。
其中,该预定规则是一个关于符合基本语法或消费者的表述习惯的句子中的词语之间的相对位置、排列顺序等的规则,例如,主语-谓语-宾语的排列顺序的规则。
例如,从“会员(VIP)”(2)、“续费(充值、充钱、冲钱)”(4)、“视频”(1)、“自动”(5)、“关闭”(5)中选取3个出现频次最高的词语“续费(充值、充钱、冲钱)”(4)、“自动”(5)、“关闭”(5),按照所述预定规则,将“关闭”排列在前,将“自动”排在中间,将“续费”排列在后,将这三个词语组合,得到“关闭_自动_充值续费”这个词条标识。
由于预定数量的所述词语是根据预定规则进行排列的,因此,所得出的词条标识能够更加准确地反映该语料聚类集合的内容。
对于上述对获取到的所述语料文本数据进行处理,得到所述语料分类结果的方法,具体地:
1、通过谱聚类算法将零散的语料文本数据聚类成少量的语料聚类集合,语料聚类集合内的数据具有相似性。
2、通过预设的同义词库进行识别,合并同义语料聚类集合,进一步减少聚类后的语料聚类集合数。
3、通过预设的无意义词库匹配,将数据中的噪音文本进行过滤。
4、对文本过滤结果进行分词处理。
5、计算出TOP关键词,TOP关键词将在后续词条标识生成环节使用到。
6、抽取语料聚类集合中的TOP3关键词,排列组合,选取频次最高的词组作为该语料聚类集合的词条标识。
由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,以得到语料聚类集合,以及通过对出现频次较高的词语进行排列组合,以生成语料聚类集合的词条标识,因此可以将语料文本数据自动处理成词条标识和词条标识对应的语料聚类集合,即,可以实现语料文本数据的自动处理。本发明实施例中的技术方案由于实现了语料文本数据的自动化处理,因此无需耗费大量的人力,并且可以节省项目时间,基于此,可以将更多工单数据等语料文本数据利用起来,使得所得出的语料聚类集合及其词条标识能够涉及更广泛的内容,即,能够针对更加全面的内容来生成更加全面的客服信息(包括多种多样的词条标识和语料聚类集合),此外,由于对语料文本数据进行统一处理,因此可以减小处理结果的差异,避免因不同的运营人员的认知差异导致的处理结果不准确的情况。通过对语料文本数据进行自动处理,可以使得运营人员仅需做部分精编辑的处理,即,只需审核、分类、编辑答案以及少量标注,节省了人力。
另外,在本发明实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,因此可以使得各语料聚类集合间的区分度较高,语料聚类集合内的数据相似度较好。另外,由于过滤掉语料文本数据中的无意义词语,并根据词语的出现频次选取预定数量出现频次最高的词语来排列组合,以组成语料聚类集合的词条标识,因此可以使得划分的知识较为细致,并且所生成的词条标识能够更加准确地反映语料聚类集合的内容。
为了更好地实施以上方法,相应的,本发明实施例还提供一种智能文本数据处理装置,所述智能文本数据处理装置可以集成于所述第一计算机设备101中。所述第一计算机设备101例如为个人计算机。
本发明实施例提供的智能文本数据处理装置包括:显示模块1501、获取模块1502、展示模块1504。如图15所示。
所述显示模块1501用于显示语料文本导入界面。
所述获取模块1502用于当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;
当检测到所述语料文本导入界面触发的第一界面操作指令时,所述显示模块1501还用于显示语料文本数据列表。
此时,当检测到所述语料文本导入界面触发的语料导入指令时,所述获取模块1502用于获取用户从所述语料文本数据列表中选择的语料文本数据。
或者,
当检测到所述语料文本导入界面触发的第二界面操作指令时,所述显示模块1501还用于显示语料文本数据输入控件。
此时,当检测到所述语料文本导入界面触发的语料导入指令时,所述获取模块1502用于获取用户通过所述语料文本数据输入控件输入的语料文本数据。
所述展示模块1504用于在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
在导入所述语料文本数据的过程中,所述显示模块1501还用于显示等待信息。
在接收用户选择所述目录项的目录项选择指令后,所述展示模块1504还用于响应所述目录项选择指令,显示与所述目录项选择指令对应的至少一所述词条标识。
在接收到用户选择所述词条标识的词条标识选择指令后,所述展示模块1504用还于突出显示所选择的所述词条标识,以及用于响应所述词条标识选择指令,显示词条标识编辑界面、语料聚类集合编辑界面中的至少一者。
所述语料分类结果还包括所述词条标识的目录,该目录包括至少一目录项,所述语料分类结果还包括所述目录项所对应的词条标识的词条标识数量,所述词条标识数量显示于所述目录项的一侧。
所述展示模块1504还用于当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果。
所述语料文本分类界面包括第一输入控件,所述第一输入控件为编辑所述词条标识的名称的控件。
所述展示模块1504用于当检测到所述第一输入控件触发的名称编辑指令时,展示所输入的所述词条标识的名称。
所述语料文本分类界面包括第二输入控件,所述第二输入控件为编辑所述语料聚类集合的答复信息的控件。
所述展示模块1504用于当检测到所述第二输入控件触发的答复信息编辑指令时,展示所输入的所述语料聚类集合的答复信息。
所述语料文本分类界面包括第三输入控件,所述第三输入控件为编辑所述答复信息的统一资源定位符的控件。
所述展示模块1504用于当检测到所述第三输入控件触发的统一资源定位符编辑指令时,展示所输入的所述统一资源定位符。
所述语料文本分类界面包括目录转移控件,所述目录转移控件为转移所述语料聚类集合中的问题所对应的目录的控件。
所述展示模块1504用于当检测到所述目录转移控件触发的目录转移指令时,展示所述语料聚类集合中的问题所转移的目标目录。
所述编辑指令包括第一问题选择指令和所述目录转移指令,所述第一问题选择指令为选择所述语料聚类集合中的问题的指令,所述目录转移指令为将所选择的问题转移至所述目标目录的指令。
所述展示模块1504用于当检测到所述目录转移控件触发的所述第一问题选择指令时,展示所选择的所述问题,以及用于当检测到所述目录转移控件触发的所述目录转移指令时,将所选择的所述问题的目录转移至所述目标目录,并展示所述问题所转移的目标目录。
所述语料文本分类界面包括删除控件,所述删除控件为删除所述语料聚类集合中的问题的控件。
所述展示模块1504用于当检测到所述删除控件触发的删除指令时,展示所述语料聚类集合中经过删除后剩余的问题。
所述编辑指令包括第二问题选择指令和所述删除指令,所述第二问题选择指令为选择所述语料聚类集合中的问题的指令,所述删除指令为删除所选择的问题的指令。
所述展示模块1504用于当检测到所述删除控件触发的所述第二问题选择指令时,展示所选择的所述问题,以及用于当检测到所述删除控件触发的所述删除指令时,删除所选择的所述问题,并展示所述语料聚类集合中经过删除后剩余的问题。
所述语料文本分类界面包括目录编辑控件,所述目录编辑控件为编辑所述词条标识的目录的控件。
所述展示模块1504用于当检测到所述目录编辑控件触发的目录编辑指令时,展示编辑后的所述目录。
本发明实施例提供的智能文本数据处理装置还包括提交模块1505。所述提交模块1505用于当检测到所述语料文本分类界面触发的提交指令时,提交所述语料分类结果或所述编辑结果。
所述显示模块1501或所述展示模块1504还用于显示提交结果。
本发明实施例提供的智能文本数据处理装置还包括处理模块1503。所述处理模块1503用于对所述语料文本数据进行处理,得到所述语料分类结果。
所述处理模块1503包括聚类模块15031、合并模块15032、提取模块15036、组合模块15037。如图16所示。
所述聚类模块15031用于对所述语料文本数据进行聚类,得到语料聚类集合。
所述合并模块15032用于将内容相同或相近的至少两所述语料聚类集合进行合并。
所述合并模块15032用于根据预设的同义词词库识别出内容相同或相近的至少两所述语料聚类集合,以及用于将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
或者,
所述合并模块15032用于根据所述语料聚类集合的语义识别出内容相同或相近的至少两所述语料聚类集合,以及用于将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
所述处理模块1503还包括过滤模块15033、分词模块15034、计算模块15035。
所述过滤模块15033用于过滤所述语料聚类集合中的预定类型词语,得到文本过滤结果。
具体地,所述过滤模块15033用于将所述语料聚类集合与预设的预定类型词库中的预定类型词语进行匹配,以及用于删除所述语料聚类集合中与所述预定类型词语相匹配的词语,得到所述文本过滤结果。
所述分词模块15034用于对所述文本过滤结果进行分词处理,得到至少两所述词语。
所述计算模块15035用于计算每一所述词语在所述语料聚类集合中出现的频次。
所述提取模块15036用于对于每个语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语。
所述组合模块15037用于将提取到的词语组合成与所述语料聚类集合对应的词条标识。
具体地,所述组合模块15037用于将提取到的所述词语进行排列并组合,得到至少一词语组合,并用于计算每一所述词语组合在所述语料聚类集合中出现的频次,以及用于选取出现的频次最高的词语组合,得到所述词条标识。
由于将预定数量的所述词语进行排列和组合后会得出多个词语组合,这些词语组合中的词语相同,但是排列次序不同,因此,所述组合模块15037还用于在语料聚类集合中查找每一个所述词语组合的出现频次,即,计算每一个所述词语组合与所述语料聚类集合匹配(出现)的次数,并用于选取出现频次最高的词语组合来作为所述词条标识。
或者,
所述组合模块15037用于将预定数量的所述词语根据预定规则进行排列,并用于将排列后的预定数量的所述词语组合成所述词条标识。
其中,该预定规则是一个关于符合基本语法或消费者的表述习惯的句子中的词语之间的相对位置、排列顺序等的规则,例如,主语-谓语-宾语的排列顺序的规则。
由于预定数量的所述词语是根据预定规则进行排列的,因此,所得出的词条标识能够更加准确地反映该语料聚类集合的内容。
由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,以得到语料聚类集合,以及通过对出现频次较高的词语进行排列组合,以生成语料聚类集合的词条标识,因此可以将语料文本数据自动处理成词条标识和词条标识对应的语料聚类集合,即,可以实现语料文本数据的自动处理。本发明实施例中的技术方案由于实现了语料文本数据的自动化处理,因此无需耗费大量的人力,并且可以节省项目时间,基于此,可以将更多工单数据等语料文本数据利用起来,使得所得出的语料聚类集合及其词条标识能够涉及更广泛的内容,即,能够针对更加全面的内容来生成更加全面的客服信息(包括多种多样的词条标识和语料聚类集合),此外,由于对语料文本数据进行统一处理,因此可以减小处理结果的差异,避免因不同的运营人员的认知差异导致的处理结果不准确的情况。通过对语料文本数据进行自动处理,可以使得运营人员仅需做部分精编辑的处理,即,只需审核、分类、编辑答案以及少量标注,节省了人力。
另外,在本发明实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,因此可以使得各语料聚类集合间的区分度较高,语料聚类集合内的数据相似度较好。另外,由于过滤掉语料文本数据中的无意义词语,并根据词语的出现频次选取预定数量出现频次最高的词语来排列组合,以组成语料聚类集合的词条标识,因此可以使得划分的知识较为细致,并且所生成的词条标识能够更加准确地反映语料聚类集合的内容。
为了更好地实施以上方法,相应的,本发明实施例还提供一种智能文本数据处理装置,所述智能文本数据处理装置可以集成于所述第二计算机设备103中。所述第二计算机设备103例如为服务器。
本发明实施例提供的智能文本数据处理装置包括聚类模块15031、合并模块15032、提取模块15036、组合模块15037。如图16所示。
所述聚类模块15031于对获取到的语料文本数据进行聚类,得到语料聚类集合。
所述合并模块15032用于将内容相同或相近的至少两所述语料聚类集合进行合并。
所述合并模块15032用于根据预设的同义词词库识别出内容相同或相近的至少两所述语料聚类集合,以及用于将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
所述合并模块15032用于根据所述语料聚类集合的语义识别出内容相同或相近的至少两所述语料聚类集合,以及用于将识别出的内容相同或相近的至少两所述语料聚类集合进行合并。
所述提取模块15036用于对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语。
所述组合模块15037用于将提取到的词语组合成与所述语料聚类集合对应的词条标识。
本发明实施例提供的智能文本数据处理装置还包括过滤模块15033、分词模块15034、计算模块15035。
所述过滤模块15033用于过滤所述语料聚类集合中的预定类型词语,得到文本过滤结果。
所述分词模块15034用于对所述文本过滤结果进行分词处理,得到至少两所述词语。
所述计算模块15035用于计算每一所述词语在所述语料聚类集合中出现的频次。
所述过滤模块15033用于将所述语料聚类集合与预设的预定类型词库中的预定类型词语进行匹配,以及用于删除所述语料聚类集合中与所述预定类型词语相匹配的词语,得到所述文本过滤结果。
所述组合模块15037用于将提取到的所述词语进行排列并组合,得到至少一词语组合,并用于计算每一所述词语组合在所述语料聚类集合中出现的频次,以及用于选取出现的频次最高的词语组合,得到所述词条标识。
由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,以得到语料聚类集合,以及通过对出现频次较高的词语进行排列组合,以生成语料聚类集合的词条标识,因此可以将语料文本数据自动处理成词条标识和词条标识对应的语料聚类集合,即,可以实现语料文本数据的自动处理。本发明实施例中的技术方案由于实现了语料文本数据的自动化处理,因此无需耗费大量的人力,并且可以节省项目时间,基于此,可以将更多工单数据等语料文本数据利用起来,使得所得出的语料聚类集合及其词条标识能够涉及更广泛的内容,即,能够针对更加全面的内容来生成更加全面的客服信息(包括多种多样的词条标识和语料聚类集合),此外,由于对语料文本数据进行统一处理,因此可以减小处理结果的差异,避免因不同的运营人员的认知差异导致的处理结果不准确的情况。通过对语料文本数据进行自动处理,可以使得运营人员仅需做部分精编辑的处理,即,只需审核、分类、编辑答案以及少量标注,节省了人力。
另外,在本发明实施例中,由于对语料文本数据进行聚类,并且将内容相同或相近的语料聚类集合进行合并,因此可以使得各语料聚类集合间的区分度较高,语料聚类集合内的数据相似度较好。另外,由于过滤掉语料文本数据中的无意义词语,并根据词语的出现频次选取预定数量出现频次最高的词语来排列组合,以组成语料聚类集合的词条标识,因此可以使得划分的知识较为细致,并且所生成的词条标识能够更加准确地反映语料聚类集合的内容。
本发明实施例的智能文本数据处理装置可以通过硬件实现,如图17所示,该硬件可以包括处理器1703、存储器1702、输入/输出接口1705、电源1704、通信电路1701等的任意组合,其中,存储器1702、输入/输出接口1705、电源1704、通信电路1701均与处理器1703电性连接。上述处理器1703、存储器1702、输入/输出接口1705、电源1704、通信电路1701等的任意组合用于实现本发明实施例的智能文本数据处理装置功能、步骤。
其中,该处理器1701可例如为:CPU(Central Processing Unit,中央处理器)、GPU、NPU(Neural Processing Unit,神经网络处理单元)、其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application SpecificIntegrated Circuit)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器或者是任何常规的处理器等。
该存储器1702可以包括只读存储器和随机存取存储器,用于向处理器提供程序代码和数据。存储器还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。
本发明实施例的智能文本数据处理装置也可以通过软件实现,此时,本发明实施例的智能文本数据处理装置及其各个模块也可以为软件模块。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品(其载体可例如为本发明实施例的计算机可读存储介质)的形式实现。
本发明实施例的智能文本数据处理装置还可以通过软件、硬件的组合来实现。
本发明实施例的智能文本数据处理装置可对应于执行本发明实施例中描述的方法,并且所述智能文本数据处理装置中的各个模块的上述和其它操作和/或功能用于实现本发明实施例的智能文本数据处理方法的相应流程。
本发明实施例的计算设备包括处理器、存储器。其中,处理器、存储器通过总线进行通信。所述存储器用于存储程序代码,所述计算设备运行时,所述处理器执行所述程序代码,以执行本发明实施例的智能文本数据处理方法。例如,该程序代码可以执行如下步骤:
显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
或者,
对获取到的语料文本数据进行聚类,得到语料聚类集合;对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;将提取到的词语组合成与所述语料聚类集合对应的词条标识。
本发明实施例的计算设备可例如为:个人计算机、服务器、移动设备(包括:移动电话、个人数字助理、媒体播放器等)、分布式计算机系统等。
本发明实施例的计算机可读存储介质存储有程序代码,所述程序代码用于使得计算机执行本发明实施例的智能文本数据处理方法。例如,该程序代码可以执行如下步骤:
显示语料文本导入界面;当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
或者,
对获取到的语料文本数据进行聚类,得到语料聚类集合;对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;将提取到的词语组合成与所述语料聚类集合对应的词条标识。
所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。
所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘(Solid State Drive,SSD)。
所述程序代码的指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述程序代码的指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL,DigitalSubscriber Line))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
综上所述,虽然本发明已以优选实施例揭露如上,但上述优选实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。

Claims (15)

1.一种智能文本数据处理方法,其特征在于,包括:
显示语料文本导入界面;
当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;
在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
2.根据权利要求1所述的智能文本数据处理方法,其特征在于,在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果之后,还包括:
当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果。
3.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括第一输入控件,所述第一输入控件为编辑所述词条标识的名称的控件;
当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:
当检测到所述第一输入控件触发的名称编辑指令时,展示所输入的所述词条标识的名称。
4.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括第二输入控件,所述第二输入控件为编辑所述语料聚类集合的答复信息的控件;
当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:
当检测到所述第二输入控件触发的答复信息编辑指令时,展示所输入的所述语料聚类集合的答复信息。
5.根据权利要求4所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括第三输入控件,所述第三输入控件为编辑所述答复信息的统一资源定位符的控件;
当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:
当检测到所述第三输入控件触发的统一资源定位符编辑指令时,展示所输入的所述统一资源定位符。
6.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括目录转移控件,所述目录转移控件为转移所述语料聚类集合中的问题所对应的目录的控件;
当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:
当检测到所述目录转移控件触发的目录转移指令时,展示所述语料聚类集合中的问题所转移的目标目录。
7.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括删除控件,所述删除控件为删除所述语料聚类集合中的问题的控件;
当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:
当检测到所述删除控件触发的删除指令时,展示所述语料聚类集合中经过删除后剩余的问题。
8.根据权利要求2所述的智能文本数据处理方法,其特征在于,所述语料文本分类界面包括目录编辑控件,所述目录编辑控件为编辑所述词条标识的目录的控件;
当检测到所述语料文本分类界面触发的编辑指令时,展示针对所述语料分类结果进行编辑的编辑结果,包括:
当检测到所述目录编辑控件触发的目录编辑指令时,展示编辑后的所述目录。
9.一种智能文本数据处理方法,其特征在于,包括:
对获取到的语料文本数据进行聚类,得到语料聚类集合;
对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;
将提取到的词语组合成与所述语料聚类集合对应的词条标识。
10.根据权利要求9所述的智能文本数据处理方法,其特征在于,在对所述语料文本数据进行聚类,得到语料聚类集合之后,以及在对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语之前,还包括:
将内容相同或相近的至少两所述语料聚类集合进行合并。
11.根据权利要求9所述的智能文本数据处理方法,其特征在于,对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语之前,还包括:
过滤所述语料聚类集合中的预定类型词语,得到文本过滤结果;
对所述文本过滤结果进行分词处理,得到至少两所述词语;
计算每一所述词语在所述语料聚类集合中出现的频次。
12.一种智能文本数据处理装置,其特征在于,包括:
显示模块,用于显示语料文本导入界面;
获取模块,用于当检测到所述语料文本导入界面触发的语料导入指令时,获取导入的语料文本数据;
展示模块,用于在语料文本分类界面上展示对所述语料文本数据进行分类得到的语料分类结果,所述语料分类结果包括语料聚类集合和所述语料聚类集合对应的词条标识。
13.一种智能文本数据处理装置,其特征在于,包括:
聚类模块,用于对获取到的语料文本数据进行聚类,得到语料聚类集合;
提取模块,用于对于每个所述语料聚类集合,从所述语料聚类集合中提取满足预设频次条件的词语;
组合模块,用于将提取到的词语组合成与所述语料聚类集合对应的词条标识。
14.一种计算设备,其特征在于,所述计算设备包括处理器和存储器,所述存储器用于存储程序代码,所述计算设备运行时,所述处理器用于执行所述程序代码,以执行权利要求1至8中任意一项所述的文本数据处理方法。
15.一种存储有程序代码的计算机可读存储介质,其特征在于,所述程序代码用于使得计算机执行权利要求1至8中任意一项所述的文本数据处理方法。
CN201910718221.5A 2019-08-05 2019-08-05 智能文本数据处理方法和装置、计算设备、存储介质 Active CN110442716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910718221.5A CN110442716B (zh) 2019-08-05 2019-08-05 智能文本数据处理方法和装置、计算设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910718221.5A CN110442716B (zh) 2019-08-05 2019-08-05 智能文本数据处理方法和装置、计算设备、存储介质

Publications (2)

Publication Number Publication Date
CN110442716A true CN110442716A (zh) 2019-11-12
CN110442716B CN110442716B (zh) 2022-08-09

Family

ID=68433228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910718221.5A Active CN110442716B (zh) 2019-08-05 2019-08-05 智能文本数据处理方法和装置、计算设备、存储介质

Country Status (1)

Country Link
CN (1) CN110442716B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231444A (zh) * 2020-03-31 2021-01-15 北京来也网络科技有限公司 结合rpa和ai的语料数据的处理方法、装置和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
JP2017107261A (ja) * 2015-12-07 2017-06-15 東日本旅客鉄道株式会社 テキストデータ加工装置、文字化放送表示システム及び文字化放送表示プログラム
CN107341157A (zh) * 2016-04-29 2017-11-10 阿里巴巴集团控股有限公司 一种客服对话聚类方法和装置
US20180052823A1 (en) * 2016-08-17 2018-02-22 Yahoo Holdings, Inc. Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109446300A (zh) * 2018-09-06 2019-03-08 厦门快商通信息技术有限公司 一种语料预处理方法、语料预标注方法及电子设备
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109918673A (zh) * 2019-03-14 2019-06-21 湖北亿咖通科技有限公司 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN109960756A (zh) * 2019-03-19 2019-07-02 国家计算机网络与信息安全管理中心 新闻事件信息归纳方法
CN110008340A (zh) * 2019-03-27 2019-07-12 曲阜师范大学 一种多源文本知识表示、获取与融合系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710343A (zh) * 2009-12-11 2010-05-19 北京中机科海科技发展有限公司 一种基于文本挖掘的本体自动构建系统及方法
JP2017107261A (ja) * 2015-12-07 2017-06-15 東日本旅客鉄道株式会社 テキストデータ加工装置、文字化放送表示システム及び文字化放送表示プログラム
CN107341157A (zh) * 2016-04-29 2017-11-10 阿里巴巴集团控股有限公司 一种客服对话聚类方法和装置
US20180052823A1 (en) * 2016-08-17 2018-02-22 Yahoo Holdings, Inc. Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109446300A (zh) * 2018-09-06 2019-03-08 厦门快商通信息技术有限公司 一种语料预处理方法、语料预标注方法及电子设备
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109918673A (zh) * 2019-03-14 2019-06-21 湖北亿咖通科技有限公司 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN109960756A (zh) * 2019-03-19 2019-07-02 国家计算机网络与信息安全管理中心 新闻事件信息归纳方法
CN110008340A (zh) * 2019-03-27 2019-07-12 曲阜师范大学 一种多源文本知识表示、获取与融合系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐成章: "《基于Word2vec的中文web智能问答系统的研究与设计》", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231444A (zh) * 2020-03-31 2021-01-15 北京来也网络科技有限公司 结合rpa和ai的语料数据的处理方法、装置和电子设备

Also Published As

Publication number Publication date
CN110442716B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
US11989519B2 (en) Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
US11790006B2 (en) Natural language question answering systems
CN110825882B (zh) 一种基于知识图谱的信息系统管理方法
US11442932B2 (en) Mapping natural language to queries using a query grammar
CN109446341A (zh) 知识图谱的构建方法及装置
CN110121705A (zh) 将语用学原理应用于与可视分析交互的系统和方法
CN108874992A (zh) 舆情分析方法、系统、计算机设备和存储介质
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
US20200365239A1 (en) System and method for generating clinical trial protocol design document with selection of patient and investigator
CN106055545A (zh) 文本挖掘系统及工具
CN107480162A (zh) 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及系统
Guo et al. LD-MAN: Layout-driven multimodal attention network for online news sentiment recognition
JP7486250B2 (ja) 高速スクリーニングのためのドメイン固有言語インタープリタ及び対話型視覚インターフェース
CN109960756A (zh) 新闻事件信息归纳方法
KR20200009117A (ko) 텍스트 데이터 수집 및 분석을 위한 시스템
CN109408811A (zh) 一种数据处理方法及服务器
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
CN109408658A (zh) 表情图片提示方法、装置、计算机设备及存储介质
CN102902705B (zh) 定位数据中的歧义
Atoum Detecting cyberbullying from tweets through machine learning techniques with sentiment analysis
Pittaras et al. A taxonomic system for failure cause analysis of open source AI incidents
Arafat et al. Analyzing public emotion and predicting stock market using social media
Liu et al. PS-GCN: psycholinguistic graph and sentiment semantic fused graph convolutional networks for personality detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant