CN115860010A - 一种话题挖掘方法及相关装置 - Google Patents
一种话题挖掘方法及相关装置 Download PDFInfo
- Publication number
- CN115860010A CN115860010A CN202111109140.9A CN202111109140A CN115860010A CN 115860010 A CN115860010 A CN 115860010A CN 202111109140 A CN202111109140 A CN 202111109140A CN 115860010 A CN115860010 A CN 115860010A
- Authority
- CN
- China
- Prior art keywords
- topic
- data
- computer device
- discovery
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000005065 mining Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000012552 review Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 42
- 238000012550 audit Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 23
- 238000012360 testing method Methods 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种话题挖掘方法,用于提升话题挖掘的准确性。本申请实施例方法包括:计算机设备获取第一数据,第一数据用于进行话题挖掘,第一数据的类型包括文本、图片、音频或视频,计算机设备根据话题发现模型确定第一数据的话题,话题发现模型基于机器发现和人工审核确定,人工审核用于修正机器发现后的第二数据,第二数据用于训练话题发现模型,计算机设备根据话题标签库确定第一数据的话题标签,话题标签库用于匹配第一数据的话题所对应的话题标签。
Description
技术领域
本申请实施例涉及语义识别领域,尤其涉及一种话题挖掘方法及相关装置。
背景技术
随着越来越多的政府或企业开始做数据治理,采集的数据积累越来越多且采集的数据更新快,因此需要使用话题标签对采集的数据做更细致的区分或统计。
目前的话题挖掘技术中,服务器基于采集数据的关键词或已有的分类主题进行话题挖掘,这种基于关键词或者已有分类主题的话题挖掘技术难以全面概括数据。基于关键词的话题挖掘技术也只能挖掘到出现频次比较高的话题,无法对出现频次比较低的话题进行挖掘,而且话题挖掘的准确性低。
发明内容
本申请实施例提供了一种话题挖掘方法及相关装置,用于提升话题挖掘的准确性。
本申请实施例第一方面提供了一种话题挖掘方法,该方法由计算机设备执行,也可以由计算机设备的部件,例如计算机设备的处理器、芯片、或芯片系统等执行,还可以由能实现全部或部分服务器功能的逻辑模块或软件实现。第一方面提供的方法包括:计算机设备获取第一数据,第一数据用于进行话题挖掘,第一数据的类型包括文本、图片、音频或视频,计算机设备根据话题发现模型确定第一数据的话题,话题发现模型基于机器发现和人工审核确定,机器发现用于基于话题模板选择训练话题发现模型的训练数据,人工审核用于修正机器发现后的第二数据,第二数据用于训练话题发现模型,计算机设备根据话题标签库确定第一数据的话题标签,话题标签库用于匹配第一数据的话题所对应的话题标签。
本申请实施例中计算机设备基于话题发现模型和话题标签库进行话题挖掘,其中构建的话题发现模型基于机器发现和人工审核后的训练数据训练生成,本申请实施例引入的话题发现模型提升了话题挖掘准确性。
基于第一方面,一种可能的实施方式中,计算机设备根据第二数据训练话题发现模型,第二数据包括历史数据中抽取的训练数据,该第二数据为多模态的特征数据,第二数据包括多种话题场景下的数据,第二数据的类型包括文本、图片、音频或视频。
本申请实施例中第二数据为从大量历史抽取的训练数据,进一步提升了话题发现模型训练的准确性,另外第二数据可以是多种类型的训练数据,从而提升本申请实施例中话题发现模型对多种类型的数据的话题挖掘的能力。
基于第一方面,一种可能的实施方式中,计算机设备基于机器发现生成第二数据的话题,机器发现包括通过话题模板识别第二数据,计算机设备通过话题模板识别后,由人工审核第二数据和第二数据的话题,审核后的第二数据以及第二数据的话题作为话题发现模型的训练数据,具体的,计算机设备基于第一人工审核指令审核第二数据的话题,第一人工审核指令包括保留、删除或修改。
本申请实施例中计算机设备在训练话题发现模型的过程中,计算机设备利用基于话题模板的机器发现生成训练数据的话题,减少了人工确定训练数据话题的工作,同时,人工审核机器发现生成的训练数据的话题,进一步提升了话题发现模型训练的准确性。
基于第一方面,一种可能的实施方式中,计算机设备基于第一人工审核指令审核第二数据的话题之后,计算机设备根据第一人工审核指令审核后的数据训练话题发现模型,具体的,计算机设备将人工审核后的训练数据以及训练数据的话题分为训练集数据和测试集数据,训练集数据用户训练话题发现模型,测试集数据用于测试话题发现模型的训练效果,计算机设备通过机器评估训练完成的话题发现模型,机器评估用于评估话题发现模型输出话题的准确性。当机器评估话题发现模型识别的话题不准确时,则选取新的训练训练数据由人工审核后继续训练话题发现模型。
本申请实施例中计算机设备训练话题发现模型之后,由机器评估话题发现模型训练的准确性,从而进一步提升了话题发现模型的识别准确性。
基于第一方面,一种可能的实施方式中,计算机设备基于话题发型模型确定第三数据的话题,第三数据包括部分或全部的历史数据,第三数据的类型包括文本、图片、音频或视频,计算机设备对第三数据的话题聚类生成第三数据的话题标签,计算机设备基于第二人工审核指令和机器判定更新话题标签库,第二人工审核指令用于审核第三数据的话题标签,机器判定用于校验人工审核后的第三数据的话题标签,机器判定还用于校验人工审核后的第三数据的话题标签的唯一性和相关性。
本申请实施例中基于话题发现模型识别出话题之后,通过聚类方法对相似的话题进行聚合,从而减少了人工审核的工作量,在较短时间内就可以基于历史大量数据构建话题标签库,从而提升了话题标签库的创建效率。
本申请实施例中计算机设备在创建话题标签库的过程中,构建完成话题标签库之后还要基于人工审核和机器判定提升话题标签库的话题标签与话题的匹配准确性。
基于第一方面,一种可能的实施方式中,计算机设备根据话题标签库确定第一数据的话题标签的过程中,当话题标签库未匹配第一数据的话题,计算机设备基于人工批注确定第一数据的话题标签。
本申请实施例中计算机设备在进行数据挖掘时,话题匹配的过程中加入了人工批注,满足不同用户对话题标签库构建的不同需求,进一步提升了话题挖掘的准确性。
基于第一方面,一种可能的实施方式中,计算机设备基于人工批注确定第一数据的话题标签之后,计算机设备将第一数据的话题标签更新至话题标签库。
本申请实施例中计算机设备在进行数据挖掘时,加入了基于人工审核的话题标签库是实时更新,进一步提升了话题挖掘的准确性。
本申请实施例第二方面提供了一种话题挖掘装置,该话题挖掘装置包括接口单元和处理单元,接口单元用于获取第一数据,第一数据用于进行话题挖掘,第一数据的类型包括文本、图片、音频或视频。处理单元用于根据话题发现模型确定第一数据的话题,话题发现模型基于机器发现和人工审核确定,人工审核用于修正机器发现后的第二数据,第二数据用于训练话题发现模型,处理单元还用于根据话题标签库确定第一数据的话题标签,话题标签库用于匹配第一数据的话题所对应的话题标签。
基于第二方面,一种可能的实施方式中,处理单元还用于根据第二数据训练话题发现模型,第二数据包括历史数据中抽取的训练数据,第二数据的类型包括文本、图片、音频或视频。
基于第二方面,一种可能的实施方式中,处理单元还用于基于机器发现生成第二数据的话题,机器发现包括通过话题模板识别第二数据,基于第一人工审核指令审核第二数据的话题,第一人工审核指令包括保留、删除或修改。
基于第二方面,一种可能的实施方式中,处理单元还用于根据第一人工审核指令审核后的数据训练话题发现模型,通过机器评估训练完成的话题发现模型,机器评估用于评估话题发现模型输出话题的准确性。
基于第二方面,一种可能的实施方式中,处理单元还用于基于话题发型模型确定第三数据的话题,第三数据包括部分或全部的历史数据,第三数据的类型包括文本、图片、音频或视频,对第三数据的话题聚类生成第三数据的话题标签,基于第二人工审核指令和机器判定更新话题标签库,第二人工审核指令用于审核第三数据的话题标签,机器判定用于校验人工审核后的第三数据的话题标签。
基于第二方面,一种可能的实施方式中,处理单元具体用于当话题标签库未匹配第一数据的话题基于人工批注确定第一数据的话题标签。
基于第二方面,一种可能的实施方式中,处理单元还用于将第一数据的话题标签更新至话题标签库。
本申请实施例第三方面提供了一种计算机设备,该计算机设备包括处理器,处理器与存储器耦合,处理器用于存储指令,当指令被处理器执行时,以使得计算机设备执行上述第一方面以及上述第一方面任意一种可能的实施方式所述的方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有指令,指令被执行时,以使得计算机执行上述第一方面以及上述第一方面任意一种可能的实施方式所述的方法。
本申请实施例第五方面提供了一种计算机程序产品,计算机程序产品中包括指令,指令被执行时,以使得计算机实现第一方面以及上述第一方面任意一种可能的实施方式所述的方法。
可以理解,上述提供的任一种话题挖掘装置、计算式设备、计算机可读介质或计算机程序产品等所能达到的有益效果可参考对应的方法中的有益效果,此处不再赘述。
附图说明
图1a为本申请实施例提供的一种话题挖掘方法所应用的系统架构示意图;
图1b为本申请实施例提供的另一种话题挖掘方法所应用的系统架构示意图;
图2为本申请实施例提供的一种话题挖掘方法的流程示意图;
图3为本申请实施例提供的一种训练话题发现模型的流程示意图;
图4为本申请实施例提供的一个话题发现的示例;
图5为本申请实施例提供的一种建立话题标签库流程示意图;
图6为本申请实施例提供的一个建立话题标签库的示例;
图7为本申请实施例提供的另一种话题挖掘方法的流程示意图;
图8为本申请实施例提供的一个话题挖掘的示例;
图9为本申请实施例提供的一种话题挖掘装置的示意图;
图10为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
本申请实施例提供了一种话题挖掘方法及相关装置,用于提升话题挖掘的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
以下,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
话题是指对文本、图片或音视频信息的主题进行简单的概括。
话题标签是指基于对历史数据发现一批话题集合,通过话题融合后构建的话题标签,里可以称为话题集或话题簇。
话题挖掘是指根据输入的文本、图片或音视频等数据获取数据的话题标签的过程。
图像说明(image caption)是利用算法根据输入的图像自动生成对应的描述性文字的过程。
依存句法分析是指对输入的文本句子进行分析,识别句子中词汇与词汇之间的相互依存关系。
文本生成是指根据非语言形式的信息作为输入生成可读的文字表述。
工单是工作订单的简称,通常是客户或企业内部员工遇到产品或服务上的问题向服务商、企业或部门提交的一项任务、工作或请求。企业或部门收到工单后可以安排到相应的员工或部门组织进行解决。
下面结合附图介绍本申请实施例提供的话题挖掘方法及相关装置。
请参阅图1a,图1a为本申请实施例提供的一种话题挖掘方法所应用的系统架构图。如图1a所示,本申请实施例中的话题挖掘系统包括话题发现模型和话题标签库。其中话题发现模型用于识别工单数据的话题,话题标签库用于匹配识别出的话题的标签。图1a中的第一数据为需要进行话题挖掘的数据,第一数据的类型可以是文本、图片、音频或视频。第一数据输入到话题挖掘系统,经过话题挖掘之后,输出第一数据的话题标签,该第一数据的话题标签可以用于对第一数据的话题进行统计与分析。
请参阅图1b,图1b为本申请实施例中话题挖掘系统进行话题挖掘的流程示意图。如图1b所示,计算设备对工单数据进行话题挖掘,在话题挖掘过程中,话题挖掘装置基于训练好的话题发现模型识别出工单数据的话题,将识别出的话题与话题标签库的话题标签进行匹配,若匹配到话题标签,则基于对工单数据的话题标签进行展示或统计分析,若没有匹配到话题标签,则对识别出的话题进行人工审核,具体的,由人工对该话题确定标签,并将确定的标签更新到话题标签库。
话题挖掘系统中的话题发现模型基于话题模板和少量的特征数据进行训练得到,话题发现模型的训练过程中输入少量的特征数据作为测试数据,结合积累的话题模板进行话题发现,测试数据在人工审核后输入到话题发现模型,话题发现模型识别得到话题发现的结果之后,由机器评估发现的话题是否达标,若不达标则继续选取测试数据进行话题发现模型的训练。
话题挖掘系统中的话题标签库基于大量的历史数据创建,话题挖掘装置将话题发现模型识别的话题融合,生成话题与话题标签对,该话题与话题标签对经过人工审核和机器判定后创建话题标签库。
请参阅图2,图2为本申请实施例提供的一种话题挖掘方法的流程示意图。图2所示的流程由计算机设备执行,可以由能实现全部或部分计算机设备功能的逻辑模块或软件实现。图2所示的话题挖掘方法的一个流程包括:
201.获取第一数据,第一数据用于进行话题挖掘。
本申请实施例中计算机设备获取第一数据,该第一数据包括工单数据,该工单数据可以是实时生成的工单数据,也可以是历史工单数据。第一数据的类型包括文本、图片、音频或视频。
本申请实施例中计算机设备获取第一数据之后,通过话题发现模型和话题标签库对第一数据进行话题挖掘,进行话题挖掘之前,计算机设备需要训练话题发现模型以及创建话题标签库,下面结合附图介绍训练话题发现模型以及创建话题标签库的过程。
1.训练话题发现模型。
本申请实施例中计算机设备根据第二数据训练话题发现模型,第二数据包括历史数据中抽取的训练数据,例如,第二数据可以是从历史工单数据中抽取的多模态的工单数据。第二数据的类型包括文本、图片、音频或视频。
具体的,计算机设备基于机器发现生成第二数据的话题,生成第二数据的话题之后,计算机设备根据第一人工审核指令审核第二数据的话题。其中机器发现包括根据预置的话题模板识别第二数据的话题,根据预置的话题模板识别第二数据话题过程可以结合句法依存分析或相似度计算等方法识别第二数据的话题。第一人工审核指令包括保留、删除或修改。
本申请实施例中计算机设备通过第一人工审核指令审核后的数据训练话题发现模型,具体的,计算机设备将审核后的数据分为训练集数据和测试集数据,计算机设备根据训练集数据训练话题发现模型,计算机设备根据测试集数据测试话题发现模型,并通过机器评估训练完成的话题发现模型,机器评估用于评估话题发现模型输出话题的准确性。具体的,测试集数据输入话题发现模型之后,机器评估话题发现模型输出的话题与人工审核结果的准确率,当准确率达标时,则输出话题发现模型训练,当准确率不达标时,则选取新的训练数据由人工审核后继续训练话题发现模型。
请参阅图3,图3为本申请实施例提供的一种训练话题发现模型的流程示意图。如图3所示,计算机设备将少量的特征数据作为输入,该少量的特征数据为从历史数据中抽取的多模态的训练数据,少量的特征数据数量级例如上千条数据。计算机设备通过基于话题模板对输入的训练数据进行推理,并由人工审核基于话题模板的推理结果。人工审核后的推理结果和对应的训练数据分为训练集数据和测试计算数据,其中,训练集数据用于对话题发现模型进行训练,测试集数据用于测试话题发现模型的训练结果,并由机器评估话题发现模型的训练结果,如果机器评估达标,则该话题发现模型训练完成,若机器评估不达标,则由人工审核新的训练数据后重新训练和测试话题发现模型。
本申请实施例中计算机设备在训练话题发现模型之前,训练数据经过基于话题模板的模型推理,再由人工审核并修正不准确推理结果,从而减少了人工审核的工作量,提升了话题发现模型训练效率。
请参阅图4,图4为本申请实施例中对训练话题发现模型前人工审核的示意图。如图4所示,图4中“工单数据”为从历史数据中抽取的一条训练数据,“小区监控探头损坏”为基于话题模板的机器发现中识别的话题,其中“保留”、“删除”和“修改”为第一人工审核指令的选项,人工可以对机器发现的话题审核是否保留和修改,人工审核后的数据可以作为话题发现模型的训练数据。
可以理解的是,当第二数据的类型为图片时,计算机设备在话题发现模型的训练过程中,计算机设备针对抽取的图片数据,通过预置图片的话题库进行相似度比对,给部分匹配上的图片打上话题,让人工对图片和图片话题进行审核,同时还需要随机抽取部分匹配不上的图片,进行人工标注话题。审核后的图片和图片话题用于进行话题发现模型的训练,话题发现模型可以基于image caption等技术话题标签。
2.创建话题标签库。
本申请实施例中计算机设备基于话题发现模型确定第三数据的话题,第三数据包括部分或全部的历史数据,全部的历史数据的数据量级例如上万条数据,第三数据的类型包括文本、图片、音频或视频。计算机设备对所述第三数据的话题聚类生成所述第三数据的话题标签,计算机设备基于第二人工审核指令和机器评估更新话题标签库,第二人工审核指令用于审核第三数据的话题标签,第二人工审核指令包括保留、删除或修改,机器判定用于校验人工审核后的第三数据的话题标签。
请参阅图5,图5为本申请实施例提供的一种创建话题标签库的流程示意图。如图5所示,计算机设备通过训练好的话题发现模型从历史工单数据识别出历史工单数据的话题,历史工单数据的话题经过融合聚类生成话题标签,计算机设备根据第二人工审核指令审核融合聚类生成的话题标签,具体的,根据第二人工审核指令对话话题标签进行保留、删除或修改,人工审核后的话题标签再由机器判定,机器判定话题标签是否达标,若话题标签达标,则将达标的话题标签更新到话题标签库,从而创建话题标签库,若话题标签不达标,则由重新由人工进行审核。人工审核之后再由机器判定,具体的,机器判定人工修改后话题簇的唯一性和话题与话题簇的相关性。例如,机器判定可以得到话题匹配属于话题总数之间的比例,话题匹配数可以反映话题与话题标签的匹配程度。机器判定可以得到话题标签的重合度,重合度是指相似话题标签个数与话题标签总数的比例。
请参阅图6,图6为本申请实施例提供的一种创建话题标签库的示意图。如图6所示,在一个话题标签库的创建界面中,第一列“挖掘出的话题”为计算机设备从工单数据里面直接发现的话题,第二列“话题出现次数”为在历史工单数据中该话题出现的次数,第三列“生成的话题标签”为对第一列原始话题做话题融合后机器命名的话题标签,第四列为“审核状态”为话题标签的审核状态,第五列“是否保留”需要人工对原始话题审核,选择保留则说明原始话题有价值,否则选择否,第六列“确认的话题标签”中人工对机器命名的话题簇不满意可进行重新命名,第七列“确认操作”为人工审核后确认审核。
可以理解的是,当第二数据的类型为图片时,计算机设备在创建话题标签库的过程中,从数据库获取图片数据,对图片数据去重之后进行预处理,将预处理后的图片数据基于训练好的话题发现模型进行话题发现,话题集合使用聚类方法进行话题融合,形成话题与话题标签对再进行人工去审核,审核结束后再进行机器评估,机器评估合格则表明基本话题标签库创建完成。
202.根据话题发现模型确定第一数据的话题,话题发现模型包括机器发现和人工审核。
计算机设备根据话题发现模型确定第一数据的话题,该话题发现模型为上述步骤201之前训练完成的话题发现模型,该话题发现模型基于机器发现、人工审核和机器评估确定,机器发现用于通过话题模板识别训练数据的话题,人工审核用于修正机器发现的话题,机器评估用于评估人工审核的话题准确性。
请参阅图7,图7为本申请实示例提供的一种话题挖掘方法的流程示意图。如图7所示,计算机设备获取到实时工单数据之后对实时工单数据进行话题发现,话题发现过程基于训练好的话题发现模板进行,计算机设备通过话题发现模型识别出实时工单数据的话题。
203.根据话题标签库确定第一数据的话题标签,话题标签用于匹配第一数据的话题所对应的话题标签。
计算机设备根据话题标签库确定第一数据的话题标签,具体的,计算机设备话题发现模型识别出的第一数据的话题与话题标签库中的话题进行匹配,话题与话题标签的匹配可以通过相似度计算进行匹配,若第一数据的话题匹配成功,则确定出第一数据的话题标签,若第一数据的话题匹配不到话题标签,则由人工评估第一数据的话题,为第一数据标注标注话题标签,并将标注的话题标签更新到话题标签库。
计算机设备确定出第一数据的话题标签之后,可以基于第一数据的话题标签进行统计与分析,例如,计算机设备可以基于第一数据的话题标签进行热门话题展示,以及第一数据对应的工单的关联分析等。
请参阅图7,图7为本申请实示例提供的一种话题挖掘方法的流程示意图。如图7所示,计算机设备通过话题发现模型识别出实时工单数据的话题之后进行话题匹配,计算机设备通过话题标签库匹配实时工单数据的话题,若匹配到实时工单数据的话题,则基于匹配的话题标签进行话题的统计和分析,若匹配到不到实时工单数据的话题,则对该话题进行人工评估确定出该话题的话题标签,并将确定话题标签更新到话题标签库。
在实际应用中,计算机设备会对用户的实时工单经过话题发现和话题匹配,输出每条工单对应的话题以及话题标签,用户可查询某一时间段内话题标签统计,然后通过点击具体话题标签查看相关工单。同时计算机设备会将匹配不上话题标签库的话题也进行统计,用户可随时发现新增话题,并给其打上话题标签,随时更新话题标签库。
请参阅图8,图8为本申请实施例提供一个话题挖掘的示例。在图8所示的示例中,图8左侧“测试本文”为需要进行话题挖掘的工单数据,右侧“挖掘结果”为计算机设备基于话题发现模型以及话题标签库的话题挖掘结果,例如,计算机设备对左侧测试文本的识别话题为“广场舞扰民”,匹配的话题标签为“广场舞扰民”,计算机设备对左侧测试文本的“诉求”识别话题为“噪音扰民”,匹配的话题标签为“噪音扰民”。
上面介绍本申请实施例提供的话题挖掘方法,下面结合附图介绍本申请实施例涉及的相关装置。
请参阅图9,图9为本申请实施例提供的一种话题挖掘装置的结构示意图。该话题挖掘装置用于实现上述各实施例中对应计算机设备的各个步骤,如图9所示,该话题挖掘装置900包括接口单元901和处理单元902。
接口单元901获取第一数据,第一数据用于进行话题挖掘,第一数据的类型包括文本、图片、音频或视频;
处理单元902根据话题发现模型确定第一数据的话题,话题发现模型基于机器发现和人工审核确定,人工审核用于修正机器发现后的第二数据,第二数据用于训练话题发现模型;
处理单元902还用于根据话题标签库确定第一数据的话题标签,话题标签库用于匹配第一数据的话题所对应的话题标签。
一种可能的实施方式中,处理单元902还用于根据第二数据训练话题发现模型,第二数据包括历史数据中抽取的训练数据,第二数据的类型包括文本、图片、音频或视频。
一种可能的实施方式中,处理单元902还用于基于机器发现生成第二数据的话题,机器发现包括通过话题模板识别第二数据;
一种可能的实施方式中,处理单元902还用于基于第一人工审核指令审核第二数据的话题,第一人工审核指令包括保留、删除或修改。
一种可能的实施方式中,处理单元902还用于根据第一人工审核指令审核后的数据训练话题发现模型;
一种可能的实施方式中,处理单元902还用于通过机器评估训练完成的话题发现模型,机器评估用于评估话题发现模型输出话题的准确性。
一种可能的实施方式中,处理单元902还用于基于话题发型模型确定第三数据的话题,第三数据包括部分或全部的历史数据,第三数据的类型包括文本、图片、音频或视频,对第三数据的话题聚类生成第三数据的话题标签,以及基于第二人工审核指令和机器判定更新话题标签库,第二人工审核指令用于审核第三数据的话题标签,机器判定用于校验人工审核后的第三数据的话题标签。
一种可能的实施方式中,处理单元902具体用于当话题标签库未匹配第一数据的话题,基于人工批注确定第一数据的话题标签。
一种可能的实施方式中,处理单元902还用于计算机设备将第一数据的话题标签更新至话题标签库。
应理解以上装置中单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且装置中的单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分单元以软件通过处理元件调用的形式实现,部分单元以硬件的形式实现。例如,各个单元可以为单独设立的处理元件,也可以集成在装置的某一个芯片中实现,此外,也可以以程序的形式存储于存储器中,由装置的某一个处理元件调用并执行该单元的功能。此外这些单元全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件又可以成为处理器,可以是一种具有信号的处理能力的集成电路。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路实现或者以软件通过处理元件调用的形式实现。
在一个例子中,以上任一装置中的单元可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integratedcircuit,ASIC),或,一个或多个微处理器(digital singnal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA),或这些集成电路形式中至少两种的组合。再如,当装置中的单元可以通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,CPU)或其它可以调用程序的处理器。再如,这些单元可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
请参阅图10,图10为本申请实施例提供的一种计算机设备示意图,用于实现以上实施例中计算机设备的操作。如图10所示,该计算机设备1000包括:处理器1010和接口1030,处理器1010与接口1030耦合。接口1030用于实现与其他设备进行通信。接口1030可以为收发器或输入输出接口。接口1030例如可以是接口电路。可选地,该计算机设备还包括存储器1020,用于存储处理器1010执行的指令或存储处理器1010运行指令所需要的输入数据或存储处理器1010运行指令后产生的数据。
以上实施例中计算机设备执行的方法可以通过处理器1010调用存储器(可以是计算机设备中的存储器1020,也可以是外部存储器)中存储的程序来实现。即,计算机设备可以包括处理器1010,该处理器1010通过调用存储器中的程序,以执行以上方法实施例中计算机设备执行的方法。这里的处理器可以是一种具有信号的处理能力的集成电路,例如CPU。计算机设备可以通过配置成实施以上方法的一个或多个集成电路来实现。例如:一个或多个ASIC,或,一个或多个微处理器DSP,或,一个或者多个FPGA等,或这些集成电路形式中至少两种的组合。或者,可以结合以上实现方式。
具体的,图9中的接口单元901和处理单元902的功能/实现过程可以通过图10所示的计算机设备1000中的处理器1010调用存储器1020中存储的计算机可执行指令来实现。
在本申请的另一实施例中,还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当设备的处理器执行该计算机执行指令时,设备执行上述方法实施例中计算机设备所执行的方法。
在本申请的另一实施例中,还提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中。当设备的处理器执行该计算机执行指令时,设备执行上述方法实施例中计算机设备所执行的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (17)
1.一种话题挖掘方法,其特征在于,包括:
计算机设备获取第一数据,所述第一数据用于进行话题挖掘,所述第一数据的类型包括文本、图片、音频或视频;
所述计算机设备根据话题发现模型确定所述第一数据的话题,所述话题发现模型基于机器发现和人工审核确定,所述人工审核用于修正所述机器发现后的第二数据,所述第二数据用于训练所述话题发现模型;
所述计算机设备根据话题标签库确定所述第一数据的话题标签,所述话题标签库用于匹配所述第一数据的话题所对应的话题标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述计算机设备根据所述第二数据训练所述话题发现模型,所述第二数据包括历史数据中抽取的训练数据,所述第二数据的类型包括文本、图片、音频或视频。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
所述计算机设备基于机器发现生成所述第二数据的话题,所述机器发现包括通过话题模板识别所述第二数据;
所述计算机设备基于第一人工审核指令审核所述第二数据的话题,所述第一人工审核指令包括保留、删除或修改。
4.根据权利要求3所述的方法,其特征在于,所述计算机设备基于第一人工审核指令审核所述第二数据的话题之后,所述方法还包括:
所述计算机设备根据所述第一人工审核指令审核后的数据训练所述话题发现模型;
所述计算机设备通过机器评估训练完成的所述话题发现模型,所述机器评估用于评估所述话题发现模型输出话题的准确性。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
所述计算机设备基于所述话题发型模型确定所述第三数据的话题,所述第三数据包括部分或全部的历史数据,所述第三数据的类型包括文本、图片、音频或视频;
所述计算机设备对所述第三数据的话题聚类生成所述第三数据的话题标签;
所述计算机设备基于第二人工审核指令和机器判定更新所述话题标签库,所述第二人工审核指令用于审核所述第三数据的话题标签,所述机器判定用于校验人工审核后的所述第三数据的话题标签。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述计算机设备根据话题标签库确定所述第一数据的话题标签包括:
当所述话题标签库未匹配所述第一数据的话题,所述计算机设备基于人工批注确定所述第一数据的话题标签。
7.根据权利要求6所述的方法,其特征在于,所述计算机设备基于人工批注确定所述第一数据的话题标签之后,所述方法还包括:
所述计算机设备将所述第一数据的话题标签更新至所述话题标签库。
8.一种话题挖掘装置,其特征在于,包括:
接口单元,用于获取第一数据,所述第一数据用于进行话题挖掘,所述第一数据的类型包括文本、图片、音频或视频;
处理单元,用于根据话题发现模型确定所述第一数据的话题,所述话题发现模型基于机器发现和人工审核确定,所述人工审核用于修正所述机器发现后的第二数据,所述第二数据用于训练所述话题发现模型;
所述处理单元还用于根据话题标签库确定所述第一数据的话题标签,所述话题标签库用于匹配所述第一数据的话题所对应的话题标签。
9.根据权利要求8所述的装置,其特征在于,所述处理单元还用于:
根据所述第二数据训练所述话题发现模型,所述第二数据包括历史数据中抽取的训练数据,所述第二数据的类型包括文本、图片、音频或视频。
10.根据权利要求9所述的装置,其特征在于,所述处理单元还用于:
基于机器发现生成所述第二数据的话题,所述机器发现包括通过话题模板识别所述第二数据;
基于第一人工审核指令审核所述第二数据的话题,所述第一人工审核指令包括保留、删除或修改。
11.根据权利要求10所述的装置,其特征在于,所述处理单元还用于:
根据所述第一人工审核指令审核后的数据训练所述话题发现模型;
通过机器评估训练完成的所述话题发现模型,所述机器评估用于评估所述话题发现模型输出话题的准确性。
12.根据权利要求8至11中任一项所述的装置,其特征在于,所述处理单元还用于:
基于所述话题发型模型确定所述第三数据的话题,所述第三数据包括部分或全部的历史数据,所述第三数据的类型包括文本、图片、音频或视频;
对所述第三数据的话题聚类生成所述第三数据的话题标签;
基于第二人工审核指令和机器判定更新所述话题标签库,所述第二人工审核指令用于审核所述第三数据的话题标签,所述机器判定用于校验人工审核后的所述第三数据的话题标签。
13.根据权利要求8至13中任一项所述的装置,其特征在于,所述处理单元具体用于:
当所述话题标签库未匹配所述第一数据的话题,基于人工批注确定所述第一数据的话题标签。
14.根据权利要求13所述的装置,其特征在于,所述处理单元还用于:
将所述第一数据的话题标签更新至所述话题标签库。
15.一种计算机设备,其特征在于,包括处理器,所述处理器与存储器耦合,所述处理器用于存储指令,当所述指令被所述处理器执行时,以使得所述计算机设备执行权利要求1至7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有指令,其特征在于,所述指令被执行时,以使得计算机执行权利要求1至7中任一项所述的方法。
17.一种计算机程序产品,所述计算机程序产品中包括指令,其特征在于,所述指令被执行时,以使得计算机实现权利要求1至7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109140.9A CN115860010A (zh) | 2021-09-22 | 2021-09-22 | 一种话题挖掘方法及相关装置 |
PCT/CN2022/091954 WO2023045345A1 (zh) | 2021-09-22 | 2022-05-10 | 一种话题挖掘方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109140.9A CN115860010A (zh) | 2021-09-22 | 2021-09-22 | 一种话题挖掘方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115860010A true CN115860010A (zh) | 2023-03-28 |
Family
ID=85652148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111109140.9A Pending CN115860010A (zh) | 2021-09-22 | 2021-09-22 | 一种话题挖掘方法及相关装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115860010A (zh) |
WO (1) | WO2023045345A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119786B (zh) * | 2019-05-20 | 2021-11-16 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN111553144A (zh) * | 2020-04-28 | 2020-08-18 | 深圳壹账通智能科技有限公司 | 基于人工智能的话题挖掘方法、装置及电子设备 |
CN111914079A (zh) * | 2020-08-07 | 2020-11-10 | 上海梅斯医药科技有限公司 | 一种基于用户标签的话题推荐方法及系统 |
CN113392315A (zh) * | 2020-10-20 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种主题类型挖掘方法、装置、设备及存储介质 |
-
2021
- 2021-09-22 CN CN202111109140.9A patent/CN115860010A/zh active Pending
-
2022
- 2022-05-10 WO PCT/CN2022/091954 patent/WO2023045345A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023045345A1 (zh) | 2023-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170109676A1 (en) | Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process | |
US9171072B2 (en) | System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data | |
US9104709B2 (en) | Cleansing a database system to improve data quality | |
US20170109668A1 (en) | Model for Linking Between Nonconsecutively Performed Steps in a Business Process | |
US20170109667A1 (en) | Automaton-Based Identification of Executions of a Business Process | |
US9020944B2 (en) | Systems and methods for organizing documented processes | |
US20170109636A1 (en) | Crowd-Based Model for Identifying Executions of a Business Process | |
CN111611458A (zh) | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 | |
US20170109639A1 (en) | General Model for Linking Between Nonconsecutively Performed Steps in Business Processes | |
CN111930805A (zh) | 一种信息挖掘方法及计算机设备 | |
CN111427974A (zh) | 数据质量评估管理方法和装置 | |
US20170109638A1 (en) | Ensemble-Based Identification of Executions of a Business Process | |
CN109800147B (zh) | 一种测试案例生成方法及终端设备 | |
US9558462B2 (en) | Identifying and amalgamating conditional actions in business processes | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
Kruse et al. | Estimating Data Integration and Cleaning Effort. | |
US11816112B1 (en) | Systems and methods for automated process discovery | |
CN113157978B (zh) | 数据的标签建立方法和装置 | |
CN114003567A (zh) | 数据采集的方法及相关装置 | |
CN113779261A (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
Eken et al. | Predicting defects with latent and semantic features from commit logs in an industrial setting | |
Missier et al. | Managing information quality in e-science: the qurator workbench | |
CN115860010A (zh) | 一种话题挖掘方法及相关装置 | |
CN109299381B (zh) | 一种基于语义概念的软件缺陷检索和分析系统及方法 | |
CN114115831A (zh) | 数据处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |