CN115952258A - 政务标签库的生成方法、政务文本的标签确定方法和装置 - Google Patents

政务标签库的生成方法、政务文本的标签确定方法和装置 Download PDF

Info

Publication number
CN115952258A
CN115952258A CN202211657094.0A CN202211657094A CN115952258A CN 115952258 A CN115952258 A CN 115952258A CN 202211657094 A CN202211657094 A CN 202211657094A CN 115952258 A CN115952258 A CN 115952258A
Authority
CN
China
Prior art keywords
words
word
government affair
cluster
mined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211657094.0A
Other languages
English (en)
Inventor
汪永清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211657094.0A priority Critical patent/CN115952258A/zh
Publication of CN115952258A publication Critical patent/CN115952258A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供的政务标签库的生成方法、政务文本的标签确定方法和装置,涉及人工智能领域,具体涉及自然语言处理、深度学习、预训练模型技术,可应用在智慧城市、智慧政务等场景;该生成方法包括:获取待处理文本,并对待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,挖掘后的词语的成词概率大于预设阈值;若初始政务标签库中不包含挖掘后的词语,则对初始政务标签库中的词语和挖掘后的词语进行层次聚类处理,得到聚类结果;聚类结果包括:词语的所属的类簇和词语的层级关系信息,根据聚类结果,对初始政务标签库进行更新处理,生成更新后的政务标签库。通过上述方法可以自动的对初始政务标签库进行更新,有利于提高政务标签库的生成效率。

Description

政务标签库的生成方法、政务文本的标签确定方法和装置
技术领域
本公开涉及人工智能领域,具体涉及自然语言处理、深度学习、预训练模型技术,可应用在智慧城市、智慧政务等场景;尤其涉及一种政务标签库的生成方法、政务文本的标签确定方法和装置。
背景技术
目前,随着信息技术的发展,各个机构可以设置各自的政务平台,向用户推送各个地域、各个机构的政务消息;并且用户也可以通过政务平台反馈信访信息。
相关技术中,各个机构的政务平台所对应的标签体系可以采用人工构建的方式实现,并且,用户可以通过在不同文本中手动提取各自所需的标签,对标签体系进行修改更新。然而,采用上述方式进行标签体系的更新需要浪费较多的人力,且效率较低。因此,亟需一种政务标签库的生成方法、政务文本的标签确定方法和装置,以解决上述问题。
发明内容
本公开提供了一种用于提高政务标签库生成效率的政务标签库的生成方法、政务文本的标签确定方法和装置。
根据本公开的第一方面,提供了一种政务标签库的生成方法,包括:
获取待处理文本,并对所述待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,所述挖掘后的词语的成词概率大于预设阈值;所述成词概率表征挖掘后的词语是一个完整词语的概率值;
若初始政务标签库中不包含所述挖掘后的词语,则对所述初始政务标签库中的词语和所述挖掘后的词语进行层次聚类处理,得到聚类结果;其中,所述初始政务标签库中包括至少一个词语;所述聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系;
根据所述聚类结果,对所述初始政务标签库进行更新处理,生成更新后的政务标签库;所述更新后的政务标签库用于确定待标注文本所对应的标签。
根据本公开的第二方面,提供了一种政务文本的标签确定方法,包括:
获取待标注文本;
将所述待标注文本输入至预设第二分类模型,确定所述待标注文件所对应的政务标签;所述预设第二分类模型为基于具有政务标签的待训练文件训练得到的;所述待训练文本的政务标签为基于更新后的政务标签库所确定的;
其中,所述更新后的政务标签库为根据第一方面中任一项所述的方法得到的;所述更新后的政务标签库中包括多个词语、所述词语的所属的类簇和所述词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系。
根据本公开的第三方面,提供了一种政务标签库的生成装置,包括:
第一获取单元,用于获取待处理文本;
第一处理单元,用于对所述待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,所述挖掘后的词语的成词概率大于预设阈值;所述成词概率表征挖掘后的词语是一个完整词语的概率值;
第二处理单元,用于若初始政务标签库中不包含所述挖掘后的词语,则对所述初始政务标签库中的词语和所述挖掘后的词语进行层次聚类处理,得到聚类结果;其中,所述初始政务标签库中包括至少一个词语;所述聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系;
更新单元,用于根据所述聚类结果,对所述初始政务标签库进行更新处理,生成更新后的政务标签库;所述更新后的政务标签库用于确定待标注文本所对应的标签。
根据本公开的第四方面,提供了一种政务文本的标签确定装置,包括:
第二获取单元,用于获取待标注文本;
确定单元,用于将所述待标注文本输入至预设第二分类模型,确定所述待标注文件所对应的政务标签;所述预设第二分类模型为基于具有政务标签的待训练文件训练得到的;所述待训练文本的政务标签为基于更新后的政务标签库所确定的;
其中,所述更新后的政务标签库为根据第三方面中任一项所述的装置得到的;所述更新后的政务标签库中包括多个词语、所述词语的所属的类簇和所述词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法;或者以使所述至少一个处理器能够执行第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法;或者,所述计算机指令用于使所述计算机执行第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法;或者,所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是根据本公开第八实施例的示意图;
图9是根据本公开第九实施例的示意图;
图10是可以实现本公开实施例的政务标签库的生成方法、或者政务文本的标签确定方法电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,随着信息技术的不断发展,在向用户显示需要推送的信息时,为了便于用户浏览访问,通常会给信息打标签。举例来说,在政务网站所提供的系统中,会将信息分为政务新闻、用户反馈标签所对应的信息,具体地,针对于用户反馈标签下还会具体根据用户反馈的问题划分出多个不同的标签。
相关技术中,在生成某一系统、应用或者网站中所需要的标签时,通常是设计人员根据自身经验以及自身所了解的信息,确定需要构建哪些标签,以及标签与标签之间的关系,导致标签建立的过程效率较低。并且,在实际应用中,部分网站通常采用固定的标签向用户推送信息,无法确保对当前的标签可以很好的适用于信息的更新迭代,而采用人工更新标签的方式容易造成标签更新过程的效率较低,且需要耗费较多人力。
为了避免上述技术问题中的至少一种,本公开的发明人经过创造性地劳动,得到了本公开的发明构思:通过对获取到的待处理文本进行短语挖掘处理,挖掘出的成词概率大于预设阈值的词语。之后,若确定初始政务标签库中不包含挖掘后的词语,则对初始政务标签库中的词语和挖掘后的词语进行层次聚类处理,得到聚类结果;其中,初始政务标签库中包括至少一个词语;聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系;根据聚类结果,对初始政务标签库进行更新处理,生成更新后的政务标签库;更新后的政务标签库用于确定待标注文本所对应的标签。
基于上述发明构思,本公开提供一种政务标签库的生成方法、政务文本的标签确定方法和装置,人工智能领域,具体涉及自然语言处理、深度学习、预训练模型技术,可应用在智慧城市、智慧政务等场景,以达到可以提高标签生成效率的效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1是根据本公开第一实施例的示意图。如图1所示,本公开实施例的政务标签库的生成方法,包括:
S101、获取待处理文本。
示例性地,本实施例的执行主体可以为政务标签库的生成装置,该生成装置可以为服务器(如云端服务器,或者,本地服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
本实施例中,在生成政务标签库时,首先可以获取多个待处理文本。在实际应用中,待处理文本可以为需要发布的政务新闻、政策等,也可以为用户通过向政务网站中所提供的反馈工单。
一个示例中,随着信息的不断更新,在更新政务标签库时,也可以根据预设时间间隔,每间隔一段时间,就获取一次待处理文本,已实现对政务标签库的更新。
S102、对待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,挖掘后的词语的成词概率大于预设阈值;成词概率表征挖掘后的词语是一个完整词语的概率值。
示例性地,本实施例中,在获取到待处理文本之后,可以对待处理文本进行短语挖掘处理,以便在待处理文本中挖掘出组成一个完成词语的概率值大于预设阈值词语,进而通过短语挖掘的处理方式从待处理文本中挖掘出新的词语。
一个示例中,在对待处理文本进行短语挖掘处理时,可以采用预设短语挖掘模型进行短语挖掘,例如,可以采用相关技术中所提供的BERT模型、N-GRAM模型等深度学习模型,本实施例中不做具体限制。
S103、若初始政务标签库中不包含挖掘后的词语,则对初始政务标签库中的词语和挖掘后的词语进行层次聚类处理,得到聚类结果;其中,初始政务标签库中包括至少一个词语;聚类结果包括:词语的所属的类簇和词语的层级关系信息,层级关系信息表征词语在词语所属的类簇中的层级关系。
示例性地,本实施例中,在获取到挖掘后的词语时,可以将挖掘后的词语与初始政务标签库进行比较,其中,初始政务标签库中用于存储原有的至少一个词语,其中,初始政务标签库中的词语可用于作为待标注文本所对应的政务标签。
当确定初始政务标签库中包括挖掘后的词语时,此时,可以不再执行后续处理,即无需在对初始政务标签库进行更新处理。
当确定初始政务标签库中不包括挖掘后的词语时,此时,则表明初始政务标签库需要进行标签扩充,即需要对其中的标签进行更新,以便后续在对待标注文件进行标签标注时,所确定出的标签更加准确。
本实施例中,在对初始政务标签库进行更新时,可以将基于短语挖掘处理得到的挖掘后的词语与初始政务标签库中所包含的词语进行层次聚类处理,以便确定出各个词语所属的类簇,以及词语在其所属的类簇中的层级关系。举例来说,在实际应用中,词语在类簇中的层级关系可以理解为该词语所对应的上级词语,以及下级词语,其中,一个词语的上级词语可以理解为一个标签所对应的上一级标签。一个词语的下级词语则可以理解为一个标签可以具体划分为几个标签。
一个示例中,在对多个词语进行层次聚类时,可以通过确定每组词语之间的相似度,之后,相似度表征词语含义相接近的词语归为一个类簇,进而得到多个类簇。之后,在每一类簇中在选择出一个类簇中的中心词语,其中,在确定中心词语,可以计算每一词语与该类簇中其余词语的相似度之和,其中,中心词语为类簇中相似度之和最大的词语。此时,中心词语可以作为该类簇中剩余词语的上级词语。之后,将各个类簇所对应的中心词语,根据中心词语的相似度进一步进行类簇划分,并在划分得到的类簇中继续选取中心词语,进而,一层一层,逐层的向上进行聚类处理,直到达到用户设置的停止条件,即可以得到具有层级关系的词语。
S104、根据聚类结果,对初始政务标签库进行更新处理,生成更新后的政务标签库;更新后的政务标签库用于确定待标注文本所对应的标签。
示例性地,在获取到聚类结果之后,可以直接将初始政务标签库中的标签替换为聚类结果,即将聚类结果中的词语、词语所对应到的类簇,以及词语在类簇中的层级关系,更新至初始政务标签库中,进而得到更新后的政务标签库。在得到更新后的政务标签库之后,可以通过更新后的政务标签库对待标注文本进行打标签的处理,以便待标注文本可以更好的归类,方便用户浏览。
可以理解的是,本实施中,通过对获取到的待处理文本进行短语挖掘可以在其中挖掘出成词概率较高的词语,之后,通过对初始政务标签库中的词语以及挖掘后的词语进行层次聚类的方法,进而得到多个聚类得到类簇,每个类簇中至少包括一个词语,当类簇中包括多个词语时,还会确定词语与词语之间的层级关系,以便对初始政务标签库进行更新。进而,通过上述方法可以自动的对初始政务标签库进行更新,有利于提高政务标签库的生成效率。并且,生成的更新后的政务标签库还可以应用于不同的政务系统中,即统一各个政务系统中标签体系,以便后续可以对各个政务系统中的数据进行统一分析,避免了相同待标注文本在不同政务系统中所对应的标签不同所导致的后续数据分析结果不准确的问题。
为使读者更深刻地理解本公开的实现原理,现结合以下图2和图3对图1所示的实施例进行进一步细化。
图2是根据本公开第二实施例的示意图。如图2所示,本公开实施例的政务标签库的生成方法,包括:
S201、获取待处理文本。
示例性地,本实施例的执行主体可以为政务标签库的生成装置,该生成装置可以为服务器(如云端服务器,或者,本地服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
S202、对待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,挖掘后的词语的成词概率大于预设阈值;成词概率表征挖掘后的词语是一个完整词语的概率值。
示例性地,步骤S201与步骤S202的具体原理可以参见步骤S101与步骤S102,此处不再赘述。
S203、若初始政务标签库中不包括挖掘后的词语,则确定初始政务标签库中词语所对应的词向量,并确定挖掘后的词语所对应的词向量;词向量为词语所对应的数值向量。
示例性地,本实施例中,当确定初始政务标签中不包括步骤S202所挖掘得到的词语时,此时,在对初始政务标签库中的词语以及挖掘后的词语进行层次聚类时,首先可以对需要进行层次聚类的词语进行向量化处理,进而得到词语所对应的词向量。其中,词语所对应的词向量可以看做是将词语采用数值向量的形式对词语进行数值标识,进而通过上述向量化处理方式,可以获取到初始政务标签库中的词语所对应的词向量,以及挖掘后的词语所对应的词向量。
一个示例中,在对词语进行向量化处理时,可以采用相关技术中所提供的wordembedding编码方式、one-hot编码方式进行词语编码等方式,确定词语所对应的词向量。
一个示例中,当初始政务标签库中所包含的词语在类簇中的层级关系也是基于层次聚类方式得到的时候,此时,初始政务标签库中词语所对应的词向量可以直接获取在建立初始政务标签库时所生成的初始标签库中各个词语的词向量,无需再次对初始政务标签库中的词语进行向量化处理。
可以理解的是,本实施例中,通过获取初始政务标签库中词语所对应的词向量以及挖掘后的词语所对应的词向量,以便后续在进行层次聚类处理时,可以准确识别各个词语。
S204、对初始政务标签库中词语所对应的词向量和挖掘后的词语所对应的词向量进行层次聚类处理,得到聚类结果;其中,初始政务标签库中包括至少一个词语;聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系。
示例性地,本实施例中,在获取到初始政务标签库中词语的词向量以及挖掘后的词语所对应的词向量之后,可以基于所得到的词向量进行层次聚类处理,即,用词向量来唯一代表与其对应的词语。
实际应用中,在对多个词向量进行层次聚类处理时,可以结合各个词向量之间的相似度进行处理。
一个示例中,步骤S204包括以下步骤:“根据初始政务标签库中词语所对应的词向量和挖掘后的词语所对应的词向量中的词向量,确定多个类簇,其中,类簇中包括一个词向量;重复以下步骤,直到达到第一预设停止条件:确定每对类簇的第一相似度;确定取值最大的第一相似度所对应的两个类簇,位于同一类簇中”。
示例性地,本实施例中,在进行层次聚类时,首先可以将得到的多个词向量(即,包括初始政务标签库中的词语所对应的词向量以及挖掘后的词语所对应的词向量)之后,可以分别将每一个词向量作为一个类簇,即,一个类簇中包括一个词向量,不同类簇所包含的词向量不同。之后,在得到多个类簇之后,类簇与类簇之间两两一组,组成多对类簇。针对每一对类簇,确定该对类簇中类簇与类簇之间的相似度,进而得到多个相似度,之后再将相似度中取值最大的相似度所对应的一对类簇可以确定为同一类簇中的两个子类簇。之后,重复上述步骤,继续确定得到的多个类簇中,每对类簇的相似度,进一步对类簇进行合并,直至达到预设的第一停止条件。其中,预设的第一停止条件可以为合并后得到的类簇数量达到预设阈值,或者类簇之间相似度小于预设值时则停止合并。
可以理解的是,本实施例中,在进行层次聚类时,可以通过不断计算类簇之间的相似度来对词向量进行层次聚类,进而通过上述不逐步合并的方式将多个词向量凝聚为至少一个类簇,并且类簇中词语的层级关系可以采用上述重复执行时的重复次数确定,次数越小,对应的词语所处的层级越低,进而得到聚类结果,以便提高初始政务标签库的更新效率。
一个示例中,第一相似度为根据最小距离、中心距离、平均距离以及最大距离中的任一项所确定的;最小距离用于指示一对类簇中的第一类簇中的词向量与一对类簇中的第二类簇中的词向量二者之间的距离的最小值;中心距离用于指示一对类簇中的第一类簇中的词向量与一对类簇中的第二类簇中的词向量二者之间的距离的中值;平均距离用于指示一对类簇中的第一类簇中的词向量与一对类簇中的第二类簇中的词向量二者之间的距离之和的平均值;最大距离用于指示一对类簇中的第一类簇中的词向量与一对类簇第二类簇中的词向量二者之间的距离的最大值,其中,一对类簇包括第一类簇和第二类簇。
示例性地,本实施例中两个不同类簇之间的第一相似度可以根据最小距离、中心距离、平均距离以及最大距离中的任一项所确定的。
其中,当一对类簇中的两个类簇分别为第一类簇以及第二类簇时,其中,可以分别确定第一类簇中的词向量与第二类簇中的词向量之间的距离,并且当得到多个距离时,多个距离中的最小时即为此处的最小距离;多个距离中的最大值即为最大距离;多个距离的平均值即为平均距离;多个距离中的中值,即为中心距离。并且,当选择的距离最小越小,所对应的类簇之间的相似度也就越大。
可以理解的是,本实施例中,通过采用上述任一距离的确定方式来确定不同类簇之间的相似度,上述方法实现起来较为简单,无需对提取词语的词语特征在确定词语相似度。
一个示例中,步骤S204包括以下步骤:“将初始政务标签库中词语所对应的词向量和挖掘后的词语所对应的词向量确定为初始类簇中的向量;重复以下步骤,直到达到第二预设停止条件:确定初始类簇中两个词向量二者之间的第二相似度;确定取值最小的第二相似度所对应的两个词向量分别为第一向量和第二向量;将初始类簇分为第一类簇和第二类簇,其中,第一类簇中包括第一向量,第二类簇包括第二向量;确定初始类簇中的剩余向量与第一向量二者之间的第三相似度,并确定剩余向量与第二向量二者之间的第四相似度;根据第三相似度和第四相似度,确定剩余向量所属的类簇;根据第一类簇和第二类簇,确定初始类簇”。
示例性地,本实施例中,在对多个词向量进行层次聚类时,可以采用拆分的方式,即首先将获取的全部的词向量作为一个初始类簇,之后确定初始类簇中任意两个词向量之间的第二相似度,进而得到多个第二相似度。之后,获取取值最小的第二相似度所对应的两个词向量,并将这两个词向量分为确定为第一向量以及第二向量;之后,将初始类簇划分为两个类簇,一个类簇中包括第一向量,另一个类簇中包括第二向量。对于初始类簇中的剩余向量(即,除第一向量和第二向量之外初始类簇中的其余向量),可以分别计算剩余向量和第一向量的相似度(即第三相似度)、剩余向量和第二向量的相似度(即第四相似度),以便通过比较第三相似度以及第四相似度,确定剩余向量归属于第一向量所属的类簇还是第二向量所属的类簇。即,当第三相似度小于第四相似度时,可以将剩余向量归属于第一向量所属的类簇;否则,则归属于剩余向量归属于第二向量所属的类簇。针对于所划分出的两个类簇,确定初始类簇,即将划分出的两个类簇作为两个初始类簇重复执行上述划分过程,直至达到预设的第二停止条件,例如,第二停止条件可以根据层次聚类时长或者层次聚类划分类簇数量来确定,本实施例中不做具体限制。
可以理解的是,本实施例中,在进行层次聚类处理时,可以根据词向量之间的相似度对一个类簇不断进行拆分,进而得到多个具有层级关系的类簇,以便后续可以根据划分好的类簇,对初始政务标签库进行更新,以提高后续确定待标注文本所对应的标签的准确性。
S205、根据聚类结果,对初始政务标签库进行更新处理,生成更新后的政务标签库;更新后的政务标签库用于确定待标注文本所对应的标签。
示例性地,步骤S205的具体原理可以参见步骤S104,此处不再赘述。
本实施例中,在对获取到的多个词语进行层次聚类时,可以通过获取初始政务标签库中词语所对应的词向量以及挖掘后的词语所对应的词向量,以便后续在进行层次聚类处理时,可以准确识别各个词语。并且,基于得到的词向量进行层次聚类处理时,通过不断计算类簇之间的相似度来对词向量进行层次聚类,进而通过上述逐步合并的方式逐步将多个词向量凝聚为至少一个类簇,以得到聚类结果。或者,也可以结合词向量之间的相似度,不断对多个词向量进行拆分,以得到聚类结果。进而,通过上述层次聚类的方式可以多个词向量进行层次划分,以便后续可以基于聚类结果,对初始政务标签库进行更新,提高后续为文本进行标签标注的准确性。
图3是根据本公开第三实施例的示意图。如图3所示,本公开实施例的政务标签库的生成方法,包括:
S301、获取待处理文本。
示例性地,本实施例的执行主体可以为政务标签库的生成装置,该生成装置可以为服务器(如云端服务器,或者,本地服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
示例性地,步骤S301的技术原理可以参见步骤S101,此处不再赘述。
S302、对待处理文本进行分词处理,得到多个分词结果。
示例性地,本实施例中,在获取到待处理文本之后,可以对待处理文本进行分词处理,即将待处理文本中所包含的各个语句进行划分,进而得到语句中所包含的分词结果。
S303、确定多个分词结果中相邻两个分词结果之间所对应的关联度;其中,关联度包括:凝固度、自由度、词频中的至少一项;凝固度用于表征相邻两个分词结果所包含的字与字之间的紧固程度;自由度用于表征相邻两个分词结果可以组成一个词的紧固程度;词频用于指示相邻两个分词结果在待处理文本中出现的频率。
示例性地,在得到多个分词结果之后,确定多个分词结果中相邻的两个分词结果之间所对应的关联度。
一个示例中,在两个分词结果之间所对应的关联度可以采用凝固度来表征。其中,凝固度可以表征中相邻两个分词结果中所包含的字与字之间的紧固程度,可以理解的是所确定出的凝固度越高,则单个分词结果所对应组成一个词的概率也就越大。其中,凝固度的确定方法可以参见相关技术中的原理,此处不再赘述。
一个示例中,两个分词结果之间所对应的关联度可以采用自由度来表征。其中,自由度可以表征中相邻两个分词结果可以组成一个词的紧固程度,可以理解的是,所确定出的自由度越高,则相邻两个分词结果组成一个词的概率也就越大。其中,自由度的确定方法可以参见相关技术中的原理,此处不再赘述。
一个示例中,在两个分词结果之间所对应的关联度可以采用词频来表征。其中,词频可以表征中相邻两个分词结果在待处理文本中出现的频率,可以理解的是所确定出的频率越高,则相邻两个分词结果所对应组成一个词的概率也就越大。其中,词频的确定方法可以参见相关技术中的原理,此处不再赘述。
此外,在实际应用中,关联度具体可以包括上述三种表征方式中的一项或者多项,当包括多项时,可以针对每一种表征方式设置一个预设值,来进行分词结果的筛选。
S304、若确定关联度小于预设值,则在多个分词结果中去除关联度所对应的相邻两个分词结果,得到挖掘后的词语;其中,挖掘后的词语的成词概率大于预设阈值;成词概率表征挖掘后的词语是一个完整词语的概率值。
示例性地,当相邻两个分词结果所对应的关联度大于预设阈值时,此时,则表明相邻的两个分词结果的成词概率较高;若关联度小于或等于预设阈值时,则表明相邻的两个分词结果的成词概率较低,则可以在多个分词结果中,去除上述关联度小于或等于预设值的两个分词结果。之后,将剩余的分词结果作为挖掘后的词语。
可以理解的是,本实施例中,在进行短语挖掘处理,即挖掘待处理文本中的新词时,通过将待处理文本进行初步分词,并根据分词得到的分词结果之间的关联度,在其中筛选确定出新词,以便后续可用于更新初始政务标签库。并且,本实施例中还可以结合凝固度、自由度、词频上述三种关联度的方式对分词结果进行筛选,以便挖掘后的词语更加准确。
S305、根据预设停用词库,对挖掘后的词语进行过滤处理,得到过滤后的词语。
示例性地,本实施例中,在获取到挖掘后的词语之后,还可以根据预5设停用词库对挖掘后的词语进行过滤,以便在挖掘后的词语中去除一些无
实际语义的词语。其中,预设停用词库中可以包括有一些常用的语气词、助词等词语。
一个示例中,在通过步骤S302获取到多个分词结果之后,也可以基
于预设停用词库进行对多个分词结果进行过滤处理时,进而减少后续确定0分词结果关联度的计算量。
可以理解的是,本实施例中,可以通过预设停用词库对挖掘后的词语进行过滤处理,以便使得过滤后所得到的词语更加准确,有利于提高后续标签确定的准确性。
S306、将挖掘后的词语输入预设第一分类模型,得到分类结果;预设5第一分类模型用于确定输入的词语是否具有政务属性;政务属性用于指示
与政务信息具有关联关系的属性。
S307、若分类结果表征挖掘后的词语不具有政务属性,则删除挖掘后的词语。
示例性地,本实施例中,在通过预设停用词库对挖掘后的词语进行过0滤之后,在过滤得到的词语中还可以基于预设第一分类模型确定过滤后的词语是否具有政务属性。其中,政务属性用于指示词语的含义与政务信息相关联的属性。
一个示例中,当预设第一分类模型输出的分类结果可以表征出输入至
第一分类模型的词语具有政务属性的第一置信度,以及输入该模型的词语5不具备政务属性的第二置信度,通过比较第一置信度以及第二置信度的大
小,确定该词语是否具备政务属性。
一个示例中,在对预设第一分类模型进行训练时,可以选择具备政务属性的词语,例如,政务新闻标题、政务政策文件等,以及一些不具备政务属性的词语,例如,娱乐新闻、体育新闻等进行模型训练,以使得训练出的第一分类模型可以确定出词语是否具备政务属性。
可以理解的是,本实施例中通过预设第一分类模型对挖掘后的词语是否具备政务属性进行判断,以便在挖掘后的词语中筛选出与政务相关的词语,进而选择与政务相关的词语来对政务标签库进行更新扩充,有利于确保更新后的政务标签库中所存储的词语的准确性。
S308、若初始政务标签库中不包含挖掘后的词语,则对初始政务标签库中的词语和挖掘后的词语进行层次聚类处理,得到聚类结果;其中,初始政务标签库中包括至少一个词语;聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系。
S309、根据聚类结果,对初始政务标签库进行更新处理,生成更新后的政务标签库;更新后的政务标签库用于确定待标注文本所对应的标签。
示例性地,步骤S308与步骤S309的具体原理可以参见步骤S103与步骤S104,此处不再赘述。
本实施例中,挖掘待处理文本中的新词时,通过将待处理文本进行初步分词,并根据分词得到的分词结果之间的关联度,在其中筛选确定出新词,以便后续可用于更新初始政务标签库。并且,本实施例中还可以结合凝固度、自由度、词频上述三种关联度的方式对分词结果进行筛选,以便挖掘后的词语更加准确通过预设第一分类模型对挖掘后的词语是否具备政务属性进行判断,以便在挖掘后的词语中筛选出与政务相关的词语,进而选择与政务相关的词语来对政务标签库进行更新扩充,有利于确保更新后的政务标签库中所存储的词语的准确性。此外,还可以通过预设停用词库对挖掘后的词语进行过滤处理,以便使得过滤后所得到的词语更加准确,有利于提高后续标签确定的准确性。
图4是根据本公开第四实施例的示意图。如图4所示,本公开实施例的政务文本的标签确定方法,包括:
S401、获取待标注文本。
示例性地,本实施例的执行主体可以为政务文本的标签确定装置,该确定装置可以为服务器(如云端服务器,或者,本地服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。此外,本实施例中的确定装置的执行主体可以与图1-图3中所提及的生成装置为同一设备,也可为不同设备,本实施例中不做具体限制。
本实施例中的待标注文本可以为待推送给用户的政务信息文本,也可以为用户上传至政务系统的投诉或者建议工单文本等,本实施例中不做具体限制。
S402、将待标注文本输入至预设第二分类模型,确定待标注文件所对应的政务标签;预设第二分类模型为基于具有政务标签的待训练文件训练得到的;待训练文本的政务标签为基于更新后的政务标签库所确定的;其中,更新后的政务标签库为根据图1-图3中任一项的方法得到的;更新后的政务标签库中包括多个词语、词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系。
示例性地,本实施例中,预设第二分类模型可以用于确定输入至该模型的文本所对应的标签。并且,本实施例中的预设第二分类模型为根据更新后的政务标签库所训练得到的。具体地,在训练预设第二分类模型时,可以根据具有政务标签的待训练文本训练得到,并且,待训练文本所对应的政务标签为通过更新后的政务标签库中的词语所确定的。并且,更新后的政务标签库中所包含的多个词语具有各自所对应类簇,以及词语在其所属类簇中的层级关系。例如,可以采用用户可以根据更新后的政务标签库人为标注待训练文本,进而得到具备政务标签的待训练文本。
当需要对待标注文本进行标注时,可以将待标注文本作为预设第二分类模型的输入,以便预设第二分类模型可以输出该待标注文本所对应的标签,以便后续将待标注文本显示在其所对应的标签下。
可以理解的是,本实施例中,在获取到更新后的政务标签库之后,可以基于更新后的政务标签库生成待训练文本,并基于待训练文本训练得到预设第二分类模型,以便后续可以基于预设第二分类模型对待标注文本进行打标签处理。此外,本实施例所提供的预设第二分类模型可以提供给不同政务机构使用,以便不同政务机构可以采用相同的更新后的政务标签库,有利于后续对不同政务机构的数据进行统计分析。
一个示例中,若待标注文本为政务投诉工单,则实时获取政务标签所对应的待标注文本的数量,若确定待标注文本的数量大于预设数值,则向用户发出提示信息。
示例性地,在上述实施例的基础上,本实施例中的待标注文本可以为政务投诉工单,在确定出待标注文本所对应的标签之后,还可以实时统计各个政务标签下所对应的待标注文本的数量,即确定每一政务标签下所对应的政务投诉工单的数量。当政务标签所对应的待标注文本数量大于预设数值时,此时可以向用户发出提示信息,以便提示用户关注该政务标签下所对应的工单。
图5是根据本公开第五实施例的示意图。如图5所示,本公开实施例的政务标签库的生成装置500,包括:
第一获取单元501,用于获取待处理文本。
第一处理单元502,用于对待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,挖掘后的词语的成词概率大于预设阈值;成词概率表征挖掘后的词语是一个完整词语的概率值。
第二处理单元503,用于若初始政务标签库中不包含挖掘后的词语,则对初始政务标签库中的词语和挖掘后的词语进行层次聚类处理,得到聚类结果;其中,初始政务标签库中包括至少一个词语;聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系。
更新单元504,用于根据聚类结果,对初始政务标签库进行更新处理,生成更新后的政务标签库;更新后的政务标签库用于确定待标注文本所对应的标签。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图6是根据本公开第六实施例的示意图。如图6所示,本公开实施例的政务标签库的生成装置600,包括:
第一获取单元601,用于获取待处理文本。
第一处理单元602,用于对待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,挖掘后的词语的成词概率大于预设阈值;成词概率表征挖掘后的词语是一个完整词语的概率值。
第二处理单元603,用于若初始政务标签库中不包含挖掘后的词语,则对初始政务标签库中的词语和挖掘后的词语进行层次聚类处理,得到聚类结果;其中,初始政务标签库中包括至少一个词语;聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系。
更新单元604,用于根据聚类结果,对初始政务标签库进行更新处理,生成更新后的政务标签库;更新后的政务标签库用于确定待标注文本所对应的标签。
一个示例中,第二处理单元603,包括:
第一确定模块6031,用于若初始政务标签库中不包括挖掘后的词语,则确定初始政务标签库中词语所对应的词向量。
第二确定模块6032,用于确定挖掘后的词语所对应的词向量;词向量为词语所对应的数值向量。
第一处理模块6033,用于对初始政务标签库中词语所对应的词向量和挖掘后的词语所对应的词向量进行层次聚类处理,得到聚类结果。
一个示例中,第一处理模块6033,包括:
第一确定子模块,用于根据初始政务标签库中词语所对应的词向量和挖掘后的词语所对应的词向量中的词向量,确定多个类簇,其中,类簇中包括一个词向量;
重复以下第二确定子模块和第三确定子模块,直到达到第一预设停止条件:第二确定子模块,用于确定每对类簇的第一相似度;第三确定子模块,用于确定取值最大的第一相似度所对应的两个类簇,位于同一类簇中。
一个示例中,第一相似度为根据最小距离、中心距离、平均距离以及最大距离中的任一项所确定的;最小距离用于指示一对类簇中的第一类簇中的词向量与一对类簇中的第二类簇中的词向量二者之间的距离的最小值;中心距离用于指示一对类簇中的第一类簇中的词向量与一对类簇中的第二类簇中的词向量二者之间的距离的中值;平均距离用于指示一对类簇中的第一类簇中的词向量与一对类簇中的第二类簇中的词向量二者之间的距离之和的平均值;最大距离用于指示一对类簇中的第一类簇中的词向量与一对类簇中的第二类簇中的词向量二者之间的距离的最大值,其中,一对类簇包括第一类簇和第二类簇。
一个示例中,第一处理模块6033,包括:
第四确定子模块,用于将初始政务标签库中词语所对应的词向量和挖掘后的词语所对应的词向量确定为初始类簇中的向量。
重复以下第五确定子模块、第六确定子模块、划分子模块、第七确定子模块、第八确定子模块以及第九确定子模块,直到达到第二预设停止条件:第五确定子模块,用于确定初始类簇中两个词向量二者之间的第二相似度;第六确定子模块,用于确定取值最小的第二相似度所对应的两个词向量分别为第一向量和第二向量;划分子模块,用于将初始类簇分为第一类簇和第二类簇,其中,第一类簇中包括第一向量,第二类簇包括第二向量;第七确定子模块,用于确定初始类簇中的剩余向量与第一向量二者之间的第三相似度,并确定剩余向量与第二向量二者之间的第四相似度;第八确定子模块,用于根据第三相似度和第四相似度,确定剩余向量所属的类簇;第九确定子模块,用于根据第一类簇和第二类簇,确定初始类簇。
一个示例中,第一处理单元602,包括:
第二处理模块6021,用于对待处理文本进行分词处理,得到多个分词结果。
第三确定模块6022,用于确定多个分词结果中相邻两个分词结果之间所对应的关联度;其中,关联度包括:凝固度、自由度、词频中的至少一项;凝固度用于表征相邻两个分词结果所包含的字与字之间的紧固程度;自由度用于表征相邻两个分词结果可以组成一个词的紧固程度;词频用于指示相邻两个分词结果在待处理文本中出现的频率。
去除模块6023,用于若确定关联度小于预设值,则在多个分词结果中去除关联度所对应的相邻两个分词结果,得到挖掘后的词语。
一个示例中,装置还包括:
过滤单元605,用于在第一处理单元602对待处理文本进行短语挖掘处理,得到挖掘后的词语之后,根据预设停用词库,对挖掘后的词语进行过滤处理,得到过滤后的词语。
一个示例中,装置还包括:
分类单元606,用于在在第一处理单元602对待处理文本进行短语挖掘处理,得到挖掘后的词语之后,将挖掘后的词语输入预设第一分类模型,得到分类结果;预设第一分类模型用于确定输入的词语是否具有政务属性;政务属性用于指示与政务信息具有关联关系的属性。
删除单元607,用于若分类结果表征挖掘后的词语不具有政务属性,则删除挖掘后的词语。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图7是根据本公开第七实施例的示意图。如图7所示,本公开实施例的政务文本的标签确定装置700,包括:
第二获取单元701,用于获取待标注文本。
确定单元702,用于将待标注文本输入至预设第二分类模型,确定待标注文件所对应的政务标签;预设第二分类模型为基于具有政务标签的待训练文件训练得到的;待训练文本的政务标签为基于更新后的政务标签库所确定的。
其中,更新后的政务标签库为根据图5或图6中任一实施例所提供的装置得到的;更新后的政务标签库中包括多个词语、词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图8是根据本公开第八实施例的示意图。如图8所示,本公开实施例的政务文本的标签确定装置800,包括:
第二获取单元801,用于获取待标注文本。
确定单元802,用于将待标注文本输入至预设第二分类模型,确定待标注文件所对应的政务标签;预设第二分类模型为基于具有政务标签的待训练文件训练得到的;待训练文本的政务标签为基于更新后的政务标签库所确定的。
其中,更新后的政务标签库为根据图5或图6中任一实施例所提供的装置得到的;更新后的政务标签库中包括多个词语、词语的所属的类簇和词语的层级关系信息,其中,层级关系信息表征词语在词语所属的类簇中的层级关系。
一个示例中,装置还包括:第三获取单元803,用于若待标注文本为政务投诉工单,则实时获取政务标签所对应的待标注文本的数量。
提示单元804,用于若确定待标注文本的数量大于预设数值,则向用户发出提示信息。
示例性地,本实施例的装置,可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
图9是根据本公开第九实施例的示意图,如图9所示,本公开中的电子设备900可以包括:处理器901和存储器902。
存储器902,用于存储程序;存储器902,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器902用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指令、数据等可以被处理器901调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指据等可以被处理器901调用。
处理器901,用于执行存储器902存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器901和存储器902可以是独立结构,也可以是集成在一起的集成结构。当处理器901和存储器902是独立结构时,存储器902、处理器901可以通过总线903耦合连接。
本实施例的电子设备可以执行上述图1-图4中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述任一实施例提供的方案。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如政务标签库的生成方法、或者政务文本的标签确定方法。例如,在一些实施例中,政务标签库的生成方法、或者政务文本的标签确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的政务标签库的生成方法、或者政务文本的标签确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行政务标签库的生成方法、或者政务文本的标签确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种政务标签库的生成方法,包括:
获取待处理文本,并对所述待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,所述挖掘后的词语的成词概率大于预设阈值;所述成词概率表征挖掘后的词语是一个完整词语的概率值;
若初始政务标签库中不包含所述挖掘后的词语,则对所述初始政务标签库中的词语和所述挖掘后的词语进行层次聚类处理,得到聚类结果;其中,所述初始政务标签库中包括至少一个词语;所述聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系;
根据所述聚类结果,对所述初始政务标签库进行更新处理,生成更新后的政务标签库;所述更新后的政务标签库用于确定待标注文本所对应的标签。
2.根据权利要求1所述的方法,其中,若初始政务标签库中不包含所述挖掘后的词语,则对所述初始政务标签库中的词语和所述挖掘后的词语进行层次聚类处理,得到聚类结果,包括:
若初始政务标签库中不包括所述挖掘后的词语,则确定所述初始政务标签库中词语所对应的词向量,并确定所述挖掘后的词语所对应的词向量;所述词向量为所述词语所对应的数值向量;
对所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量进行层次聚类处理,得到聚类结果。
3.根据权利要求2所述的方法,其中,对所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量进行层次聚类处理,得到聚类结果,包括:
根据所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量中的词向量,确定多个类簇,其中,所述类簇中包括一个词向量;
重复以下步骤,直到达到第一预设停止条件:确定每对类簇的第一相似度;确定取值最大的第一相似度所对应的两个类簇,位于同一类簇中。
4.根据权利要求3所述的方法,其中,所述第一相似度为根据最小距离、中心距离、平均距离以及最大距离中的任一项所确定的;所述最小距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离的最小值;所述中心距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离的中值;所述平均距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离之和的平均值;所述最大距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离的最大值,其中,一对类簇包括第一类簇和第二类簇。
5.根据权利要求2所述的方法,其中,对所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量进行层次聚类处理,得到聚类结果,包括:
将所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量确定为初始类簇中的向量;
重复以下步骤,直到达到第二预设停止条件:确定所述初始类簇中两个词向量二者之间的第二相似度;确定取值最小的第二相似度所对应的两个词向量分别为第一向量和第二向量;将所述初始类簇分为第一类簇和第二类簇,其中,所述第一类簇中包括所述第一向量,所述第二类簇包括所述第二向量;确定所述初始类簇中的剩余向量与所述第一向量二者之间的第三相似度,并确定所述剩余向量与所述第二向量二者之间的第四相似度;根据所述第三相似度和所述第四相似度,确定所述剩余向量所属的类簇;根据所述第一类簇和所述第二类簇,确定初始类簇。
6.根据权利要求1-5中任一项所述的方法,其中,对所述待处理文本进行短语挖掘处理,得到挖掘后的词语,包括:
对所述待处理文本进行分词处理,得到多个分词结果;
确定所述多个分词结果中相邻两个分词结果之间所对应的关联度;其中,所述关联度包括:凝固度、自由度、词频中的至少一项;所述凝固度用于表征相邻两个分词结果所包含的字与字之间的紧固程度;所述自由度用于表征相邻两个分词结果可以组成一个词的紧固程度;所述词频用于指示所述相邻两个分词结果在所述待处理文本中出现的频率;
若确定所述关联度小于预设值,则在多个分词结果中去除所述关联度所对应的相邻两个分词结果,得到挖掘后的词语。
7.根据权利要求1-6中任一项所述的方法,在对所述待处理文本进行短语挖掘处理,得到挖掘后的词语之后,还包括:
根据预设停用词库,对所述挖掘后的词语进行过滤处理,得到过滤后的词语。
8.根据权利要求1-7中任一项所述的方法,在对所述待处理文本进行短语挖掘处理,得到挖掘后的词语之后,还包括:
将所述挖掘后的词语输入预设第一分类模型,得到分类结果;所述预设第一分类模型用于确定所述输入的词语是否具有政务属性;所述政务属性用于指示与政务信息具有关联关系的属性;
若所述分类结果表征所述挖掘后的词语不具有政务属性,则删除所述挖掘后的词语。
9.一种政务文本的标签确定方法,包括:
获取待标注文本;
将所述待标注文本输入至预设第二分类模型,确定所述待标注文件所对应的政务标签;所述预设第二分类模型为基于具有政务标签的待训练文件训练得到的;所述待训练文本的政务标签为基于更新后的政务标签库所确定的;
其中,所述更新后的政务标签库为根据权利要求1-8中任一项所述的方法得到的;所述更新后的政务标签库中包括多个词语、所述词语的所属的类簇和所述词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系。
10.根据权利要求9所述的方法,还包括:
若待标注文本为政务投诉工单,则实时获取政务标签所对应的待标注文本的数量,若确定所述待标注文本的数量大于预设值,则向用户发出提示信息。
11.一种政务标签库的生成装置,包括:
第一获取单元,用于获取待处理文本;
第一处理单元,用于对所述待处理文本进行短语挖掘处理,得到挖掘后的词语;其中,所述挖掘后的词语的成词概率大于预设阈值;所述成词概率表征挖掘后的词语是一个完整词语的概率值;
第二处理单元,用于若初始政务标签库中不包含所述挖掘后的词语,则对所述初始政务标签库中的词语和所述挖掘后的词语进行层次聚类处理,得到聚类结果;其中,所述初始政务标签库中包括至少一个词语;所述聚类结果包括:词语的所属的类簇和词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系;
更新单元,用于根据所述聚类结果,对所述初始政务标签库进行更新处理,生成更新后的政务标签库;所述更新后的政务标签库用于确定待标注文本所对应的标签。
12.根据权利要求11所述的装置,其中,第二处理单元,包括:
第一确定模块,用于若初始政务标签库中不包括所述挖掘后的词语,则确定所述初始政务标签库中词语所对应的词向量;
第二确定模块,用于确定所述挖掘后的词语所对应的词向量;所述词向量为所述词语所对应的数值向量;
第一处理模块,用于对所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量进行层次聚类处理,得到聚类结果。
13.根据权利要求12所述的装置,其中,第一处理模块,包括:
第一确定子模块,用于根据所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量中的词向量,确定多个类簇,其中,所述类簇中包括一个词向量;
重复以下第二确定子模块和第三确定子模块,直到达到第一预设停止条件:第二确定子模块,用于确定每对类簇的第一相似度;第三确定子模块,用于确定取值最大的第一相似度所对应的两个类簇,位于同一类簇中。
14.根据权利要求13所述的装置,其中,所述第一相似度为根据最小距离、中心距离、平均距离以及最大距离中的任一项所确定的;所述最小距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离的最小值;所述中心距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离的中值;所述平均距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离之和的平均值;所述最大距离用于指示一对类簇中的第一类簇中的词向量与所述一对类簇中的第二类簇中的词向量二者之间的距离的最大值,其中,一对类簇包括第一类簇和第二类簇。
15.根据权利要求12所述的装置,其中,第一处理模块,包括:
第四确定子模块,用于将所述初始政务标签库中词语所对应的词向量和所述挖掘后的词语所对应的词向量确定为初始类簇中的向量;
重复以下第五确定子模块、第六确定子模块、划分子模块、第七确定子模块、第八确定子模块以及第九确定子模块,直到达到第二预设停止条件:
第五确定子模块,用于确定所述初始类簇中两个词向量二者之间的第二相似度;第六确定子模块,用于确定取值最小的第二相似度所对应的两个词向量分别为第一向量和第二向量;划分子模块,用于将所述初始类簇分为第一类簇和第二类簇,其中,所述第一类簇中包括所述第一向量,所述第二类簇包括所述第二向量;第七确定子模块,用于确定所述初始类簇中的剩余向量与所述第一向量二者之间的第三相似度,并确定所述剩余向量与所述第二向量二者之间的第四相似度;第八确定子模块,用于根据所述第三相似度和所述第四相似度,确定所述剩余向量所属的类簇;第九确定子模块,用于根据所述第一类簇和所述第二类簇,确定初始类簇。
16.根据权利要求11-15中任一项所述的装置,其中,第一处理单元,包括:
第二处理模块,用于对所述待处理文本进行分词处理,得到多个分词结果;
第三确定模块,用于确定所述多个分词结果中相邻两个分词结果之间所对应的关联度;其中,所述关联度包括:凝固度、自由度、词频中的至少一项;所述凝固度用于表征相邻两个分词结果所包含的字与字之间的紧固程度;所述自由度用于表征相邻两个分词结果可以组成一个词的紧固程度;所述词频用于指示所述相邻两个分词结果在所述待处理文本中出现的频率;
去除模块,用于若确定所述关联度小于预设值,则在多个分词结果中去除所述关联度所对应的相邻两个分词结果,得到挖掘后的词语。
17.根据权利要求11-16中任一项所述的装置,还包括:
过滤单元,用于在所述第一处理单元对所述待处理文本进行短语挖掘处理,得到挖掘后的词语之后,根据预设停用词库,对所述挖掘后的词语进行过滤处理,得到过滤后的词语。
18.根据权利要求11-17中任一项所述的装置,还包括:
分类单元,用于在在所述第一处理单元对所述待处理文本进行短语挖掘处理,得到挖掘后的词语之后,将所述挖掘后的词语输入预设第一分类模型,得到分类结果;所述预设第一分类模型用于确定所述输入的词语是否具有政务属性;所述政务属性用于指示与政务信息具有关联关系的属性;
删除单元,用于若所述分类结果表征所述挖掘后的词语不具有政务属性,则删除所述挖掘后的词语。
19.一种政务文本的标签确定装置,包括:
第二获取单元,用于获取待标注文本;
确定单元,用于将所述待标注文本输入至预设第二分类模型,确定所述待标注文件所对应的政务标签;所述预设第二分类模型为基于具有政务标签的待训练文件训练得到的;所述待训练文本的政务标签为基于更新后的政务标签库所确定的;
其中,所述更新后的政务标签库为根据权利要求11-18中任一项所述的装置得到的;所述更新后的政务标签库中包括多个词语、所述词语的所属的类簇和所述词语的层级关系信息,其中,所述层级关系信息表征词语在词语所属的类簇中的层级关系。
20.根据权利要求19所述的装置,还包括:
第三获取单元,用于若待标注文本为政务投诉工单,则实时获取政务标签所对应的待标注文本的数量;
提示单元,用于若确定所述待标注文本的数量大于预设数值,则向用户发出提示信息。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。
CN202211657094.0A 2022-12-22 2022-12-22 政务标签库的生成方法、政务文本的标签确定方法和装置 Pending CN115952258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211657094.0A CN115952258A (zh) 2022-12-22 2022-12-22 政务标签库的生成方法、政务文本的标签确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211657094.0A CN115952258A (zh) 2022-12-22 2022-12-22 政务标签库的生成方法、政务文本的标签确定方法和装置

Publications (1)

Publication Number Publication Date
CN115952258A true CN115952258A (zh) 2023-04-11

Family

ID=87288416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211657094.0A Pending CN115952258A (zh) 2022-12-22 2022-12-22 政务标签库的生成方法、政务文本的标签确定方法和装置

Country Status (1)

Country Link
CN (1) CN115952258A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251685A (zh) * 2023-11-20 2023-12-19 中电科大数据研究院有限公司 一种基于知识图谱的标准化政务数据构建方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251685A (zh) * 2023-11-20 2023-12-19 中电科大数据研究院有限公司 一种基于知识图谱的标准化政务数据构建方法和装置
CN117251685B (zh) * 2023-11-20 2024-01-26 中电科大数据研究院有限公司 一种基于知识图谱的标准化政务数据构建方法和装置

Similar Documents

Publication Publication Date Title
CN113918714A (zh) 一种分类模型训练方法、聚类方法及电子设备
CN111861596A (zh) 一种文本分类方法和装置
CN115952258A (zh) 政务标签库的生成方法、政务文本的标签确定方法和装置
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
CN113904943A (zh) 账号检测方法、装置、电子设备和存储介质
CN113157877A (zh) 多语义识别方法、装置、设备和介质
CN114036921A (zh) 一种政策信息匹配方法和装置
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
CN115909376A (zh) 文本识别方法、文本识别模型训练方法、装置及存储介质
CN110895655A (zh) 提取文本核心短语的方法和装置
CN114417862A (zh) 文本匹配方法、文本匹配模型的训练方法和装置
CN114647727A (zh) 应用于实体信息识别的模型训练方法、装置和设备
CN114880498A (zh) 事件信息展示方法及装置、设备和介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN114201953A (zh) 一种关键词提取、模型训练方法、装置、设备及存储介质
CN113886543A (zh) 生成意图识别模型的方法、装置、介质及程序产品
CN113590774A (zh) 事件查询方法、装置以及存储介质
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN116737520B (zh) 一种日志数据的数据编织方法、装置、设备及存储介质
CN114186552B (zh) 文本分析方法、装置、设备及计算机存储介质
US20230122093A1 (en) Method for determining text topic, and electronic device
US20220374603A1 (en) Method of determining location information, electronic device, and storage medium
CN117574168A (zh) 信息报告的生成方法及其装置
CN116434244A (zh) 一种用于识别文本的模型的训练方法以及文本识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination