CN113821590A - 一种文本类别的确定方法、相关装置以及设备 - Google Patents

一种文本类别的确定方法、相关装置以及设备 Download PDF

Info

Publication number
CN113821590A
CN113821590A CN202110662917.8A CN202110662917A CN113821590A CN 113821590 A CN113821590 A CN 113821590A CN 202110662917 A CN202110662917 A CN 202110662917A CN 113821590 A CN113821590 A CN 113821590A
Authority
CN
China
Prior art keywords
text
classified
category
determining
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110662917.8A
Other languages
English (en)
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110662917.8A priority Critical patent/CN113821590A/zh
Publication of CN113821590A publication Critical patent/CN113821590A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种应用于自然语言处理的文本类别的确定方法、相关装置以及设备,用于提高确定文本类别的准确率,从而便于文本的分类或查询。本申请实施例方法包括:获取待分类文本,从待分类文本中确定主题词语,主题词语用于表示待分类文本的主题类型,根据P个领域词典确定待分类文本中的K个领域词语,K个领域词语来源于P个领域词典,领域词语用于表示待分类文本所属的领域类型,每个领域词典对应于一个文本类别,根据K个领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率,根据待分类文本分别属于P个文本类别的概率,从P个文本类别中确定待分类文本所对应的目标文本类别。

Description

一种文本类别的确定方法、相关装置以及设备
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种文本类别的确定方法、相关装置以及设备。
背景技术
随着信息的飞速发展,各级政府部门的日常办公已离不开计算机系统的应用,且随着民生服务一网通办、政务服务一网互联等新治理新服务理念的提出,能够有利于加快政府数字化发展。
但是,在进行民生服务和社会治理的过程中,会产生的大量的政务数据,如民生事项办理、公文文本、数字服务等数据,若无法对这些数据更好地进行挖掘和分析,则难以实现和加快政务行业的智能化,从而降低人民和政府工作人员处理服务事项的便捷性。
其中,公文自动分类是实现政务数字化转型、民生服务在线办理的必经途径,因此,为加强和加快公文工作,保证公文工作的顺利展开,一般是基于模板的电子公文分类方法进行公文分类。
但是该方法依赖于人工给定的规则和模板,而在构建专家知识库和公文领域规则上,需要耗费较大的时间成本和人力成本,同时,由于规则的局限性和公文文本的格式自由,所构建规则往往一定时间后就会泛化能力降低,通用性不足导致许多公文无法准确地进行分类,且迭代周期长,不够灵活。
发明内容
本申请实施例提供了一种文本类别的确定方法、相关装置以及设备,通过挖掘待分类文本中的主题词语以及领域词语,且由于主题词语能够反映待分类文本的主题类型,以及领域词语反映待分类文本的领域类型,能够增加确定文本类别的参考信息的维度,进而通过使用主题词语以及领域词语来确定待分类文本可以属于的文本类别的概率,能够通过概率来准确直观反映待分类文本的文本主题趋势,从而能够通过使用文本类别的概率来确定待分类文本的目标文本类别,提高确定目标文本类别的准确率,以及无需通过人工构建规则,也不会受到规则以及文本格式的限制,能够节约成本,提高确定目标文本类别的效率。
本申请实施例一方面提供了一种文本类别的确定方法,包括:
获取待分类文本,其中,待分类文本包括多个词语;
从待分类文本中确定主题词语,其中,主题词语用于表示待分类文本的主题类型;
根据P个领域词典确定待分类文本中的K个领域词语,其中,K个领域词语来源于P个领域词典,领域词语用于表示待分类文本所属的领域类型,每个领域词典对应于一个文本类别,P与K均为大于或等于1的整数;
根据K个领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率;
根据待分类文本分别属于P个文本类别的概率,从P个文本类别中确定待分类文本所对应的目标文本类别。
本申请另一方面提供了一种文本类别的确定装置,包括:
获取单元,用于获取待分类文本,其中,待分类文本包括多个词语;
确定单元,用于从待分类文本中确定主题词语,其中,主题词语用于表示待分类文本的主题类型;
确定单元,还用于根据P个领域词典确定待分类文本中的K个领域词语,其中,K个领域词语来源于P个领域词典,领域词语用于表示待分类文本所属的领域类型,每个领域词典对应于一个文本类别,P与K均为大于或等于1的整数;
确定单元,还用于根据K个领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率;
确定单元,还用于根据待分类文本分别属于P个文本类别的概率,从P个文本类别中确定待分类文本所对应的目标文本类别。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
根据第一概率映射关系获取主题词语在文本集合中的第一特征出现概率,其中,第一概率映射关系包括主题词语特征与第一特征出现概率之间的对应关系,主题词语与主题词语特征具有对应关系;
根据P个领域词典,确定K个领域词语中的P组待选领域词语,每组待选领域词语中包括至少1个领域词语;
根据第二概率映射关系获取P组待选领域词语在文本集合中的P个第二特征出现概率,其中,第二概率映射关系包括文本局部特征与第二特征出现概率之间的对应关系,文本局部特征与待选领域词语具有对应关系;
根据第一特征出现概率、P个第二特征出现概率、分类概率以及贝叶斯模型,得到P个文本类别的概率,其中,分类概率来源于N个预设的文本类别,每个分类概率对应一个文本类别,N为大于1的整数。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
确定分类概率与第一特征出现概率之间的第一互信息,以及分类概率与P个第二特征出现概率之间的P个第二互信息;
将第一互信息分别与P个第二互信息进行加和,得到P个待选互信息,其中,P个待选互信息与P个文本类别的概率具有对应关系;
从P个待选互信息确定满足预设互信息阈值的目标互信息,并将目标互信息对应的文本类别的概率确定为目标概率;
将目标概率对应文本类别确定为目标类别。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
若P等于1,则将P个文本类别的概率对应的文本类别确定为目标文本类别;
若P大于1,则从P个文本类别的概率确定满足预设概率条件的概率,以得到目标文本类别。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
根据预设类别阈值,从P个文本类别的概率确定M个待选文本类别概率,M为大于或等于1的整数;
当M等于1时,将待选文本类别概率对应的文本类别确定为目标文本类别;
当M大于1时,从待选文本类别概率中确定最大文本类别概率,并将最大文本类别概率对应的文本类别确定为目标文本类别。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
获取P个领域词典分别对应的特征模型,得到P个类别特征模型;
使用P个类别特征模型分别对待分类文本进行类别特征提取,得到P个文本类别特征;
基于实体识别模型对待分类文本进行实体识别,得到Z个实体词语,其中,Z为大于或等于1的整数;
将P个文本类别特征,分别与K个领域词语以及Z个实体词语进行特征拼接,得到P个文本局部特征。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
获取单元,还用于获取样本集合,其中,样本集合包括N个样本子集,每个样本子集包括至少两个类别样本,每个样本子集对应一个文本类别;
处理单元,用于针对每个样本子集,分别对至少两个类别样本中的每个类别样本进行预处理,得到至少两个样本词性序列,其中,每个样本词性序列包括样本词语以及样本词语的词性;
处理单元,还用于对每个样本词性序列进行权重计算,得到每个样本词性序列的重要度权值;
确定单元,还用于根据预设重要度阈值,从重要度权值中确定目标权值,并将目标权值对应的样本词语确定为目标领域词语;
处理单元,还用于将目标领域词语添加至文本类别对应的领域词典。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体可以用于:
对每个类别样本进行停用词过滤,得到待处理文本,待处理文本至少包括两个待处理句子;
对至少两个待处理句子中的每个句子进行分词处理,得到至少两个待处理词语;
对至少两个待处理词语中的每个待处理词语进行词性标注处理,得到样本词性序列。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,确定单元具体可以用于:
对待分类文本进行向量处理,得到至少两个词向量,其中,一个词向量对应一个词语;
将至少两个词向量输入主题模型进行主题分布处理,得到待分类文本的主题分布向量;
分别计算至少两个词向量中每一个词向量与主题分布向量之间的距离,得到X个距离,X为大于1的整数;
从X个距离中确定满足预设的距离阈值的待选距离,并将待选距离对应的词向量确定为主题相关词向量;
将主题相关词向量对应的词语确定主题词语。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
确定单元,还用于若主题词语的数量为一个,则将主题词语对应的主题相关词向量确定为主题词语特征;
处理单元,还用于若主题词语的数量大于一个,则对主题词语对应的主题相关词向量进行向量整合处理,得到主题词语特征。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
确定单元,还用于确定目标文本类别对应的目标领域词典以及目标样本子集;
处理单元,还用于将待分类文本添加至目标样本子集中,以更新目标领域词典。
在一种可能的设计中,本申请实施例另一方面的一种实现方式中,
确定单元,还用于确定目标文本类别所对应的目标关联部门;
处理单元,还用于向目标关联部门所对应终端设备推送待分类文本,以使终端设备显示待分类文本。
本申请的另一方面提供了一种计算机设备,包括:存储器、处理器以及总线系统;
存储器用于存储程序代码;
处理器用于用于根据所述程序代码中的指令执行上述任一方面所述的文本类别的确定方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的一个方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一方面所提供的文本类别的确定方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
先通过从包含有多个词语待分类文本中,确定能够用于表示待分类文本主题类型的主题词语,并通过挖掘待分类文本中存在的领域词语,然后,根据领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率,并通过待分类文本分别属于P个文本类别的概率,从这P个文本类别中确定待分类文本所对应的目标文本类别。通过上述方式,实现了通过挖掘待分类文本中的主题词语以及领域词语,且由于主题词语能够反映待分类文本的主题类型,以及领域词语反映待分类文本的领域类型,能够增加确定文本类别的参考信息的维度,进而通过使用主题词语以及领域词语来确定待分类文本可以属于的文本类别的概率,能够通过概率来准确直观反映待分类文本的文本主题趋势,从而能够通过使用文本类别的概率来确定待分类文本的目标文本类别,提高确定目标文本类别的准确率,以及无需通过人工构建规则,也不会受到规则以及文本格式的限制,能够节约成本,提高确定目标文本类别的效率。
附图说明
图1是本申请实施例中文本处理的一个架构示意图;
图2是本申请实施例中文本类别的确定方法的一个实施例示意图;
图3是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图4是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图5是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图6是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图7是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图8是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图9是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图10是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图11是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图12是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图13是本申请实施例中文本类别的确定方法的另一个实施例示意图;
图14是本申请实施例中文本类别的确定方法的一个界面的示意图;
图15是本申请实施例中文本类别的确定装置的一个实施例示意图;
图16是本申请实施例中计算机设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种文本类别的确定方法、相关装置以及设备,用于通过挖掘待分类文本中的主题词语以及领域词语,且由于主题词语能够反映待分类文本的主题类型,以及领域词语反映待分类文本的领域类型,能够增加确定文本类别的参考信息的维度,进而通过使用主题词语以及领域词语来确定待分类文本可以属于的文本类别的概率,能够通过概率来准确直观反映待分类文本的文本主题趋势,从而能够通过使用文本类别的概率来确定待分类文本的目标文本类别,提高确定目标文本类别的准确率,以及无需通过人工构建规则,也不会受到规则以及文本格式的限制,能够节约成本,提高确定目标文本类别的效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着信息的飞速发展,各级政府部门、各类企业以及平常百姓等的日常办公已离不开计算机系统的应用,因此伴随着计算机的发展,人工智能(artificial intelligence,AI)以及数据库(Database)也逐渐走入人们生活的方方面面。人工智能在文本翻译、智能问答以及情感分析等方面,都具有广泛的实践意义。人工智能的出现,也极大地方便了人们的工作和生活。其中,人工智能是利用数学计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换而言之,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能是一门综合学科,涉及的领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能的基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在自然语言处理技术中,人工智能可以用来处理文本,并对文本中的词语进行合理的解释。以及在机器学习/深度学习技术中,人工智能可以用来处理文本,并对文本中的词频或词语的重要度进行统计或解释。本申请实施例提供的文本类别的确定方法就可以通过自然语言处理技术以及机器学习技术来实现。
自然语言处理(nature language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学和数学与一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学有些密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、指示图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
数据库在文本存储、更新以及数据查询等方面,都具有广泛的实践意义。数据库的投入使用,也极大地方便了人们的工作和生活。其中,数据库简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(英语:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
应理解,本申请提供的文本类别的确定方法可以应用于人工智能领域,用于通过确定的文本类别完成文本分类的场景中,作为示例,例如通过对公文文本进行公文类别的确定,来根据公文类别完成公文文本的分类;作为另一示例,例如通过对新闻文本进行新闻类别的确定分类,来按照新闻类别完成新闻文本的分类;作为另一示例,例如通过对故事文本进行故事类别的确定,来按照故事类别完成故事文本的分类;作为另一示例,例如通过对邮件文本进行邮件类别的确定,来按照邮件类别完成邮箱的邮件分类整理等,在上述种种场景中,为了实现文本的分类,传统的文本类别的确定方法主要是通过人工给定的规则和模板来进行文本分类,不仅需要消耗大量的人力成本和时间成本,还容易受到规则的局限性和公文文本的格式自由的干扰,导致文本分类的准确率不高,且由于迭代周期长,不够灵活,导致文本分类的效率低。
为了解决上述问题,本申请提出了一种文本类别的确定方法,该方法应用于图1所示的文本处理系统,请参阅图1,图1为本申请实施例中文本处理系统的一个架构示意图,如图1所示,服务器通过获取终端设备提供的待分类文本,并通过从包含有多个词语待分类文本中,确定能够用于表示待分类文本主题类型的主题词语,进而通过挖掘待分类文本中存在的领域词语,然后,根据领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率,并通过待分类文本分别属于P个文本类别的概率,从这P个文本类别中确定待分类文本所对应的目标文本类别。通过上述方式,实现了通过挖掘待分类文本中的主题词语以及领域词语,且由于主题词语能够反映待分类文本的主题类型,以及领域词语反映待分类文本的领域类型,能够增加确定文本类别的参考信息的维度,进而通过使用主题词语以及领域词语来确定待分类文本可以属于的文本类别的概率,能够通过概率来准确直观反映待分类文本的文本主题趋势,从而能够通过使用文本类别的概率来确定待分类文本的目标文本类别,提高确定目标文本类别的准确率,以及无需通过人工构建规则,也不会受到规则以及文本格式的限制,能够节约成本,提高确定目标文本类别的效率。
为了解决上述问题,本申请提出了一种文本类别的确定方法,该方法一般由服务器或终端设备执行,相应地,应用于文本类别的确定装置一般设置于服务器或终端设备中。
可以理解的是,如本申请所公开的文本类别的确定方法、相关设备以及装置,其中多个服务器/终端设备可以组成为一区块链,而服务器/终端设备为区块链上的节点。在实际应用中,可以在区块链中需要进行节点与节点之间的数据共享,每个节点上可以存储有文本集合和待识别多义词。
下面将对本申请中文本类别的确定方法进行介绍,请参阅图2,本申请实施例中文本类别的确定方法一个实施例包括:
在步骤S101中,获取待分类文本,其中,待分类文本包括多个词语;
在本实施例中,为了能够对获取到的文本数据进行准确分别,再根据分类结果将这些文本数据准确推送给专业的部门进行处理,以加强和加快文本数据处理工作,保证文本数据处理工作的顺利展开,因此,可以将这些文本数据作为待分类文本,其中,带分类文本具体可以表现为公文文本、新闻文本、历史教材文本、杂志文本等,还可以是其他形式的文本,此处不作具体限制。
进一步地,由于文本内容具体可以是由多个词语或短语组成的一个或多个句子,或者一个或多个文段,或者一篇文章等,此处不作具体限制,因此,待分类文本中包含有多个词语。
例如,假设一个待分类文本为“小李想咨询一线医护人员的子女就近入学的问题,什么时候可以落实”,该待分类文本包含有“小李/想/咨询/一线/医护/人员/的/子女/就近/入学/的/问题/什么/时候/可以/落实”等词语。
在步骤S102中,从待分类文本中确定主题词语,其中,主题词语用于表示待分类文本的主题类型;
在本实施例中,由于一个待分类文本如一篇文章,想要通过这篇文章中的词语,来确定这篇文章是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,这篇文章的主题类型可以是体育类型,那么计算机设备就可能会把这篇文章划分为体育类的文章,故待分类文本的文本类别可以通过文本的主题类型来反映,且一个文本可以包含多个主题,而文本中的每一个词都由其中的一个主题生成的,因此,本实施例可以通过获取能够用于表示待分类文本的主题类型的主题词语,来作为确定待分类文本的参考信息,从而通过主题词语来准确确定待分类文本的文本类别。
具体地,在获取到待分类文本之后,由于待分类文本包含有多个词语,而这多个词语可能来源于不同的主题,因此,为了准确快速地获取能够用于表示待分类文本主题类型的主题词语,以使后续可以通过主题词语来准确确定待分类文本的文本类别,本实施例可以采用概率隐含语义分析(Probability Latent Semantic Analysis,PLSA)主题模型或隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题生成模型,或者标签隐含狄利克雷分布(label latent dirichlet allocation,L-LDA)主题模型,或者其他主题模型来获取主题词语,此处不作具体限制。
在步骤S103中,根据P个领域词典确定待分类文本中的K个领域词语,其中,K个领域词语来源于P个领域词典,领域词语用于表示待分类文本所属的领域类型,每个领域词典对应于一个文本类别,P与K均为大于或等于1的整数;
在步骤104中,根据K个领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率;
在本实施例中,领域词典是通过精炼而简短的词语表达出专业领域的关键信息,在本实施例中用于表达不同文本类别的关键信息,领域词典的内容本质是文本的“信息抽取”,即从大量无序文本中抽取出领域相关词,并根据不同领域进行归类后得到的,因此,一种文本类别对应一个领域词典,每个领域词典中包含有多个领域词语,领域词语能够用于表示文本属于的领域信息,是可以用于反映文本所属于的领域类型的词语。由于待分类文本的文本类别可以通过文本的领域类型来反映,因此,本实施例可以通过获取能够用于表示待分类文本的领域类型的领域词语,来作为确定待分类文本的参考信息,从而通过领域词语来准确确定待分类文本的文本类别。
例如,一种文本类别为市教育局类,该类别对应的一个领域词典为教育领域,能够用于表示该教育领域的专业领域的关键信息的领域词语有教育、教师、学生、入学、高考或奖学金等等,假设一个待分类文本为“小李想咨询一线医护人员的子女就近入学的问题,什么时候可以落实”,根据教育领域词典能够从该待分类文本中确定到领域词语为“入学”,然后可以通过领域词语“入学”来反映该待分类文本可能属于的领域类型,即教育领域。
进一步地,文本类别是根据实际应用需求进行设置的,能够用于指示文本分类或者文本推送等操作,例如,假设待分类文本是公文文本,则可以根据公文处理部门类型来设置公文文本的文本类别,如市教育局类、市卫生局类、市公安局类等,或者,假设待分类文本是新闻文本,则可以根据新闻处理部门类型来设置新闻文本的文本类别娱乐资讯类、金融资讯类、农业资讯类等,还可以是其他类别,此处不作具体限制。
进一步地,由于概率能够用于表示某件事发生的可能性是多少,故本实施例中的待分类文本属于的文本类别的概率是用于表示该待分类文本属于该文本类别的可能性的多少,且由于主题词语能够反映待分类文本的主题类型,以及领域词语能够反映待分类文本的领域类型,因此,本实施例通过使用主题词语以及领域词语来确定待分类文本可以属于的文本类别的概率,能够增加确定文本类别的参考信息的维度,进而可以通过待分类文本属于的文本类别的概率来准确直观反映待分类文本的文本主题趋势,以使后续能够通过使用文本类别的概率来确定待分类文本的目标文本类别,从而提高确定目标文本类别的准确率。
具体地,在获取到待分类文本的主题词语后,计算机设备可以通过采用每个文本类别对应的领域词典来分别对该待分类文本中的词语进行领域词语的命中,当在一个文本类别,如市教育局类对应的领域词典在该待分类文本中命中一个词语后,将命中的词语记为市教育局类对应的领域词语,直到该领域词典命中完毕,可以得到S个该领域词典命中的领域词语,其中,S为大于或者等于1或者小于等于K的整数,然后,将命中到的S个领域词语与获取到的主题词语进行概率计算,可以得到属于市教育局类的概率为0.56,同理可以得到该待分类文本属于其他文本类别的概率,如属于市卫生局类的概率为0.54,或者属于市公安局类的概率为0.59等,使得后续根据待分类文本属于的市教育局类的概率0.56、属于市卫生局类的概率为0.54,或者属于市公安局类的概率为0.59等进行处理,来准确待分类文本的目标文本类别。
在步骤S105中,根据待分类文本分别属于P个文本类别的概率,从P个文本类别中确定待分类文本所对应的目标文本类别。
在本实施例中,目标文本类别是待分类文本的文本类别,在获取到待分类文本分别属于P个文本类别的概率后,可以通过对获取到概率分别进行比较或进行加权运算获取概率最大值,或者是通过其他概率处理方式来得到目标概率,此处不作具体限制,然后将该目标概率对应的文本类别确定为该待分类文本的目标文本类别。
具体地,在获取到待分类文本分别属于P个文本类别的概率后,可以通过将获取到的概率进行两两概率之间的比较,来得到最大概率,并将该最大概率作为目标概率,然后将将该目标概率对应的文本类别确定为该待分类文本的目标文本类别,无需通过人工构建规则来对进行文本分类,也不会受到规则以及文本格式的限制,能够节约人力成本和时间成本,从而提高确定目标文本类别的效率。
在本申请实施例中,提供了一种文本类别的确定方法,通过上述方式,实现了通过挖掘待分类文本中的主题词语以及领域词语,且由于主题词语能够反映待分类文本的主题类型,以及领域词语反映待分类文本的领域类型,能够增加确定文本类别的参考信息的维度,进而通过使用主题词语以及领域词语来确定待分类文本可以属于的文本类别的概率,能够通过概率来准确直观反映待分类文本的文本主题趋势,从而能够通过使用文本类别的概率来确定待分类文本的目标文本类别,提高确定目标文本类别的准确率,以及无需通过人工构建规则,也不会受到规则以及文本格式的限制,能够节约成本,提高确定目标文本类别的效率。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图3所示,根据K个领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率,包括:
在步骤S301中,根据第一概率映射关系获取主题词语在文本集合中的第一特征出现概率,其中,第一概率映射关系包括主题词语特征与第一特征出现概率之间的对应关系,主题词语与主题词语特征具有对应关系;
在步骤S302中,根据P个领域词典,确定K个领域词语中的P组待选领域词语,每组待选领域词语中包括至少1个领域词语;
在步骤S303中,根据第二概率映射关系获取P组待选领域词语在文本集合中的P个第二特征出现概率,其中,第二概率映射关系包括文本局部特征与第二特征出现概率之间的对应关系,文本局部特征与待选领域词语具有对应关系;
在步骤S304中,根据第一特征出现概率、P个第二特征出现概率、分类概率以及贝叶斯模型,得到P个文本类别的概率,其中,分类概率来源于N个预设的文本类别,每个分类概率对应一个文本类别,N为大于1的整数。
在本实施例中,第一特征出现概率是指主题词语在样本子集中出现的概率,在获取到待分类文本的主题词语之后,可以根据主题词语对应的主题词语特征与特征出现概率之间的第一概率映射关系,确定出待分类文本的主题词语的第一特征出现概率。
具体地,计算机设备可以通过识别主题词语的主题词语特征,来在样本子集中准确统计该主题词语特征在样本子集中出现的概率,即主题词语在样本子集中出现的概率,故可以将主题词语特征在样本子集中出现的概率,确定为该主题词语的第一特征出现概率。
例如,假设主题词语为“语文”,市教育局类对应的样本子集有100个文本,其中,有18个文本的主题词语是“语文”,那么主题词语“语文”的第一特征出现概率可以是18÷100=0.18。
进一步地,由于K个领域词语来源于P个领域词典,则为了准确获取P个文本类别各自对应的概率,可以根据P个领域词典来划分获取到的K个领域词语,可以将K个领域词语划分为P组待选领域词语,使得每组待选领域词语中至少包含有1个领域词语。
进一步地,第二特征出现概率是指一组待选领域词语在样本子集中出现的概率,在获取到待分类文本的领域词语之后,可以根据待选领域词语对应的文本局部特征与特征出现概率之间的第二概率映射关系,确定出待分类文本的待选领域词语的第二特征出现概率。
其中,文本局部特征用于表示待选领域词语以及与待选领域词语关联性较强的词语的词语特征。
具体地,计算机设备可以通过识别待选领域词语的文本局部特征,来在样本子集中准确统计该文本局部特征在样本子集中出现的概率,可以用于近似表示待选领域词语在样本子集中出现的概率,故可以将文本局部特征在样本子集中出现的概率,确定为该待选领域词语的第二特征出现概率。
例如,假设待选领域词语为“罚款”,市城管委类对应的样本子集有80个文本,其中,有20个文本出现了“罚款”或“带罚款”等词语,那么待选领域词语“罚款”的第二特征出现概率可以近似表示为20÷80=0.25。
进一步地,由于主题词语特征与文本局部特征之间是相互独立的,满足贝叶斯的特征独立性假设,因此,本实施例可以采用贝叶斯模型来预测待分类文本属于的P个文本类别的概率。
其中,计算机设备还可以获取文本类别对应个N个分类概率,每个分类概率对应于一种文本类别。因此,当有N个文本类别时,每个待分类文本可能会属于为各个文本类别的概率是相等的,即为1/N。也就是说,待分类文本对应的N个分类概率的取值是相同的。
例如,假设在一个公文文本库中有3个文本类别,分别是市教育局类、市公安局类以及市城管委类,若将市教育局类记为事件B1,将市公安局类记为事件B2,将市城管委类记为事件B3,那么,P(B1)=P(B2)=P(B3)=1/3。
进一步地,根据贝叶斯的定义,可以将主题词语特征的出现概率记为P(q1),将文本局部特征的出现概率记为P(q2),那么可以根据公式
Figure BDA0003115798870000111
得到一个文本类别的概率P(Q)。然后,可以将文本类别的概率P(Q)和分类概率1/N输入贝叶斯模型中,得到P个文本类别的概率。
进一步地,得到P个文本类别的概率之后,从P个文本类别中确定待分类文本所对应的目标文本类别,可以利用贝叶斯P(A|Q)=P(Q|A)P(A)/P(Q),首先,根据贝叶斯的二分类的特性,确定待分类文本的类别。
例如,当P为1时,若P(B1|Q)趋向于1,则可以确定该待分类文本的目标文本类别为市教育局类,若P(B1|Q)趋向于0,则可以确定该待分类文本的目标文本类别不是市教育局类。
例如,当P大于1时,当若P(B1|Q)以及P(B2|Q)都趋向于1,则从P(B1|Q)和P(B2|Q)中,确定条件概率最大的事件,并确定该事件对应的文本类别即为待分类文本的目标文本类别,如,若P(B1|Q)>P(B2|Q),则可以确定目标文本类别为市教育局类。
其中,P(A|Q)表示在输入特征为事件Q的条件下,待分类文本属于某一种文本类别A的概率。P(Q|A)表示的是在待分类文本为某一种文本类别A的条件下,输入特征为事件Q的概率。P(A)表示的是待分类文本属于某一种文本类别的概率,在上述例子中,P(A)=P(B1)=P(B2)=P(B3)。
其中,根据贝叶斯定义,有
Figure BDA0003115798870000112
因此,可以得到
Figure BDA0003115798870000113
其中,P(qi,A)表示qi和A同时出现的概率,qi包括主题词语特征q1以及文本局部特征q2,A表示待分类文本属于的某一种文本类别。
具体地,在获取到主题词语以及K个领域词语后,可以根据然后第一概率映射关系第二概率映射关系,分别获取主题词语对应的主题词语特征和第一特征出现概率,以及K个领域词语对应的P个文本局部特征和P个第二特征出现概率,然后,通过构建贝叶斯模型,将待分类文本的主题词语特征分别与待分类文本的P个文本局部特征作为输入特征,得到P个输入特征,并将分类概率和第一特征出现概率分别与P个第二特征出现概率输入至贝叶斯模型中,以获取P个文本类别的概率,由于主题词语特征与文本局部特征之间是相互独立的,使得输入特征满足贝叶斯公式的独立性假设,符合贝叶斯公式的运算条件,因此能够充分发挥贝叶斯公式的优势,准确获取P个输入特征对应的P个文本类别的概率,从而在一定程度上提高确定目标文本类别的准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图4所示,根据待分类文本分别属于P个文本类别的概率,从P个文本类别中确定待分类文本所对应的目标文本类别,包括:
在步骤S401中,确定分类概率与第一特征出现概率之间的第一互信息,以及分类概率与P个第二特征出现概率之间的P个第二互信息;
在步骤S402中,将第一互信息分别与P个第二互信息进行加和,得到P个待选互信息,其中,P个待选互信息与P个文本类别的概率具有对应关系;
在步骤S403中,从P个待选互信息确定满足预设互信息阈值的目标互信息,并将目标互信息对应的文本类别的概率确定为目标概率;
在步骤S404中,将目标概率对应文本类别确定为目标类别。
在本实施例中,在基于贝叶斯获取到P个文本类别的概率后,本实施例可以根据贝叶斯的二分类特性来从P个文本概率中确定目标概率,从而通过目标概率确定目标文本类别,但是,为了能够进一步地快速准确地获取目标文本类别,本实施例还可以通过互信息的方式确定待分类文本的文本类别。
其中,互信息是信息论里一种有用的信息度量,可以用于两个事件集合之间的相关性,以及用于衡量的是某个词和类别之间的统计独立关系,可以理解为,如果某一个特征词属于该类别,那么它们的互信息量最大。因此,本实施例可以通过第一互信息来表示分类概率与第一特征出现概率之间的相关性,以及通过第二互信息来表示分类概率与第二特征出现概率之间的相关性,然后,通过第一互信息和第二互信息来获取目标互信息,从而根据目标互信息确定目标文本类别,由于互信息不需要对词语、特征以及类别之间关系的性质作任何假设,不需要受到假设条件的约束,可以,通过互信息准确快速地获取目标文本类别,从而在一定程度上提高获取目标文本类别的效率。
具体地,可以根据获取到的第一特征出现概率以及P个第二特征出现概率,来计算分类概率与第一特征出现概率的第一互信息,以及分别计算分类概率与P个第二特征出现概率之间的P个第二互信息,然后,将第一互信息分别与P个第二互信息进行求和,得到可以得到的P个待选互信息。然后将P个待选互信息分别与预设互信息阈值进行比较,然后,从大于或者等于预设互信息阈值的互信息中,选取最大互信息确定为目标互信息,进而,将目标互信息对应的文本类别的概率确定为目标概率,并将目标概率对应文本类别确定为目标类别。
例如,假设在一个公文文本库中有3个文本类别,分别是市教育局类、市公安局类以及市城管委类,若将市教育局类记为事件B1,将市公安局类记为事件B2,将市城管委类记为事件B3,将第一特征出现概率记为P(q1),将第二特征出现概率记为P(q2)。一个待选互信息可以基于如下所示的公式确定:
Figure BDA0003115798870000131
其中,I(A,q1)表示第一互信息,I(A,q2)表示第二互信息,I(A,Q)表示待选互信息。例如,根据上述三种文本类别,可以得到三个待选互信息,I(B1,Q)、I(B2,Q)和I(B3,Q)。
需要注意的是,由于确定待分类文本的目标文本类别是确定待分类文本属于的某一种文本类别,因此,一般情况下,I(B1,Q)、I(B2,Q)和I(B3,Q)中大于或者等于预设阈值的目标互信息只有一个,但是,如果出现两个目标互信息都大于或者等于预设阈值,那么,可以确定这两个目标互信息中较大的目标互信息所对应的文本类别,为待分类文本的文本类别。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图5所示,根据待分类文本分别属于P个文本类别的概率,从P个文本类别中确定待分类文本所对应的目标文本类别,包括:
在步骤S501中,若P等于1,则将P个文本类别的概率对应的文本类别确定为目标文本类别;
在步骤S502中,若P大于1,则从P个文本类别的概率确定满足预设概率条件的概率,以得到目标文本类别。
在本实施例中,预设概率条件是根据实际应用需求进行设置的,用于从P个文本类别的概率筛选目标概率的条件,具体可以表现为大于或者等于预设的阈值,或者获取数值最大概率,或者前述两个条件的结合,或者是其他条件形式,此处不做具体限制。
具体地,在获取到待分类文本分别属于P个文本类别的概率后,当P等于1时,可以理解为,待分类文本属于的文本类别的概率只有一个,则可以将这一个文本类别的概率对应的文本类别确定为待分类文本的目标文本类别,或者,当P大于1时,可以理解为,待分类文本属于的文本类别的概率不止一个,则可以通过将这P个文本类别的概率进行两两概率之间的比较,来获取数值最大的概率,并将该数值最大的概率作为目标概率,然后,可以将目标概率对应的文本类别确定待分类文本的目标文本类别,根据的P的数值来选择相应的确定目标文本类别的方式,不仅能够快速准确地获取目标文本类别,提高确定目标文本类别的准确率以及效率,还可以根据实际应用的需要灵活选择确定目标文本类别的方式,也提升了技术方案的灵活性。
例如,假设P等于1,那么P个文本类别的概率表示为一个文本类别的概率,假设该文本类别的概率对应的文本类别为市城管委类,那么,可以将文本类别的概率对应的文本类别为市城管委类,确定为待分类文本的目标文本类别。
例如,假设P大于1,且市教育局类的概率记为P(B1)=0.56,市公安局类的概率记为P(B2)=0.69,以及市城管委类的概率记为P(B3)=0.52,那么通过比较得到P(B2)>P(B1)>P(B3),进而可以得到数值最大的概率为P(B2),故可以将P(B2)作为目标概率,然后,可以将目标概率P(B2)对应的文本类别,即市公安局类,确定待分类文本的目标文本类别。
可选地,在上述图5对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图6所示,从P个文本类别的概率确定满足预设概率条件的概率,以得到目标文本类别,包括:
在步骤S601中,根据预设类别阈值,从P个文本类别的概率确定M个待选文本类别概率,M为大于或等于1的整数;
在步骤S602中,当M等于1时,将待选文本类别概率对应的文本类别确定为目标文本类别;
在步骤S603中,当M大于1时,从待选文本类别概率中确定最大文本类别概率,并将最大文本类别概率对应的文本类别确定为目标文本类别。
在本实施例中,预设类别阈值是根据实际应用需求进行设置的,用于从P个文本类别的概率筛选达到预设类别阈值的要求的概率。待选文本类别概率是P个文本类别的概率中满足预设类别阈值的要求的概率,用于根据待选文本类别概率,进一步筛选能够准确反映待分类文本的主题趋势的目标概率,以使得能够将目标概率对应的文本类别确定为目标文本类别。
具体地,当P大于1时,从P个文本类别的概率确定满足预设概率条件的概率,具体可以是通过将P个文本类别的概率分别与预设类别阈值进行比较,即获取大于或等于预设类别阈值的概率,得到M个待选文本类别概率,其中,M为大于等于1或小于等于P的整数,然后,当M等于1时,可以理解为获取到的待选文本类别概率只有一个,说明该待选文本类别概率最能够反映该待分类文本的主题趋势,则可以将待选文本类别概率对应的文本类别确定为目标文本类别,或者,当M大于1或小于等于P时,通过将这M个待选文本类别概率进行两两概率之间的比较,来获取数值最大的文本类别概率,并将该数值最大的文本类别概率作为目标概率,然后,可以将目标概率对应的文本类别确定待分类文本的目标文本类别,能够在文本类别的概率为多个的条件下,根据预设类别阈值快速从P个文本类别的概率筛选出,相对于P个文本类别的概率能够更好地反映待分类文本的主题趋势的待选文本类别概率,并通过获取待选文本类别概率中数值最大的目标概率来确定目标类别,实现通过简单的约束条件准确获取目标概率,从而准确获取目标文本类别,提高确定目标文本类别的准确率。
例如,假设P大于1,且预设类别阈值设置为0.54,以及市教育局类的概率记为P(B1)=0.56,市公安局类的概率记为P(B2)=0.69,以及市城管委类的概率记为P(B3)=0.52,那么可以将P(B1)、P(B2)以及P(B3)分别与预设类别阈值0.54进行比较,得到大于或等于预设类别阈值的M个待选文本类别概率为P(B1)和P(B2),然后,由于M大于1,则可以通过比较P(B1)和P(B2),得到P(B2)>P(B1),即得到数值最大的文本类别概率为P(B2),故可以将P(B2)作为目标概率,然后,可以将目标概率P(B2)对应的文本类别,即市公安局类,确定待分类文本的目标文本类别。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图7所示,该方法还包括:
在步骤S701中,获取P个领域词典分别对应的特征模型,得到P个类别特征模型;
在步骤S702中,使用P个类别特征模型分别对待分类文本进行类别特征提取,得到P个文本类别特征;
在步骤S703中,基于实体识别模型对待分类文本进行实体识别,得到Z个实体词语,其中,Z为大于或等于1的整数;
在步骤S704中,将P个文本类别特征,分别与K个领域词语以及Z个实体词语进行特征拼接,得到P个文本局部特征。
在本实施例中,由于待分类文本中包含有很多个词语,而每个词语都可以看作是文本的一个特征,那么待分别文本就可以看作是有很多个特征组成的特征集合,又由于每一个特征都可以通过向量进行表示,那么特征集合就可以看作是一个高纬度的特征向量,为了能够更加准确地预测待分类文本的目标文本类别,本实施例可以待分类文本中挖掘文本局部特征向量来实现,即可以从高维度特征向量中选取最具代表性的一些特征,从而达到把维度降低的同时也可以很好预测待分类文本的目标文本类别。
因此,本实施例可以先通过获取P个领域词典分别对应P个类别特征模型,并使用P个类别特征模型分别对待分类文本进行类别特征提取,得到P个文本类别特征,其中,类别特征模型是基于样本集合对特征提取模型进行训练后得到的优化模型,特征提取模型可以是word2vec模型,也可以是特征数值计算类(CountVectorizer)模型,除此之外,还可以是其他的特征提取模型,例如glove模型,或者采用词频-逆文件频率(Term Frequency-Inverse Document Frequency,TF-IDF)模型,此处不作具体限制。
需要注意的是,步骤S702和步骤S703没有必然的先后顺序,可以先执行步骤S702,也可以先执行步骤S703,还可以同时执行步骤S702和步骤S703,只要是在步骤S101之后执行即可,具体此处不做限定。
进一步地,在获取到待分类文本之后,为了更加快速准确地获取待分类文本中的文本局部特征,本实施例可以通过将待分类文本的理解转化为词语处理,来提高处理文本的效率,故可以对待分类文本进行分词处理,得到分词结果。由于,待分类文本经过分词以后,得到的分词结果中会包含地名、机构名等,而通常能够表达文本主题的大多数是这些命名实体,因此,本实施例可以对分词结果进行命名实体的识别,以获取待分类文本中能够用于表达文本主题的实体词语,具体可以是采用命名体识别(Named Entities Recognition,NER)对分词结果进行命名实体识别,还可以采用其他识别方式,例如,隐马尔可夫模型,最大熵模型,支持向量机或条件随机场等,此处不作具体限制。其中,命名体识别是指识别待分类文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
具体地,在获取到待分类文本之后,为了更加准确地确定待分类文本的目标文本类别,本实施例通过挖掘待分类文本中的文本局部特征,来增加确定目标文本类别的参考信息的维度,本实施例可以先根据P个领域词典,获取待分类文本对应的P个类别特征模型,并将待分类文本分别输入至P个类别特征模型中进行特征提取,可以得到能够从待分类文本中获取能够用于表达最能表达文本类别的文本类别特征,即P个文本类别特征,同时还可以对待分类文本进行实体识别,以获取待分类文本中能够表达文本主题的命名实体,即Z个实体词语,然后,可以将P个文本类别特征,分别与K个领域词语以及Z个实体词语进行特征拼接,如进行维度拼接处理,得到P个文本局部特征,以使后续能够通过挖掘到的文本局部特征更加准确地预测待分类文本的目标文本类别。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图8所示,该方法还包括:
在步骤S801中,获取样本集合,其中,样本集合包括N个样本子集,每个样本子集包括至少两个类别样本,每个样本子集对应一个文本类别;
在步骤S802中,针对每个样本子集,分别对至少两个类别样本中的每个类别样本进行预处理,得到至少两个样本词性序列,其中,每个样本词性序列包括样本词语以及样本词语的词性;
在步骤S803中,对每个样本词性序列进行权重计算,得到每个样本词性序列的重要度权值;
在步骤S804中,根据预设重要度阈值,从重要度权值中确定目标权值,并将目标权值对应的样本词语确定为目标领域词语;
在步骤S805中,将目标领域词语添加至文本类别对应的领域词典。
在本实施例中,在获取样本集合之前,可以先按照预设的分类标准,构建样本集合,其中,样本集合是根据预先采集到文本数据进行分类构建的文本分类标准数据库,每个样本集合包含有至少一个样本子集,每个样本子集对应一种文本类别,每个样本子集中包含有至少一个类别样本,每个类别样本包含有至少一个词语。
例如,构建公文分类标准数据库<分类部门,公文文本>,其中,分类部门为文本类别,每个公文文本对应一个分类部门,即一个公文文本对应一种文本类别。其中,首先通过公文分类办理部门收集一批案件样本,可以作为后续有关模型训练的训练集样本,进而,将按照每个分类部门,即文本类别构建样本子集,并将每个分类部门采集到的多条相关的案件信息作为类别样本,添加至对应的样本子集中,将多个样本子集进行整合,得到样本集合,即得到<分类部门,公文文本>公文分类标准数据库。其中,分类部门具体可以表现为如表1所示的类别id标记,如:0、1或2等,还可以是如表2所示的类别名称标签,如市教育局、市公安局或者市城管委等,还可以采用其他表现形式,此处不作具体限制。进一步地,类别样本还包括:正样本和负样本,其中,每个文本类别对应的正样本为该部门的案件信息,负样本为其他部门的案件信息。
其中,表1为将类别id标记作为文本类别,构建一个<分类部门,公文文本>公文分类标准数据库:
Figure BDA0003115798870000161
Figure BDA0003115798870000171
表1
其中,表2为将类别名称标签作为文本类别,构建一个<分类部门,公文文本>公文分类标准数据库:
Figure BDA0003115798870000172
表2
进一步地,在获取到待分类文本之后,为了能够快速准确索引到待分类文本中的领域词语,以及更好地从待分类文本中挖掘文本局部特征,本实施例可以通过获取样本集合,对样本集合的每个样本子集进行领域词语提取,并通过提取出的领域词语构建每个样本子集对应的领域词典来实现。
进一步地,由于样本集合,如公文分类标准数据库,包含有不同分类部门的类别样本,因此,本实施例可以分别对每个样本子集进行类别特征统计和新词发现,获取各个样本子集的领域词典,使得后续可以采用领域词典对待分类文本进行领域词语以及文本局部特征的挖掘,从而在一定程度上提高确定目标文本类别的准确率。
具体地,在获取到样本集合后,可以先对每个样本子集中每个类别样本进行预处理,如去标点符号处理、去日期处理或词性标注等处理,还可以是其他处理方式,此处不作具体限制,可以得到至少两个包含有样本词语以及样本词语的词性的样本词性序列。
进一步地,由于词性之间具有重要度关系,例如,专有名词重要度大于普通名词,名词重要度大于动词,因此,为了更好的对样本序列进行重要度排序,从而更加准确地提取领域词语,本实施例采用词汇分类的方法实现词语的重要度排序,即通过对每个样本词性序列进行权重计算,得到每个样本词性序列的重要度权值,其中,每个每个样本词性序列的重要度权值具体可以是先将样本词语分成三种类型词,如待选领域词、普通词和无关词。
其中,由于领域词典的获取主要是比较不同类别之间的频率差异,那么就可以通过频率差异进行词语类型定义,即一个样本集合中,如果某个词语在某个样本子集中出现的频率比较高,而在其它样本子集中出现的频率比较低,则该词语可以定义为这个样本子集的待选领域词;如果某个词语在各个样本子集中的频率差异变化比较小,则该词语定义为样本集合中的无关词,如果某个词语在各个样本子集中的频率差异变化比较大,则该将词语定义为样本集合中的普通词。
进一步地,获取每个样本词性序列的重要度权值,具体可以是可以按照预设的权重计算公式进行获取,或者是采用词频-逆文件频率(Term Frequency-Inverse DocumentFrequency,TF-IDF)算法进行获取,还可以是采用其他权重计算公式,此处不作具体限制。
其中,本实施例采用预设的权重计算公式获取每个样本词性序列的重要度权值,具体可以是通过将无关词的重要度设置为0或者接近于0的值,以及按照预设的权重公式
Figure BDA0003115798870000181
计算普通词的重要度权值,其中,Wc表示为一个普通词,tfc为普通词Wc在样本集合的所有类别样本中出现的频率,maxdfk为各普通词在样本集合所有类别类别中出现的文本频率中最大的文本频率,即在每个普通词分别各个样本子集中出现过的类别文本数,除以该样本集合中的类别样本总数,得到k个文本频率,并从k个文本频率中获取最大概率,dfc为普通词Wc在样本集合的所有类别样本中出现的文档频率,即普通词Wc在每个类别样本中出现过的类别文本数,除以该样本集合中的类别样本总数。以及按照预设的权重公式
Figure BDA0003115798870000182
计算待选领域词的重要度权值,其中,maxPWc为所有普通词对应的重要度权值中最大的重要度权值,Wf为一个待选领域词,tff为待选领域词Wf在样本集合中所有类别样本中出现的频率,maxdfl为各待选领域词在样本集合的所有样本类别中出现的类别文本频率中最大的类别文本频率,即在每个待选领域词分别各个样本子集中出现过的类别文本数,除以该样本集合中的类别样本总数,得到l个文本频率,并从l个文本频率中获取最大概率,dff为待选领域词Wf在样本集合所有类别样本中出现的类别文本频率,即待选领域词Wf在每个类别样本中出现过的类别文本数,除以该样本集合中的类别样本总数。
需要说明的是,如果一个词语w的词性是专有名词,则该词语的重要度权值将乘以一个系数,得到专有名词加权δprop(w);如果一个词语w的词性为名词,则该词语的重要度权值将乘以一个系数,得到名词词性加权δnoun(w),因此,若一个待选领域词语的词性为名词,其对应的综合权重公式为:Wtopic(w)=PW×δprop(w)×δnoun(w),其中,PW包括PWc、PWf
进一步地,在获取到每个样本词性序列的重要度权值后,可以先选取出每个每个样本子集对应的待选领域词的重要度权值,然后将每个样本子集对应的待选领域词语的重要度权值分别与该样本子集对应的预设重要度阈值进行比较,从中选取出大于或等于预设重要度阈值的权值,确定为目标权值,并将目标权值对应的待选领域词确定为该样本子集对应的目标领域词语,然后,将提取出的目标领域词语添加至该样本子集对应的领域词典中,以完成各个样本子集对应的领域词典的构建。
可选地,在上述图8对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图9所示,分别对至少两个类别样本中的每个类别样本进行预处理,得到至少两个样本词性序列,包括:
在步骤S901中,对每个类别样本进行停用词过滤,得到待处理文本,待处理文本至少包括两个待处理句子;
在步骤S902中,对至少两个待处理句子中的每个句子进行分词处理,得到至少两个待处理词语;
在步骤S903中,对至少两个待处理词语中的每个待处理词语进行词性标注处理,得到样本词性序列。
在本实施例中,在获取到样本集合之后,对每个样本子集中每个类别样本进行预处理,得到至少两个样本词性序列,能够使得经过词性标注后的样本词性序列,可以对文本的信息抽取、文本分类、信息检索或者机器翻译带来很大的便利性,本实施例具体可以是通过对每个类别样本进行停用词过滤处理,即先根据断句分隔符对待分类文本进行分句处理,得到至少两个句子,然后将各个句子中的日期时间、姓名、邮箱、手机号码等无用信息进行过滤,得到至少两个待处理句子。其中,可以基于停用词库对句子进行停用词过滤,以及基于正则表达式对句子中的日期时间、姓名、邮箱、手机号码等进行过滤。
进一步地,由于分词的目的是将一个连续的句子分成各个组成词的单元,这样将对文本的理解就转化成对句子的处理,从而提高处理文本的效率。进而,对至少两个待处理句子中的每个句子进行分词处理,具体可以是基于词典的方法、基于统计的方法或者基于规则的方法来进行分词,还可以是采用其他分词算法,此处不作具体限制。本实施例可以采用通用的基于二元词模型来对句子进行切分,得到至少两个待处理词语。
进一步地,词性标注是在待处理句子中判定每个待处理词语的语法范畴,确定其词性并标注的过程,词性标注可以将待处理词语的词性标记为名词、动词、形容词等,对获取到的待处理词语进行词性标注,具体可以是通过隐马科夫(Hidden Markov model,HMM)模型,或者基于规则的方法,还可以采用其他词性标注方法,例如,基于统计的方法、基于深度学习的方法等,此处不作具体限制。本实施例采用通用的基于隐马科夫模型来对待处理词语进行词性标注,具体是通过将每个待处理词语的可能词性看作是HMM的隐含状态,然后,通过定义在每个隐含状态上的转移概率P(t2|t1)在词性t1与词性t2之间,其中,转移概率矩阵描述了词性从一个状态转移到另一状态的概率值,以及通过定义发射概率P(w|t),表示在该词性t下,属于该待处理词语w的概率,进而,通过隐马科夫模型得到待处理词语的观察序列,然后,通过可以采用维特比(Vertbi)算法对观察序列进行计算,得到最优分词序列,即样本词性序列。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图10所示,从待分类文本中确定主题词语,包括:
在步骤S1001中,对待分类文本进行向量处理,得到至少两个词向量,其中,一个词向量对应一个词语;
在步骤S1002中,将至少两个词向量输入主题模型进行主题分布处理,得到待分类文本的主题分布向量;
在步骤S1003中,分别计算至少两个词向量中每一个词向量与主题分布向量之间的距离,得到X个距离,X为大于1的整数;
在步骤S1004中,从X个距离中确定满足预设的距离阈值的待选距离,并将待选距离对应的词向量确定为主题相关词向量;
在步骤S1005中,将主题相关词向量对应的词语确定主题词语。
在本实施例中,在获取到待分类文本之后,待分类文本的文本类别可以通过文本的主题类型来反映,而主题词语能够用于表示待分类文本的主题类型,因此,本实施例可以通过挖掘待分类文本中的主题词语,来增加目标文本类别的参考信息的维度,以使后续可以通过主题词语来确定待分类文本的文本类别,提高确定目标类别的准确率。
具体地,在在获取到待分类文本之后,可以对待分类文本进行分词处理,得到至少两个的词语,进而可以使用词向量提取模型,来将自然语言中的词语转换为词向量的形式,便于机器进行识别和处理,以及能够根据词向量之间的关系确定词语之间的联系。其中,词向量提取模型具体可以是word2vec模型,也可以是glove模型,除此之外,还可以是其他的词向量训练模型,例如双向语言(Bidirectional Encoder Representations fromTransformers,BERT)模型,或者ELMo模型等,此处不作具体限制。
进一步地,在得到至少两个词向量之后,可以将每个词向量输入主题模型中进行主题分布预测,得到待分类文本主题分布向量。其中,主题模型具体可以是隐含狄利克雷分布(latent dirichlet allocation,LDA)主题模型,或者是其他主题的模型,例如概率隐含语义分析(probabilistic latent semantic analysis,PLSA)主题模型,或者标签隐含狄利克雷分布(label latent dirichlet allocation,L-LDA)主题模型,此处不作具体限制。
其中,本实施例采用LDA模型对词向量进行主题分布预测,来获取待分类文本的主题分布向量。其中,LDA是一种统计模型,用来从文档集合中找出一组潜在的包含特定概率的主体,从而形成词语—主题—文本三层结构。也就是说,主题可以由词语的分布进行表征,从而反映文本的主题分布。LDA的核心公式如下:
Figure BDA0003115798870000201
其中,topic表示主题,p表示概率,wi表示文本dk中的词语,tj为文本中所隐含的主题。本申请实施例中,可以采用期望最大化算法训练LDA模型,经过较少的迭代就可以收敛,从文得到文本—主题的分布矩阵,也即主题分布向量。
进一步地,在得到待分类文本的主题分布向量之后,可以分别计算至少两个词向量中每一个词向量与主题分布向量之间的距离,并根据距离由近到远的原则,确定出主题相关词向量。其中,计算每个词向量与主题分布向量之间的距离具体可以是采用余弦距离计算公式,也可以是正弦距离计算公式,除此之外,还可以是其他形式的距离,例如欧式距离计算公式,在实际应用中采用何种形式,计算每一个词向量与主题分布向量之间的距离可以根据实际应用需求进行选择,此处不作具体限制。
可以理解的是,由于词向量与主题分布向量之间的距离越近,可以表示该词向量与待分类文本的主题越接近,因此采用由近到远的原则来选取主题相关词向量。主题相关词向量的数量根据实际应用的需求进行进行设置,可以与待分类文本所包含的词语数量有关,可选的,如果待分类文本包含的词语数量越多,则确定的主题相关词向量的数量也越多。例如,一篇千字左右的公文文本,可以确定10个主题相关词向量。然后,在确定出主题相关词向量之后,可以理解的是,主题相关词向量对应的词语可以表示为与待分类文本的主题越接近的词语,因此,本实施例可以将主题相关词向量对应的词语作为主题词语,以使后续可以将主题词语作为关键参考信息,来确定待分类文本的目标文本类别,从而提高确定目标文本类别的准确率。
可选地,在上述图10对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图11所示,该方法还包括:
在步骤S1101中,若主题词语的数量为一个,则将主题词语对应的主题相关词向量确定为主题词语特征;
在步骤S1102中,若主题词语的数量大于一个,则对主题词语对应的主题相关词向量进行向量整合处理,得到主题词语特征。
在本实施例中,由于获取到的主题相关词向量的数量可以是一个,也可以是多个,那么获取到的主题词语也可以是一个或多个的,又由于每个主题词语都可以看作是文本的一个特征,那么这个特征也可以是一个或多个,因此,本实施例根据主题词语确定主题词语特征的方式也可以是多种,使得后续可以根据主题词语数量的不同,选择不同的确定主题词语特征的方式,能够提升技术方案的灵活性,从而使得能够从待分类文本中挖掘到主题词语特征来更加准确地预测待分类文本的目标文本类别。
具体地,当主题词语只有一个时,可以理解为主题相关词向量的也只有一个,那么能够用于表示待分类文本的主题的特征也只有一个,且由于每个特征都可以通过向量的形式表示,故可以将该主题相关词向量确定为主题词语特征。或者,当主题相关词向量的数量大于一个时,可以理解为主题相关词向量的也是大于一个的,即能够用于表示待分类文本的主题的特征也大于一个,那么本实施例通过可以对多个主题相关词向量进行整合处理,以得到主题词语特征。
进一步地,本实施例通过可以对多个主题相关词向量进行整合处理具体可以是通过对多个主题相关词向量求平均值,将得到的结果作为主题词语特征;也可以对多个主题相关词向量进行加权求和,将求和的结果作为主题词语特征;或者,可以是将每个主题相关词向量的维度进行拼接,并得到高纬度的主题词语特征等,还可以是其他的处理方式,例如,将多个主题相关词向量中的最大值作为主题词语特征,其中,整合处理多个主题相关词向量的方式可以根据实际应用的需要进行选择,此处不作具体限制。
可以理解的是,当对多个主题相关词向量进行加权求和时,可以得到各个主题相关词向量的权重,其中,该权重可以根据主题相关词向量与主题分布向量之间的距离确定,具体可以表现为主题相关词的权重大小可以与距离呈负相关,可以理解为,主题相关词距离主题分布向量越近,该主题相关词向量的权重越大。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图12所示,该方法还包括:
在步骤S1201中,确定目标文本类别对应的目标领域词典以及目标样本子集;
在步骤S1202中,将待分类文本添加至目标样本子集中,以更新目标领域词典。
在本实施例中,目标领域词典是指与待分类文本的目标文本类别为相同类别的词典,目标样本子集是指与待分类文本的目标文本类别为相同类别的样本子集。
具体地,在获取到待分类文本的目标文本类别之后,可以通过目标文本类别确定待分类文本对应的目标领域词典以及目标样本子集,然后,将待分类文本添加至目标样本子集中,进而将待分类文本作为类别样本,进行文本处理,以获取待分类文本中的目标领域词语,并添加至目标领域词典中,以更新目标领域词典。其中,将待分类文本作为类别样本,进行文本处理,与步骤S802至步骤S804中的获取领域词语的处理方式相似,此处不再赘述,同时,还可以将待分类文本作为训练目标领域词典对应的目标特征提取模型的训练样本,来优化目标特征提取模型,同理可知,本实施例通过将获取到的待分类文本来迭代更新目标领域词典,扩充样本集合,以及优化目标特征提取模型,能够提高确定目标文本类别的准确性以及稳定性。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的文本类别的确定方法另一个可选实施例中,如图13所示,该方法还包括:
在步骤S1301中,确定目标文本类别所对应的目标关联部门;
在步骤S1302中,向目标关联部门所对应终端设备推送待分类文本,以使终端设备显示待分类文本。
在本实施例中,目标关联部门是指处理文本的类别与待分类文本的目标文本类别为相同类别的部门。
具体地,在获取到待分类文本的目标文本类别之后,可以根据目标文本类别快速索引到处理文本类别与目标文本类别为相同类别的目标关联部门,然后,向目标关联部门所对应终端设备推送待分类文本,具体可以是通过邮件、文档、数据包的形式向终端设备推送待分类文本,还可以通过其他形式进行推送,此处不作具体限制,以使终端设备接收到待分类文本后,如图14所示,可以在终端设备的展示界面中进行显示,以便于目标关联部门对获取到的待分类文本进行及时处理,从而提高处理待分类文本的效率。
下面对本申请中的文本类别的确定装置进行详细描述,请参阅图15,图15为本申请实施例中文本类别的确定装置的一个实施例示意图,文本类别的确定装置20包括:
获取单元201,用于获取待分类文本,其中,待分类文本包括多个词语;
确定单元202,用于从待分类文本中确定主题词语,其中,主题词语用于表示待分类文本的主题类型;
确定单元202,还用于根据P个领域词典确定待分类文本中的K个领域词语,其中,K个领域词语来源于P个领域词典,领域词语用于表示待分类文本所属的领域类型,每个领域词典对应于一个文本类别,P与K均为大于或等于1的整数;
确定单元202,还用于根据K个领域词语以及主题词语确定待分类文本分别属于P个文本类别的概率;
确定单元202,还用于根据待分类文本分别属于P个文本类别的概率,从P个文本类别中确定待分类文本所对应的目标文本类别。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,确定单元202具体可以用于:
根据第一概率映射关系获取主题词语在文本集合中的第一特征出现概率,其中,第一概率映射关系包括主题词语特征与第一特征出现概率之间的对应关系,主题词语与主题词语特征具有对应关系;
根据P个领域词典,确定K个领域词语中的P组待选领域词语,每组待选领域词语中包括至少1个领域词语;
根据第二概率映射关系获取P组待选领域词语在文本集合中的P个第二特征出现概率,其中,第二概率映射关系包括文本局部特征与第二特征出现概率之间的对应关系,文本局部特征与待选领域词语具有对应关系;
根据第一特征出现概率、P个第二特征出现概率、分类概率以及贝叶斯模型,得到P个文本类别的概率,其中,分类概率来源于N个预设的文本类别,每个分类概率对应一个文本类别,N为大于1的整数。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,确定单元202具体可以用于:
确定分类概率与第一特征出现概率之间的第一互信息,以及分类概率与P个第二特征出现概率之间的P个第二互信息;
将第一互信息分别与P个第二互信息进行加和,得到P个待选互信息,其中,P个待选互信息与P个文本类别的概率具有对应关系;
从P个待选互信息确定满足预设互信息阈值的目标互信息,并将目标互信息对应的文本类别的概率确定为目标概率;
将目标概率对应文本类别确定为目标类别。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,确定单元202具体可以用于:
若P等于1,则将P个文本类别的概率对应的文本类别确定为目标文本类别;
若P大于1,则从P个文本类别的概率确定满足预设概率条件的概率,以得到目标文本类别。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,确定单元202具体可以用于:
根据预设类别阈值,从P个文本类别的概率确定M个待选文本类别概率,M为大于或等于1的整数;
当M等于1时,将待选文本类别概率对应的文本类别确定为目标文本类别;
当M大于1时,从待选文本类别概率中确定最大文本类别概率,并将最大文本类别概率对应的文本类别确定为目标文本类别。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,确定单元202具体可以用于:
获取P个领域词典分别对应的特征模型,得到P个类别特征模型;
使用P个类别特征模型分别对待分类文本进行类别特征提取,得到P个文本类别特征;
基于实体识别模型对待分类文本进行实体识别,得到Z个实体词语,其中,Z为大于或等于1的整数;
将P个文本类别特征,分别与K个领域词语以及Z个实体词语进行特征拼接,得到P个文本局部特征。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,
获取单元201,还用于获取样本集合,其中,样本集合包括N个样本子集,每个样本子集包括至少两个类别样本,每个样本子集对应一个文本类别;
处理单元203,用于针对每个样本子集,分别对至少两个类别样本中的每个类别样本进行预处理,得到至少两个样本词性序列,其中,每个样本词性序列包括样本词语以及样本词语的词性;
处理单元203,还用于对每个样本词性序列进行权重计算,得到每个样本词性序列的重要度权值;
确定单元202,还用于根据预设重要度阈值,从重要度权值中确定目标权值,并将目标权值对应的样本词语确定为目标领域词语;
处理单元203,还用于将目标领域词语添加至文本类别对应的领域词典。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,处理单元203具体可以用于:
对每个类别样本进行停用词过滤,得到待处理文本,待处理文本至少包括两个待处理句子;
对至少两个待处理句子中的每个句子进行分词处理,得到至少两个待处理词语;
对至少两个待处理词语中的每个待处理词语进行词性标注处理,得到样本词性序列。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,确定单元202具体可以用于:
对待分类文本进行向量处理,得到至少两个词向量,其中,一个词向量对应一个词语;
将至少两个词向量输入主题模型进行主题分布处理,得到待分类文本的主题分布向量;
分别计算至少两个词向量中每一个词向量与主题分布向量之间的距离,得到X个距离,X为大于1的整数;
从X个距离中确定满足预设的距离阈值的待选距离,并将待选距离对应的词向量确定为主题相关词向量;
将主题相关词向量对应的词语确定主题词语。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,
确定单元202,还用于若主题词语的数量为一个,则将主题词语对应的主题相关词向量确定为主题词语特征;
处理单元203,还用于若主题词语的数量大于一个,则对主题词语对应的主题相关词向量进行向量整合处理,得到主题词语特征。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,
确定单元202,还用于确定目标文本类别对应的目标领域词典以及目标样本子集;
处理单元203,还用于将待分类文本添加至目标样本子集中,以更新目标领域词典。
可选地,在上述图15对应的实施例的基础上,本申请实施例提供的文本类别的确定装置的另一实施例中,
确定单元,还用于确定目标文本类别所对应的目标关联部门;
处理单元,还用于向目标关联部门所对应终端设备推送待分类文本,以使终端设备显示待分类文本。
本申请另一方面提供了另一种计算机设备示意图,如图16所示,图16是本申请实施例提供的一种计算机设备结构示意图,该计算机设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)310(例如,一个或一个以上处理器)和存储器320,一个或一个以上存储应用程序331或数据332的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备300中的一系列指令操作。更进一步地,中央处理器310可以设置为与存储介质330通信,在计算机设备300上执行存储介质330中的一系列指令操作。
计算机设备300还可以包括一个或一个以上电源340,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口360,和/或,一个或一个以上操作系统333,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述计算机设备300还用于执行如图2至图13对应的实施例中的步骤。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如图2至图13所示实施例描述的方法中的步骤。
本申请的另一方面提供了一种包含指令的计算机程序产品当其在计算机或处理器上运行时,使得所述计算机或处理器执行如图2至图13所示实施例描述的方法中的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (15)

1.一种文本类别的确定方法,其特征在于,包括:
获取待分类文本,其中,所述待分类文本包括多个词语;
从所述待分类文本中确定主题词语,其中,所述主题词语用于表示所述待分类文本的主题类型;
根据P个领域词典确定所述待分类文本中的K个领域词语,其中,所述K个领域词语来源于所述P个领域词典,领域词语用于表示所述待分类文本所属的领域类型,每个领域词典对应于一个文本类别,所述P与所述K均为大于或等于1的整数;
根据所述K个领域词语以及所述主题词语确定所述待分类文本分别属于P个文本类别的概率;
根据所述待分类文本分别属于P个文本类别的概率,从所述P个文本类别中确定所述待分类文本所对应的目标文本类别。
2.根据权利要求1所述的确定方法,其特征在于,所述根据所述K个领域词语以及所述主题词语确定所述待分类文本分别属于P个文本类别的概率,包括:
根据第一概率映射关系获取所述主题词语在文本集合中的第一特征出现概率,其中,所述第一概率映射关系包括主题词语特征与所述第一特征出现概率之间的对应关系,所述主题词语与所述主题词语特征具有对应关系;
根据所述P个领域词典,确定所述K个领域词语中的P组待选领域词语,每组待选领域词语中包括至少1个领域词语;
根据第二概率映射关系获取所述P组待选领域词语在文本集合中的P个第二特征出现概率,其中,所述第二概率映射关系包括文本局部特征与所述第二特征出现概率之间的对应关系,所述文本局部特征与待选领域词语具有对应关系;
根据所述第一特征出现概率、所述P个第二特征出现概率、分类概率以及贝叶斯模型,得到所述P个文本类别的概率,其中,所述分类概率来源于N个预设的文本类别,每个分类概率对应一个文本类别,所述N为大于1的整数。
3.根据权利要求2所述的确定方法,其特征在于,所述根据所述待分类文本分别属于P个文本类别的概率,从所述P个文本类别中确定所述待分类文本所对应的目标文本类别,包括:
确定所述分类概率与所述第一特征出现概率之间的第一互信息,以及所述分类概率与所述P个第二特征出现概率之间的P个第二互信息;
将所述第一互信息分别与所述P个第二互信息进行加和,得到P个待选互信息,其中,所述P个待选互信息与所述P个文本类别的概率具有对应关系;
从所述P个待选互信息确定满足预设互信息阈值的目标互信息,并将所述目标互信息对应的所述文本类别的概率确定为目标概率;
将所述目标概率对应文本类别确定为所述目标类别。
4.根据权利要求1所述的确定方法,其特征在于,所述根据所述待分类文本分别属于P个文本类别的概率,从所述P个文本类别中确定所述待分类文本所对应的目标文本类别,包括:
若所述P等于1,则将所述P个文本类别的概率对应的文本类别确定为所述目标文本类别;
若所述P大于1,则从所述P个文本类别的概率确定满足预设概率条件的概率,以得到所述目标文本类别。
5.根据权利要求4所述的确定方法,其特征在于,所述从所述P个文本类别的概率确定满足预设概率条件的概率,以得到所述目标文本类别,包括:
根据预设类别阈值,从所述P个文本类别的概率确定M个待选文本类别概率,所述M为大于或等于1的整数;
当所述M等于1时,将所述待选文本类别概率对应的文本类别确定为所述目标文本类别;
当所述M大于1时,从所述待选文本类别概率中确定最大文本类别概率,并将所述最大文本类别概率对应的文本类别确定为所述目标文本类别。
6.根据权利要求2所述的确定方法,其特征在于,所述根据第二概率映射关系获取所述P组待选领域词语在文本集合中的P个第二特征出现概率之前,所述方法还包括:
获取所述P个领域词典分别对应的特征模型,得到P个类别特征模型;
使用所述P个类别特征模型分别对所述待分类文本进行类别特征提取,得到P个文本类别特征;
基于实体识别模型对所述待分类文本进行实体识别,得到Z个实体词语,其中,所述Z为大于或等于1的整数;
将所述P个文本类别特征,分别与所述K个领域词语以及所述Z个实体词语进行特征拼接,得到P个文本局部特征。
7.根据权利要求1所述的确定方法,其特征在于,所述根据P个领域词典确定所述待分类文本中的K个领域词语之前,所述方法还包括:
获取样本集合,其中,所述样本集合包括N个样本子集,每个样本子集包括至少两个类别样本,所述每个样本子集对应一个文本类别;
针对所述每个样本子集,分别对所述至少两个类别样本中的每个类别样本进行预处理,得到至少两个样本词性序列,其中,每个样本词性序列包括样本词语以及所述样本词语的词性;
对每个样本词性序列进行权重计算,得到每个样本词性序列的重要度权值;
根据预设重要度阈值,从所述重要度权值中确定目标权值,并将所述目标权值对应的样本词语确定为目标领域词语;
将所述目标领域词语添加至所述文本类别对应的领域词典。
8.根据权利要求7所述的确定方法,其特征在于,所述分别对所述至少两个类别样本中的每个类别样本进行预处理,得到至少两个样本词性序列,包括:
对所述每个类别样本进行停用词过滤,得到待处理文本,所述待处理文本至少包括两个待处理句子;
对所述至少两个待处理句子中的每个句子进行分词处理,得到至少两个待处理词语;
对所述至少两个待处理词语中的每个待处理词语进行词性标注处理,得到样本词性序列。
9.根据权利要求1所述的确定方法,其特征在于,所述从所述待分类文本中确定主题词语,包括:
对所述待分类文本进行向量处理,得到至少两个词向量,其中,一个词向量对应一个词语;
将所述至少两个词向量输入主题模型进行主题分布处理,得到所述待分类文本的主题分布向量;
分别计算所述至少两个词向量中每一个词向量与所述主题分布向量之间的距离,得到X个距离,所述X为大于1的整数;
从所述X个距离中确定满足预设的距离阈值的待选距离,并将所述待选距离对应的词向量确定为主题相关词向量;
将所述主题相关词向量对应的词语确定所述主题词语。
10.根据权利要求9所述的确定方法,其特征在于,所述从所述待分类文本中确定主题词语之后,所述方法还包括:
若所述主题词语的数量为一个,则将所述主题词语对应的主题相关词向量确定为主题词语特征;
若所述主题词语的数量大于一个,则对所述主题词语对应的主题相关词向量进行向量整合处理,得到所述主题词语特征。
11.根据权利要求1所述的确定方法,其特征在于,所述根据所述待分类文本分别属于P个文本类别的概率,从所述P个文本类别中确定所述待分类文本所对应的目标文本类别之后,所述方法还包括:
确定所述目标文本类别对应的目标领域词典以及目标样本子集;
将所述待分类文本添加至所述目标样本子集中,以更新所述目标领域词典。
12.根据权利要求1所述的确定方法,其特征在于,所述根据所述待分类文本分别属于P个文本类别的概率,从所述P个文本类别中确定所述待分类文本所对应的目标文本类别之后,所述方法还包括:
确定所述目标文本类别所对应的目标关联部门;
向所述目标关联部门所对应终端设备推送所述待分类文本,以使所述终端设备显示所述待分类文本。
13.一种文本类别的确定装置,其特征在于,包括:
获取单元,用于获取待分类文本,其中,所述待分类文本包括多个词语;
确定单元,用于从所述待分类文本中确定主题词语,其中,所述主题词语用于表示所述待分类文本的主题类型;
所述确定单元,还用于若所述待分类文本中存在K个领域词语,则根据所述K个领域词语以及所述主题词语确定所述待分类文本分别属于P个文本类别的概率,其中,所述K个领域词语来源于P个领域词典,每个领域词典对应于一个文本类别,所述P与所述K均为大于或等于1的整数;
所述确定单元,还用于根据所述待分类文本分别属于P个文本类别的概率,从所述P个文本类别中确定所述待分类文本所对应的目标文本类别。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器;
所述存储器用于存储程序代码;
所述处理器用于根据所述程序代码中的指令,执行权利要求1至12中任一项所述的确定方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至12任一项所述的确定方法。
CN202110662917.8A 2021-06-15 2021-06-15 一种文本类别的确定方法、相关装置以及设备 Pending CN113821590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110662917.8A CN113821590A (zh) 2021-06-15 2021-06-15 一种文本类别的确定方法、相关装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110662917.8A CN113821590A (zh) 2021-06-15 2021-06-15 一种文本类别的确定方法、相关装置以及设备

Publications (1)

Publication Number Publication Date
CN113821590A true CN113821590A (zh) 2021-12-21

Family

ID=78923881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110662917.8A Pending CN113821590A (zh) 2021-06-15 2021-06-15 一种文本类别的确定方法、相关装置以及设备

Country Status (1)

Country Link
CN (1) CN113821590A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN117708324A (zh) * 2023-11-07 2024-03-15 山东睿芯半导体科技有限公司 一种文本主题分类方法、装置、芯片及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN117708324A (zh) * 2023-11-07 2024-03-15 山东睿芯半导体科技有限公司 一种文本主题分类方法、装置、芯片及终端

Similar Documents

Publication Publication Date Title
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
US9613024B1 (en) System and methods for creating datasets representing words and objects
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
Wahid et al. Topic2Labels: A framework to annotate and classify the social media data through LDA topics and deep learning models for crisis response
Ahmad et al. Bengali word embeddings and it's application in solving document classification problem
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
Pal et al. Resume classification using various machine learning algorithms
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113821590A (zh) 一种文本类别的确定方法、相关装置以及设备
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
EP3876137A1 (en) System for identifying named entities with dynamic parameters
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
Quemy et al. ECHR-OD: On building an integrated open repository of legal documents for machine learning applications
Alruily Using text mining to identify crime patterns from arabic crime news report corpus
Abimbola et al. A noun-centric keyphrase extraction model: Graph-based approach
Mezentseva et al. Optimization of analysis and minimization of information losses in text mining
Ali et al. Word embedding based new corpus for low-resourced language: Sindhi
Rao et al. Automatic identification of concepts and conceptual relations from patents using machine learning methods
Suresu et al. Probabilistic relational concept extraction in ontology learning
Liu et al. A document-structure-based complex network model for extracting text keywords
Ning Research on the extraction of accounting multi-relationship information based on cloud computing and multimedia
Polpinij Ontology-based knowledge discovery from unstructured and semi-structured text
Valdez-Valenzuela et al. Heterogeneous-Graph Convolutional Network for Authorship Verification.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination