CN112765970A - 文本主题确定方法、设备及可读存储介质 - Google Patents

文本主题确定方法、设备及可读存储介质 Download PDF

Info

Publication number
CN112765970A
CN112765970A CN202110047739.8A CN202110047739A CN112765970A CN 112765970 A CN112765970 A CN 112765970A CN 202110047739 A CN202110047739 A CN 202110047739A CN 112765970 A CN112765970 A CN 112765970A
Authority
CN
China
Prior art keywords
theme
text
subject
preset
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110047739.8A
Other languages
English (en)
Inventor
张鹏
陈婷
吴三平
庄伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110047739.8A priority Critical patent/CN112765970A/zh
Publication of CN112765970A publication Critical patent/CN112765970A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本主题确定方法、设备及可读存储介质,该方法包括步骤:获取待确定主题文本;基于所述待确定文本计算预设主题对应的强度值;若所述强度值大于预设强度阈值,则确定所述待确定主题文本中存在所述预设主题。本发明实现了在确定待确定主题文本中所存在的主题时,通过计算待确定主题文本的与预设主题对应的强度值来确定,该强度值大于预设强度阈值时,则确定该待确定主题文本中存在该预设主题,由此可知,通过强度值直观地体现了待确定主题文本中所存在的主题,从而使得在确定文本中的主题时,主题确定更加直观。

Description

文本主题确定方法、设备及可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本主题确定方法、设备及可读存储介质。
背景技术
业务(各行业中需要处理的事务)实际操作过程中会产生对于对象、行为、结果的描述文字,该描述文字称之为文本,该文本中蕴含了中心思想或者主要观点,该中心思想或者主要观点称之为主题,其中,主题的数量和内容与上述业务相关,例如对于一个餐馆的评论,其可能包含菜品口味、环境布置、服务质量等多个主题。
当前从文本中抽取主题的方法为从输入的文本直接抽取关键词,对关键词进行重要性计算和排序,并将重要的关键词进行展示,然而,直接进行关键词展示并不能直观地体现其对应的主题。
由此可知,目前在确定文本中的主题时,存在主题确定不直观的问题。
发明内容
本发明的主要目的在于提供一种文本主题确定方法、设备及可读存储介质,旨在解决现有的在确定文本中的主题时,存在主题确定不直观的技术问题。
为实现上述目的,本发明提供一种文本主题确定方法,所述文本主题确定方法包括步骤:
获取待确定主题文本;
基于所述待确定文本计算预设主题对应的强度值;
若所述强度值大于预设强度阈值,则确定所述待确定主题文本中存在所述预设主题。
可选地,所述获取待确定主题文本,包括:
基于预设业务需求获取初始文本;
基于预设过滤方式对所述初始文本进行过滤处理,得到所述待确定主题文本。
可选地,所述基于所述待确定文本计算预设主题对应的强度值,包括:
基于预设主题识别工具识别所述待确定主题文本,得到主题识别中间结果;
基于所述主题识别中间结果计算所述预设主题对应的强度值。
可选地,所述预设主题包括至少两个主题,所述基于预设主题识别工具识别所述待确定主题文本之前,包括:
基于预设分类规则对所述预设主题进行主题分类,得到主题分类结果;所述主题分类结果对应的主题类别包括以下至少一种:词内容相关主题类别、词组合相关主题类别、词顺序相关主题类别,其中,各主题类别对应的表意方式不同;
所述基于预设主题识别工具识别所述待确定主题文本,包括以下至少一种:
基于所述词内容相关主题类别对应的预设词内容相关主题识别工具识别所述待确定主题文本,得到主题匹配结果;
基于所述词组合相关主题类别对应的预设词组合相关主题识别工具识别所述待确定主题文本,得到主题权重计算结果;
基于所述词顺序相关主题类别对应的预设词顺序相关主题识别工具识别所述待确定主题文本,得到主题预测结果;
所述主题识别中间结果为所述主题匹配结果、所述主题权重计算结果和/或所述主题预测结果;所述主题识别中间结果与所述预设主题识别工具相对应。
可选地,所述基于所述词内容相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
获取所述词内容相关主题类别对应的主题匹配模板;
基于所述主题匹配模板匹配所述待确定主题文本。
可选地,所述基于所述词组合相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
对所述待确定主题文本进行分词处理,得到若干词;
基于预设主题权重计算模型计算各所述词与所述词组合相关主题类别对应的主题的主题权重;
对各所述主题权重进行求和,得到主题总权重;
对所述主题总权重进行归一化处理。
可选地,所述基于预设主题权重计算模型计算各所述词与所述词组合相关主题类别对应的主题的主题权重之前包括:训练所述预设主题权重计算模型,包括:
获取训练数据、未训练模型和人工介入筛选参数;
基于所述人工介入筛选参数和所述训练数据训练所述未训练模型,得到所述预设主题权重计算模型。
可选地,所述基于所述词顺序相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
对所述待确定主题文本进行向量化处理,得到字向量矩阵;
基于所述词顺序相关主题类型对应的预设主题预测模型对所述字向量矩阵进行预测处理。
此外,为实现上述目的,本发明还提供一种文本主题确定设备,所述文本主题确定设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的文本主题确定程序,所述文本主题确定程序被所述处理器执行时实现如上所述的文本主题确定方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本主题确定程序,所述文本主题确定程序被处理器执行时实现如上所述的文本主题确定方法的步骤。
本发明通过在获取待确定主题文本;基于所述待确定文本计算预设主题对应的强度值;若所述强度值大于预设强度阈值,则确定所述待确定主题文本中存在所述预设主题。本发明实现了在确定待确定主题文本中所存在的主题时,通过计算待确定主题文本的与预设主题对应的强度值来确定,该强度值大于预设强度阈值时,则确定该待确定主题文本中存在该预设主题,由此可知,通过强度值直观地体现了待确定主题文本中所存在的主题,从而使得在确定文本中的主题时,主题确定更加直观。
附图说明
图1是本发明文本主题确定方法第一实施例的流程示意图;
图2是本发明文本主题确定方法第二实施例的流程示意图;
图3是本发明文本主题确定装置较佳实施例的功能模块示意图;
图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本主题确定方法,参照图1,图1为本发明文本主题确定方法第一实施例的流程示意图。
本发明实施例提供了文本主题确定方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。文本主题确定方法可应用于服务器和/或终端中,该终端包括但不限于个人计算机和手机等。为了便于描述,以下省略执行主体描述文本主题确定方法的各个步骤。文本主题确定方法包括:
步骤110,获取待确定主题文本。
具体地,获取待确定主题文本。其中,该待确定主题文本与具体的业务相关,即对于不同的业务,待确定主题文本不同。
进一步地,所述步骤S110包括:
步骤a,基于预设业务需求获取初始文本。
具体地,基于预设业务需求获取初始文本,该预设业务需求与上述具体的业务对应,即根据需求从不同业务中选择目标业务。此外,还可以获取辅助确定待确定主题文本中所存在的主题的辅助判断信息,例如需要确定一个餐馆的评论中是否存在菜品口味,该辅助判断信息可以为该评论为好评,可以理解,若评论为好评,则确定该评论中是否存在菜品口味时可围绕该菜品是可口的、是诱人的进行确定,而不用围绕该菜品是难吃的、是难看的进行确定。可以理解,通过辅助判断信息辅助确定待确定主题文本中所存在的主题缩减了确定过程,提高了确定过程的效率。
步骤b,基于预设过滤方式对所述初始文本进行过滤处理,得到所述待确定主题文本。
具体地,基于预设过滤方式对初始文本进行过滤处理,得到待确定主题文本,其中,过滤处理为过滤待确定主题文本中容易影响语义判断的误导信息,该误导信息包括固定描述模板等。
步骤S120,基于所述待确定文本计算预设主题对应的强度值。
具体地,基于待确定主题文本计算预设主题对应的强度值,该强度值用于确定待确定主题文本中是否存在该预设主题。其中,预设主题由预设业务需求确定,该预设主题的语义明确。
步骤S130,若所述强度值大于预设强度阈值,则确定所述待确定主题文本中存在所述预设主题。
具体地,若该强度值大于预设强度阈值,则确定待确定主题文本中存在该预设主题,若该强度值等于预设强度阈值,则确定待确定主题文本中不存在该预设主题。其中,该预设强度阈值可根据具体需要设置,本实施例中不作具体限定,例如该预设强度阈值可为零。
本实施例通过获取待确定主题文本;基于所述待确定文本计算预设主题对应的强度值;若所述强度值大于预设强度阈值,则确定所述待确定主题文本中存在所述预设主题。实现了在确定待确定主题文本中所存在的主题时,通过计算待确定主题文本的与预设主题对应的强度值来确定,该强度值大于预设强度阈值时,则确定该待确定主题文本中存在该预设主题,由此可知,通过强度值直观地体现了待确定主题文本中所存在的主题,从而使得在确定文本中的主题时,主题确定更加直观。
进一步地,参照图2,基于本发明文本主题确定方法第一实施例,提出第二实施例,所述基于所述待确定文本计算预设主题对应的强度值,包括:
步骤S121,基于预设主题识别工具识别所述待确定主题文本,得到主题识别中间结果。
具体地,基于预设主题识别工具识别待确定主题文本,完成对待确定主题文本中所存在的主题的初步识别工作,得到主题识别中间结果。
上述预设主题包括至少两个主题,上述基于预设主题识别工具识别所述待确定主题文本之前,包括:
步骤c,基于预设分类规则对所述预设主题进行主题分类,得到主题分类结果;所述主题分类结果对应的主题类别包括以下至少一种:词内容相关主题类别、词组合相关主题类别、词顺序相关主题类别,其中,各主题类别对应的表意方式不同。
具体地,基于预设分类规则对预设主题进行主题分类,得到主题分类结果,其中,主题分类结果对应的主题类别包括以下至少一种:词内容相关主题类别、词组合相关主题类别、词顺序相关主题类别,其中,各主题类别对应的表意方式不同。
需要说明的是,该预设分类规则为根据预设主题的表意方式进行分类。
需要说明的是,对于表意方式,词内容相关主题类别对应的主题为语义表达形式固定的主题;词组合相关主题类别对应的主题为使用多关键词表意对应的主题,即该主题无法通过一个关键词确定;词顺序相关主题类别对应的主题为表意形式复杂的主题,该主题与关键词的顺序相关,该顺序较为复杂无法通过人工手工进行总结。
需要说明的是,关键词为待确定主题文本中能够反映主题的词语,即关键词与主题之间具有所属关系,例如关键词为“装饰”、“布局”、“舒适”,则由上述关键词可知其对应的主题为环境布置。
步骤d,所述基于预设主题识别工具识别所述待确定主题文本,包括以下至少一种:
基于所述词内容相关主题类别对应的预设词内容相关主题识别工具识别所述待确定主题文本,得到主题匹配结果;
基于所述词组合相关主题类别对应的预设词组合相关主题识别工具识别所述待确定主题文本,得到主题权重计算结果;
基于所述词顺序相关主题类别对应的预设词顺序相关主题识别工具识别所述待确定主题文本,得到主题预测结果;
所述主题识别中间结果为所述主题匹配结果、所述主题权重计算结果和/或所述主题预测结果;所述主题识别中间结果与所述预设主题识别工具相对应。
具体地,不同主题对应不同的预设主题识别工具,其中,基于预设主题识别工具识别待确定主题文本包括基于所述词内容相关主题类别对应的预设词内容相关主题识别工具识别所述待确定主题文本、基于所述词组合相关主题类别对应的预设词组合相关主题识别工具识别所述待确定主题文本和/或基于所述词顺序相关主题类别对应的预设词顺序相关主题识别工具识别所述待确定主题文本,即基于词内容相关主题类别对应的预设词内容相关主题识别工具识别待确定主题文本、基于词组合相关主题类别对应的预设词组合相关主题识别工具识别待确定主题文本、基于词顺序相关主题类别对应的预设词顺序相关主题识别工具识别待确定主题文本、基于词内容相关主题类别对应的预设词内容相关主题识别工具识别待确定主题文本和基于词组合相关主题类别对应的预设词组合相关主题识别工具识别待确定主题文本、基于词内容相关主题类别对应的预设词内容相关主题识别工具识别待确定主题文本和基于词顺序相关主题类别对应的预设词顺序相关主题识别工具识别待确定主题文本、基于词内容相关主题类别对应的预设词内容相关主题识别工具识别待确定主题文本和基于词组合相关主题类别对应的预设词组合相关主题识别工具识别待确定主题文本以及基于词顺序相关主题类别对应的预设词顺序相关主题识别工具识别待确定主题文本。
需要说明的是,上述主题识别中间结果为主题匹配结果、主题权重计算结果和/或主题预测结果;该主题识别中间结果与预设主题识别工具相对应。例如预设主题识别工具为预设词组合相关主题识别工具,则主题识别中间结果为主题权重计算结果;预设主题识别工具为预设词组合相关主题识别工具和预设词顺序相关主题识别工具,则主题识别中间结果为主题权重计算结果和主题预测结果。
需要说明的是,通过对预设主题进行主题分类,并通过不同的预设主题识别工具对应识别待确定主题文本中不同主题类型对应的主题,相当于将文本的主题识别问题转换为多标签识别问题;相对于通过一个预设主题识别工具来识别待确定主题文本的识别方式,通过不同的预设主题识别工具分别识别待确定主题文本的方式,降低了预设主题识别工具对应的识别模型的耦合性,使得训练该识别模型的过程以及使用该识别模型进行预测的过程更加灵活,并且方便对识别模型进行调整。可以理解,一个预设主题识别工具对应的文本数据要比不同的预设主题识别工具对应的分类后的文本数据要庞大以及杂乱。
步骤S122,基于所述主题识别中间结果计算所述预设主题对应的强度值。
具体地,基于主题识别中间结果计算预设主题对应的强度值。需要说明的是,为了更加直观地体现待确定主题文本中是否存在一主题或多主题,可以预设主题与强度值之间的对应关系,其通过强度向量的形式体现,具体地,强度值可通过强度向量的形式体现,其中,强度向量的各位置与各主题之间存在对应关系,例如位置0对应的主题为菜品口味、位置1对应的主题为环境布置。
上述基于所述词内容相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
步骤d1,获取所述词内容相关主题类别对应的主题匹配模板。
具体地,获取词内容相关主题类别对应的主题匹配模板,其中,主题匹配模板为规则主题类分类器,其对应的匹配模板包括关键词、关键句、正则表达式等,其中正则表达式的使用增加了主题匹配模板的泛化能力。其中,关键句与关键词类似,关键句与主题之间同样具有所属关系,例如关键句为“环境非常好”,则其对应的主题为环境布置;正则表达式与关键词和关键句有类似的形式,其可以用来检查一个字符串是否含有某种字符子串。
步骤d2,基于所述主题匹配模板匹配所述待确定主题文本。
具体地,基于主题匹配模板匹配待确定主题文本,即在待确定主题文本中查找主题匹配模板。
上述基于所述词组合相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
步骤d3,对所述待确定主题文本进行分词处理,得到若干词。
具体地,对待确定主题文本进行分词处理,得到若干词,该若干词作为预设主题权重计算模型的输入。
步骤d4,基于预设主题权重计算模型计算各所述词与所述词组合相关主题类别对应的主题的主题权重。
具体地,基于预设主题权重计算模型计算各词与词组合相关主题类型对应的主题的主题权重。其中,词组合相关主题类别包括一个或多个主题,在词组合相关主题类别包括多个主题时,分别计算各主题的主题权重。例如词组合相关主题类别包括主题A、主题B和主题C,其计算过程为通过主题A对应的预设主题预测模型、主题B对应的预设主题预测模型和主题C对应的预设主题预测模型分别计算所有词在主题A、主题B和主题C上的权重,此外,在计算所有词在上述主题上的权重外,还需要计算所有词在其他主题上的权重。其中,预设主题权重计算模型可以为MNB(Multinomial Naive Bayes,多项式朴素贝叶斯算法)分类器。
步骤d5,对各所述主题权重进行求和,得到主题总权重。
具体地,对各主题权重进行求和,得到主题总权重。其中,各主题的权重分别求和,例如主题A的所有词对应的主题权重单独进行相加得到主题A总权重、主题B的所有词对应的主题权重单独进行相加得到主题B总权重。
步骤d6,对所述主题总权重进行归一化处理。
具体地,对该主题总权重进行归一化处理,得到待确认主题文本在主题A的概率值、待确认主题文本在主题B的概率值等。其中,归一化处理为将数据变成(0,1)或者(-1,1)之间的小数,其目的主要是为了方便数据处理,及把数据映射到0~1范围之内处理,更加便捷快速。
上述基于预设主题权重计算模型计算各所述词与所述词组合相关主题类别对应的主题的主题权重之前包括:训练上述预设主题权重计算模型,包括:
步骤e,获取训练数据、未训练模型和人工介入筛选参数。
具体地,获取训练数据、未训练模型和人工介入筛选参数。需要说明的是,该训练数据通过one-vs-rest的方式生成。其中,one-vs-rest生成训练数据的过程为将原始数据中目标主题对应的数据作为一类、将原始数据中非目标主题对应的数据作为另一类,即可满足训练数据的使用需求。例如需要将未训练模型训练为能够计算主题A的权重的预设主题权重计算模型,则可以将原始数据中主题A对应的数据作为一类、将原始数据中非主题A对应的数据作为另一类,得到训练数据。
步骤f,基于所述人工介入筛选参数和所述训练数据训练所述未训练模型,得到所述预设主题权重计算模型。
具体地,基于训练数据训练该未训练模型,在该训练过程中需要通过人工介入筛选参数对训练过程进行调整,即人工介入该训练过程,以去除噪音,以增加预设主题权重计算模型的特征词典的泛化能力,即增加预设主题权重计算模型对新样本的适应能力,使得得到的预设主题权重计算模型的预测准确性得到提高,例如对于数据集A,A-train是训练集,A-test是测试集,预设主题权重计算模型1和预设主题权重计算模型2在A-train上训练,在A-test上测试,预设主题权重计算模型1测试结果优于预设主题权重计算模型2,表示预设主题权重计算模型1的泛化能力强。
上述基于所述词顺序相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
步骤g,对所述待确定主题文本进行向量化处理,得到字向量矩阵。
具体地,对待确定主题文本进行向量化处理,得到字向量矩阵,该字向量矩阵由多个字对应的字向量组成,需要说明的是,字向量矩阵中所包含的字向量可由具体需要设置。例如将待确定主题文本按字切分成数组,可以理解,各数组的长度相同,之后将各个字替换为字向量,需要说明的是,字与字向量之间存在映射关系;又如找到待确定主题文本中句子长度(字的数量)最长的句子,并将该句子长度作为字向量矩阵所包含的字向量的数量,对于其他句子,在长度不足时补零,例如在句子首部补零或者是在句子尾部补零,以使该句子的长度与该句子长度最长的句子的长度相等。
步骤h,基于所述词顺序相关主题类型对应的预设主题预测模型对所述字向量矩阵进行预测处理。
具体地,基于词顺序相关主题类型对应的预设主题预测模型对字向量矩阵进行预测处理,得到待确定主题文本中包含预设主题的概率。其中,该预设主题预测模型为字向量神经网络分类器,在训练该预设主题预测模型时,其训练数据同样通过one-vs-rest的方式生成,在得到字向量矩阵后,通过卷积神经网络进行训练,得到预设主题预测模型。需要说明的是,该预设主题预测模型学习了待确定主题文本中的表意结构,使得其在预测表意与语序有关的场景对应的主题时,预测精度得到提高。
本实施例通过基于预设主题识别工具识别所述待确定主题文本,得到主题识别中间结果;基于所述主题识别中间结果计算所述预设主题对应的强度值。实现了通过预设主题识别工具来得到预设主题对应的强度值,由此得到的强度值更加准确。
此外,本发明还提供一种文本主题确定装置,如图3所示,所述文本主题确定装置包括:
获取模块,用于获取待确定主题文本;
计算模块,用于基于所述待确定文本计算预设主题对应的强度值;
确定模块,用于若所述强度值大于预设强度阈值,则确定所述待确定主题文本中存在所述预设主题。
进一步地,所述获取模块包括:
获取子模块,用于基于预设业务需求获取初始文本;
过滤子模块,用于基于预设过滤方式对所述初始文本进行过滤处理,得到所述待确定主题文本。
进一步地,所述计算模块包括:
识别子模块,用于基于预设主题识别工具识别所述待确定主题文本,得到主题识别中间结果;
计算子模块,用于基于所述主题识别中间结果计算所述预设主题对应的强度值。
进一步地,所述预设主题包括至少两个主题,所述计算模块还包括:
分类子模块,用于基于预设分类规则对所述预设主题进行主题分类,得到主题分类结果;
所述识别子模块包括以下至少一种:
第一识别单元,用于基于所述词内容相关主题类别对应的预设词内容相关主题识别工具识别所述待确定主题文本;
第二识别单元,用于基于所述词组合相关主题类别对应的预设词组合相关主题识别工具识别所述待确定主题文本;
第三识别单元,用于基于所述词顺序相关主题类别对应的预设词顺序相关主题识别工具识别所述待确定主题文本。
进一步地,所述第一识别单元包括:
获取子单元,用于获取所述词内容相关主题类别对应的主题匹配模板;
匹配子单元,用于基于所述主题匹配模板匹配所述待确定主题文本。
进一步地,所述第二识别单元包括:
分词子单元,用于对所述待确定主题文本进行分词处理,得到若干词;
计算子单元,用于基于预设主题权重计算模型计算各所述词与所述词组合相关主题类别对应的主题的主题权重;
求和子单元,用于对各所述主题权重进行求和,得到主题总权重;
归一化子单元,用于对所述主题总权重进行归一化处理。
进一步地,所述第二识别单元还包括:
获取子单元,用于获取训练数据、未训练模型和人工介入筛选参数;
训练子单元,用于基于所述人工介入筛选参数和所述训练数据训练所述未训练模型,得到所述预设主题权重计算模型。
进一步地,所述第三识别单元包括:
向量化子单元,用于对所述待确定主题文本进行向量化处理,得到字向量矩阵;
预测子单元,用于基于所述词顺序相关主题类型对应的预设主题预测模型对所述字向量矩阵进行预测处理。
本发明文本主题确定装置具体实施方式与上述文本主题确定方法各实施例基本相同,在此不再赘述。
此外,本发明还提供一种文本主题确定设备。如图4所示,图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图4即可为文本主题确定设备的硬件运行环境的结构示意图。
如图4所示,该文本主题确定设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,文本主题确定设备还可以包括RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图4中示出的文本主题确定设备结构并不构成对文本主题确定设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本主题确定程序。其中,操作系统是管理和控制文本主题确定设备硬件和软件资源的程序,支持文本主题确定程序以及其它软件或程序的运行。
在图4所示的文本主题确定设备中,用户接口1003主要用于连接终端,与终端进行数据通信,如接收终端发送的待确定主题文本;网络接口1004主要用于后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的文本主题确定程序,并执行如上所述的文本主题确定方法的步骤。
本发明文本主题确定设备具体实施方式与上述文本主题确定方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本主题确定程序,所述文本主题确定程序被处理器执行时实现如上所述的文本主题确定方法的步骤。
本发明计算机可读存储介质具体实施方式与上述文本主题确定方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,设备,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本主题确定方法,其特征在于,所述文本主题确定方法包括以下步骤:
获取待确定主题文本;
基于所述待确定文本计算预设主题对应的强度值;
若所述强度值大于预设强度阈值,则确定所述待确定主题文本中存在所述预设主题。
2.如权利要求1所述的文本主题确定方法,其特征在于,所述获取待确定主题文本,包括:
基于预设业务需求获取初始文本;
基于预设过滤方式对所述初始文本进行过滤处理,得到所述待确定主题文本。
3.如权利要求1或2所述的文本主题确定方法,其特征在于,所述基于所述待确定文本计算预设主题对应的强度值,包括:
基于预设主题识别工具识别所述待确定主题文本,得到主题识别中间结果;
基于所述主题识别中间结果计算所述预设主题对应的强度值。
4.如权利要求3所述的文本主题确定方法,其特征在于,所述预设主题包括至少两个主题,所述基于预设主题识别工具识别所述待确定主题文本之前,包括:
基于预设分类规则对所述预设主题进行主题分类,得到主题分类结果;所述主题分类结果对应的主题类别包括以下至少一种:词内容相关主题类别、词组合相关主题类别、词顺序相关主题类别,其中,各主题类别对应的表意方式不同;
所述基于预设主题识别工具识别所述待确定主题文本,包括以下至少一种:
基于所述词内容相关主题类别对应的预设词内容相关主题识别工具识别所述待确定主题文本,得到主题匹配结果;
基于所述词组合相关主题类别对应的预设词组合相关主题识别工具识别所述待确定主题文本,得到主题权重计算结果;
基于所述词顺序相关主题类别对应的预设词顺序相关主题识别工具识别所述待确定主题文本,得到主题预测结果;
所述主题识别中间结果为所述主题匹配结果、所述主题权重计算结果和/或所述主题预测结果;所述主题识别中间结果与所述预设主题识别工具相对应。
5.如权利要求4所述的文本主题确定方法,其特征在于,所述基于所述词内容相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
获取所述词内容相关主题类别对应的主题匹配模板;
基于所述主题匹配模板匹配所述待确定主题文本。
6.如权利要求4所述的文本主题确定方法,其特征在于,所述基于所述词组合相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
对所述待确定主题文本进行分词处理,得到若干词;
基于预设主题权重计算模型计算各所述词与所述词组合相关主题类别对应的主题的主题权重;
对各所述主题权重进行求和,得到主题总权重;
对所述主题总权重进行归一化处理。
7.如权利要求6所述的文本主题确定方法,其特征在于,所述基于预设主题权重计算模型计算各所述词与所述词组合相关主题类别对应的主题的主题权重之前包括:训练所述预设主题权重计算模型,具体包括:
获取训练数据、未训练模型和人工介入筛选参数;
基于所述人工介入筛选参数和所述训练数据训练所述未训练模型,得到所述预设主题权重计算模型。
8.如权利要求4所述的文本主题确定方法,其特征在于,所述基于所述词顺序相关主题类别对应的预设主题识别工具识别所述待确定主题文本,包括:
对所述待确定主题文本进行向量化处理,得到字向量矩阵;
基于所述词顺序相关主题类型对应的预设主题预测模型对所述字向量矩阵进行预测处理。
9.一种文本主题确定设备,其特征在于,所述文本主题确定设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的文本主题确定程序,所述文本主题确定程序被所述处理器执行时实现如权利要求1至8中任一项所述的文本主题确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本主题确定程序,所述文本主题确定程序被处理器执行时实现如权利要求1至8中任一项所述的文本主题确定方法的步骤。
CN202110047739.8A 2021-01-14 2021-01-14 文本主题确定方法、设备及可读存储介质 Pending CN112765970A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110047739.8A CN112765970A (zh) 2021-01-14 2021-01-14 文本主题确定方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110047739.8A CN112765970A (zh) 2021-01-14 2021-01-14 文本主题确定方法、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112765970A true CN112765970A (zh) 2021-05-07

Family

ID=75700386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110047739.8A Pending CN112765970A (zh) 2021-01-14 2021-01-14 文本主题确定方法、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112765970A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528655A (zh) * 2016-10-18 2017-03-22 百度在线网络技术(北京)有限公司 文本主题识别方法和装置
CN108875067A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 文本数据分类方法、装置、设备及存储介质
CN110929026A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质
CN111061837A (zh) * 2019-12-18 2020-04-24 国网浙江省电力有限公司电力科学研究院 话题识别方法、装置、设备及介质
CN111723206A (zh) * 2020-06-19 2020-09-29 北京明略软件系统有限公司 文本分类方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528655A (zh) * 2016-10-18 2017-03-22 百度在线网络技术(北京)有限公司 文本主题识别方法和装置
CN108875067A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 文本数据分类方法、装置、设备及存储介质
CN110929026A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质
CN111061837A (zh) * 2019-12-18 2020-04-24 国网浙江省电力有限公司电力科学研究院 话题识别方法、装置、设备及介质
CN111723206A (zh) * 2020-06-19 2020-09-29 北京明略软件系统有限公司 文本分类方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108717406B (zh) 文本情绪分析方法、装置及存储介质
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
CN101901230A (zh) 信息检索方法和用户评论处理方法及其系统
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN110503143B (zh) 基于意图识别的阈值选取方法、设备、存储介质及装置
CN108596637B (zh) 一种电商服务问题自动发现系统
CN108287848B (zh) 用于语义解析的方法和系统
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN111680507A (zh) 基于人工智能的意图识别的方法、装置、计算机设备
CN111291158A (zh) 一种信息查询方法、装置、电子设备及存储介质
CN110750984A (zh) 命令行字符串处理方法、终端、装置及可读存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN116187308A (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN111625619B (zh) 查询省略方法、装置、计算机可读介质及电子设备
CN111382254A (zh) 电子名片推荐方法、装置、设备及计算机可读存储介质
CN112307200A (zh) 情感属性获取方法、装置、设备、及存储介质
CN108073567A (zh) 一种特征词提取处理方法、系统及服务器
CN112765970A (zh) 文本主题确定方法、设备及可读存储介质
JP2002157262A (ja) 分類ルール定義支援方法
CN111382265A (zh) 搜索方法、装置、设备和介质
CN114971833A (zh) 一种税收信息处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination