CN112307205A - 基于自动摘要的文本分类方法、系统及计算机存储介质 - Google Patents

基于自动摘要的文本分类方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN112307205A
CN112307205A CN202011138198.1A CN202011138198A CN112307205A CN 112307205 A CN112307205 A CN 112307205A CN 202011138198 A CN202011138198 A CN 202011138198A CN 112307205 A CN112307205 A CN 112307205A
Authority
CN
China
Prior art keywords
electronic document
text
indexing
word
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011138198.1A
Other languages
English (en)
Inventor
张凯
齐军华
周建设
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202011138198.1A priority Critical patent/CN112307205A/zh
Publication of CN112307205A publication Critical patent/CN112307205A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请设计了自动摘要生成算法来实现电子文档核心思想(即文档摘要)的快速获取,并利用获取的摘要中的关键词来实现对该篇电子文档的准确标引分类,从而有效解决了人工标引所存在的效率低、易出错的问题,极大的提高了数据标引的效率。另外,本申请设计的自动摘要生成算法,在传统的概率统计方法的基础上充分考虑了领域内的知识,将领域词典运用到摘要算法当中,显著提高了自动摘要生成的效率及准确度。于是,本申请的数据标引方法能够实现数据自动标引的准确与高效的良好平衡。

Description

基于自动摘要的文本分类方法、系统及计算机存储介质
技术领域
本申请涉及数据标引技术领域,具体而言,涉及一种基于自动摘要的文本分类方法、系统及计算机存储介质。
背景技术
文献标引是建立文献数据仓库的关键步骤,标引质量的优劣会直接影响后续的计算机检索效率。目前,每个文献库都有专职从事标引工作的标引人员,也即一般需要大量人员进行人工标引。但是,由于人工标引所存在的效率低,易出错的问题,目前的发展趋势是人工标引慢慢的向机器自动标引过渡。然而,现有技术中目前尚未有能够良好平衡准确与高效的文本分类技术。
因此,现有技术存在的上述问题亟待改进。
发明内容
为了解决上述人工标引速度慢、易出错的技术问题,本申请提供了一种基于自动摘要的文本分类方法、系统及计算机存储介质。
本申请的第一方面提供了一种基于自动摘要的文本分类方法,所述方法包括:
S1、处理器接收需要进行标引的电子文档数据;
S2、所述处理器对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;
S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
S4、标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
优选地,所述步骤S2中的调动自动摘要生成算法生成对应的摘要,包括:
S21、提取单篇电子文档数据的所有词语并进行统计分析;
S22、根据词语的词频分布信息获取关键词集合,使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重;
S23、计算文本中所有句子的初始权重,使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;
S24、根据句子的最终权重进行排序,筛选出权重较高的关键句集合,按原文的顺序输出摘要。
优选地,所述步骤S22,包括:遍历抽取的文本关键词集合,如果当前词存在于所述电子文档所属领域特征词词典中,则增加该关键词的权重;否则,就不增加该关键词的权重;
对标题进行切分,得到标题词集合,遍历抽取的文本关键词集合,如果当前词存在于标题词集合中,则增加该关键词的权重,否则,就不增加该关键词的权重。
优选地,步骤S23中对文本关键词权重进行优化的计算公式为:
P(W)=F(W)*log(S/Sf)*C(W)*T(W)
其中C(W)是所述电子文档所属领域特征词词典的优化因子,T(W)是标题的优化因子。
所述文本中所有句子的初始权重的计算方式为:
PS(Sj)=∑PW(Wji)/L(Sj)
其中PS(Sj)为句子Sj的权重,∑PW(Wji)为句子Sj中关键词的权重之和,L(Sj)是句子Sj中包含的词条的个数。
优选地,步骤S23中,所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化,包括:对文本中的初始关键句子进行扫描,如果当前句子中包含新词,则给出现的新词赋予一定的权重,并将这些权重之和加到该句的权重中;对文本中首段末段所有句子,每段的段首句和段尾句进行加权。
优选地,对所述句子的权重进行优化的计算公式为:
PS(Sj)=∑PW(Wji)/L(Sj)*N(Sj)*T(Sj)
其中N(Sj)表示所述电子文档所属领域新词词典的对加权因子,T(Sj)表示篇章结构的加权因子。
优选地,所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类,包括:计算各目标标引词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号。
本申请的第二方面提供了一种基于自动摘要的文本分类系统,所述系统包括接收模块、处理器和标引模块:
所述接收模块,用于接收需要进行标引的电子文档数据,并传输给处理器;
所述处理器,用于接收所述接收模块传输的电子文档数据,对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
所述标引模块,用于基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
本申请的第三方面提供了一种基于自动摘要的文本分类设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的文本分类方法。
本申请的第四方面提供了一种基于自动摘要的存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前述所述的文本分类方法。
本发明的有益效果在于:
本申请设计了自动摘要生成算法来实现电子文档核心思想(即文档摘要)的快速获取,并利用获取的摘要中的关键词来实现对该篇电子文档的准确标引分类,从而有效解决了人工标引所存在的效率低、易出错的问题,极大的提高了数据标引的效率。另外,本申请设计的自动摘要生成算法,在传统的概率统计方法的基础上充分考虑了领域内的知识,将领域词典运用到摘要算法当中,显著提高了自动摘要生成的效率及准确度。于是,本申请的数据标引方法能够实现数据自动标引的准确与高效的良好平衡。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例公开的一种基于自动摘要的文本分类方法的流程示意图;
图2是本申请实施例公开的一种基于自动摘要的文本分类系统的结构示意图;
图3是本申请实施例公开的一种基于自动摘要的文本分类设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
实施例一
请参阅图1,图1是本申请实施例公开的一种基于自动摘要的文本分类方法的流程示意图。如图1所示,本申请实施例的一种基于自动摘要的文本分类方法,所述方法包括:
S1、处理器接收需要进行标引的电子文档数据;
S2、所述处理器对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;
S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
S4、标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
在本申请实施例中,本申请采用自动摘要生成算法快速的获取输入的电子文档的摘要,然后再基于获取的摘要中的分词的词频确定出目标标引词,并基于目标标引词最终实现对该电子文档的自动快速分类,有效解决了现有技术中人工标引所存在的效率低、易出错的问题,而且还可实现数据自动标引的准确与高效的良好平衡。
另外,由于文档内容的复杂性,生成的自动摘要实际上也是无法保证百分之百的准确度的,所以,本申请的技术方案并非直接采用自动摘要中的分词进行数据标引,而是同时还考虑了该分词在文档中的出现概率,即仅将词频大于一定阈值或自动摘要中的分词词频排序为前N个的分词作为最终的目标标引词,从而进一步保证了目标标引词选取的准确度,相应地,也就提高了文档标引分类的准确度。
在本可选的实施方式中,所述步骤S2中的调动自动摘要生成算法生成对应的摘要,包括:
S21、提取单篇电子文档数据的所有词语并进行统计分析;
S22、根据词语的词频分布信息获取关键词集合,使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重;
S23、计算文本中所有句子的初始权重,使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;
S24、根据句子的最终权重进行排序,筛选出权重较高的关键句集合,按原文的顺序输出摘要。
另外,步骤S2也可以为:根据词语的词频分布信息获取关键词集合,并计算关键词的初始权重,所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;
相应地,所述关键词的初始权重的计算方式为:
P(W)=F(W)*log(S/Sf)
其中P(W)为词语W在文档D中的权重,F(W)为W在文档D中的出现频率,S为文档D中的句子总数,Sf为W在文档句子集合中出现的总次数。
在本申请实施例中,文本经过分词、去停用词处理后被分成词语序列,传统的方法时把该序列中出现次数较高的词语抽取出来作为该文本的关键词,然而这种方法并没有考虑到词语在文本中的分布情况。本申请还可基于词语在文本中的分布情况来确定关键词的初始权重,即:如果一个词在文本中具有较高的出现频率并且该词在文本中的分布较均匀,则将该词划分为文本的关键词,否则该词不为文本的关键词。
在本可选的实施方式中,所述步骤S22,包括:遍历抽取的文本关键词集合,如果当前词存在于所述电子文档所属领域特征词词典中,则增加该关键词的权重;否则,就不增加该关键词的权重;
对标题进行切分,得到标题词集合,遍历抽取的文本关键词集合,如果当前词存在于标题词集合中,则增加该关键词的权重,否则,就不增加该关键词的权重。
在本可选的实施方式中,步骤S23中对文本关键词权重进行优化的计算公式为:
P(W)=F(W)*log(S/Sf)*C(W)*T(W)
其中C(W)是所述电子文档所属领域特征词词典的优化因子,T(W)是标题的优化因子。
所述文本中所有句子的初始权重的计算方式为:
PS(Sj)=∑PW(Wji)/L(Sj)
其中PS(Sj)为句子Sj的权重,∑PW(Wji)为句子Sj中关键词的权重之和,L(Sj)是句子Sj中包含的词条的个数。
在本申请实施例中,单纯的基于词语的分布情况来提取关键词,难以避免会提取到一些与本领域无关的噪音词,并且忽略了某些低频词对文档的影响,特别是出现在标题中的低频词,往往对文档有重要的影响。对此,本申请提出使用领域特征词词典和标题信息对文本中的关键词的权重进行优化。
在本可选的实施方式中,步骤S23中,所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化,包括:对文本中的初始关键句子进行扫描,如果当前句子中包含新词,则给出现的新词赋予一定的权重,并将这些权重之和加到该句的权重中;对文本中首段末段所有句子,每段的段首句和段尾句进行加权。
在本可选的实施方式中,对所述句子的权重进行优化的计算公式为:
PS(Sj)=∑PW(Wji)/L(Sj)*N(Sj)*T(Sj)
其中N(Sj)表示所述电子文档所属领域新词词典的对加权因子,T(Sj)表示篇章结构的加权因子。
在本申请实施例中,考虑文本的篇章结构是为了从整体上对文本的内容进行把握,经过对领域内的文本进行分析后发现,文本中不同位置的句子,对文本有不同的影响,文本的首段末段往往是对文本中心思想的概括性阐述,文本中每段的段首句和段尾句往往是对该段的中心思想进行概括性的描述,进而间接反映着文本的中心思想。因此,本申请对文本中首段末段所有句子,每段的段首句和段尾句进行了上述加权。
在本可选的实施方式中,所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类,包括:计算各目标标引词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号。
在本申请实施例中,学科相似分类号可由本领域技术人员根据实际分类需要自行确定,例如,可以为中图-学科分类号、专利分类号等等,本申请对此不作限定。
实施例二
请参阅图2,图2是本申请实施例公开的一种基于自动摘要的文本分类系统的结构示意图。如图2所示,本申请实施例的一种基于自动摘要的文本分类系统,所述系统包括接收模块、处理器和标引模块:
所述接收模块,用于接收需要进行标引的电子文档数据,并传输给处理器;
所述处理器,用于接收所述接收模块传输的电子文档数据,对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
所述标引模块,用于基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
在本申请实施例中,本申请采用自动摘要生成算法快速的获取输入的电子文档的摘要,然后再基于获取的摘要中的分词的词频确定出目标标引词,并基于目标标引词最终实现对该电子文档的自动快速分类,有效解决了现有技术中人工标引所存在的效率低、易出错的问题,而且还可实现数据自动标引的准确与高效的良好平衡。
实施例三
请参阅图3,图3是本申请实施例公开的一种基于自动摘要的文本分类设备的结构示意图。如图3所示,本申请实施例的基于自动摘要的文本分类设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如第一实施例所述的文本分类方法。
实施例四
本申请实施例提供一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如第一实施例所述的文本分类方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于自动摘要的文本分类方法,应用于电子设备,其特征在于:所述方法包括:
S1、处理器接收需要进行标引的电子文档数据;
S2、所述处理器对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;
S3、基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
S4、标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
2.根据权利要求1所述的方法,其特征在于:所述步骤S2中的调动自动摘要生成算法生成对应的摘要,包括:
S21、提取单篇电子文档数据的所有词语并进行统计分析;
S22、根据词语的词频分布信息获取关键词集合,使用所述电子文档所属领域特征词词典和标题确定文本关键词的权重;
S23、计算文本中所有句子的初始权重,使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化;
S24、根据句子的最终权重进行排序,筛选出权重较高的关键句集合,按原文的顺序输出摘要。
3.根据权利要求2所述的方法,其特征在于:所述步骤S22,包括:遍历抽取的文本关键词集合,如果当前词存在于所述电子文档所属领域特征词词典中,则增加该关键词的权重;否则,就不增加该关键词的权重;
对标题进行切分,得到标题词集合,遍历抽取的文本关键词集合,如果当前词存在于标题词集合中,那么就增加该关键词的权重,否则,就不增加该关键词的权重。
4.根据权利要求2所述的方法,其特征在于:步骤S23中对文本关键词权重进行优化的计算公式为:
P(W)=F(W)*log(S/Sf)*C(W)*T(W)
其中C(W)是所述电子文档所属领域特征词词典的优化因子,T(W)是标题的优化因子;
所述文本中所有句子的初始权重的计算方式为:
PS(Sj)=∑PW(Wji)/L(Sj)
其中PS(Sj)为句子Sj的权重,∑PW(Wji)为句子Sj中关键词的权重之和,L(Sj)是句子Sj中包含的词条的个数。
5.根据权利要求1所述的方法,其特征在于:步骤S23中,所述使用所述电子文档所属领域新词词典和篇章结构信息对文本中的句子的权重进行优化,包括:对文本中的初始关键句子进行扫描,如果当前句子中包含新词,则给出现的新词赋予一定的权重,并将这些权重之和加到该句的权重中;对文本中首段末段所有句子,每段的段首句和段尾句进行加权。
6.根据权利要求1所述的方法,其特征在于:对所述句子的权重进行优化的计算公式为:
PS(Sj)=∑PW(Wji)/L(Sj)*N(Sj)*T(Sj)
其中N(Sj)表示所述电子文档所属领域新词词典的对加权因子,T(Sj)表示篇章结构的加权因子。
7.根据权利要求1所述的方法,其特征在于:所述步骤S4中标引模块基于所述目标标引词对所述电子文档进行标引,从而实现文本分类,包括:计算各目标标引词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号。
8.一种基于自动摘要的文本分类系统,其特征在于:所述系统包括接收模块、处理器和标引模块:
所述接收模块,用于接收需要进行标引的电子文档数据,并传输给处理器;
所述处理器,用于接收所述接收模块传输的电子文档数据,对所述电子文档数据进行分词处理,并调动自动摘要生成算法生成对应的摘要;基于所述摘要中对应分词在所述电子文档中的词频对所述摘要中的分词进行排序,选择排序前N个的分词作为目标标引词;
所述标引模块,用于基于所述目标标引词对所述电子文档进行标引,从而实现文本分类。
9.一种文本分类设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的文本分类方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的文本分类方法。
CN202011138198.1A 2020-10-22 2020-10-22 基于自动摘要的文本分类方法、系统及计算机存储介质 Pending CN112307205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011138198.1A CN112307205A (zh) 2020-10-22 2020-10-22 基于自动摘要的文本分类方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011138198.1A CN112307205A (zh) 2020-10-22 2020-10-22 基于自动摘要的文本分类方法、系统及计算机存储介质

Publications (1)

Publication Number Publication Date
CN112307205A true CN112307205A (zh) 2021-02-02

Family

ID=74326767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011138198.1A Pending CN112307205A (zh) 2020-10-22 2020-10-22 基于自动摘要的文本分类方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112307205A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706974A (zh) * 2021-09-18 2022-07-05 北京墨丘科技有限公司 一种技术问题信息挖掘方法、装置与存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索系统
CN108563786A (zh) * 2018-04-26 2018-09-21 腾讯科技(深圳)有限公司 文本分类和展示方法、装置、计算机设备及存储介质
US20190034718A1 (en) * 2017-07-27 2019-01-31 Celant Innovations, LLC Method and apparatus for analyzing defined terms in a document
CN109446321A (zh) * 2018-10-11 2019-03-08 深圳前海达闼云端智能科技有限公司 一种文本分类方法、装置、终端及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243130A (zh) * 2015-09-29 2016-01-13 中国电子科技集团公司第三十二研究所 面向数据挖掘的文本处理系统及方法
CN106599041A (zh) * 2016-11-07 2017-04-26 中国电子科技集团公司第三十二研究所 基于大数据平台的文本处理及检索系统
US20190034718A1 (en) * 2017-07-27 2019-01-31 Celant Innovations, LLC Method and apparatus for analyzing defined terms in a document
CN108563786A (zh) * 2018-04-26 2018-09-21 腾讯科技(深圳)有限公司 文本分类和展示方法、装置、计算机设备及存储介质
CN109446321A (zh) * 2018-10-11 2019-03-08 深圳前海达闼云端智能科技有限公司 一种文本分类方法、装置、终端及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706974A (zh) * 2021-09-18 2022-07-05 北京墨丘科技有限公司 一种技术问题信息挖掘方法、装置与存储介质

Similar Documents

Publication Publication Date Title
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN106095753B (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
CN113806483B (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN111324705B (zh) 自适应性调整关联搜索词的系统及其方法
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN112417101B (zh) 一种关键词提取的方法及相关装置
CN112307205A (zh) 基于自动摘要的文本分类方法、系统及计算机存储介质
US20030126138A1 (en) Computer-implemented column mapping system and method
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN111625619B (zh) 查询省略方法、装置、计算机可读介质及电子设备
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
CN115587163A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
CN114297449A (zh) 内容查找方法、装置、电子设备及计算机可读介质及产品
CN113128231A (zh) 一种数据质检方法、装置、存储介质和电子设备
CN112632229A (zh) 文本聚类方法及装置
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210202

WD01 Invention patent application deemed withdrawn after publication