CN115062151A - 一种文本特征提取方法、文本分类方法及可读存储介质 - Google Patents

一种文本特征提取方法、文本分类方法及可读存储介质 Download PDF

Info

Publication number
CN115062151A
CN115062151A CN202210754039.7A CN202210754039A CN115062151A CN 115062151 A CN115062151 A CN 115062151A CN 202210754039 A CN202210754039 A CN 202210754039A CN 115062151 A CN115062151 A CN 115062151A
Authority
CN
China
Prior art keywords
text
word
feature
words
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210754039.7A
Other languages
English (en)
Inventor
田尊明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Changan Automobile Co Ltd
Original Assignee
Chongqing Changan Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Changan Automobile Co Ltd filed Critical Chongqing Changan Automobile Co Ltd
Priority to CN202210754039.7A priority Critical patent/CN115062151A/zh
Publication of CN115062151A publication Critical patent/CN115062151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本特征提取方法、文本分类方法及可读存储介质,该文本特征提取方法,在TF‑IDF算法基础上,对分词前的文本预处理流程进行改进,包括语法纠错、实体词提取、句法依存关系分析、同义词表述一致性处理等,并在TF‑IDF的计算中引入依存关系因子参与对文本句子中重点特征词的加权计算,优化了重点特征词的重要性排名,同时并没有直接通过TF‑IDF值来表征特征词的重要性权重,而是对TF‑IDF值加以归一化转换计算为重要性占比来表征权重,解决了不同文本的特征词体量、长短句数量可能存在较大差异的问题,更好的保证了文本特征词提取的均衡性,使得提取的文本特征应用于文本问题分类应用中的分类客观性和准确性效果能够得到提升。

Description

一种文本特征提取方法、文本分类方法及可读存储介质
技术领域
本发明涉及文本信息提取技术领域,具体涉及一种文本特征提取方法、文本分类方法及可读存储介质。
背景技术
在汽车领域向智能智造转型的大背景下,汽车制造、生产、销售、售后等环节也逐步建立了相对完善的数据存储、管理和应用的体系。但文本类信息,受限于业务领域多样,知识产生的场景多样,难以统一形成结构化的数据,现多以文档的形式提取,这也为该类信息的统计分析和信息提取带来困难。文本提取技术,则可以作为该类问题的一种有效解决方案。
TF-IDF算法是文本提取技术领域的一种经典方法,结合词频TF和逆文本频率IDF来计算特征词在目标文档的重要性。但该方法主要依赖于词的频率分布,表达信息有限,因而在实际使用中,也会通过引入新的特征或调节参数,来优化性能。
基于TF-IDF算法的文本特征提取及文本分类问题在现有技术中已经有一定的技术研究积累。申请号为2016108941746的中国专利公开了“一种基于TF-IDF特征提取的短文本分类方法”,其通过将短文本合并成长文本增强短文本的TF-IDF特征,并降维生成特征词列表和特征词字典;同时在建立特征词列表时对特征相对不明显的类别建立补偿机制,并增强文本特征向量权重,从而在保证文本特征表达效果的前提下提升算法性能。申请号为202011521853.1的中国专利公开了“一种基于TF-IDF方法优化的新闻关键词提取方法”,其结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息进行权重调整,实现新闻数据分类准确性的提升。
但是,以上方法直接迁移到汽车领域的文本特征提取及分类问题中,会存在以下局限性:1)汽车领域的专有名词较多,可能在文本分词阶段发生错误;2)汽车领域的文本中广泛存在同义词的不同描述表达形式,从而影响同义词特征的词频统计;3)语法错误带来的错误分词,可能导致错误分词占据有较高权重,影响文本分类准确性;4)缺少与句法分析的结合,部分修饰语的权重可能高于核心词,影响文本分类准确性;5)不同文本包含的特征词体量、长短句数量等可能差异较大,从而导致不同文本的特征词的TF-IDF值大小可能出现较大差距,导致难以设置合适的TF-IDF阈值进行文本特征词的筛选,难以保证特征词提取的均衡性,对于文本分类也会带来不利影响。
发明内容
针对现有技术存在的上述不足,本发明需要解决的问题是:如何提供一种文本特征提取方法,使其能够对汽车领域的文本具备更好的重点特征词区分能力,以更好的保证对文本特征词提取的客观性和准确性。
为解决上述技术问题,本发明采用了如下的技术方案:
一种文本特征提取方法,包括如下步骤:
S1:获取文本,并对文本进行语法错误识别和语法纠正处理;
S2:对语法纠正处理后的文本进行实体词提取,并将提取的实体词收录至特征词典;
S3:利用特征词典对语法纠正处理后的文本进行依存句法分析和分词处理,获得分词的特征词汇以及特征词汇间的依存关系信息;
S4:对文本分词所得的特征词汇进行同义词搜索和同义词表述一致性处理;
S5:对同义词表述一致性处理后的文本的特征词汇进行词频分布统计及依存关系统计,进而计算各特征词汇的词频、逆文本频率指数和依存关系分布因子,作为特征词汇的词频分布参数;
S6:根据所述词频分布参数计算文本中各特征词汇的TF-IDF值,并基于所述TF-IDF值计算各特征词汇在文本中的重要性占比权重,将文本的各特征词汇进行重要性占比权重标记和排序后的集合,作为文本的特征向量加以输出。
上述文本特征提取方法中,作为优选,所述步骤S1具体为:
S1.1:对文本进行断句分割,并存储分割得到的各句子与文本的对应关系;
S1.2:采用经过预先训练的语法纠错模型,对文本各个句子分别进行语法错误识别和语法纠正处理,输出语法纠正处理后的文本。
上述文本特征提取方法中,作为优选,所述步骤S2具体为:
S2.1:将语法纠正处理后的文本拆分为单字序列后进行词向量化处理,获取文本的单字词向量特征;
S2.2:将所述文本的单字词向量特征作为经过预先训练的实体词边界识别模型的输入,进行文本的实体词边界识别和标记处理;
S2.3:根据识别标记的实体词边界,提取文本中的实体词,收录至特征词典。
上述文本特征提取方法中,作为优选,所述步骤S3具体为:
S3.1:将所述特征词典导入至语言分词工具,作为语言分词工具的词库;
S3.2:使用语言分词工具对语法纠正处理后的文本进行依存句法分析和分词处理,获得分词的特征词汇以及特征词汇间的依存关系信息。
上述文本特征提取方法中,作为优选,所述步骤5具体为:
S5.1:统计文本中分词所得的特征词汇总数以及每个特征词汇出现的次数,计算每个特征词汇的词频TF值;
S5.2:统计文本总数以及包含每个特征词汇的文本数量,计算每个特征词汇的逆文本频率指数IDF值;
S5.3:根据特征词汇间的依存关系信息,统计依存关系的总次数以及每个特征词汇在依存关系中出现的次数,计算每个特征词汇的依存关系分布因子:
Figure BDA0003719157840000031
其中,αi表示任意第i个特征词汇的依存关系分布因子,i∈{1,2,…,K},K表示文本中分词所得的特征词汇总数;ni,c表示任意第i个特征词汇在文本的主谓依存关系及动宾依存关系中出现次数,ni,o表示任意第i个特征词汇在文本的其它依存关系中出现的次数;Nc表示文本中主谓依存关系及动宾依存关系出现的总次数,No表示文本中其它依存关系出现的总次数。
上述文本特征提取方法中,作为优选,所述步骤S6中具体为:
S6.1:根据所述词频分布参数计算文本中各特征词汇的TF-IDF值;其中,任意第i个特征词汇的TF-IDF值按如下方式计算:
TF-IDFi=TFi,j×IDFi×αi
其中,TF-IDFi表示任意第i个特征词汇的TF-IDF值,i∈{1,2,…,K},K表示文本中分词所得的特征词汇总数;TFi表示任意第i个特征词汇在当前文本j中的词频TF值;IDFi表示任意第i个特征词汇的逆文本频率指数IDF值;αi表示任意第i个特征词汇的依存关系分布因子;
S6.2:计算所述TF-IDF值的归一化指数值,作为特征词汇在文本中的重要性占比权重;其中,任意第i个特征词汇的重要性占比权重按如下方式计算:
Figure BDA0003719157840000032
其中,TF-IDFpi表示任意第i个特征词汇的重要性占比权重;e为自然常数;
S6.3:提取文本中重要性占比权重达到预设重要性占比阈值的特征词汇并标记对应的重要性占比权重,将提取的各特征词汇按重要性占比权重由大到小的顺序进行排序后所得的集合,作为文本的特征向量加以输出。
相应的,本发明还提供了一种文本分类方法,包括如下步骤:
步骤A:获取待分类文本,采用上述的文本特征提取方法对待分类文本进行特征词提取,得到待分类文本的特征向量;
步骤B:将待分类文本的特征向量输入经过文本分类训练的textCNN模型中,输出待分类文本的类别预测结果。
上述的文本分类方法中,作为优选,所述textCNN模型通过如下步骤的文本分类训练获得:
步骤b1:从文本数据库获取样本文本数据集,所述取样本文本数据集包含多个已标注有分类标签的样本文本;
步骤b2:采用权利要求1~6中任一项所述的文本特征提取方法分别提取样本文本数据集中各样本文本的特征向量;
步骤b3:从本文本数据集中选取训练样本和测试样本,分别构成训练样本集和测试样本集;
步骤b4:将训练样本集中各样本文本的特征向量作为textCNN模型的输入,并采用训练样本集中各样本文本的分类标签作为输出验证标签,对textCNN模型进行分类预测训练,用以调整textCNN模型的文本分类参数;
步骤b5:将测试样本集中各样本文本的特征向量输入至textCNN模型进行分类预测,并采用测试样本集中各样本文本的分类标签作为输出验证标签,对textCNN模型的分类预测结果进行对比验证,评估textCNN模型的分类预测性能;
步骤b6:若textCNN模型的分类预测性能未达到预设目标,则返回执行步骤b4;若textCNN模型的分类预测性能达到预设目标,则完成训练,得到经过文本分类训练的textCNN模型。
上述的文本分类方法中,作为优选,所述步骤b3中,选取训练样本和测试样本的文本数量比例为8:2,选取方式为随机选取。
本发明还公开了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明所述的文本分类方法的步骤。
相比于现有技术,本发明的有益效果在于:
本发明的文本特征提取方法,在TF-IDF算法基础上,对分词前的文本预处理流程进行改进,包括语法纠错、实体词提取、句法依存关系分析、同义词表述一致性处理等,并在TF-IDF的计算中引入依存关系因子参与对文本句子中重点特征词的加权计算,优化了重点特征词的重要性排名,同时并没有直接通过TF-IDF值来表征特征词的重要性权重,而是对TF-IDF值加以归一化转换计算为重要性占比来表征权重,解决了不同文本的特征词体量、长短句数量可能存在较大差异的问题,更好的保证了文本特征词提取的均衡性,使得提取的文本特征应用于文本问题分类应用中的分类客观性和准确性效果能够得到提升。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1是本发明文本特征提取方法的流程图;
图2是本发明文本特征提取方法的一个实施应用流程的流程示意图;
图3是本发明文本分类方法的流程图;
图4是本发明文本分类方法中应用的textCNN模型的训练与发布的流程示意图;
图5是实施本发明文本分类方法一个技术实施架构结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜的。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例一:
针对现有的文本特征提取技术对于汽车领域的文本特征提取应用所存在的局限性,本发明提供了一种文本特征提取方法。在介绍本发明文本特征提取方法之前,要先介绍TF-IDF算法,其是现有技术中成熟和常用的文本特征提取方法,也是本发明方法的基础。
TF-IDF(term frequency–inverse document frequency),词频-逆向文件频率是一种用于信息检索与文本提取的常用加权技术。采用统计的方法,评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性与它在文件中出现的次数成正比增加,与它在语料库中出现的频率成反比下降。如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
词频TF表示特征词在文本中出现的频率。为了防止词频偏向长的文件,TF值通常会被归一化,将词频除以文章总词数,如公式1:
Figure BDA0003719157840000061
其中,TFi,j是词i在文件j中的词频TF值,ni,j是出现的次数,分母则是文件j中所有词汇出现的次数总和;
逆文本频率指数IDF可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如公式2:
Figure BDA0003719157840000062
其中,IDFi是词语i的逆文本频率指数IDF值,N是语料库中的文件总数,ni表示包含词语i的文件数目。
TF-IDF实际上是:TF*IDF,当特征词在文件内频率较高,且该词语在整个文件集合中的文件频率较低,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。公式3:
Figure BDA0003719157840000071
以上是TF-IDF算法。
本发明的文本特征提取方法如图1所示,包括如下步骤:
S1:获取文本,并对文本进行语法错误识别和语法纠正处理;
S2:对语法纠正处理后的文本进行实体词提取,并将提取的实体词收录至特征词典;
S3:利用特征词典对语法纠正处理后的文本进行依存句法分析和分词处理,获得分词的特征词汇以及特征词汇间的依存关系信息;
S4:对文本分词所得的特征词汇进行同义词搜索和同义词表述一致性处理;
S5:对同义词表述一致性处理后的文本的特征词汇进行词频分布统计及依存关系统计,进而计算各特征词汇的词频、逆文本频率指数和依存关系分布因子,作为特征词汇的词频分布参数;
S6:根据所述词频分布参数计算文本中各特征词汇的TF-IDF值,并基于所述TF-IDF值计算各特征词汇在文本中的重要性占比权重,将文本的各特征词汇进行重要性占比权重标记和排序后的集合,作为文本的特征向量加以输出。
需要说明的是,本发明中文本特征提取方法可通过程序编程的方式生对应的成软件代码或软件服务,进而能够在服务器和计算机上运行和实施。
本发明的文本特征提取方法,在TF-IDF算法基础上,对分词前的文本预处理流程进行改进,包括语法纠错、实体词提取、句法依存关系分析、同义词表述一致性处理等,并在TF-IDF的计算中引入依存关系因子参与对文本句子中重点特征词的加权计算,优化了重点特征词的重要性排名,同时并没有直接通过TF-IDF值来表征特征词的重要性权重,而是对TF-IDF值加以归一化转换计算为重要性占比来表征权重,解决了不同文本的特征词体量、长短句数量可能存在较大差异的问题,更好的保证了文本特征词提取的均衡性,使得提取的文本特征应用于文本问题分类应用中的分类客观性和准确性效果能够得到提升。
本发明文本特征提取方法中步骤S1具体为:
S1.1:对文本进行断句分割,并存储分割得到的各句子与文本的对应关系;
S1.2:采用经过预先训练的语法纠错模型,对文本各个句子分别进行语法错误识别和语法纠正处理,输出语法纠正处理后的文本。
具体应用实施中,可对文本按句号“。”进行句子分割,作为下游任务的输入。分割得到的每个句子与文本的对应关系存储在Mysql库(关系型数据库管理系统),下游任务会再次用到。所使用的语法纠错模型可以采用pycorrector软件等语法纠错模型工具,要用到的所有词典从Redis(远程字典服务)加载;同音字典,内容包含每个字在词典中同音同调和同音异调的候选集;加载形近字典,内容包括每个字在词典中有共同偏旁部首的候选集;加载混淆词典,内容包括已发现的错误词和正确词对应的数据集。分词模型和纠错模型均采用chinesebert模块中的预训练模型;pycorrector工具包中corrector函数,可依次加载相关词典和预训模型,完成句子的分词,错误识别,错误候选集的排序,输出纠错后结果,即得到语法纠正处理后的文本。
本发明文本特征提取方法中步骤S2具体为:
S2.1:将语法纠正处理后的文本拆分为单字序列后进行词向量化处理,获取文本的单字词向量特征;
S2.2:将所述文本的单字词向量特征作为经过预先训练的实体词边界识别模型的输入,进行文本的实体词边界识别和标记处理;
S2.3:根据识别标记的实体词边界,提取文本中的实体词,收录至特征词典。
具体应用实施中,对步骤S1采用pycorrector语法纠错工具完成语法纠错后的文本,拆分为单字的序列,每个字通过调用Hbase(一个分布式的、面向列的开源数据库)存储的词向量模型,完成向量化的特征输入;加载预训练的Bi-LSTM(双向长短期记忆网络)和CRF模型(条件随机场模型),对字向量列表,进行BIO的序列预测,B代表实体词的起始字,I表示实体词的中间字,O代表其他字,作为实体词的边界;标注为BI的词,如果不在自定义词典中,则补充加入至特征词典。
本发明文本特征提取方法中步骤S3具体为:
S3.1:将所述特征词典导入至语言分词工具,作为语言分词工具的词库;
S3.2:使用语言分词工具对语法纠正处理后的文本进行依存句法分析和分词处理,获得分词的特征词汇以及特征词汇间的依存关系信息。
具体应用实施中,可采用Hanlp工具(汉语言处理工具包)的CustomDictionaryadd方式导入自定义词;可采用Hanlp工具的JClass模块,可以加载依存句法分析模型,直接计算句子的分词,以及各分词之间的依存关系。
本发明文本特征提取方法的步骤S4,在具体应用实施中,导入同义词表,同义词表收录了通用的具有同义关系,或者中英文缩写等语义等价的词对;根据同义词表,对的文本分词处理所得的分词列表进行遍历同义词搜索,将搜索命中的同义词替换为同义词表中的标准词,实现同义词的表述一致性。
本发明文本特征提取方法中步骤S5具体为:
S5.1:统计文本中分词所得的特征词汇总数以及每个特征词汇出现的次数,计算每个特征词汇的词频TF值;
S5.2:统计文本总数以及包含每个特征词汇的文本数量,计算每个特征词汇的逆文本频率指数IDF值;
S5.3:根据特征词汇间的依存关系信息,统计依存关系的总次数以及每个特征词汇在依存关系中出现的次数,计算每个特征词汇的依存关系分布因子。
文本特征词的词频TF值、逆文本频率指数IDF值的计算为成熟技术,此前已进行了介绍。依存句法分析(Dependency Parsing,DP)通过分析语言单位内成分之间的依存关系,揭示其句法结构。直观来讲,就是分析句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分的关系。依存句法认为“谓词”中的动词是一个句子的核心,其他成分与动词直接或者间接的产生联系。因而处于“主谓”、“动宾”依存关系中的词语通常在句子语义表达上,具有重要意义。而依存关系越多,也一定程度代表该词在句子中具有重要作用。据此,提出依存关系因子的计算思路,如公式4:
Figure BDA0003719157840000091
其中,αi表示任意第i个特征词汇的依存关系分布因子,i∈{1,2,…,K},K表示文本中分词所得的特征词汇总数;ni,c表示任意第i个特征词汇在文本的主谓依存关系及动宾依存关系中出现次数,ni,o表示任意第i个特征词汇在文本的其它依存关系中出现的次数;Nc表示文本中主谓依存关系及动宾依存关系出现的总次数,No表示文本中其它依存关系出现的总次数。
具体应用实施中,遍历文本的分词列表,以字典的形式,存入分词为键,累计频次为值,最后统一除以分词总数,更新各值,获得文本对应的特征词与TF值的查询字典。遍历全部文本的分词,以字典的形式,存入分词为键,每个文章的循环出现过特征词,则累加1次,重复出现不计,最后统一用文章总数除以键值,求自然对数,获得特征词在各文档中的IDF值。遍历文本的依存关系列表,以字典的形式,存入分词为键,累计在依存关系中出现的频次,其中主谓、动宾关系频次*2,其余关系*1,最后统一除以加权后的总频次,获得文本对应的特征词与依存关系因子的查询字典。
本发明文本特征提取方法中步骤S6具体为:
S6.1:根据所述词频分布参数计算文本中各特征词汇的TF-IDF值;其中,任意第i个特征词汇的TF-IDF值按如下方式计算,如公式5:
TF-IDFi=TFi,j×IDFi×αi
其中,TF-IDFi表示任意第i个特征词汇的TF-IDF值,i∈{1,2,…,K},K表示文本中分词所得的特征词汇总数;TFi表示任意第i个特征词汇在当前文本j中的词频TF值;IDFi表示任意第i个特征词汇的逆文本频率指数IDF值;αi表示任意第i个特征词汇的依存关系分布因子;
S6.2:计算所述TF-IDF值的归一化指数值,作为特征词汇在文本中的重要性占比权重;
由于TF-IDFi值在不同文本间差异较大,为了便于通过一个统一的阈值筛选文本间的特征词,采用归一化指数函数softmax的思想,对文本内的TF-IDFi值进行转换,映射到[0,1]的区间,转化为占比的概念,这样文本内特征TF-IDFi值的总和为1。这样便于以占比的阈值或者累计占比的阈值,进行文件集整体特征词的筛选,也避免因句子长短不同,取相同数据特征词引起不平衡的弊端。因此,本实施例中,任意第i个特征词汇的重要性占比权重按如下计算逻辑计算,如公式6:
Figure BDA0003719157840000101
其中,TF-IDFpi表示任意第i个特征词汇的重要性占比权重;e为自然常数;
S6.3:提取文本中重要性占比权重达到预设重要性占比阈值的特征词汇并标记对应的重要性占比权重,将提取的各特征词汇按重要性占比权重由大到小的顺序进行排序后所得的集合,作为文本的特征向量加以输出。
总体而言,本发明的文本特征提取方法整体可以总结为文本预处理、特征统计、重要性计算几个环节,提取得到文本的特征向量,能够用以进行文本问题分类的一些核心应用,例如在汽车领域中常见的文本问题分类包括咨询问题、故障问题、任务指令、闲聊问题等,通过问题分类后的文本,就可以进一步应用于处理这些不同问题类型中的语义分析或大数据统计等工作任务中。其实施应用流程如图2所示。
实施例二:
基于对本发明文本特征提取方法的应用,针对于文本的问题分类问题,本发明也相应提出了一种文本分类方法,如图3所示,包括如下步骤:
步骤A:获取待分类文本,采用本发明上述的文本特征提取方法对待分类文本进行特征词提取,得到待分类文本的特征向量;
步骤B:将待分类文本的特征向量输入经过文本分类训练的textCNN模型中,输出待分类文本的类别预测结果。
待分类文本是指任意一个需要做问题分类的文本数据,通过文本特征提取到特征向量后,输入经过文本分类训练的textCNN模型进行问题分类预测,得到待分类文本的类别预测结果。textCNN模型通过如下步骤的文本分类训练获得:
步骤b1:从文本数据库获取样本文本数据集,所述取样本文本数据集包含多个已标注有分类标签的样本文本;
步骤b2:采用本发明上述的文本特征提取方法分别提取样本文本数据集中各样本文本的特征向量;
步骤b3:从本文本数据集中选取训练样本和测试样本,分别构成训练样本集和测试样本集;
步骤b4:将训练样本集中各样本文本的特征向量作为textCNN模型的输入,并采用训练样本集中各样本文本的分类标签作为输出验证标签,对textCNN模型进行分类预测训练,用以调整textCNN模型的文本分类参数;
步骤b5:将测试样本集中各样本文本的特征向量输入至textCNN模型进行分类预测,并采用测试样本集中各样本文本的分类标签作为输出验证标签,对textCNN模型的分类预测结果进行对比验证,评估textCNN模型的分类预测性能;
步骤b6:若textCNN模型的分类预测性能未达到预设目标,则返回执行步骤b4;若textCNN模型的分类预测性能达到预设目标,则完成训练,得到经过文本分类训练的textCNN模型。
具体应用实施中,训练得到的textCNN模型可进行对外发布,用以通过模型计算对待分类文本进行问题分类预测应用,并且在应用过程中还可以对textCNN模型的分类性能进行监控和再训练,以持续的保持和提升其分类效果。textCNN模型的训练和发布流程如图4所示。已完成问题分类标注的文本数据集样本,指的是,对每一条文本样本,进行咨询问题、故障问题、任务指令问题以及闲聊问题打标签的过程,该标签结果作为问题分类任务的目标变量;样本文本的特征向量提取,主要依赖本发明上述的文本特征提取方法来进行,预设重要性占比阈值的初始值可以设置为50%,在后续的训练过程中,也会根据模型性能评估结果,对重要性占比阈值进行优化调整。在textCNN模型的训练过程中,选取训练样本和测试样本的文本数量比例可设计为8:2,选取方式可设计为随机选取;每条样本文本的特征词,会依次调用Hbase里的词向量数据集,获得分词的词向量;由于输入特征词的数量不定,此处会采取padding的方式,进行长切短填,保证输入模型的特征形状一致;采用textCNN模型框架,对数据集进行学习,以最佳验证集最小的loss,选择最佳模型,然后对测试集进行预测,基于指标评估性能是否达到预设的业务目标;如未达到预设业务目标,可对过程中的参数进行调整,重复执行训练步骤,直至性能达到预设目标;达到预设业务目标后,可以对textCNN模型进行在线发布;具体实施中,利可用分布式的模型部署平台,进行模型分布发布,可以对外提供接口服务。
如上所述,本发明通过增加TF-IDF计算前的预处理流程,提升了分词的准确性,从依存句法分析的角度,进一步提高了核心词的权重,提出了一种改进后的TF-IDF的计算方式,并以问题分类任务为实例,提供了重点问题提取后的应用场景。
本发明的文本分类方法,可以通过程序编程的方式生对应的成软件代码或软件服务,进而能够在服务器和计算机上运行和实施;如图5所示,其技术实施框架可以包含如下的几个部分:
硬件层:包含云服务、CPU处理器和GPU处理器等计算引擎、中间件,负责环境和运算资源的支撑;
数据层:包含Mysql、HDFS、Hbase、Redis等工具,分别负责关系数据、文本文件存储、大规模词向量、缓存数据的存储等任务;
计算层:包含Hanlp、pycorrector、chinesebert、Bi-LSTM、TF-IDF算法模型、textCNN模型等工具,负责模型和工具模块的加载与计算等任务;
应用层:以问题分类示例,支持问题类别的预测。
硬件层负责环境和运算资源支持,其中云服务采用的腾讯云,CPU处理器资源支持基础的逻辑计算和指标计算,GPU处理器资源支持深度神经网络的运算;存储层负责索引、关系、文本文件、缓存数据、大规模词向量数据的存储,其中Mysql存储结构化文本数据、字段信息、映射关系等,HDFS(Hadoop分布式文件系统)存储大量的文本文件,Redis缓存等信息,hbase存储腾讯800万级词向量数据;计算层负责工具和模型的加载及运算,其中Hanlp工具参与分词与句法分析、pycorrector工具结合chinesebert模型参与语法纠错、Bi-LSTM模型参与命名实体识别、textCNN模型参与问题分类;应用层:支撑具体业务问题,本发明过程以问题分类示例,支撑汽车领域的咨询问题、故障问题、任务指令、闲聊问题等问题类别预测的业务需求。
实施例三:
本实施例中公开了一种可读存储介质。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明的文本分类方法的步骤。可读存储介质可以是U盘或计算机等具有可读存储功能的设备。
综上所述,本发明的文本特征提取方法和文本分类方法具有如下的有益效果:
1、本发明文本特征提取方法对TF-IDF计算中,影响因素较大的分词错误问题,提出了具体的预处理方案,提高了分词准确性;
2、本发明文本特征提取方法对TF-IDF计算中,过于依赖词的频率分布,信息表达能力有限,提出了引入依存关系因子,提升了句子中核心词的权重,缓解了非核心词TF-IDF值可能过大的问题;
3、本发明文本特征提取方法对TF-IDF计算中,TF-IDF为绝对值难以从业务上划分阈值加以利用,提出softmax处理的方式,将绝对值转化为占比,提高了业务上使用的灵活性;
4、本发明对TF-IDF计算后,提取的重要文本的进一步验证和应用,提供了一种文本分类方法,使得提取的文本特征应用于文本问题分类应用中的分类客观性和准确性效果能够得到提升。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (10)

1.一种文本特征提取方法,其特征在于,包括如下步骤:
S1:获取文本,并对文本进行语法错误识别和语法纠正处理;
S2:对语法纠正处理后的文本进行实体词提取,并将提取的实体词收录至特征词典;
S3:利用特征词典对语法纠正处理后的文本进行依存句法分析和分词处理,获得分词的特征词汇以及特征词汇间的依存关系信息;
S4:对文本分词所得的特征词汇进行同义词搜索和同义词表述一致性处理;
S5:对同义词表述一致性处理后的文本的特征词汇进行词频分布统计及依存关系统计,进而计算各特征词汇的词频、逆文本频率指数和依存关系分布因子,作为特征词汇的词频分布参数;
S6:根据所述词频分布参数计算文本中各特征词汇的TF-IDF值,并基于所述TF-IDF值计算各特征词汇在文本中的重要性占比权重,将文本的各特征词汇进行重要性占比权重标记和排序后的集合,作为文本的特征向量加以输出。
2.根据权利要求1所述文本特征提取方法,其特征在于,所述步骤S1具体为:
S1.1:对文本进行断句分割,并存储分割得到的各句子与文本的对应关系;
S1.2:采用经过预先训练的语法纠错模型,对文本各个句子分别进行语法错误识别和语法纠正处理,输出语法纠正处理后的文本。
3.根据权利要求1所述文本特征提取方法,其特征在于,所述步骤S2具体为:
S2.1:将语法纠正处理后的文本拆分为单字序列后进行词向量化处理,获取文本的单字词向量特征;
S2.2:将所述文本的单字词向量特征作为经过预先训练的实体词边界识别模型的输入,进行文本的实体词边界识别和标记处理;
S2.3:根据识别标记的实体词边界,提取文本中的实体词,收录至特征词典。
4.根据权利要求1所述文本特征提取方法,其特征在于,所述步骤S3具体为:
S3.1:将所述特征词典导入至语言分词工具,作为语言分词工具的词库;
S3.2:使用语言分词工具对语法纠正处理后的文本进行依存句法分析和分词处理,获得分词的特征词汇以及特征词汇间的依存关系信息。
5.根据权利要求1所述文本特征提取方法,其特征在于,所述步骤5具体为:
S5.1:统计文本中分词所得的特征词汇总数以及每个特征词汇出现的次数,计算每个特征词汇的词频TF值;
S5.2:统计文本总数以及包含每个特征词汇的文本数量,计算每个特征词汇的逆文本频率指数IDF值;
S5.3:根据特征词汇间的依存关系信息,统计依存关系的总次数以及每个特征词汇在依存关系中出现的次数,计算每个特征词汇的依存关系分布因子:
Figure FDA0003719157830000021
其中,αi表示任意第i个特征词汇的依存关系分布因子,i∈{1,2,…,K},K表示文本中分词所得的特征词汇总数;ni,c表示任意第i个特征词汇在文本的主谓依存关系及动宾依存关系中出现次数,ni,o表示任意第i个特征词汇在文本的其它依存关系中出现的次数;Nc表示文本中主谓依存关系及动宾依存关系出现的总次数,No表示文本中其它依存关系出现的总次数。
6.根据权利要求5所述文本特征提取方法,其特征在于,所述步骤S6中具体为:
S6.1:根据所述词频分布参数计算文本中各特征词汇的TF-IDF值;其中,任意第i个特征词汇的TF-IDF值按如下方式计算:
TF-IDFi=TFi,j×IDFi×αi
其中,TF-IDFi表示任意第i个特征词汇的TF-IDF值,i∈{1,2,…,K},K表示文本中分词所得的特征词汇总数;TFi表示任意第i个特征词汇在当前文本j中的词频TF值;IDFi表示任意第i个特征词汇的逆文本频率指数IDF值;αi表示任意第i个特征词汇的依存关系分布因子;
S6.2:计算所述TF-IDF值的归一化指数值,作为特征词汇在文本中的重要性占比权重;其中,任意第i个特征词汇的重要性占比权重按如下方式计算:
Figure FDA0003719157830000022
其中,TF-IDFpi表示任意第i个特征词汇的重要性占比权重;e为自然常数;
S6.3:提取文本中重要性占比权重达到预设重要性占比阈值的特征词汇并标记对应的重要性占比权重,将提取的各特征词汇按重要性占比权重由大到小的顺序进行排序后所得的集合,作为文本的特征向量加以输出。
7.一种文本分类方法,其特征在于,包括如下步骤:
步骤A:获取待分类文本,采用权利要求1~6中任一项所述的文本特征提取方法对待分类文本进行特征词提取,得到待分类文本的特征向量;
步骤B:将待分类文本的特征向量输入经过文本分类训练的textCNN模型中,输出待分类文本的类别预测结果。
8.根据权利要求7所述的文本分类方法,其特征在于,所述textCNN模型通过如下步骤的文本分类训练获得:
步骤b1:从文本数据库获取样本文本数据集,所述取样本文本数据集包含多个已标注有分类标签的样本文本;
步骤b2:采用权利要求1~6中任一项所述的文本特征提取方法分别提取样本文本数据集中各样本文本的特征向量;
步骤b3:从本文本数据集中选取训练样本和测试样本,分别构成训练样本集和测试样本集;
步骤b4:将训练样本集中各样本文本的特征向量作为textCNN模型的输入,并采用训练样本集中各样本文本的分类标签作为输出验证标签,对textCNN模型进行分类预测训练,用以调整textCNN模型的文本分类参数;
步骤b5:将测试样本集中各样本文本的特征向量输入至textCNN模型进行分类预测,并采用测试样本集中各样本文本的分类标签作为输出验证标签,对textCNN模型的分类预测结果进行对比验证,评估textCNN模型的分类预测性能;
步骤b6:若textCNN模型的分类预测性能未达到预设目标,则返回执行步骤b4;若textCNN模型的分类预测性能达到预设目标,则完成训练,得到经过文本分类训练的textCNN模型。
9.根据权利要求7所述的文本分类方法,其特征在于,所述步骤b3中,选取训练样本和测试样本的文本数量比例为8:2,选取方式为随机选取。
10.一种可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求7~9任一项所述的文本分类方法的步骤。
CN202210754039.7A 2022-06-28 2022-06-28 一种文本特征提取方法、文本分类方法及可读存储介质 Pending CN115062151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210754039.7A CN115062151A (zh) 2022-06-28 2022-06-28 一种文本特征提取方法、文本分类方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210754039.7A CN115062151A (zh) 2022-06-28 2022-06-28 一种文本特征提取方法、文本分类方法及可读存储介质

Publications (1)

Publication Number Publication Date
CN115062151A true CN115062151A (zh) 2022-09-16

Family

ID=83203347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210754039.7A Pending CN115062151A (zh) 2022-06-28 2022-06-28 一种文本特征提取方法、文本分类方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN115062151A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522233A (zh) * 2023-07-03 2023-08-01 国网北京市电力公司 一种可研文档要点评审内容抽取分类方法及系统
CN116932767A (zh) * 2023-09-18 2023-10-24 江西农业大学 基于知识图谱的文本分类方法、系统、存储介质及计算机

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522233A (zh) * 2023-07-03 2023-08-01 国网北京市电力公司 一种可研文档要点评审内容抽取分类方法及系统
CN116932767A (zh) * 2023-09-18 2023-10-24 江西农业大学 基于知识图谱的文本分类方法、系统、存储介质及计算机
CN116932767B (zh) * 2023-09-18 2023-12-12 江西农业大学 基于知识图谱的文本分类方法、系统、存储介质及计算机

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
WO2021076606A1 (en) Conceptual, contextual, and semantic-based research system and method
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN115062151A (zh) 一种文本特征提取方法、文本分类方法及可读存储介质
CN111125334A (zh) 一种基于预训练的搜索问答系统
CN106708929B (zh) 视频节目的搜索方法和装置
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN110737839A (zh) 短文本的推荐方法、装置、介质及电子设备
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN108287848B (zh) 用于语义解析的方法和系统
CN111767738A (zh) 一种标签校验方法、装置、设备和存储介质
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
Kotenko et al. Evaluation of text classification techniques for inappropriate web content blocking
CN111859967A (zh) 实体识别方法、装置,电子设备
CN115809887A (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
Amalia et al. An efficient text classification using fasttext for bahasa indonesia documents classification
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN112862569B (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN117593089A (zh) 信用卡推荐方法、装置、设备、存储介质及程序产品
CN111597793B (zh) 基于sao-adv结构的论文创新性的测度方法
CN113297842A (zh) 文本数据增强方法
CN110348497B (zh) 一种基于WT-GloVe词向量构建的文本表示方法
CN111563361A (zh) 文本标签的提取方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination