CN113553844A - 一种基于前缀树特征与卷积神经网络的领域识别方法 - Google Patents

一种基于前缀树特征与卷积神经网络的领域识别方法 Download PDF

Info

Publication number
CN113553844A
CN113553844A CN202110917561.8A CN202110917561A CN113553844A CN 113553844 A CN113553844 A CN 113553844A CN 202110917561 A CN202110917561 A CN 202110917561A CN 113553844 A CN113553844 A CN 113553844A
Authority
CN
China
Prior art keywords
prefix tree
neural network
convolutional neural
field
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110917561.8A
Other languages
English (en)
Other versions
CN113553844B (zh
Inventor
刘光毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202110917561.8A priority Critical patent/CN113553844B/zh
Publication of CN113553844A publication Critical patent/CN113553844A/zh
Application granted granted Critical
Publication of CN113553844B publication Critical patent/CN113553844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理领域,公开了一种基于前缀树特征与卷积神经网络的领域识别方法,用以解决目前模型获取特征准确率不高,以及技术领域识别准确率不高的问题。本发明从用户请求、训练数据、测试数据中获取每一个分类中的明显领域特征的名词并以类为名字存为特征文本,以特征文本生成前缀树,输入请求文本后计算的出各领域权重矩阵作为前缀树特征,将前缀树获取特征与卷积特征图结合,输入卷积神经网络进行进一步计算,弥补了卷积神经网络可能遗漏特征或者关注到错误特征的情况,使模型对输入特征的判断更准确,提高模型预测的精确度。本发明适用于领域识别。

Description

一种基于前缀树特征与卷积神经网络的领域识别方法
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于前缀树特征与卷积神经网络的领域识别方法。
背景技术
意图识别是自然语言处理中的一个方向,常用的方法有:基于词典模板的规则分类、基于过往日志匹配(适用于搜索引擎)、基于分类模型进行意图识别。这三种方式基本上是目前比较主流的方法。基于词典的模板规则匹配通用性有限,当请求文本发生变化时(无法预测用户请求的说法),容易出现识别失误的情况。基于日志匹配的方法不适用于电视上语音交互系统。分类模型的方法难点主要是两点,一点是数据来源的匮乏,因为方法已经比较固定,基本都是有监督学习,需要很多的标记数据。第二点是尽管是分类工作,但是意图识别分类种类很多,并且要求的准确性,拓展性都不是之前的分类可比的,这一点也是很困难的。
目前有专门针对文本分类的文本卷积神经网络(textCNN)模型,在一般的中文文本上的分类表现情况很不错,但是依然存在获取特征准确率不高,以及技术领域识别准确率不高的问题。因为卷积神经网络模型在训练过程中,需要的训练集应该在各个领域的数据量尽可能的平衡,但是,第一,实际真实用户数据需要分为48个领域,其中VIDEO,TV,MUSIC等电视机常用领域的数据偏多,各个领域存在部分相似特征(如TV的“一键观影模式”和SMARTHOME的“观影模式”);第二,在构建数据的时候,可能会将某一部作品多次用于构建数据(如“大话西游”),则可能该作品名会被模型错误判断为特征,影响预测结果(如“大话西游”普遍存在VIDEO的数据中,请求“大话西游里的歌”时,容易预测到VIDEO分类,实际期望则为MUSIC);第三,卷积神经网络在获取特征时,可能会漏掉部分关键特征信息。
发明内容
本发明要解决的技术问题是:提出一种基于前缀树特征与卷积神经网络的领域识别方法,用以解决目前模型获取特征准确率不高,以及技术领域识别准确率不高的问题。
为解决上述问题,本发明采用的技术方案是:利用提前构建的前缀树对请求文本进行特征分析,得到相应的前缀树特征;当卷积神经网络对请求文本进行领域预测时,先将其中的卷积特征与所述前缀树特征拼接之后,再将拼接后的特征输入到卷积神经网络的全连接层,得到相应的预测结果。
进一步的,本发明构建前缀树的步骤包括:
根据tf-idf统计方法,从已有的数据中,获取各领域高频关键词,高频关键词经过筛选后,将筛选后的词汇作为构件前缀树的基础数据;将基础数据中领域高频关键词的每个字作为树的一个节点,按照正常的阅读顺序生成父节点-子节点-孙子节点的前缀树。
进一步的,所述已有的数据包括用户日志数据、训练数据和测试数据。
进一步的,本发明利用前缀树对请求文本进行特征分析,得到前缀树特征的具体步骤包括:
将请求文本全分词后,在前缀树中进行查询匹配,根据匹配到的关键词字符长度与文本字符长度的比值作为其所属领域的权重,标准化到0-1之间后,对其归一化处理,转化为矩阵,作为前缀树特征矩阵。
本发明的有益效果如下:本发明利用前缀树模型,对卷积神经网络(textCNN)卷积之后得到的特征值进行修正,弥补了卷积神经网络可能遗漏特征或者关注到错误特征的情况,使模型对输入特征的判断更准确,提高模型预测的精确度。
附图说明
图1为基于前缀树特征与卷积神经网络的领域识别流程图。
具体实施方式
本发明针对目前模型获取特征准确率不高,同时现有技术领域识别准确率不高的问题,提出了一种基于前缀树特征与卷积神经网络(textCNN)的领域识别方法,从用户请求、训练数据、测试数据中获取每一个分类中的明显领域特征的名词并以类为名字存为特征文本,以特征文本生成前缀树,输入请求文本后计算的出各领域权重矩阵作为前缀树特征,将前缀树获取特征与卷积特征图结合,输入卷积神经网络进行进一步计算,弥补了卷积神经网络可能遗漏特征或者关注到错误特征的情况,使模型对输入特征的判断更准确,提高模型预测的精确度。
为了详细阐述本发明的原理,下面分步骤对本发明的方案进行说明。本发明的一种实施步骤如下:
1.分析各领域请求,通过tf-idf方法提取各领域关键词,作为特征文本。
本发明主要从用户请求、训练数据、测试数据中获取,分析各领域的请求文本,通过tf-idf方法,获取各个领域的关键词,并且通过人工筛选,提取每一个分类中的明显领域特征的名词并以类为名字存为特征文本,生成前缀树的数据。
2.以特征文本为基础,构建前缀树。
本步骤所构建的前缀树(前缀树也称Trie树或Trie,一种哈希树的变种),树的父节点为各领域特征词,子节点为该特征词所在领域,如“我—想—听—MUSIC”,“我想听”是“MUSIC”领域的关键词,将其拆分为单字,“我”作为父节点,“想”是其子节点,依次推,最终的子节点便是该关键词所属领域“MUSIC”。
3.对请求文本特征分析,输出特征向量。
将请求文本全分词处理后得到全分词文本,将全分词文本输入前缀树,若无领域输出,则将特征向量设置为0向量(不影响本来特征),若有领域输出,根据匹配到的关键词字符长度与文本字符长度的比值作为其所属领域的权重,标准化到0-1之间后,对其归一化处理,转化为矩阵,作为前缀树特征矩阵。
4.前缀树特征向量与卷积后的特征向量拼接融合。
将步骤2中获得的特征矩阵,与经过卷积池化层之后的特征矩阵(原卷积神经网络经过卷积后得到的特征图)融合,得到新的特征矩阵,该矩阵包含了前缀树获取的特征,可以用以修正模型获取的特征值,使其更加关注某些重要部分
5.融合后的特征向量输入全连接层,通过softmax,得到预测结果。
实施例
下面将结合附图和实施例更详细地描述本发明的示例性实施方式。如图1所示,实施例中前缀树算法以及整体算法流程如下:
S1.生成前缀树数据:
根据tf-idf统计方法,从已有的用户日志数据、训练数据、测试数据中,获取领域高频关键词,经过人工筛选后,将词汇作为前缀树的数据。
S2构建前缀树,获取文本特征:
特征词(即领域高频关键词)全分词后,按阅读顺序依次构成树的父节点-子节点-孙子节点等,最终的子节点为该特征词所属领域。同时,请求文本全分词,如“我想看电影”,分为[“我”,“想”,“看”,“电”,“影”],依次到Trie中查找,得出各领域权重得分:W={ω123…ωn},其中n为领域个数,
Figure BDA0003206201150000031
为某领域权重的分,l表示请求文本字符长度,li表示匹配到关键词的字符长度。
得到权重的分后,对其进行标准化处理,以权重表示该请求在某个领域的概率占比。
Figure BDA0003206201150000032
将概率占比转化为1*48向量,重复15次得到15*48的概率矩阵,后对概率矩阵归一化,得到前缀树特征矩阵:
Figure BDA0003206201150000033
S3.卷积特征融合:
请求文本转化为15*271的向量表示,卷积神经网络对句子单词每个可能的窗口做卷积操作得到特征图,将通过一维卷积与二维卷积的两个特征向量分别通过池化层,得到两个特征向量,将两个特征向量拼接获得新的特征向量,同时将上一步中获得的Trie特征向量维度处理后与其拼接,得到最终的文本特征向量。
S4.预测结果:
将上述步骤S3获得特征向量输入卷积神经网络的全连接层,再通过softmax等操作,得到最终预测结果。
实施例经验证,在相同训练数据的情况下,通过前缀树修正了特征,可以区分不同领域间的相似特征,在不增加训练数据的情况下,提升了这种拥有相似特征的领域的区分。具体实验结果如下(在相同的训练集与验证集下实验):
1)、优化后的卷积神经网络算法,loss更低,融合特征前loss为0.232,融合特征后训练完成时loss为0.161;
2)优化后卷积神经网络算法训练完成的模型,在同样的验证集上的整体(包括精确率,召回率,F1值)表现更好。

Claims (4)

1.一种基于前缀树特征与卷积神经网络的领域识别方法,其特征在于,利用提前构建的前缀树对请求文本进行特征分析,得到相应的前缀树特征;当卷积神经网络对请求文本进行领域预测时,将卷积特征与所述前缀树特征拼接之后,再将拼接后的特征输入到卷积神经网络的全连接层,得到相应的预测结果。
2.如权利要求1所述的一种基于前缀树特征与卷积神经网络的领域识别方法,其特征在于,构建前缀树的步骤包括:
根据tf-idf统计方法,从已有的数据中,获取领域高频关键词,经过筛选后,将筛选后的词汇作为前缀树的数据;将领域高频关键词的每个字作为树的一个节点,按照正常的阅读顺序生成父节点-子节点-孙子节点的前缀树。
3.如权利要求2所述的一种基于前缀树特征与卷积神经网络的领域识别方法,其特征在于,所述已有的数据包括用户日志数据、训练数据和测试数据。
4.如权利要求2所述的一种基于前缀树特征与卷积神经网络的领域识别方法,其特征在于,利用前缀树对请求文本进行特征分析得到前缀树特征的步骤包括:
将请求文本全分词后,在前缀树中进行查询匹配,根据匹配到的关键词字符长度与文本字符长度的比值作为其所属领域的权重,标准化到0-1之间后,对其归一化处理,转化为矩阵,作为前缀树特征矩阵。
CN202110917561.8A 2021-08-11 2021-08-11 一种基于前缀树特征与卷积神经网络的领域识别方法 Active CN113553844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110917561.8A CN113553844B (zh) 2021-08-11 2021-08-11 一种基于前缀树特征与卷积神经网络的领域识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110917561.8A CN113553844B (zh) 2021-08-11 2021-08-11 一种基于前缀树特征与卷积神经网络的领域识别方法

Publications (2)

Publication Number Publication Date
CN113553844A true CN113553844A (zh) 2021-10-26
CN113553844B CN113553844B (zh) 2023-07-25

Family

ID=78133831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110917561.8A Active CN113553844B (zh) 2021-08-11 2021-08-11 一种基于前缀树特征与卷积神经网络的领域识别方法

Country Status (1)

Country Link
CN (1) CN113553844B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502009A (zh) * 2023-06-25 2023-07-28 北京奇虎科技有限公司 网页过滤方法、装置、设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108595602A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于浅层模型与深度模型结合的问句文本分类方法
CN109241265A (zh) * 2018-09-17 2019-01-18 四川长虹电器股份有限公司 一种面向多轮查询的领域识别方法及系统
CN109376241A (zh) * 2018-10-17 2019-02-22 国网浙江杭州市萧山区供电有限公司 一种基于DenseNet面向电力领域的电话诉求文本分类算法
CN109408627A (zh) * 2018-11-15 2019-03-01 众安信息技术服务有限公司 一种融合卷积神经网络和循环神经网络的问答方法及系统
CN109918500A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
CN110046250A (zh) * 2019-03-17 2019-07-23 华南师范大学 三嵌入卷积神经网络模型及其文本多分类方法
CN110297888A (zh) * 2019-06-27 2019-10-01 四川长虹电器股份有限公司 一种基于前缀树与循环神经网络的领域分类方法
CN110705298A (zh) * 2019-09-23 2020-01-17 四川长虹电器股份有限公司 一种改进的前缀树与循环神经网络结合的领域分类方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN112487149A (zh) * 2020-12-10 2021-03-12 浙江诺诺网络科技有限公司 一种文本审核方法、模型、设备及存储介质
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
CN106897371A (zh) * 2017-01-18 2017-06-27 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法
CN108595602A (zh) * 2018-04-20 2018-09-28 昆明理工大学 基于浅层模型与深度模型结合的问句文本分类方法
CN109241265A (zh) * 2018-09-17 2019-01-18 四川长虹电器股份有限公司 一种面向多轮查询的领域识别方法及系统
CN109376241A (zh) * 2018-10-17 2019-02-22 国网浙江杭州市萧山区供电有限公司 一种基于DenseNet面向电力领域的电话诉求文本分类算法
CN109408627A (zh) * 2018-11-15 2019-03-01 众安信息技术服务有限公司 一种融合卷积神经网络和循环神经网络的问答方法及系统
CN109918500A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
CN110046250A (zh) * 2019-03-17 2019-07-23 华南师范大学 三嵌入卷积神经网络模型及其文本多分类方法
CN110297888A (zh) * 2019-06-27 2019-10-01 四川长虹电器股份有限公司 一种基于前缀树与循环神经网络的领域分类方法
CN110705298A (zh) * 2019-09-23 2020-01-17 四川长虹电器股份有限公司 一种改进的前缀树与循环神经网络结合的领域分类方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN112487149A (zh) * 2020-12-10 2021-03-12 浙江诺诺网络科技有限公司 一种文本审核方法、模型、设备及存储介质
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李宏: "面向应用领域的分类方法研究", 《中国博士学位论文全文数据库信息科技辑》, no. 1, pages 140 - 5 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116502009A (zh) * 2023-06-25 2023-07-28 北京奇虎科技有限公司 网页过滤方法、装置、设备及存储介质
CN116502009B (zh) * 2023-06-25 2023-10-31 北京奇虎科技有限公司 网页过滤方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113553844B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110162591B (zh) 一种面向数字教育资源的实体对齐方法及系统
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN112487190B (zh) 基于自监督和聚类技术从文本中抽取实体间关系的方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
CN114357120A (zh) 基于faq的无监督式检索方法、系统及介质
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN113868382A (zh) 从中文自然语言中抽取结构化知识的方法和装置
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN113553844A (zh) 一种基于前缀树特征与卷积神经网络的领域识别方法
CN116483990B (zh) 一种基于大数据的互联网新闻内容自动生成方法
CN114970538A (zh) 文本纠错的方法及装置
CN116628176A (zh) 通过多偏好建模和知识增强改进对话推荐系统
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant