CN116187419A - 一种基于文本组块的层级体系自动构建方法 - Google Patents
一种基于文本组块的层级体系自动构建方法 Download PDFInfo
- Publication number
- CN116187419A CN116187419A CN202310455626.0A CN202310455626A CN116187419A CN 116187419 A CN116187419 A CN 116187419A CN 202310455626 A CN202310455626 A CN 202310455626A CN 116187419 A CN116187419 A CN 116187419A
- Authority
- CN
- China
- Prior art keywords
- text
- chunk
- chunks
- word
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 125000006850 spacer group Chemical group 0.000 claims description 2
- 241000764238 Isis Species 0.000 claims 1
- 238000012512 characterization method Methods 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及层级体系构建技术领域,公开了一种基于文本组块的层级体系自动构建方法,包括:将文本切分为单词;文本组块抽取;编码;文本组块表征;计算权重;计算文本组块重要性;构建单词表;构建层级体系;本发明基于神经网络模型,使用完全自动的方法从数据中抽取文本组块信息,构建体系节点及其连接;此外,本发明采用基于注意力图卷积神经网络的方法计算不同文本组块的重要性,实现基于重要性的体系节点分层。
Description
技术领域
本发明涉及层级体系构建技术领域,具体涉及一种基于文本组块的层级体系自动构建方法。
背景技术
层级体系旨在构建具有层级的图结构系统,该图结构系统包括属于不同层级的节点以及节点之间的连接,节点之间的连接也称为边。
现有的层级体系构建方法往往采用自顶向下的方法,即先设计体系,然后用数据填充体系内容。这种方法需要大量的人工设计和构建工作,维护成本高,难以及时对新数据更新。
发明内容
为解决上述技术问题,本发明提供一种基于文本组块的层级体系自动构建方法。本发明从数据出发,采用自底向上的方法构建层级体系。
为解决上述技术问题,本发明采用如下技术方案:
一种基于文本组块的层级体系自动构建方法,为给定语料库构建层级体系,包括以下步骤:
步骤八、层级体系构建:将单词表中所有相同文本组块的重要性相加并计算平均,得到第个文本组块的重要性;将单词表中所有相同文本组块对的重要性相加并计算平均,得到第个文本组块和第个文本组块组成的文本组块对的重要性;为单词表V中所有不相同的文本组块的总数;
使用预先定义的阈值,其中,把所有文本组块分为层;如果满足,则第个文本组块属于层级体系的第层;如果满足,则第个文本组块属于层级体系的第一层;如果满足,则第个文本组块属于层级体系的第层;层级体系中节点为分层级的文本组块,节点之间的边由文本组块对表示,边上的权重由文本组块对的重要性表示。
进一步地,步骤二具体包括以下步骤:
S24:在第k个文本组块与第k-2个文本组块、第k-1个文本组块、第k+1个文本组块、第k+2个文本组块之间建立连接;使用维度的邻接矩阵记录连接,第k行第v列位置的值记为;如果第k个文本组块与第v个文本组块之间有连接,则,否则。
与现有技术相比,本发明的有益技术效果是:
1.本发明从数据出发,采用自底向上的方法构建层级体系。本发明基于神经网络模型,使用完全自动的方法从数据中抽取文本组块信息构建体系节点及其连接。完全从数据出发,不依赖人工设计,易于更新,具有更好的对新数据的适应性。
2.本发明采用基于注意力图卷积神经网络的方法计算不同文本组块的重要性,实现基于重要性的体系节点分层。
附图说明
图1为本发明的模型结构示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
如图1所示,本发明的模型结构包括文本组块抽取模块、编码器、组块表征计算模块、L层的注意力图卷积神经网络、组块重要性计算模块以及层级体系构建模块六部分。
本发明的层级体系自动构建方法包括以下步骤:
S2:在文本组块抽取模块中,从第i段文本中抽取文本组块集合,其中,为第k个文本组块,为第i段文本中文本组块的总数。每一个文本组块是第i段文本中一个或多个连续单词组成的序列,即可以表示为,其中表示第k个文本组块中的第个单词,表示第k个文本组块中单词的个数。同时,在文本组块之间建立连接,记为邻接矩阵。其中,邻接矩阵为一个维度的矩阵,邻接矩阵第k行第v列位置的值记为。
步骤S2具体包括:
S24:在第k个文本组块与第k-2个文本组块、第k-1个文本组块、第k+1个文本组块、第k+2个文本组块之间建立连接。使用维度的邻接矩阵记录连接,邻接矩阵第k行第v列位置的值记为。如果第k个文本组块与第v个文本组块之间有连接,则,否则。
S5:在L层的注意力图卷积神经网络中,对文本组块隐向量和邻接矩阵A建模。其中,注意力图卷积神经网络第层的输出隐向量是第层的输入隐向量,在注意力图卷积神经网络的第l层中计算权重集合{},其中表示第l层中,第i段文本中第v个文本组块对第k个文本组块的权重。类似地,可以得到所有L层的权重集合。
步骤S5具体包括如下步骤:
S8:在层级体系构建模块,将单词表中所有同样的文本组块的重要性相加并计算平均,得到第个文本组块的重要性;将单词表中所有同样的文本组块对的重要性相加并计算平均,得到第个文本组块和第个文本组块组成的文本组块对的重要性。使用预先定义的阈值,其中把所有文本组块分为层,如果满足,则第个文本组块属于层级体系的第层。特别地,如果满足,则第个文本组块属于层级体系的第一层;如果满足,则第个文本组块属于层级体系的第层。至此,完成了基于文本组块的层级体系构建。层级体系中节点为分层级的文本组块,节点之间的边由文本组块对表示,边上的权重由文本组块对的重要性表示。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种基于文本组块的层级体系自动构建方法,为给定语料库构建层级体系,包括以下步骤:
步骤八、层级体系构建:将单词表中所有相同文本组块的重要性相加并计算平均,得到第个文本组块的重要性;将单词表中所有相同文本组块对的重要性相加并计算平均,得到第个文本组块和第个文本组块组成的文本组块对的重要性;为单词表V中所有不相同的文本组块的总数;
3.根据权利要求1所述的基于文本组块的层级体系自动构建方法,其特征在于:步骤二具体包括以下步骤:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310455626.0A CN116187419B (zh) | 2023-04-25 | 2023-04-25 | 一种基于文本组块的层级体系自动构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310455626.0A CN116187419B (zh) | 2023-04-25 | 2023-04-25 | 一种基于文本组块的层级体系自动构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116187419A true CN116187419A (zh) | 2023-05-30 |
CN116187419B CN116187419B (zh) | 2023-08-29 |
Family
ID=86434815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310455626.0A Active CN116187419B (zh) | 2023-04-25 | 2023-04-25 | 一种基于文本组块的层级体系自动构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116187419B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
CN113420154A (zh) * | 2021-08-25 | 2021-09-21 | 成都索贝数码科技股份有限公司 | 基于层次注意的分层多标签文本分类模型的构建方法 |
CN113988083A (zh) * | 2021-11-17 | 2022-01-28 | 上海海事大学 | 一种用于航运新闻摘要生成的事实性信息编码与评估方法 |
CN114254110A (zh) * | 2021-12-16 | 2022-03-29 | 胜斗士(上海)科技技术发展有限公司 | 用于确定文本数据的标签的方法和设备 |
EP4009221A1 (en) * | 2020-12-04 | 2022-06-08 | Airesearch S.r.l. | Method for automatic processing of natural language by means of artificial intelligence |
CN114896388A (zh) * | 2022-03-07 | 2022-08-12 | 武汉理工大学 | 一种基于混合注意力的层级多标签文本分类方法 |
CN115048510A (zh) * | 2022-02-17 | 2022-09-13 | 东南大学 | 基于层级式法律知识与双图联合表示学习的罪名预测方法 |
US20220405480A1 (en) * | 2021-06-22 | 2022-12-22 | Jinan University | Text sentiment analysis method based on multi-level graph pooling |
US20230092274A1 (en) * | 2021-09-21 | 2023-03-23 | International Business Machines Corporation | Training example generation to create new intents for chatbots |
CN115841119A (zh) * | 2023-02-21 | 2023-03-24 | 中国科学技术大学 | 一种基于图结构的情绪原因提取方法 |
CN115858788A (zh) * | 2022-12-19 | 2023-03-28 | 福州大学 | 基于双重图卷积神经网络的视角级文本情感分类系统 |
CN115858793A (zh) * | 2023-02-20 | 2023-03-28 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
-
2023
- 2023-04-25 CN CN202310455626.0A patent/CN116187419B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259672A (zh) * | 2020-02-12 | 2020-06-09 | 新疆大学 | 基于图卷积神经网络的中文旅游领域命名实体识别方法 |
EP4009221A1 (en) * | 2020-12-04 | 2022-06-08 | Airesearch S.r.l. | Method for automatic processing of natural language by means of artificial intelligence |
US20220405480A1 (en) * | 2021-06-22 | 2022-12-22 | Jinan University | Text sentiment analysis method based on multi-level graph pooling |
CN113420154A (zh) * | 2021-08-25 | 2021-09-21 | 成都索贝数码科技股份有限公司 | 基于层次注意的分层多标签文本分类模型的构建方法 |
US20230092274A1 (en) * | 2021-09-21 | 2023-03-23 | International Business Machines Corporation | Training example generation to create new intents for chatbots |
CN113988083A (zh) * | 2021-11-17 | 2022-01-28 | 上海海事大学 | 一种用于航运新闻摘要生成的事实性信息编码与评估方法 |
CN114254110A (zh) * | 2021-12-16 | 2022-03-29 | 胜斗士(上海)科技技术发展有限公司 | 用于确定文本数据的标签的方法和设备 |
CN115048510A (zh) * | 2022-02-17 | 2022-09-13 | 东南大学 | 基于层级式法律知识与双图联合表示学习的罪名预测方法 |
CN114896388A (zh) * | 2022-03-07 | 2022-08-12 | 武汉理工大学 | 一种基于混合注意力的层级多标签文本分类方法 |
CN115858788A (zh) * | 2022-12-19 | 2023-03-28 | 福州大学 | 基于双重图卷积神经网络的视角级文本情感分类系统 |
CN115858793A (zh) * | 2023-02-20 | 2023-03-28 | 知呱呱(天津)大数据技术有限公司 | 基于图注意力机制的专利多层级分类方法及计算机设备 |
CN115841119A (zh) * | 2023-02-21 | 2023-03-24 | 中国科学技术大学 | 一种基于图结构的情绪原因提取方法 |
Non-Patent Citations (2)
Title |
---|
BINGLIANG CHEN 等: "A Novel Bi-Branch Graph Convolutional Neural Network for Aspect Level Sentiment Classification", 《2021 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
陆晓蕾 等: "基于预训练语言模型的BERT-CNN多层级专利分类研究", 《中文信息学报》, vol. 35, no. 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN116187419B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748628B2 (en) | Method for optimizing reservoir operation for multiple objectives based on graph convolutional neural network and NSGA-II algorithm | |
ElAlami | A filter model for feature subset selection based on genetic algorithm | |
CN108985515B (zh) | 一种基于独立循环神经网络的新能源出力预测方法及系统 | |
CN110473592B (zh) | 一种多视角人类协同致死基因预测方法 | |
CN112508192B (zh) | 一种具有深度结构的增量堆叠式宽度学习系统 | |
CN105303450A (zh) | 基于谱聚类改进交叉的复杂网络社区发现方法 | |
Hacker | k-simplex2vec: a simplicial extension of node2vec | |
CN109740039A (zh) | 基于栈式自编码器的动态网络社团结构识别方法 | |
CN112860904A (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN113190662A (zh) | 基于篇章结构图网络的话题分割方法 | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
CN117273409A (zh) | 一种园区智慧化环保系统智能运维方法、系统及存储介质 | |
CN113641854B (zh) | 一种将文字转化为视频的方法及系统 | |
CN105373846A (zh) | 基于分级策略的油气集输管网拓扑结构智能优化方法 | |
CN118193749A (zh) | 一种基于深度学习的关系自动识别方法及系统 | |
CN116187419B (zh) | 一种基于文本组块的层级体系自动构建方法 | |
CN117236158B (zh) | 一种基于物理意义神经网络的页岩气藏数值模拟方法 | |
CN113051408A (zh) | 一种基于信息增强的稀疏知识图谱推理方法 | |
CN116883746A (zh) | 一种基于分区池化超图神经网络的图节点分类方法 | |
CN115238075B (zh) | 一种基于超图池化的文本情感分类方法 | |
CN114168782B (zh) | 一种基于三元组网络的深度哈希图像检索方法 | |
Ngoc Phien et al. | A comparison between deep belief network and LSTM in chaotic time series forecasting | |
CN116050579A (zh) | 基于深度特征融合网络的建筑能耗预测方法及系统 | |
CN113936741A (zh) | 一种基于上下文感知计算的rna溶剂可及性预测方法 | |
CN113792919A (zh) | 一种基于迁移学习深度学习相结合的风电功率预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |