CN112905793B - 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 - Google Patents
一种基于Bilstm+Attention文本分类的案例推荐方法及系统 Download PDFInfo
- Publication number
- CN112905793B CN112905793B CN202110203054.8A CN202110203054A CN112905793B CN 112905793 B CN112905793 B CN 112905793B CN 202110203054 A CN202110203054 A CN 202110203054A CN 112905793 B CN112905793 B CN 112905793B
- Authority
- CN
- China
- Prior art keywords
- layer
- classification
- behavior
- case
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Bilstm+Attention文本分类的案例推荐方法及系统,所述方法包括:分别对事由分类模型及行为分类模型进行预训练;对待测案例使用ALBert进行句子向量表征;使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量;融合事由和行为特征向量进行案例推荐。所述系统包括:事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层。通过文本分类模型可以筛选相同类型的候选案例集减少计算成本、时间成本,且获取文本分类模型分类层之前一层输出向量能够表征文本语义信息使得推荐案例更加准确。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于Bilstm+Attention文本分类的案例推荐方法及系统。
背景技术
早期的案例推荐都是基于统计的方法实现,与此同时伴随着机器学习算法的不断深入发展,已有基于文本分类的方式来实现案例推荐,例如使用设计特征工程和传统分类器方法对案例进行预测分类。近年来,随着深度学习的不断发展,基于深度神经网络的方法在文本分类、推荐等领域得到应用与发展。
文本分类是指给定文本P,将文本分类为n个类别中的一个或多个。文本特征工程分为文本预处理、特征提取、文本表示三个部分,目的就是把文本转换成计算机可理解的形式。文本表示常用词袋模型或向量空间模型,词袋模型就是把文本(段落或者文档)看作是无序的词汇集合,忽略语法甚至是单词的顺序,把每一个单词都进行统计,同时计算每个单词出现的次数,而向量空间模型就是把单词变成固定维度的特殊向量,其中意思相近的词被映射到向量空间中相近的位置,经过降维,在二维向量中,相似的单词在空间中的距离也很接近;文本分类常用的深度神经网络模型有卷积神经网络和循环神经网络,卷积神经网络是由输入层、卷积层、池化层、全连接层组成的多层前馈神经网络,而循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。
现有技术的技术方案:
现有文本表示技术用One-Hot模型或Word2Vec词向量空间模型,对应本发明使用Albert+Bilstm+Attention文本分类预训练模型获取分类层之前一层特征向量来表征文本。
One-Hot编码是指通过文本(段落或者文档)看作是无序的词汇集合,把每一个单词都进行统计,通过设置阈值构建词典库,向量的维度也就是词典库的长度,单词在句子中出现了,那么向量中对应位置的元素是1,否则是 0,也就是说对于向量的第k个元素,如果词典库中的第k个词出现在句子中,那么其值为1,否则是0。
Word2Vec词向量空间模型是简单化的神经网络,主要包括两种词训练模型:CBOW模型和Skip-gram模型。CBOW模型根据中心词周围的词来预测中心词;Skip-gram模型根据中心词预测周围的词。CBOW模型的第一层是输入层,输入的值是周围每个词的One-Hot编码形式,隐藏层只是对输出值做了权值加法,没有激活函数进行非线性的转换,输出值的维度和输入值的维度是一致的。而Skip-gram模型的第一层是输入层,输入值是中心词的 One-Hot编码形式,隐藏层只是做线性转换,输出的是输出值的softmax转换后的概率。训练模型的隐藏层的输出就是每个输入单词的嵌入词向量。句子的向量表示通过分词,将词向量拼接来表征句子。
现有技术一的缺点
One-Hot模型或Word2Vec词向量空间模型最大的不足是忽略上下文关系,每个词之间彼此独立,并且无法准确地表征语义信息。One-Hot模型有两个最大的问题:数据稀疏性非常高,维度很大,很容易造成维度灾难。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于Bilstm+Attention 文本分类的案例推荐方法及系统,该方法通过文本分类模型可以筛选相同类型的候选案例集减少计算成本、时间成本,且获取文本分类模型分类层之前一层输出向量能够表征文本语义信息使得推荐案例更加准确。
本发明的目的通过以下的技术方案来实现:
一种基于Bilstm+Attention文本分类的案例推荐方法,包括:
步骤A分别对事由分类模型及行为分类模型进行预训练;
步骤B对待测案例使用ALBert进行句子向量表征;
步骤C使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量;
步骤D融合事由和行为特征向量进行案例推荐。
一种基于Bilstm+Attention文本分类的案推荐系统,包括:
事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层;所述
事由分类模型训练层与行为分类模型训练层;分别对事由分类模型及行为分类模型进行预训练;
语义表征层,用于对待测案例使用ALBert进行句子向量表征;使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量;
特征融合层,用于融合事由和行为特征向量;
类案推荐层,将融合后的事由和行为特征向量进行案例推荐。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
使用ALBert预训练嵌入模型可以解决one-hot编码高维度、高稀疏问题;Bilstm+Attention事由和行为网络识别模型可以解决需要领域有经验专家设计手工特征问题,同时能够使用事由和行为识别模型获取分类层之前一层的事由特征向量和行为特征向量,此特征可以更好地表征文本描述上下文信息;通过事由和行为识别模型识别待测案例,从案例库中筛选相同事由和行为的候选案例来解决计算相似案例成本大、耗时多问题;本发明用于帮助人员快速查找和分析相似案例,节省时间,提高工作效率,进行公正判决。
附图说明
图1是基于Bilstm+Attention文本分类的案例推荐方法流程图;
图2是事由、行为分类模型图;
图3是案例相似性推荐类图;
图4是基于Bilstm+Attention文本分类的案例推荐系统框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于Bilstm+Attention文本分类的案例推荐方法流程,包括以下步骤:
步骤10分别对事由分类模型及行为分类模型进行预训练;
步骤20对待测案例使用ALBert进行句子向量表征;
步骤30使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量;
步骤40融合事由和行为特征向量进行案例推荐。
事由分类网络模型和行为分类网络模型见图2,两个模型相同只是数据不同,下面以事由为例,包括步骤如下:
将结构化后标签数据集按7:3的比例划分为训练数据集和测试数据集;数据预处理利用jieba对内容进行分词,如果为停用词,就放弃该词,否则将其加入分词结果中,构成新的文本内容;
将预处理后的事由文本描述的每个字利用ALBert映射成固定维度的向量,每个字都有一个单独的向量表示,例如,[x1,x2,x3,…xn]代表一个字,其中每个x代表一个数字,n为312;事由文本描述长度不同,将其长度统一为 200,如果大于200截断,否则向量补齐,事由文本描述的向量为200*312 二维矩阵。
将映射层输出的特征向量输入双向Bilstm层,其原理是学习字之间前向和后向序列语义信息,输出形式为200*256。
将双向Bilstm层输出的特征向量输入Attention层,其原理是每个字的表示都与其他字有关,且贡献权重不同,经过计算将其压缩成一维向量,可以更好的表达事由文本的语义信息。
将Attention层输出的一维特征向量输入分类层softmax,输出与数据标签一样维度的向量,累计计算最大值位置的误差。
反向传播更新网络参数采用自适应梯度下降策略,学习率会自动更新,根据前一个状态学习的步长情况,对应调整学习率的大小,使得模型向梯度下降最快的方向收敛,从而快速找到全局最优解。
如图3所示为相似案例推荐过程,包括:
(1)将待测案例进行jieba分词去除停用词得到预处理之后的文本描述,通过ALBert获取文本描述向量矩阵;
(2)将待测案例描述向量输入事由分类预训练模型获取事由类别,以及获取事由预训练模型分类层前一层特征输出作为事由语义表示向量 M(m1,…m256)1*256;
(3)将待测案例描述向量输入行为分类预训练模型获取行为类别,以及获取行为预训练模型分类层前一层特征输出作为行为语义表示向量 N(n1,…n256)1*256;
(4)在案例库中首先以待测案例事由类型筛选相同的候选案例,进一步筛选相同行为的候选案例,如果筛选结果为0,通过计算事由M分类特征向量相似度并排序;反之,通过Concat拼接融合事由M和行为N分类特征向量计算相似度并排序。
相似度计算采用余弦相似度,计算结果的值越大,表明相似度越大;反之则相似度越小。余弦相似度是计算向量与向量之间的夹角的余弦值,来衡量两个向量之间的距离及相似性。X和Y分别表示待测案例特征向量、候选案例特征向量,其计算方法如公式(1)。由于cosθ的取值范围为-1到1,在实际中更希望其归一化到0到1,因此通常在计算余弦相似度的时候,变换公式如(2)。
如图4所示,本实施例还提供了一种基于Bilstm+Attention文本分类的案例推荐系统,所述系统包括:事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层;所述事由分类模型训练层与行为分类模型训练层;分别对事由分类模型及行为分类模型进行预训练;语义表征层,用于对待测案例使用ALBert进行句子向量表征;使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量;特征融合层,用于融合事由和行为特征向量;类案推荐层,将融合后的事由和行为特征向量进行案例推荐。所述语义表征层包括:事由分类特征层和行为分类特征层;所述事由分类特征层,用于输出事由特征向量;所述行为分类特征层,用于输出行为特征向量。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (5)
1.一种基于Bilstm+Attention文本分类的案例推荐方法,其特征在于,所述方法包括以下步骤:
步骤A分别对事由分类模型及行为分类模型进行预训练;
步骤B对待测案例使用ALBert进行句子向量表征;
步骤C使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量;
步骤D融合事由和行为特征向量进行案例推荐;
所述步骤D中案例推荐过程包括:
1)将待测案例进行jieba分词去除停用词得到预处理之后的文本描述,通过ALBert获取文本描述向量矩阵;
2)将待测案例描述向量输入事由分类预训练模型获取事由类别,以及获取事由预训练模型分类层前一层特征输出作为事由语义表示向量M(m1,…,m256)1*256;
3)将待测案例描述向量输入行为分类预训练模型获取行为类别,以及获取行为预训练模型分类层前一层特征输出作为行为语义表示向量N(n1,…,n256)1*256;
4)在案例库中首先以待测案例事由类型筛选相同的候选案例,进一步筛选相同行为的候选案例;如果筛选结果为0,通过计算事由M分类特征向量相似度并排序;反之,通过拼接融合事由M和行为N分类特征向量计算相似度并排序;
所述步骤A中事由分类模型预训练包括:
1)将结构化后标签数据集划分为训练数据集和测试数据集,并利用jieba分词对数据内容分词进行数据预处理;
2)将预处理后的事由文本描述的每个字利用ALBert映射成固定维度的向量;其中,每个字都有一个单独的向量表示;
3)将映射层输出的特征向量输入双向Bilstm层,并输出特征向量;
4)将双向Bilstm层输出的特征向量输入Attention层,并输出一维特征向量;
5)将Attention层输出的一维特征向量输入分类层softmax,输出与数据标签一样维度的向量,累计计算最大值位置的误差。
2.如权利要求1所述的基于Bilstm+Attention文本分类的案例推荐方法,其特征在于,如果分词为停用词就放弃该词,否则将其加入分词结果中,构成新的文本内容。
4.用于权利要求1-3任一项所述方法的基于Bilstm+Attention文本分类的案例推荐系统,其特征在于,所述系统包括:事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层;所述
事由分类模型训练层与行为分类模型训练层;分别对事由分类模型及行为分类模型进行预训练;
语义表征层,用于对待测案例使用ALBert进行句子向量表征;使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量;
特征融合层,用于融合事由和行为特征向量;
类案推荐层,将融合后的事由和行为特征向量进行案例推荐。
5.如权利要求4所述的基于Bilstm+Attention文本分类的案例推荐系统,其特征在于,所述语义表征层包括:事由分类特征层和行为分类特征层;所述事由分类特征层,用于输出事由特征向量;所述行为分类特征层,用于输出行为特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203054.8A CN112905793B (zh) | 2021-02-23 | 2021-02-23 | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203054.8A CN112905793B (zh) | 2021-02-23 | 2021-02-23 | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905793A CN112905793A (zh) | 2021-06-04 |
CN112905793B true CN112905793B (zh) | 2023-06-20 |
Family
ID=76124408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110203054.8A Active CN112905793B (zh) | 2021-02-23 | 2021-02-23 | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905793B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995903B (zh) * | 2022-05-30 | 2023-06-27 | 中电金信软件有限公司 | 一种基于预训练语言模型的类别标签识别方法及装置 |
CN116070624A (zh) * | 2023-04-06 | 2023-05-05 | 中南大学 | 一种基于环保案件要素的类案推送方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520045A (zh) * | 2018-04-03 | 2018-09-11 | 平安健康保险股份有限公司 | 数据的服务响应方法及装置 |
CN108875811A (zh) * | 2018-06-01 | 2018-11-23 | 平安科技(深圳)有限公司 | 动物种类的分类方法、装置、计算机设备和存储介质 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
CN111754669A (zh) * | 2020-06-24 | 2020-10-09 | 桂林理工大学 | 一种基于人脸识别技术的高校学生管理系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017090051A1 (en) * | 2015-11-27 | 2017-06-01 | Giridhari Devanathan | A method for text classification and feature selection using class vectors and the system thereof |
US10083347B2 (en) * | 2016-07-29 | 2018-09-25 | NTech lab LLC | Face identification using artificial neural network |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN109840321B (zh) * | 2017-11-29 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 文本推荐方法、装置及电子设备 |
CN110362817A (zh) * | 2019-06-04 | 2019-10-22 | 中国科学院信息工程研究所 | 一种面向产品属性的观点倾向性分析方法及系统 |
-
2021
- 2021-02-23 CN CN202110203054.8A patent/CN112905793B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520045A (zh) * | 2018-04-03 | 2018-09-11 | 平安健康保险股份有限公司 | 数据的服务响应方法及装置 |
CN108875811A (zh) * | 2018-06-01 | 2018-11-23 | 平安科技(深圳)有限公司 | 动物种类的分类方法、装置、计算机设备和存储介质 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110826337A (zh) * | 2019-10-08 | 2020-02-21 | 西安建筑科技大学 | 一种短文本语义训练模型获取方法及相似度匹配算法 |
CN111754669A (zh) * | 2020-06-24 | 2020-10-09 | 桂林理工大学 | 一种基于人脸识别技术的高校学生管理系统 |
Non-Patent Citations (2)
Title |
---|
Deep Short Text Classification with Knowledge Powered Attention;Jindong Chen等;《Proceedings of the AAAI Conference on Artificial Intelligence》;第6252-6259页 * |
多模态特征融合的裁判文书推荐方法;原旭等;《微电子学与计算机》;第37卷(第12期);第42-47页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112905793A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110209823B (zh) | 一种多标签文本分类方法及系统 | |
CN110442684B (zh) | 一种基于文本内容的类案推荐方法 | |
CN112541355B (zh) | 一种实体边界类别解耦的少样本命名实体识别方法与系统 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
CN113704546A (zh) | 基于空间时序特征的视频自然语言文本检索方法 | |
CN112905793B (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN111460097B (zh) | 一种基于tpn的小样本文本分类方法 | |
CN113946677B (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN112015902A (zh) | 基于度量的元学习框架下的少次文本分类方法 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN112347252B (zh) | 一种基于cnn文本分类模型的可解释性分析方法 | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 | |
CN117634483A (zh) | 一种面向中文的多粒度图文跨模态关联方法 | |
CN106033546A (zh) | 基于自上而下学习的行为分类方法 | |
CN111858682A (zh) | 一种基于深度学习的裁判文书逻辑评估方法及系统 | |
CN116955818A (zh) | 一种基于深度学习的推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |