CN114398480A - 基于关键信息抽取的金融舆情细分方面检测方法和设备 - Google Patents

基于关键信息抽取的金融舆情细分方面检测方法和设备 Download PDF

Info

Publication number
CN114398480A
CN114398480A CN202111425815.0A CN202111425815A CN114398480A CN 114398480 A CN114398480 A CN 114398480A CN 202111425815 A CN202111425815 A CN 202111425815A CN 114398480 A CN114398480 A CN 114398480A
Authority
CN
China
Prior art keywords
sentence
financial
public opinion
sentences
key information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111425815.0A
Other languages
English (en)
Inventor
王进
周阳
陈怡雯
杜雨露
方阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Smart Technology (Beijing) Co.,Ltd.
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111425815.0A priority Critical patent/CN114398480A/zh
Publication of CN114398480A publication Critical patent/CN114398480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及大数据人工智能技术领域,公开了一种基于关键信息抽取的金融舆情细分方面检测方法和设备,步骤包括对金融文本数据和金融舆情标签描述集合进行预处理;对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;构建标签关键句组合输入金融文本,进行细分舆情分类。本发明通过标签描述和片段句建立关键信息句抽取辅助模型,然后抽取关键信息句,构建预训练模型输入,从而有效提升金融舆情细分方面检测的准确率。

Description

基于关键信息抽取的金融舆情细分方面检测方法和设备
技术领域
本发明涉及大数据人工智能技术领域,尤其涉及一种基于关键信息抽取的金融舆情细分方面检测方法。
背景技术
随着互联网的快速发展,每天互联网上会产生大量的资讯信息,但这些资讯信息中含有大量的虚假、诈骗等对社会公众有误导的信息,所以对互联网上的大量文本进行舆情监测,对社会环境监护特别重要;尤其是在金融领域,各种金融文本舆情反应了投资者、金融从业者的情绪,从而会影响决策者的行为,通过对金融文本进行金融舆情细分方面检测,有助于了解金融市场发展趋势,推动金融市场良好发展。金融舆情细分方面检测,指判别金融舆情文本包含哪些方面的舆情信息(如借贷、逾期、诈骗等),每一个舆情方面有对应的标签描述,需要判别出文本是否包含某一个舆情方面的信息。
金融舆情细分方面检测本质上是一个多标签分类问题,目前一般的方法主要是从两个方面来优化此类问题,一是如RNN和CNN的选择不同的语义表征结构,以及如BERT的预训练模型;二是选择不同的解码方式,如当作二分类问题或序列解码问题。比如授权公告号为CN103309960B的专利公开了一种网络舆情事件多维信息提取的方法及装置,其方法包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。
上述的方法虽然可以用以分析舆论事件,提高舆论事件分析的准确度,但是因为互联网上的金融文本层次多样,冗余信息多;目前的方法对于金融文本存在以下问题:1、不能过滤冗余信息,长度过长,无法有效利用预训练模型的优势;2、不能有效利用标签本身语义信息用于分类,从而导致目前的金融舆情细分方面检测方法的检测准确率较低。
发明内容
有鉴于此,本发明的目的是提供一种基于关键信息抽取的金融舆情细分方面检测方法,通过标签描述和片段句建立关键信息句抽取辅助模型,然后抽取关键信息句,构建预训练模型输入,从而有效提升金融舆情细分方面检测的准确率。
本发明通过以下技术手段解决上述技术问题:
一种基于关键信息抽取的金融舆情细分方面检测方法,包括以下步骤,
S1、对金融文本数据和金融舆情标签描述集合进行预处理;
S2、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;
S3、对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;
S4、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;
S5、构建标签关键句组合输入金融文本,进行细分舆情分类。
进一步,所述步骤S1中,在预处理时,对原数据集D的所有金融文本进行划分,将每条金融文本按照中文分隔符分割成句表示,并按连贯概率进行合并,获得最终的片段句。
进一步,所述步骤S1中,合并方式具体为:将当前句和下一句拼接送入预训练BERT模型,根据预训练BERT模型的输出是否是下一句的概率得到语句连贯概率,若概率大于0.8,即大于80%,则拼接当前句和下一句,作为新的片段句,若概率小于等于80%,则将当前句和下一句都当做不同的片段句;再在片段句的句尾添加预定义学习字符[s1],对各金融舆情类型标签描述句的句尾添加预定义学习字符[s2]。
进一步,所述步骤S2的具体方法为:
S201、给定输入的一个金融文本q个片段句集合X={M1,M2,…,Mq},对每一个片段句Mj={wj1,wj2,…wjn},送入到循环神经网络中,其中n表示片段句的长度,wji表示片段句j第i个位置的字;
S202、取最后一个时间步的输出表示
Figure BDA0003378377670000031
向量为片段句Mj的整体表征,其中
Figure BDA0003378377670000032
R表示实数空间,d表示循环神经网络的隐层维度;
S203、给定标签句描述集合L={l1,l2,…,lk},其中k表示标签的数量,li表示第i个标签的描述;
S204、对于每一个标签描述lt,送入到循环神经网络中,取最后一个时间步的输出表示
Figure BDA0003378377670000037
为标签描述lt的整体表征,其中
Figure BDA0003378377670000033
R表示实数空间,d表示循环神经网络的隐层维度。
进一步,所述步骤S3中,对金融文本片段句和标签描述集合进行相似度表征的具体方法为:对第t个标签描述表征
Figure BDA0003378377670000034
通过分别计算与金融文本q个片段句表征集合
Figure BDA0003378377670000035
的余弦相似度,得到标签t与金融文本的相似度表征
Figure BDA0003378377670000036
Xt∈Rq,其中,R表示实数空间,q表示片段句的数量。
进一步,所述步骤S3中,进行分类训练得到关键信息句抽取分类辅助模型的方法为:将
Figure BDA00033783776700000410
送入全连接层,用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。
进一步,所述步骤S4的具体方法为:在得到关键信息句抽取分类辅助模型后,根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征
Figure BDA0003378377670000041
取前10%的片段句作为关于标签t的新关键文本
Figure BDA0003378377670000042
其中
Figure BDA00033783776700000411
表示前10%的片段句中的第i句,c表示关于标签t的新关键文本的关键句数量。
进一步,所述步骤S5的具体方法为:对于标签t的关键文本
Figure BDA0003378377670000043
构建输入文本Tt
Figure BDA0003378377670000044
其中
Figure BDA0003378377670000045
表示对于标签t的第i个关键句,wij表示第i个关键句的第j个字,u1表示未训练字符,ut表示标签t的训练字符,cls、sep为BERT预定义标识符;
将Tt送入BERT的词向量编码层后得到
Figure BDA0003378377670000046
Figure BDA0003378377670000047
其中ecls
Figure BDA00033783776700000413
eu1
Figure BDA0003378377670000048
esep为cls,ut,u1,
Figure BDA0003378377670000049
sep经过BERT词向量编码后的向量;
再用关键信息句抽取分类辅助模型关于片段句
Figure BDA00033783776700000412
的整体表征替换eu1;后送入BERT模型后进行二分类,即可得到该金融文本是否属于舆情标签t。
本发明还公开了一种基于关键信息抽取的金融舆情细分方面检测设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明的有益效果:
本发明通过将金融文本分割为片段句,并将标签描述和片段句交互建立关键信息句抽取辅助模型,然后再抽取关键信息句,构建预训练模型输入;整个过程中去除了金融文本的冗余信息,并利用标签与片段句的交互,有效提高了金融舆情方面检测的准确率。
附图说明
图1是本发明基于关键信息抽取的金融舆情细分方面检测方法流程图;
图2是实施例1步骤101中对金融文本数据和金融舆情标签描述集合进行预处理的实施例图;
图3是实施例1步骤102和103中提供的关键信息句抽取分类辅助模型的模型图;
图4是实施例1步骤104中提供的利用关键信息句抽取辅助模型计算文本片段句对标签描述集合重要程度,选取标签关键句的实施例图。
具体实施方式
以下将结合附图对本发明进行详细说明:
实施例1、
本实施例为一种基于关键信息抽取的金融舆情细分方面检测方法,如图1所示,该方法包括:
步骤101、对金融文本数据和金融舆情标签描述集合进行预处理,具体如下:
对于金融文本来讲,文本冗长多变,然而要识别出是否描述关于某类舆情,只与金融文本某些语句相关,首先对金融文本进行预处理划分成片段句,具体的,首先用中文标点符号分割成句,然后把前一句和下一句输入预训练模型BERT中,利用预训练模型的预训练任务输出的是否是下一句概率,若概率大于0.8,即80%,将前一句和下一句进行合并为片段句,以此来组成金融文本的片段句,若概率小于等于80%,则将当前句和下一句都当做不同的片段句,然后再在每个片段句尾添加字符[s1]用于后续获取片段句整体表征,在每一个金融舆情标签描述后添加字符[s2]用于获取标签描述整体表征。
对金融文本数据和金融舆情标签描述集合进行预处理如图2所示,对于一条文本根据中文标点划分有5个句子,然后依次相邻组合输入预训练模型BERT,并获取预训练模型的预训练任务输出的概率,若概率大于80%,将前一句和下一句进行合并为片段句,例中,第一句和第二句合并为新的片段句,第三句和第四句合并为新的片段句,第五句单独为新的片段句,并在片段句后添加[s1];对于三个标签描述句,直接在句尾添加字符[s2]。
步骤102、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;具体如图3所示,将文本的片段句和标签句通过循环神经网络进行编码,得到片段句表征,本实施例中给定输入的一个文本q个片段句集合X={M1,M2,…,Mq},此例q取3,对每一个片段句Mj={wj1,wj2,…,wjn},送入到到循环神经网络中,其中n表示片段句的长度,wji表示片段句j第i个位置的字,取最后一个时间步的输出表示
Figure BDA0003378377670000063
向量为片段句Mj的整体表征,其中
Figure BDA0003378377670000061
R表示实数空间,d表示循环神经网络的隐层维度;给定标签句描述集合L={l1,l2,…,lk},其中k表示标签的数量,此例中k取3,li表示第i个标签的描述,对于每一个标签描述lt,送入到循环神经网络中,取最后一个时间步的输出表示
Figure BDA0003378377670000064
为标签描述lt的整体表征,其中
Figure BDA0003378377670000062
R表示实数空间,d表示循环神经网络的隐层维度。
步骤103、对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;
关键信息句抽取分类辅助模型是用于后续计算标签与片段句的相似度进行片段筛选,如图3所示,本实施例是对文本片段句和标签描述集合进行相似度表征,后进行分类训练得到关键信息句抽取分类辅助模型;对于第t个标签描述表征
Figure BDA0003378377670000071
通过分别计算与文本q个片段句表征集合
Figure BDA0003378377670000072
的余弦相似度得到标签t与文本的相似度表征
Figure BDA0003378377670000073
Xt∈Rq,R表示实数空间,q表示片段句的数量;此实施例中对于3个标签和3个片段都会得到对应的相似度特征,后送入全连接层,用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。
步骤104、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;具体为:
在训练得到关键信息句抽取分类辅助模型后,利用关键信息句抽取辅助模型计算文本片段句对标签描述集合重要程度,选取标签关键句即可排除冗余信息,保留关键信息,本实施例如图4所示,在得到关键信息句抽取分类辅助模型后,根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征
Figure BDA0003378377670000074
取前10%的片段句作为关于标签t的新关键文本,表示为
Figure BDA0003378377670000075
其中
Figure BDA0003378377670000079
表示前10%的片段句中的第i句,c表示关于标签t的新关键文本的关键句数量,在此例中,片段句的数量q和标签的数量都是3。
步骤105、构建标签关键句组合输入金融文本,进行细分舆情分类。
具体为:在得到关键片段句后,构建标签关键句组合输入文本,进行标签文本分类,对于标签t的关键文本:
Figure BDA0003378377670000076
构建输入文本为
Figure BDA0003378377670000077
其中
Figure BDA0003378377670000078
表示对于标签t的第i个关键句,wij表示第i个关键句的第j个字,u1表示未训练字符,ut表示标签t的训练字符,cls、sep为BERT预定义标识符;将T送入BERT的词向量编码层后得到:
Figure BDA0003378377670000081
其中ecls
Figure BDA0003378377670000085
eu1
Figure BDA0003378377670000082
esep为cls,ut,u1,
Figure BDA0003378377670000083
sep经过BERT词向量编码后的向量;用关键信息句抽取分类辅助模型关于片段句
Figure BDA0003378377670000084
的整体表征替换eu1;后送入BERT模型后进行二分类,即可得到该文本是否属于舆情标签t,对于有N个舆情标签描述,模型会输出N个二分类结果分别判断。
实施例2、
本实施例还公开了一种基于关键信息抽取的金融舆情细分方面检测设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例1方法的步骤。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (9)

1.基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:包括以下步骤,
S1、对金融文本数据和金融舆情标签描述集合进行预处理;
S2、利用循环神经网络对金融文本片段句和金融舆情标签句进行编码,得到片段句表征;
S3、对金融文本片段句和金融舆情标签描述集合进行相似度表征,再进行分类训练,得到关键信息句抽取分类辅助模型;
S4、利用关键信息句抽取分类辅助模型计算金融文本片段句对金融舆情标签描述集合的重要程度,并选取标签关键句;
S5、构建标签关键句组合输入金融文本,进行细分舆情分类。
2.根据权利要求1所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S1中,在预处理时,对原数据集D的所有金融文本进行划分,将每条金融文本按照中文分隔符分割成句表示,并按连贯概率进行合并,获得片段句。
3.根据权利要求2所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S1中,按连贯概率进行合并的方式具体为,将当前句和下一句拼接送入预训练BERT模型,根据预训练BERT模型的输出是否是下一句的概率,得到语句连贯概率,若概率大于80%,则拼接当前句和下一句,作为新的片段句,若概率小于等于80%,则将当前句和下一句都当做不同的片段句;再在片段句的句尾添加预定义学习字符[s1],对各金融舆情类型标签描述句的句尾添加预定义学习字符[s2]。
4.根据权利要求3所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S2的具体方法为,
S201、给定输入的一个金融文本q个片段句集合X={M1,M2,…,Mq},对每一个片段句Mj={wj1,wj2,…,wjn},送入到循环神经网络中,其中n表示片段句的长度,wji表示片段句j第i个位置的字;
S202、取最后一个时间步的输出表示
Figure FDA0003378377660000021
向量为片段句Mj的整体表征,其中
Figure FDA0003378377660000022
R表示实数空间,d表示循环神经网络的隐层维度;
S203、给定标签句描述集合L={l1,l2,…,lk},其中k表示标签的数量,li表示第i个标签的描述;
S204、对于每一个标签描述lt,送入到循环神经网络中,取最后一个时间步的输出表示
Figure FDA0003378377660000023
为标签描述lt的整体表征,其中
Figure FDA0003378377660000024
R表示实数空间,d表示循环神经网络的隐层维度。
5.根据权利要求4所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S3中,对金融文本片段句和标签描述集合进行相似度表征的具体方法为,对第t个标签描述表征
Figure FDA0003378377660000025
通过分别计算与金融文本q个片段句表征集合
Figure FDA0003378377660000026
的余弦相似度,得到标签t与金融文本的相似度表征
Figure FDA0003378377660000027
Xt∈Rq,其中,R表示实数空间,q表示片段句的数量。
6.根据权利要求5所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S3中,进行分类训练得到关键信息句抽取分类辅助模型的方法为,将
Figure FDA0003378377660000028
送入全连接层,用二分类交叉熵进行分类训练得到关键信息句抽取分类辅助模型。
7.根据权利要求6所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S4的具体方法为:在得到关键信息句抽取分类辅助模型后,根据关键信息句抽取分类辅助模型计算文本与标签t获得的相似度表征
Figure FDA0003378377660000029
取前10%的片段句作为关于标签t的新关键文本
Figure FDA0003378377660000031
其中
Figure FDA0003378377660000032
表示前10%的片段句中的第i句,c表示关于标签t的新关键文本的关键句数量。
8.根据权利要求7所述的基于关键信息抽取的金融舆情细分方面检测方法,其特征在于:所述步骤S5的具体方法为:对于标签t的关键文本
Figure FDA0003378377660000033
构建输入文本Tt
Figure FDA0003378377660000034
其中
Figure FDA0003378377660000035
表示对于标签t的第i个关键句,wij表示第i个关键句的第j个字,u1表示未训练字符,ut表示标签t的训练字符,cls、sep为BERT预定义标识符;
将Tt送入BERT的词向量编码层后得到
Figure FDA0003378377660000036
Figure FDA0003378377660000037
其中ecls
Figure FDA0003378377660000038
eu1
Figure FDA0003378377660000039
esep为cls,ut,u1,
Figure FDA00033783776600000310
sep经过BERT词向量编码后的向量;
再用关键信息句抽取分类辅助模型关于片段句
Figure FDA00033783776600000311
的整体表征替换eu1;后送入BERT模型后进行二分类,即可得到该金融文本是否属于舆情标签t。
9.基于关键信息抽取的金融舆情细分方面检测设备,其特征在于:包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-8所述方法的步骤。
CN202111425815.0A 2021-11-26 2021-11-26 基于关键信息抽取的金融舆情细分方面检测方法和设备 Pending CN114398480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111425815.0A CN114398480A (zh) 2021-11-26 2021-11-26 基于关键信息抽取的金融舆情细分方面检测方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111425815.0A CN114398480A (zh) 2021-11-26 2021-11-26 基于关键信息抽取的金融舆情细分方面检测方法和设备

Publications (1)

Publication Number Publication Date
CN114398480A true CN114398480A (zh) 2022-04-26

Family

ID=81225412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111425815.0A Pending CN114398480A (zh) 2021-11-26 2021-11-26 基于关键信息抽取的金融舆情细分方面检测方法和设备

Country Status (1)

Country Link
CN (1) CN114398480A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统
CN111291572A (zh) * 2020-01-20 2020-06-16 Oppo广东移动通信有限公司 一种文字排版方法、装置及计算机可读存储介质
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
WO2021047286A1 (zh) * 2019-09-12 2021-03-18 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047286A1 (zh) * 2019-09-12 2021-03-18 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统
CN111291572A (zh) * 2020-01-20 2020-06-16 Oppo广东移动通信有限公司 一种文字排版方法、装置及计算机可读存储介质
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FEI DING等: "A fusion model for multi-label emotion classification based on BERT and topic clustering", 《INTERNATIONAL SYMPOSIUM ON ARTIFICIAL INTELLIGENCE AND ROBOTICS 2020》, 12 October 2020 (2020-10-12), pages 98 - 111 *
周阳: "互联网金融舆情监控系统", 《重庆邮电大学硕士学位论文 》, 23 May 2024 (2024-05-23), pages 1 - 75 *
郑潮阳: "基于深度学习的文本多标签预测及问答匹配方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, 15 January 2019 (2019-01-15), pages 138 - 5021 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983270A (zh) * 2022-12-02 2023-04-18 重庆邮电大学 一种电商商品属性智能抽取方法
CN115983270B (zh) * 2022-12-02 2024-05-03 芽米科技(广州)有限公司 一种电商商品属性智能抽取方法
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN112989841B (zh) 一种用于突发事件新闻识别与分类的半监督学习方法
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112667940B (zh) 基于深度学习的网页正文抽取方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN114398480A (zh) 基于关键信息抽取的金融舆情细分方面检测方法和设备
CN113220768A (zh) 基于深度学习的简历信息结构化方法及系统
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN115391570A (zh) 一种基于方面的情感知识图谱构建方法及装置
CN111782793A (zh) 智能客服处理方法和系统及设备
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114357167B (zh) 基于Bi-LSTM-GCN的多标签文本分类方法和系统
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN115481635A (zh) 一种地址要素解析方法和系统
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN117591672A (zh) 一种基于粗细粒度数据增强的虚假新闻识别方法与装置
CN117034948B (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240904

Address after: No. 301, 3rd Floor, Building 10, No. 4 Chegongzhuang Street, Xicheng District, Beijing 100032

Applicant after: Guoxin Smart Technology (Beijing) Co.,Ltd.

Country or region after: China

Address before: 400065 No. 2, Chongwen Road, Nan'an District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China