CN110502748A - 文本主题抽取方法、装置及计算机可读存储介质 - Google Patents

文本主题抽取方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110502748A
CN110502748A CN201910659924.5A CN201910659924A CN110502748A CN 110502748 A CN110502748 A CN 110502748A CN 201910659924 A CN201910659924 A CN 201910659924A CN 110502748 A CN110502748 A CN 110502748A
Authority
CN
China
Prior art keywords
text
feature words
vector
vector collection
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910659924.5A
Other languages
English (en)
Other versions
CN110502748B (zh
Inventor
金戈
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910659924.5A priority Critical patent/CN110502748B/zh
Priority to PCT/CN2019/116554 priority patent/WO2021012485A1/zh
Publication of CN110502748A publication Critical patent/CN110502748A/zh
Application granted granted Critical
Publication of CN110502748B publication Critical patent/CN110502748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种人工智能技术,揭露了一种文本主题抽取方法,包括:接收文本数据集,对所述文本数据集进行预处理操作;对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。本发明还提出一种文本主题抽取装置以及一种计算机可读存储介质。本发明实现了文本主题的高效提取。

Description

文本主题抽取方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于基于变焦神经网络的文本主题抽取方法、装置及计算机可读存储介质。
背景技术
结构信息在自然语言理解中非常重要。目前的一些基于神经网络的模型获取局部句法信息的能力有限,不能很好地利用文档的高层和大规模结构,通常,文本中的这一信息包含了作者表达信息的策略,在构建有效的表达方式和形成适当的输出模式方面,对文本理解是有价值的。目前对于文本主题的提取主要利用LDA主题提取算法,LDA主题提取算法利用文档的隐含语义信息来提取关键词,但是主题模型提取的关键词比较宽泛,不能很好的反应文档主题。另外,对于LDA模型的时间复杂度较高,需要大量的实践训练。
发明内容
本发明提供一种文本主题抽取方法、装置及计算机可读存储介质,其主要目的在于当用户在进行文本提取时,给用户呈现高效的文本提取结果。
为实现上述目的,本发明提供的一种文本主题抽取方法,包括:
文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
可选地,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中,所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
可选地所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
可选地,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
可选地,所述通过预先构建变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的隐藏状态序列,从而得到所述文本数据集的主题,包括:
通过隐马尔科夫对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集;
利用所述变焦神经网络的长短期记忆网络对稀疏操作后的所述文本向量集进行解码,通过所述长短期记忆网络的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率高低进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。
此外,为实现上述目的,本发明还提供一种文本主题抽取装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文本主题抽取程序,所述文本主题抽取程序被所述处理器执行时实现如下步骤:
文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
可选地,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中,所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
可选地所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
可选地,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本主题抽取程序,所述文本主题抽取程序可被一个或者多个处理器执行,以实现如上所述的文本主题抽取方法的步骤。
本发明提出的文本主题抽取方法、装置及计算机可读存储介质,在用户进行文本主题提取时,结合对接收的文本数据集的处理以及利用预先构建的变焦神经网络模型对处理后的所述文本数据集进行解码,获得所述文本数据集提取的文本主题,可以给用户呈现出高效的文本主题提取结果。
附图说明
图1为本发明一实施例提供的文本主题抽取方法的流程示意图;
图2为本发明一实施例提供的文本主题抽取装置的内部结构示意图;
图3为本发明一实施例提供的文本主题抽取装置中文本主题抽取程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本主题抽取方法。参照图1所示,为本发明一实施例提供的文本主题抽取方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,文本主题抽取方法包括:
S1、接收文本数据集,对所述文本数据集进行预处理操作,得到文本向量数据集。
本发明较佳实施例中,所述文本数据集通过以下两种方式得到:方式一:通过搜索引擎按照预设的关键字词进行搜索获取得到;方式二:通过访问各大语料库官网进行得到。例如,所述语料库官网可以为北京大学中国语言学研究中心。进一步地,本发明较佳实施例所述预处理操作包括去重、分词、去停用词、以及特征词权重计算,本发明通过所述预处理操作将所述文本数据集转换为向量空间模型:di=(w1,w2,...,wn),其中,di表示所述文本数据集中第i个数据,wj为数据i中第j个特征项的权重。
详细的,所述预处理操作具体实施步骤如下所示:
a、去重:获取得到的所述文本数据集中存在重复的文本数据时,会降低文本分类的精度,因此,本发明较佳实施例首先对所述文本数据集执行去重操作。
优选地,本发明通过欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文本数据。当两个文本数据之间的距离小于预设距离阈值,则删除其中一个文本数据。
b、分词:本发明通过预设的策略将所述文本数据集的数据与词典中的词条进行匹配,得到所述文本数据集的特征词,并将所述特征词用空格符号隔开。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。
c、去停用词:所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。本发明通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据集中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
d、特征词权重计算:本发明通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。详细地,计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wj的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
S2、对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集。
本发明较佳实施例通过文本层次化编码器对预处理操作后的所述文本数据集进行编码。
所述文本层次化编码器包含字嵌入层、第一层bi-LSTM以及第二层bi-LSTM,其中,所述字嵌入层用于生成所述文本词向量集,所述第一层bi-LSTM用于接收所述词向量集作为输入并生成所述文本句子向量集,第二个bi-LSTM层接收所述文本句子向量集作为输入并文本段落向量集。进一步地,本发明通过所述生成的词向量集、句子向量集以及段落向量集建立文本向量集。
本发明优选实施例通过word2vec对所述文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集。所述word2vec是一群用来产生词向量的相关模型。详细地,所述文本层次化编码器操作步骤为:利用独热码(one-hot)形式将所述文本数据集进行量化,得到词汇表向量,将所述词汇表向量输入至所述word2vec中,利用所述word2vec模型的隐藏层对所述词汇表向量进行压缩处理,形成低维向量,得到所述文本词向量集。
进一步地,所述bi-LSTM为双向的LSTM(Long Short-Term Memory,长短期记忆网络),即前向LSTM和后向LSTM,用于捕捉文本句子上下文的信息。详细地,将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集。其中,所述最大池化操作计算公式如下所示:
其中,表示输入的单词向量,表示通过最大池化操作获得的一个固定长度的句子向量,其长度和j有关,Rs表示层次记忆的句子分量。
同理,本发明较佳实施例利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
S3、对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本标签序列,从而得到所述文本数据集的主题。
本发明较佳实施例中,所述稀疏操作通过自然语言文本的上文内容的“写作习惯”特征和已经预测出的标签序列,对所述自然语言文本中的下文标签规则进行推理出建议标签。例如,在大量的垂直领域文本中,常常出现一些有序列举过程:“1.……2.……3.……”。所述有序符号往往成组出现,而且对应内容是等位并列关系,一般具有相同标签或者相同结构标签。在解码过程中,本发明综合上个序号内容的处理方式,给出下个序号内容处理的最佳路径并以稀疏向量的形式输入到所述变焦神经网络内,使其可以更加高效地处理数据。
进一步地,所述变焦神经网络是一个序列决策模型,即一个循环神经网络模型。本发明通过搭建LSTM的变焦神经网络对稀疏操作后的所述文本向量集进行解码。所述LSTM通过控制输入门和输出门达到保护和控制记忆单元的效果。所述输入门和输出门用于允许LSTM的记忆单元长时间存储和访问序列信息,减少梯度消失问题。当所述输入门保持关闭(即激活值接近0),则新的输入不会进入所述变焦神将网络,所述变焦神经网络中的记忆单元会一直保持开始的激活状态,于是,可以控制所述变焦神经网络模型什么时候接受新的数据,什么时候拒绝新的数据进入。
详细地,本发明通过隐马尔科夫(HMM)对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集,其中,所述标签集用于判断下述LSTM输出的文本隐藏状态序列的标准。所述HMM是一种关于时序的概率模型,描述一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个因观测而产生的随机序列的过程。例如,将输入的文本向量序列作为观测序列Ak=(a1,a2,...an),根据所述隐马尔科夫R=(X,Z,β),所述R=(X,Z,β)是一个三元组用于来简洁的表示一个隐马尔可夫模型,当给定观测序列条件概率P(Y|A)时,建立所述输入的文本向量的隐藏状态序列标签为:Yk=(y1,y2,...yk)。
进一步,本发明较佳实施例利用所述变焦神经网络的LSTM对稀疏操作后的所述文本向量集进行解码,通过所述LSTM的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。所述softmax激活函数是对逻辑回归的推广,用于处理多分类问题。所述softmax激活函数核心公式为:式中xj表示生成的标签为j,其中k表示共有k种标签。
进一步地,本发明较佳实施例还可以包括通过在所述LSTM中构建损失函数进行不断提高所述LSTM的性能。所述损失函数用来评价网络模型输出的预测值与真实值Y之间的差异。其中,当损失函数值越小,网络模型的性能越好。优选地,本发明通过来表示损失函数,根据深度学习中神经元基本公式,所述LSTM各层输入、输出为:
其中,为第1层网络第i个神经元的输入,Wsi-1为第1层网络第i个神经元到第l+1层网络中第j个神经元的链接,Cj为输出层各单元的输出值,本发明根据所述输入输出公式,并利用MSE(Mean Square Error,均方误差)建立损失函数其中,本发明通过ReLU函数relu(x)=max(0,x)缓解LSTM梯度消散问题,所述ReLU函数满足仿生学中的稀疏性,只有当输入值高于一定数目时才激活该神经元节点,当输入值低于0时进行限制,当输入上升到某一阙值以上时,函数中自变量与因变量呈线性关系。
进一步地,本发明通过梯度下降算法进行损失函数参数值的更新。所述梯度下降算法是神经网络模型训练最常用的优化算法。详细地,为找到所述损失函数的最小值,需要沿着与梯度向量相反的方向-dL/dy更新变量L,这样可以使得梯度减少最快,直至损失收敛至最小值,其中,参数更新公式为:L=L-α dL/dy,α表示学习率。
发明还提供一种文本主题抽取装置。参照图2所示,为本发明一实施例提供的文本主题抽取装置的内部结构示意图。
在本实施例中,所述文本主题抽取装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该文本主题抽取装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文本主题抽取装置1的内部存储单元,例如该文本主题抽取装置1的硬盘。存储器11在另一些实施例中也可以是文本主题抽取装置1的外部存储设备,例如文本主题抽取装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括文本主题抽取装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文本主题抽取装置1的应用软件及各类数据,例如文本主题抽取程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本主题抽取程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在文本主题抽取装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及文本主题抽取程序01的文本主题抽取装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对文本主题抽取装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有文本主题抽取程序01;处理器12执行存储器11中存储的文本主题抽取程序01时实现如下步骤:
步骤一、接收文本数据集,对所述文本数据集进行预处理操作,得到文本向量数据集。
本发明较佳实施例中,所述文本数据集通过以下两种方式得到:方式一:通过搜索引擎按照预设的关键字词进行搜索获取得到;方式二:通过访问各大语料库官网进行得到。例如,所述语料库官网可以为北京大学中国语言学研究中心。进一步地,本发明较佳实施例所述预处理操作包括去重、分词、去停用词、以及特征词权重计算,本发明通过所述预处理操作将所述文本数据集转换为向量空间模型:di=(w1,w2,...,wn),其中,di表示所述文本数据集中第i个数据,wj为数据i中第j个特征项的权重。
详细的,所述预处理操作具体实施步骤如下所示:
a、去重:获取得到的所述文本数据集中存在重复的文本数据时,会降低文本分类的精度,因此,本发明较佳实施例首先对所述文本数据集执行去重操作。
优选地,本发明通过欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文本数据。当两个文本数据之间的距离小于预设距离阈值,则删除其中一个文本数据。
b、分词:本发明通过预设的策略将所述文本数据集的数据与词典中的词条进行匹配,得到所述文本数据集的特征词,并将所述特征词用空格符号隔开。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。
c、去停用词:所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。本发明通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据集中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
d、特征词权重计算:本发明通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。详细地,计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
步骤二、对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集。
本发明较佳实施例通过文本层次化编码器对预处理操作后的所述文本数据集进行编码。
所述文本层次化编码器包含字嵌入层、第一层bi-LSTM以及第二层bi-LSTM,其中,所述字嵌入层用于生成所述文本词向量集,所述第一层bi-LSTM用于接收所述词向量集作为输入并生成所述文本句子向量集,第二个bi-LSTM层接收所述文本句子向量集作为输入并文本段落向量集。进一步地,本发明通过所述生成的词向量集、句子向量集以及段落向量集建立文本向量集。
本发明优选实施例通过word2vec对所述文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集。所述word2vec是一群用来产生词向量的相关模型。详细地,所述文本层次化编码器操作步骤为:利用独热码(one-hot)形式将所述文本数据集进行量化,得到词汇表向量,将所述词汇表向量输入至所述word2vec中,利用所述word2vec模型的隐藏层对所述词汇表向量进行压缩处理,形成低维向量,得到所述文本词向量集。
进一步地,所述bi-LSTM为双向的LSTM(Long Short-Term Memory,长短期记忆网络),即前向LSTM和后向LSTM,用于捕捉文本句子上下文的信息。详细地,将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集。其中,所述最大池化操作计算公式如下所示:
其中,表示输入的单词向量,表示通过最大池化操作获得的一个固定长度的句子向量,其长度和j有关,Rs表示层次记忆的句子分量。
同理,本发明较佳实施例利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
步骤三、对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本标签序列,从而得到所述文本数据集的主题。
本发明较佳实施例中,所述稀疏操作通过自然语言文本的上文内容的“写作习惯”特征和已经预测出的标签序列,对所述自然语言文本中的下文标签规则进行推理出建议标签。例如,在大量的垂直领域文本中,常常出现一些有序列举过程:“1.……2.……3.……”。所述有序符号往往成组出现,而且对应内容是等位并列关系,一般具有相同标签或者相同结构标签。在解码过程中,本发明综合上个序号内容的处理方式,给出下个序号内容处理的最佳路径并以稀疏向量的形式输入到所述变焦神经网络内,使其可以更加高效地处理数据。
进一步地,所述变焦神经网络是一个序列决策模型,即一个循环神经网络模型。本发明通过搭建LSTM的变焦神经网络对稀疏操作后的所述文本向量集进行解码。所述LSTM通过控制输入门和输出门达到保护和控制记忆单元的效果。所述输入门和输出门用于允许LSTM的记忆单元长时间存储和访问序列信息,减少梯度消失问题。当所述输入门保持关闭(即激活值接近0),则新的输入不会进入所述变焦神将网络,所述变焦神经网络中的记忆单元会一直保持开始的激活状态,于是,可以控制所述变焦神经网络模型什么时候接受新的数据,什么时候拒绝新的数据进入。
详细地,本发明通过隐马尔科夫(HMM)对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集,其中,所述标签集用于判断下述LSTM输出的文本隐藏状态序列的标准。所述HMM是一种关于时序的概率模型,描述一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个因观测而产生的随机序列的过程。例如,将输入的文本向量序列作为观测序列Ak=(a1,a2,...an),根据所述隐马尔科夫R=(X,Z,β),所述R=(X,Z,β)是一个三元组用于来简洁的表示一个隐马尔可夫模型,当给定观测序列条件概率P(Y|A)时,建立所述输入的文本向量的隐藏状态序列标签为:Yk=(y1,y2,...yk)。
进一步,本发明较佳实施例利用所述变焦神经网络的LSTM对稀疏操作后的所述文本向量集进行解码,通过所述LSTM的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。所述softmax激活函数是对逻辑回归的推广,用于处理多分类问题。所述softmax激活函数核心公式为:式中xj表示生成的标签为j,其中k表示共有k种标签。
进一步地,本发明较佳实施例还可以包括通过在所述LSTM中构建损失函数进行不断提高所述LSTM的性能。所述损失函数用来评价网络模型输出的预测值与真实值Y之间的差异。其中,当损失函数值越小,网络模型的性能越好。优选地,本发明通过来表示损失函数,根据深度学习中神经元基本公式,所述LSTM各层输入、输出为:
其中,为第1层网络第i个神经元的输入,Wsi-1为第1层网络第i个神经元到第l+1层网络中第j个神经元的链接,Cj为输出层各单元的输出值,本发明根据所述输入输出公式,并利用MSE(Mean Square Error,均方误差)建立损失函数其中,本发明通过ReLU函数relu(x)=max(0,x)缓解LSTM梯度消散问题,所述ReLU函数满足仿生学中的稀疏性,只有当输入值高于一定数目时才激活该神经元节点,当输入值低于0时进行限制,当输入上升到某一阙值以上时,函数中自变量与因变量呈线性关系。
进一步地,本发明通过梯度下降算法进行损失函数参数值的更新。所述梯度下降算法是神经网络模型训练最常用的优化算法。详细地,为找到所述损失函数的最小值,需要沿着与梯度向量相反的方向-dL/dy更新变量L,这样可以使得梯度减少最快,直至损失收敛至最小值,其中,参数更新公式为:L=L-αdL/dy,α表示学习率。
可选地,在其他实施例中,文本主题抽取程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述文本主题抽取程序在文本主题抽取装置中的执行过程。
例如,参照图3所示,为本发明文本主题抽取装置一实施例中的文本主题抽取程序的程序模块示意图,该实施例中,所述文本主题抽取程序可以被分割为文本处理模块10、文本编码模块20、文本解码模块30示例性地:
所述文本处理模块10用于:接收文本数据集,对所述文本数据集进行预处理操作。
所述文本编码模块20用于:对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集。
所述文本解码模块30用于:对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
上述文本处理模块10、文本编码模块20、文本解码模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本主题抽取程序,所述文本主题抽取程序可被一个或多个处理器执行,以实现如下操作:
接收文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
本发明计算机可读存储介质具体实施方式与上述文本主题抽取装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本主题抽取方法,其特征在于,所述方法包括:
接收文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
2.如权利要求1所述的文本主题抽取方法,其特征在于,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中:所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
3.如权利要求2所述的文本主题抽取方法,其特征在于,所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
4.如权利要求1所述的文本主题抽取方法,其特征在于,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
5.如权利要求1所述的文本主题抽取方法,其特征在于,所述通过预先构建变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的隐藏状态序列,从而得到所述文本数据集的主题,包括:
通过隐马尔科夫对稀疏操作后的所述文本向量集的隐藏状态序列建立标签集;
利用所述变焦神经网络的长短期记忆网络对稀疏操作后的所述文本向量集进行解码,通过所述长短期记忆网络的softmax激活函数输出预测的文本隐藏状态序列,根据所述建立的标签集对输出的隐藏状态序列按照匹配概率高低进行分类,并提取出概率高的文本隐藏状态序列,得到关键信息片段,从而得到文本的主题。
6.一种文本主题抽取装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的文本主题抽取程序,所述文本主题抽取程序被所述处理器执行时实现如下步骤:
接收文本数据集,对所述文本数据集进行预处理操作;
对预处理操作后的所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,根据所述文本词向量集、文本句子向量集以及文本段落向量集建立文本向量集;
对所述文本向量集进行稀疏操作,得到稀疏后的文本向量集,通过预先构建的变焦神经网络模型对稀疏操作后的所述文本向量集进行解码,输出所述文本向量集的文本隐藏状态序列,从而得到所述文本数据集的主题。
7.如权利要求6所述的文本主题抽取装置,其特征在于,所述预处理操作包括去重、分词、去停用词以及特征词权重计算;
其中:
所述去重包括:
利用欧式距离公式对所述文本数据集进行去重操作,所述欧式距离公式如下:
其中,d表示所述文本数据之间的距离,w1j和w2j分别为任意2个文档数据;
所述分词包括:
通过预设的策略将所述文本数据的数据与词典中的词条进行匹配,得到所述文本数据的特征词,并将所述特征词用空格符号隔开;
所述去停用词包括:
通过预先构建好的停用词表和所述特征词进行一一匹配,得到所述文本数据中的停用词,并将所述停用词删除;
所述特征词权重计算包括:
通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重。
8.如权利要求7所述的文本主题抽取装置,其特征在于,所述通过构建依存关系图计算所述特征词之间的关联强度,通过所述关联强度计算出所述特征词的重要度得分,得到所述特征词的权重,包括:
计算所述特征词中的任意两个特征词Wi和Wj的依存关联度:
其中,len(Wi,Wj)表示特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,tfidf(W)是词语W的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
得到特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
建立无向图G=(V,E),其中V是顶点的集合,E是边的集合;
计算出特征词W的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词重要度得分,得到所述特征词的权重。
9.如权利要求6所述的文本主题抽取装置,其特征在于,所述对所述文本数据集进行编码,得到文本词向量集、文本句子向量集以及文本段落向量集,包括:
通过word2vec对文本层次化编码器的字嵌入层进行初始化,生成所述文本词向量集;
将所述文本词向量集输入至所述文本层次化编码器的第一层bi-LSTM中,通过所述第一层bi-LSTM的最大池化操作,得到固定长度的句子向量集,从而得到所述文本句子向量集;
利用所述文本层次化编码器的第二层bi-LSTM对所述固定长度的句子向量集进行最大池化操作,得到所述文本段落向量集。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本主题抽取程序,所述文本主题抽取程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的文本主题抽取方法的步骤。
CN201910659924.5A 2019-07-19 2019-07-19 文本主题抽取方法、装置及计算机可读存储介质 Active CN110502748B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910659924.5A CN110502748B (zh) 2019-07-19 2019-07-19 文本主题抽取方法、装置及计算机可读存储介质
PCT/CN2019/116554 WO2021012485A1 (zh) 2019-07-19 2019-11-08 文本主题抽取方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910659924.5A CN110502748B (zh) 2019-07-19 2019-07-19 文本主题抽取方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110502748A true CN110502748A (zh) 2019-11-26
CN110502748B CN110502748B (zh) 2024-02-02

Family

ID=68586688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910659924.5A Active CN110502748B (zh) 2019-07-19 2019-07-19 文本主题抽取方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110502748B (zh)
WO (1) WO2021012485A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157853A (zh) * 2021-05-27 2021-07-23 中国平安人寿保险股份有限公司 问题挖掘方法、装置、电子设备及存储介质
CN113229810A (zh) * 2021-06-22 2021-08-10 西安超越申泰信息科技有限公司 一种人体行为识别方法、系统及计算机可读存储介质
CN115101032A (zh) * 2022-06-17 2022-09-23 北京有竹居网络技术有限公司 用于生成文本的配乐的方法、装置、电子设备和介质
CN115204149A (zh) * 2022-06-30 2022-10-18 广东坚美铝型材厂(集团)有限公司 基于hdp等价描述的文本主题提取方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180267956A1 (en) * 2017-03-17 2018-09-20 Adobe Systems Incorporated Identification of reading order text segments with a probabilistic language model
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN109933804A (zh) * 2019-03-27 2019-06-25 北京信息科技大学 融合主题信息与双向lstm的关键词抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528655A (zh) * 2016-10-18 2017-03-22 百度在线网络技术(北京)有限公司 文本主题识别方法和装置
CN109783794A (zh) * 2017-11-14 2019-05-21 北大方正集团有限公司 文本分类方法及装置
CN109766424B (zh) * 2018-12-29 2021-11-19 安徽省泰岳祥升软件有限公司 一种阅读理解模型训练数据的过滤方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180267956A1 (en) * 2017-03-17 2018-09-20 Adobe Systems Incorporated Identification of reading order text segments with a probabilistic language model
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109933804A (zh) * 2019-03-27 2019-06-25 北京信息科技大学 融合主题信息与双向lstm的关键词抽取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157853A (zh) * 2021-05-27 2021-07-23 中国平安人寿保险股份有限公司 问题挖掘方法、装置、电子设备及存储介质
CN113157853B (zh) * 2021-05-27 2024-02-06 中国平安人寿保险股份有限公司 问题挖掘方法、装置、电子设备及存储介质
CN113229810A (zh) * 2021-06-22 2021-08-10 西安超越申泰信息科技有限公司 一种人体行为识别方法、系统及计算机可读存储介质
CN115101032A (zh) * 2022-06-17 2022-09-23 北京有竹居网络技术有限公司 用于生成文本的配乐的方法、装置、电子设备和介质
WO2023241415A1 (zh) * 2022-06-17 2023-12-21 北京有竹居网络技术有限公司 用于生成文本的配乐的方法、装置、电子设备和介质
CN115204149A (zh) * 2022-06-30 2022-10-18 广东坚美铝型材厂(集团)有限公司 基于hdp等价描述的文本主题提取方法、设备及存储介质

Also Published As

Publication number Publication date
CN110502748B (zh) 2024-02-02
WO2021012485A1 (zh) 2021-01-28

Similar Documents

Publication Publication Date Title
WO2021068339A1 (zh) 文本分类方法、装置及计算机可读存储介质
CN110232114A (zh) 语句意图识别方法、装置及计算机可读存储介质
CN111753081B (zh) 基于深度skip-gram网络的文本分类的系统和方法
CN110502748A (zh) 文本主题抽取方法、装置及计算机可读存储介质
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111241828A (zh) 情感智能识别方法、装置及计算机可读存储介质
Mehmood et al. A precisely xtreme-multi channel hybrid approach for roman urdu sentiment analysis
Abramson et al. What's in a URL? Genre Classification from URLs
Xiong et al. XRR: Extreme multi-label text classification with candidate retrieving and deep ranking
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
Yu et al. Learning DALTS for cross‐modal retrieval
CN113239663A (zh) 一种基于知网的多义词中文实体关系识别方法
Liang et al. Asynchronous deep interaction network for natural language inference
Rasool et al. WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model
Zheng et al. PERD: Personalized emoji recommendation with dynamic user preference
Liu et al. Shengyan at VQA-Med 2020: An Encoder-Decoder Model for Medical Domain Visual Question Answering Task.
Gao et al. Chinese causal event extraction using causality‐associated graph neural network
CN111221942A (zh) 智能化文本对话生成方法、装置及计算机可读存储介质
Skobov et al. Video-to-hamnosys automated annotation system
Zhao et al. Commented content classification with deep neural network based on attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant