CN113378556B - 提取文本关键字的方法及装置 - Google Patents
提取文本关键字的方法及装置 Download PDFInfo
- Publication number
- CN113378556B CN113378556B CN202010115271.7A CN202010115271A CN113378556B CN 113378556 B CN113378556 B CN 113378556B CN 202010115271 A CN202010115271 A CN 202010115271A CN 113378556 B CN113378556 B CN 113378556B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- convolution
- target text
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种提取文本关键字的方法及装置,所述方法包括:获取待提取关键字的目标文本;利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,所述卷积神经网络模型用于对所述目标文本进行分类;基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,所述目标文本包括若干个分词,所述N为大于零的整数。本申请可以提取与文本分类强相关的关键字,同时降低了文本长度对关键字提取的影响,因而提升了关键字提取结果的准确度。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种提取文本关键字的方法及装置。
背景技术
目前,在诸如信息检索,问答系统,和推荐系统等人工智能技术领域,都有提取文本关键字的需求。通常情况下,采用自然语言处理技术对文本进行处理,提取到文本的关键字。
自然语言是人类智慧的结晶。虽然自然语言处理是人工智能中最为困难的问题之一,但是对自然语言处理的研究一直都是热点。当前提取文本关键字有多种方法,可分为以下几大类:
第一类,根据词的统计特征提取文本的关键字。例如,计算词在当前文本中的词频(Term Frequency,TF),以及在全部文本中的稀有度,即逆文本频率指数(InverseDocument Frequency,IDF),选取TF-IDF排名靠前的若干个词,也即TF-IDF位于top K的词作为当前文本的关键字。其中K为正整数。
第二类,根据词和词的关联提取文本的关键字。例如,计算一个词在全部文本中的被其他词“指向”的程度TextRank,将TextRank最大的前若干个词,也即TextRank位于top K的中心词作为关键字。或,计算一个词与其他词的点互信息,找到中心词与周边词关联度最大的前若干个词,也即关联度位于top K的中心词作为关键字。
第三类,根据词与主题的关联提取文本的关键字。根据各文本中词的分布,使用主题模型,例如文档主题生成模型(Latent Dirichlet Allocation,LDA)对文本进行分类,并提取文本类别所对应的词分布中概率最大的前若干个词,也即分布概率位于top K的词作为关键字。
第四类,根据词本身的属性,如词性、词的长度、或词在文中的位置等,作为关键字权重的修正。
上述的第一、二和四类方法都只是根据词本身的重要性来提取关键字,而忽略了词与文本主题的相关性,所提取的关键字难以获得较好准确度。第三类方法可以得到与文本主题相关的关键字,但是文本主题的提取与文本中的词分布有关。由于短文本中的词分布与长文本中的词分布往往有很大偏差,导致短文本的主题识别就不准确,相应的所提取的关键字也难以获得较好效果。
发明内容
本申请实施例提供了提取文本关键字的方法及装置,可以解决相关技术中关键字提取的准确度不够的问题。
第一方面,本申请实施例提供了一种提取文本关键字的方法,包括:
获取待提取关键字的目标文本;
利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,所述卷积神经网络模型用于对所述目标文本进行分类;
基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,所述目标文本包括若干个分词,所述N为大于零的整数。
本申请实施例,一方面,利用卷积神经网络模型挖掘出文本中不同分词的词义与文本分类的关系,由此对文本进行分类,继而根据分类结果反向定位出与文本类别强相关的关键字,因而提高了关键字提取的准确性。另一方面,由于关注对文本类别影响较大的分词,分词本身的词频和位置对结果影响不大,因而降低了文本长度对关键字提取结果的影响,使得本申请实施例不管对长文本还是短文本都适用,适应性广。
在第一方面的一种可能的实现方式中,利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,包括:先将所述目标文本转换成词向量矩阵,再将词向量矩阵输入训练后的卷积神经网络模型,得到目标文本的分类结果。
在第一方面的一种可能的实现方式中,利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,包括:先对目标文本进行分词处理,获得目标文本包括的若干个分词。再将每个分词转换成词向量,将各个分词对应的词向量拼接成词向量矩阵。最后将词向量矩阵输入训练后的卷积神经网络模型,得到各类别对应的概率预测值。
在第一方面的一种可能的实现方式中,所述卷积神经网络模型包括输入层,卷积层,池化层和全连接层,所述卷积层包括多个卷积核。
在第一方面的一种可能的实现方式中,所述利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,包括:将所述目标文本转换成词向量矩阵;将所述词向量矩阵经过所述输入层输入所述卷积层和所述池化层,所述池化层输出各个所述卷积核对应的卷积最大值;各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
在这种可能的实现方式中通过设置包括多个卷积核的卷积层,输出每个卷积核对应的卷积最大值,能够准确地反向定位出每个卷积核的卷积最大值位置,从而能够准确提取出关键字。
在第一方面的一种可能的实现方式中,所述卷积神经网络模型包括输入层,注意力模块,卷积层,池化层和全连接层,所述卷积层包括多个卷积核。
在第一方面的一种可能的实现方式中,所述利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,包括:将所述目标文本的文本内容转换成词向量矩阵;将所述目标文本的文本标题转换成标题向量。将所述词向量矩阵和所述标题向量经过所述输入层输入所述注意力模块,所述注意力模块利用所述标题向量对所述词向量矩阵进行加权处理,输出加权后的词向量矩阵。将加权后的所述词向量矩阵输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值;各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
在这种可能的实现方式中通过增加注意力机制,对文本内容的词向量矩阵增加了与文本标题的相关性权重,也就是说,以与标题的相关性对文本内容的分词进行了加权。因而定位出的关键字除了与文本类别强相关,还与文本标题相关,进一步提高了关键字提取结果的准确性。
在第一方面的一种可能的实现方式中,池化层为全局池化层。
在第一方面的一种可能的实现方式中,在训练卷积神经网络模型的过程中,对卷积层的输出添加L1范数;对所述全连接层的输出添加L2范数和Dropout正则化。
在这种实现方式中,在卷积层的输出添加L1范数,使得卷积层输出的矢量尽量稀疏,让卷积核倾向于学习特定的词义,压缩参与分类的卷积核的数量以减少卷积核的冗余。在全连接层添加L2范数和Dropout正则化可以解决卷积神经网络模型过拟合的问题。
在第一方面的一种可能的实现方式中,确定各类别对应的概率预测值中最大的前M个概率预测值,提取对前M个概率预测值的影响程度最大的前N个分词,作为所述目标文本的关键字,其中M为大于零的整数。
在第一方面的一种可能的实现方式中,确定所述卷积层中各个卷积核,对最大的前M个概率预测结果的影响程度,所述各个卷积核为卷积神经网络模型包括的卷积层中的卷积核,所述M为大于零的整数;提取影响程度最大的前N个卷积核,作为目标卷积核;将各个所述目标卷积核对应的目标分词作为所述目标文本的关键字,每个所述目标卷积核对应的目标分词为所述目标卷积核的卷积最大值位置所对应的分词。
第二方面,本申请实施例提供了一种提取文本关键字的装置,包括:
获取模块,用于获取待提取关键字的目标文本;
分类模块,用于利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,所述卷积神经网络模型用于对所述目标文本进行分类;
提取模块,用于基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,所述目标文本包括若干个分词,所述N为大于零的整数。
在第二方面的一种可能的实现方式中,所述卷积神经网络模型包括输入层,卷积层,池化层和全连接层,所述卷积层包括多个卷积核;
所述分类模块包括转换子模块,卷积子模块和分类子模块;
所述转换子模块,用于将所述目标文本转换成词向量矩阵;
所述卷积子模块,用于将所述词向量矩阵经过所述输入层输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值
所述分类子模块,用于各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
在第二方面的一种可能的实现方式中,所述卷积神经网络模型包括输入层,注意力模块,卷积层,池化层和全连接层,所述卷积层包括多个卷积核;
所述分类模块包括转换子模块,加权子模块,卷积子模块和分类子模块。
其中,所述转换子模块,用于将所述目标文本的文本内容转换成词向量矩阵;将所述目标文本的文本标题转换成标题向量;
所述加权子模块,用于将所述词向量矩阵和所述标题向量经过所述输入层输入所述注意力模块,所述注意力模块利用所述标题向量对所述词向量矩阵进行加权处理,输出加权后的词向量矩阵;
所述卷积子模块,用于将加权后的所述词向量矩阵输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值;
所述分类子模块,用于各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,使得所述终端设备实现如第一方面和第一方面可能的实现方式中任一所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面和第一方面可能的实现方式中任一所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面和第一方面可能的实现方式中任一所述的方法。
第六方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行第一方面中的方法。可选地,所述处理器可以包括神经网络处理器。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面中的方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的提取文本关键字的方法的应用场景;
图2A是本申请实施例提供的提取文本关键字的方法所适用于的终端设备的结构示意图;
图2B是本申请一实施例提供的提取文本关键字的方法所适用于的手机的结构示意图;
图3是本申请一实施例提供的提取文本关键字的方法的流程示意图;
图4是本申请另一实施例提供的提取文本关键字的方法的流程示意图;
图5是本申请另一实施例提供的提取文本关键字的方法的流程示意图;
图6是本申请另一实施例提供的提取文本关键字的方法的流程示意图;
图7是本申请另一实施例提供的提取文本关键字的方法的流程示意图;
图8是本申请一实施例提供的卷积神经网络模型的结构示意图;
图9A是本申请另一实施例提供的提取文本关键字的方法的流程示意图;
图9B是本申请一实施例提供的增加注意力模型的流程示意图;
图10是本申请一实施例提供的提取文本关键字的方法的应用场景;
图11是本申请一实施例提供的提取文本关键字的装置的结构示意图;
图12是本申请另一实施例提供的提取文本关键字的装置的结构示意图;
图13是本申请另一实施例提供的提取文本关键字的装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。
还应当理解,在本申请实施例中,“若干个”和“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
如在本申请说明书和所附权利要求书中所使用的那样,术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“若确定”或“若检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
先通过非限制示例对本申请实施例的应用场景进行举例说明。图1所示,为本申请实施例提供的关键字提取方法的应用场景示意图。
如图1所示,该应用场景包括用户终端11和服务器12。用户终端11与服务器12通过有线或无线的通信网络进行通信连接。服务器11安装有搜索引擎、问答系统、或推荐系统等。
无线通信网络包括但不限于无线上网(Wireless Fidelity,Wi-Fi)、紫蜂协议(ZigBee)、蓝牙、全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code DivisionMultiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、第五代移动通信网络(5th generationmobile networks,5G)和未来采用的通信网络等。
在一个非限制性示例中,用户通过用户终端11输入文本。或者,用户通过用户终端11输入语音,用户终端11将用户输入的语音转换成输入文本。用户终端11将输入文本发送至服务器12,服务器12对输入文本进行关键字提取,根据提取出的关键字反馈搜索结果或问答结果给用户终端11。或者,用户终端11对输入的文本进行关键字提取,将提取出的关键字发送给服务器12,服务器12根据提取出的关键字反馈搜索结果或问答结果给用户终端11。
在另一个非限制性示例中,服务器12的数据库中存储有用户关联的历史文本,历史文本包括历史搜索记录、问答记录或浏览记录等。从数据库获取用户相关的历史文本,提取历史文本中的关键字,作为用户标签。再根据用户标签为用户推荐内容。服务器12发送推荐内容至用户终端11。其中,数据库可以为与服务器12耦合的存储器中的数据库。例如,服务器12根据过去一段时间内用户关联的历史文本,提取出关键字作为用户标签。再根据用户标签,发送推荐内容至用户终端11。
在另一个非限制性示例中,用户终端11或服务器12对某一个或某一些目标文本提取关键字,获得目标文本对应的关键字,利用提取出的关键字对目标文本进行标记,以方便检索信息。例如,当服务器12针对一些目标文本提取关键字之后,对每个目标文本进行关键字标记。当用户终端11发送搜索或问答关键字至服务器12,服务器12根据文本标记的关键字,与搜索或问答关键字的匹配程度,反馈搜索或问答结果给用户终端11。
本申请实施例提供的提取关键字的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、独立的服务器、服务器集群、分布式服务器、或云服务器等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
例如,所述终端设备可以是WLAN中的站点(STAION,ST),可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、车联网终端、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、电视机顶盒(set top box,STB)、用户驻地设备(customer premise equipment,CPE)和/或用于在无线系统上进行通信的其它设备以及下一代通信系统,例如,5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network,PLMN)网络中的移动终端等。
作为示例而非限定,当所述终端设备为可穿戴设备时,该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,如智能手表或智能眼镜等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。
图2A为本申请一实施例提供的终端设备的结构示意图。如图2A所示,该实施例的终端设备2包括:至少一个处理器20(图2A中仅示出一个处理器)、存储器21以及存储在所述存储器21中并可在所述至少一个处理器20上运行的计算机程序22,所述处理器20执行所述计算机程序22时实现提取关键字的方法实施例中的步骤。
所述终端设备2可包括但不仅限于处理器20和存储器21。本领域技术人员可以理解,图2仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备2所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
以所述终端设备为手机为例。图2B示出的是与本申请实施例提供的手机的部分结构的框图。参考图2B,手机包括:射频(Radio Frequency,RF)电路210、存储器220、输入单元230、显示单元240、传感器250、音频电路260、无线保真(wireless fidelity,WiFi)模块270、处理器280、以及电源290等部件。本领域技术人员可以理解,图2B中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图2B对手机的各个构成部件进行具体的介绍:
RF电路210可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器280处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路210还可以通过无线通信网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统GSM、GPRS、CDMA、WCDMA、LTE、5G、电子邮件、或短消息服务(Short Messaging Service,SMS)等。
存储器220可用于存储软件程序以及模块,处理器280通过运行存储在存储器220的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元230可用于接收输入的数字或字符信息,以及产生与手机200的用户设置以及功能控制有关的键信号输入。具体地,输入单元230可包括触控面板231以及其他输入设备232。触控面板231,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板231上或在触控面板231附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板231可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器280,并能接收处理器280发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板231。除了触控面板231,输入单元230还可以包括其他输入设备232。具体地,其他输入设备232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元240可包括显示面板241,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板241。进一步的,触控面板231可覆盖显示面板241,当触控面板231检测到在其上或附近的触摸操作后,传送给处理器280以确定触摸事件的类型,随后处理器280根据触摸事件的类型在显示面板241上提供相应的视觉输出。虽然在图2B中,触控面板231与显示面板241是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板231与显示面板241集成而实现手机的输入和输出功能。
手机200还可包括至少一种传感器250,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板241的亮度,接近传感器可在手机移动到耳边时,关闭显示面板241和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路260、扬声器261,传声器262可提供用户与手机之间的音频接口。音频电路260可将接收到的音频数据转换后的电信号,传输到扬声器261,由扬声器261转换为声音信号输出;另一方面,传声器262将收集的声音信号转换为电信号,由音频电路260接收后转换为音频数据,再将音频数据输出处理器280处理后,经RF电路210以发送给比如另一手机,或者将音频数据输出至存储器220以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图2B示出了WiFi模块270,但是可以理解的是,其并不属于手机200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器280是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器220内的软件程序和/或模块,以及调用存储在存储器220内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器280可包括一个或多个处理单元;优选的,处理器280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器280中。
手机200还包括给各个部件供电的电源290(比如电池),优选的,电源可以通过电源管理系统与处理器280逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机200还可以包括摄像头。可选地,摄像头在手机200的上的位置可以为前置的,也可以为后置的,还可以为内置的,本申请实施例对此不作限定。
可选地,手机200可以包括单摄像头、双摄像头或三摄像头等,本申请实施例对此不作限定。
例如,手机200可以包括三摄像头,其中,一个为主摄像头、一个为广角摄像头、一个为长焦摄像头。
可选地,当手机200包括多个摄像头时,这多个摄像头可以全部前置,或者全部后置,或者一部分前置、另一部分后置,本申请实施例对此不作限定。
另外,尽管未示出,手机100还可以包括蓝牙模块等,在此不再赘述。
图3示出了本申请实施例提供的一种提取文本关键字的方法的实现流程图。所述提取文本关键字的方法适用于需要提取文本关键字的情形。所述提取文本关键字的方法应用于终端设备,可由配置于终端设备的提取文本关键字的装置执行。所述提取文本关键字的装置可由终端设备的软件、硬件、或软件和硬件的组合实现。作为示例而非限定,该提取文本关键字的方法可以应用于图1所示的用户终端或服务器中,还可以应用于具有图2A所示硬件结构的终端设备中,还可以应用于具有图2B所示硬件结构的手机中。优选地,该提取文本关键字的方法可以应用于服务器,例如独立的服务器、服务器集群、分布式服务器、或云服务器。如图3所示,所述提取文本关键字的方法包括步骤S310至步骤S330,各个步骤的具体实现原理如下。
S310,获取待提取关键字的目标文本。
在本申请实施例中,目标文本为待提取关键字的对象。例如,句子文本。
目标文本可以为终端设备即时获取到的文本,还可以为与终端设备耦合的存储器中存储的文本,还可以为从其他终端设备获取的文本。其中,终端设备耦合的存储器包括终端设备的内置存储器或外置存储器。
在本申请非限制性示例中,目标文本可以是用户通过终端设备的输入单元即时输入的文本;还可以是用户通过终端设备的音频采集单元即时采集到的语音数据;还可以是用户通过终端设备的摄像头即时拍摄到的包括文本的图片;还可以是用户通过终端设备的扫描装置即时扫描到的包括文本的图片;还可以是存储在与终端设备耦合的存储器中的文本;还可以是终端设备通过有线或无线网络从其它终端设备处所获取到的文本等。
需要说明的是,针对包括文本的图片,需要通过启用终端设备的图片识别功能提取图片中的文本作为目标文本。针对语音数据,需要通过启动终端设备的音频转文字功能识别语音数据中的文本作为目标文本。
在本申请一非限制性应用场景中,第一终端设备和第二终端设备进行交互以完成目标文本的关键字提取。第一终端设备获取到第二终端设备发送的目标文本,执行步骤S320至S330,以获得目标文本的关键字。或者,第一终端设备获取到第二终端设备发送的目标文本,响应于提取关键字指令,执行步骤S320至S330,以获得目标文本的关键字。其中,提取关键字指令可以在第一终端设备中触发;也可以在发送目标文本的第二终端设备中触发。
在提取关键字指令在第二终端设备中触发的情形下,提取关键字指令可以由第二终端设备的用户通过执行预设操作来触发。第二终端设备将提取关键字指令发送给第一终端设备,第一终端设备响应于提取关键字指令,执行步骤S320至S330,以获得目标文本的关键字。可选地,提取关键字指令可以包括目标文本。
在提取关键字指令在第一终端设备中触发的情形下,提取关键字指令可以由第一终端设备的用户执行预设操作来触发,还可以由第一终端设备主动触发。当第一终端设备接收到第二终端设备发送的待提取关键字的目标文本,第一终端设备的用户执行预设操作来触发提取关键字指令,或,第一终端设备主动触发提取关键字指令,执行步骤S320至S330,以获得目标文本的关键字。
其中,预设操作包括但不限于触屏操作,光标控制操作,语音控制操作等中的一种或几种的组合。光标控制操作包括通过键盘,鼠标,遥控杆,轨迹球,操作杆,触控面板等中的一种或几种进行的光标控制操作。在本示例性应用场景中,对触发提取关键字指令的方式不予限定。
S320,利用卷积神经网络模型对所述目标文本进行分类,获得分类结果。
在本申请实施例中,卷积神经网络模型为训练后的卷积神经网络模型。卷积神经网络模型用于对文本进行分类,获得分类结果。
作为本申请一非限制性示例,卷积神经网络模型的训练过程包括:获取多组样本数据,每组样本数据包括样本文本和该样本文本对应的类别标签;将所述样本数据分为训练样本集和测试样本集;根据所述训练样本集和所述测试样本集,训练卷积神经网络模型。
作为本申请另一非限制性示例,卷积神经网络模型的训练过程包括:获取多组样本数据,每组样本数据包括样本文本和该样本文本对应的类别标签;基于所述样本数据,利用正向传播算法和反向传播算法训练卷积神经网络模型。可选地,反向传播算法可以基于随机梯度下降;或,可以基于批量梯度下降;或,可以基于小批量梯度下降。
作为本申请另一非限制性示例,在训练卷积神经网络模型的过程中,对所述卷积神经网络模型的卷积层的输出添加L1范数。对所述卷积神经网络模型的全连接层的输出添加L2范数和丢弃(Dropout)正则化。其中,在全连接层添加L2范数和Dropout正则化可以解决卷积神经网络模型过拟合的问题。在卷积层的输出添加L1范数,即添加稀疏表示正则化项,使得卷积层输出的矢量尽量稀疏。如果没有添加对卷积核的稀疏化约束,一个分词的词义有可能分散的被卷积层的多个卷积核学习。而在提取关键字时,为了使得每个卷积核关注特定的词义,因而在示例中对卷积层的输出添加了稀疏表示正则化项,让卷积核倾向于学习特定的词义,压缩参与分类的卷积核的数量以减少卷积核的冗余。
需要说明的是,当终端设备为用户终端时,卷积神经网络模型的训练过程可以在服务器实现。当终端设备为服务器时,卷积神经网络模型的训练过程可以在服务器本地实现,还可以在与服务器通信的其他设备上实现。当终端设备在本地训练卷积神经网络模型,或者从其他设备获取训练过的卷积神经网络模型,并部署经过训练的卷积神经网络模型后,可以在终端设备实现对目标文本的关键字提取。
在步骤S320,利用卷积神经网络模型对所述目标文本进行分类,获得分类结果。卷积神经网络模型可以为二分类模型、三分类模型、或者更多类别的分类模型。也就是说,卷积神经网络模型可以输出两种分类结果、可以输出三种分类结果、或者可以输出大于两种分类结果。卷积神经网络模型的分类数量视卷积神经网络模型的具体结构而定,本申请对分类结果的数量不予限定。
通常情况下,卷积神经网络模型输出各个类别对应的概率预测结果,每个类别对应的概率预测结果表征目标文本属于该类别的概率。通常情况下,卷积神经网络模型将最大概率预测结果对应的类别作为目标文本的分类结果。
在本申请一些实施例中,卷积神经网络模型输出的,各个类别对应的概率预测结果之和为1;在本申请另一些实施例中,卷积神经网络模型输出的,各个类别对应的概率预测结果之和不为1。概率预测结果的和值是否为1,视卷积神经网络模型的输出层是否进行归一化而定,本申请对此不予限制。
卷积神经网络模型为以人工智能中机器学习技术为基础的深度学习模型。本申请实施例对卷积神经网络模型的具体结构不作任何限制。
S330,基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,所述目标文本包括若干个分词,所述N为大于零的整数。
其中,每个目标文本经过分词处理后,分成若干个单词项。
目标文本包括若干个分词。在本申请一些实施例中,分词包括单词项。在本申请另一些实施例中,分词包括单词项和任一相连单词项构成的词组,即分词包括单词项和词组。任一相连单词项可以包括相邻的两个单词项,也可以包括相连的三个单词项,还可以包括相连的多于三个单词项。
利用卷积神经网络模型挖掘各个分词的词义与文本分类的关系,由此获得目标文本的分类结果,也就是说获得目标文本的主题。基于目标文本的分类结果,提取对分类结果的影响程度最大的前N个分词。也就是说,根据目标文本的主题,反向定位出与主题强相关前N个分词,作为目标文本的关键字。
需要说明的是,N的取值可以为经验值。N的取值可以预先在系统中设置好,也可以根据需求由用户自行调整,还可以在用户调整之后将用户调整值设为系统默认值。本申请对N的取值不作具体限制。
本申请实施例,先利用卷积神经网络模型对目标文本进行分类,获得分类结果。然后基于分类结果,提取对分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字。一方面,利用卷积神经网络模型挖掘出文本中不同分词的词义与文本分类的关系,由此对文本进行分类,继而根据分类结果反向定位出与文本类别强相关的关键字,因而提高了关键字提取的准确性。另一方面,由于关注对文本类别影响较大的分词,分词本身的词频和位置对结果影响不大,因而降低了文本长度对关键字提取结果的影响,使得本申请实施例不管对长文本还是短文本都适用,适应性广。
在上述图3所示实施例的基础上,图4所示为本申请另一实施例提出的一种提取文本关键字的方法。在图3所示实施例的基础上,对图3所示实施例的步骤S320作了进一步优化。如图4所示,所述提取文本关键字的方法包括步骤S410至步骤S440。需要说明的是,图4所示实施例与图3所示实施例相同之处,此处不再赘述。
S410,获取待提取关键字的目标文本。
S420,将所述目标文本转换成词向量矩阵。
在本申请一些实施例中,可以通过词向量模型(或嵌入模型)将目标文本转换成词向量矩阵。词向量模型包括但不限于Word2Vec(Word to Vector)、ELMo(Embeddings fromLanguage Models)或BERT(Bidirectional Encoder Representation fromTransformers)等模型。本申请实施例通过步骤S420,把真实世界抽象存在的文本转换成可以进行数学公式操作的向量或矩阵。将数据处理成可由机器处理的数据,使得本申请能够实施。
需要说明的是,在利用词向量模型之前,需要完成对词向量模型的预训练,即预训练词向量。在本申请一些实施例中,在对词向量模型的训练过程中,为了获得更准确地得到文本对应的词向量矩阵,可以保留文本中的标点符号。在本申请一些实施例中,为了获得更准确地得到文本对应的词向量矩阵,不仅可以提取文本的单词项,还可以提取任一相连的单词项,即词组,训练词向量模型。
作为本申请一非限制性示例,以词向量模型为Word2Vec模型为例,对预训练Word2Vec模型进行说明。可以理解的是,本领域技术人员可以在本申请实施例的教导下,根据实际实施情况选用合适的词向量模型。本申请对此不做具体限定。
首先,准备目标语言的文本语料。其中,目标语言包括中文或外文,外文例如英文等。例如,通过网络爬虫技术爬取目标语言的文本语料。
然后,运用开源的分词工具,对每个文本语料进行分词,得到若干个单词项,也可以称为单词项序列。
再然后,计算相邻任一相连单词项的点互信息,若该相连单词项的点互信息大于或等于预设阈值,则提取该相连单词项作为词组。也就是说,词组为相连的若干个单词项的组合,词组包括的单词项个数为两个以上,词组包括二元词组和三元词组等。例如,计算相邻两个单词项的点互信息,若点互信息大于或等于预设阈值,则提取该相邻的两个单词项的组合,作为二元词组;计算相连的三个单词项的点互信息,若点互信息大于或等于预设阈值,则提取该相连的三个单词项的组合,作为三元词组;以此类推,得到大于三元或更长的词组。
其中,预设阈值为针对点互信息设置的数值,预设阈值的取值可以为经验值,可以预先在系统中设置好,也可以根据需求由用户自行调整,也可以在用户调整之后将用户的调整值设为系统默认值。本申请对预设阈值的取值不作具体限制。
作为一示例,对于相邻的单词项x和单词项y,其点互信息PMI(x;y)可由下式来计算:
PMI(x;y)=log[p(x|y)/p(x)],
其中,p(x|y)指的是单词项x和单词项y相邻出现的次数,与单词项y出现次数的比值,即单词项y出现的条件下,单词项y相邻位置出现单词项x的概率。p(x)指的是单词项x出现的次数,与文本语料中单词项总数目的比值,即单词项x出现的概率。若计算出的点互信息PMI(x;y)大于或等于预设阈值,则相邻的单词项x和单词项y的组合,作为二元词组。
最后,基于单词项和提取出的词组,训练Word2Vec模型。Word2Vec模型将单词项或词组映射成词向量,将单词项或词组与词向量的对应关系进行存储,存储于词向量数据库,这样就建立了词向量数据库。例如,训练可以采用连续词袋模型(Continuous Bag-of-Words,CBOW)的方式,通过背景单词项或词组,来预测目标单词项或词组。又如,Word2Vec模型可以将单词项或词组映射成长度为300的词向量。又如,每个词向量具有相同的长度,例如长度为Q的词向量,Q为正整数。
作为本申请另一非限制性示例,在前述示例的基础上,对文本语料进行分词处理时还可以增加词性标注。此外,还可以增加去停用词和/或去非特征词等步骤。例如,分词处理时,对词性进行标注,然后根据预设的停用词词典去除停用词,并且根据分词后的单词项的词性,去掉介词、方位词和语气词等非特征词,得到单词项序列。
基于上述示例,建立了词向量数据库,词向量数据库中存储了分词(包括单词项和词组)与词向量的对应关系。通过查找对应关系,就可以获取到分词对应的词向量。进而通过拼接目标文本包括的各个分词的词向量,构建目标文本的词向量矩阵。例如,目标文本包括L个分词,每个分词对应一个长度为Q的词向量。因此,将L个分词各自对应的词向量进行拼接,可以得到目标文本的L×Q维的词向量矩阵。
在本申请一些实施例中,如图5所示,将所述目标文本转换成词向量矩阵,包括步骤S510至S530。
S510,对所述目标文本进行分词处理,得到所述目标文本包括的若干个分词。
S520,将所述若干个分词中的每个分词转换成词向量。
S530,将所述若干个分词中各个分词对应的词向量拼接成词向量矩阵。
其中,对目标文本进行分词处理,得到目标文本的若干个单词项。
在一些实施例中,可以将分词处理得到的所有的单词项,作为目标文本包括的若干个分词,将每个分词转换成词向量,继而再将各个分词对应的词向量拼接成词向量矩阵。
在一些实施例中,可以去除单词项中的停用词,将剩余单词项作为目标文本包括的若干个分词。将每个分词转换成词向量,继而再将各个分词对应的词向量拼接成词向量矩阵。
在一些实施例中,可以去除单词项中的停用词和非特征词,将剩余单词项作为目标文本包括的若干个分词。将每个分词转换成词向量,继而再将各个分词对应的词向量拼接成词向量矩阵。
在一些实施例中,在进行分词处理得到目标文本的各个单词项后,可以提取存在于预先建立的词向量数据库中的单词项,作为目标文本包括的若干个分词。再基于词向量数据库,将若干个分词中的每个分词转换成对应的词向量,继而再将各个分词对应的词向量拼接成词向量矩阵。
在本申请一些实施例中,如图6所示,将所述目标文本转换成词向量矩阵,包括步骤S610至S640。
S610,对所述目标文本进行分词处理,得到所述目标文本包括的若干个单词项。
S620,计算所述若干个单词项中任一相连单词项的点互信息,若所述点互信息大于或等于预设阈值,则提取该相连单词项作为词组;所述相连单词项包括至少两个相连的单词项。
S630,将所述若干个单词项中的部分或全部单词项,和每个所述词组,作为所述目标文本包括的分词;将每个所述分词转换成词向量。
S640,将各个所述分词对应的词向量拼接成词向量矩阵。
其中,对目标文本进行分词处理,得到目标文本包括的若干个单词项。计算所述若干个单词项中任一相连单词项的点互信息,基于点互信息提取出词组。进而将若干个单词项中的部分或全部单词项,以及提取出的词组作为目标文本的分词。将每个分词转换成词向量,继而再将各个分词对应的词向量拼接成词向量矩阵。
在一些实施例中,在步骤S630中,将分词处理后得到的目标文本包括的若干个单词项全部作为分词。
在一些实施例中,在步骤S630中,将分词处理后得到的若干个单词项中去除停用词,将剩余单词项作为分词。
在一些实施例中,在步骤S630中,将分词处理后得到的若干个单词项中去除停用词和非特征词,将剩余单词项作为分词。
在一些实施例中,在步骤S630中,将分词处理得到的得到的若干个单词项中,存在于预先建立的词向量数据库中的单词项,作为分词。
在本申请一些实施例中,如图7所示,将所述目标文本转换成词向量矩阵,包括如下步骤S710至S740。
S710,对所述目标文本进行分词处理,得到所述目标文本包括的若干个单词项。
S720,若确定所述若干个单词项中任一相连单词项存在于预设的词向量数据库,则提取该相连单词项作为词组,所述相连单词项包括至少两个相连的单词项。
S730,将所述若干个单词项中存在于所述词向量数据库中的单词项,和每个所述词组,作为所述目标文本包括的分词,利用所述词向量数据库将每个所述分词转换成词向量,所述词向量数据库存储所述分词与所述词向量的对应关系。
S740,将各个所述分词对应的词向量拼接成词向量矩阵。
其中,在建立词向量数据库后,确定任一相连单词项是否存在于词向量数据库。若该相连单词项存在于词向量数据库,则提取出该相连单词项作为词组。反之,若该相连单词项不存在于词向量数据库,则不提取该相连单词项作为词组。此外,提取分词后得到的单词项中存在于词向量数据库的单词项作为分词。因此,减少了计算点互信息提取词组的过程,通过查表的方式便捷地减少了分词的数量,节约了算力成本,提高了效率。
S430,将所述词向量矩阵经过输入层输入卷积层和池化层,所述池化层输出卷积层包括的各个卷积核对应的卷积最大值。
S440,各个所述卷积核对应的卷积最大值输入全连接层,获得各类别对应的概率预测结果。
在本申请实施例中,如图8所示,卷积神经网络模型包括输入层,卷积层,池化层和全连接层。所述卷积层包括多个卷积核。
其中,输入层用于输入目标文本对应的词向量矩阵。卷积层包括多个卷积核,每个卷积核用于对各个词向量做卷积以挖掘词向量,挖掘出影响分类结果的词向量。池化层可以为全局最大池化层(global max pooling,GMP),用于提取每个卷积核的全局卷积最大值。全连接层用于得到各类别对应的概率预测结果。
可选地,在本申请一些示例中,卷积层还可以包括激活函数,例如ReLu函数。在本申请另一些示例中,全连接层可以不包括激活函数,输出各类别对应的未经归一化的概率预测值。在一些示例中,全连接层可以包括激活函数,例如softmax函数,经softmax函数,全连接层输出经归一化后的各类别对应的概率预测值。
其中,卷积神经网络模型可以为训练后的卷积神经网络模型。训练卷积神经网络模型的样本数据为多组。每组样本数据包括一样本文本对应的样本词向量矩阵和类别标签。将多个样本文本中每个样本文本对应的样本词向量和类别标签,作为样本数据,训练卷积神经网络模型。将词向量矩阵输入卷积神经网络模型,输出各类别对应的概率预测结果。
应理解的是,获取样本文本的样本词向量矩阵的过程,与获取目标文本的词向量矩阵的过程类似,此处不再赘述。
S450,基于各类别对应的所述概率预测结果,提取对所述概率预测结果的影响程度最大的前N个分词,作为所述目标文本的关键字。
其中,目标文本包括若干个分词。N为大于零的整数。
在步骤S420,根据目标文本包括的若干个分词,生成目标文本的词向量矩阵。然后在步骤S430,将词向量矩阵输入卷积神经网络模型,获得各类别对应的概率预测结果。进而在步骤S440,反向定位出对概率预测结果影响程度最大的前N个分词,作为目标文本的关键字。影响程度反映的是分词对文本分类结果的影响程度。影响程度越高,意味着这个分词对文本的分类结果影响越大。反之,影响程度越低,意味着这个分词对文本的分类结果影响越小。因此,影响程度较大的分词可以作为文本的关键字。
作为本申请一非限制性示例,使用卷积神经网络模型对目标文本的类别进行预测,获得各类别j对应的概率预测结果Zj,j为类别标记。确定Zj中数值最大的前K个,K为大于零的整数。计算卷积神经网络模型中卷积层的各个卷积核对前K个Zj的影响程度,影响程度反应的是卷积核挖掘出的分词对文本的分类结果的影响程度。影响程度越高,意味着卷积核挖掘出的这个分词对文本的分类结果影响越大。提取影响程度最大的前N个卷积核作为目标卷积核,将每个目标卷积核挖掘出的分词作为目标文本的关键字。例如,卷积核挖掘出的分词可以被称为目标分词。目标分词为卷积核的卷积最大值位置所对应的分词。卷积最大值位置为卷积核对词向量矩阵进行卷积计算时,最大卷积分量所对应的位置。
在本申请实施例中,一方面,先将目标文本转换成词向量矩阵,目标文本中词义相近的分词具有相近的词向量(word embedding)。再利用卷积神经网络模型挖掘对文本分类结果影响程度大的分词,词义相近的分词可以被挖掘出来用于对文本进行分类,继而根据分类结果反向定位出与文本类别强相关的关键字,因而可以提取词义相近的关键字,进一步提高了关键字提取的准确性。另一方面,由于卷积神经网络模型关注对文本类别影响较大的分词,分词本身的词频和位置对结果影响不大,因而降低了文本长度对关键字提取结果的影响,使得本申请实施例不管对长文本还是短文本都适用,适应性广。
在上述图4至图7所示任一实施例的基础上,图9A所示为本申请另一实施例提出的一种提取文本关键字的方法。在图4至图7所示任一实施例的基础上,对图4至图7所示任一实施例作了进一步优化。此处以基于图4所示实施例进行优化为例进行说明。如图9A所示,所述提取文本关键字的方法包括步骤S910至步骤S960。需要说明的是,图9A所示实施例与图4所示实施例相同之处,此处不再赘述。
S910,获取待提取关键字的目标文本。
S920,将所述目标文本的文本内容转换成词向量矩阵;将所述目标文本的文本标题转换成标题向量;
S930,将所述词向量矩阵和所述标题向量经过输入层输入注意力模块,所述注意力模块利用所述标题向量对所述词向量矩阵进行加权处理,输出加权后的词向量矩阵。
其中,目标文本可以包括文本内容,目标文本还可以包括文本内容和文本标题。当目标文本包括文本内容和文本标题的情形下,在图4至图7的实施例中,未强调要将文本内容和文本标题进行区分考虑。在一些示例中,可以先将文本标题和文本内容组合成目标文本,再转换成词向量矩阵。在另一些示例中,还可以不考虑文本标题,将文本内容作为目标文本,再将目标文本转换成词向量矩阵。
而在本申请实施例,即图9A所示实施例中,考虑到文本标题通常包含文本的核心信息,对目标文本的文本内容与文本标题进行区分。分别将文本内容与文本标题转换成向量,再利用文本标题对应的标题向量对文本内容对应的词向量矩阵进行加权,得到加权后的词向量矩阵。后续基于加权后的词向量矩阵进行文本的分类。
作为本申请一非限制性示例,通过在卷积神经网络中增加注意力机制,实现文本标题对文本内容的加权。
在本申请一些实施例中,卷积神经网络模型包括输入层,注意力模块,卷积层,池化层和全连接层,卷积层包括多个卷积核。也就是说,在图8所示卷积神经网络模型的基础上增加了注意力模块。与图8相同结构请参见前述,此处不再赘述。
示例性地,如图9B所示,将文本内容对应的词向量矩阵和文本标题对应的标题向量输入注意力模块,学习各个分词对应的词向量与文本标题的相关性,并基于此相关性对词向量矩阵的各分量,即各个分词对应的词向量分别进行加权。应理解,注意力模块作为卷积神经网络模型的一部分,与卷积神经网络模型一同训练。
例如,首先,将目标文本的文本标题进行分词处理,通过叠加各分词对应的词向量,生成标题向量。在一些实施例中,各分词对应的词向量相加,得到标题向量。在一些实施例中,各分词对应的词向量相加后再归一化得到标题向量。在一些实施例中,各分词对应的词向量归一化后再相加,得到标题向量。
然后,将词向量矩阵X与标题向量t输入注意力模块,计算出词向量矩阵X中第l个词向量xl与标题向量t的相关度gl,并将相关度gl作为每个词向量xl对应的激活权重,即加权值。
注意力模块先对词向量xl和标题向量t求外积,得到矢量xl*t。再对该矢量xl*t的各分量xli ti做线性组合,各分量xli ti权重为ui。
gl=∑i(xli uiti)。
其中,词向量xl与标题向量t长度相同。ui为注意力模块的全连接层的参数,通过训练注意力模块得到。ti为标题向量的第i个分量。xli为词向量xl的第i个分量。i的取值为1至向量的长度,为整数。
最后,将词向量矩阵X中各词向量xl乘以对应的相关度gl,得到加权后的词向量矩阵。
x'l=glxl。
S940,将加权后的所述词向量矩阵输入卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值。
S950,各个所述卷积核对应的卷积最大值输入全连接层,获得各类别对应的概率预测结果。
S960,基于各类别对应的所述概率预测结果,提取对所述概率预测结果的影响程度最大的前N个分词,作为所述目标文本的关键字。
本申请实施例,增加了利用标题向量对文本内容的词向量矩阵进行加权的步骤。对词向量矩阵增加了与标题的相关性权重,也就是说,以与标题的相关性对分词进行了加权。因而定位出的关键字除了与文本类别强相关,还与文本标题相关,进一步提高了关键字提取结果的准确性。
下面描述本申请实施例的示例性应用场景。如图10所示为本申请一示例性应用场景。
在本示例性场景中,以词向量模型为Word2Vec,卷积神经网络模型为图8所示的卷积神经网络模型为例,对本申请提取文本关键字的方法进行示例性说明。可以理解的是,本领域技术人员可以在本申请实施例的教导下,根据实际实施情况选用合适的词向量模型和卷积神经网络模型,本申请对词向量模型和卷积神经网络模型不做具体限定。应理解,卷积神经网络模型的分类结果也可以根据实际情况进行选择设置,本申请对此不做具体限定。
在本示例性场景中,新闻推荐系统需要提取某一目标新闻文本的关键字。新闻源提供的目标新闻文本包括标题和正文。
应理解,在提取目标新闻文本的关键字之前,需要预训练Word2Vec模型,预训练卷积神经网络模型。
其中,收集大量的新闻文本作为文本语料,预训练Word2Vec模型。预训练Word2Vec模型的过程,可参考前述预训练word2vec模型的相关描述,此处不再赘述。通过预训练Word2Vec模型,建立了词向量数据库。词向量数据库存储了各分词(包括单词项和词组)对应的词向量。
收集大量的新闻文本及各自对应的类别标签,作为样本数据,预训练卷积神经网络模型。将每个新闻文本D(m)进行分词处理,基于预训练Word2Vec模型,将每个新闻文本D(m)转换成词向量矩阵X(m)。基于大量的词向量矩阵X(m)和对应的类别标签y(m),训练卷积神经网络模型。也就是说,使用数据集{X(m),y(m)}训练卷积神经网络模型。示例性地,训练过程中采用随机梯度下降。
作为本申请一示例,如图9所示,卷积神经网络模型包括输入层,卷积层,池化层和全连接层。其中,输入层用于输入目标文本对应的词向量矩阵。卷积层包括多个卷积核,每个卷积核用于挖掘词向量,挖掘出影响分类结果的词向量。池化层为GMP,用于提取每个卷积核的全局卷积最大值。全连接层用于得到各类别对应的概率预测结果。在一些示例中,卷积层还可以包括激活函数,例如ReLu函数。在一些示例中,全连接层可以不包括激活函数,输出各类别对应的未经归一化的概率预测值。在一些示例中,全连接层可以包括激活函数,例如softmax函数,经softmax函数,全连接层输出经归一化后的各类别对应的概率预测值。
在训练卷积神经网络模型的过程中,对卷积层的输出添加L1范数;对全连接层的输出添加L2范数和丢弃(Dropout)正则化。
当卷积层包括P个卷积核大小为1×Q的卷积核Ki,其中,i取值为1至P的整数。Q为词向量的长度。P为大于零的整数。例如,卷积核的数目P可以取2000左右。卷积核Ki对应的卷积最大值为ai。各个卷积核对应的卷积最大值作为卷积层的输出向量a的各个元素。L1范数可以表示为||a||=∑i|ai|。
当全连接层输出的各类别对应的概率预测值为zj。其中,j取值为1至T的整数。T为卷积神经网络模型输出的类别总数量,为正整数。L2范数可以表示为||z||=[∑j(zj)2]1/2。
应理解,训练卷积神经网络模型的过程可参考前述实施例中的示例,此处不再赘述。
在预训练了Word2Vec模型和训练了卷积神经网络模型之后,就可以利用预训练的Word2Vec模型和训练后的卷积神经网络模型对目标新闻文本提取关键字。如图10所示,对目标新闻文本提取关键字的过程如下:
S1010,对目标新闻文本进行分词处理,得到目标新闻文本包括的若干个分词。
以目标新闻文本“女排A队以3-0轻取女排B队,队长XX表现出一贯的高水平,得到全场最高的20分。”为例。其中,队长的名字表示为“XX”。对该新闻文本进行分词处理,得到单词项序列:“A队”、“女排”、“以”、“3”、“0”、“轻取”、“B队”、“队”、“队长”、“XX”、“表现”、“出”、“一贯”、“的”、“高”、“水平”、“得到”、“全场”、“最高”、“的”、“20”、“分”。
提取单词项序列中的词组。通过比对单词项序列中任一相连单词项与词向量数据库,对于词向量数据库中存在的相连单词项,提取出来作为词组。例如,“女排A队”和“女排B队”这两个相连单词项,存在于词向量数据库,将该相邻单词项提取出来,作为词组。
提取单词项。例如,对单词项序列中的各个单词项进行词性分析,提取其中的名词、动词和动名词,并滤除词向量数据库中没有的词,得到“A队”、“女排”、“轻取”、“B队”、“队长”、“XX”、“水平”、“得到”、“全场”。
合并提取出的单词项和词组,作为目标新闻文本包括的分词。例如,得到“A队”、“女排”、“女排A队”、“轻取”、“B队”、“女排B队”、“队长”、“XX”、“水平”、“得到”、“全场”,共11个分词。
S1020,查询词向量数据库,得到每个分词对应的词向量。将各个分词对应的词向量拼接成词向量矩阵,就得到了目标新闻文本的词向量矩阵。
例如,查询词向量数据库,得到11个分词对应的词向量。结果如下表1所示,应理解,表1中未示全。
表1
分词 | 行号 | 词向量 |
A队 | 1 | [16,23,45,1,…,30] |
女排 | 2 | [2,3,75,78,…,21] |
女排A队 | 3 | [18,26,100,45,…,60] |
... | … | … |
将各个分词对应的词向量拼接成词向量矩阵。例如,词向量数据库中词向量的长度为300。将11个分词对应的长度为300的词向量,拼接成11×300的词向量矩阵X。词向量矩阵X的每行为一个分词对应的词向量。
S1030,将目标新闻文本的词向量矩阵X输入卷积神经网络模型,得到各类别对应的概率预测结果。
卷积核Ki遍历词向量矩阵X的各行词向量,卷积结果经ReLu激活函数输出至GMP层,GMP层提取出卷积核Ki的全局最大值,得到ai。
其中,xl为词向量矩阵X的第l行。此外,GMP层记录卷积核Ki的卷积最大值位置所对应的分词vi。
每个卷积核Ki输出值ai,各卷积核输出值ai组成向量a。输出向量a至全连接层。全连接层对输入向量a乘上权重矩阵W,输出向量Z。向量Z的分量zj为各类别对应的概率预测结果,表示为:
zj=∑i(aiwij)。
其中,wij为权重矩阵W的元素。在一些实施例中,全连接层还包括激活函数softmax,向量Z经softmax归一化后,得到各类别对应的概率预测结果,表示为:
yj=softmax(zj)。
例如,11×300的词向量矩阵X。卷积层的P个卷积核Ki,卷积核大小为1×300的向量,步幅为1。卷积核Ki卷积词向量矩阵X得到一组卷积值。以第m个卷积核Km为例,Km依次与词向量矩阵X每行的词向量作内积,得到长度为11的一组卷积值。若卷积层带有激活函数ReLu,小于0的卷积值在经过激活函数ReLu时会置为0。这一组卷积值经过GMP层提取最大卷积值,比如第3行的卷积值最大,为0.8,则该卷积核输出为0.8。最大卷积值位置,即第3行对应的分词为女排A队。示例性地,多个卷积核的输出结果如下表2所示,应理解,表2未示全。
表2
卷积核 | 输出值 | 分词 |
1 | 0.8 | 女排A队 |
2 | 0.3 | XX |
3 | 0.9 | A队 |
... | … | … |
然后各卷积核输出值ai组成向量a。输出向量a至卷积神经网络模型的全连接层。全连接层计算各类别对应的概率预测结果,为zj=∑i(aiwij)。
S1040,基于概率预测结果,反向定位出对概率预测结果影响程度最大的前N个分词,作为目标新闻文本的关键字。
作为本申请一示例,选择最大的前R个,即topR个zj分量,记topR个zj分量的下标为集合{r}。计算卷积层的各卷积核Ki对topR个zj分量的影响程度。在一些实施例中,通过打分计算各卷积核Ki对topR个zj分量的影响程度。计算每个卷积核Ki的打分si:
si=ai∑j∈{r}(wij)。
提取打分最大的前N个卷积核,即topN个卷积核。这N个卷积核的最大卷积值位置对应的分词vi,即为目标新闻文本的关键字。
例如,取R=1,z2的数值为各zj分量的最大值,z2对应类别为体育类。全连接层的权重矩阵中相关的矩阵元有w12=0.7,w22=0.8,w32=0.4…,则卷积核的打分为:s1=a1w12=0.56,s2=a2w22=0.24,s3=a3w32=0.36。若取N=1,则挑选卷积核1对应的“女排A队”作为关键字。
应理解地,在提取文本关键字时,不需要对目标文本标注其类别。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的提取文本关键字的方法,图11示出了本申请实施例提供的提取文本关键字的装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图11,该装置包括:
获取模块111,用于获取待提取关键字的目标文本;
分类模块112,用于利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,所述卷积神经网络模型用于对所述目标文本进行分类;
提取模块113,用于基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,所述目标文本包括若干个分词,所述N为大于零的整数。
可选地,所述卷积神经网络包括输入层,卷积层,池化层和全连接层,所述卷积层包括多个卷积核;
如图12所示,所述分类模块112包括转换子模块1121,卷积子模块1122和分类子模块1123。
其中,所述转换子模块1121,用于将所述目标文本转换成词向量矩阵;
所述卷积子模块1122,用于将所述词向量矩阵经过所述输入层输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值
所述分类子模块1123,用于各个所述卷积核对应的卷积最大值输入所述全连接层,,获得各类别对应的概率预测结果。
可选地,所述卷积神经网络包括输入层,注意力模块,卷积层,池化层和全连接层,所述卷积层包括多个卷积核;
如图13所示,所述分类模块112包括转换子模块1121,加权子模块1124,卷积子模块1122和分类子模块1123。
其中,所述转换子模块1121,用于将所述目标文本的文本内容转换成词向量矩阵;将所述目标文本的文本标题转换成标题向量;
所述加权子模块1124,用于将所述词向量矩阵和所述标题向量经过所述输入层输入所述注意力模块,所述注意力模块利用所述标题向量对所述词向量矩阵进行加权处理,输出加权后的词向量矩阵;
所述卷积子模块1122,用于将加权后的所述词向量矩阵输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值;
所述分类子模块1123,用于各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
可选地,所述提取模块113,具体用于:
确定所述卷积层中各个所述卷积核,对最大的前M个所述概率预测结果的影响程度,所述M为大于零的整数;
提取影响程度最大的前N个卷积核,作为目标卷积核;
将各个所述目标卷积核对应的目标分词作为所述目标文本的关键字,每个所述目标卷积核对应的目标分词为所述目标卷积核的卷积最大值位置所对应的分词。
需要说明的是,上述模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种提取文本关键字的方法,其特征在于,包括:
获取待提取关键字的目标文本;
利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,所述卷积神经网络模型用于对所述目标文本进行分类;所述分类结果包括各类别对应的概率预测结果;
基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,所述目标文本包括若干个分词,所述N为大于零的整数;
所述卷积神经网络模型包括卷积层,所述卷积层包括多个卷积核;所述基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,包括:
确定所述卷积层中各个所述卷积核,对最大的前M个所述概率预测结果的影响程度,所述M为大于零的整数;
提取影响程度最大的前N个卷积核,作为目标卷积核;
将各个所述目标卷积核对应的目标分词作为所述目标文本的关键字,每个所述目标卷积核对应的目标分词为所述目标卷积核的卷积最大值位置所对应的分词。
2.如权利要求1所述的方法,其特征在于,所述卷积神经网络模型还包括输入层,池化层和全连接层;
所述利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,包括:
将所述目标文本转换成词向量矩阵;
将所述词向量矩阵经过所述输入层输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值;
各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
3.如权利要求1所述的方法,其特征在于,所述卷积神经网络模型还包括输入层,注意力模块,池化层和全连接层;
所述利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,包括:
将所述目标文本的文本内容转换成词向量矩阵;将所述目标文本的文本标题转换成标题向量;
将所述词向量矩阵和所述标题向量经过所述输入层输入所述注意力模块,所述注意力模块利用所述标题向量对所述词向量矩阵进行加权处理,输出加权后的词向量矩阵;
将加权后的所述词向量矩阵输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值;
各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
4.如权利要求2或3所述的方法,其特征在于,所述将所述目标文本转换成词向量矩阵,包括:
对所述目标文本进行分词处理,得到所述目标文本包括的若干个分词;
将所述若干个分词中的每个分词转换成词向量;
将所述若干个分词中各个分词对应的词向量拼接成词向量矩阵;
或,所述将所述目标文本转换成词向量矩阵,包括:
对所述目标文本进行分词处理,得到所述目标文本包括的若干个单词项;
计算所述若干个单词项中任一相连单词项的点互信息,若所述点互信息大于或等于预设阈值,则提取该相连单词项作为词组;所述相连单词项包括至少两个相连的单词项;
将所述若干个单词项中的部分或全部单词项,和每个所述词组,作为所述目标文本包括的分词;将每个所述分词转换成词向量;
将各个所述分词对应的词向量拼接成词向量矩阵;
或,所述将所述目标文本转换成词向量矩阵,包括:
对所述目标文本进行分词处理,得到所述目标文本包括的若干个单词项;
若确定所述若干个单词项中任一相连单词项存在于预设的词向量数据库,则提取该相连单词项作为词组,所述相连单词项包括至少两个相连的单词项;
将所述若干个单词项中存在于所述词向量数据库中的单词项,和每个所述词组,作为所述目标文本包括的分词,利用所述词向量数据库将每个所述分词转换成词向量,所述词向量数据库存储所述分词与所述词向量的对应关系;
将各个所述分词对应的词向量拼接成词向量矩阵。
5.如权利要求2或3所述的方法,其特征在于,在训练所述卷积神经网络模型的过程中,对所述卷积层的输出添加L1范数,对所述全连接层的输出添加L2范数和丢弃Dropout正则化。
6.一种提取文本关键字的装置,其特征在于,包括:
获取模块,用于获取待提取关键字的目标文本;
分类模块,用于利用卷积神经网络模型对所述目标文本进行分类,获得分类结果,所述卷积神经网络模型用于对所述目标文本进行分类;所述分类结果包括各类别对应的概率预测结果;
提取模块,用于基于所述分类结果,提取对所述分类结果的影响程度最大的前N个分词,作为所述目标文本的关键字,所述目标文本包括若干个分词,所述N为大于零的整数;
所述卷积神经网络模型包括卷积层,所述卷积层包括多个卷积核;
所述提取模块用于:
确定所述卷积层中各个所述卷积核,对最大的前M个所述概率预测结果的影响程度,所述M为大于零的整数;
提取影响程度最大的前N个卷积核,作为目标卷积核;
将各个所述目标卷积核对应的目标分词作为所述目标文本的关键字,每个所述目标卷积核对应的目标分词为所述目标卷积核的卷积最大值位置所对应的分词。
7.如权利要求6所述的装置,其特征在于,
所述卷积神经网络模型还包括输入层,池化层和全连接层;
所述分类模块包括转换子模块,卷积子模块和分类子模块;
所述转换子模块,用于将所述目标文本转换成词向量矩阵;
所述卷积子模块,用于将所述词向量矩阵经过所述输入层输入所述卷积层和池化层,所述池化层输出各个所述卷积核对应的卷积最大值
所述分类子模块,用于各个所述卷积核对应的卷积最大值输入所述全连接层,获得各类别对应的概率预测结果。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,使得所述终端设备实现如权利要求1至5任一项所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010115271.7A CN113378556B (zh) | 2020-02-25 | 2020-02-25 | 提取文本关键字的方法及装置 |
PCT/CN2020/124155 WO2021169347A1 (zh) | 2020-02-25 | 2020-10-27 | 提取文本关键字的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010115271.7A CN113378556B (zh) | 2020-02-25 | 2020-02-25 | 提取文本关键字的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378556A CN113378556A (zh) | 2021-09-10 |
CN113378556B true CN113378556B (zh) | 2023-07-14 |
Family
ID=77490639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010115271.7A Active CN113378556B (zh) | 2020-02-25 | 2020-02-25 | 提取文本关键字的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113378556B (zh) |
WO (1) | WO2021169347A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925320B (zh) * | 2021-09-28 | 2023-10-20 | 华为技术有限公司 | 一种数据处理方法及相关装置 |
CN114038542B (zh) * | 2021-10-12 | 2022-06-21 | 吉林医药学院 | 基于医疗大数据的医疗信息共享方法及系统 |
CN114048742B (zh) * | 2021-10-26 | 2024-09-06 | 北京师范大学 | 文本信息的知识实体和关系抽取方法及文本质量评估方法 |
CN114169325B (zh) * | 2021-11-30 | 2024-09-27 | 西安理工大学 | 基于词向量表征的网页新词发现和解析方法 |
CN114564943B (zh) * | 2021-12-13 | 2024-09-17 | 南京信息工程大学 | 一种基于融合特征的海事海商长文本分类方法、装置及介质 |
CN114265937A (zh) * | 2021-12-24 | 2022-04-01 | 中国电力科学研究院有限公司 | 科技情报的智能分类分析方法、系统、存储介质及服务器 |
CN114492386B (zh) * | 2022-01-29 | 2024-09-27 | 清华大学 | 网络文本中药物名称及药物不良反应的联合检测方法 |
CN114579743B (zh) * | 2022-03-04 | 2024-06-14 | 合众新能源汽车股份有限公司 | 基于注意力的文本分类方法、装置及计算机可读介质 |
CN114817538B (zh) * | 2022-04-26 | 2023-08-08 | 马上消费金融股份有限公司 | 文本分类模型的训练方法、文本分类方法及相关设备 |
CN114625989A (zh) * | 2022-05-16 | 2022-06-14 | 国能大渡河大数据服务有限公司 | 一种基于卷积神经网络的数据分析方法及系统 |
CN114664290B (zh) * | 2022-05-17 | 2022-08-19 | 深圳比特微电子科技有限公司 | 声音事件检测方法、装置及可读存储介质 |
CN117217209B (zh) * | 2023-11-07 | 2024-06-18 | 湖南强智科技发展有限公司 | 一种智能高校考试组卷方法、系统、设备及存储介质 |
CN117524400B (zh) * | 2024-01-05 | 2024-03-22 | 吉林大学 | 患者数据可视化管理系统及方法 |
CN118397645B (zh) * | 2024-06-26 | 2024-10-18 | 艾莎医学科技(潍坊)有限公司 | 图片内容自动结构化提取方法、装置及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN108121700A (zh) * | 2017-12-21 | 2018-06-05 | 北京奇艺世纪科技有限公司 | 一种关键词提取方法、装置及电子设备 |
CN109840279A (zh) * | 2019-01-10 | 2019-06-04 | 山东亿云信息技术有限公司 | 基于卷积循环神经网络的文本分类方法 |
CN109871532A (zh) * | 2019-01-04 | 2019-06-11 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置及存储介质 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9342590B2 (en) * | 2010-12-23 | 2016-05-17 | Microsoft Technology Licensing, Llc | Keywords extraction and enrichment via categorization systems |
JP6044963B2 (ja) * | 2014-02-12 | 2016-12-14 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
US10217179B2 (en) * | 2016-10-17 | 2019-02-26 | Facebook, Inc. | System and method for classification and authentication of identification documents using a machine learning based convolutional neural network |
CN108090098B (zh) * | 2016-11-22 | 2022-02-25 | 科大讯飞股份有限公司 | 一种文本处理方法及装置 |
CN108153781A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 提取业务领域的关键词的方法和装置 |
CN108984554B (zh) * | 2017-06-01 | 2021-06-29 | 北京京东尚科信息技术有限公司 | 用于确定关键词的方法和装置 |
US11416532B2 (en) * | 2018-05-31 | 2022-08-16 | Wipro Limited | Method and device for identifying relevant keywords from documents |
CN109101477B (zh) * | 2018-06-04 | 2023-01-31 | 东南大学 | 一种企业领域分类及企业关键词筛选方法 |
CN110298028B (zh) * | 2019-05-21 | 2023-08-18 | 杭州未名信科科技有限公司 | 一种文本段落的关键句提取方法和装置 |
CN110750642A (zh) * | 2019-09-28 | 2020-02-04 | 北京航空航天大学 | 一种基于cnn的中文关系分类方法及系统 |
-
2020
- 2020-02-25 CN CN202010115271.7A patent/CN113378556B/zh active Active
- 2020-10-27 WO PCT/CN2020/124155 patent/WO2021169347A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473217A (zh) * | 2012-06-08 | 2013-12-25 | 华为技术有限公司 | 从文本中抽取关键词的方法和装置 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN108121700A (zh) * | 2017-12-21 | 2018-06-05 | 北京奇艺世纪科技有限公司 | 一种关键词提取方法、装置及电子设备 |
CN109871532A (zh) * | 2019-01-04 | 2019-06-11 | 平安科技(深圳)有限公司 | 文本主题提取方法、装置及存储介质 |
CN109840279A (zh) * | 2019-01-10 | 2019-06-04 | 山东亿云信息技术有限公司 | 基于卷积循环神经网络的文本分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Yang Li-gong et.al.Keywords Extraction Based on Text Classification.《Proceedings of the 2nd International Conference On Systems Engineering and Modeling (ICSEM-13)》.2013,第0734-0739页. * |
王帅 等.基于深度可分离卷积神经网络的关键词识别系统.《微电子学与计算机》.2019,第第36卷卷(第第36卷期),第103-108页. * |
Also Published As
Publication number | Publication date |
---|---|
WO2021169347A1 (zh) | 2021-09-02 |
CN113378556A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378556B (zh) | 提取文本关键字的方法及装置 | |
CN107943860B (zh) | 模型的训练方法、文本意图的识别方法及装置 | |
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
CN110162770B (zh) | 一种词扩展方法、装置、设备及介质 | |
EP3611663A1 (en) | Image recognition method, terminal and storage medium | |
CN111931501B (zh) | 一种基于人工智能的文本挖掘方法、相关装置及设备 | |
CN109783798A (zh) | 文本信息添加图片的方法、装置、终端及存储介质 | |
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
CN111709398B (zh) | 一种图像识别的方法、图像识别模型的训练方法及装置 | |
CN113254684B (zh) | 一种内容时效的确定方法、相关装置、设备以及存储介质 | |
CN112820299B (zh) | 声纹识别模型训练方法、装置及相关设备 | |
CN110019777B (zh) | 一种信息分类的方法及设备 | |
CN112052333A (zh) | 文本分类方法及装置、存储介质和电子设备 | |
WO2024036616A1 (zh) | 一种基于终端的问答方法及装置 | |
CN111159338A (zh) | 一种恶意文本的检测方法、装置、电子设备及存储介质 | |
CN113596601A (zh) | 一种视频画面的定位方法、相关装置、设备及存储介质 | |
CN113495984A (zh) | 一种语句检索方法以及相关装置 | |
CN113822038B (zh) | 一种摘要生成方法和相关装置 | |
WO2021073434A1 (zh) | 对象行为的识别方法、装置及终端设备 | |
CN113505596B (zh) | 话题切换标记方法、装置及计算机设备 | |
CN111597823B (zh) | 中心词提取方法、装置、设备及存储介质 | |
CN114510942A (zh) | 获取实体词的方法、模型的训练方法、装置及设备 | |
CN111859240A (zh) | 一种图片导出的方法、相关装置及存储介质 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN112883295B (zh) | 一种数据处理方法、装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |