CN108334489A - 文本核心词识别方法和装置 - Google Patents
文本核心词识别方法和装置 Download PDFInfo
- Publication number
- CN108334489A CN108334489A CN201710044590.1A CN201710044590A CN108334489A CN 108334489 A CN108334489 A CN 108334489A CN 201710044590 A CN201710044590 A CN 201710044590A CN 108334489 A CN108334489 A CN 108334489A
- Authority
- CN
- China
- Prior art keywords
- text
- core word
- level
- word
- sample text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请公开了一种文本核心词识别方法和装置,其中,该方法包括:根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及利用所述文本核心词识别模型,识别目标文本的核心词。应用本申请,可通过多层次优化训练样本,提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度。
Description
技术领域
本公开一般涉及互联网技术领域,具体涉及一种文本核心词识别方法和装置。
背景技术
随着计算机和网络技术的发展,数字化的文件正以惊人的速度在疯狂增长。人们每天要花费大量的时间和精力去阅读和查找文件。为了节省时间和提高人们工作的效率,原始文档的各种简洁表示(例如摘要、关键词、核心词等形式)应运而生。核心词被定义成压缩表示了原始文本重要信息和核心内容的词语。人们可以通过它快速了解文本的大致内容,而不需要通读全文。在信息检索中,核心词常被我们用来查找内容相关的文本或携带文本的图片、视频等内容。
比如,通过百度、谷歌Google等基于关键检索的搜索引擎,人们通过输入核心词,即可在互联网上可快速找到所求信息。在搜索推广领域,如何生成优质的广告物料至关重要,这将直接影响广告投放的效果和网民的用户体验。而文本核心词识别是广告物料挖掘和匹配技术的一个核心问题。其中,文本可以是网民查询Query、广告创意、网站落地页内信息等等。识别的核心词直接反应文本的主体内容,可以应用在Query与广告物料的相关性计算、广告排序、内容推荐等场景中。
传统依靠人工去阅读文本,然后抽取核心词的方法在文档数量剧增的今天越来越不能满足实际应用的需求。因此,如何自动抽取核心词成了时下文本处理领域的一个研究热点。
现有技术中,核心词自动抽取的技术可以分为简单统计的方法、语言分析的方法和机器学习的方法。其中,简单统计的方法有如下几种典型算法:TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)算法、Key Graph(关键图)算法、TextRank(文本排名)算法;语言分析的方法采用自然语言处理中词法、句法及语义分析等技术,在对文档进行深入理解的基础上抽取文档中反映其主要内容的词语;机器学习则主要是基于大量的样例进行训练学习得到核心词识别模型。
虽然,现有存在自动抽取文本中核心词的方案,但识别出的核心词的准确度有待进一步提高。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种能够提高文本核心词识别模型的识别准确率,以此提高抽取的核心词的准确度的方案。
第一方面,本申请实施例提供了一种文本核心词识别方法,包括:
根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;
从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;
根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及
利用所述文本核心词识别模型,识别目标文本的核心词。
第二方面,本申请实施例还提供了一种文本核心词识别装置,包括:
CRF模型训练单元,配置用于根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;
深度模型样本准备单元,配置用于从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;
深度模型训练单元,配置用于根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及
核心词识别单元,配置用于利用所述文本核心词识别模型,识别目标文本的核心词。
第三方面,本申请实施例还提供了一种计算设备,包括一个或多个处理器以及存储器,所述存储器包含可由所述处理器执行的指令以使得所述处理器执行本申请实施例提供的文本核心词识别方法。
本申请实施例提供的文本核心词识别方案,通过多层次优化深度神经网络模型的训练样本,使训练后得到的文本核心词识别模型的识别准确率得到提高,以此提高通过该文本核心词识别模型识别出的核心词的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了其中可以应用本申请实施例的示例性系统架构;
图2示出了根据本申请实施例的文本核心词识别方法的示例性流程图;
图3示出了根据本申请一个实施例的文本核心词识别装置的示例性结构框图;以及
图4示出了适于用来实现本申请实施例的计算设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了可以应用本申请实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、网络103和服务器104、105、106和107。网络103用以在终端设备101、102和服务器104、105、106、107之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102通过网络103与服务器104、105、106、107交互,以访问各种服务。
终端设备101、102可以是各种电子设备,包括但不限于个人电脑、智能手机、智能电视、平板电脑、个人数字助理、电子书阅读器等等。
服务器104、105、106、107可以是提供各种服务的服务器。服务器可以响应于用户的服务请求而提供服务。可以理解,一个服务器可以提供一种或多种服务,同一种服务也可以由多个服务器来提供。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
如背景技术中所提到的,现有技术提供的文本核心词的抽取方案,存在抽取出的核心词的准确度有待进一步提高的问题。
鉴于现有技术的上述缺陷,本申请实施例提供了一种基于深度神经网络模型的文本核心词识别方案,多层次优化深度神经网络模型的训练样本,提高最终得到的文本核心词识别模型的识别准确率,提高识别出的核心词的准确度。
需要注意的是,本申请实施例中,用于训练关键词识别模型的样本文本称为零级样本文本;用于训练(Conditional Random Fields,条件随机场)CRF模型的样本文本称为一级样本文本;用于训练深度神经网络模型的样本文本称为二级样本文本。实际应用中,每级样本文本都可以包括多个文本;各样本文本之间可存在一个或多个相同的样本。
下面将结合流程图来描述本申请实施例的方法。
参考图2,其示出了根据本申请一个实施例的文本核心词识别方法的示例性流程图。图2所示的方法可以在图1中的终端设备执行,或者服务器执行。
如图2所示,文本核心词识别方法具体包括如下步骤:
步骤210:根据一级样本文本、一级样本文本的一级优选核心词,以及一级优选核心词的实体特征,训练得到条件随机场CRF模型。
步骤220:从利用CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出二级样本文本的二级优选核心词。
步骤230:根据二级样本文本和二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型。
步骤240:利用文本核心词识别模型,识别目标文本的核心词。
实际应用中,为了提高最终文本核心词识别模型的识别准确率,可以采用大规模的训练样本。因此,本申请实施例中,一级样本文本与二级样本文本各自可包含多个文本。进一步地,一级样本文本与二级样本文本可采用相同或不同的文本。
在步骤210中,可利用投票机制选取出一级样本文本的一级优选核心词。继而,基于一级样本文本所属领域的领域知识图谱,提取一级优选核心词的实体特征。其中,领域知识图谱中记录有该领域的实体及对应的实体特征;提取出的一级优选核心词的实体特征可以包括以下一项:实体属性和实体关联关系。
接着,可将一级样本文本、一级样本文本的一级优选核心词,以及一级优选核心词的实体特征作为训练样本,训练得到CRF模型。本发明实施例中,可参考本领域技术人员常用技术手段基于上述训练样本训练得到CRF模型,此处不再详述。
本申请实施例中,领域知识图谱可预先构建;具体地,可以通过如下方式构建领域知识图谱:抓取领域内网站页面;抽取网站页面的页面结构化数据;以及基于页面结构化数据,识别网站页面中包含的实体和对应的实体特征,并记录于领域知识图谱中。
其中,实体特征包括以下一项:实体属性和实体关联关系;实体属性包括以下至少一项:词性、分词重要性。
关于步骤210中一级样本文本的一级优选核心词的获取,可通过如下方式实现:针对一级样本文本,利用经训练的关键词识别模型和至少一种关键词提取算法,分别提取一级样本文本的关键词作为一级候选核心词;利用投票机制选出得票率最高的一级候选核心词作为一级样本文本的一级优选核心词。
其中,关键词提取算法可包括如下算法中的至少一种:TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)算法、Text Rank(文本排名)算法。当然,实际应用中,也可以采取其他关键词提取算法,比如,Key Graph(关键图)算法、语言分析算法等。
不同关键词提取算法,提取出的关键词可能相同,也可能不相同;关键词识别模型识别出的关键词与各关键词提取算法所提取出的关键词也可能不同。因此,为了提高样本的准确性,可以对各种方法提取的结果,以vote(投票)的方式进行ensemble(集合)。
具体地,在通过关键词识别模型和各关键词提取算法分别提取出一级样本文本的一级候选核心词之后,基于关键词识别模型和各关键词提取算法的输出各一级候选核心词中,以投票的方式选取出得票率最高的一级候选核心词作为一级样本文本的一级优选核心词。
优选地,本申请实施例中,关键词识别模型、各关键词提取算法所具有的选票数可以相同或不同。当关键词识别模型、各关键词提取算法所具有的选票数不同时,针对每个一级候选核心词,若该一级候选核心词为关键词识别模型所提取出的关键词,则该一级候选核心词的得票率加上关键词识别模型所具有的选票数;若该一级候选核心词为某一关键词提取算法所提取出的关键词,则该一级候选核心词的得票率加上该关键词提取算法所具有的选票数。
例如,关键词识别模型的选票数设置为2票;某一关键词提取算法的选票数为1票。这样,针对每个一级候选核心词,若该一级候选核心词为关键词识别模型所提取出的关键词,则该一级候选核心词的得票率加2票;若该一级候选核心词为某一关键词提取算法所提取出的关键词,则该一级候选核心词的得票率加1票。之后,统计各一级候选核心词的得票率,选取出得票率最高的一级候选核心词作为一级样本文本的一级优选核心词。
步骤210中,经训练的关键词识别模型主要是基于机器学习训练得到的模型。关键词识别模型可采用本领域常用训练手段进行训练,也可采用本发明提供的方法进行训练。
本申请实施例中,关键词识别模型可通过如下方式训练得到:根据零级样本文本所属领域的领域知识图谱,对零级样本文本进行分词,从分词结果中筛选出零级候选核心词;根据预设的择优因子及其对应的权重,对零级候选核心词进行加权排序,选取零级样本文本的关键词;根据零级样本文本和选取的关键词,训练得到关键词识别模型。其中,择优因子包括以下至少一项:词性、文本中位置、分词重要性、词频。
由于领域知识图谱中记录有该领域的实体及对应的实体特征,因此,可以根据领域知识图谱中记录的实体和对应的实体特征,对零级样本文本进行分词;继而,对分词结果进行过滤,删除预设类型的分词,得到零级样本文本对应的零级候选核心词。其中,预设类型包括如下至少一项:连词、副词、代词、感叹词。
实际应用中,为了提高关键词识别模型的识别准确率,在训练关键词识别模型过程中零级样本文本包含多个文本。这样,最后关键词识别模型的训练样本为零级样本文本包含的多个文本及其对应的关键词。零级样本文本与上述一级样本文本、二级样本文本之间可以存在相同的文本。
在步骤220中,可以针对二级样本文本,分别利用步骤210训练好的CRF模型和至少一种关键词提取算法,分别提取二级样本文本的关键词,并作为二级候选核心词。
继而,利用投票机制选出得票率最高的二级候选核心词作为二级样本文本的二级优选核心词。具体地,对CRF模型提取的关键词和至少一种关键词提取算法提取的关键词进行合并去重,得到二级候选核心词;以投票形式选取出得票率最高的二级候选核心词作为二级候选核心词。
其中,关键词提取算法包括如下至少一种:TF-IDF算法、TextRank算法。
可选地,除了步骤210训练好的CRF模型和至少一种关键词提取算法,还可以针对二级样本文本,利用经训练的关键词识别模型,提取二级样本文本的关键词,并作为二级候选核心词。继而,从CRF模型和至少一种关键词提取算法,以及关键词识别模型各自提取的结果中,利用投票机制选出得票率最高的二级候选核心词作为二级样本文本的二级优选核心词。
更优地,得到二级候选核心词之后,为进一步提高识别准确度,可基于预设黑名单,对二级候选核心词进行过滤;之后,利用投票机制从过滤后的二级候选核心词中选取得票率最高的词作为二级样本文本的二级优选核心词。其中,黑名单可由本领域技术人员根据经验和实际需求进行预先设置。例如,将黄暴词设置于黑名单。
优选地,本申请实施例中,CRF模型、各关键词提取算法、关键词识别模型所具有的选票数可以相同或不同。
当CRF模型、各关键词提取算法、关键词识别模型所具有的选票数不同时,CRF模型的选票数要高于各关键词提取算法、关键词识别模型所具有的选票数;且针对每个二级候选核心词,若该二级候选核心词为CRF模型所提取出的关键词,则该二级候选核心词的得票率加上CRF模型所具有的选票数;若该二级候选核心词为关键词识别模型所提取出的关键词,则该二级候选核心词的得票率加上关键词识别模型所具有的选票数;若该二级候选核心词为某一关键词提取算法所提取出的关键词,则该二级候选核心词的得票率加上该关键词提取算法所具有的选票数。
例如,CRF模型的选票数设置为3票,关键词识别模型的选票数设置为2票;某一关键词提取算法的选票数为1票。这样,针对每个二级候选核心词,若该二级候选核心词为CRF模型所提取出的关键词,则该二级候选核心词的得票率加3票;若该二级候选核心词为关键词识别模型所提取出的关键词,则该二级候选核心词的得票率加2票;若该二级候选核心词为某一关键词提取算法所提取出的关键词,则该二级候选核心词的得票率加1票。
之后,统计各二级候选核心词的得票率,选取出得票率最高的二级候选核心词作为二级样本文本的二级优选核心词。
在步骤230中,可以基于二级样本文本和步骤220得到的二级样本文本的二级优选核心词,生成深度神经网络模型的训练样本。实际应用中,深度神经网络模型可以具体为RBM(Restricted Boltzmann Machine,受限玻尔兹曼机)模型、seq2seq(Sequence toSequence,序列到序列)深度模型等。
深度神经网络模型具体为seq2seq深度模型时,在通过步骤220得到二级样本文本及其对应的二级优选核心词(如表1所示)之后,可以首先将二级样本文本作为样本输入序列,基于二级优选核心词,对样本输入序列进行编码解码,得到对应的样本输出序列(如表2所示)。其中,样本输出序列中二级优选核心词对应的序列项区别于二级样本文本中其他词的序列项。
继而,将二级样本文本及其对应的样本输出序列作为训练样本;以及利用得到的训练样本对seq2seq深度模型进行训练,得到文本核心词识别模型。
表1二级样本文本及其二级优选核心词
二级样本文本 | 二级优选核心词 |
高 粘度 搅拌机 | 搅拌机 |
脚手架 配件 批发 市场 | 脚手架 配件 |
表2样本输入序列与样本输出序列
样本输入序列 | 样本输出序列 |
高 粘度 搅拌机 | 0 0 1 |
脚手架 配件 批发 市场 | 1 1 0 0 |
为了进一步对文本核心词识别模型的模型参数进行优化,利用训练样本对seq2seq深度模型进行训练时,可引入Attention(注意)机制。具体地,将二级样本文本作为输入样本序列;固定样本输出序列,将输入样本序列分别正向与反向地输入到seq2seq深度模型中,以此对seq2seq深度模型中的语境向量进行优化,提高文本核心词识别模型的识别准确率。
在步骤240中,利用提高了识别准确率的文本核心词识别模型来识别目标文本的核心词,相比现有可增强识别出的核心词的准确度。
从上面描述可以看出,在本申请的一些实施例中,针对提高识别出的核心词的准确度的问题,提出了多层次优化深度神经网络模型的训练样本的方案。这样,通过多层次的对多个方案抽取的关键词进行择优,使得最终用于训练深度神经网络模型的训练样本的准确度高,从而提高训练得到的文本核心词识别模型的准确率,提高该文本核心词识别模型识别出的核心词的准确度。
进一步参考图3,其示出了根据本申请一个实施例的文本核心词识别装置300的示例性结构框图。
如图3所示,文本核心词识别装置300可以包括:CRF模型训练单元301、深度模型样本准备单元302、深度模型训练单元303和核心词识别单元304。
其中,CRF模型训练单元301配置用于根据一级样本文本、一级样本文本的一级优选核心词,以及一级优选核心词的实体特征,训练得到条件随机场CRF模型。
深度模型样本准备单元302配置用于从利用CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出二级样本文本的二级优选核心词。
深度模型训练单元303配置用于根据二级样本文本和二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型。
具体地,深度模型样本准备单元配置用于针对二级样本文本,利用CRF模型和至少一种关键词提取算法,分别提取二级样本文本的关键词,并作为二级候选核心词;利用投票机制选出得票率最高的二级候选核心词作为二级样本文本的二级优选核心词;其中,关键词提取算法包括如下至少一种:词频-逆向文件频率TF-IDF算法、文本排名Text Rank算法。
优选地,深度模型样本准备单元配置用于基于预设黑名单,对二级候选核心词进行过滤;利用投票机制从过滤后的二级候选核心词中选取得票率最高的词作为二级样本文本的二级优选核心词。
预设的深度神经网络模型具体为:序列到序列seq2seq深度模型时,深度模型训练单元配置用于将二级样本文本作为样本输入序列,基于二级优选核心词,对样本输入序列进行编码解码,得到对应的样本输出序列,样本输出序列中二级优选核心词对应的序列项区别于二级样本文本中其他词的序列项;将二级样本文本及其对应的样本输出序列作为训练样本;以及利用训练样本对seq2seq深度模型进行训练,得到文本核心词识别模型。
优选地,深度模型训练单元进一步配置用于利用训练样本对seq2seq深度模型进行训练时引入注意Attention机制。
核心词识别单元304配置用于利用文本核心词识别模型,识别目标文本的核心词。
进一步地,文本核心词识别装置300还可以包括:CRF模型样本准备单元。
CRF模型样本准备单元配置用于针对一级样本文本,利用经训练的关键词识别模型和至少一种关键词提取算法,分别提取一级样本文本的关键词作为一级候选核心词;利用投票机制选出得票率最高的一级候选核心词作为一级样本文本的一级优选核心词;基于一级样本文本所属领域的领域知识图谱,提取一级优选核心词的实体特征。
其中,领域知识图谱中记录有该领域的实体及对应的实体特征。
进一步地,文本核心词识别装置300还可以包括:关键词识别模型训练单元。
关键词识别模型训练单元,配置用于根据零级样本文本所属领域的领域知识图谱,对零级样本文本进行分词,从分词结果中筛选出零级候选核心词,其中领域知识图谱中记录有该领域的实体及对应的实体特征;根据预设的择优因子及其对应的权重,对零级候选核心词进行加权排序,选取零级样本文本的关键词,其中,择优因子包括以下至少一项:词性、文本中位置、分词重要性、词频;以及根据零级样本文本和选取的关键词,训练得到关键词识别模型。
相应地,关键词识别模型训练单元配置用于根据领域知识图谱中记录的实体和对应的实体特征,对零级样本文本进行分词;以及对分词结果进行过滤,删除预设类型的分词,得到零级样本文本对应的零级候选核心词;预设类型包括如下至少一项:连词、副词、代词、感叹词。
进一步地,文本核心词识别装置300还可以包括:领域知识图谱构建单元。
领域知识图谱构建单元配置用于抓取领域内网站页面;抽取网站页面的页面结构化数据;以及基于页面结构化数据,识别网站页面中包含的实体和对应的实体特征,并记录于领域知识图谱中,其中实体特征包括以下一项:实体属性和实体关联关系,实体属性包括以下至少一项:词性、分词重要性。
应当理解,文本核心词识别装置300中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置300及其中包含的单元,在此不再赘述。
进一步地,本申请另一实施例提供了一种计算设备,包括一个或多个处理器以及存储器,存储器包含可由处理器执行的指令以使得处理器执行本申请实施例提供的文本核心词识别方法。
下面参考图4,其示出了适于用来实现本申请实施例的计算设备400的结构示意图。
如图4所示,计算设备400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考图2描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行图2的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种存储有计算机程序的非易失性计算机可读存储介质,该非易失性计算机可读存储介质可以是上述实施例中系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (20)
1.一种文本核心词识别方法,其特征在于,包括:
根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;
从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;
根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及
利用所述文本核心词识别模型,识别目标文本的核心词。
2.根据权利要求1所述的识别方法,其特征在于,所述训练得到条件随机场CRF模型之前,包括:
针对所述一级样本文本,利用经训练的关键词识别模型和所述至少一种关键词提取算法,分别提取所述一级样本文本的关键词作为一级候选核心词;
利用投票机制选出得票率最高的一级候选核心词作为所述一级样本文本的一级优选核心词。
3.根据权利要求2所述的识别方法,其特征在于,所述训练得到条件随机场CRF模型之前,还包括:
基于所述一级样本文本所属领域的领域知识图谱,提取所述一级优选核心词的实体特征,
其中,所述领域知识图谱中记录有该领域的实体及对应的实体特征。
4.根据权利要求2或3所述的识别方法,其特征在于,所述关键词识别模型通过如下方式训练得到:
根据零级样本文本所属领域的领域知识图谱,对所述零级样本文本进行分词,从分词结果中筛选出零级候选核心词;
根据预设的择优因子及其对应的权重,对所述零级候选核心词进行加权排序,选取所述零级样本文本的关键词,其中,所述择优因子包括以下至少一项:词性、文本中位置、分词重要性、词频;以及
根据所述零级样本文本和选取的关键词,训练得到所述关键词识别模型。
5.根据权利要求4所述的识别方法,其特征在于,所述根据零级样本文本所属领域的领域知识图谱,对所述零级样本文本进行分词,从分词结果中筛选出零级候选核心词包括:
根据所述领域知识图谱中记录的实体和对应的实体特征,对所述零级样本文本进行分词;以及
对分词结果进行过滤,删除预设类型的分词,得到所述零级样本文本对应的零级候选核心词;所述预设类型包括如下至少一项:连词、副词、代词、感叹词。
6.根据权利要求3-5任一所述的识别方法,其特征在于,所述领域知识图谱通过如下方式构建:
抓取领域内网站页面;
抽取所述网站页面的页面结构化数据;以及
基于所述页面结构化数据,识别所述网站页面中包含的实体和对应的实体特征,并记录于所述领域知识图谱中,其中所述实体特征包括以下一项:实体属性和实体关联关系,所述实体属性包括以下至少一项:词性、分词重要性。
7.根据权利要求1-6任一所述的识别方法,其特征在于,所述从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词,包括:
针对所述二级样本文本,利用所述CRF模型和所述至少一种关键词提取算法,分别提取所述二级样本文本的关键词,并作为二级候选核心词;
利用投票机制选出得票率最高的二级候选核心词作为所述二级样本文本的二级优选核心词;
其中,所述关键词提取算法包括如下至少一种:词频-逆向文件频率TF-IDF算法、文本排名Text Rank算法。
8.根据权利要求7所述的识别方法,其特征在于,所述利用投票机制选出得票率最高的二级候选核心词作为所述二级样本文本的二级优选核心词,包括:
基于预设黑名单,对二级候选核心词进行过滤;
利用投票机制从过滤后的二级候选核心词中选取得票率最高的词作为所述二级样本文本的二级优选核心词。
9.根据权利要求1-8任一所述的识别方法,其特征在于,所述深度神经网络模型具体为:序列到序列seq2seq深度模型;以及
所述根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型,包括:
将所述二级样本文本作为样本输入序列,基于所述二级优选核心词,对所述样本输入序列进行编码解码,得到对应的样本输出序列;其中,所述样本输出序列中所述二级优选核心词对应的序列项区别于所述二级样本文本中其他词的序列项;
将所述二级样本文本及其对应的样本输出序列作为训练样本;以及
利用所述训练样本对所述seq2seq深度模型进行训练,得到文本核心词识别模型。
10.根据权利要求9所述的识别方法,其特征在于,所述利用所述训练样本对所述seq2seq深度模型进行训练,包括:
利用所述训练样本对所述seq2seq深度模型进行训练时,引入注意Attention机制。
11.一种文本核心词识别装置,其特征在于,包括:
CRF模型训练单元,配置用于根据一级样本文本、所述一级样本文本的一级优选核心词,以及所述一级优选核心词的实体特征,训练得到条件随机场CRF模型;
深度模型样本准备单元,配置用于从利用所述CRF模型和至少一种关键词提取算法分别针对二级样本文本所提取出的关键词中,选出所述二级样本文本的二级优选核心词;
深度模型训练单元,配置用于根据所述二级样本文本和所述二级优选核心词,对深度神经网络模型进行训练,得到文本核心词识别模型;以及
核心词识别单元,配置用于利用所述文本核心词识别模型,识别目标文本的核心词。
12.根据权利要求11所述的识别装置,其特征在于,还包括:
CRF模型样本准备单元,配置用于针对所述一级样本文本,利用经训练的关键词识别模型和所述至少一种关键词提取算法,分别提取所述一级样本文本的关键词作为一级候选核心词;利用投票机制选出得票率最高的一级候选核心词作为所述一级样本文本的一级优选核心词;基于所述一级样本文本所属领域的领域知识图谱,提取所述一级优选核心词的实体特征;
其中,所述领域知识图谱中记录有该领域的实体及对应的实体特征。
13.根据权利要求12所述的识别装置,其特征在于,还包括:
关键词识别模型训练单元,配置用于根据零级样本文本所属领域的领域知识图谱,对所述零级样本文本进行分词,从分词结果中筛选出零级候选核心词;根据预设的择优因子及其对应的权重,对所述零级候选核心词进行加权排序,选取所述零级样本文本的关键词,其中,所述择优因子包括以下至少一项:词性、文本中位置、分词重要性、词频;以及根据所述零级样本文本和选取的关键词,训练得到所述关键词识别模型。
14.根据权利要求13所述的识别装置,其特征在于,
所述关键词识别模型训练单元配置用于根据所述领域知识图谱中记录的实体和对应的实体特征,对所述零级样本文本进行分词;以及对分词结果进行过滤,删除预设类型的分词,得到所述零级样本文本对应的零级候选核心词;所述预设类型包括如下至少一项:连词、副词、代词、感叹词。
15.根据权利要求11-14任一所述的识别装置,其特征在于,还包括:
领域知识图谱构建单元,配置用于抓取领域内网站页面;抽取所述网站页面的页面结构化数据;以及基于所述页面结构化数据,识别所述网站页面中包含的实体和对应的实体特征,并记录于所述领域知识图谱中,其中所述实体特征包括以下一项:实体属性和实体关联关系,所述实体属性包括以下至少一项:词性、分词重要性。
16.根据权利要求11-15任一所述的识别装置,其特征在于,
所述深度模型样本准备单元配置用于针对所述二级样本文本,利用所述CRF模型和所述至少一种关键词提取算法,分别提取所述二级样本文本的关键词,并作为二级候选核心词;利用投票机制选出得票率最高的二级候选核心词作为所述二级样本文本的二级优选核心词;其中,所述关键词提取算法包括如下至少一种:词频-逆向文件频率TF-IDF算法、文本排名Text Rank算法。
17.根据权利要求16所述的识别装置,其特征在于,
所述深度模型样本准备单元配置用于基于预设黑名单,对二级候选核心词进行过滤;利用投票机制从过滤后的二级候选核心词中选取得票率最高的词作为所述二级样本文本的二级优选核心词。
18.根据权利要求11-17任一所述的识别装置,其特征在于,所述预设的深度神经网络模型具体为:序列到序列seq2seq深度模型;以及
所述深度模型训练单元配置用于将所述二级样本文本作为样本输入序列,基于所述二级优选核心词,对所述样本输入序列进行编码解码,得到对应的样本输出序列,所述样本输出序列中所述二级优选核心词对应的序列项区别于所述二级样本文本中其他词的序列项;将所述二级样本文本及其对应的样本输出序列作为训练样本;以及利用所述训练样本对所述seq2seq深度模型进行训练,得到文本核心词识别模型。
19.根据权利要求18所述的识别装置,其特征在于,
所述深度模型训练单元配置用于利用所述训练样本对所述seq2seq深度模型进行训练时引入注意Attention机制。
20.一种计算设备,包括一个或多个处理器以及存储器,其特征在于:
所述存储器包含可由所述处理器执行的指令以使得所述处理器执行权利要求1-10任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710044590.1A CN108334489B (zh) | 2017-01-19 | 2017-01-19 | 文本核心词识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710044590.1A CN108334489B (zh) | 2017-01-19 | 2017-01-19 | 文本核心词识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108334489A true CN108334489A (zh) | 2018-07-27 |
CN108334489B CN108334489B (zh) | 2021-05-14 |
Family
ID=62923054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710044590.1A Active CN108334489B (zh) | 2017-01-19 | 2017-01-19 | 文本核心词识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108334489B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109857847A (zh) * | 2019-01-15 | 2019-06-07 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN110232183A (zh) * | 2018-12-07 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
WO2020155769A1 (zh) * | 2019-01-30 | 2020-08-06 | 平安科技(深圳)有限公司 | 关键词生成模型的建模方法和装置 |
CN112492606A (zh) * | 2020-11-10 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
CN112632980A (zh) * | 2020-12-30 | 2021-04-09 | 广州友圈科技有限公司 | 一种基于大数据深度学习的企业分类方法、系统及电子设备 |
CN113408291A (zh) * | 2021-07-09 | 2021-09-17 | 平安国际智慧城市科技股份有限公司 | 中文实体识别模型的训练方法、装置、设备及存储介质 |
CN114003750A (zh) * | 2021-10-29 | 2022-02-01 | 平安银行股份有限公司 | 物料上线方法、装置、设备及存储介质 |
CN115344679A (zh) * | 2022-08-16 | 2022-11-15 | 中国平安财产保险股份有限公司 | 问题数据的处理方法、装置、计算机设备及存储介质 |
CN112492606B (zh) * | 2020-11-10 | 2024-05-17 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327210A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Advanced book page classification engine and index page extraction |
US8825472B2 (en) * | 2010-05-28 | 2014-09-02 | Yahoo! Inc. | Automated message attachment labeling using feature selection in message content |
CN104021115A (zh) * | 2014-06-13 | 2014-09-03 | 北京理工大学 | 基于神经网络的中文比较句识别方法及装置 |
CN105426361A (zh) * | 2015-12-02 | 2016-03-23 | 上海智臻智能网络科技股份有限公司 | 关键词提取方法及装置 |
-
2017
- 2017-01-19 CN CN201710044590.1A patent/CN108334489B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327210A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Advanced book page classification engine and index page extraction |
US8825472B2 (en) * | 2010-05-28 | 2014-09-02 | Yahoo! Inc. | Automated message attachment labeling using feature selection in message content |
CN104021115A (zh) * | 2014-06-13 | 2014-09-03 | 北京理工大学 | 基于神经网络的中文比较句识别方法及装置 |
CN105426361A (zh) * | 2015-12-02 | 2016-03-23 | 上海智臻智能网络科技股份有限公司 | 关键词提取方法及装置 |
Non-Patent Citations (7)
Title |
---|
CHUANHAI DONG,ET AL: "Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition", 《NLPCC-ICCPOL 2016》 * |
JIACHEN DU,ET AL: "Extracting Opinion Expression with Neural Attention", 《SMP 2016, CCIS 669》 * |
QI ZHANG,ET AL: "Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter", 《PROCEEDINGS OF THE 2016 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
XIAO SUN,ET AL: "Emotional Element Detection and Tendency Judgment Based on Mixed Model with Deep Features", 《ICIS 2016》 * |
刘学,等: "采用深层神经网络中间层特征的关键词识别", 《小型微型计算机系统》 * |
张婷婷,等: "基于屏幕视觉热区的中文短文本关键词实时提取方法", 《情报学报》 * |
罗繁明: "大数据时代基于统计特征的情报关键词提取方法", 《情报资料工作》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232183B (zh) * | 2018-12-07 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
CN110232183A (zh) * | 2018-12-07 | 2019-09-13 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法、装置及存储介质 |
WO2020114429A1 (zh) * | 2018-12-07 | 2020-06-11 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
US11947911B2 (en) | 2018-12-07 | 2024-04-02 | Tencent Technology (Shenzhen) Company Limited | Method for training keyword extraction model, keyword extraction method, and computer device |
CN109857847A (zh) * | 2019-01-15 | 2019-06-07 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
WO2020155769A1 (zh) * | 2019-01-30 | 2020-08-06 | 平安科技(深圳)有限公司 | 关键词生成模型的建模方法和装置 |
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN110019758B (zh) * | 2019-04-11 | 2021-07-06 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
CN112492606A (zh) * | 2020-11-10 | 2021-03-12 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
CN112492606B (zh) * | 2020-11-10 | 2024-05-17 | 恒安嘉新(北京)科技股份公司 | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 |
CN112632980A (zh) * | 2020-12-30 | 2021-04-09 | 广州友圈科技有限公司 | 一种基于大数据深度学习的企业分类方法、系统及电子设备 |
CN113408291A (zh) * | 2021-07-09 | 2021-09-17 | 平安国际智慧城市科技股份有限公司 | 中文实体识别模型的训练方法、装置、设备及存储介质 |
CN114003750B (zh) * | 2021-10-29 | 2024-03-26 | 平安银行股份有限公司 | 物料上线方法、装置、设备及存储介质 |
CN114003750A (zh) * | 2021-10-29 | 2022-02-01 | 平安银行股份有限公司 | 物料上线方法、装置、设备及存储介质 |
CN115344679A (zh) * | 2022-08-16 | 2022-11-15 | 中国平安财产保险股份有限公司 | 问题数据的处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108334489B (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334489A (zh) | 文本核心词识别方法和装置 | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
US11170179B2 (en) | Systems and methods for natural language processing of structured documents | |
CN110347894A (zh) | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 | |
CN108090162A (zh) | 基于人工智能的信息推送方法和装置 | |
CN107105031A (zh) | 信息推送方法和装置 | |
CN108932220A (zh) | 文章生成方法和装置 | |
CN105306495B (zh) | 用户识别方法和装置 | |
CN104715063B (zh) | 搜索排序方法和装置 | |
KR20170032327A (ko) | 회계 처리 장치, 회계 처리 방법 및 회계 처리 프로그램 | |
CN112507116A (zh) | 基于客户应答语料的客户画像方法及其相关设备 | |
CN109992653A (zh) | 信息处理方法和处理系统 | |
CN106407361A (zh) | 基于人工智能的推送信息的方法和装置 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
CN106874397B (zh) | 一种面向物联网设备的自动语义标注方法 | |
CN107526718A (zh) | 用于生成文本的方法和装置 | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
CN112966089A (zh) | 基于知识库的问题处理方法、装置、设备、介质和产品 | |
WO2017032427A1 (en) | Identifying augmented features based on a bayesian analysis of a text document | |
CN108304374A (zh) | 信息处理方法及相关产品 | |
CN108694183A (zh) | 一种检索方法及装置 | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
CN109727088A (zh) | 一种基于浏览器的商品推荐方法及装置 | |
CN110019948A (zh) | 用于输出信息的方法和装置 | |
Yuan et al. | MCIC: multimodal conversational intent classification for E-commerce customer service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |