CN106021442B - 一种网络新闻概要提取方法 - Google Patents
一种网络新闻概要提取方法 Download PDFInfo
- Publication number
- CN106021442B CN106021442B CN201610323611.9A CN201610323611A CN106021442B CN 106021442 B CN106021442 B CN 106021442B CN 201610323611 A CN201610323611 A CN 201610323611A CN 106021442 B CN106021442 B CN 106021442B
- Authority
- CN
- China
- Prior art keywords
- news
- word
- picture
- lexical chains
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网络新闻概要提取方法,首先获取网络新闻,对网络新闻中的文字基于中文词汇链提取关键词,基于深度学习算法进行图片分类;建立新闻ID,新闻入库;新闻对比。本发明根据网络新闻中的文字信息提取关键摘要并对新闻图片进行分类,形成新闻ID,实现了一篇新闻对应一项新闻ID,极大降低了系统的存储要求,提高了存储效率。通过所提及的新闻库的不断实时更新以及提供的快速查询与添加等功能,提高了检索新闻的效率,极大降低了工作人员查看、评价新闻的工作量,起到了有效的新闻甄别辅助工作。
Description
技术领域
本发明涉及信息处理技术领域。尤其是一种网络新闻概要提取方法.
背景技术
网络新闻是突破传统的新闻传播概念,在视、听、感方面给受众全新的体验。它将无序化的新闻进行有序的整合,并且大大压缩了信息的厚度,让人们在最短的时间内获得最有效的新闻信息。不仅如此,未来的网络新闻将不再受传统新闻发布者的限制,受众可以发布自己的新闻,并在短时间内获得更快的传播,而且新闻将成为人们互动交流的平台。网络新闻将随着人们认识的提高向着更深的层次发展,这将完全颠覆网络新闻的传统概念
1994年4月,中国全面接入互联网,1995年1月,《神州学人》杂志成为中国第一家上网媒体。从那时以来,中国网络媒体经历了近十年的发展,这一阶段也可看作中国网络媒体的第一个历史时期。在这个历史时期,中国网络媒体事业取得了长足的发展,其中一个最直接也是最突出的表现,是网络媒体在新闻业务方面的进步。
网络新闻业务,其诞生之初,是传统新闻业务的一种延伸,但是,经过近十年的发展,它在不断吸取传统新闻业务养分的同时,也在逐渐形成自己的崭新面貌,有些甚至是革命性的,并有可能对整个媒体的新闻业务发展产生影响
本发明旨在精简网络新闻对网络新闻进行分类及过滤。利用所获取的网络新闻,进行文字识别以及图像进行分析与提取,并建立新闻ID,最终放入新闻库。该发明主要有文字识别以及图像分类识别两大部分组成,其中文字识别依靠基于词汇链的关键词提取,图片分类基于深度学习算法。
发明内容
本发明的目的是通过对网络新闻中文字及图片提取关键词,建立新闻ID及新闻库,以供快速查询、添加等处理,起到良好的网络新闻辅助提取作用,从而极大减轻人工处理的工作强度的目的。
本发明采用的技术方案是:
一种网络新闻概要提取方法,其特征在于,包括以下步骤:
(1)获取网络新闻;
(2)对网络新闻中的文字基于中文词汇链提取关键词;
(3)基于深度学习算法进行图片分类;
首先,采集图像,对获取的图像进行标注,构建卷积神经网络结构,将标注好的图像送至构建的卷积神经网络中,进行训练;输出新闻分类结果;
(4)建立新闻ID,新闻入库;
(5)新闻对比;
(5.1)用户输入需要搜索的相似新闻个数K以及输入待对比且未录入新闻库的一则新闻;
(5.2)经过步骤(2)、(3)、(4),建立待对比且未录入新闻库的一则新闻的新闻ID,并入库;根据该新闻的图片,利用基于深度学习的图片分类中的soft-max函数输出K个由高到低的函数值,对应于该新闻相似程度由高到低的K个新闻,输出K个新闻的新闻ID;
(5.3)对输出K个新闻的新闻ID进行判断,若为同一类则输出所述的K个新闻作为相似新闻,若不是同一类,则重复步骤(5.2)。
进一步地,步骤(2)中提取关键词的方法包括以下步骤:
(2.1)设定抽取关键词个数k,词语相似度阈值δ,特征频率阈值ε;
(2.2)预处理文档集,包括分词、词性标注和词过滤,并对每个词的特征频率TF和文档频率DF进行统计;
(2.3)选择文本中预处理后的词w1,w2,..,wn作为候选词汇集,并取w1构建初始词汇链L1;对于未被《同义词词林》收录的词汇,但特征频率TF大于特征频率阈值ε的词单独归为词汇链L0;
(2.4)对候选词汇集的词wi(i∈[2,n])依次进行提取,构建词汇链Li,依次计算它与除词汇链L0之外的词汇链Li(i∈[2,n])的语义扩展度exp(wi,Lj),该词与某词汇链Lj中所有词的语义扩展度最大值作为该词汇链的扩展度S(wi,Lj);然后对每个S(wi,Lj)进行比较,选取其中的最大值作为该词与所有词汇链的语义扩展度exp(wi,L),即
式中,nj为词汇链Lj中包含词汇的个数;m为词汇链的条数;wjk为词汇链Lj中第k个词汇。词汇间语义扩展度exp(wi,Lj),exp(wi,Lj)表示词汇wi与词汇链Lj的语义扩展度;
(2.5)将语义扩展度exp(wi,Lj)的最大值和预设的词语相似度阈值δ作比较,如果exp(wi,Lj)的最大值大于δ,就把词wi加入到对应的词汇链Lj中;如果语义扩展度exp(wi,Lj)最大值小于δ,就创建一个新词汇链,并把词wi加入到该新建的词汇链中;
(2.6)对全部候选词汇依次进行计算,重复步骤(2.4)到步骤(2.6),直到全部词汇计算完毕。
进一步地,步骤(3)中构建卷积网络结构是使用227x227像素的输入图片大小,共5层卷积层,每批次训练图片个数为256,测试图片个数为256;网络的每一层是一个大小为w×h×d的三维矩阵,其中h和w代表图像的高度和宽度,d是滤波器的个数或者信道维数,利用上述三维矩阵可得出网络每一层的神经单元个数。
进一步地,步骤(3)中卷积神经网络的训练按如下步骤实现:
(3.1)计算卷积神经网络特征,根据训练图片和标签分类器,选取soft-max函数作为损失函数,训练卷积神经网络进行分类任务;
(3.2)对(3.1)中得到的特征在后续新闻图片中进行测试,卷积神经网络最后一层输出该图片属于某一类别的概率值,并将概率最大的那一类做为最终类别,至此,图片分类结束。
进一步地,步骤(5)中用户输入需要搜索的相似新闻个数K为3-5个。
本发明针对网络新闻中文字部分基于中文词汇链的提取关键字,便于精简新闻概要;基于深度学习算法对图片进行分类;结合新闻图片和关键字建立新闻ID,最终放入新闻库便于检索引用查找等。
本发明的有益效果是:
1.本发明根据网络新闻中的文字信息提取关键摘要并对新闻图片进行分类,形成新闻ID,实现了一篇新闻对应一项新闻ID,极大降低了系统的存储要求,提高了存储效率。
2、本发明通过所提及的新闻库的不断实时更新以及提供的快速查询与添加等功能,提高了检索新闻的效率,极大降低了工作人员查看、评价新闻的工作量,起到了有效的新闻甄别辅助工作。
附图说明
图1是本发明所示网络新闻概要提取方法的流程图。
图2是所述图片分类网络结构图。
图3是所述新闻ID建立示意图。
图4是新闻提取示意图。
图5是新闻相似对比系统。
图6新闻对比系统输出结果图
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明利用网络新闻,对所获取的网络新闻进行文字识别以及图像进行分析并对该新闻进行新闻ID建立最终放入新闻库旨在精简网络新闻对网络新闻进行分类及过滤。其中文字识别依靠基于词汇链提取关键词,图片分类基于深度学习算法对图片进行分类。
依靠基于词汇链提取关键词的方法包括以下步骤:
(1)设定抽取关键词个数k,词语相似度阈值δ,特征频率阈值ε;
(2)预处理文档集,包括分词、词性标注和词过滤,并对每个词的特征频率TF和文档频率DF进行统计;
(3)选择文本中预处理后的词w1,w2,..,wn作为候选词汇集,并取w1构建初始词汇链L1;对于未被《同义词词林》收录的词汇,但特征频率TF大于特征频率阈值ε的词单独归为词汇链L0;
(4)对候选词汇集的词wi(i∈[2,n])依次进行提取,构建词汇链Li,依次计算它与除词汇链L0之外的词汇链Li(i∈[2,n])的语义扩展度exp(wi,Lj),该词与某词汇链Lj中所有词的语义扩展度最大值作为该词汇链的扩展度S(wi,Lj);然后对每个S(wi,Lj)进行比较,选取其中的最大值作为该词与所有词汇链的扩展度exp(wi,L),即
式中,nj为词汇链Lj中包含词汇的个数;m为词汇链的条数;wjk为词汇链Lj中第k个词汇。词汇间语义扩展度exp(wi,Lj),exp(wi,Lj)表示词汇wi与词汇链Lj的语义扩展度;
(5)将语义扩展度exp(wi,Lj)的最大值和预设的词语相似度阈值δ作比较,如果exp(wi,Lj)的最大值大于δ,就把词wi加入到对应的词汇链Lj中;如果语义扩展度exp(wi,Lj)最大值小于δ,就创建一个新词汇链,并把词wi加入到该新建的词汇链中;
(6)对全部候选词汇依次进行计算,重复步骤(4)到步骤(6),直到全部词汇计算完毕。
在上述算法中,通过观察发现,词语相似度阈值δ选择得越大,构建的词汇链数目就越多。反之,词语相似度阈值δ选择得越小,构建的词汇链数目就越少。
如图2所示,基于深度学习算法进行图片分类,首先,采集图像,对获取的图像进行标注,构建卷积神经网络结构,将标注好的图像送至构建的卷积神经网络中,进行训练;输出新闻分类结果。具体步骤是:
步骤一:采集图像,所有图片均来源于网络新闻插图配图图片。
步骤二:数据标定:对获得图片进行人工标注分类。
步骤三:构建卷积网络结构:本发明采用卷积神经网络,使用227x227像素的输入图片大小,共5层卷积层,每批次训练图片个数为256,测试图片个数为256。网络的每一层是一个大小为w×h×d的三维矩阵,其中h和w代表图像的高度和宽度,d是滤波器的个数或者信道维数,利用上述三维矩阵可得出网络每一层的神经单元个数。
将标注好的图像送至构建的神经网络中,进行分类器训练;训练一个可以快速对输入图片进行分类的分类器。具体实现方法是:
计算神经网络特征,根据训练图片和标签分类器,选取sofmax函数作为损失函数,训练深度神经网络进行分类任务。
对得到的特征在后续新闻图片中进行测试,网络最后一层输出该图片属于某一类别的概率值,并将概率最大的那一类做为最终类别,至此,图片分类结束。
以上两大步是针对网络新闻的文字部分关键词提取以及新闻图片的分类,接着建立新闻ID。新闻ID示意图如图3所示。将建立好ID的新闻放入新闻库中,如图4所示。新闻库中既包含文字信息也包含图片信息,当需要按文字索取时检索关键字关联到相应的图片及对应的新闻ID。图5所示为新闻相似对比系统。基于深度学习的图像分类系统可将同一类相似新闻图片分类便于对比。对于某一则未入库新闻,先需入库或者寻找类似新闻,首先将待比较新闻输入,经过本系统中关键字以及图片提取系统,进而经过基于深度学习中的卷积神经网络进行分类,找出最相似的图片或者最相近的关键词,根据找出的新闻图片对应着已经入库相应的新闻ID,提取出该新闻的关键词,效果图则如图6所示。
具体的,首先,用户输入需要搜索的相似新闻个数K以及输入待对比且未录入新闻库的一则新闻;用户输入需要搜索的相似新闻个数K一般为3-5个。经过新闻中的文字基于中文词汇链提取关键词、基于深度学习算法进行图片分类,建立待对比且未录入新闻库的一则新闻的新闻ID,并入库;根据该新闻的图片,利用基于深度学习的图片分类中的soft-max函数输出K个由高到低的函数值,对应于该新闻相似程度由高到低的K个新闻,输出K个新闻的新闻ID。最后,对输出K个新闻的新闻ID进行判断,若为同一类则输出所述的K个新闻作为相似新闻,若不是同一类,则重复步骤(5.2)。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。
Claims (4)
1.一种网络新闻概要提取方法,其特征在于,包括以下步骤:
(1)获取网络新闻;
(2)对网络新闻中的文字基于中文词汇链提取关键词;
(2.1)设定抽取关键词个数k,词语相似度阈值δ,特征频率阈值ε;
(2.2)预处理文档集,包括分词、词性标注和词过滤,并对每个词的特征频率TF和文档频率DF进行统计;
(2.3)选择文本中预处理后的词w1,w2,..,wn作为候选词汇集,并取w1构建初始词汇链L1;对于未被《同义词词林》收录的词汇,但特征频率TF大于特征频率阈值ε的词单独归为词汇链L0;
(2.4)对候选词汇集的词wi(i∈[2,n])依次进行提取,构建词汇链Li,依次计算它与除词汇链L0之外的词汇链Li(i∈[2,n])的语义扩展度exp(wi,Lj),该词与某词汇链Lj中所有词的语义扩展度最大值作为该词汇链的扩展度S(wi,Lj);然后对每个S(wi,Lj)进行比较,选取其中的最大值作为该词与所有词汇链的语义扩展度exp(wi,L),即
式中,nj为词汇链Lj中包含词汇的个数;m为词汇链的条数;wjk为词汇链Lj中第k个词汇;词汇间语义扩展度exp(wi,Lj),exp(wi,Lj)表示词汇wi与词汇链Lj的语义扩展度;
(2.5)将语义扩展度exp(wi,Lj)的最大值和预设的词语相似度阈值δ作比较,如果exp(wi,Lj)的最大值大于δ,就把词wi加入到对应的词汇链Lj中;如果语义扩展度exp(wi,Lj)最大值小于δ,就创建一个新词汇链,并把词wi加入到该新建的词汇链中;
(2.6)对全部候选词汇依次进行计算,重复步骤(2.4)到步骤(2.6),直到全部词汇计算完毕;
(3)基于深度学习算法进行图片分类;
首先,采集图像,对获取的图像进行标注,构建卷积神经网络结构,将标注好的图像送至构建的卷积神经网络中,进行训练;输出新闻分类结果;
(4)建立新闻ID,新闻入库;
(5)新闻对比;
(5.1)用户输入需要搜索的相似新闻个数K以及输入待对比且未录入新闻库的一则新闻;
(5.2)经过步骤(2)、(3)、(4),建立待对比且未录入新闻库的一则新闻的新闻ID,并入库;根据该新闻的图片,利用基于深度学习的图片分类中的soft-max函数输出K个由高到低的函数值,对应于该新闻相似程度由高到低的K个新闻,输出K个新闻的新闻ID;
(5.3)对输出K个新闻的新闻ID进行判断,若为同一类则输出所述的K个新闻作为相似新闻,若不是同一类,则重复步骤(5.2)。
2.根据权利要求1所述的网络新闻概要提取方法,其特征在于,步骤(3)中构建卷积网络结构是使用227x227像素的输入图片大小,共5层卷积层,每批次训练图片个数为256,测试图片个数为256;网络的每一层是一个大小为w×h×d的三维矩阵,其中h和w代表图像的高度和宽度,d是滤波器的个数或者信道维数,利用上述三维矩阵可得出网络每一层的神经单元个数。
3.根据权利要求1所述的网络新闻概要提取方法,其特征在于,步骤(3)中卷积神经网络的训练按如下步骤实现:
(3.1)计算卷积神经网络特征,根据训练图片和标签分类器,选取sofmax函数作为损失函数,训练卷积神经网络进行分类任务;
(3.2)对(3.1)中得到的特征在后续新闻图片中进行测试,卷积神经网络最后一层输出该图片属于某一类别的概率值,并将概率最大的那一类做为最终类别,至此,图片分类结束。
4.根据权利要求1所述的网络新闻概要提取方法,其特征在于,步骤(5)中用户输入需要搜索的相似新闻个数K为3-5个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610323611.9A CN106021442B (zh) | 2016-05-16 | 2016-05-16 | 一种网络新闻概要提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610323611.9A CN106021442B (zh) | 2016-05-16 | 2016-05-16 | 一种网络新闻概要提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021442A CN106021442A (zh) | 2016-10-12 |
CN106021442B true CN106021442B (zh) | 2019-10-01 |
Family
ID=57097482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610323611.9A Active CN106021442B (zh) | 2016-05-16 | 2016-05-16 | 一种网络新闻概要提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106021442B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106658169B (zh) * | 2016-12-18 | 2019-06-07 | 北京工业大学 | 一种基于深度学习多层次分割新闻视频的通用方法 |
CN106951493A (zh) * | 2017-03-14 | 2017-07-14 | 北京搜狐新媒体信息技术有限公司 | 无图新闻的自动配图展示方法及装置 |
CN107145910A (zh) | 2017-05-08 | 2017-09-08 | 京东方科技集团股份有限公司 | 医学影像的表现生成系统、其训练方法及表现生成方法 |
CN107507052B (zh) * | 2017-07-17 | 2021-04-09 | 苏州凯联信息科技有限公司 | 一种报价信息获取方法及装置 |
CN107895024B (zh) * | 2017-09-13 | 2021-10-08 | 同济大学 | 用于网页新闻分类推荐的用户模型构建方法及推荐方法 |
CN111444362B (zh) * | 2020-03-31 | 2024-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 恶意图片拦截方法、装置、设备和存储介质 |
CN112115259B (zh) * | 2020-06-17 | 2024-06-25 | 上海金融期货信息技术有限公司 | 一种特征词驱动的文本多标签层次分类方法和系统 |
CN113591468B (zh) * | 2021-06-15 | 2024-02-13 | 天津师范大学 | 国际组织科技文本词汇链自动构建与主题发现方法 |
CN114970525B (zh) * | 2022-06-14 | 2023-06-27 | 城云科技(中国)有限公司 | 一种文本同事件识别方法、装置及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033922A (zh) * | 2010-12-14 | 2011-04-27 | 哈尔滨工业大学 | 一种基于词汇链的关键短语抽取方法 |
CN102651012A (zh) * | 2012-03-09 | 2012-08-29 | 华中科技大学 | 互联网新闻文本之间的转载关系识别方法 |
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
CN104657375A (zh) * | 2013-11-20 | 2015-05-27 | 中国科学院深圳先进技术研究院 | 一种图文主题描述方法、装置以及系统 |
CN105512620A (zh) * | 2015-11-30 | 2016-04-20 | 北京天诚盛业科技有限公司 | 用于人脸识别的卷积神经网络的训练方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007087349A2 (en) * | 2006-01-25 | 2007-08-02 | Fortuna Joseph A Jr | Method and system for automatic summarization and digest of celebrity news |
TWI312129B (en) * | 2006-03-10 | 2009-07-11 | Nat Cheng Kung Universit | A video summarization system and the method thereof |
-
2016
- 2016-05-16 CN CN201610323611.9A patent/CN106021442B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033922A (zh) * | 2010-12-14 | 2011-04-27 | 哈尔滨工业大学 | 一种基于词汇链的关键短语抽取方法 |
CN102651012A (zh) * | 2012-03-09 | 2012-08-29 | 华中科技大学 | 互联网新闻文本之间的转载关系识别方法 |
CN104657375A (zh) * | 2013-11-20 | 2015-05-27 | 中国科学院深圳先进技术研究院 | 一种图文主题描述方法、装置以及系统 |
CN104361059A (zh) * | 2014-11-03 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多示例学习的有害信息识别和网页分类方法 |
CN105512620A (zh) * | 2015-11-30 | 2016-04-20 | 北京天诚盛业科技有限公司 | 用于人脸识别的卷积神经网络的训练方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于OWL本体构建的网页图文摘要提取算法研究;韩凤娇;《中国优秀硕士学位论文全文数据库》;20141015(第10期);第21-22页第3. 2部分,第29页第3.4.1部分,第34页第3.5.1部分以及第38页第3.6部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN106021442A (zh) | 2016-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106021442B (zh) | 一种网络新闻概要提取方法 | |
CN106528599B (zh) | 一种海量音频数据中的字符串快速模糊匹配算法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104063472B (zh) | 一种优化训练样本集的knn文本分类方法 | |
CN102929873B (zh) | 一种基于情境搜索提取搜索价值词的方法及装置 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN108710680A (zh) | 一种利用深度学习进行基于情感分析的电影推荐方法 | |
CN107609009A (zh) | 文本情感分析方法、装置、存储介质和计算机设备 | |
CN107169430A (zh) | 基于图像处理语义分析的阅读环境音效增强系统及方法 | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN107818105A (zh) | 应用程序的推荐方法及服务器 | |
CN103617290B (zh) | 中文机器阅读系统 | |
CN107315795B (zh) | 联合特定人物和场景的视频实例检索方法及系统 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN106649849A (zh) | 文本信息库建立方法和装置、以及搜索方法、装置和系统 | |
CN110287328A (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN109948639A (zh) | 一种基于深度学习的图片垃圾识别方法 | |
CN113407842B (zh) | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 | |
Kaur et al. | News classification and its techniques: a review | |
CN112308743A (zh) | 一种基于三元组相似任务的审判风险预警方法 | |
CN107679070A (zh) | 一种智能阅读推荐方法与装置、电子设备 | |
CN109783623A (zh) | 一种真实场景下用户与客服对话的数据分析方法 | |
CN109308324A (zh) | 一种基于手绘风格推荐的图像检索方法及系统 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |