CN110704610A - 体育新闻战报主题分类方法 - Google Patents
体育新闻战报主题分类方法 Download PDFInfo
- Publication number
- CN110704610A CN110704610A CN201910404983.8A CN201910404983A CN110704610A CN 110704610 A CN110704610 A CN 110704610A CN 201910404983 A CN201910404983 A CN 201910404983A CN 110704610 A CN110704610 A CN 110704610A
- Authority
- CN
- China
- Prior art keywords
- sports news
- marking
- data
- team
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。本发明提出的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
Description
技术领域
本发明属于计算机智能写作技术领域,具体涉及一种体育新闻战报主题分 类方法。
背景技术
智能写作在工业界现已引起高度的重视,根据体育赛事实时数据自动撰写 新闻稿件,以跟电视直播几乎同时的速度发布稿件,利用计算机代替人工写作 已成为一种趋势,体育新闻智能写作已成为21世纪重要的研究方向之一。体育 新闻战报主题分类是体育新闻智能写作领域的一项重要技术,是利用体育赛事 直播数据生成新闻报道的一项不可或缺的技术手段之一。现有技术中,体育新 闻战报主题分类结果准确率低,召回率和F值也不佳,远远不能满足实际应用 的需要,现在亟待研发一种准确率、召回率和F值较好的体育新闻战报主题分 类方法。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述技术缺陷的体育新闻战报主题分类方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种体育新闻战报主题分类方法,包括:步骤1)对语料进行预处理;步 骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别 特征对句子主题进行分类。
进一步地,步骤1)包括:利用机器自动去掉背景介绍信息,然后以句号 为切分,将语料切分为以句子为单位的语料。
进一步地,步骤2)包括:首先制定标注规则,完全按照类别定义进行标 注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语 料平均分给多个人进行标注。
进一步地,所述类别定义包括结构类别和内容类别,结构类别是指每节比 赛的开局、局中、局尾,内容类别是指比赛过程中反应出的事实主题。
进一步地,开局定义为:每节比赛开始,第一句话,每节比赛的前2分钟 左右,表现形式为:领先、落后、平局;
局中定义为:比赛的过程中,比分不停变化,每节比赛的2-11分钟左右, 表现形式为:领先、落后、平局;
局尾定义为:比赛的最后一次进球,每节比赛的最后1分钟左右,如果最 后一分钟内有多次进球,则以最后一次为准,表现形式:领先、落后、平局;
内容类别的事实主题包括:扩大比分、小高潮、稳定比分、最大分差;得 分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先。
进一步地,步骤3)包括:采用交叉校验方式,对数据进行多轮校验,并 将校验标注数据与原始数据进行对比,将存在问题的数据进行统一整理并进行 讨论,最终确认标注结果。
进一步地,步骤4)包括:分别使用TF-IDF算法、布尔权重法,对体育新 闻战报句子进行主题分类。
进一步地,使用互信息MI、信息增益IG、卡方CHI、加权对数似然比方法 WLLR进行特征词的提取,并对四种情况下的结果取交集、并集分别进行测试。
进一步地,步骤1)包括:对数据进行分词,构造新词表,构造停用词表, 使词项更加符合体育新闻的规则,并去除无用的词汇;把比分进行处理,将不 同的比分转换为对应的词语。
进一步地,所述步骤2)包括:将体育新闻战报中报道的每一个句子提取 出来,从结构和内容上对数据进行标注,并且以\t进行分割。
本发明提供的体育新闻战报主题分类方法,对战报数据进行分类,首先是 对数据进行预处理,提取标注数据,其次对提取的句子进行人工标注,并进行 交叉验证,最后选取类别特征对句子主题进行分类,实验结果表明本发明提出 的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用 于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
附图说明
图1为本发明的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具 体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以 解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保 护的范围。
如图1所示,一种体育新闻战报主题分类方法,包括:首先对数据进行预 处理,提取待标注数据,然后对提取的句子进行人工标注,并进行交叉验证, 最后选取类别特征对句子主题进行分类。
主题类别的划分:
通过对NBA体育新闻战报阅读发现,从结构上可以大致分为3部分,如:每 节比赛的开局、局中、局尾。从比赛的内容上可以大致分为10个主题,如:扩 大比分、小高潮、稳定比分、最大分差;得分荒、缩小比分、双方打平、双方 对飚、双方打铁、交替领先等。为了能够得到更多的用户的写作主题模板,本 发明需要对已完成的战报文章进行分类。
本发明从结构上和内容上分别对各主题做了如下定义:1)结构类别
结构类别主要是指每节比赛的开局、局中、局尾,具体定义如下:
定义1.1开局:每节比赛开始,通常为第一句话。从时间角度考虑每节比 赛的前2分钟左右,一般情况第一节比赛通常含有开局,二三四节比赛不一 定有。表现形式为:领先、落后、平局。
定义1.2局中:比赛的过程中,比分在不停的变化。从时间角度考虑每节 比赛的2-11分钟左右。表现形式:领先、落后、平局。
定义1.3局尾:通常为比赛的最后一次进球,如压哨球,巨星表现等。从 时间角度考虑每节比赛的最后1分钟左右,如果最后一分钟内有多次进球, 则以最后一次为准。表现形式:领先、落后、平局。2)内容类别
为了能够更好的理解编辑的写作行为,本发明需要对各主题进行定义。内容 类别主要是指比赛过程中反应出的事实主题,它是随着比赛的时间以及球员、 球队的表现在不停的变化。主题基本固定分为10个主题,扩大比分、小高潮、 稳定比分、最大分差;得分荒、缩小比分、双方打平、双方对飚、双方打铁、 交替领先等,但是表现形式多种多样,如表1.1所示。
定义1.4扩大分差:A队在T1时间点领先B队S分,经过T2-T1时间段A 队没有被B队连续追分,并且在T2时间点,A队领先B队的分数>S分,则 称此A队在T2-T1时间段内扩大分差。
定义1.5小高潮:A队在T1时间点领先B队S分(或落后S分),经过T2 -T1时间段A队连续得分且=>8分,B队不得分或者得分<=3分,则称此A 队在T2-T1时间段内打出小高潮。
定义1.6稳定比分:A队在T1时间点领先B队S分,经过T2-T1时间段A 队领先B的分数<S,经过暂停或球员自己调试,在T3-T2时间段A队又领B 队等于S分,则称此A队在T3-T2时间段内稳定比分。
定义1.7最大分差:A队在T1时间点领先B队S分,经过T2-T1, T3-T2,…Tn+1-Tn时间段A队领先B的分数<=S,则称此A队在T1时间点为 本场比赛的最大分差。
定义1.8得分荒:A队在T1时间点落后B队S分,经过T2-T1时间段A队 落后B队的分数>S,并且B队连续至少3个回合不得分,则称此A队在T2 -T1时间段进入得分荒。
定义1.9缩小分差:A队在T1时间点落后B队S分,经过T2-T1时间段A 队落后B队的分数<S,则称此A队在T2-T1时间缩小分差。
定义1.10双方打平:A队在T1时间点落后B队S分,经过T2-T1时间段 A队与B对得分相同,则称此A队在T2时间点与B对打平。
定义1.11双方对飙:在T2-T1时间段A队与B队交替得分,则称A队与B 队双方对飙。
定义1.12双方打铁:在T2-T1时间段A队与B队都不得分,则称A队与B 队双方打铁。
定义1.13:交替领先,A队在T1时间点领先B队S分,经过T2-T1时间, A队落后B队,经过T3-T2时间,A队领先B队,则称此A队与B队在T1-T3 时间内交替领先。
表1.1主题句
语料标注:
本发明采用多人交叉标注方法,对867篇NBA战报数据进行标注,首先利用 机器自动地去掉背景介绍信息,然后以句号为切分,将语料切分为以句子为单 位的语料,最后将数据分配给3个人进行标注,并将标注好的结果进行交叉验 证。语料预处理:由于NBA战报在撰写的时候有一些背景信息,与这场比赛 的事实无关,通过直播文本根本就无法生成,需要有历史数据以及专业的知识, 如表1.2所示,加粗的数据为背景数据。因此本发明需要将背景信息去掉。本发 明将剩余的数据再以句号为单位进行切分,使得每一行数据都表示一个句子, 这样有利于本发明标注,如表1.3所示。
表1.2战报背景数据
表1.3待标注数据
本发明需要标注大量的NBA战报新闻语料库,学习编辑的写作特征。本发明 按照以下规则对数据进行标注:
首先制定标注规则,完全按照本发明事先定义好的类别进行标注,并对语料 标注者进行集中沟通,并确认是否完全理解类别信息。其次将语料平均分成N 份给N个人进行标注,本发明将NBA战报中报道的每一个句子提取出来,从结 构和内容上对数据进行标注,并且以\t进行分割。
表1.4结构主题标记
句子主题 | 标记 |
开局 | J-1 |
局中 | J-2 |
局尾 | J-3 |
表1.5内容主题标记
句子主题类别 | 标记 |
扩大分差 | N-1 |
小高潮 | N-2 |
稳定比分 | N-3 |
最大分差 | N-4 |
得分荒 | N-5 |
缩小分差 | N-6 |
双方打平 | N-7 |
双方对飙 | N-8 |
双方打铁 | N-9 |
交替领先 | N-10 |
按照上述的标注规范对数据进行标注如下:
表1.6原始数据与标注数据
语料校验:
本发明采用交叉校验方式,对数据进行多轮校验,并将校验标注数据与原始 数据进行对比,将存在问题的数据进行统一整理,并进行讨论,最终确认标注 结果。
特征提取:
分别使用TF-IDF算法、布尔权重法,对NBA新闻战报句子进行主题分类。 在进行文本分类之前,对语料进行预处理,提取关键词。
在实验过程中对数据进行预处理:主要对数据进行分词,构造新词表(NBA 的球员名、球队名、动作专有名词等),构造停用词表(NBA的球员名、球队 名、标点符号、数字、助词等),使词项更加符合NBA体育新闻的规则,并去 除无用的词汇。
把比分进行处理,将不同的比分转换为对应的词语。通过对语料的分析可知, 报道比分时的结构为xx-xx,将其定义为Zsore、Ksore。比分报道整体上分为:
1.对领先球队进行报道,该情况下:Zsore>Ksore。此情况下又可以分为由于章节需要报道的领先、比分扩大、比分反超,由于这几种情况仅通过比分上的 差异很难区分,统一标记为:“领先”。
2.对落后球队进行报道,该情况下:Zsore<Ksore。此情况下基本上为落后球队得分后缩小分差。我们按照已有分类的需求将其分为:Zsore<Ksore的情况, 标记为:“追分”;Zsore=Ksore,标记为:“平分”。
TF-IDF算法:利用TF,即关键词出现的频率,以及IDF,即反文档频率的 乘积,作为衡量该词对文档的重要程度。
布尔权重法即“特征词在文本中出现过即权重值为1,否则为0”。本发明主 要使用了互信息MI、信息增益IG、卡方CHI、加权对数似然比方法WLLR进 行了特征词的提取。并对四种情况下的结果取交集、并集分别进行测试。
分别对不同阶段预处理的语料设置不同的阈值、设置不同的维数、整体提取 与类别内提取进行对比实验,获取最好的分类结果。
实验结果与分析
实验数据
利用标注的3024条NBA体育战报新闻语句,将其划分为训练集∶测试集 =2000∶1024的比例作为实验数据,对不同的方法进行测试、对比。评价指标
借用文本分类评价中采用的准确率、召回率和F值进行评价。对于类别C, 分类的结果可分为以下几种情况:
1)原本为C类被划分为C类,数量记为a;
2)原本为非C类被划分为C类,数量记为b;
3)原本为C类被划分为非C类,数量记为c;
正确率:
实验结果与分析
通过使用TF-IDF算法,使用训练集对语料进行训练,对测试集语料进行预 测。对不同阶段处理过的文本分别进行测试,结果如表1.7所示:
表1.7 TF-IDF分类结果
可以看出预处理均在一定程度上提高了分类的准确性。对最终的结果进行模 型指标评估报告的生成。可以看出使用TF-IDF算法进行文本分类时,对训练 集具有较好的拟合程度,准确度达到了77.65%,而对测试集却有较大的差距, 仅能达到68.65%。
布尔权重法的重点在于特征词的选取,选取好的特征词对于模型的准确程度 具有很大的影响。开始阶段,人工选择出42个特征词进行训练预测。
表1.8布尔权重法分类结果
训练集正确率 | 测试集正确率 | |
未替换比分前的结果 | 0.5930 | 0.647804878049 |
将比分替换后结果 | 0.6590 | 0.7200 |
可以看到整体的情况十分糟糕。下面需要使用一些文本特征词提取的算法进 行特征词提取,提高分类模型的准确率。
一开始,对每个类别应用各自的公式求得不同词项在不同类别下的值,设置 一个阈值,提取所有大于该阈值的词为特征词。由于将每个类别下的阈值设置 的较低,因此得到的特征词维数较低,模型的准确率也呈现不同的状态,使得 整体情况较差。因为MI、IG两种方法更趋向于得到频率较低的词,所以当布 尔向量的维度较低时,准确率会十分低。
表1.9不同特征的布尔分类结果
阈值 | 特征词数 | 训练集正确率 | 测试集正确率 | |
MI | 0.3 | 30 | 0.3425 | 0.416015625 |
IG | 0.05 | 36 | 0.4760 | 0.50390625 |
CHI | 10 | 41 | 0.6505 | 0.72265625 |
WLLR | 0.3 | 48 | 0.6565 | 0.7177734375 |
INTERSECTION | 40 | 0.6430 | 0.7119140625 | |
UNION | 54 | 0.6730 | 0.7373046875 |
接下来降低了设定的阈值,增加了特征值的数量,使得布尔向量的维度提高, 结果如表1.10所示。
表1.10不同特征不同阈值的布尔分类结果
虽然训练集的准确率与TF-IDF算法相比较低,但是在测试集的准确率有了 较大的提高,甚至比训练集更好。交集与并集通常表现不错,但是并集由于具 有较高的维度容易造成过拟合,使得测试集的准确率下降。通过提高训练集的 数量,两种方法的准确率进一步提高。
另外之前的特征词是对整体分析,获取大于规定阈值的词,存在大量词同属 于一类之下的情况,从每个类别中分别抽取15个特征词,去重后形成一个108 维的布尔向量,但是结果并没有提高。主要原因是在类别数据量少的类别里, 类别区分词不明显。于是出现了一些无关紧要的词,对分类并没有影响。通过 计算每个词项在各类文本下的值进行加权,获得整体的排序,所得的特征词大 体上一致。最终的测试结果表明在维数较低时加权结果较差,维数较高时其准 确率变化不明显。原因在于加权后排名较高的词项说明他的整体区分能力较强, 而单类别下排名较高的词项说明了其对该类别有较强的区分程度,在维数较低 的情况下,两者的差别会被放大,而单类别下具有更好的区分程度;当维数增 加,差别将越来越小。
通过提取前n个特征词进行测试,目的在于得出特征词个数对结果的影响。
表1.11特征词个数对实验结果的影响
从结果可以看出,随着词项数目的增加,训练集拟合程度越来越高,正确率 越来越高,测试集在较小的范围内浮动变化。过高的维数会造成过拟合,使得 测试集的效果反而下降。
选取测试结果较好的词作为特征词提取方法,提取220维的布尔特征向量, 利用布尔权重法对文本进行分类,各类所得结果如表1.12所示。
表1.12各分类结果数据
类别 | 正确率 | 召回率 | F值 |
扩大分差 | 0.82 | 0.82 | 0.82 |
小高潮 | 0.79 | 0.88 | 0.84 |
稳定比分 | 0.71 | 0.87 | 0.78 |
最大分差 | 0.74 | 0.94 | 0.83 |
得分荒 | 0.81 | 0.89 | 0.85 |
缩小分差 | 0.81 | 0.83 | 0.82 |
双方打平 | 0.98 | 0.95 | 0.97 |
双方对飙 | 0.49 | 0.95 | 0.64 |
双方打铁 | 0.83 | 1.00 | 0.90 |
交替领先 | 0.81 | 0.90 | 0.85 |
对每个类别的准确率进行分析、对比,发现战报文本中较常出现、有多个明 确特征词的类别可以得到很高的准确率,而一些出现频率较低,需要通过多词 分析的情况(双方对飙、交替领先)则准确率较低。
对测试结果进行分析:TF-IDF算法与布尔权重法相比,具有较好的召回率 (训练集上为0.92,测试集上为0.86),但总体上选取的方法在测试集上表现的 更加准确。另外两种方法都含有某些战报文本过短而无法正确分类的情况。以 及句子包含多个标签,预测与人工标注不符的情况。另外某些句子也需要一些 逻辑判断,机器难以分类。
本发明提供的体育新闻战报主题分类方法,对战报数据进行分类,首先是 对数据进行预处理,提取标注数据,其次对提取的句子进行人工标注,并进行 交叉验证,最后选取类别特征对句子主题进行分类,实验结果表明本发明提出 的方法对句子主题分类十分有效,准确率高,具有较好的召回率和F值,可用 于为领域模板库构建提供支持,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但 并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改 进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权 利要求为准。
Claims (10)
1.一种体育新闻战报主题分类方法,其特征在于,包括:步骤1)对语料进行预处理;步骤2)对语料进行人工标注;步骤3)对语料进行交叉验证;步骤4)选取类别特征对句子主题进行分类。
2.根据权利要求1所述的体育新闻主题分类方法,其特征在于,步骤1)包括:利用机器自动去掉背景介绍信息,然后以句号为切分,将语料切分为以句子为单位的语料。
3.根据权利要求1所述的体育新闻主题分类方法,其特征在于,步骤2)包括:首先制定标注规则,完全按照类别定义进行标注,并对语料标注者进行集中沟通,并确认是否完全理解类别信息,然后将语料平均分给多个人进行标注。
4.根据权利要求3所述的体育新闻主题分类方法,其特征在于,所述类别定义包括结构类别和内容类别,结构类别是指每节比赛的开局、局中、局尾,内容类别是指比赛过程中反应出的事实主题。
5.根据权利要求4所述的体育新闻主题分类方法,其特征在于,开局定义为:每节比赛开始,第一句话,每节比赛的前2分钟左右,表现形式为:领先、落后、平局;
局中定义为:比赛的过程中,比分不停变化,每节比赛的2-11分钟左右,表现形式为:领先、落后、平局;
局尾定义为:比赛的最后一次进球,每节比赛的最后1分钟左右,如果最后一分钟内有多次进球,则以最后一次为准,表现形式:领先、落后、平局;
内容类别的事实主题包括:扩大比分、小高潮、稳定比分、最大分差;得分荒、缩小比分、双方打平、双方对飚、双方打铁、交替领先。
6.根据权利要求1所述的体育新闻主题分类方法,其特征在于,步骤3)包括:采用交叉校验方式,对数据进行多轮校验,并将校验标注数据与原始数据进行对比,将存在问题的数据进行统一整理并进行讨论,最终确认标注结果。
7.根据权利要求1所述的体育新闻战报主题分类方法,其特征在于,步骤4)包括:分别使用TF-IDF算法、布尔权重法,对体育新闻战报句子进行主题分类。
8.根据权利要求1-7所述的体育新闻战报主题分类方法,其特征在于,使用互信息MI、信息增益IG、卡方CHI、加权对数似然比方法WLLR进行特征词的提取,并对四种情况下的结果取交集、并集分别进行测试。
9.根据权利要求1-8所述的体育新闻战报主题分类方法,其特征在于,步骤1)包括:对数据进行分词,构造新词表,构造停用词表,使词项更加符合体育新闻的规则,并去除无用的词汇;把比分进行处理,将不同的比分转换为对应的词语。
10.根据权利要求1-9所述的体育新闻战报主题分类方法,其特征在于,所述步骤2)包括:将体育新闻战报中报道的每一个句子提取出来,从结构和内容上对数据进行标注,并且以\t进行分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404983.8A CN110704610A (zh) | 2019-05-15 | 2019-05-15 | 体育新闻战报主题分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910404983.8A CN110704610A (zh) | 2019-05-15 | 2019-05-15 | 体育新闻战报主题分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110704610A true CN110704610A (zh) | 2020-01-17 |
Family
ID=69193078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910404983.8A Pending CN110704610A (zh) | 2019-05-15 | 2019-05-15 | 体育新闻战报主题分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704610A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239197A (zh) * | 2021-05-12 | 2021-08-10 | 首都师范大学 | 基于tf-idf算法对句子分类的方法、装置及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810245A (zh) * | 2013-12-30 | 2014-05-21 | 苏州艾隆科技股份有限公司 | 一种智能产品识别装置和识别方法及智能药房和快速集中发药装置 |
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN108647251A (zh) * | 2018-04-20 | 2018-10-12 | 昆明理工大学 | 基于宽深度门循环联合模型的推荐排序方法 |
CN109104639A (zh) * | 2017-06-20 | 2018-12-28 | 阿里巴巴集团控股有限公司 | 直播系统、确定直播视频主题的方法、装置以及电子设备 |
-
2019
- 2019-05-15 CN CN201910404983.8A patent/CN110704610A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810245A (zh) * | 2013-12-30 | 2014-05-21 | 苏州艾隆科技股份有限公司 | 一种智能产品识别装置和识别方法及智能药房和快速集中发药装置 |
CN104820703A (zh) * | 2015-05-12 | 2015-08-05 | 武汉数为科技有限公司 | 一种文本精细分类方法 |
CN109104639A (zh) * | 2017-06-20 | 2018-12-28 | 阿里巴巴集团控股有限公司 | 直播系统、确定直播视频主题的方法、装置以及电子设备 |
CN108647251A (zh) * | 2018-04-20 | 2018-10-12 | 昆明理工大学 | 基于宽深度门循环联合模型的推荐排序方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239197A (zh) * | 2021-05-12 | 2021-08-10 | 首都师范大学 | 基于tf-idf算法对句子分类的方法、装置及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
JP6721179B2 (ja) | 因果関係認識装置及びそのためのコンピュータプログラム | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN105975453A (zh) | 评论标签提取方法和装置 | |
Hong et al. | An extended keyword extraction method | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
Yüksel et al. | Turkish tweet classification with transformer encoder | |
CN106227768B (zh) | 一种基于互补语料的短文本观点挖掘方法 | |
CN110457711B (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN109508460B (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
CN102541838A (zh) | 用于优化情感分类器的方法和设备 | |
Hettinger et al. | Genre classification on German novels | |
Inrak et al. | Applying latent semantic analysis to classify emotions in Thai text | |
CN110674296A (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
Widjanarko et al. | Multi document summarization for the Indonesian language based on latent dirichlet allocation and significance sentence | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
CN114896398A (zh) | 一种基于特征选择的文本分类系统及方法 | |
CN107908649B (zh) | 一种文本分类的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |