CN109960724A - 一种基于tf-idf的文本摘要方法 - Google Patents

一种基于tf-idf的文本摘要方法 Download PDF

Info

Publication number
CN109960724A
CN109960724A CN201910191106.7A CN201910191106A CN109960724A CN 109960724 A CN109960724 A CN 109960724A CN 201910191106 A CN201910191106 A CN 201910191106A CN 109960724 A CN109960724 A CN 109960724A
Authority
CN
China
Prior art keywords
sentence
word
idf
document
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910191106.7A
Other languages
English (en)
Other versions
CN109960724B (zh
Inventor
张涛
陈才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910191106.7A priority Critical patent/CN109960724B/zh
Publication of CN109960724A publication Critical patent/CN109960724A/zh
Application granted granted Critical
Publication of CN109960724B publication Critical patent/CN109960724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于TF‑IDF的文本摘要方法,本方法的步骤实现如下,中文分词;去停用词;计算词语的TF‑IDF;计算句子的TF‑IDF;计算句子的位置特征;计算句子的重要度;筛选关键句;输出文本摘要;将句子所包含的关键词的TFIDF值作为权重,对于核心词关键词和一般关键词给予不同的权重。同时,为了防止句子长度不一致对结果产生影响,引入了滑动窗口,使用句子中最大的滑动窗口的重要度作为句子重要度,并结合句子长度和句子位置等特征对句子进行排序,在多个语料上达到了不错的效果。

Description

一种基于TF-IDF的文本摘要方法
技术领域
本发明属于自然语言处理中自动文本摘要领域,尤其涉及一种抽取式文本摘要方法的创新。
背景技术
在文本摘要方面,有两种主流的摘要生成方式,抽取式和生成式。
1抽取式文本摘要现状
抽取式是指在原文的基础上,通过某种方法对句子的重要程度进行评估,根据句子的重要程度找出与原文意思最相近的一条或多条句子作为摘要。现阶段,对于抽取式摘要生成方法的研究相对成熟,抽取式文本摘要假定一篇文章可以通过文章中比较重要的句子来表达其含义,因此摘要任务就变成了找到文章中最重要的几句话,其核心问题是对文章中的句子进行排序。现有的排序方法有两大类:
1)基于图排序,该方法将每句话做为一个节点,句子的相似度作为边的权值,使用TextRank的方法获取句子的得分,TextRank算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图。用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。基于特征的排序方法,基于句子本身的一些特征对句子进行排序,常用的特征有句子长度;句子位置,文章的中心句一般会出现的文章的前几句,根据句子在文章中的文章给出分数;句子包含关键词的个数,文本经过分词处理后提前关键词,根据句子包含关键词的数量给出对应的分数,本论文就是基于该方法的改进。
2生成式文本摘要
生成式摘要系统是指计算机在理解原文后,根据理解后的内容输出摘要,类似于人在做完阅读理解后对文章做出总结。
生成式文本摘要的主要模型通常是采用深度学习中的seq2seq模型,在此基础上添加了attention机制。其中seq2seq模型包含两个部分,1)编码器,主要负责对原文进行编码2)解码器,负责对摘要进行解码。通常编码器和解码器使用的RNN系列的具有序列学习能力的模型,如LSTM,GRU,BiLSTM,及其变体。谷歌最新公开的textsum模型就是采用的seq2seq+attention实现的文本摘要,可以得到比较好的结果。但是训练RNN需要很长的时间,需要巨大的计算资源。
3TF-IDF算法
1)定义
TFIDf是一种用来评估词语对于文档的重要程度的评价指标,一个词的重要程度与它在该文章中出现的频率成正比,与它在其他文档中出现的频率成反比。TF-IDF分为两个部分,TF词频,IDF逆文档频率,TF表示词语在文档D中出现的频率,可以由词数除以文档总词数得到,IDF是一个词语普遍重要度的衡量,可以由文档总数除以包含该词的文档数量,再将得到的商取以10为底的对数得到,在计算过程中为了防止分母为零导致计算错误,通常会将分母进行加一处理。
2)计算方法
TF-IDF的计算方法分为两个部分,
对于分词完成后句子的每个词语,计算其TF值,TF的计算公式为:
IDF值公式计算:
在计算idf的时候如果包含词语的文档数量为零会导致分母为零的情况出现,所以一般情况下会对分母部分进行加一处理,修正后的idf计算公式为:
Tfidf值计算:
tfidfi,j=tfi,j*idfi,j (4)
其中:i是当前词在文档中的标号,j是当前文档在语料中的标号
|D|:语料中的文档总数
发明内容
本发明提出了一种基于TF-IDF的摘要方法,将句子所包含的关键词的TFIDF值作为权重,对于核心词关键词和一般关键词给予不同的权重。同时,为了防止句子长度不一致对结果产生影响,引入了滑动窗口,使用句子中最大的滑动窗口的重要度作为句子重要度,并结合句子长度和句子位置等特征对句子进行排序,在多个语料上达到了不错的效果。
本发明采用的技术方案为一种基于TF-IDF的文本摘要方法,该
方法处理步骤包括如下:
S1.预处理
分词;在英文文本中存在天然的分割符,在中文中词语之间没有特殊的符号进行分割,而且中文中以双字词和多字词居多,文本的分词是中文处理中的第一步,也是至关重要的一步,中文分词的准确与否,它会对后续步骤产生重要的影响本研究使用了foolnltk作为分词器。
2)去停用词;分词后的文本往往包含很多无关紧要的词语,将它们加入运算会影响最终结果的准确性,同时更多的词也需要更多的计算性能,本研究使用了停用词表进行筛选。在分词完成参照停用词表对原始数据进行处理,删除一些噪声词。
S2计算TF-IDF
1)构造词典;
对于分词完成的文本,进行去停用词处理,将所有的词语,添加到词典里面。
2)词语出现的文档数量;
统计词典中每个出现的词所在的文档数量,为了保证计算效率,可以按文档进行遍历,对于一篇文档,将所有出现的词放在一个集合里面,对于集合里面的每一个词,将该词的文档数量加一。
3)计算每篇文章每个词的TFIDF;
构造一个与文档长度相同的数组,数组的每个元素存储一篇文章所有词的TFIDF,用字典进行存储,对于每篇文档的每个词,先计算其TF词频(词数/文档总词数),再计算IDFlog(文档总数/(1+包含该词的文档数)),TF-IDF=TF*IDF。
S3句子的重要度
通过词语来评估句子的重要程度,现有的研究方法有,先通过TFIDF或其他方法来提取文档的关键词,按重要度进行倒排,取前N个关键词作为文档的关键词,再计算每个句子包含的关键词数目,用关键词数量除以总词数作为句子的重要程度。该方法没有考虑到词语重要程度,实际上核心关键词和一般关键词对于句子重要度的贡献程度是不一样的,同时句子的长度也会影响计算的结果,如果目标核心句过长,会导致包含信息量比较稀疏,最终影响计算结果。
针对第一个问题,通过用词的TF-IDF值来代表词的重要程度,来对核心词和一般词进行区分。针对第二个问题,提出了两种解决方案,方案一:取每个句子中TF-IDF最大的K个词的均值作为句子的TF-IDF值,方案二:设置滑动窗口大小W,从句子开头开始,计算每个窗口内词语的TF-IDF均值,用均值最大的滑动窗口的TF-IDF值代替句子的TF-IDF,句子的TFIDF重要公式如下:
其中:tfidf表示获取词在该文档中的tfidf值,wi表示第i个滑动窗口,word表示处于滑动窗口的词,|wi|表示滑动窗口大小。
获取句子的TF-IDF后,对其进行归一化处理,作为句子的TF-IDF特征。根据句子的位置信息,提取句子的位置特征,文档的中心句往往会出现在文档的开始,因此越接近文档开始的句子其重要程度会越高,综合句子的各方面特征做出最终排序,句子重要度的技术公式如下:
其中w1,w2是两部分特征的权重,|D|文档包含的句子数量sentence_index表示句子在文档中位置,从1开始计算。
使用句子重要度排序后根据摘要长度要求筛选出候选句子,但是筛选出来的句子在阅读上可能无法保证原文的逻辑性,因此需要按照句子的原生顺序进行排列后输出。
附图说明
图1是本发明中使用TFIDF进行文本摘要的整体流程。
图2是本发明中分词完成后的结果图。
图3是本发明中词的TFIDF计算完成后的结果图。
图4是本发明中使用滑动窗口计算句子的TF-IDF后的的结果图。
图5是本发明中按照句子重要度排序后的结果图。
图6是本发明中按照句子重要度进行筛选出前4条句子后的结果图。
图7是本发明中按照句子原始顺序排序后的结果图。
具体实施方式
结合说明书附图对发明的实施方式进行描述,中文文本摘要主要分为以下步骤,
S1中文分词
中文的是指将一个由汉字和其他常规字符组成的连续序列,按照中文理解方法,将其划分为单个的词语,在实施过程中可以使用jieba分词工具对文本进行分词,分词完的句子如图2所示,可以看到这个句子被分割成了单个的词语
S2去停用词
在正常的中文文本中通常会包含句号,逗号,分号等特殊符号,在分词完成后,这些标点符号就不需要继续存在,其次句子中包含了一些对句子重要度影响很小的词语,如的,了,不仅,而且,等词语,在后续步骤中不需要使用,因此在预处理对其进行删除处理。
S3计算词语的TF-IDF
使用公式(1)计算句子中每个词的Tf值,使用改进后的公式(3)计算该词的IDF值,再使用公式(4)计算出该词的TFIDF值,计算完TFIDF值后的文本如图3所示。
S4计算句子的TF-IDF
在计算完词语的TF-IDF值后,使用滑动窗口方法计算出每个句子中每个滑动窗口内所有词语的TF-IDF值,再根据公式(5)计算出句子的TF-IDF值,句子的TF-IDF计算完成后如图4所示。
S5计算句子的位置特征
对每个句子进行编号,从1开始编号,用句子的当前位置除以文档中句子总数,再计算出其倒数,最后再取结果的log值作为句子的位置特征。
S6计算句子的重要度
计算完句子的TFIDF值和句子的位置特征后,根据公式(6)计算出句子的重要度,最后按句子重要度降序排列,排列后的句子如图5所示。
S7筛选关键句
根据文本摘要中的需求,按照句子重要度,筛选出特定数量或特定字数的句子,作为最终的候选句,筛选完成后的句子如图6所示。
S8输出文本摘要
对于筛选出来的句子,为了尽可能的保证摘要的可读性,对所有候选句按照原始的序号进行升序排列,升序排列后如图7所示,最后根据需求将所有候选句按照逗号或句号连接即可。

Claims (2)

1.一种基于TF-IDF的文本摘要方法,其特征在于:该方法处理步骤包括如下,
S1.预处理
分词;在英文文本中存在天然的分割符,在中文中词语之间没有特殊的符号进行分割,而且中文中以双字词和多字词居多,文本的分词是中文处理中的第一步,也是至关重要的一步,中文分词的准确与否,它会对后续步骤产生重要的影响本研究使用了foolnltk作为分词器;
去停用词;分词后的文本往往包含很多无关紧要的词语,将它们加入运算会影响最终结果的准确性,同时更多的词也需要更多的计算性能;在分词完成参照停用词表对原始数据进行处理,删除一些噪声词;
S2计算TF-IDF
1)构造词典;
对于分词完成的文本,进行去停用词处理,将所有的词语,添加到词典里面;
2)词语出现的文档数量;
统计词典中每个出现的词所在的文档数量,为了保证计算效率,可以按文档进行遍历,对于一篇文档,将所有出现的词放在一个集合里面,对于集合里面的每一个词,将该词的文档数量加一;
3)计算每篇文章每个词的TFIDF;
构造一个与文档长度相同的数组,数组的每个元素存储一篇文章所有词的TFIDF,用字典进行存储,对于每篇文档的每个词,先计算其TF词频即词数/文档总词数,再计算IDF log即文档总数/(1+包含该词的文档数),TF-IDF=TF*IDF;
S3句子的重要度
通过用词的TF-IDF值来代表词的重要程度,来对核心词和一般词进行区分;取每个句子中TF-IDF最大的K个词的均值作为句子的TF-IDF值;设置滑动窗口大小W,从句子开头开始,计算每个窗口内词语的TF-IDF均值,用均值最大的滑动窗口的TF-IDF值代替句子的TF-IDF,句子的TFIDF重要公式如下:
其中:tfidf表示获取词在该文档中的tfidf值,wi表示第i个滑动窗口,word表示处于滑动窗口的词,|wi|表示滑动窗口大小;
获取句子的TF-IDF后,对其进行归一化处理,作为句子的TF-IDF特征;根据句子的位置信息,提取句子的位置特征,文档的中心句往往会出现在文档的开始,因此越接近文档开始的句子其重要程度会越高,综合句子的各方面特征做出最终排序,句子重要度的公式如下:
其中w1,w2是两部分特征的权重,|D|文档包含的句子数量sentence_index表示句子在文档中位置,从1开始计算;
使用句子重要度排序后根据摘要长度要求筛选出候选句子,但是筛选出来的句子在阅读上可能无法保证原文的逻辑性,因此需要按照句子的原生顺序进行排列后输出。
2.根据权利要求1所述的一种基于TF-IDF的文本摘要方法,其特征在于:
S1中文分词
中文的是指将一个由汉字和其他常规字符组成的连续序列,按照中文理解方法,将其划分为单个的词语,在实施过程中可以使用jieba分词工具对文本进行分词,看到这个句子被分割成了单个的词语;
S2去停用词
在正常的中文文本中通常会包含句号,逗号,分号等特殊符号,在分词完成后,这些标点符号就不需要继续存在,其次句子中包含了一些对句子重要度影响小的词语,在后续步骤中不需要使用,因此在预处理对其进行删除处理;
S3计算词语的TF-IDF
计算句子中每个词的Tf值,使用改进后的公式计算该词的IDF值,再计算出该词的TFIDF值;
S4计算句子的TF-IDF
在计算完词语的TF-IDF值后,使用滑动窗口方法计算出每个句子中每个滑动窗口内所有词语的TF-IDF值,再计算出句子的TF-IDF值;
S5计算句子的位置特征
对每个句子进行编号,从1开始编号,用句子的当前位置除以文档中句子总数,再计算出其倒数,最后再取结果的log值作为句子的位置特征;
S6计算句子的重要度
计算完句子的TFIDF值和句子的位置特征后,计算出句子的重要度,最后按句子重要度降序排列;
S7筛选关键句
根据文本摘要中的需求,按照句子重要度,筛选出特定数量或特定字数的句子,作为最终的候选句;
S8输出文本摘要
对于筛选出来的句子,为了尽可能的保证摘要的可读性,对所有候选句按照原始的序号进行升序排列,最后根据需求将所有候选句按照逗号或句号连接即可。
CN201910191106.7A 2019-03-13 2019-03-13 一种基于tf-idf的文本摘要方法 Active CN109960724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910191106.7A CN109960724B (zh) 2019-03-13 2019-03-13 一种基于tf-idf的文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910191106.7A CN109960724B (zh) 2019-03-13 2019-03-13 一种基于tf-idf的文本摘要方法

Publications (2)

Publication Number Publication Date
CN109960724A true CN109960724A (zh) 2019-07-02
CN109960724B CN109960724B (zh) 2021-06-04

Family

ID=67024348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910191106.7A Active CN109960724B (zh) 2019-03-13 2019-03-13 一种基于tf-idf的文本摘要方法

Country Status (1)

Country Link
CN (1) CN109960724B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674286A (zh) * 2019-09-29 2020-01-10 出门问问信息科技有限公司 一种文本摘要抽取方法、装置及存储设备
CN110705287A (zh) * 2019-09-27 2020-01-17 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110750976A (zh) * 2019-09-26 2020-02-04 平安科技(深圳)有限公司 语言模型构建方法、系统、计算机设备及可读存储介质
CN110781291A (zh) * 2019-10-25 2020-02-11 北京市计算中心 一种文本摘要提取方法、装置、服务器及可读存储介质
CN111125332A (zh) * 2019-12-20 2020-05-08 东软集团股份有限公司 计算词的tf-idf值的方法、装置、设备及存储介质
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法
CN111753547A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN112101017A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种为快速表达力测试生成题目的方法
CN112101005A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN112732901A (zh) * 2021-01-15 2021-04-30 联想(北京)有限公司 摘要生成方法、装置、计算机可读存储介质及电子设备
CN112765344A (zh) * 2021-01-12 2021-05-07 哈尔滨工业大学 一种基于会议记录生成会议摘要的方法、装置及存储介质
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113743090A (zh) * 2021-09-08 2021-12-03 度小满科技(北京)有限公司 一种关键词提取方法及装置
CN115062229A (zh) * 2022-08-15 2022-09-16 广东工业大学 基于新闻评论的过滤以及情感分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740448A (zh) * 2016-02-03 2016-07-06 天津大学 面向话题的多微博时序文摘方法
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN108228541A (zh) * 2016-12-22 2018-06-29 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及系统
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109359302A (zh) * 2018-10-26 2019-02-19 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740448A (zh) * 2016-02-03 2016-07-06 天津大学 面向话题的多微博时序文摘方法
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN108228541A (zh) * 2016-12-22 2018-06-29 深圳市北科瑞声科技股份有限公司 生成文档摘要的方法和装置
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法
CN109241277A (zh) * 2018-07-18 2019-01-18 北京航天云路有限公司 基于新闻关键词的文本向量加权的方法及系统
CN109255022A (zh) * 2018-08-08 2019-01-22 宜人恒业科技发展(北京)有限公司 一种用于网络文章的摘要自动提取方法
CN109359302A (zh) * 2018-10-26 2019-02-19 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PUNEET GOSWAMI,ET AL: ""The DF-ICF Algorithm- Modified TF-IDF"", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 *
WU H C,ET AL: ""Interpreting TF-IDF term weights as making relevance decisions"", 《ACM TRANSACTIONS ON INFORMATION SYSTEMS》 *
严萌: ""基于微博的突发话题检测研究"", 《广东工业大学硕士学位论文》 *
王庆福 等: ""基于TF-IDF优化算法在文本分类中的应用研究"", 《电脑编程技巧与维护》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750976A (zh) * 2019-09-26 2020-02-04 平安科技(深圳)有限公司 语言模型构建方法、系统、计算机设备及可读存储介质
CN110705287A (zh) * 2019-09-27 2020-01-17 北京妙笔智能科技有限公司 一种用于文本摘要的生成方法和系统
CN110674286A (zh) * 2019-09-29 2020-01-10 出门问问信息科技有限公司 一种文本摘要抽取方法、装置及存储设备
CN110737768B (zh) * 2019-10-16 2022-04-08 信雅达科技股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110737768A (zh) * 2019-10-16 2020-01-31 信雅达系统工程股份有限公司 基于深度学习的文本摘要自动生成方法及装置、存储介质
CN110781291A (zh) * 2019-10-25 2020-02-11 北京市计算中心 一种文本摘要提取方法、装置、服务器及可读存储介质
CN111177365B (zh) * 2019-12-20 2022-08-02 山东科技大学 一种基于图模型的无监督自动文摘提取方法
CN111177365A (zh) * 2019-12-20 2020-05-19 山东科技大学 一种基于图模型的无监督自动文摘提取方法
CN111125332A (zh) * 2019-12-20 2020-05-08 东软集团股份有限公司 计算词的tf-idf值的方法、装置、设备及存储介质
CN112101005B (zh) * 2020-04-02 2022-08-30 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN112101017A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种为快速表达力测试生成题目的方法
CN112101005A (zh) * 2020-04-02 2020-12-18 上海迷因网络科技有限公司 一种快速表达力测试题目生成和动态调整方法
CN112101017B (zh) * 2020-04-02 2022-09-06 上海迷因网络科技有限公司 一种为快速表达力测试生成题目的方法
CN111753547A (zh) * 2020-06-30 2020-10-09 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN111753547B (zh) * 2020-06-30 2024-02-27 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN112765344A (zh) * 2021-01-12 2021-05-07 哈尔滨工业大学 一种基于会议记录生成会议摘要的方法、装置及存储介质
CN112732901A (zh) * 2021-01-15 2021-04-30 联想(北京)有限公司 摘要生成方法、装置、计算机可读存储介质及电子设备
CN112732901B (zh) * 2021-01-15 2024-05-28 联想(北京)有限公司 摘要生成方法、装置、计算机可读存储介质及电子设备
CN112836016A (zh) * 2021-02-05 2021-05-25 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN113743090A (zh) * 2021-09-08 2021-12-03 度小满科技(北京)有限公司 一种关键词提取方法及装置
CN113743090B (zh) * 2021-09-08 2024-04-12 度小满科技(北京)有限公司 一种关键词提取方法及装置
CN115062229A (zh) * 2022-08-15 2022-09-16 广东工业大学 基于新闻评论的过滤以及情感分析方法

Also Published As

Publication number Publication date
CN109960724B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN109960724A (zh) 一种基于tf-idf的文本摘要方法
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN107193959B (zh) 一种面向纯文本的企业实体分类方法
Wang et al. Integrating extractive and abstractive models for long text summarization
CN100474301C (zh) 基于数据挖掘获取词或词组单元译文信息的系统和方法
CN111178074A (zh) 一种基于深度学习的中文命名实体识别方法
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
US10755045B2 (en) Automatic human-emulative document analysis enhancements
CN105022725A (zh) 一种应用于金融Web领域的文本情感倾向分析方法
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN110879831A (zh) 基于实体识别技术的中医药语句分词方法
CN106294320A (zh) 一种面向学术论文的术语抽取方法及系统
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN113157903A (zh) 一种面向多领域的电力词库构建方法
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
Bedrick et al. Robust kaomoji detection in Twitter
CN111339753B (zh) 一种自适应中文新词识别方法与系统
CN111339457A (zh) 用于从网页抽取信息的方法和设备及存储介质
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN114997288A (zh) 一种设计资源关联方法
Selamat Improved N-grams approach for web page language identification
Geyken et al. On-the-fly Generation of Dictionary Articles for the DWDS Website

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant