CN110377724A - 一种基于数据挖掘的语料库关键词自动抽取算法 - Google Patents

一种基于数据挖掘的语料库关键词自动抽取算法 Download PDF

Info

Publication number
CN110377724A
CN110377724A CN201910583074.5A CN201910583074A CN110377724A CN 110377724 A CN110377724 A CN 110377724A CN 201910583074 A CN201910583074 A CN 201910583074A CN 110377724 A CN110377724 A CN 110377724A
Authority
CN
China
Prior art keywords
word
text
candidate keywords
weighted value
data mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910583074.5A
Other languages
English (en)
Inventor
刘家祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central Mdt Infotech Ltd Of United States Of Xiamen
Original Assignee
Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central Mdt Infotech Ltd Of United States Of Xiamen filed Critical Central Mdt Infotech Ltd Of United States Of Xiamen
Priority to CN201910583074.5A priority Critical patent/CN110377724A/zh
Publication of CN110377724A publication Critical patent/CN110377724A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于数据挖掘的语料库关键词自动抽取算法,包括以下步骤:获取待处理文本;对获取的文本进行分词处理;对分词集合中的词语进行词性标注和词义标注;对分词集合进行去词处理;统计词频和词对的共现信息;设置词频阈值,并判断词汇集合中词语的词频是否大于词频阈值;生成候选关键词集合;获取各候选关键词在文本中的位置信息;计算各候选关键词在文本中的权重值;设置权重值阈值,并判断各候选关键词的计算结果是否大于权重值阈值;生成关键词集合。本发明优化了语料库关键词抽取算法,操作简便,能够自动从语料库中抽取关键词,省时省力,显著提高了关键词抽取的准确性。

Description

一种基于数据挖掘的语料库关键词自动抽取算法
技术领域
本发明涉及语料库关键词抽取技术领域,尤其涉及一种基于数据挖掘的语料库关键词自动抽取算法。
背景技术
现有的语料库关键词抽取算法较为复杂,难以快速的从其中抽取所需数据,不能自动从语料库中抽取关键词,抽取过程耗费的时间长,抽取效率低,抽取关键词的准确性也有待提高。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于数据挖掘的语料库关键词自动抽取算法,优化了语料库关键词抽取算法,操作简便,能够自动从语料库中抽取关键词,省时省力,显著提高了关键词抽取的准确性。
(二)技术方案
为解决上述问题,本发明提出了一种基于数据挖掘的语料库关键词自动抽取算法,包括以下步骤:
S1、获取待处理文本;
S2、对获取的文本进行分词处理,获得分词集合;
S3、对分词集合中的词语进行词性标注和词义标注;
S4、对分词集合进行去词处理,获得词汇集合;
S5、基于词汇集合,统计词频和词对的共现信息;
S6、设置词频阈值,并判断词汇集合中词语的词频是否大于词频阈值;若词汇的词频小于或等于词频阈值,则剔除该词汇;
S7、对符合条件的词汇进行归纳整理,并生成候选关键词集合;
S8、获取各候选关键词在文本中的位置信息;
S9、根据词频、词对共现信息以及候选关键词所处位置信息,计算各候选关键词在文本中的权重值;
S10、设置权重值阈值,并判断各候选关键词的计算结果是否大于权重值阈值;若词汇的权重值小于或等于权重值阈值,则剔除该词汇;
S11、对符合条件的词汇进行归纳整理,并生成关键词集合。
优选的,S2的具体步骤如下:
将获取的文本分割成多个切分段落;
将每个切分段落分割成多个句子;
对每个句子分词并得到词的序列。
优选的,在S2中,通过jieba工具实现分词处理。
优选的,在S4中,通过stopwords工具实现去词处理。
优选的,在S4中,所要去除的词语包括停用词、语气词、HTML/XML标记、数字、时间和噪音词。
优选的,在S5中,统计词对的共现信息具体步骤如下:
对于每一个词对,根据构成词对的两个词在同一切分段落中的距离,计算该词对在切分段落中的共现次数,将该词对在所有切分段落中的共现次数累加,得到该词对在文本中的共现次数。
优选的,在S8中,其具体步骤如下:
分别获取候选关键词在各语句中的位置信息;
分别获取多个语句在文本中的位置信息;
基于候选关键词在各语句的位置信息和语句在文本中的位置信息,分别确定候选关键词在文本中的位置信息。
优选的,在S9中,计算各候选关键词在文本中的权重值的方法如下:
根据卡方检验公式计算各候选关键词对文本内容的语义相关程度,得到各候选关键词对文本的权重值。
本发明的上述技术方案具有如下有益的技术效果:
首先获取待处理文本;然后对获取的文本进行分词处理,获得分词集合;之后对分词集合中的词语进行词性标注和词义标注;然后对分词集合进行去词处理,获得词汇集合;之后基于词汇集合,统计词频和词对的共现信息;然后设置词频阈值,并判断词汇集合中词语的词频是否大于词频阈值,若词汇的词频小于或等于词频阈值,则剔除该词汇;之后对符合条件的词汇进行归纳整理,并生成候选关键词集合;然后获取各候选关键词在文本中的位置信息;之后计算各候选关键词在文本中的权重值;然后设置权重值阈值,并判断各候选关键词的计算结果是否大于权重值阈值,若词汇的权重值小于或等于权重值阈值,则剔除该词汇;最后对符合条件的词汇进行归纳整理,并生成关键词集合;
本发明优化了语料库关键词抽取算法,操作简便,能够自动从语料库中抽取关键词,省时省力,显著提高了关键词抽取的准确性。
附图说明
图1为本发明提出的一种基于数据挖掘的语料库关键词自动抽取算法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于数据挖掘的语料库关键词自动抽取算法,包括以下步骤:
S1、获取待处理文本;
S2、对获取的文本进行分词处理,获得分词集合;
S3、对分词集合中的词语进行词性标注和词义标注;
S4、对分词集合进行去词处理,获得词汇集合;
S5、基于词汇集合,统计词频和词对的共现信息;
S6、设置词频阈值,并判断词汇集合中词语的词频是否大于词频阈值;若词汇的词频小于或等于词频阈值,则剔除该词汇;
S7、对符合条件的词汇进行归纳整理,并生成候选关键词集合;
S8、获取各候选关键词在文本中的位置信息;
S9、根据词频、词对共现信息以及候选关键词所处位置信息,计算各候选关键词在文本中的权重值;
S10、设置权重值阈值,并判断各候选关键词的计算结果是否大于权重值阈值;若词汇的权重值小于或等于权重值阈值,则剔除该词汇;
S11、对符合条件的词汇进行归纳整理,并生成关键词集合。
在一个可选的实施例中,S2的具体步骤如下:
将获取的文本分割成多个切分段落;将每个切分段落分割成多个句子;对每个句子分词并得到词的序列。
在一个可选的实施例中,在S2中,通过jieba工具实现分词处理。
在一个可选的实施例中,在S4中,通过stopwords工具实现去词处理。
在一个可选的实施例中,在S4中,所要去除的词语包括停用词、语气词、 HTML/XML标记、数字、时间和噪音词。
在一个可选的实施例中,在S5中,统计词对的共现信息具体步骤如下:对于每一个词对,根据构成词对的两个词在同一切分段落中的距离,计算该词对在切分段落中的共现次数,将该词对在所有切分段落中的共现次数累加,得到该词对在文本中的共现次数。
在一个可选的实施例中,在S8中,其具体步骤如下:分别获取候选关键词在各语句中的位置信息;分别获取多个语句在文本中的位置信息;基于候选关键词在各语句的位置信息和语句在文本中的位置信息,分别确定候选关键词在文本中的位置信息。
在一个可选的实施例中,在S9中,计算各候选关键词在文本中的权重值的方法如下:根据卡方检验公式计算各候选关键词对文本内容的语义相关程度,得到各候选关键词对文本的权重值。
本发明中,首先获取待处理文本;然后对获取的文本进行分词处理,通过 jieba工具实现分词处理并获得分词集合,具体步骤为:将获取的文本分割成多个切分段落,将每个切分段落分割成多个句子,对每个句子分词并得到词的序列;
之后对分词集合中的词语进行词性标注和词义标注;然后对分词集合进行去词处理,通过stopwords工具实现去词处理并获得词汇集合,所要去除的词语包括停用词、语气词、HTML/XML标记、数字、时间和噪音词;之后基于词汇集合,统计词频和词对的共现信息,其中,统计词对的共现信息具体步骤为:对于每一个词对,根据构成词对的两个词在同一切分段落中的距离,计算该词对在切分段落中的共现次数,将该词对在所有切分段落中的共现次数累加,得到该词对在文本中的共现次数;
然后设置词频阈值,并判断词汇集合中词语的词频是否大于词频阈值,若词汇的词频小于或等于词频阈值,则剔除该词汇;之后对符合条件的词汇进行归纳整理,并生成候选关键词集合;然后获取各候选关键词在文本中的位置信息,具体步骤为:分别获取候选关键词在各语句中的位置信息,分别获取多个语句在文本中的位置信息,基于候选关键词在各语句的位置信息和语句在文本中的位置信息,分别确定各候选关键词在文本中的位置信息;
之后根据词频、词对共现信息以及候选关键词所处位置信息,计算各候选关键词在文本中的权重值,根据卡方检验公式计算各候选关键词对文本内容的语义相关程度,以此得到各候选关键词对文本的权重值;然后设置权重值阈值,并判断各候选关键词的计算结果是否大于权重值阈值,若词汇的权重值小于或等于权重值阈值,则剔除该词汇;最后对符合条件的词汇进行归纳整理,并生成关键词集合;
本发明优化了语料库关键词抽取算法,操作简便,能够自动从语料库中抽取关键词,省时省力,显著提高了关键词抽取的准确性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (8)

1.一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,包括以下步骤:
S1、获取待处理文本;
S2、对获取的文本进行分词处理,获得分词集合;
S3、对分词集合中的词语进行词性标注和词义标注;
S4、对分词集合进行去词处理,获得词汇集合;
S5、基于词汇集合,统计词频和词对的共现信息;
S6、设置词频阈值,并判断词汇集合中词语的词频是否大于词频阈值;若词汇的词频小于或等于词频阈值,则剔除该词汇;
S7、对符合条件的词汇进行归纳整理,并生成候选关键词集合;
S8、获取各候选关键词在文本中的位置信息;
S9、根据词频、词对共现信息以及候选关键词所处位置信息,计算各候选关键词在文本中的权重值;
S10、设置权重值阈值,并判断各候选关键词的计算结果是否大于权重值阈值;若词汇的权重值小于或等于权重值阈值,则剔除该词汇;
S11、对符合条件的词汇进行归纳整理,并生成关键词集合。
2.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,S2的具体步骤如下:
将获取的文本分割成多个切分段落;
将每个切分段落分割成多个句子;
对每个句子分词并得到词的序列。
3.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,在S2中,通过jieba工具实现分词处理。
4.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,在S4中,通过stopwords工具实现去词处理。
5.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,在S4中,所要去除的词语包括停用词、语气词、HTML/XML标记、数字、时间和噪音词。
6.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,在S5中,统计词对的共现信息具体步骤如下:
对于每一个词对,根据构成词对的两个词在同一切分段落中的距离,计算该词对在切分段落中的共现次数,将该词对在所有切分段落中的共现次数累加,得到该词对在文本中的共现次数。
7.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,在S8中,其具体步骤如下:
分别获取候选关键词在各语句中的位置信息;
分别获取多个语句在文本中的位置信息;
基于候选关键词在各语句的位置信息和语句在文本中的位置信息,分别确定候选关键词在文本中的位置信息。
8.根据权利要求1所述的一种基于数据挖掘的语料库关键词自动抽取算法,其特征在于,在S9中,计算各候选关键词在文本中的权重值的方法如下:
根据卡方检验公式计算各候选关键词对文本内容的语义相关程度,得到各候选关键词对文本的权重值。
CN201910583074.5A 2019-07-01 2019-07-01 一种基于数据挖掘的语料库关键词自动抽取算法 Pending CN110377724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910583074.5A CN110377724A (zh) 2019-07-01 2019-07-01 一种基于数据挖掘的语料库关键词自动抽取算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910583074.5A CN110377724A (zh) 2019-07-01 2019-07-01 一种基于数据挖掘的语料库关键词自动抽取算法

Publications (1)

Publication Number Publication Date
CN110377724A true CN110377724A (zh) 2019-10-25

Family

ID=68251406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910583074.5A Pending CN110377724A (zh) 2019-07-01 2019-07-01 一种基于数据挖掘的语料库关键词自动抽取算法

Country Status (1)

Country Link
CN (1) CN110377724A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837730A (zh) * 2019-11-04 2020-02-25 北京明略软件系统有限公司 一种未知实体词汇的确定方法及装置
CN111079411A (zh) * 2019-12-12 2020-04-28 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111161861A (zh) * 2019-12-31 2020-05-15 南京天溯自动化控制系统有限公司 用于医院后勤运维的短文本数据处理方法、装置
CN111680509A (zh) * 2020-06-10 2020-09-18 四川九洲电器集团有限责任公司 基于共现语言网络的文本关键词自动抽取方法和装置
CN111767393A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 一种文本核心内容提取方法及装置
CN111797239A (zh) * 2020-09-08 2020-10-20 中山大学深圳研究院 应用程序的分类方法、装置及终端设备
CN112417101A (zh) * 2020-11-23 2021-02-26 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN112784009A (zh) * 2020-12-28 2021-05-11 北京邮电大学 一种主题词挖掘方法、装置、电子设备及存储介质
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113449073A (zh) * 2021-06-21 2021-09-28 福州米鱼信息科技有限公司 一种关键词的选取方法及系统
CN113486654A (zh) * 2021-07-28 2021-10-08 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
CN113487194A (zh) * 2021-07-12 2021-10-08 贵州电网有限责任公司 一种基于文本分类的电力系统调度员等级评估系统
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN113743107A (zh) * 2021-08-30 2021-12-03 北京字跳网络技术有限公司 实体词提取方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
US20150227634A1 (en) * 2011-02-04 2015-08-13 Kodak Alaris Inc. Identifying particular images from a collection
CN106372038A (zh) * 2015-07-23 2017-02-01 北京国双科技有限公司 关键词的抽取方法及装置
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150227634A1 (en) * 2011-02-04 2015-08-13 Kodak Alaris Inc. Identifying particular images from a collection
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN106372038A (zh) * 2015-07-23 2017-02-01 北京国双科技有限公司 关键词的抽取方法及装置
CN108920456A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种关键词自动抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵京胜等: "自动关键词抽取研究综述", 《软件学报》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837730B (zh) * 2019-11-04 2023-05-05 北京明略软件系统有限公司 一种未知实体词汇的确定方法及装置
CN110837730A (zh) * 2019-11-04 2020-02-25 北京明略软件系统有限公司 一种未知实体词汇的确定方法及装置
CN111079411A (zh) * 2019-12-12 2020-04-28 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111079411B (zh) * 2019-12-12 2023-10-13 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111161861A (zh) * 2019-12-31 2020-05-15 南京天溯自动化控制系统有限公司 用于医院后勤运维的短文本数据处理方法、装置
CN111680509A (zh) * 2020-06-10 2020-09-18 四川九洲电器集团有限责任公司 基于共现语言网络的文本关键词自动抽取方法和装置
CN111767393A (zh) * 2020-06-22 2020-10-13 中国建设银行股份有限公司 一种文本核心内容提取方法及装置
CN111797239A (zh) * 2020-09-08 2020-10-20 中山大学深圳研究院 应用程序的分类方法、装置及终端设备
CN112417101B (zh) * 2020-11-23 2023-08-18 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
WO2022105178A1 (zh) * 2020-11-23 2022-05-27 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN112417101A (zh) * 2020-11-23 2021-02-26 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
CN112784009A (zh) * 2020-12-28 2021-05-11 北京邮电大学 一种主题词挖掘方法、装置、电子设备及存储介质
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113449073A (zh) * 2021-06-21 2021-09-28 福州米鱼信息科技有限公司 一种关键词的选取方法及系统
CN113487194A (zh) * 2021-07-12 2021-10-08 贵州电网有限责任公司 一种基于文本分类的电力系统调度员等级评估系统
CN113487194B (zh) * 2021-07-12 2023-11-07 贵州电网有限责任公司 一种基于文本分类的电力系统调度员等级评估系统
CN113486654A (zh) * 2021-07-28 2021-10-08 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
CN113486654B (zh) * 2021-07-28 2024-04-26 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
CN113536777A (zh) * 2021-07-30 2021-10-22 深圳豹耳科技有限公司 新闻关键词的抽取方法、装置、设备及存储介质
CN113743107A (zh) * 2021-08-30 2021-12-03 北京字跳网络技术有限公司 实体词提取方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN110377724A (zh) 一种基于数据挖掘的语料库关键词自动抽取算法
CN105426539B (zh) 一种基于词典的lucene中文分词方法
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN103399901B (zh) 一种关键词抽取方法
CN102214166B (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN107045496A (zh) 语音识别后文本的纠错方法及纠错装置
CN106951530B (zh) 一种事件类型抽取方法和装置
CN108073570A (zh) 一种基于隐马尔可夫模型的词义消歧方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN105893353B (zh) 分词方法和分词系统
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
CN107562843B (zh) 一种基于标题高频切分的新闻热点短语提取方法
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN103942191A (zh) 一种基于内容的恐怖文本识别方法
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN106776555A (zh) 一种基于字模型的评论文本实体识别方法及装置
CN109783623A (zh) 一种真实场景下用户与客服对话的数据分析方法
CN108287825A (zh) 一种术语识别抽取方法及系统
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN108363692A (zh) 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN106294315B (zh) 基于句法特性与统计融合的自然语言谓语动词识别方法
Glaser et al. Sentence Boundary Detection in German Legal Documents.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025

RJ01 Rejection of invention patent application after publication