CN113536777A - 新闻关键词的抽取方法、装置、设备及存储介质 - Google Patents

新闻关键词的抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113536777A
CN113536777A CN202110875817.3A CN202110875817A CN113536777A CN 113536777 A CN113536777 A CN 113536777A CN 202110875817 A CN202110875817 A CN 202110875817A CN 113536777 A CN113536777 A CN 113536777A
Authority
CN
China
Prior art keywords
news
keyword
target
article
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110875817.3A
Other languages
English (en)
Inventor
车天博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Baoer Technology Co ltd
Original Assignee
Shenzhen Baoer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Baoer Technology Co ltd filed Critical Shenzhen Baoer Technology Co ltd
Priority to CN202110875817.3A priority Critical patent/CN113536777A/zh
Publication of CN113536777A publication Critical patent/CN113536777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,提供一种新闻关键词的抽取方法、装置、设备及存储介质,用于提高新闻关键词抽取的准确性。新闻关键词的抽取方法包括:对待处理文章数据进行分词和关键词提取,得到多个文章关键词;通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表;获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据;按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。此外,本发明还涉及区块链技术,待处理文章数据可存储于区块链中。

Description

新闻关键词的抽取方法、装置、设备及存储介质
技术领域
本发明涉及智能决策领域,尤其涉及一种新闻关键词的抽取方法、装置、设备及存储介质。
背景技术
对于文章内容的理解,经常需要进行新闻关键词抽取,新闻关键词抽取也广泛用于信息流(新闻)推荐系统。新闻关键词抽取是指抽取能够描述新闻核心内容的词汇,用少量词汇表示新闻的核心内容。目前,一般是采用通过命名实体识别模型进行实体识别的方法来实现关键词提取,或者通过词频统计的方法来实现关键词提取。
但是,由于新闻具有较强的实时性,上述方法不能有效地覆盖新增关键词,且统计的分数是静态的,不会根据不同的文章发生改变,因而,导致了新闻关键词抽取的准确性低。
发明内容
本发明提供一种新闻关键词的抽取方法、装置、设备及存储介质,用于提高新闻关键词抽取的准确性。
本发明第一方面提供了一种新闻关键词的抽取方法,包括:
获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;
通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;
获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;
按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。
可选的,在本发明第一方面的第一种实现方式中,所述通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表,包括:
对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,所述目标分词用户字典包括添加新词后的新闻关键词词表;
通过所述最长公共子串,对所述多个文章关键词进行筛选,得到多个已筛选关键词;
对所述多个已筛选关键词进行验证,得到多个初始新闻关键词。
可选的,在本发明第一方面的第二种实现方式中,所述获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据,包括:
通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;
按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;
计算所述新闻类别分值数据和所述文章分值数据的乘积,得到目标关键词分值数据。
可选的,在本发明第一方面的第三种实现方式中,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词,包括:
获取待处理文章数据,对所述待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与所述目标语种对应的语种分词模型,以及与所述目标领域对应的领域关键词字典;
通过所述语种分词模型和所述领域关键词字典,对所述待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
可选的,在本发明第一方面的第四种实现方式中,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词,包括:
获取待分析新闻数据,对所述待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;
通过预置的定时任务,对所述存储后的候选新词进行新词识别,得到目标新词,根据所述目标新词生成新闻关键词词表;
将所述新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
可选的,在本发明第一方面的第五种实现方式中,所述按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列之后,还包括:
获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
可选的,在本发明第一方面的第六种实现方式中,所述获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集,包括:
调用预置的分类模型基于所述目标新闻关键词序列进行多级分类,得到分类信息,所述分类信息包括文本分类标签信息和二级分类标签信息;
对所述目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取所述目标新闻关键词集对应的拓展新闻关键词集;
将所述分类信息、所述目标新闻关键词集和所述拓展新闻关键词集确定为目标信息,并按照预设展示策略,将所述待处理文章数据和所述目标信息渲染至预设显示界面。
本发明第二方面提供了一种新闻关键词的抽取装置,包括:
提取模块,用于获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;
匹配模块,用于通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;
确定模块,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;
排序模块,用于按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。
可选的,在本发明第二方面的第一种实现方式中,所述匹配模块具体用于:
对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,所述目标分词用户字典包括添加新词后的新闻关键词词表;
通过所述最长公共子串,对所述多个文章关键词进行筛选,得到多个已筛选关键词;
对所述多个已筛选关键词进行验证,得到多个初始新闻关键词。
可选的,在本发明第二方面的第二种实现方式中,所述确定模块具体用于:
通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;
按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;
计算所述新闻类别分值数据和所述文章分值数据的乘积,得到目标关键词分值数据。
可选的,在本发明第二方面的第三种实现方式中,所述提取模块具体用于:
获取待处理文章数据,对所述待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与所述目标语种对应的语种分词模型,以及与所述目标领域对应的领域关键词字典;
通过所述语种分词模型和所述领域关键词字典,对所述待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
可选的,在本发明第二方面的第四种实现方式中,所述新闻关键词的抽取装置,还包括:
存储模块,用于获取待分析新闻数据,对所述待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;
识别模块,用于通过预置的定时任务,对所述存储后的候选新词进行新词识别,得到目标新词,根据所述目标新词生成新闻关键词词表;
添加模块,用于将所述新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
可选的,在本发明第二方面的第五种实现方式中,所述新闻关键词的抽取装置,还包括:
渲染模块,用于获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
可选的,在本发明第二方面的第六种实现方式中,所述渲染模块具体用于:
调用预置的分类模型基于所述目标新闻关键词序列进行多级分类,得到分类信息,所述分类信息包括文本分类标签信息和二级分类标签信息;
对所述目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取所述目标新闻关键词集对应的拓展新闻关键词集;
将所述分类信息、所述目标新闻关键词集和所述拓展新闻关键词集确定为目标信息,并按照预设展示策略,将所述待处理文章数据和所述目标信息渲染至预设显示界面。
本发明第三方面提供了一种新闻关键词的抽取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻关键词的抽取设备执行上述的新闻关键词的抽取方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的新闻关键词的抽取方法。
本发明提供的技术方案中,获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。本发明实施例中,结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性。
附图说明
图1为本发明实施例中新闻关键词的抽取方法的一个实施例示意图;
图2为本发明实施例中新闻关键词的抽取方法的另一个实施例示意图;
图3为本发明实施例中新闻关键词的抽取装置的一个实施例示意图;
图4为本发明实施例中新闻关键词的抽取装置的另一个实施例示意图;
图5为本发明实施例中新闻关键词的抽取设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种新闻关键词的抽取方法、装置、设备及存储介质,提高了新闻关键词抽取的准确性。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中新闻关键词的抽取方法的一个实施例包括:
101、获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词。
可以理解的是,本发明的执行主体可以为新闻关键词的抽取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
当服务器接收到输入界面(前端)或输入端发送的初始文章数据,且初始文章数据为语音数据时,调用预置的语音识别模型,对初始文章数据进行语音识别和文本转换,得到第一候选文章数据;当服务器输入界面(前端)或输入端发送的初始文章数据,且初始文章数据为图像数据时,调用预置的图像处理模型,对初始文章数据进行目标框识别、目标框分割和目标框文本识别,得到第二候选文章数据;当服务器输入界面(前端)或输入端发送的初始文章数据,且初始文章数据为文本数据时,对初始文章数据进行空格符号处理和敏感数据处理,得到待处理文章数据,具体地,服务器通过对初始文章数据依次进行断句处理、空格符号识别和空格符号删除,以实现对初始文章数据的空格符号处理,服务器通过对初始文章数据进行敏感字词识别和敏感字词替换,以实现对初始文章数据的敏感数据处理;对第一候选文章数据或第二候选文章数据进行空格符号处理和敏感数据处理,得到待处理文章数据。
服务器调用与待处理文章数据对应的分词工具(模型),基于预置的分词数据集,对待处理文章数据进行分词,得到多个初始分词,调用预置的分词字典,基于预置的前向最大匹配算法,对多个初始分词分别进行基于上下文信息的匹配和关键词抽取,得到多个文章关键词。
102、通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表。
其中,预置的目标分词用户字典包括添加新词后的新闻关键词词表;预置的目标分词用户字典的结构可为词典树或知识图谱;目标分词用户字典可为根据用户各领域的兴趣词语进行聚类分析而得到的新闻分词,以及用户文本分类的关键词对应的各领域数据的新闻分词进行构建的字典。
服务器通过预置的编辑距离算法,对预置的目标分词用户字典和多个文章关键词进行两两之间的编辑距离计算,得到字典分词(为目标分词用户字典中的分词)与各文章关键词之间的编辑距离,判断编辑距离是否小于预设距离阈值,若是,则将对应的文章关键词确定为初始新闻关键词,从而得到多个初始新闻关键词,若否,则将对应的文章关键词剔除,并继续对下一个文章关键词进行匹配,直到所有文章关键词完成匹配,从而得到多个初始新闻关键词。
103、获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据。
服务器通过计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据,计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据,并将新闻类别分值数据和文章分值数据进行融合,从而得到目标关键词分值数据。其中,新闻类别分值数据(卡方值)用于指示各初始新闻关键词在新闻类别下的信息量,文章分值数据用于指示各初始新闻关键词在预置新闻数据中的位置,文章分值数据包括各初始新闻关键词在待处理文章数据的位置信息和出现次数。
104、按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。
服务器获得目标关键词分值数据后,根据目标关键词分值数据的值大小,对多个初始新闻关键词进行基于倒序的排序,从而得到目标新闻关键词序列,其中,目标新闻关键词序列包括按照顺序排序后的多个目标新闻关键词,以及以预设表示形式的各目标新闻关键词对应的目标关键词分值数据。
本发明实施例中,结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性。
请参阅图2,本发明实施例中新闻关键词的抽取方法的另一个实施例包括:
201、获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词。
具体地,服务器获取待处理文章数据,对待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与目标语种对应的语种分词模型,以及与目标领域对应的领域关键词字典;通过语种分词模型和领域关键词字典,对待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
服务器获得待处理文章数据后,调用预置的语种识别算法,对待处理文章数据进行语谱图转换和多类别逻辑回归,得到目标语种,该目标语种包括一个或一个以上语种;服务器调用预置的分类算法,对待处理文章数据进行领域分类,得到目标领域。服务器创建目标语种的键值,得到语种键值,通过语种键值对预置的分词模型树进行遍历,得到与目标语种对应的语种分词模型;服务器创建目标领域的领域索引,通过领域索引对预置数据库中的字典进行检索,得到对应的领域关键词字典。
服务器调用语种分词模型,对待处理文章数据进行符号识别,得到目标符号,该目标符号包括空格符号、特殊符号和标点符号,将待处理文章数据中的空格符号进行删除,得到符号处理后的待处理文章数据,根据特征符号和标点符号,对符号处理后的待处理文章数据进行基于模板匹配的字符分割或基于聚类分析的字符分割,得到待处理的字词;按照预设重组数量,对待处理的字词进行基于上下文的重组,得到重组字词,预设重组数量为用于字词中心组合的字词数量,例如:待处理的字词为“假/戏/真/做”,以“戏”的重组为例进行说明,预设重组数量为2,则对“戏”进行基于上下文的重组,得到重组字词“假戏”和“戏真”;通过预置的语义规则,对重组字词进行语义分析和过滤,得到语义规则字词和非语义规则字词,其中,语义规则字词为符合语义规则的字词,非语义规则字词为不符合语义规则的字词,并对非语义规则字词进行错别字识别和正确字替换,得到目标字词,将语义规则字词和目标字词进行合并,得到多个文章关键词,以实现对待处理文章数据的字词检测。提高了对待处理文章数据进行初步关键词抽取的准确性。
具体地,服务器获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词之前,获取待分析新闻数据,对待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;通过预置的定时任务,对存储后的候选新词进行新词识别,得到目标新词,根据目标新词生成新闻关键词词表;将新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
服务器获得用户授权或网络平台授权后,调用预置的爬虫,爬取待分析新闻数据,从而得到待分析新闻数据;对待分析新闻数据进行基于新词的识别、提取和过滤,得到初始新词,初始新词包括时间词和数量词,命名实体和普通新词中的至少一种,初始新词包括新造词语、旧词新用的词语、方言词汇、外来词和修辞用法稳定下来构成的新词语;通过预置的计算公式,基于分析新闻数据,对初始新词进行点互信息计算,得初始新词的新词概率,其中,该计算公式具体如下:
Figure BDA0003190210400000081
PMI(X,Y)表示新词概率,x表示初始新词中的其中一个单字(词),y表示初始新词中的另外一个单字(词),p(x,y)表示初始新词中单字(词)x与另外一个单字(词)y连在一起出现的概率,p(x)表示初始新词中单字(词)x在待分析新闻数据对应的文章中出现的概率,p(y)表示初始新词中单字(词)y在待分析新闻数据对应的文章中出现的概率;服务器根据新词概率对初始新词进行筛选,得到候选新词,具体地,服务器判断新词概率是否大于预设概率阈值,若是,则将初始新词确定为候选新词,若否,则将初始新词删除;将候选新词分布式存储至预置数据库中,得到存储后的候选新词。
服务器执行预置的定时任务,当在预设时段或者计时到预设时刻时,从预置数据库中提取存储后的候选新词,对存储后的候选新词进行基于规则的新词识别或基于统计的新词识别,得到目标新词,并将目标新词生成新闻关键词词表,其中,基于规则的新词识别为通过预置新词模板对存储后的候选新词进行新词匹配,预置新词模板为语言专家根据构词学原理、配合语义信息或词性信息构造的符合定时任务时段的模板,基于统计的新词识别为对存储后的候选新词进行候选字符串抽取、规则过滤和统计量确定。
服务器将新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典,其中,初始分词用户字典可包括但不限于根据用户各领域的兴趣词语进行聚类分析而得到的新闻分词,以及用户文本分类的关键词对应的各领域数据的新闻分词。实现了新增关键词的实时覆盖。
202、通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表。
具体地,服务器对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,目标分词用户字典包括添加新词后的新闻关键词词表;通过最长公共子串,对多个文章关键词进行筛选,得到多个已筛选关键词;对多个已筛选关键词进行验证,得到多个初始新闻关键词。
其中,预置的目标分词用户字典的结构为知识图谱,服务器通过预置的随机游走算法,对预置的目标分词用户字典进行随机游走,得到多个分词字符串(即多个分词序列);调用预置的基于最长公共子串的文本比较算法(needleman/wunsch算法),对多个文章关键词中各文章关键词与各分词字符串进行矩阵初始化、矩阵行计算、矩阵路径回溯和字串匹配,得到各文章关键词与各分词字符串之间的最长公共子串;获取各文章关键词与多个分词字符串之间的多个最长公共子串中最长公共子串最长的目标分词字符串,并判断目标分词字符串的最长公共子串是否大于预设子串长度,若是,则将对应的文章关键词确定为已筛选关键词,从而得到多个已筛选关键词,若否,则将对应的文章关键词过滤掉,并继续对下一个文章关键词进行目标分词字符串的最长公共子串与预设子串长度的对比分析,直至所有文章关键词完成对比分析,从而得到多个已筛选关键词。
服务器调用预置的新闻分词字典,对多个文章关键词进行匹配,得到待验证关键词集,其中,该新闻分词字典包括根据收集的新闻材料进行分词和专家经验过滤的历史关键词,以及对上述历史关键词进行聚类和衍生得到的新闻关键词,判断各已筛选关键词是否存在待验证关键词集中,若是,则将对应的已筛选关键词确定为初始新闻关键词,从而得到多个初始新闻关键词,若否,则将不存在的已筛选关键词剔除,并将剔除后的已筛选关键词确定为初始新闻关键词,从而得到多个初始新闻关键词,以实现对多个已筛选关键词的验证。提高了多个初始新闻关键词的准确性。
203、获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据。
具体地,服务器通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;计算新闻类别分值数据和文章分值数据的乘积,得到目标关键词分值数据。
服务器获得各新闻网络平台的授权后,从各新闻网络平台中爬取预设数量的新闻信息(如:200万篇新闻),或者服务器从预置数据库中提取预设数量的新闻信息(如:200万篇新闻);对该新闻信息进行数据预处理和基于新闻类别的分类,得到预置新闻数据和预置新闻数据对应的新闻类别;获取每个初始新闻关键词的实际分布信息和期望分布信息,实际分布信息用于指示在各新闻类别下各初始新闻关键词基于预置新闻数据中的实际分布,期望分布信息用于指示在各新闻类别下各初始新闻关键词基于预置新闻数据中的期望分布;通过预置的卡方值计算公式,基于每个初始新闻关键词的实际分布信息和期望分布信息,计算每个初始新闻关键词的卡方值,从而得到每个初始新闻关键词对应的新闻类别分值数据,卡方值计算公式具体如下:
Figure BDA0003190210400000091
其中,kafangScore表示每个初始新闻关键词对应的新闻类别分值数据,i表示新闻类别,Xi表示实际分布信息,Ei表示期望分布信息。
服务器按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据,其中,预置的计算策略用于根据各初始新闻关键词在待处理文章数据的位置信息和出现次数进行分值计算的方案,计算策略例如:若初始新闻关键词在预置新闻数据的标题中出现一次,则加1分;若初始新闻关键词在预置新闻数据的正文的首段(前20%)位置出现,则加0.15分,若初始新闻关键词在预置新闻数据的正文的其余位置出现一次,则加0.1分。
服务器调用预置的关键词权重计算公式,对新闻类别分值数据和文章分值数据进行乘积计算,得到目标关键词分值数据,关键词权重计算公式具体如下:finalScore=positionScore*log(kafangScore),其中,finalScore表示目标关键词分值数据,positionScore表示文章分值数据,kafangScore表示新闻类别分值数据。
204、按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。
服务器获得目标关键词分值数据后,根据目标关键词分值数据的值大小,对多个初始新闻关键词进行倒序排序,从而得到目标新闻关键词序列,其中,目标新闻关键词序列包括按照顺序排序后的多个目标新闻关键词,以及以预设表示形式的各目标新闻关键词对应的目标关键词分值数据。
205、获取基于目标新闻关键词序列的目标信息,并将待处理文章数据和目标信息渲染至预设显示界面,目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
具体地,服务器调用预置的分类模型基于目标新闻关键词序列进行多级分类,得到分类信息,分类信息包括文本分类标签信息和二级分类标签信息;对目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取目标新闻关键词集对应的拓展新闻关键词集;将分类信息、目标新闻关键词集和拓展新闻关键词集确定为目标信息,并按照预设展示策略,将待处理文章数据和目标信息渲染至预设显示界面。
例如,服务器调用预置的分类模型,对目标新闻关键词序列进行文本分类和二级分类,从而得到分类信息,文本分类标签信息包括文化、动漫、体育、娱乐、时尚和美食等,二级分类标签信息为明星;判断目标新闻关键词序列中目标新闻关键词的数量是否大于预设词量,若是,则生成预设词数量的滑动窗口,通过该滑动窗口对目标新闻关键词序列进行滑动和依序读取,从而得到目标新闻关键词集;根据目标新闻关键词集对预设拓展关键词库进行检索,得到对应的拓展新闻关键词集;将分类信息、目标新闻关键词集和拓展新闻关键词集确定为目标信息,并按照预设展示策略,该预设展示策略包括待处理文章数据、目标新闻关键词序列和目标信息分别对应的展示位置和展示方式,将待处理文章数据和目标信息在预设显示界面上展示,以目标新闻关键词集为例说明,将目标新闻关键词集部署成展示DEMO,按照不同的显示颜色和显示大小,将部署成展示DEMO的目标新闻关键词集显示在预设显示界面的中下方,显示大小由目标新闻关键词分值数据的值确定,若目标新闻关键词分值数据的值越大,则对应的目标新闻关键词显示得越大。保证了目标新闻关键词集的多角度可视化。
本发明实施例中,不仅结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性,还通过按照预设展示策略将待处理文章数据和目标信息渲染至预设显示界面,保证了新闻关键词的多角度可视化。
上面对本发明实施例中新闻关键词的抽取方法进行了描述,下面对本发明实施例中新闻关键词的抽取装置进行描述,请参阅图3,本发明实施例中新闻关键词的抽取装置一个实施例包括:
提取模块301,用于获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词;
匹配模块302,用于通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表;
确定模块303,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据;
排序模块304,用于按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列。
上述新闻关键词的抽取装置中各个模块的功能实现与上述新闻关键词的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性。
请参阅图4,本发明实施例中新闻关键词的抽取装置的另一个实施例包括:
提取模块301,用于获取待处理文章数据,对待处理文章数据进行分词和关键词提取,得到多个文章关键词;
匹配模块302,用于通过预置的目标分词用户字典,对多个文章关键词进行匹配,得到多个初始新闻关键词,目标分词用户字典包括添加新词后的新闻关键词词表;
确定模块303,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据新闻类别分值数据和文章分值数据确定目标关键词分值数据;
排序模块304,用于按照目标关键词分值数据的值大小,对多个初始新闻关键词进行排序,得到目标新闻关键词序列;
渲染模块305,用于获取基于目标新闻关键词序列的目标信息,并将待处理文章数据和目标信息渲染至预设显示界面,目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
可选的,匹配模块302还可以具体用于:
对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,目标分词用户字典包括添加新词后的新闻关键词词表;
通过最长公共子串,对多个文章关键词进行筛选,得到多个已筛选关键词;
对多个已筛选关键词进行验证,得到多个初始新闻关键词。
可选的,确定模块303还可以具体用于:
通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;
按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;
计算新闻类别分值数据和文章分值数据的乘积,得到目标关键词分值数据。
可选的,提取模块301还可以具体用于:
获取待处理文章数据,对待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与目标语种对应的语种分词模型,以及与目标领域对应的领域关键词字典;
通过语种分词模型和领域关键词字典,对待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
可选的,新闻关键词的抽取装置,还包括:
存储模块306,用于获取待分析新闻数据,对待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;
识别模块307,用于通过预置的定时任务,对存储后的候选新词进行新词识别,得到目标新词,根据目标新词生成新闻关键词词表;
添加模块308,用于将新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
可选的,渲染模块305还可以具体用于:
调用预置的分类模型基于目标新闻关键词序列进行多级分类,得到分类信息,分类信息包括文本分类标签信息和二级分类标签信息;
对目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取目标新闻关键词集对应的拓展新闻关键词集;
将分类信息、目标新闻关键词集和拓展新闻关键词集确定为目标信息,并按照预设展示策略,将待处理文章数据和目标信息渲染至预设显示界面。
上述新闻关键词的抽取装置中各模块和各单元的功能实现与上述新闻关键词的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,不仅结合了新增关键词覆盖和动态分值统计(即新闻类别分值数据和文章分值数据的统计)的多个角度对多个初始新闻关键词进行分析和统计,有效地覆盖了新增关键词,保证了目标新闻关键词序列能够根据新闻更新,考虑了信息量和多个文章关键词在待处理文章数据的重要程度,提高了目标新闻关键词序列的准确性,从而提高了新闻关键词抽取的准确性,还通过按照预设展示策略将待处理文章数据和目标信息渲染至预设显示界面,保证了新闻关键词的多角度可视化。
上面图3和图4从模块化功能实体的角度对本发明实施例中的新闻关键词的抽取装置进行详细描述,下面从硬件处理的角度对本发明实施例中新闻关键词的抽取设备进行详细描述。
图5是本发明实施例提供的一种新闻关键词的抽取设备的结构示意图,该新闻关键词的抽取设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对新闻关键词的抽取设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在新闻关键词的抽取设备500上执行存储介质530中的一系列指令操作。
新闻关键词的抽取设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的新闻关键词的抽取设备结构并不构成对新闻关键词的抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供一种新闻关键词的抽取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻关键词的抽取设备执行上述新闻关键词的抽取方法中的步骤。本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行新闻关键词的抽取方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种新闻关键词的抽取方法,其特征在于,所述新闻关键词的抽取方法包括:
获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;
通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;
获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;
按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。
2.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表,包括:
对预置的目标分词用户字典进行随机游走,得到多个分词字符串,并计算多个文章关键词中各文章关键词与各分词字符串之间的最长公共子串,所述目标分词用户字典包括添加新词后的新闻关键词词表;
通过所述最长公共子串,对所述多个文章关键词进行筛选,得到多个已筛选关键词;
对所述多个已筛选关键词进行验证,得到多个初始新闻关键词。
3.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据,包括:
通过预置新闻数据计算每个初始新闻关键词的卡方值,得到每个初始新闻关键词对应的新闻类别分值数据;
按照预置的计算策略计算每个初始新闻关键词的位置分,得到每个初始新闻关键词的文章分值数据;
计算所述新闻类别分值数据和所述文章分值数据的乘积,得到目标关键词分值数据。
4.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词,包括:
获取待处理文章数据,对所述待处理文章数据进行语种识别和领域识别,得到目标语种和目标领域,并获取与所述目标语种对应的语种分词模型,以及与所述目标领域对应的领域关键词字典;
通过所述语种分词模型和所述领域关键词字典,对所述待处理文章数据进行符号识别、字符分割、字词重组和字词检测,得到多个文章关键词。
5.根据权利要求1所述的新闻关键词的抽取方法,其特征在于,所述获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词之前,还包括:
获取待分析新闻数据,对所述待分析新闻数据进行点互信息计算、筛选和分布式存储,得到存储后的候选新词;
通过预置的定时任务,对所述存储后的候选新词进行新词识别,得到目标新词,根据所述目标新词生成新闻关键词词表;
将所述新闻关键词词表添加至预置的初始分词用户字典,得到目标分词用户字典。
6.根据权利要求1-5中任一项所述的新闻关键词的抽取方法,其特征在于,所述按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列之后,还包括:
获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集。
7.根据权利要求6所述的新闻关键词的抽取方法,其特征在于,所述获取基于所述目标新闻关键词序列的目标信息,并将所述待处理文章数据和所述目标信息渲染至预设显示界面,所述目标信息包括分类信息、目标新闻关键词集和拓展新闻关键词集,包括:
调用预置的分类模型基于所述目标新闻关键词序列进行多级分类,得到分类信息,所述分类信息包括文本分类标签信息和二级分类标签信息;
对所述目标新闻关键词序列进行基于预设词数量的截取,得到目标新闻关键词集,并从预设拓展关键词库中获取所述目标新闻关键词集对应的拓展新闻关键词集;
将所述分类信息、所述目标新闻关键词集和所述拓展新闻关键词集确定为目标信息,并按照预设展示策略,将所述待处理文章数据和所述目标信息渲染至预设显示界面。
8.一种新闻关键词的抽取装置,其特征在于,所述新闻关键词的抽取装置包括:
提取模块,用于获取待处理文章数据,对所述待处理文章数据进行分词和关键词提取,得到多个文章关键词;
匹配模块,用于通过预置的目标分词用户字典,对所述多个文章关键词进行匹配,得到多个初始新闻关键词,所述目标分词用户字典包括添加新词后的新闻关键词词表;
确定模块,用于获取每个初始新闻关键词的新闻类别分值数据和文章分值数据,并根据所述新闻类别分值数据和所述文章分值数据确定目标关键词分值数据;
排序模块,用于按照所述目标关键词分值数据的值大小,对所述多个初始新闻关键词进行排序,得到目标新闻关键词序列。
9.一种新闻关键词的抽取设备,其特征在于,所述新闻关键词的抽取设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述新闻关键词的抽取设备执行如权利要求1-7中任意一项所述的新闻关键词的抽取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述新闻关键词的抽取方法。
CN202110875817.3A 2021-07-30 2021-07-30 新闻关键词的抽取方法、装置、设备及存储介质 Pending CN113536777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110875817.3A CN113536777A (zh) 2021-07-30 2021-07-30 新闻关键词的抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110875817.3A CN113536777A (zh) 2021-07-30 2021-07-30 新闻关键词的抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113536777A true CN113536777A (zh) 2021-10-22

Family

ID=78121808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110875817.3A Pending CN113536777A (zh) 2021-07-30 2021-07-30 新闻关键词的抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113536777A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691867A (zh) * 2022-03-09 2022-07-01 电子科技大学 一种内容分类方法、装置、系统及存储介质
CN115496062A (zh) * 2022-11-10 2022-12-20 杭州费尔斯通科技有限公司 企业选址意愿识别方法、系统、计算机设备以及存储介质
CN118364095A (zh) * 2024-06-20 2024-07-19 成都赛力斯科技有限公司 一种车联网信号的快速查询方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN104063387A (zh) * 2013-03-19 2014-09-24 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN106294396A (zh) * 2015-05-20 2017-01-04 北京大学 关键词扩展方法和关键词扩展系统
CN108170671A (zh) * 2017-12-19 2018-06-15 中山大学 一种提取新闻事件发生时间的方法
CN108241613A (zh) * 2018-01-03 2018-07-03 新华智云科技有限公司 一种提取关键词的方法及设备
CN109997124A (zh) * 2016-10-24 2019-07-09 谷歌有限责任公司 用于测量关键词的语义相关性的系统和方法
CN110019556A (zh) * 2017-12-27 2019-07-16 阿里巴巴集团控股有限公司 一种话题新闻获取方法、装置及其设备
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111814770A (zh) * 2020-09-04 2020-10-23 中山大学深圳研究院 一种新闻视频的内容关键词提取方法、终端设备及介质
CN111930792A (zh) * 2020-06-23 2020-11-13 北京大米科技有限公司 数据资源的标注方法、装置、存储介质及电子设备
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112487181A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 关键词确定方法和相关设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102567408A (zh) * 2010-12-31 2012-07-11 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置
CN104063387A (zh) * 2013-03-19 2014-09-24 三星电子(中国)研发中心 在文本中抽取关键词的装置和方法
CN106294396A (zh) * 2015-05-20 2017-01-04 北京大学 关键词扩展方法和关键词扩展系统
CN109997124A (zh) * 2016-10-24 2019-07-09 谷歌有限责任公司 用于测量关键词的语义相关性的系统和方法
CN108170671A (zh) * 2017-12-19 2018-06-15 中山大学 一种提取新闻事件发生时间的方法
CN110019556A (zh) * 2017-12-27 2019-07-16 阿里巴巴集团控股有限公司 一种话题新闻获取方法、装置及其设备
CN108241613A (zh) * 2018-01-03 2018-07-03 新华智云科技有限公司 一种提取关键词的方法及设备
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN112487181A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 关键词确定方法和相关设备
CN111930792A (zh) * 2020-06-23 2020-11-13 北京大米科技有限公司 数据资源的标注方法、装置、存储介质及电子设备
CN111814770A (zh) * 2020-09-04 2020-10-23 中山大学深圳研究院 一种新闻视频的内容关键词提取方法、终端设备及介质
CN112347778A (zh) * 2020-11-06 2021-02-09 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691867A (zh) * 2022-03-09 2022-07-01 电子科技大学 一种内容分类方法、装置、系统及存储介质
CN115496062A (zh) * 2022-11-10 2022-12-20 杭州费尔斯通科技有限公司 企业选址意愿识别方法、系统、计算机设备以及存储介质
CN115496062B (zh) * 2022-11-10 2023-02-28 杭州费尔斯通科技有限公司 企业选址意愿识别方法、系统、计算机设备以及存储介质
CN118364095A (zh) * 2024-06-20 2024-07-19 成都赛力斯科技有限公司 一种车联网信号的快速查询方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Kadhim An evaluation of preprocessing techniques for text classification
CN113536777A (zh) 新闻关键词的抽取方法、装置、设备及存储介质
CN101477544B (zh) 一种识别垃圾文本的方法和系统
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN110851590A (zh) 一种通过敏感词检测与非法内容识别进行文本分类的方法
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
CN103778205A (zh) 一种基于互信息的商品分类方法和系统
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN108090216A (zh) 一种标签预测方法、装置及存储介质
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN113821605A (zh) 一种事件抽取方法
CN108536673B (zh) 新闻事件抽取方法及装置
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN114385775A (zh) 一种基于大数据的敏感词识别方法
CN106126495B (zh) 一种基于大规模语料提词方法和装置
CN118113806A (zh) 一种大模型检索增强生成的可解释事件脉络生成方法
Gharbat et al. Discovering the applicability of classification algorithms with Arabic poetry
CN108717637B (zh) 一种电商安全相关实体的自动挖掘方法及系统
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN111159410A (zh) 一种文本情感分类方法、系统、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination