CN114818688A - 一种文本关键内容提取方法、装置及服务器 - Google Patents
一种文本关键内容提取方法、装置及服务器 Download PDFInfo
- Publication number
- CN114818688A CN114818688A CN202210532353.0A CN202210532353A CN114818688A CN 114818688 A CN114818688 A CN 114818688A CN 202210532353 A CN202210532353 A CN 202210532353A CN 114818688 A CN114818688 A CN 114818688A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- keywords
- unit
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,尤其涉及一种文本关键内容提取方法、装置及服务器,文本关键内容提取方法包括获取文本集;划分单元并提取单元候选关键词及单元关键词频率信息;根据单元关键词频率信息提取文本候选关键词及文本关键词频率信息;根据文本关键词频率信息获得文本关键词并将文本与同关键词文本进行对比从而确定文本关键词。本发明的一种文本关键内容提取方法通过将文本集划分为若干单元,然后对各个单元进行关键词获取,再从单元关键词中获取文本关键词,最后与同类型文本进行关键词对比,确定文本关键词,将文本集划分为多个单元再提取关键词能够避免关键词遗漏以及无效关键词的问题,使得关键词提取更加准确。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本关键内容提取方法、装置及服务器。
背景技术
随着计算机技术和互联网技术的不断发展进步、以及智能电子产品的逐步普及,考虑到电子产品学习的智能性以及便捷性,学生的学习也逐渐开始借助电子产品来完成。文本查找是学习中十分重要的一环,高效率的查找文本能够让学习更高效,因此对文本的关键内容进行提取是非常必要的。现有的文本关键内容提取的方法大多是根据文本标题及文中多次出现的词语进行主要内容的判别,但这种提取方式准确度较低。
发明内容
本发明的目的在于提供一种文本关键内容提取方法、装置及服务器,旨在解决现有文本关键内容提取方法不够准确的问题。
为实现上述目的,本发明提供了一种文本关键内容提取方法,包括:
获取文本集;
划分单元并提取单元候选关键词;
根据所述单元候选关键词出现频率获取单元关键词频率信息;
根据所述单元关键词频率信息提取文本候选关键词;
根据所述文本候选关键词出现频率获取文本关键词频率信息;
根据所述文本关键词频率信息获得文本关键词;
根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词。
其中,所述划分单元的具体方法为将文本根据自然段落划分为若干个单元。
其中,所述提取单元候选关键词的具体方法为提取单元中出现次数较多的词语及衍生词。
其中,所述获取单元关键词频率信息的具体步骤为:
根据提取的所述单元候选关键词与主题进行比较获取主题相关信息;
根据所述单元候选关键词出现的频率获取单元频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将所述主题相关信息、所述单元频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元关键词频率信息。
其中,所述获取文本关键词频率信息的具体步骤为:
根据提取的所述文本候选关键词与主题进行比较获取主题相关信息;
根据所述文本候选关键词出现的频率获取文本频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将所述主题相关信息、所述文本频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本的文本关键词频率信息。
其中,一种文本关键内容提取装置,包括存储信息架、信息存储模块和对比模块,所述存储信息架用于存储大量的文本信息,所述信息存储模块用于存储关键内容,所述对比模块用于查找文本信息中的关键内容。
其中,一种文本关键内容提取服务器,包括处理器、存储器和收发器,所述处理器、存储器和收发器相互连接,其中,所述收发器用于接收或发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行权利要求1的所述文本关键内容提取方法。
本发明的一种文本关键内容提取方法、装置及服务器,通过将文本集划分为若干单元,然后对各个单元进行关键词获取,再从单元关键词中获取文本关键词,最后与同类型文本进行关键词对比,确定文本关键词,将文本集划分为多个单元再提取关键词能够避免关键词遗漏以及无效关键词的问题,使得关键词提取更加准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种文本关键内容提取方法的流程图。
图2是获取单元关键词频率信息的具体步骤流程图。
图3是获取文本关键词频率信息的具体步骤流程图。
图4是根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词的具体步骤流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1至图3,本发明提供一种文本关键内容提取方法,包括:
S101获取文本集;
通过爬虫对文本集进行获取,并存储至信息存储模块内。
S102划分单元并提取单元候选关键词;
其中,所述划分单元的具体方法为将文本根据自然段落划分为若干个单元。
其中,所述提取单元候选关键词的具体方法为提取单元中出现次数多余预设次数的词语及衍生词。
S103根据单元候选关键词出现频率获取单元关键词频率信息;
其中,所述获取单元关键词频率信息的具体步骤为:
S301根据提取的单元候选关键词与主题进行比较获取主题相关信息;
所述主题为文本集标题主旨,通过比较所述单元候选关键词与所述主体的相关程度获得所述主题相关信息。
S302根据单元候选关键词出现的频率获取单元频率子信息;
所述单元频率子信息为每个单元候选关键词出现次数与单元文本长度的比例,体现每个所述单元候选关键词的比重。
S303基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
S304将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元关键词频率信息。
S104根据单元关键词频率信息提取文本候选关键词;
S105根据文本候选关键词出现频率获取文本关键词频率信息;
其中,所述获取文本关键词频率信息的具体步骤为:
S501根据提取的所述文本候选关键词与主题进行比较获取主体相关信息;
所述主题为文本集标题主旨,通过比较所述文本候选关键词与所述主体的相关程度获得所述主题相关信息。
S502根据所述文本候选关键词出现的频率获取文本频率子信息;
所述文本频率子信息为每个文本候选关键词出现次数与文本长度的比例,体现每个所述文本候选关键词的比重。
S503基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
S504将所述主题相关信息、所述文本频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本的文本关键词频率信息。
S106根据所述文本关键词频率信息获得文本关键词;
S107根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词。
所述根据获得的所述文本关键词将文本与同关键词文本进行对比从而确定文本关键词的具体步骤是:
S701从文本库选取其关键词与所述文本关键词相同或相似的文本;
S702将所述文本库选取的文本与所述文本集的主题相关信息、文本频率子信息以及词语长度信息进行比较;
S703判断所述文本库选取的文本与所述文本集的主题相关信息、文本频率子信息以及词语长度信息的相似度是否达到预设相似度;
S704确定所述文本集的文本关键词。
其中,一种文本关键内容提取装置,包括存储信息架、信息存储模块和对比模块,所述存储信息架用于存储大量的文本信息,所述信息存储模块用于存储关键内容,所述对比模块用于查找文本信息中的关键内容。
其中,一种文本关键内容提取服务器,包括处理器、存储器和收发器,所述处理器、存储器和收发器相互连接,其中,所述收发器用于接收或发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行权利要求1的所述文本关键内容提取方法。
本发明的一种文本关键内容提取方法、装置及服务器,通过将文本集划分为若干单元,然后对各个单元进行关键词获取,再从单元关键词中获取文本关键词,最后与同类型文本进行关键词对比,确定文本关键词,将文本集划分为多个单元再提取关键词能够避免关键词遗漏以及无效关键词的问题,使得关键词提取更加准确。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (7)
1.一种文本关键内容提取方法,其特征在于,
包括获取文本集;
根据所述文本集划分单元并提取单元候选关键词;
根据所述单元候选关键词出现频率获取单元关键词频率信息;
根据所述单元关键词频率信息提取文本候选关键词;
根据所述文本候选关键词出现频率获取文本关键词频率信息;
根据所述文本关键词频率信息获得文本关键词;
根据获得的所述文本关键词将文本集与同关键词文本进行对比从而确定文本关键词。
2.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述划分单元的具体方法为将文本根据自然段落划分为若干个单元。
3.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述提取单元候选关键词的具体方法为提取单元中出现次数多于预设次数的词语及衍生词。
4.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述获取单元关键词频率信息的具体步骤为:
根据提取的所述单元候选关键词与主题进行比较获取主题相关信息;
根据所述单元候选关键词出现的频率获取单元频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将所述主题相关信息、所述单元频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元关键词频率信息。
5.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述获取文本关键词频率信息的具体步骤为:
根据提取的所述文本候选关键词与主题进行比较获取主题相关信息;
根据所述文本候选关键词出现的频率获取文本频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将所述主题相关信息、所述文本频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本文本的文本频率信息。
6.如权利要求1所述的一种文本关键内容提取装置,其特征在于,
包括存储信息架、信息存储模块和对比模块,所述存储信息架用于存储大量的文本信息,所述信息存储模块用于存储关键内容,所述对比模块用于查找文本信息中的关键内容。
7.如权利要求1所述的一种文本关键内容提取服务器,其特征在于,
包括处理器、存储器和收发器,所述处理器、存储器和收发器相互连接,所述收发器用于接收或发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行权利要求1的所述文本关键内容提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532353.0A CN114818688A (zh) | 2022-05-11 | 2022-05-11 | 一种文本关键内容提取方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532353.0A CN114818688A (zh) | 2022-05-11 | 2022-05-11 | 一种文本关键内容提取方法、装置及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114818688A true CN114818688A (zh) | 2022-07-29 |
Family
ID=82515416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210532353.0A Withdrawn CN114818688A (zh) | 2022-05-11 | 2022-05-11 | 一种文本关键内容提取方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818688A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669550A (zh) * | 2023-11-13 | 2024-03-08 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
-
2022
- 2022-05-11 CN CN202210532353.0A patent/CN114818688A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117669550A (zh) * | 2023-11-13 | 2024-03-08 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
CN117669550B (zh) * | 2023-11-13 | 2024-04-30 | 东风日产数据服务有限公司 | 一种基于文本中心的主题挖掘方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2024880B1 (en) | Demographic based classification for local word wheeling/web search | |
US10169453B2 (en) | Automatic document summarization using search engine intelligence | |
US9317498B2 (en) | Systems and methods for generating summaries of documents | |
CN101878476B (zh) | 用于查询扩展的机器翻译 | |
CN108334490B (zh) | 关键词提取方法以及关键词提取装置 | |
CN110162750B (zh) | 文本相似度检测方法、电子设备及计算机可读存储介质 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
US7469251B2 (en) | Extraction of information from documents | |
CN110276071B (zh) | 一种文本匹配方法、装置、计算机设备及存储介质 | |
CN101571859B (zh) | 用于对文档进行标注的方法和设备 | |
CN111125484B (zh) | 话题发现方法、系统及电子设备 | |
US7555428B1 (en) | System and method for identifying compounds through iterative analysis | |
US9514113B1 (en) | Methods for automatic footnote generation | |
CN108959413B (zh) | 一种主题网页爬取方法及主题爬虫系统 | |
KR20180105546A (ko) | 클레임 요소 명사의 요소 명사 참조 번호를 획득하기 위한 요소 명사 참조 번호 획득방법 | |
CN116881425A (zh) | 一种通用型文档问答实现方法、系统、设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
Feng et al. | Question classification by approximating semantics | |
CN114818688A (zh) | 一种文本关键内容提取方法、装置及服务器 | |
US20200387815A1 (en) | Building training data and similarity relations for semantic space | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN111625579B (zh) | 一种信息处理方法、装置及系统 | |
CN111708891A (zh) | 一种多源食材数据之间的食材实体链接方法和装置 | |
CN112966505B (zh) | 一种从文本语料中提取持续性热点短语的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220729 |
|
WW01 | Invention patent application withdrawn after publication |