CN113449073B - 一种关键词的选取方法及系统 - Google Patents
一种关键词的选取方法及系统 Download PDFInfo
- Publication number
- CN113449073B CN113449073B CN202110684931.8A CN202110684931A CN113449073B CN 113449073 B CN113449073 B CN 113449073B CN 202110684931 A CN202110684931 A CN 202110684931A CN 113449073 B CN113449073 B CN 113449073B
- Authority
- CN
- China
- Prior art keywords
- phrase
- qualifier
- preferred
- noun
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种关键词的选取方法及系统。通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词,能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种关键词的选取方法及系统。
背景技术
目前,对于文本中的关键词的选取方法通常是筛选出该文本中所包含的高频词汇,将高频词汇作为关键词以供读者检索使用,然而,仅凭高频词汇这一因素作为关键词的选取条件,往往不能全面地反映出该文本的核心思想,即高频词汇不相当于核心关键词,因此,不利于读者的阅读效果。
发明内容
本发明所要解决的技术问题是:提供一种全新的关键词的选取方法及系统,能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。
为了解决上述技术问题,本发明采用的一技术方案为:
一种关键词的选取方法,包括以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
本发明采用的另一技术方案为:
一种关键词的选取系统,包括一个或多个处理器及存储器,所述存储器存储有程序,该程序被处理器执行时实现以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
本发明的有益效果在于:
本发明提供的一种关键词的选取方法,通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词。其中,按照先确定优选名词再确定优选限定词顺序执行选取方法,在选取优选限定词时,先判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词。通过该方式得到的优选限定词能够与优选名词存在较高的关联性,最后通过由该优选名词和优选限定词组成的关键词能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。本发明还提供的一种关键词的选取系统,同样能够达到上述所宣称的技术效果。
附图说明
图1为本发明的一种关键词的选取方法的步骤流程图;
图2为本发明的一种关键词的选取系统的结构示意图;
标号说明:
1、一种关键词的选取系统;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,本发明提供的一种关键词的选取方法,包括以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
从上述描述可知,本发明的有益效果在于:
本发明提供的一种关键词的选取方法,通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词。其中,按照先确定优选名词再确定优选限定词顺序执行选取方法,在选取优选限定词时,先判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词。通过该方式得到的优选限定词能够与优选名词存在较高的关联性,最后通过由该优选名词和优选限定词组成的关键词能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。
进一步的,步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次,查询得到对应的权重值;
计算得到每个词组各自与优选名词的匹配度;
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值。
由上述描述可知,通过上述方式,能够计算得到所述限定词集合中的每个词组对应的匹配值。
进一步的,步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
由上述描述可知,在关键词的匹配上进一步考虑文本标题的重要性,因而在上述方式中,结合位于标题位上的文字,综合计算得到所述限定词集合中的每个词组对应的匹配值,有助于更加全面且精准反映出该文本的核心思想。
进一步的,还包括:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
由上述描述可知,再进一步结合阅读者在预设时段内的阅读数据,更加综合地计算得到所述限定词集合中的每个词组对应的匹配值。
参阅图2,本发明还提供一种关键词的选取系统1,包括一个或多个处理器2及存储器3,所述存储器3存储有程序,该程序被处理器2执行时实现以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
从上述描述可知,本发明的有益效果在于:
本发明提供的一种关键词的选取系统,通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词。其中,按照先确定优选名词再确定优选限定词顺序执行选取方法,在选取优选限定词时,先判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词。通过该方式得到的优选限定词能够与优选名词存在较高的关联性,最后通过由该优选名词和优选限定词组成的关键词能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。
进一步的,该程序被处理器执行时具体实现以下步骤:
根据每个词组对应的频次,查询得到对应的权重值;
计算得到每个词组各自与优选名词的匹配度;
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值。
由上述描述可知,通过上述方式,能够计算得到所述限定词集合中的每个词组对应的匹配值。
进一步的,该程序被处理器执行时具体实现以下步骤:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
由上述描述可知,在关键词的匹配上进一步考虑文本标题的重要性,因而在上述方式中,结合位于标题位上的文字,综合计算得到所述限定词集合中的每个词组对应的匹配值,有助于更加全面且精准反映出该文本的核心思想。
进一步的,该程序被处理器执行时还实现以下步骤:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
由上述描述可知,再进一步结合阅读者在预设时段内的阅读数据,更加综合地计算得到所述限定词集合中的每个词组对应的匹配值。
请参照图1,本发明的实施例一为:
本发明提供的一种关键词的选取方法,包括以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
在步骤S1之前还包括:判断阅读者是否处于阅读状态,即本方案配置一智能阅读桌,智能阅读桌上搭载有智能系统以及架设在预设识别区域上方的摄像装置,摄像装置竖直向下设置且朝向预设识别区域,阅读者将纸质读物置于预设识别区域内并通过智能系统登入个人账号系统,智能阅读桌通过阅读者是否登入个人账号系统以及是否将纸质读物置于预设识别区域内以此来判断是否处于阅读状态,当进入阅读状态时,摄像装置拍摄纸质读物即得到上述的图像数据,通过OCR识别即可通过该图像数据识别出所包含的所有文字,并且还能够识别出文字在该文本中的位置,以此来为后续判定标题文字作基础。
其中,需要说明的是:限定词为形容词等起到限定、修饰作用的文字。名词为被限定、被修饰的文字。
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
在本实施例中,可按照频次由大至小的顺序对所有的名词集合中的每个词组进行排序,将按照第二位的词组作为备选名词,若后续过程中,选取的优选名词不存在有与之匹配的限定词,则选择备选名词作为优选名词,此时将位于优选名词之后一位的词组作为当前备选名词,以此类推。
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
其中,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次,查询得到对应的权重值;其中,预设一映射表,映射表内存储有多个频次范围以及每个频次范围各自对应的权重值,频次范围以及各自对应的权重值可根据不同大小、不同种类的书籍进行相应设置。
计算得到每个词组各自与优选名词的匹配度;这里采用的匹配度计算是采用现有技术,主要是通过现有的大数据分析而来,并且具有不断的自学习功能。
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值。
为进一步提升匹配精度,步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
上述匹配值的计算方法为将每个参数均乘以对应的权重值后相加,即可得到匹配值。
另外,还包括:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;预设时段可任意设置,一般可根据阅读的阅读频次来决定,一般是5-10天。其中历史关键词为阅读者之前搜索过的关键词,阅读时段是指在一天中的哪个具体时间段,阅读力数据是指专注力和理解力,专注力可通过阅读一页内容所花的时长来判定,理解力可通过检索关键词的数量来判定。
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
上述匹配值的计算方法为将每个参数均乘以对应的权重值后相加,即可得到匹配值。
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
通过上述关键词,可结合场景灯呈现出对应的阅读氛围,形成新型阅读图书馆。例如,场景灯设有多种灯光效果,通过关键词分析出对应的类型,根据类型选择对应的灯光效果,如激情的篝火晚会,此时,灯光效果可以为火红色的灯光加上一定频率的闪烁,以达到营造阅读氛围的效果。
请参照图2,本发明的实施例二为:
本发明还提供一种关键词的选取系统1,包括一个或多个处理器2及存储器3,所述存储器3存储有程序,该程序被处理器2执行时实现以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词。
进一步的,该程序被处理器执行时具体实现以下步骤:
根据每个词组对应的频次,查询得到对应的权重值;
计算得到每个词组各自与优选名词的匹配度;
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值。
进一步的,该程序被处理器执行时具体实现以下步骤:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
进一步的,该程序被处理器执行时还实现以下步骤:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
综上所述,本发明提供的一种关键词的选取方法,通过将从一图像数据中识别出的包含的所有文字分割成两个以上的词组,再选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;接着分别从限定词集合和名词集合选取出优选名词和优选限定词组成本方案最终的关键词。其中,按照先确定优选名词再确定优选限定词顺序执行选取方法,在选取优选限定词时,先判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词。通过该方式得到的优选限定词能够与优选名词存在较高的关联性,最后通过由该优选名词和优选限定词组成的关键词能够更加全面地反映出该文本的核心思想,有助于提升阅读效果。本发明还提供的一种关键词的选取系统,同样能够达到上述所宣称的技术效果。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (4)
1.一种关键词的选取方法,其特征在于,包括以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词;
步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次,查询得到对应的权重值;
计算得到每个词组各自与优选名词的匹配度;
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值;或者,步骤S3中根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
2.根据权利要求1所述的一种关键词的选取方法,其特征在于,还包括:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值,具体为:
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
3.一种关键词的选取系统,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,该程序被处理器执行时实现以下步骤:
S1、识别出一图像数据中包含的所有文字,将所有文字分割成两个以上的词组,从两个以上的词组中选取出属于限定词或名词的词组并进行分别归类,得到各自对应的限定词集合和名词集合;
S2、对所述名词集合中的每个词组分别统计出现的频次,选取频次最大的词组作为优选名词;
S3、判断在所述限定词集合中是否有与所述优选名词位于同一整句中的限定词;
若有,则判断所述位于同一整句中的限定词的数量是否不小于两个;
若是,则选取与所述优选名词之间的间隔最少文字数量的限定词作为优选限定词;若否,则将所述位于同一整句中的限定词作为优选限定词;
若无,则对所述限定词集合中的每个词组分别统计出现的频次,根据每个词组对应的频次以及每个词组各自与优选名词的匹配度计算得到所述限定词集合中的每个词组对应的匹配值,将匹配值最高的词组作为优选限定词;
S4、将步骤S2得到的优选名词和步骤S3得到的优选限定词进行组合,得到关键词;
该程序被处理器执行时具体实现以下步骤:
根据每个词组对应的频次,查询得到对应的权重值;
计算得到每个词组各自与优选名词的匹配度;
将每个词组对应的频次乘以对应的权重值后再加上计算得到的每个词组各自与优选名词的匹配度,计算得到所述限定词集合中的每个词组对应的匹配值;或者,该程序被处理器执行时具体实现以下步骤:
识别出所述图像数据中位于标题位上的文字,所述图像数据为通过拍摄处于阅读状态下的纸质读物而获取;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度以及位于标题位上的文字计算得到所述限定词集合中的每个词组对应的匹配值。
4.根据权利要求3所述的一种关键词的选取系统,其特征在于,该程序被处理器执行时还实现以下步骤:
获取阅读者在预设时段内的阅读数据;所述阅读数据包括历史关键词、阅读时段和阅读力数据;
根据每个词组对应的频次、每个词组各自与优选名词的匹配度、位于标题位上的文字以及所述阅读数据计算得到所述限定词集合中的每个词组对应的匹配值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110684931.8A CN113449073B (zh) | 2021-06-21 | 2021-06-21 | 一种关键词的选取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110684931.8A CN113449073B (zh) | 2021-06-21 | 2021-06-21 | 一种关键词的选取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449073A CN113449073A (zh) | 2021-09-28 |
CN113449073B true CN113449073B (zh) | 2022-05-31 |
Family
ID=77811908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110684931.8A Active CN113449073B (zh) | 2021-06-21 | 2021-06-21 | 一种关键词的选取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449073B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100520782C (zh) * | 2007-11-09 | 2009-07-29 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
US10824657B2 (en) * | 2017-06-01 | 2020-11-03 | Interactive Solutions Inc. | Search document information storage device |
CN110377724A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于数据挖掘的语料库关键词自动抽取算法 |
CN111767393A (zh) * | 2020-06-22 | 2020-10-13 | 中国建设银行股份有限公司 | 一种文本核心内容提取方法及装置 |
CN112364625A (zh) * | 2020-11-19 | 2021-02-12 | 深圳壹账通智能科技有限公司 | 文本筛选方法、装置、设备及存储介质 |
-
2021
- 2021-06-21 CN CN202110684931.8A patent/CN113449073B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113449073A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220261427A1 (en) | Methods and system for semantic search in large databases | |
US8290975B2 (en) | Graph-based keyword expansion | |
JP3041268B2 (ja) | 中国語誤り検査(cec)システム | |
CN102915299B (zh) | 一种分词方法及装置 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
US9256649B2 (en) | Method and system of filtering and recommending documents | |
CN107784110B (zh) | 一种索引建立方法及装置 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN112883165B (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
KR101472451B1 (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN115329048A (zh) | 一种语句检索的方法及装置、电子设备、存储介质 | |
WO2022105178A1 (zh) | 一种关键词提取的方法及相关装置 | |
US20220277039A1 (en) | Text to color palette generator | |
CN113449073B (zh) | 一种关键词的选取方法及系统 | |
JP2013174988A (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
JPH10254900A (ja) | 自動文書要約装置及び方法 | |
CN111708862B (zh) | 文本匹配方法、装置及电子设备 | |
CN114297449A (zh) | 内容查找方法、装置、电子设备及计算机可读介质及产品 | |
KR102081867B1 (ko) | 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 | |
US20180225291A1 (en) | Identifying Documents | |
CN113434639A (zh) | 审计数据处理方法及装置 | |
EP2793145A2 (en) | Computer device for minimizing computer resources for database accesses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |