CN109815499A - 信息关联方法和系统 - Google Patents
信息关联方法和系统 Download PDFInfo
- Publication number
- CN109815499A CN109815499A CN201910073792.8A CN201910073792A CN109815499A CN 109815499 A CN109815499 A CN 109815499A CN 201910073792 A CN201910073792 A CN 201910073792A CN 109815499 A CN109815499 A CN 109815499A
- Authority
- CN
- China
- Prior art keywords
- participle
- target literature
- concentrated
- target
- literature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息关联方法和系统,其中,该方法包含以下步骤:确定第一目标文献集并保存第一目标文献集构成目标文献库;提取第一目标文献集中的分词及每个分词所对应的词频并保存;设定关键词并在目标文献库中检索包含关键词的第二目标文献集;提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频;计算第二目标文献集中的分词与关键词之间的关联度;根据关联度对第二目标文献集中的分词进行排序;显示排序后的第二目标文献集中的分词。本发明的有益之处在于提供的信息关联方法建立包含第一目标文献集中的分词和其对应的词频的词库,可以快速从词库中提取相关信息,减少检索时间。
Description
技术领域
本发明涉及一种信息关联方法和系统。
背景技术
随着互联网行业越来越发达,信息检索越来越重要,特别对于媒体行业,经常需要通过关键词搜索与其相关的内容。
传统的检索方法,在通过关键词检索与其关联的词时,检索到的关联词与关键词之间的相关性不够准确,严重影响工作效率。
发明内容
为解决现有技术的不足,本发明提供了一种可以解决上述问题的信息关联方法和系统。
为了实现上述目标,本发明采用如下的技术方案:
一种信息关联方法,包含以下步骤:
确定第一目标文献集并保存第一目标文献集构成目标文献库;
提取目标文献库中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频并保存第一目标文献集中的分词和其对应的词频构成词库;
设定关键词并在目标文献库中检索包含关键词的第二目标文献集;
提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频;
计算第二目标文献集中的分词与关键词之间的关联度;
根据关联度对第二目标文献集中的分词进行排序;
显示排序后的第二目标文献集中的分词。
进一步地,计算第二目标文献集中的分词与关键词之间的关联度的具体方法为通过下述公式计算每个第二目标文献集中的分词的分数并通过分数表述每个第二目标文献集中的分词与关键词的关联度:
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost;
其中,subsetFreq表示第二目标文献集中的分词的词频,subsetSize表示全部第二目标文献集中的分词的词频的总和,superFreq表示第二目标文献集中的分词在第一目标文献集中的词频,superSize表示全部第一目标文献集中的分词的词频的总和,natureBoost表示第二目标文献集中的分词的词性权重,fieldBoost表示第二目标文献集中的分词的字段权重。
进一步地,获取natureBoost的具体方法为:
根据第二目标文献集中的分词在第二目标文献集中的词性求取平均值。
进一步地,获取fieldBosst的具体方法为:
根据第二目标文献集中的分词在第二目标文献集中的字段求取平均值。
进一步地,通过显示出的第二目标文献集中的分词在第二目标文集中获取包含第二目标文献集中的分词的第三目标文献集并显示第三目标文献集。
进一步地,计算第三目标文献集中的每个文献与关键词的关联度;
根据关联度对第三目标文献集进行排序;
显示排序后的第二目标文献集中的文献。
进一步地,显示排序后的第二目标文献集中的文献的具体方法为根据用户的设置显示排序后的第二目标文献集中的文献的数量。
一种信息关联系统,信息关联系统包含:
目标文献库模块,用于存储第一目标文献集;
第一处理模块,用于提取目标文献库模块中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频;
词库模块,用于保存第一处理模块提取的第一目标文献集中的分词和其对应的词频;
输入模块,用于供用户输入关键词;
检索模块,用于根据用户通过输入模块输入的关键词在目标文献库模块中检索包含关键词的第二目标文献集;
第二处理模块,用于提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频;
计算模块,用于计算第二目标文献集中的分词与关键词之间的关联度;
排序模块,用于根据关联度对第二目标文献集中的分词进行排序;
显示模块,用于显示排序后的第二目标文献集中的分词。
进一步地,计算模块通过下述公式计算每个第二目标文献集中的分词的分数并通过分数表述每个第二目标文献集中的分词与关键词的关联度:
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost;
其中,subsetFreq表示第二目标文献集中的分词的词频,subsetSize表示全部第二目标文献集中的分词的词频的总和,superFreq表示第二目标文献集中的分词在第一目标文献集中的词频,superSize表示全部第一目标文献集中的分词的词频的总和,natureBoost表示第二目标文献集中的分词的词性权重,fieldBoost表示第二目标文献集中的分词的字段权重。
进一步地,计算模块包括:
第一计算子模块,用于计算第二目标文献集中的分词的词性权重;
第二计算子模块,用于计算第二目标文献集中的分词的字段权重。
本发明的有益之处在于提供的信息关联方法建立包含第一目标文献集中的分词和其对应的词频的词库,可以快速从词库中提取相关信息,减少检索时间。
本发明的有益之处还在于提供的信息关联方法提供的优化的计算公式可以根据不同分词的词性和该分词出现在文献的不同字段设定不同的计算权值,使得最终计算出的分词的关联度更加贴合实际情况。
附图说明
图1是本发明的信息关联方法的示意图;
图2是本发明的信息关联系统的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种信息关联方法,包含以下步骤:S1:确定第一目标文献集并保存第一目标文献集构成目标文献库。S2:提取目标文献库中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频并保存第一目标文献集中的分词和其对应的词频构成词库。S3:设定关键词并在目标文献库中检索包含关键词的第二目标文献集。S4:提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频。S5:计算第二目标文献集中的分词与关键词之间的关联度。S6:根据关联度对第二目标文献集中的分词进行排序。S7:显示排序后的第二目标文献集中的分词。
对于S1:确定第一目标文献集并保存第一目标文献集构成目标文献库。
具体而言,首先建立目标文献库,该目标文献库中保存有由预先选取的文献构成的第一目标文献集。可以理解的是是,该第一目标文献集是不断变化的,比如间隔一定时间添加相关文献到所述目标文献库中以不断扩充该目标文献库。该周期可以根据实际工作需要进行设定,比如一个月,一个季度,等等。
对于S2:提取目标文献库中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频并保存第一目标文献集中的分词和其对应的词频构成词库。
具体而言,根据语义分析等方法分析处理该目标文献库中的第一目标文献集,将第一目标文献集拆分成一个个独立的分词,且统计出每一个独立的分词出现在第一目标文献集的次数作为每个分词的词频,最后再保存统计出的所有分词和分词对应的词频。
对于S3:设定关键词并在目标文献库中检索包含关键词的第二目标文献集。
具体而言,设定一个需要检索的关键词,在目标文献库中检索出所有包含该关键词的文献构第二目标文献集。
对于S4:提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频。
具体而言,与S2相似的,根据语义分析等方法分析处理该目标文献库中的第二目标文献集,得到第二目标文献集中的分词及每个分词所对应的词频。
对于S5:计算第二目标文献集中的分词与关键词之间的关联度。
当通过S4得到第二目标文献集中的分词及每个分词所对应的词频,进一步地计算出每个分词与之前设定的关键词的关联度,具体方法为通过下述公式计算每个第二目标文献集中的分词的分数并通过该分数表述每个第二目标文献集中的分词与关键词的关联度:
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,subsetFreq表示第二目标文献集中的分词的词频,subsetSize表示全部第二目标文献集中的分词的词频的总和,将每个第二目标文献集中的分词的词频相加可得,superFreq表示第二目标文献集中的分词在第一目标文献集中的词频,该数据可以从词库中直接获取,superSize表示全部第一目标文献集中的分词的词频总和,将第一目标文献集中的所有分词的词频相加可得。
natureBoost表示第二目标文献集中的分词的词性权重,获取natureBoost的具体方法为:根据第二目标文献集中的分词在第二目标文献集中的词性求取平均值。
可以理解的是,对于不同的分词,由于其词性不同,与关键词的相关度会有不同,对于同一个分词,当其词性不同时,其与关键词的相关度也会有所不同,因此,natureBoost的值是根据检索结果不断变换的。一般而言,名词的词性权重为大于等于0.85小于等于0.95,动词的词性权重为大于等于0.65小于等于0.85,形容词的词性权重为大于等于0.5小于等于0.7,副词的词性权重为大于等,0.35小于0.5。
在本实施例中,名词的词性权重为0.9,动词的词性权重设为0.8,形容词0.6,副词0.4当一个分词的词性为名词时,natureBoost的值为0.9,当一个分词既可以为名词又可以为动词时,根据语义分析出该分词在第二目标文献集中以名词形式出现m次,以动词形式出现n次,此时,natureBoost=(0.9m+0.8n)/(m+n),以此类推。以上即为根据第二目标文献集中的分词在第二目标文献集中的词性求取平均值。
fieldBoost表示第二目标文献集中的分词的字段权重,获取fieldBoost的具体方法为:根据第二目标文献集中的分词在第二目标文献集中的字段求取平均值。
可以理解的是,对于同一个分词,其出现在文献的标题中或正文中,该分词和关键词的关联度是不同的。一般而言,分词出现在文献的标题中时,其字段权重大于等于0.85小于0.95,分词出现在文献的正文中时,其字段权重大于等于0.6小于等于0.8。
在本实施例中,当分词出现在文献的标题中时,其字段权重为0.9,当分词出现在文献的正文中时,其字段权重为0.7,与前述natureBoost相似的,根据语义分析出该分词出现在第二目标文献集的文献的标题的次数为a,出现在第二目标文献集的文献的正文的次数为b,则此时,fieldBoost=(0.9a+0.7b)/(a+b)。
对于S6:根据关联度对第二目标文献集中的分词进行排序。
具体而言,检索出的第二目标文献集中的文献数量可能较多,可以根据相关度对第二目标文献集中的文献进行排序,便于获取相关度更高的文献。
对于S7:显示排序后的第二目标文献集中的分词。
具体而言,经过排序后将相关文献显示出来以供用户查阅。
可以理解的是,检索出的第二目标文献集中的文献数量可能较多,全部显示可能出现很多关系不大的文献,因此,用户可以设定显示的文献的个数,比如设定显示关联度大于某一阈值的所有文献,或设定显示关联度排名前10或前100的相关文献,具体设定可以由用户根据实际情况设定。
当通过以上方法得到关键词的相关的分词时,可以通过分词从第二目标文献集中反向得到包含该分词的文献,这些文献构成第三目标文献集,并且通过计算得到每个文献与关键词的关联度,并根据该关联度对第三目标文献集进行排序,再将排序后的第三目标文献显示出来供用户查阅。计算第三目标文献集中的每个文献与关键词的关联度可以根据该分词在每个文献中的比重进行判断。
如图2所示,本发明还公开了一种信息关联系统,用于应用上述公开的信息关联方法,该信息关联系统包含:目标文献库模块1、第一处理模块2、词库模块3、输入模块4、检索模块5、第二处理模块6、计算模块7、排序模块8和显示模块9。具体而言,目标文献库模块1用于存储第一目标文献集,第一处理模块2用于提取目标文献库模块1中的第一目标文献集中的分词及每个第一目标文献集中的分词所对应的词频,词库模块3用于保存第一处理模块2提取的第一目标文献集中的分词和其对应的词频,输入模块4用于供用户输入关键词,检索模块5用于根据用户通过输入模块4输入的关键词在目标文献库模块1中检索包含关键词的第二目标文献集,第二处理模块6用于提取第二目标文献集中的分词及每个第二目标文献集中的分词所对应的词频,计算模块7用于计算第二目标文献集中的分词与关键词之间的关联度,排序模块8用于根据关联度对第二目标文献集中的分词进行排序,显示模块9用于显示排序后的第二目标文献集中的分词。
作为一种优选的实施方式,计算模块7包括:第一计算子模块和第二计算子模块。其中第一计算子模块用于计算第二目标文献集中的分词的词性权重,第二计算子模块用于计算第二目标文献集中的分词的字段权重。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (10)
1.一种信息关联方法,其特征在于,包含以下步骤:
确定第一目标文献集并保存所述第一目标文献集构成目标文献库;
提取所述目标文献库中的第一目标文献集中的分词及每个所述第一目标文献集中的分词所对应的词频并保存所述第一目标文献集中的分词和其对应的词频构成词库;
设定关键词并在所述目标文献库中检索包含所述关键词的第二目标文献集;
提取所述第二目标文献集中的分词及每个所述第二目标文献集中的分词所对应的词频;
计算所述第二目标文献集中的分词与所述关键词之间的关联度;
根据关联度对所述第二目标文献集中的分词进行排序;
显示排序后的所述第二目标文献集中的分词。
2.根据权利要求1所述的信息关联方法,其特征在于,
计算所述第二目标文献集中的分词与所述关键词之间的关联度的具体方法为通过下述公式计算每个所述第二目标文献集中的分词的分数并通过所述分数表述每个所述第二目标文献集中的分词与所述关键词的关联度:
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost;
其中,subsetFreq表示所述第二目标文献集中的分词的词频,subsetSize表示全部所述第二目标文献集中的分词的词频总和,superFreq表示所述第二目标文献集中的分词在所述第一目标文献集中的词频的总和,superSize表示全部所述第一目标文献集中的分词的词频总和,natureBoost表示所述第二目标文献集中的分词的词性权重,fieldBoost表示所述第二目标文献集中的分词的字段权重。
3.根据权利要求2所述的信息关联方法,其特征在于,
获取natureBoost的具体方法为:
根据所述第二目标文献集中的分词在所述第二目标文献集中的词性求取平均值。
4.根据权利要求3所述的信息关联方法,其特征在于,
获取fieldBosst的具体方法为:
根据所述第二目标文献集中的分词在所述第二目标文献集中的字段求取平均值。
5.根据权利要求1所述的信息关联方法,其特征在于,
通过显示出的所述第二目标文献集中的分词在所述第二目标文集中获取包含所述第二目标文献集中的分词的第三目标文献集并显示所述第三目标文献集。
6.根据权利要求5所述的信息关联方法,其特征在于,
计算所述第三目标文献集中的每个文献与所述关键词的关联度;
根据关联度对所述第三目标文献集进行排序;
显示排序后的所述第二目标文献集中的文献。
7.根据权利要求6所述的信息关联方法,其特征在于,
显示排序后的所述第二目标文献集中的文献的具体方法为根据用户的设置显示排序后的所述第二目标文献集中的文献的数量。
8.一种信息关联系统,其特征在于,所述信息关联系统包含:
目标文献库模块,用于存储第一目标文献集;
第一处理模块,用于提取所述目标文献库模块中的第一目标文献集中的分词及每个所述第一目标文献集中的分词所对应的词频;
词库模块,用于保存所述第一处理模块提取的所述第一目标文献集中的分词和其对应的词频;
输入模块,用于供用户输入关键词;
检索模块,用于根据用户通过所述输入模块输入的关键词在所述目标文献库模块中检索包含所述关键词的第二目标文献集;
第二处理模块,用于提取所述第二目标文献集中的分词及每个所述第二目标文献集中的分词所对应的词频;
计算模块,用于计算所述第二目标文献集中的分词与所述关键词之间的关联度;
排序模块,用于根据关联度对所述第二目标文献集中的分词进行排序;
显示模块,用于显示排序后的所述第二目标文献集中的分词。
9.根据权利要求8所述的信息关联系统,其特征在于,
所述计算模块通过下述公式计算每个所述第二目标文献集中的分词的分数并通过所述分数表述每个所述第二目标文献集中的分词与所述关键词的关联度:
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost;
其中,subsetFreq表示所述第二目标文献集中的分词的词频,subsetSize表示全部所述第二目标文献集中的分词的词频总和,superFreq表示所述第二目标文献集中的分词在所述第一目标文献集中的词频的总和,superSize表示全部所述第一目标文献集中的分词的词频总和,natureBoost表示所述第二目标文献集中的分词的词性权重,fieldBoost表示所述第二目标文献集中的分词的字段权重。
10.根据权利要求8所述的信息关联系统,其特征在于,
所述计算模块包括:
第一计算子模块,用于计算所述第二目标文献集中的分词的词性权重;
第二计算子模块,用于计算所述第二目标文献集中的分词的字段权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910073792.8A CN109815499B (zh) | 2019-01-25 | 2019-01-25 | 信息关联方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910073792.8A CN109815499B (zh) | 2019-01-25 | 2019-01-25 | 信息关联方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815499A true CN109815499A (zh) | 2019-05-28 |
CN109815499B CN109815499B (zh) | 2023-05-23 |
Family
ID=66605074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910073792.8A Active CN109815499B (zh) | 2019-01-25 | 2019-01-25 | 信息关联方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815499B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991173A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 一种分词方法及系统 |
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN112100330A (zh) * | 2020-09-09 | 2020-12-18 | 杭州凡闻科技有限公司 | 一种基于人工智能技术的主题搜索方法及其系统 |
CN115840785A (zh) * | 2022-12-30 | 2023-03-24 | 河北热数科技有限公司 | 一种分布式终端数据查询系统及方法 |
CN118013955A (zh) * | 2024-04-08 | 2024-05-10 | 中国标准化研究院 | 一种基于关联算法的标准信息更新方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN104166712A (zh) * | 2014-08-13 | 2014-11-26 | 东北电力大学 | 科技文献检索方法及系统 |
CN105005556A (zh) * | 2015-07-29 | 2015-10-28 | 成都理工大学 | 一种基于地质大数据的标引关键词提取方法和系统 |
US20150347382A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Predictive text input |
CN105787078A (zh) * | 2016-03-02 | 2016-07-20 | 合网络技术(北京)有限公司 | 多媒体标题显示方法及装置 |
CN105956125A (zh) * | 2016-05-06 | 2016-09-21 | 长沙市麓智信息科技有限公司 | 专利监控系统及其方法 |
CN108241611A (zh) * | 2016-12-26 | 2018-07-03 | 北京国双科技有限公司 | 一种关键词提取方法以及提取设备 |
CN108427702A (zh) * | 2017-10-23 | 2018-08-21 | 平安科技(深圳)有限公司 | 目标文档获取方法及应用服务器 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN109033132A (zh) * | 2018-06-05 | 2018-12-18 | 中证征信(深圳)有限公司 | 利用知识图谱计算文本和主体相关度的方法以及装置 |
-
2019
- 2019-01-25 CN CN201910073792.8A patent/CN109815499B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
US20150347382A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Predictive text input |
CN104166712A (zh) * | 2014-08-13 | 2014-11-26 | 东北电力大学 | 科技文献检索方法及系统 |
CN105005556A (zh) * | 2015-07-29 | 2015-10-28 | 成都理工大学 | 一种基于地质大数据的标引关键词提取方法和系统 |
CN105787078A (zh) * | 2016-03-02 | 2016-07-20 | 合网络技术(北京)有限公司 | 多媒体标题显示方法及装置 |
CN105956125A (zh) * | 2016-05-06 | 2016-09-21 | 长沙市麓智信息科技有限公司 | 专利监控系统及其方法 |
CN108241611A (zh) * | 2016-12-26 | 2018-07-03 | 北京国双科技有限公司 | 一种关键词提取方法以及提取设备 |
CN108427702A (zh) * | 2017-10-23 | 2018-08-21 | 平安科技(深圳)有限公司 | 目标文档获取方法及应用服务器 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN109033132A (zh) * | 2018-06-05 | 2018-12-18 | 中证征信(深圳)有限公司 | 利用知识图谱计算文本和主体相关度的方法以及装置 |
Non-Patent Citations (1)
Title |
---|
张敏超: "基于半监督多标签学习的文献自动链接方法研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991173A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 一种分词方法及系统 |
CN110991173B (zh) * | 2019-11-29 | 2023-09-29 | 支付宝(杭州)信息技术有限公司 | 一种分词方法及系统 |
CN111666749A (zh) * | 2020-06-03 | 2020-09-15 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN111666749B (zh) * | 2020-06-03 | 2023-09-19 | 杭州凡闻科技有限公司 | 热点文章识别方法 |
CN112100330A (zh) * | 2020-09-09 | 2020-12-18 | 杭州凡闻科技有限公司 | 一种基于人工智能技术的主题搜索方法及其系统 |
CN112100330B (zh) * | 2020-09-09 | 2023-09-26 | 杭州凡闻科技有限公司 | 一种基于人工智能技术的主题搜索方法及其系统 |
CN115840785A (zh) * | 2022-12-30 | 2023-03-24 | 河北热数科技有限公司 | 一种分布式终端数据查询系统及方法 |
CN118013955A (zh) * | 2024-04-08 | 2024-05-10 | 中国标准化研究院 | 一种基于关联算法的标准信息更新方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109815499B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815499A (zh) | 信息关联方法和系统 | |
Khreisat | Arabic text classification using N-gram frequency statistics a comparative study | |
CN101067808B (zh) | 文本关键词的提取方法 | |
Kannan et al. | Preprocessing techniques for text mining | |
EP0750266B1 (en) | Document classification unit and document retrieval unit | |
US6772170B2 (en) | System and method for interpreting document contents | |
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
CN106951530B (zh) | 一种事件类型抽取方法和装置 | |
CN103514213B (zh) | 词语提取方法及装置 | |
CN108363694B (zh) | 关键词提取方法及装置 | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
CN102789452A (zh) | 类似内容提取方法 | |
CN101334768A (zh) | 一种利用计算机对词义进行排歧的方法、系统及检索方法 | |
CN109558587B (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
CN102541910A (zh) | 提取关键字的方法 | |
Kumari et al. | Synonyms based term weighting scheme: An extension to TF. IDF | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Patel et al. | A language independent approach to multilingual text summarization | |
Ng et al. | Novelty detection for text documents using named entity recognition | |
CN111859032A (zh) | 一种短信拆字敏感词的检测方法、装置及计算机存储介质 | |
CN109977397A (zh) | 基于词性组合的新闻热点提取方法、系统及存储介质 | |
CN106055614A (zh) | 基于多个语义摘要的内容相似性分析方法 | |
CN112417101A (zh) | 一种关键词提取的方法及相关装置 | |
Ahmed et al. | Question analysis for Arabic question answering systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |