CN107341142A - 一种基于关键词提取分析的企业关系计算方法及系统 - Google Patents
一种基于关键词提取分析的企业关系计算方法及系统 Download PDFInfo
- Publication number
- CN107341142A CN107341142A CN201710354039.7A CN201710354039A CN107341142A CN 107341142 A CN107341142 A CN 107341142A CN 201710354039 A CN201710354039 A CN 201710354039A CN 107341142 A CN107341142 A CN 107341142A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- word
- text
- paragraph
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于关键词提取分析的企业关系计算方法及系统,包括:获取文本信息并获取文本信息包含的段落数;计算文本信中每个段落的字数,组装成新的文字段落;设定词典,并设置词典中的词语为引导词,根据设置的引导词对文本信息进行一次搜索,将文本中的语句在此摘录出一个新的文本;得到三个短语序列;分别设置对应的权重值,从三个短语序列中检查出重复词语,根据重复词语出现的次数与所在序列的权重值的乘积作为得分值,不重复的词语的得分值即为所在序列的权重值;将企业之间共同的关键短语作为连接点连接不同的企业。本发明计算企业之间的关联关系,将企业之间共同的关键短语作为连接点连接不同的企业,形成企业之间的关联关系。
Description
技术领域
本发明涉及计算机网络技术领域,特别涉及一种基于关键词提取分析的企业关系计算方法及系统。
背景技术
现有的企业信息综合网站,大都是对企业信息的简单罗列,并且是主要针对单一企业的信息汇总和分析。现有技术的缺点是存在缺少一种对企业之间的相互关系进行分析的方式。其中,如何分析各个企业的基本信息,然后通过自然语义的方式从企业信息中提取出相应关键词,以实现计算机自动化对该企业关系分析,是当前需要解决的技术问题。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种基于关键词提取分析的企业关系计算方法。
为了实现上述目的,本发明的实施例提供一种基于关键词提取分析的企业关系计算方法,包括如下步骤:
步骤S1,获取文本信息T1,并获取所述文本信息包含的段落数;
步骤S2,计算文本信息T1中每个段落的字数Cn以及所有段落的字数平均值CV,提取出Cn/CV大于等于某个阈值k的段落文字,组装成为一个新的文字段落T2;
步骤S3,设定词典,并设置所述词典中的词语为引导词,根据设置的引导词对所述文本信息进行一次搜索,将文本中的语句在此摘录出一个新的文本T3;
步骤S4,对所述T1、T2和T3分别提取关键短语,得到三个L1、L2和L3三个短语序列;
步骤S5,将L1、L2和L3分别设置对应的权重值a、b和c,从三个短语序列中检查出重复词语,根据重复词语出现的次数与所在序列的权重值的乘积作为得分值,不重复的词语的得分值即为所在序列的权重值;
步骤S6,将企业之间共同的关键短语作为连接点连接不同的企业,以形成企业之间的关联关系。
进一步,在所述步骤S4中,采用以下算法提取关键词:
TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。
进一步,所述提取关键词的多个算法,限定只筛选出名词、动名词、和专有名词。
进一步,在所述步骤S5中,根据得分值进行排序,得到新的序列L4,作为特征词。
进一步,向用户提供企业之间的相互关系,再进行结构化加工即可显示竞争关系和上下游关系。
本发明实施例还提供一种基于关键词提取分析的企业关系计算系统,包括:文本信息获取模块、文本字数平均值计算模块、词典设定模块、短语序列提取模块、权重值计算模块和企业关联模块。
具体地,文本信息获取模块用于获取文本信息包含的段落数。
文本字数平均值计算模块,用于计算文本信息T1中每个段落的字数Cn以及所有段落的字数平均值CV,提取出Cn/CV大于等于某个阈值k的段落文字,组装成为一个新的文字段落T2。
词典设定模块,用于设置所述词典中的词语为引导词,根据设置的引导词对所述文本信息进行一次搜索,将文本中的语句在此摘录出一个新的文本T3。
短语序列提取模块,用于对所述T1、T2和T3分别提取关键短语,得到三个L1、L2和L3三个短语序列。
在本发明的一个实施例中,所述短语序列模块采用以下算法提取关键词:
TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。其中,短语序列模块采用的提取关键词的多个算法,限定只筛选出名词、动名词、和专有名词。
权重值计算模块,用于将L1、L2和L3分别设置对应的权重值a、b和c,从三个短语序列中检查出重复词语,根据重复词语出现的次数与所在序列的权重值的乘积作为得分值,不重复的词语的得分值即为所在序列的权重值。
企业关联模块,用于将企业之间共同的关键短语作为连接点连接不同的企业,以形成企业之间的关联关系。
进一步,权重值计算模块根据得分值进行排序,得到新的序列L4,作为特征词。
进一步,企业关联模块向用户提供企业之间的相互关系,再进行结构化加工即可显示竞争关系和上下游关系。
根据本发明实施例的基于关键词提取分析的企业关系计算方法及系统,根据给定的若干描述企业介绍的文本(企业介绍和企业信息),计算企业之间的关联关系。本发明先提取出文本中文字较多的段落T1,同时在全文中寻找引导词,提取出引导词周围的句子T2,提取出T1和T2中的关键短语,将企业之间共同的关键短语作为连接点连接不同的企业,形成企业之间的关联关系。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于关键词提取分析的企业关系计算方法的流程图;
图2为根据本发明实施例的基于关键词提取分析的企业关系计算系统的结构图;
图3为根据本发明实施例的企业之间的关联关系图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例的基于关键词提取分析的企业关系计算方法,包括如下步骤:
步骤S1,获取文本信息T1,并获取文本信息包含的段落数。
步骤S2,计算文本信息T1中每个段落的字数C1、C2、Cn…以及所有段落的字数平均值CV,提取出Cn/CV大于等于某个阈值k的段落文字,组装成为一个新的文字段落T2。该文字段落T2即为文字较多的段落。
在本发明的一个实施例中,阈值k对具体数值在具体工程中优化确定。
步骤S3,设定词典,并设置词典中的词语为引导词,根据设置的引导词对文本信息进行一次搜索,将文本中的语句在此摘录出一个新的文本T3。
在本发明的一个实施例中,词典为人工预先设定,词典中的词称为“引导词”。
下面对词典进行举例说明。
(某某企业)是一家集*(某某业务、某某业务为一体的某某)
(某某企业)是集*(某某业务、某某业务为一体的某某)
公司集*(某某业务、某某业务为一体)
成为集*(某某业务、某某业务为一体的某某)
(公司)专注*(某某领域、某某行业)
(公司)从事*(某某领域、某某行业)
(公司)是一家*(什么什么公司)
公司是*(什么什么公司)
我们提供*(什么什么服务)
公司提供*(什么什么服务)
我们致力于*(什么什么服务)
公司致力于*(什么什么服务)
我们从事*(什么什么服务)
公司从事*(什么什么服务)
产品覆盖*
产品线覆盖*
产品包括*
主要经营*
*核心业务*
*核心战略*
*核心产品*
*主导产品*
*高科技企业
*业务
*供应商
*提供商
*主业
需要说明的是,上述词汇中,括号内的词语是用于方便人理解阅读的,计算机会忽略掉。星号*表示让计算机提取这个词的前面还是后面的句子。词典可以在必要时重新建立并调整。
在本步骤中,根据上述引导词,对给定文本的进行一次搜索,将文本中的句子再次摘录出一个新的文本T3。从引导词*号指示的位置到底提取多少字数还是几句话在具体工程中确定。
步骤S4,对T1、T2和T3分别提取关键短语,得到三个L1、L2和L3三个短语序列。
在本发明的一个实施例中,采用以下算法提取关键词:
TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。
其中,所述提取关键词的多个算法,限定只筛选出名词、动名词、和专有名词。
步骤S5,将L1、L2和L3分别设置对应的权重值a、b和c,从三个短语序列中检查出重复词语,根据重复词语出现的次数与所在序列的权重值的乘积作为得分值,不重复的词语的得分值即为所在序列的权重值。其中,根据得分值进行排序,得到新的序列L4,作为特征词。
步骤S6,将企业之间共同的关键短语作为连接点连接不同的企业,以形成企业之间的关联关系。
如图3所示,将企业之间共同的关键短语(特征词)作为连接点连接不同的企业,形成企业之间的关联关系。通过企业间的关联关系图,可以非常方便地帮助用户快速理解企业之间的相互关系,再进行结构化加工就可以更加清晰地显示竞争关系和上下游关系。
参考图3,公司1包括特征词1、2、3、6、9;公司2包括特征词2、3、4、5、6、7;公司3包括特征词6、7、8、9。从图中,可以清楚的看出,公司1与公司2的特征词交集为特征词2和3,公司1和公司3的特征词交集为特征词6和9,公司2和3的特征词交集为特征词7。从上述公司之间的特征词关系,可以快速判断出企业之间的相互关系,并进而通过结构化加工就可以更加清晰地显示竞争关系和上下游关系。
如图2所示,本发明实施例的基于关键词提取分析的企业关系计算系统,包括:文本信息获取模块1、文本数字平均值计算模块2、词典设定模块3、短语序列提取模块4、权重值计算模块5和企业关联模块6。
具体地,文本信息获取模块1用于获取文本信息包含的段落数。
文本字数平均值计算模块2用于计算文本信息T1中每个段落的字数C1、C2、Cn…以及所有段落的字数平均值CV,提取出Cn/CV大于等于某个阈值k的段落文字,组装成为一个新的文字段落T2。该文字段落T2即为文字较多的段落。
在本发明的一个实施例中,阈值k对具体数值在具体工程中优化确定。
词典设定模块3用于设置词典中的词语为引导词,根据设置的引导词对文本信息进行一次搜索,将文本中的语句在此摘录出一个新的文本T3。
在本发明的一个实施例中,词典为人工预先设定,词典中的词称为“引导词”。
下面对词典进行举例说明。
(某某企业)是一家集*(某某业务、某某业务为一体的某某)
(某某企业)是集*(某某业务、某某业务为一体的某某)
公司集*(某某业务、某某业务为一体)
成为集*(某某业务、某某业务为一体的某某)
(公司)专注*(某某领域、某某行业)
(公司)从事*(某某领域、某某行业)
(公司)是一家*(什么什么公司)
公司是*(什么什么公司)
我们提供*(什么什么服务)
公司提供*(什么什么服务)
我们致力于*(什么什么服务)
公司致力于*(什么什么服务)
我们从事*(什么什么服务)
公司从事*(什么什么服务)
产品覆盖*
产品线覆盖*
产品包括*
主要经营*
*核心业务*
*核心战略*
*核心产品*
*主导产品*
*高科技企业
*业务
*供应商
*提供商
*主业
需要说明的是,上述词汇中,括号内的词语是用于方便人理解阅读的,计算机会忽略掉。星号*表示让计算机提取这个词的前面还是后面的句子。词典可以在必要时重新建立并调整。
根据上述引导词,对给定文本的进行一次搜索,将文本中的句子再次摘录出一个新的文本T3。从引导词*号指示的位置到底提取多少字数还是几句话在具体工程中确定。
短语序列提取模块4用于对T1、T2和T3分别提取关键短语,得到三个L1、L2和L3三个短语序列。
在本发明的一个实施例中,短语序列模块采用以下算法提取关键词:
TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。
其中,短语序列模块采用的提取关键词的多个算法,限定只筛选出名词、动名词、和专有名词。
权重值计算模块5用于将L1、L2和L3分别设置对应的权重值a、b和c,从三个短语序列中检查出重复词语,根据重复词语出现的次数与所在序列的权重值的乘积作为得分值,不重复的词语的得分值即为所在序列的权重值。其中,根据得分值进行排序,得到新的序列L4,作为特征词。
企业关联模块6用于将企业之间共同的关键短语作为连接点连接不同的企业,以形成企业之间的关联关系。
在本发明的一个实施例中,将企业之间共同的关键短语(特征词)作为连接点连接不同的企业,形成企业之间的关联关系。通过企业间的关联关系图,可以非常方便地帮助用户快速理解企业之间的相互关系,再进行结构化加工就可以更加清晰地显示竞争关系和上下游关系。
根据本发明实施例的基于关键词提取分析的企业关系计算方法及系统,根据给定的若干描述企业介绍的文本(企业介绍和企业信息),计算企业之间的关联关系。本发明先提取出文本中文字较多的段落T1,同时在全文中寻找引导词,提取出引导词周围的句子T2,提取出T1和T2中的关键短语,将企业之间共同的关键短语作为连接点连接不同的企业,形成企业之间的关联关系。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (10)
1.一种基于关键词提取分析的企业关系计算方法,其特征在于,包括如下步骤:
步骤S1,获取文本信息T1,并获取所述文本信息包含的段落数;
步骤S2,计算文本信息T1中每个段落的字数Cn以及所有段落的字数平均值CV,提取出Cn/CV大于等于某个阈值k的段落文字,组装成为一个新的文字段落T2;
步骤S3,设定词典,并设置所述词典中的词语为引导词,根据设置的引导词对所述文本信息进行一次搜索,将文本中的语句在此摘录出一个新的文本T3;
步骤S4,对所述T1、T2和T3分别提取关键短语,得到三个L1、L2和L3三个短语序列;
步骤S5,将L1、L2和L3分别设置对应的权重值a、b和c,从三个短语序列中检查出重复词语,根据重复词语出现的次数与所在序列的权重值的乘积作为得分值,不重复的词语的得分值即为所在序列的权重值;
步骤S6,将企业之间共同的关键短语作为连接点连接不同的企业,以形成企业之间的关联关系。
2.如权利要求1所述的基于关键词提取分析的企业关系计算方法,其特征在于,在所述步骤S4中,采用以下算法提取关键词:
TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。
3.如权利要求2所述的基于关键词提取分析的企业关系计算方法,其特征在于,所述提取关键词的多个算法,限定只筛选出名词、动名词、和专有名词。
4.如权利要求1所述的基于关键词提取分析的企业关系计算方法,其特征在于,在所述步骤S5中,根据得分值进行排序,得到新的序列L4,作为特征词。
5.如权利要求1所述的基于关键词提取分析的企业关系计算方法,其特征在于,向用户提供企业之间的相互关系,再进行结构化加工即可显示竞争关系和上下游关系。
6.一种基于关键词提取分析的企业关系计算系统,其特征在于,包括:
文本信息获取模块,用于获取文本信息包含的段落数;
文本字数平均值计算模块,用于计算文本信息T1中每个段落的字数Cn以及所有段落的字数平均值CV,提取出Cn/CV大于等于某个阈值k的段落文字,组装成为一个新的文字段落T2;
词典设定模块,用于设置所述词典中的词语为引导词,根据设置的引导词对所述文本信息进行一次搜索,将文本中的语句在此摘录出一个新的文本T3;
短语序列提取模块,用于对所述T1、T2和T3分别提取关键短语,得到三个L1、L2和L3三个短语序列;
权重值计算模块,用于将L1、L2和L3分别设置对应的权重值a、b和c,从三个短语序列中检查出重复词语,根据重复词语出现的次数与所在序列的权重值的乘积作为得分值,不重复的词语的得分值即为所在序列的权重值;
企业关联模块,用于将企业之间共同的关键短语作为连接点连接不同的企业,以形成企业之间的关联关系。
7.如权利要求6所述的基于关键词提取分析的企业关系计算系统,其特征在于,所述短语序列模块采用以下算法提取关键词:
TextRank算法、基于最大熵模型自动提取算法、基于决策树或基于朴素贝叶斯的机器学习方法、基于词的语义相似性度量的语言处理方法。
8.如权利要求7所述的基于关键词提取分析的企业关系计算系统,其特征在于,所述短语序列模块采用的提取关键词的多个算法,限定只筛选出名词、动名词、和专有名词。
9.如权利要求6所述的基于关键词提取分析的企业关系计算系统,其特征在于,所述权重值计算模块根据得分值进行排序,得到新的序列L4,作为特征词。
10.如权利要求6所述的基于关键词提取分析的企业关系计算系统,其特征在于,所述企业关联模块向用户提供企业之间的相互关系,再进行结构化加工即可显示竞争关系和上下游关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710354039.7A CN107341142B (zh) | 2017-05-18 | 2017-05-18 | 一种基于关键词提取分析的企业关系计算方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710354039.7A CN107341142B (zh) | 2017-05-18 | 2017-05-18 | 一种基于关键词提取分析的企业关系计算方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107341142A true CN107341142A (zh) | 2017-11-10 |
CN107341142B CN107341142B (zh) | 2020-08-21 |
Family
ID=60219902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710354039.7A Active CN107341142B (zh) | 2017-05-18 | 2017-05-18 | 一种基于关键词提取分析的企业关系计算方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341142B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256765A (zh) * | 2018-01-16 | 2018-07-06 | 前海梧桐(深圳)数据有限公司 | 不同企业间基础要素作用关系的计算方法及其系统 |
CN110110195A (zh) * | 2019-05-07 | 2019-08-09 | 宜人恒业科技发展(北京)有限公司 | 一种杂质清除方法及装置 |
CN110852090A (zh) * | 2019-11-07 | 2020-02-28 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN115934968A (zh) * | 2023-01-06 | 2023-04-07 | 广州探迹科技有限公司 | 一种产业链信息构建方法、装置以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040081951A1 (en) * | 2000-06-09 | 2004-04-29 | Michael Vigue | Work/training using an electronic infrastructure |
CN103034656A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 章节内容分层方法和装置、文章内容分层方法和装置 |
CN103699645A (zh) * | 2013-12-26 | 2014-04-02 | 中国人民银行征信中心 | 企业关联关系识别系统及其识别方法 |
CN104239660A (zh) * | 2013-06-08 | 2014-12-24 | 北京航空航天大学 | 云制造模式下基于动态本体的知识融合方法 |
CN105138652A (zh) * | 2015-08-28 | 2015-12-09 | 山东合天智汇信息技术有限公司 | 一种企业关联关系识别方法及系统 |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
-
2017
- 2017-05-18 CN CN201710354039.7A patent/CN107341142B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040081951A1 (en) * | 2000-06-09 | 2004-04-29 | Michael Vigue | Work/training using an electronic infrastructure |
CN103034656A (zh) * | 2011-09-29 | 2013-04-10 | 日立(中国)研究开发有限公司 | 章节内容分层方法和装置、文章内容分层方法和装置 |
CN104239660A (zh) * | 2013-06-08 | 2014-12-24 | 北京航空航天大学 | 云制造模式下基于动态本体的知识融合方法 |
CN103699645A (zh) * | 2013-12-26 | 2014-04-02 | 中国人民银行征信中心 | 企业关联关系识别系统及其识别方法 |
CN105138652A (zh) * | 2015-08-28 | 2015-12-09 | 山东合天智汇信息技术有限公司 | 一种企业关联关系识别方法及系统 |
CN105512245A (zh) * | 2015-11-30 | 2016-04-20 | 青岛智能产业技术研究院 | 一种基于回归模型建立企业画像的方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256765A (zh) * | 2018-01-16 | 2018-07-06 | 前海梧桐(深圳)数据有限公司 | 不同企业间基础要素作用关系的计算方法及其系统 |
CN110110195A (zh) * | 2019-05-07 | 2019-08-09 | 宜人恒业科技发展(北京)有限公司 | 一种杂质清除方法及装置 |
CN110852090A (zh) * | 2019-11-07 | 2020-02-28 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN110852090B (zh) * | 2019-11-07 | 2024-03-19 | 中科天玑数据科技股份有限公司 | 一种用于舆情爬取的机构特征词汇扩展系统和方法 |
CN115934968A (zh) * | 2023-01-06 | 2023-04-07 | 广州探迹科技有限公司 | 一种产业链信息构建方法、装置以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107341142B (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107402913B (zh) | 先行词的确定方法和装置 | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN107341142A (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
CN104881402B (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN110377724A (zh) | 一种基于数据挖掘的语料库关键词自动抽取算法 | |
CN108959383A (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN104978314B (zh) | 媒体内容推荐方法及装置 | |
CN106815207B (zh) | 用于法律裁判文书的信息处理方法及装置 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN105718586A (zh) | 分词的方法及装置 | |
Rizki et al. | Comparison of stemming algorithms on Indonesian text processing | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN101833579B (zh) | 一种自动检测学术不端文献的方法及系统 | |
CN110929520B (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN110458296B (zh) | 目标事件的标记方法和装置、存储介质及电子装置 | |
CN104462268B (zh) | 一种html文档信息抽取表达式的方法及系统 | |
CN108549697A (zh) | 基于语义关联的信息推送方法、装置、设备以及存储介质 | |
CN107577663A (zh) | 一种关键短语抽取方法和装置 | |
CN103793371B (zh) | 一种新闻文本情绪倾向分析方法 | |
CN109815499A (zh) | 信息关联方法和系统 | |
JP6237639B2 (ja) | 情報抽出システム、情報抽出方法および情報抽出用プログラム | |
CN106528731A (zh) | 一种敏感词过滤方法及系统 | |
Lee et al. | Construction of event networks from large news data using text mining techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |