CN108615124B - 基于词频分析的企业评价方法及系统 - Google Patents

基于词频分析的企业评价方法及系统 Download PDF

Info

Publication number
CN108615124B
CN108615124B CN201810451256.2A CN201810451256A CN108615124B CN 108615124 B CN108615124 B CN 108615124B CN 201810451256 A CN201810451256 A CN 201810451256A CN 108615124 B CN108615124 B CN 108615124B
Authority
CN
China
Prior art keywords
enterprise
word
word frequency
evaluated
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810451256.2A
Other languages
English (en)
Other versions
CN108615124A (zh
Inventor
鹿峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wotou Network Technology Co ltd
Original Assignee
Beijing Wotou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wotou Network Technology Co ltd filed Critical Beijing Wotou Network Technology Co ltd
Priority to CN201810451256.2A priority Critical patent/CN108615124B/zh
Publication of CN108615124A publication Critical patent/CN108615124A/zh
Application granted granted Critical
Publication of CN108615124B publication Critical patent/CN108615124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于词频分析的企业评价方法及系统,该方法包括:步骤S1、对多个留存企业以及多个放弃企业分别执行以下操作:进行企业信息检索,根据保存的检索结果得到企业的词袋模型;步骤S2、确定留存企业的词汇词频表及放弃企业的词汇词频表;步骤S3、形成共有词汇词频表,形成共有词汇词频商表;步骤S4、将共有词汇词频商表中的词汇分成若干种评分类别;步骤S5、对待评价企业执行以下操作:进行企业信息检索,根据保存的检索结果得到企业的词袋模型;步骤S6、确定待评价企业在每一种评分类别上的分数;步骤S7、对待评价企业进行评价。本发明在企业的真实财务数据无法获取的情况下,能够批量、快速的对企业进行评价。

Description

基于词频分析的企业评价方法及系统
技术领域
本发明涉及信息技术领域,具体涉及一种基于词频分析的企业评价方法及系统。
背景技术
企业评价一般从管理与经营情况、财务状况、成长能力等方面进行评价,从而形成企业的量化评分体系,对企业进行量化评价。
目前国内一级市场的企业的量化评分体系,在获取企业各方面分数时,存在以下问题:财务数据无法获取,或获取的数据不真实、不完整;企业的管理和经营情况受市场环境等各方面因素影响,很难对企业进行批量、快速的评价。
发明内容
本发明的目的在于提供一种基于词频分析的企业评价方法及系统,在企业的真实财务数据无法获取的情况下,能够批量、快速的对企业进行评价。
为实现上述目的,本发明的技术方案提供了一种基于词频分析的企业评价方法,包括:
步骤S1、对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
步骤S2、将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表A1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表A2;
步骤S3、提取所述词汇词频表A1和所述词汇词频表A2中共有的词汇,形成共有词汇词频表B1,然后从所述共有词汇词频表B1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表B2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表A1中的词频与其在所述词汇词频表A2中的词频之商;
步骤S4、将共有词汇词频商表B2中的词汇分成若干种评分类别;
步骤S5、对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
步骤S6、根据所述共有词汇词频商表B2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
步骤S7、根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价。
进一步地,所述根据该保存的检索结果得到企业的词袋模型包括:
去除该保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;
对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
进一步地,所述对每一个剩余的检索结果进行预处理包括:
对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
进一步地,所述步骤S6包括:
对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表B2中该评分类别的词汇,若否,则确定所述待评价企业在该评分类别的分数为预设的初始分数K,若是,采用以下方式计算所述待评价企业在该评分类别的分数M:
Figure BDA0001658517670000021
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表B2中该评分类别的词汇的数量,Li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
进一步地,所述步骤S7包括:
计算所述待评价企业在所述若干种评分类别上的分数的平均值;
判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
为实现上述目的,本发明的技术方案还提供了一种基于词频分析的企业评价系统,包括:
第一处理模块,用于对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
第二处理模块,用于将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表A1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表A2;
第三处理模块,用于提取所述词汇词频表A1和所述词汇词频表A2中共有的词汇,形成共有词汇词频表B1,然后从所述共有词汇词频表B1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表B2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表A1中的词频与其在所述词汇词频表A2中的词频之商;
分类模块,用于将共有词汇词频商表B2中的词汇分成若干种评分类别;
第四处理模块,用于对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
分数确定模块,用于根据所述共有词汇词频商表B2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
评价模块,用于根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价。
进一步地,所述第一处理模块以及所述第四处理模块根据保存的检索结果得到企业的词袋模型的方式包括:
去除保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;
对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
进一步地,所述第一处理模块以及所述第四处理模块对每一个剩余的检索结果进行预处理的方式包括:
对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
进一步地,所述分数确定模块包括:
判断单元,用于对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表B2中该评分类别的词汇;
分数计算单元,用于若所述判断单元的判断结果为否,则确定所述待评价企业在该评分类别的分数为预设的初始分数K,若所述判断单元的判断结果为是,采用以下方式计算所述待评价企业在该评分类别的分数M:
Figure BDA0001658517670000041
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表B2中该评分类别的词汇的数量,Li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
进一步地,所述评价模块包括:
平均值计算单元,用于计算所述待评价企业在所述若干种评分类别上的分数的平均值;
处理单元,用于判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
本发明提供的基于词频分析的企业评价方法,在企业的真实财务数据无法获取的情况下,能够批量、快速的对企业进行评价。
附图说明
图1是本发明实施方式提供的一种基于词频分析的企业评价方法的流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参见图1,图1是本发明实施方式提供的一种基于词频分析的企业评价方法的流程图,该基于词频分析的企业评价方法包括:
步骤S1、对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
其中,上述留存企业可以为用户认为的自身需要的企业,如可以是用户认为的优秀企业,上述放弃企业可以为用户认为的自身不需要的企业,如可以是用户认为的一般企业;
例如,可以将已有企业按需要进行分类:留存企业和放弃企业,然后以企业名称的全称为关键词,采用爬虫技术,在搜索引擎中检索企业信息,并将得到的前两页检索结果页面中的检索结果(每一个检索结果为一篇文章)保存下来;
步骤S2、将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表A1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表A2;
通过将上述所有的留存企业的词汇进行合并,并计算每个词汇的词频,从而得到留存企业的词汇词频表A1;同样,通过将上述所有放弃企业的词汇进行合并,并计算每个词汇的词频,得到放弃企业的词汇词频表A2;
步骤S3、提取所述词汇词频表A1和所述词汇词频表A2中共有的词汇,形成共有词汇词频表B1,然后从所述共有词汇词频表B1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表B2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表A1中的词频与其在所述词汇词频表A2中的词频之商;
具体地,首先提取两个词频表A1和A2共有的词汇,组成新的共有词汇词频表B1,然后从词汇词频表B1选取若干个对企业评价有价值的词汇,选取的方式可以采用人工方式(如人工标注)进行选取,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表B2,其中:
词汇的词频商=该词汇在A1中的词频/该词汇在A2中的词频;
步骤S4、将共有词汇词频商表B2中的词汇分成若干种评分类别;
例如,可以按照预设的分类规则对共有词汇词频商表B2中的词汇进行分类,分类为:市场前景、行业前景、技术、团队、规模、声誉;
步骤S5、对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
例如,可以以待评价企业的企业名称的全称为关键词,采用爬虫技术,在搜索引擎中检索企业信息,并将得到的前两页检索结果页面中的检索结果(每一个检索结果为一篇文章)保存下来;
步骤S6、根据所述共有词汇词频商表B2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
步骤S7、根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价,例如,具体评价方式如下:计算所述待评价企业在所述若干种评分类别上的分数的平均值;判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
本发明实施方式提供的基于词频分析的企业评价方法,在企业的真实财务数据无法获取的情况下,能够批量、快速的对企业进行评价。
其中,在本发明实施方式中,步骤S1和步骤S5可以同时进行,也可以先执行步骤S1,后执行步骤S5,也可以先执行步骤S5,后执行步骤S1,本发明对此不作具体限定。
其中,在本发明实施方式中,在上述的步骤S1和S5中,所述根据该保存的检索结果得到企业的词袋模型包括:
步骤A:去除该保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值,例如,为防止信息冗余,当两篇文章的编辑距离太近时(即小于或等于预设距离阈值),删除其中的任意一篇;
步骤B:对每一个剩余的检索结果进行预处理,得到企业的词袋模型,具体地,该预处理包括:对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇(同一个企业的词袋模型中不包含两个相同的词汇),得到企业的词袋模型;
例如,首先对文章进行分词,并去除纯数字、日期,将英文都转成小写形式,当企业信息中词汇有重复时,去除重复词汇,得到每个企业的词袋模型。
其中,在本发明实施方式中,所述步骤S6可以包括:
对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表B2中该评分类别的词汇,若否,则确定所述待评价企业在该评分类别的分数为预设的初始分数K,若是,采用以下方式计算所述待评价企业在该评分类别的分数M:
Figure BDA0001658517670000071
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表B2中该评分类别的词汇的数量,Li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
例如,设置初始分数K为100分,将待评价企业的词袋模型C1与共有词汇词频商表B2的词汇进行对比,当词袋模型C1中的词汇W同时属于B2时,且根据W在B2中的评分类别,计算待评价企业在每个评分类别上的分数,其中,对于每一种评分类别,若待评价企业的词袋模型包含共有词汇词频商表B2中该评分类别的词汇,则采用上述公式计算待评价企业在该评分类别的分数,若待评价企业的词袋模型未包含共有词汇词频商表B2中该评分类别的任何词汇(也即B2中该评分类别中的词汇不包含C1中的任一词汇),则待评价企业在该评分类别的分数为初始分数100。
本发明提供的基于词频分析的企业评价方法,在真实财务数据无法获取的情况,能够对企业的六个维度:市场前景、行业前景、技术、团队、规模、声誉,作出快速评价,尤其针对一级市场的企业,能够实现个性化的批量评价,对企业质量进行有效量化。
此外,本发明实施方式还提供了一种基于词频分析的企业评价系统,包括:
第一处理模块,用于对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
第二处理模块,用于将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表A1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表A2;
第三处理模块,用于提取所述词汇词频表A1和所述词汇词频表A2中共有的词汇,形成共有词汇词频表B1,然后从所述共有词汇词频表B1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表B2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表A1中的词频与其在所述词汇词频表A2中的词频之商;
分类模块,用于将共有词汇词频商表B2中的词汇分成若干种评分类别;
第四处理模块,用于对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;
分数确定模块,用于根据所述共有词汇词频商表B2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;
评价模块,用于根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价。
其中,在本发明实施方式中,所述第一处理模块以及所述第四处理模块根据保存的检索结果得到企业的词袋模型的方式包括:
去除保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;
对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
其中,在本发明实施方式中,所述第一处理模块以及所述第四处理模块对每一个剩余的检索结果进行预处理的方式包括:
对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
其中,在本发明实施方式中,所述分数确定模块包括:
判断单元,用于对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表B2中该评分类别的词汇;
分数计算单元,用于若所述判断单元的判断结果为否,则确定所述待评价企业在该评分类别的分数为预设的初始分数K,若所述判断单元的判断结果为是,采用以下方式计算所述待评价企业在该评分类别的分数M:
Figure BDA0001658517670000091
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表B2中该评分类别的词汇的数量,Li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
其中,在本发明实施方式中,所述评价模块包括:
平均值计算单元,用于计算所述待评价企业在所述若干种评分类别上的分数的平均值;
处理单元,用于判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种基于词频分析的企业评价方法,其特征在于,包括:步骤S1、对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;步骤S2、将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表A1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表A2;步骤S3、提取所述词汇词频表A1和所述词汇词频表A2中共有的词汇,形成共有词汇词频表B1,然后从所述共有词汇词频表B1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表B2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表A1中的词频与其在所述词汇词频表A2中的词频之商;步骤S4、将共有词汇词频商表B2中的词汇分成若干种评分类别;步骤S5、对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;步骤S6、根据所述共有词汇词频商表B2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;步骤S7、根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价;
所述步骤S6包括:对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表B2中该评分类别的词汇,若否,则确定所述待评价企业在该评分类别的分数为预设的初始分数K,若是,采用以下方式计算所述待评价企业在该评分类别的分数M:
Figure FDA0003314701620000021
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表B2中该评分类别的词汇的数量,Li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
2.根据权利要求1所述的基于词频分析的企业评价方法,其特征在于,所述根据该保存的检索结果得到企业的词袋模型包括:去除该保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
3.根据权利要求2所述的基于词频分析的企业评价方法,其特征在于,所述对每一个剩余的检索结果进行预处理包括:对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
4.根据权利要求1所述的基于词频分析的企业评价方法,其特征在于,所述步骤S7包括:计算所述待评价企业在所述若干种评分类别上的分数的平均值;判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
5.一种基于词频分析的企业评价系统,其特征在于,包括:第一处理模块,用于对多个留存企业以及多个放弃企业中的每一个企业分别执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;第二处理模块,用于将所述多个留存企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到留存企业的词汇词频表A1,将所述多个放弃企业的词袋模型进行合并,并计算其中每一个词汇的词频,得到放弃企业的词汇词频表A2;第三处理模块,用于提取所述词汇词频表A1和所述词汇词频表A2中共有的词汇,形成共有词汇词频表B1,然后从所述共有词汇词频表B1中选取若干个词汇,并计算每一个所述选取的词汇的词频商,形成共有词汇词频商表B2,其中,对于每一个所述选取的词汇,其词频商为其在所述词汇词频表A1中的词频与其在所述词汇词频表A2中的词频之商;分类模块,用于将共有词汇词频商表B2中的词汇分成若干种评分类别;第四处理模块,用于对待评价企业执行以下操作:根据企业名称进行企业信息检索,并将检索得到的前预设个数的检索结果进行保存,然后根据该保存的检索结果得到企业的词袋模型;分数确定模块,用于根据所述共有词汇词频商表B2以及所述待评价企业的词袋模型确定所述待评价企业在每一种所述评分类别上的分数;评价模块,用于根据所述待评价企业在每一种所述评分类别上的分数对所述待评价企业进行评价;
所述分数确定模块包括:判断单元,用于对于每一种所述评分类别,判断所述待评价企业的词袋模型是否包含所述共有词汇词频商表B2中该评分类别的词汇;分数计算单元,用于若所述判断单元的判断结果为否,则确定所述待评价企业在该评分类别的分数为预设的初始分数K,若所述判断单元的判断结果为是,采用以下方式计算所述待评价企业在该评分类别的分数M:
Figure FDA0003314701620000041
其中,n为所述待评价企业的词袋模型包含所述共有词汇词频商表B2中该评分类别的词汇的数量,Li为所述待评价企业的词袋模型包含的该评分类别的词汇中第i个词汇的词频商。
6.根据权利要求5所述的基于词频分析的企业评价系统,其特征在于,所述第一处理模块以及所述第四处理模块根据保存的检索结果得到企业的词袋模型的方式包括:去除保存的检索结果中冗余的检索结果,使剩余的检索结果中任意两个检索结果之间的编辑距离均大于预设距离阈值;对每一个剩余的检索结果进行预处理,得到企业的词袋模型。
7.根据权利要求6所述的基于词频分析的企业评价系统,其特征在于,所述第一处理模块以及所述第四处理模块对每一个剩余的检索结果进行预处理的方式包括:对每一个剩余的检索结果依次进行分词处理和清洗处理,并将英文字母统一为小写形式,之后去除重复的词汇,得到企业的词袋模型。
8.根据权利要求5所述的基于词频分析的企业评价系统,其特征在于,所述评价模块包括:平均值计算单元,用于计算所述待评价企业在所述若干种评分类别上的分数的平均值;处理单元,用于判断所述平均值是否低于预设评分阈值,若是,则放弃所述待评价企业,若否,则保留所述待评价企业。
CN201810451256.2A 2018-05-11 2018-05-11 基于词频分析的企业评价方法及系统 Active CN108615124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810451256.2A CN108615124B (zh) 2018-05-11 2018-05-11 基于词频分析的企业评价方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810451256.2A CN108615124B (zh) 2018-05-11 2018-05-11 基于词频分析的企业评价方法及系统

Publications (2)

Publication Number Publication Date
CN108615124A CN108615124A (zh) 2018-10-02
CN108615124B true CN108615124B (zh) 2022-02-01

Family

ID=63663043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810451256.2A Active CN108615124B (zh) 2018-05-11 2018-05-11 基于词频分析的企业评价方法及系统

Country Status (1)

Country Link
CN (1) CN108615124B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079428B (zh) * 2019-12-27 2023-09-19 北京羽扇智信息科技有限公司 一种分词和行业词典构建方法、装置以及可读存储介质
CN117078054B (zh) * 2023-06-07 2024-04-05 科学技术部火炬高技术产业开发中心 一种科技型企业创新能力量化评估方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107292477A (zh) * 2016-04-13 2017-10-24 上海斯睿德信息技术有限公司 一种基于公司经营健康状况的信用评估方法
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005041094A1 (ja) * 2003-10-23 2005-05-06 Intellectual Property Bank Corp. 企業評価装置並びに企業評価プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292477A (zh) * 2016-04-13 2017-10-24 上海斯睿德信息技术有限公司 一种基于公司经营健康状况的信用评估方法
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
CN107818153A (zh) * 2017-10-27 2018-03-20 中航信移动科技有限公司 数据分类方法和装置
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于编辑距离的中文机构名简称检索方法研究》;赵亚慧;《内蒙古科技与经济》;20100430(第209期);第三段、正文第2、3节 *

Also Published As

Publication number Publication date
CN108615124A (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN106095996B (zh) 用于文本分类的方法
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN104834651B (zh) 一种提供高频问题回答的方法和装置
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN107833059B (zh) 客服的服务质量评价方法与系统
JP2005222532A5 (zh)
CN112463971B (zh) 一种基于层级组合模型的电商商品分类方法及系统
US20060085405A1 (en) Method for analyzing and classifying electronic document
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
CN109960727B (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN115062148B (zh) 一种基于数据库的风险控制方法
CN110866102A (zh) 检索处理方法
CN110597978A (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN108615124B (zh) 基于词频分析的企业评价方法及系统
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN111104483A (zh) 基于机器学习的ict系统故障分析及辅助判别方法
CN110955767A (zh) 一种机器人对话系统中生成意图候选集列表集合的算法及装置
CN107480126B (zh) 一种工程材料类别智能识别方法
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN115310869B (zh) 一种督查事项的联合督查方法、系统、设备以及存储介质
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN115599906A (zh) 基于知识图谱的工程机械产品软件人员推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant