CN111814486A - 一种基于语义分析的企业客户标签生成方法、系统及装置 - Google Patents
一种基于语义分析的企业客户标签生成方法、系统及装置 Download PDFInfo
- Publication number
- CN111814486A CN111814486A CN202010660279.1A CN202010660279A CN111814486A CN 111814486 A CN111814486 A CN 111814486A CN 202010660279 A CN202010660279 A CN 202010660279A CN 111814486 A CN111814486 A CN 111814486A
- Authority
- CN
- China
- Prior art keywords
- word
- frequency
- document
- inverse document
- semantic analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义分析的企业客户标签生成方法,所述方法包括:采用HMM算法对输入文档进行分词;计算文档中每个词的词频‑逆文档频率;根据所述词频‑逆文档频率进行关键词提取;将分词结果和关键词结果组成待摘要内容;计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);根据每个词的条件概率选择所需的词,生成标签。本发明有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等,便于企业管理人员把握经营活动要素,也便于企业客户快速检索。
Description
技术领域
本发明属于大数据处理技术领域,特别涉及一种基于语义分析的企业客户标签生成方法、系统及装置。
背景技术
目前,企业中90%的数据都是以非结构化的形式存在,从而导致文本数据管理困难,不能有效的识别非结构化文本,影响了企业形象以及企业业务展示的直观形象。
因此,亟需一种通过非结构化文本识别构建企业标签图谱的方法来解决上述问题。
发明内容
针对上述问题,本发明提供了一种基于语义分析的企业客户标签生成方法,所述方法包括:
采用HMM算法对输入文档进行分词;
计算文档中每个词的词频-逆文档频率;
根据所述词频-逆文档频率进行关键词提取;
将分词结果和关键词结果组成待摘要内容;
计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
根据每个词的条件概率选择所需的词,生成标签。
进一步地,所述采用HMM算法对输入文档进行分词包括:
对专业词汇及命名实体进行词典收录,用统计学知识结合词典进行分词。
进一步地,所述采用HMM算法对输入文档进行分词还包括:
以“BEMS”组成的序列串作为输出,然后进行切词,得到输入文档的划分结果;
其中,B代表该字是词中的起始字,M代表该字是词中的中间字,E代表该字是词中的结束字,S代表该字是单字成词。
进一步地,所述计算文档中每个词的词频-逆文档频率,包括:
统计文档内的高词语频率,以及所述词在整个文档集合中的逆文档频率,得出高权重的词频-逆文档频率;
其中,词频=所述词在文档中的出现次数/所述文档的总词数;
逆文档频率=log(文档总数/(出现所述词的文档数+1));
词频-逆文档频率=词频*逆文档频率。
进一步地,所述词频的数学公式表示如下:
所述逆文档频率的数学公式表示如下:
所述词频-逆文档频率的数学公式表示如下:
TF-IDFi,j=TFi,j*IDFi
其中,TF代表词频,IDF代表逆文档频率,TF-IDF代表词频-逆文档频率,D代表预料库中文档总数,J代表包含该词的文档数。
进一步地,所述根据所述词频-逆文档频率进行关键词提取,具体为:
计算文档中每个词的所述词频-逆文档频率,按照降序排序,选择前N个作为关键词。
进一步地,所述根据每个词的条件概率选择所需的词,生成标签,具体为:
预先设定阈值;
选择概率大于所述阈值的词;
按概率值从大到小依次选择所需的词,生成标签。
本发明还提供了一种基于语义分析的企业客户标签生成系统,所述系统包括:
分词单元,用于采用HMM算法对输入文档进行分词;
第一计算单元,用于计算文档中每个词的词频-逆文档频率;
关键词提取单元,用于根据所述词频-逆文档频率进行关键词提取;
组合单元,用于将分词结果和关键词结果组成待摘要内容;
第二计算单元,用于计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
标签单元,用于根据每个词的条件概率选择所需的词,生成标签。
本发明还提供了一种基于语义分析的企业客户标签生成装置,所述装置包括至少一个处理器以及至少一个存储器;
所述存储器存储执行上述方法的计算机程序,所述处理器调用存储器中的所述计算机程序以执行上述方法。
本发明通过对原始文档分别进行分词和关键词提取,然后将分词结果和关键词结果进行合并,形成待摘要,缩小了数据的处理范围,最后通过计算待摘要中每个词的概率,按照概率从大到小的顺序依次排列生成标签,按照本发明实施例对企业大数据进行处理,有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等,便于企业管理人员把握经营活动要素,也便于企业客户快速检索。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的基于语义分析的企业客户标签生成方法流程图;
图2示出了本发明实施例的基于语义分析的企业客户标签生成系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于语义分析的企业客户标签生成方法,示例性的,图1示出了本发明实施例的基于语义分析的企业客户标签生成方法流程图,如图1所示,所述方法包括如下步骤:
步骤一:采用HMM算法对输入文档进行分词。
具体的,对专业词汇及命名实体进行词典收录,用统计学知识结合词典进行分词。以“BEMS”组成的序列串作为输出,然后进行切词,得到输入文档的划分结果,其中,B代表该字是词中的起始字,M代表该字是词中的中间字,E代表该字是词中的结束字,S代表该字是单字成词。
示例性的,原始文档为“这本介绍深度学习的书,内容很丰富,讲解的也很有深度,物流也非常给力”,采用HMM算法,以“BEMS”字符对该原始文档进行标注,标注的结果为“S/S/BE/BE/BE/S/S/,/BE/S/BE/,/BE/S/S/S/S/BE,/BE/S/BE/S/S”。
当引用IT词典后,“深度”和“学习”这两个单独的词将被组合为一个词“深度学习”;
当引用常用短语词典后,“给”和“力”这两个单独的字将被组合为一个词“给力”。
步骤二:计算文档中每个词的词频-逆文档频率。
具体的,统计文档内的高词语频率,以及所述词在整个文档集合中的逆文档频率,得出高权重的词频-逆文档频率(TF-IDF),从而过滤掉常见的词语,保留重要的词语;
其中,词频(TF)=所述词在文档中的出现次数/所述文档的总词数,数学公式如下:
逆文档频率(IDF)=log(文档总数/(出现所述词的文档数+1))(此处加1是为了防止除数为零),数学公式如下:
词频-逆文档频率(TF-IDF)=词频*逆文档频率,数学公式如下:
TF-IDFi,j=TFi,j*IDFi
其中,TF代表词频,IDF代表逆文档频率,TF-IDF代表词频-逆文档频率,D代表预料库中文档总数,J代表包含该词的文档数。
步骤三:根据所述词频-逆文档频率进行关键词提取。
具体的,计算文档中每个词的所述词频-逆文档频率,按照降序排序,选择前N个作为关键词。
步骤四:将分词结果和关键词结果组成待摘要内容。
步骤五:计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容)。
步骤六:根据每个词的条件概率选择所需的词,生成标签。
具体的,在待摘要内容里,将词表中每一个词的概率值都算出来,根据预先设定的阈值,比如阈值为10,则取出概率大于10的词,按概率值从大到小的顺序依次生成摘要中的所有词,形成标签。
示例性的,原始文本为“中新网2月20日电综合消息,今日起,全国多地将迎大范围雨雪降温天气,气温将‘跳崖式’下跌。其中,新疆、西北地区东部、西南地区东部、华北中南部、黄淮、江淮、江汉、江南、华南北部等地气温将下降8℃以上,部分地区超过12℃”,进行分词,得到分词文本“中新网综合消息今日全国多地将迎大范围雨雪降温天气气温跳崖式下跌其中新疆西北地区东部西南地区东部华北中南黄淮江淮江汉江南华南北部等地气温下降部分地区超过”,进行关键词提取,得到关键词文本“今日全国多地将迎大范围雨雪降温天气气温跳崖式下跌”。最后,将分词文本和关键词文本组成待摘要内容,计算待摘要内容中每个词的条件概率,按概率值从大到小依次选择所需的词,形成标签文本“全国多地将迎大范围雨雪降温天气”。
本发明还提供了一种基于语义分析的企业客户标签生成系统,如图2所示,所述系统包括分词单元、第一计算单元、关键词提取单元、组合单元、第二计算单元和标签单元。其中,分词单元采用HMM算法对输入文档进行分词,得到分词结果,并将分词结果发送给组合单元;第一计算单元计算文档中每个词的词频-逆文档频率;关键词提取单元根据所述词频-逆文档频率进行关键词提取,得到关键词结果,并将关键词结果发送给组合单元;组合单元将分词结果和关键词结果组成待摘要内容;第二计算单元计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);最后,标签单元根据每个词的条件概率选择所需的词,生成标签。
本发明还提供了一种基于语义分析的企业客户标签生成装置,所述装置包括至少一个处理器以及至少一个存储器;所述存储器存储执行上述方法的计算机程序,所述处理器调用存储器中的所述计算机程序以执行上述方法。
本发明通过对原始文档分别进行分词和关键词提取,然后将分词结果和关键词结果进行合并,形成待摘要,缩小了数据的处理范围,最后通过计算待摘要中每个词的概率,按照概率从大到小的顺序依次排列生成标签,按照本发明实施例对企业大数据进行处理,有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等,便于企业管理人员把握经营活动要素,也便于企业客户快速检索。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于语义分析的企业客户标签生成方法,其特征在于,所述方法包括:
采用HMM算法对输入文档进行分词;
计算文档中每个词的词频-逆文档频率;
根据所述词频-逆文档频率进行关键词提取;
将分词结果和关键词结果组成待摘要内容;
计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
根据每个词的条件概率选择所需的词,生成标签。
2.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述采用HMM算法对输入文档进行分词包括:
对专业词汇及命名实体进行词典收录,用统计学知识结合词典进行分词。
3.根据权利要求2所述的基于语义分析的企业客户标签生成方法,其特征在于,所述采用HMM算法对输入文档进行分词还包括:
以“BEMS”组成的序列串作为输出,然后进行切词,得到输入文档的划分结果;
其中,B代表该字是词中的起始字,M代表该字是词中的中间字,E代表该字是词中的结束字,S代表该字是单字成词。
4.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述计算文档中每个词的词频-逆文档频率,包括:
统计文档内的高词语频率,以及所述词在整个文档集合中的逆文档频率,得出高权重的词频-逆文档频率;
其中,词频=所述词在文档中的出现次数/所述文档的总词数;
逆文档频率=log(文档总数/(出现所述词的文档数+1));
词频-逆文档频率=词频*逆文档频率。
6.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述根据所述词频-逆文档频率进行关键词提取,具体为:
计算文档中每个词的所述词频-逆文档频率,按照降序排序,选择前N个作为关键词。
7.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述根据每个词的条件概率选择所需的词,生成标签,具体为:
预先设定阈值;
选择概率大于所述阈值的词;
按概率值从大到小依次选择所需的词,生成标签。
8.一种基于语义分析的企业客户标签生成系统,其特征在于,所述系统包括:
分词单元,用于采用HMM算法对输入文档进行分词;
第一计算单元,用于计算文档中每个词的词频-逆文档频率;
关键词提取单元,用于根据所述词频-逆文档频率进行关键词提取;
组合单元,用于将分词结果和关键词结果组成待摘要内容;
第二计算单元,用于计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
标签单元,用于根据每个词的条件概率选择所需的词,生成标签。
9.一种基于语义分析的企业客户标签生成装置,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;
所述存储器存储执行权利要求1-7任一项所述方法的计算机程序,所述处理器调用存储器中的所述计算机程序以执行权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660279.1A CN111814486A (zh) | 2020-07-10 | 2020-07-10 | 一种基于语义分析的企业客户标签生成方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660279.1A CN111814486A (zh) | 2020-07-10 | 2020-07-10 | 一种基于语义分析的企业客户标签生成方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814486A true CN111814486A (zh) | 2020-10-23 |
Family
ID=72841679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010660279.1A Pending CN111814486A (zh) | 2020-07-10 | 2020-07-10 | 一种基于语义分析的企业客户标签生成方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814486A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065343A (zh) * | 2021-03-25 | 2021-07-02 | 天津大学 | 一种基于语义的企业研发资源信息建模方法 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN114780668A (zh) * | 2022-04-22 | 2022-07-22 | 盐城金堤科技有限公司 | 业务标签的生成方法及其装置、计算机存储介质、电子终端 |
-
2020
- 2020-07-10 CN CN202010660279.1A patent/CN111814486A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065343A (zh) * | 2021-03-25 | 2021-07-02 | 天津大学 | 一种基于语义的企业研发资源信息建模方法 |
CN113065343B (zh) * | 2021-03-25 | 2022-06-10 | 天津大学 | 一种基于语义的企业研发资源信息建模方法 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113743107B (zh) * | 2021-08-30 | 2024-06-21 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN114780668A (zh) * | 2022-04-22 | 2022-07-22 | 盐城金堤科技有限公司 | 业务标签的生成方法及其装置、计算机存储介质、电子终端 |
CN114780668B (zh) * | 2022-04-22 | 2024-04-09 | 盐城天眼察微科技有限公司 | 业务标签的生成方法及其装置、计算机存储介质、电子终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
US9779388B1 (en) | Disambiguating organization names | |
CN111814486A (zh) | 一种基于语义分析的企业客户标签生成方法、系统及装置 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机系统及可读存储介质 | |
CN111753086A (zh) | 一种垃圾邮件识别方法和装置 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN112559747B (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN111625647B (zh) | 一种无监督的新闻自动分类方法 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN114970540A (zh) | 训练文本审核模型的方法和装置 | |
CN107832307B (zh) | 基于无向图与单层神经网络的中文分词方法 | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
CN110413770B (zh) | 将群消息归类到群话题的方法及装置 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN111555960A (zh) | 信息生成的方法 | |
Khan et al. | Urdu sentiment analysis | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
US11328218B1 (en) | Identifying subjective attributes by analysis of curation signals | |
CN113157857B (zh) | 面向新闻的热点话题检测方法、装置及设备 | |
Kang et al. | Sentiment analysis on Malaysian airlines with BERT | |
Makinist et al. | Preparation of improved Turkish dataset for sentiment analysis in social media | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN110705287B (zh) | 一种用于文本摘要的生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |