CN111814486A - 一种基于语义分析的企业客户标签生成方法、系统及装置 - Google Patents

一种基于语义分析的企业客户标签生成方法、系统及装置 Download PDF

Info

Publication number
CN111814486A
CN111814486A CN202010660279.1A CN202010660279A CN111814486A CN 111814486 A CN111814486 A CN 111814486A CN 202010660279 A CN202010660279 A CN 202010660279A CN 111814486 A CN111814486 A CN 111814486A
Authority
CN
China
Prior art keywords
word
frequency
document
inverse document
semantic analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010660279.1A
Other languages
English (en)
Inventor
杜治国
吴敏
高航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Group Shanghai Co ltd
Neusoft Corp
Original Assignee
Neusoft Group Shanghai Co ltd
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Group Shanghai Co ltd, Neusoft Corp filed Critical Neusoft Group Shanghai Co ltd
Priority to CN202010660279.1A priority Critical patent/CN111814486A/zh
Publication of CN111814486A publication Critical patent/CN111814486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义分析的企业客户标签生成方法,所述方法包括:采用HMM算法对输入文档进行分词;计算文档中每个词的词频‑逆文档频率;根据所述词频‑逆文档频率进行关键词提取;将分词结果和关键词结果组成待摘要内容;计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);根据每个词的条件概率选择所需的词,生成标签。本发明有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等,便于企业管理人员把握经营活动要素,也便于企业客户快速检索。

Description

一种基于语义分析的企业客户标签生成方法、系统及装置
技术领域
本发明属于大数据处理技术领域,特别涉及一种基于语义分析的企业客户标签生成方法、系统及装置。
背景技术
目前,企业中90%的数据都是以非结构化的形式存在,从而导致文本数据管理困难,不能有效的识别非结构化文本,影响了企业形象以及企业业务展示的直观形象。
因此,亟需一种通过非结构化文本识别构建企业标签图谱的方法来解决上述问题。
发明内容
针对上述问题,本发明提供了一种基于语义分析的企业客户标签生成方法,所述方法包括:
采用HMM算法对输入文档进行分词;
计算文档中每个词的词频-逆文档频率;
根据所述词频-逆文档频率进行关键词提取;
将分词结果和关键词结果组成待摘要内容;
计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
根据每个词的条件概率选择所需的词,生成标签。
进一步地,所述采用HMM算法对输入文档进行分词包括:
对专业词汇及命名实体进行词典收录,用统计学知识结合词典进行分词。
进一步地,所述采用HMM算法对输入文档进行分词还包括:
以“BEMS”组成的序列串作为输出,然后进行切词,得到输入文档的划分结果;
其中,B代表该字是词中的起始字,M代表该字是词中的中间字,E代表该字是词中的结束字,S代表该字是单字成词。
进一步地,所述计算文档中每个词的词频-逆文档频率,包括:
统计文档内的高词语频率,以及所述词在整个文档集合中的逆文档频率,得出高权重的词频-逆文档频率;
其中,词频=所述词在文档中的出现次数/所述文档的总词数;
逆文档频率=log(文档总数/(出现所述词的文档数+1));
词频-逆文档频率=词频*逆文档频率。
进一步地,所述词频的数学公式表示如下:
Figure BDA0002578232900000021
所述逆文档频率的数学公式表示如下:
Figure BDA0002578232900000022
所述词频-逆文档频率的数学公式表示如下:
TF-IDFi,j=TFi,j*IDFi
其中,TF代表词频,IDF代表逆文档频率,TF-IDF代表词频-逆文档频率,D代表预料库中文档总数,J代表包含该词的文档数。
进一步地,所述根据所述词频-逆文档频率进行关键词提取,具体为:
计算文档中每个词的所述词频-逆文档频率,按照降序排序,选择前N个作为关键词。
进一步地,所述根据每个词的条件概率选择所需的词,生成标签,具体为:
预先设定阈值;
选择概率大于所述阈值的词;
按概率值从大到小依次选择所需的词,生成标签。
本发明还提供了一种基于语义分析的企业客户标签生成系统,所述系统包括:
分词单元,用于采用HMM算法对输入文档进行分词;
第一计算单元,用于计算文档中每个词的词频-逆文档频率;
关键词提取单元,用于根据所述词频-逆文档频率进行关键词提取;
组合单元,用于将分词结果和关键词结果组成待摘要内容;
第二计算单元,用于计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
标签单元,用于根据每个词的条件概率选择所需的词,生成标签。
本发明还提供了一种基于语义分析的企业客户标签生成装置,所述装置包括至少一个处理器以及至少一个存储器;
所述存储器存储执行上述方法的计算机程序,所述处理器调用存储器中的所述计算机程序以执行上述方法。
本发明通过对原始文档分别进行分词和关键词提取,然后将分词结果和关键词结果进行合并,形成待摘要,缩小了数据的处理范围,最后通过计算待摘要中每个词的概率,按照概率从大到小的顺序依次排列生成标签,按照本发明实施例对企业大数据进行处理,有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等,便于企业管理人员把握经营活动要素,也便于企业客户快速检索。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例的基于语义分析的企业客户标签生成方法流程图;
图2示出了本发明实施例的基于语义分析的企业客户标签生成系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于语义分析的企业客户标签生成方法,示例性的,图1示出了本发明实施例的基于语义分析的企业客户标签生成方法流程图,如图1所示,所述方法包括如下步骤:
步骤一:采用HMM算法对输入文档进行分词。
具体的,对专业词汇及命名实体进行词典收录,用统计学知识结合词典进行分词。以“BEMS”组成的序列串作为输出,然后进行切词,得到输入文档的划分结果,其中,B代表该字是词中的起始字,M代表该字是词中的中间字,E代表该字是词中的结束字,S代表该字是单字成词。
示例性的,原始文档为“这本介绍深度学习的书,内容很丰富,讲解的也很有深度,物流也非常给力”,采用HMM算法,以“BEMS”字符对该原始文档进行标注,标注的结果为“S/S/BE/BE/BE/S/S/,/BE/S/BE/,/BE/S/S/S/S/BE,/BE/S/BE/S/S”。
当引用IT词典后,“深度”和“学习”这两个单独的词将被组合为一个词“深度学习”;
当引用常用短语词典后,“给”和“力”这两个单独的字将被组合为一个词“给力”。
步骤二:计算文档中每个词的词频-逆文档频率。
具体的,统计文档内的高词语频率,以及所述词在整个文档集合中的逆文档频率,得出高权重的词频-逆文档频率(TF-IDF),从而过滤掉常见的词语,保留重要的词语;
其中,词频(TF)=所述词在文档中的出现次数/所述文档的总词数,数学公式如下:
Figure BDA0002578232900000051
逆文档频率(IDF)=log(文档总数/(出现所述词的文档数+1))(此处加1是为了防止除数为零),数学公式如下:
Figure BDA0002578232900000052
词频-逆文档频率(TF-IDF)=词频*逆文档频率,数学公式如下:
TF-IDFi,j=TFi,j*IDFi
其中,TF代表词频,IDF代表逆文档频率,TF-IDF代表词频-逆文档频率,D代表预料库中文档总数,J代表包含该词的文档数。
步骤三:根据所述词频-逆文档频率进行关键词提取。
具体的,计算文档中每个词的所述词频-逆文档频率,按照降序排序,选择前N个作为关键词。
步骤四:将分词结果和关键词结果组成待摘要内容。
步骤五:计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容)。
步骤六:根据每个词的条件概率选择所需的词,生成标签。
具体的,在待摘要内容里,将词表中每一个词的概率值都算出来,根据预先设定的阈值,比如阈值为10,则取出概率大于10的词,按概率值从大到小的顺序依次生成摘要中的所有词,形成标签。
示例性的,原始文本为“中新网2月20日电综合消息,今日起,全国多地将迎大范围雨雪降温天气,气温将‘跳崖式’下跌。其中,新疆、西北地区东部、西南地区东部、华北中南部、黄淮、江淮、江汉、江南、华南北部等地气温将下降8℃以上,部分地区超过12℃”,进行分词,得到分词文本“中新网综合消息今日全国多地将迎大范围雨雪降温天气气温跳崖式下跌其中新疆西北地区东部西南地区东部华北中南黄淮江淮江汉江南华南北部等地气温下降部分地区超过”,进行关键词提取,得到关键词文本“今日全国多地将迎大范围雨雪降温天气气温跳崖式下跌”。最后,将分词文本和关键词文本组成待摘要内容,计算待摘要内容中每个词的条件概率,按概率值从大到小依次选择所需的词,形成标签文本“全国多地将迎大范围雨雪降温天气”。
本发明还提供了一种基于语义分析的企业客户标签生成系统,如图2所示,所述系统包括分词单元、第一计算单元、关键词提取单元、组合单元、第二计算单元和标签单元。其中,分词单元采用HMM算法对输入文档进行分词,得到分词结果,并将分词结果发送给组合单元;第一计算单元计算文档中每个词的词频-逆文档频率;关键词提取单元根据所述词频-逆文档频率进行关键词提取,得到关键词结果,并将关键词结果发送给组合单元;组合单元将分词结果和关键词结果组成待摘要内容;第二计算单元计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);最后,标签单元根据每个词的条件概率选择所需的词,生成标签。
本发明还提供了一种基于语义分析的企业客户标签生成装置,所述装置包括至少一个处理器以及至少一个存储器;所述存储器存储执行上述方法的计算机程序,所述处理器调用存储器中的所述计算机程序以执行上述方法。
本发明通过对原始文档分别进行分词和关键词提取,然后将分词结果和关键词结果进行合并,形成待摘要,缩小了数据的处理范围,最后通过计算待摘要中每个词的概率,按照概率从大到小的顺序依次排列生成标签,按照本发明实施例对企业大数据进行处理,有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等,便于企业管理人员把握经营活动要素,也便于企业客户快速检索。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于语义分析的企业客户标签生成方法,其特征在于,所述方法包括:
采用HMM算法对输入文档进行分词;
计算文档中每个词的词频-逆文档频率;
根据所述词频-逆文档频率进行关键词提取;
将分词结果和关键词结果组成待摘要内容;
计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
根据每个词的条件概率选择所需的词,生成标签。
2.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述采用HMM算法对输入文档进行分词包括:
对专业词汇及命名实体进行词典收录,用统计学知识结合词典进行分词。
3.根据权利要求2所述的基于语义分析的企业客户标签生成方法,其特征在于,所述采用HMM算法对输入文档进行分词还包括:
以“BEMS”组成的序列串作为输出,然后进行切词,得到输入文档的划分结果;
其中,B代表该字是词中的起始字,M代表该字是词中的中间字,E代表该字是词中的结束字,S代表该字是单字成词。
4.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述计算文档中每个词的词频-逆文档频率,包括:
统计文档内的高词语频率,以及所述词在整个文档集合中的逆文档频率,得出高权重的词频-逆文档频率;
其中,词频=所述词在文档中的出现次数/所述文档的总词数;
逆文档频率=log(文档总数/(出现所述词的文档数+1));
词频-逆文档频率=词频*逆文档频率。
5.根据权利要求4所述的基于语义分析的企业客户标签生成方法,其特征在于,所述词频的数学公式表示如下:
Figure FDA0002578232890000021
所述逆文档频率的数学公式表示如下:
Figure FDA0002578232890000022
所述词频-逆文档频率的数学公式表示如下:
TF-IDFi,j=TFi,j*IDFi
其中,TF代表词频,IDF代表逆文档频率,TF-IDF代表词频-逆文档频率,D代表预料库中文档总数,J代表包含该词的文档数。
6.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述根据所述词频-逆文档频率进行关键词提取,具体为:
计算文档中每个词的所述词频-逆文档频率,按照降序排序,选择前N个作为关键词。
7.根据权利要求1所述的基于语义分析的企业客户标签生成方法,其特征在于,所述根据每个词的条件概率选择所需的词,生成标签,具体为:
预先设定阈值;
选择概率大于所述阈值的词;
按概率值从大到小依次选择所需的词,生成标签。
8.一种基于语义分析的企业客户标签生成系统,其特征在于,所述系统包括:
分词单元,用于采用HMM算法对输入文档进行分词;
第一计算单元,用于计算文档中每个词的词频-逆文档频率;
关键词提取单元,用于根据所述词频-逆文档频率进行关键词提取;
组合单元,用于将分词结果和关键词结果组成待摘要内容;
第二计算单元,用于计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容);
标签单元,用于根据每个词的条件概率选择所需的词,生成标签。
9.一种基于语义分析的企业客户标签生成装置,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;
所述存储器存储执行权利要求1-7任一项所述方法的计算机程序,所述处理器调用存储器中的所述计算机程序以执行权利要求1-7任一项所述方法。
CN202010660279.1A 2020-07-10 2020-07-10 一种基于语义分析的企业客户标签生成方法、系统及装置 Pending CN111814486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010660279.1A CN111814486A (zh) 2020-07-10 2020-07-10 一种基于语义分析的企业客户标签生成方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010660279.1A CN111814486A (zh) 2020-07-10 2020-07-10 一种基于语义分析的企业客户标签生成方法、系统及装置

Publications (1)

Publication Number Publication Date
CN111814486A true CN111814486A (zh) 2020-10-23

Family

ID=72841679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010660279.1A Pending CN111814486A (zh) 2020-07-10 2020-07-10 一种基于语义分析的企业客户标签生成方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111814486A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065343A (zh) * 2021-03-25 2021-07-02 天津大学 一种基于语义的企业研发资源信息建模方法
CN113743107A (zh) * 2021-08-30 2021-12-03 北京字跳网络技术有限公司 实体词提取方法、装置和电子设备
CN114780668A (zh) * 2022-04-22 2022-07-22 盐城金堤科技有限公司 业务标签的生成方法及其装置、计算机存储介质、电子终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065343A (zh) * 2021-03-25 2021-07-02 天津大学 一种基于语义的企业研发资源信息建模方法
CN113065343B (zh) * 2021-03-25 2022-06-10 天津大学 一种基于语义的企业研发资源信息建模方法
CN113743107A (zh) * 2021-08-30 2021-12-03 北京字跳网络技术有限公司 实体词提取方法、装置和电子设备
CN113743107B (zh) * 2021-08-30 2024-06-21 北京字跳网络技术有限公司 实体词提取方法、装置和电子设备
CN114780668A (zh) * 2022-04-22 2022-07-22 盐城金堤科技有限公司 业务标签的生成方法及其装置、计算机存储介质、电子终端
CN114780668B (zh) * 2022-04-22 2024-04-09 盐城天眼察微科技有限公司 业务标签的生成方法及其装置、计算机存储介质、电子终端

Similar Documents

Publication Publication Date Title
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
Gokulakrishnan et al. Opinion mining and sentiment analysis on a twitter data stream
US9779388B1 (en) Disambiguating organization names
CN111814486A (zh) 一种基于语义分析的企业客户标签生成方法、系统及装置
CN111797210A (zh) 基于用户画像的信息推荐方法、装置、设备及存储介质
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
CN111753086A (zh) 一种垃圾邮件识别方法和装置
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN111625647B (zh) 一种无监督的新闻自动分类方法
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN114970540A (zh) 训练文本审核模型的方法和装置
CN107832307B (zh) 基于无向图与单层神经网络的中文分词方法
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN110413770B (zh) 将群消息归类到群话题的方法及装置
CN114036921A (zh) 一种政策信息匹配方法和装置
CN111555960A (zh) 信息生成的方法
Khan et al. Urdu sentiment analysis
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
US11328218B1 (en) Identifying subjective attributes by analysis of curation signals
CN113157857B (zh) 面向新闻的热点话题检测方法、装置及设备
Kang et al. Sentiment analysis on Malaysian airlines with BERT
Makinist et al. Preparation of improved Turkish dataset for sentiment analysis in social media
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN110705287B (zh) 一种用于文本摘要的生成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination