CN111353050A - 一种电信客服垂直领域的词库构建方法及工具 - Google Patents

一种电信客服垂直领域的词库构建方法及工具 Download PDF

Info

Publication number
CN111353050A
CN111353050A CN202010114161.9A CN202010114161A CN111353050A CN 111353050 A CN111353050 A CN 111353050A CN 202010114161 A CN202010114161 A CN 202010114161A CN 111353050 A CN111353050 A CN 111353050A
Authority
CN
China
Prior art keywords
word
tool
words
model
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010114161.9A
Other languages
English (en)
Inventor
王鸿强
雷晓宇
王福君
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Heli Yijie Polytron Technologies Inc
Original Assignee
Beijing Heli Yijie Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Heli Yijie Polytron Technologies Inc filed Critical Beijing Heli Yijie Polytron Technologies Inc
Publication of CN111353050A publication Critical patent/CN111353050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种电信客服垂直领域的词库构建方法,包括:将需要提取领域词库的语料库导入词库构建工具,语料数据作为训练集数据;利用词库构建工具对训练集数据进行分词提取,分词提取工具有Jieba工具、TF‑IDF统计模型、信息熵模型和TextRank模型;提取后的词集导出作为专业领域词库。“种子词筛选结合词向量的优化”的词库构建方法及工具,快速、高效的发现行业专业领域词汇,构建主题词库,可用于专业的领域词汇挖掘,新词发现,关键词挖掘,相似主题挖掘等领域。

Description

一种电信客服垂直领域的词库构建方法及工具
技术领域
本发明涉及计算机网络技术领域,更具体地,涉及一种电信客服垂直领域的词库构建方法及工具。
背景技术
随着语言处理技术的不断发展,各行业基于此技术而构建智能化的呼叫中心客服业务应用需求不断增加。而基于此技术的应用建设离不开行业的通用词库。通过该词库的数据来支撑呼叫中心相关交互文本的语义理解,知识库的构建等。
电信客服垂直领域词库的构建是电信客服垂直领域词库应用的基础,随着词库构建的理论研究逐步深入和在工程实践中的广泛应用,形成了许多的构建方法和构建工具。传统构建方式往往是通过积累的大量的文本数据(例如如行业的科研论文,项目报告,服务规程,各类操作手册等等)依靠人工批注的模式去筛选该行业的专业领域词汇。但该构建过程仍需要通过人工的参与,人们凭借一定专业领域知识,依据自己的知识和理解主观地判断概念之间的关系。这种依靠人的经验和知识积累的词库构建方式非常费时费力,成为基于NLP业务应用发展的一个瓶颈。现有的领域词库的构建方法是依靠人工批注的模式去筛选该行业的专业领域词汇。该方法受专业领域限制,耗时耗力,效率低下,且无固化的工具来辅助完成词库的构建。
发明内容
本发明提供的一种“种子词筛选结合词向量的优化”的词库构建方法及工具,快速、高效的发现行业专业领域词汇,构建主题词库,可用于专业的领域词汇挖掘,新词发现,关键词挖掘,相似主题挖掘等领域。
本发明提供一种电信客服垂直领域的词库构建方法,包括:
步骤一、将需要提取领域词库的语料库导入词库构建工具,语料数据作为训练集数据;
步骤二、利用词库构建工具对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;
步骤三、提取后的词集导出作为专业领域词库。
在本公开的一实施例中,所述步骤二中,通过Jieba分词法在语料库中初步分词得到分词集,构建分词词库。
在本公开的一实施例中,基于所述分词词库,利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。
在本公开的一实施例中,将重新分词的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间。
在本公开的一实施例中,将重新分词的结果“词”中有交集的,作为种子词;剩余的其它词作为候选词。
在本公开的一实施例中,利用各个词的向量空间结果,将种子词与候选词进行相似度匹配,找出相似度高的K个词;然后采用投票形式,按照投票结果进行排序。
本发明提供一种电信客服垂直领域的词库构建工具,包括:
语料库管理模块,用于将需要提取领域词库的语料库导入,语料数据作为训练集数据;
词库构建核心模块,用于对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;
词库管理模块,用于构建的专业领域词库的管理。
在本公开的一实施例中,词库构建核心模块通过Jieba分词法在语料库中初步分词得到分词集,构建分词词库。
在本公开的一实施例中,基于所述分词词库,利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。
在本公开的一实施例中,将重新分词的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间。
在本公开的一实施例中,将重新分词的结果“词”中有交集的,作为种子词;剩余的其它词作为候选词。
在本公开的一实施例中,利用各个词的向量空间结果,将种子词与候选词进行相似度匹配,找出相似度高的K个词;然后采用投票形式,按照投票结果进行排序。
本发明提供的电信客服垂直领域的词库构建工具,具有的技术效果为,本发明采用“种子词加Word2Vec”比对核心构建方法提供一套完整的词库构建工具,词库在构建过程中无需使用任何标注数据,是一种无监督的机器学习的构建工具,且不需要模型设计人员具备该专业领域的知识,具有良好的机器学习泛化能力,可用以作为其它专业领域词库的通用构建方法。本发明解决了词库构建需要专业人工标注,有监督学习训练的耗时耗力的效率低下,准确性差的构建问题。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
附图说明
图1是词库构建工具功能框架示意图;
图2是整体词库管理流程图;
图3是词库构建核心流程图;
图4是语料库列表示例;
图5是词语列表示例;
图6是分词组合示例;
图7是分词结果组成图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
一.实现思路
本发明采用“种子词加Word2Vec”比对构建的固化词库构建工具,种子词的选取方式采用多种分词技术,验证分词交集,并将交集数据作为种子词,重新进入训练集优化分词结果。最终利用种子词与候选词的空间向量的相似性,找出目标词语构建成词库。
该词库管理工具中模型在构建过程中无需使用任何标注数据,是一种无监督学习的模型,且不需要模型设计人员具备该专业领域的知识,具有良好的机器学习泛化能力,可用以作为其它专业领域词库的通用构建方法。
图1是本发明词库构建工具的功能框架图。本发明的词库构建工具分为三个部分。语料库管理部分,针对需要进行构建词库的领域语料进行管理,包括:语料导入、语料更新、语料删除等。词库构建核心部分,通过该部分完成语料中词库的抓取构建,包括:关联需要提取词库的语料,算法模型的简单配置,以及一些分词模型工具等。本实施例的分词模型工具有Jieba工具、TF-IDF模型、信息熵模型和TextRank模型,但不限于此。词库管理部分,该部分为其构建的领域词库进行管理,通过该界面能进行词库的查看、添加新词和词管理等操作。
图2所示为本发明词库构建流程。首先进行语料导入,然后利用词库构建工具对导入的语料进行分词提取。分词提取工具有Jieba工具、TF-IDF模型、信息熵模型和TextRank模型,但不限于此。提取后的词集作为词库导出。
图3所示为本发明工具的核心方法,采用无监督学习的分词词库构建法。首先,通过Jieba分词法在语料库中初步分词得到分词集,获得构建分词词库。然后,基于该分词词库利用TF-IDF统计模型、信息熵模型和TextRank模型等多种分词模型对其语料库重新进行分词,并通过多模型交叉比对出种子词,种子词交集以外的词作为候选词。再利用种子词和候选词,重新作为词库利用向量空间模型对其语料进行循环分词筛选出相似度最高的词,以此来提升所构建词库的正确率,最终所得结果即为专业词库。
本发明基于种子词筛选结合词向量的优化方法,包含如下步骤:
S1:向工具中导入需要提取领域词库的语料内容。如图4所示语料库列表,从中选择需要提取领域词库的语料库,比如通用语料库。
S2:提取本次通用词库构建的目标行业文本数据,语料数据作为训练集数据。如图5所示语料库的词语列表作为训练集数据。
S3:使用Python中的Jieba组件进行分词,得到分词词集。
主要Jieba函数调用为:
Figure BDA0002390273960000051
第一个参数是要分解的字符串,第二个cut_all参数指是否使用全模式,如果为True,则使用全模式,False为不使用全模式,使用全模式后,分解的粒度会更加精细,不使用全模式时,只会把一句话分解,分解的词不会重复。
S4:将Jieba分词结果相邻的1个、2个、3个、4个词进行组合成新词,以此来解决Jieba分词颗粒度细的问题。如图6所示分词组合示例。Jieba得到四个分词:激活、联通、滴滴王卡和套餐,将这四个词分别单独作为一个词,再将这四个词两两组合得到如“激活套餐”等多个新词,然后再将这四个词三三组合得到如“联通滴滴王卡套餐”等多个新词,最后再将这四个词四四组合得到如“激活联通滴滴王卡套餐”等多个新词。
S5:将分词后的词,用停用词表筛选过滤。如果分词结果中出现了停用词,如“的”、“是”、“在”等等,直接进行过滤。
S6:改进互信息过滤:
Figure BDA0002390273960000052
其中tf*S表示*S去重后的频度,tfS*标识S*去重后的频度。
Figure BDA0002390273960000053
S7:将经S6步骤后过滤的数据作为“初始化词库”,采用改进的TF-IDF模型统计方法(该词语在本次所提供的语料数据中体现的重要程度)作为过滤的评估标准,对所提供的语料的词进一步筛选,以此方法评估出“关键词”。
Figure BDA0002390273960000054
可通过语料环境及分词结果,对其IDF的分母进行调整,如
Figure BDA0002390273960000055
等,从而提升提取的“关键词”效果。
S8:将经S6步骤后过滤的数据作为“初始化词库”,采用信息熵模型使用左右信息熵的乘积作为评价标准,筛选出结果“词”。
"信息熵"能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为p,当你知道它确实发生了,你得到的信息量就被定义为-log(p)。p越小,你得到的信息量就越大。
Figure BDA0002390273960000061
Figure BDA0002390273960000062
S9:将经S6步骤后过滤的数据作为“初始化词库”,采用TextRanK模型进行筛选。该模型将词视为节点,构建出词关系图,根据词与词之间共同出现关系计算每个词的重要性,得出筛选模型结果“词”。
Figure BDA0002390273960000063
Figure BDA0002390273960000064
其中“sentence”表示语料。分词结果组成图如图7所示。采用TextRanK模型分词,字符串“请帮我查询滴滴王卡套餐是否欠费”首先分词为“请帮我查询滴滴王卡套餐是否欠费”8个分词,然后再邻近三三组合8个分词,得到“请帮我帮我查询我查询滴滴王卡查询滴滴王卡......套餐是否欠费”等多个新词。8个分词组合成新词的构成网络如图7所示,将相邻的1个、2个、3个、4个词进行组合成新词。
S10:将S7步骤,S8步骤,S9步骤筛选出的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间(度量词与词之间的相似性)。
词向量相似性计算:词向量的相似度可以很好的度量词汇之间的语义相似度,本方法利用标准化后的词向量相似度衡量词汇语义的相似度,其计算步骤如下:
1)计算相似度:对于两个词的词向量V1与V2,其相似度利用余弦相似度来度量,计算过程为:
Figure BDA0002390273960000071
式中:v1*v2为v1与v2的内积,||v||为词向量的模。
2)标准化。将相似度标准化到[0,1],便于后续计算,标准化过程为:
Figure BDA0002390273960000072
S11:将S7步骤,S8步骤,S9步骤筛选出的结果“词”的有交集的,作为种子词;剩余的其它词作为候选词。
S12:根据S10步骤得出的各个词的向量空间结果,将S11中的筛选出的种子词与候选词进行相似度匹配,找出相似度高的K个词(K根据词库构建目标而定);然后采用投票形式,按照投票结果进行排序。
S13:经过上述结果排序,筛选统计出的词即可作为该专业领域的专业词库进行建库。该词库即为领域词库。
S14:词管理:经过上述过程,将获得的领域词库在词管理界面进行展示管理。可手动修改、添加新词来更新词库,也可进行排序、分类等管理。
本发明词库构建模型在构建过程中无需使用任何标注数据,是一种无监督模型,且不需要模型设计人员具备该专业领域的知识,具有良好的机器学习泛化能力,可用以作为其它专业领域词库的通用构建方法。
以上所述仅为本发明的较佳实施例而已,为方便本领域的技术人员更容易理解而设计,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种电信客服垂直领域的词库构建方法,其特征在于,包括:
步骤一、将需要提取领域词库的语料库导入词库构建工具,语料数据作为训练集数据;
步骤二、利用词库构建工具对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;
步骤三、提取后的词集导出作为专业领域词库。
2.如权利要求1所述的方法,其特征在于,所述步骤二中,通过Jieba分词法在语料库中初步分词得到分词集,构建分词词库。
3.如权利要求2所述的方法,其特征在于,基于所述分词词库,利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。
4.如权利要求3所述的方法,其特征在于,将重新分词的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间。
5.如权利要求4所述的方法,其特征在于,将重新分词的结果“词”中有交集的,作为种子词;剩余的其它词作为候选词。
6.如权利要求5所述的方法,其特征在于,利用各个词的向量空间结果,将种子词与候选词进行相似度匹配,找出相似度高的K个词;然后采用投票形式,按照投票结果进行排序。
7.一种电信客服垂直领域的词库构建工具,其特征在于,包括:
语料库管理模块,用于将需要提取领域词库的语料库导入,语料数据作为训练集数据;
词库构建核心模块,用于对训练集数据进行分词提取,分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型;
词库管理模块,用于构建的专业领域词库的管理。
8.如权利要求7所述的工具,其特征在于,词库构建核心模块通过Jieba分词法在语料库中初步分词得到分词集,构建分词词库。
9.如权利要求8所述的工具,其特征在于,基于所述分词词库,利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。
10.如权利要求9所述的方法,其特征在于,将重新分词的结果“词”,重新作为Jieba的词典,重新对训练集数据进行分词,使用word2vec词向量模型计算得到各个词的向量空间。
11.如权利要求10所述的工具,其特征在于,将重新分词的结果“词”中有交集的,作为种子词;剩余的其它词作为候选词。
12.如权利要求11所述的工具,其特征在于,利用各个词的向量空间结果,将种子词与候选词进行相似度匹配,找出相似度高的K个词;然后采用投票形式,按照投票结果进行排序。
CN202010114161.9A 2019-12-27 2020-02-24 一种电信客服垂直领域的词库构建方法及工具 Pending CN111353050A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019113889651 2019-12-27
CN201911388965 2019-12-27

Publications (1)

Publication Number Publication Date
CN111353050A true CN111353050A (zh) 2020-06-30

Family

ID=71197166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010114161.9A Pending CN111353050A (zh) 2019-12-27 2020-02-24 一种电信客服垂直领域的词库构建方法及工具

Country Status (1)

Country Link
CN (1) CN111353050A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036190A (zh) * 2020-09-03 2020-12-04 中国银行股份有限公司 资讯画像构建方法及装置
CN112100492A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种不同版本的简历的批量投递方法和系统
CN112200674A (zh) * 2020-10-14 2021-01-08 上海谦璞投资管理有限公司 一种证券市场情绪指数智能计算信息系统
CN112597760A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 文档中的领域词提取方法和装置
CN113761905A (zh) * 2020-07-01 2021-12-07 北京沃东天骏信息技术有限公司 一种领域建模词汇表的构建方法和装置
CN115017335A (zh) * 2022-06-16 2022-09-06 特赞(上海)信息科技有限公司 知识图谱构建方法和系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899340A (zh) * 2015-07-08 2015-09-09 哈尔滨工程大学船舶装备科技有限公司 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN107491492A (zh) * 2017-07-21 2017-12-19 清华大学 问题请求的处理方法、装置、服务器和存储介质
CN108182173A (zh) * 2017-12-27 2018-06-19 福建中金在线信息科技有限公司 一种提取关键词的方法、装置及电子设备
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
WO2018196561A1 (zh) * 2017-04-25 2018-11-01 腾讯科技(深圳)有限公司 应用的标签信息生成方法、装置及存储介质
AU2018101514A4 (en) * 2018-10-11 2018-11-15 Chi, Henan Mr An automatic text-generating program for Chinese Hip-hop lyrics
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
CN109508378A (zh) * 2018-11-26 2019-03-22 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法
CN109947864A (zh) * 2018-06-27 2019-06-28 淮阴工学院 一种基于tf-idf和cnn启发式短文本特征提取与分类方法
CN110390006A (zh) * 2019-07-23 2019-10-29 腾讯科技(深圳)有限公司 问答语料生成方法、装置和计算机可读存储介质
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN104899340A (zh) * 2015-07-08 2015-09-09 哈尔滨工程大学船舶装备科技有限公司 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法
WO2018196561A1 (zh) * 2017-04-25 2018-11-01 腾讯科技(深圳)有限公司 应用的标签信息生成方法、装置及存储介质
CN107491492A (zh) * 2017-07-21 2017-12-19 清华大学 问题请求的处理方法、装置、服务器和存储介质
CN108182173A (zh) * 2017-12-27 2018-06-19 福建中金在线信息科技有限公司 一种提取关键词的方法、装置及电子设备
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN109947864A (zh) * 2018-06-27 2019-06-28 淮阴工学院 一种基于tf-idf和cnn启发式短文本特征提取与分类方法
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
AU2018101514A4 (en) * 2018-10-11 2018-11-15 Chi, Henan Mr An automatic text-generating program for Chinese Hip-hop lyrics
CN109508378A (zh) * 2018-11-26 2019-03-22 平安科技(深圳)有限公司 一种样本数据处理方法及装置
CN109710947A (zh) * 2019-01-22 2019-05-03 福建亿榕信息技术有限公司 电力专业词库生成方法及装置
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法
CN110390006A (zh) * 2019-07-23 2019-10-29 腾讯科技(深圳)有限公司 问答语料生成方法、装置和计算机可读存储介质
CN110442760A (zh) * 2019-07-24 2019-11-12 银江股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761905A (zh) * 2020-07-01 2021-12-07 北京沃东天骏信息技术有限公司 一种领域建模词汇表的构建方法和装置
CN112036190A (zh) * 2020-09-03 2020-12-04 中国银行股份有限公司 资讯画像构建方法及装置
CN112036190B (zh) * 2020-09-03 2024-04-16 中国银行股份有限公司 资讯画像构建方法及装置
CN112100492A (zh) * 2020-09-11 2020-12-18 河北冀联人力资源服务集团有限公司 一种不同版本的简历的批量投递方法和系统
CN112200674A (zh) * 2020-10-14 2021-01-08 上海谦璞投资管理有限公司 一种证券市场情绪指数智能计算信息系统
CN112200674B (zh) * 2020-10-14 2022-09-13 上海谦璞投资管理有限公司 一种证券市场情绪指数智能计算信息系统
CN112597760A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 文档中的领域词提取方法和装置
CN115017335A (zh) * 2022-06-16 2022-09-06 特赞(上海)信息科技有限公司 知识图谱构建方法和系统

Similar Documents

Publication Publication Date Title
CN111353050A (zh) 一种电信客服垂直领域的词库构建方法及工具
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
US20220114186A1 (en) System and method for automatic persona generation using small text components
CN110990532A (zh) 一种处理文本的方法和装置
CN112580332B (zh) 一种基于标签分层延深建模的企业画像方法
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN112084334A (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN109508441A (zh) 数据分析方法、装置及电子设备
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN112989023A (zh) 标签推荐方法、装置、设备、存储介质及计算机程序产品
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN115210705A (zh) 具有无效值或等效值的关系表的向量嵌入模型
CN110222179B (zh) 一种通讯录文本分类方法、装置及电子设备
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN112328653B (zh) 数据识别方法、装置、电子设备及存储介质
CN114443864A (zh) 跨模态数据的匹配方法、装置及计算机程序产品
CN113095073A (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN113076740A (zh) 政务服务领域的同义词挖掘方法及装置
CN112287215A (zh) 一种智能就业推荐方法和装置
CN113220841B (zh) 确定鉴别信息的方法、装置、电子设备和存储介质
CN110083817A (zh) 一种命名排歧方法、装置、计算机可读存储介质
US11836176B2 (en) System and method for automatic profile segmentation using small text variations
CN114968412B (zh) 基于人工智能的配置文件生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200630