CN110727880A - 一种基于词库与词向量模型的敏感语料检测方法 - Google Patents

一种基于词库与词向量模型的敏感语料检测方法 Download PDF

Info

Publication number
CN110727880A
CN110727880A CN201910995383.3A CN201910995383A CN110727880A CN 110727880 A CN110727880 A CN 110727880A CN 201910995383 A CN201910995383 A CN 201910995383A CN 110727880 A CN110727880 A CN 110727880A
Authority
CN
China
Prior art keywords
word
sensitive
corpus
words
vector model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910995383.3A
Other languages
English (en)
Other versions
CN110727880B (zh
Inventor
李辉
陈鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Electronic Science Research Institute of CTEC
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910995383.3A priority Critical patent/CN110727880B/zh
Publication of CN110727880A publication Critical patent/CN110727880A/zh
Application granted granted Critical
Publication of CN110727880B publication Critical patent/CN110727880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于词库与词向量模型的敏感语料检测方法,包括以下步骤:1)获取开放文本语料,对开放文本语料进行预处理,所述开放文本预料包括中文维基百科语料及新闻语料;2)对步骤1)处理后的中文维基百科语料与新闻语料进行合并,得合并语料,再利用分词工具对合并语料进行分词,再过滤掉分词结果中的停用词;3)使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练,并根据无监督训练的结果构建词向量模型;4)获取待检测文本,得分词表,同时构建相似词词典;5)利用相似词词典、词向量模型及敏感词库对分词表中的词进行敏感性检测,完成基于词库与词向量模型的敏感语料检测,该方法对敏感词的检测能力较为优异。

Description

一种基于词库与词向量模型的敏感语料检测方法
技术领域
本发明属于互联网信息处理技术领域,涉及一种基于词库与词向量模型的敏感语料检测方法。
背景技术
随着信息时代的迅猛发展,网络上新出现的各种社交媒体平台受到了很多用户的青睐,并且利用社交平台进行信息发布已经成为当前形成和传播社会舆论的重要途径。社会媒体每天带来海量的文本语料,其中存在少部分语料会对社会安全和政治稳定带来巨大风险。为了避免潜在敏感语料带来的负面影响,需要对网上的语料进行检测,并能够快速地识别出其中涉及敏感的信息,进而进行更深一步地处理。
对于网络上的敏感语料,传统的纯粹基于词库进行检测方式具有很大的局限性,仅用词库过滤的方式面临词汇量不全面和词库难以与时俱进的问题。因此,如何在此基础上对敏感词检测能力进行提升是一个亟待解决的问题。
针对面向网络媒体的敏感语料检测方法,申请人经过专利查询,检索到一篇相关的专利,名称为敏感文本检测方法及装置,专利申请号为CN201410064854.6,该专利提出了一种基于有限自动状态机和关键词类别权重的敏感文本检测方案,该专利提出针对敏感词出现的频率以及权值对文本的敏感程度进行判别,但是该方式仅能滤除词库中已有的敏感词,不能对词库以外但也是敏感的词进行检测,这一点尚未有有效的解决方案。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于词库与词向量模型的敏感语料检测方法,该方法对敏感词的检测能力较为优异。
为达到上述目的,本发明所述的基于词库与词向量模型的敏感语料检测方法包括以下步骤:
1)获取开放文本语料,然后对开放文本语料进行预处理,其中,所述开放文本预料包括中文维基百科语料及新闻语料;
2)对步骤1)处理后的中文维基百科语料与新闻语料进行合并,得合并语料,同时将敏感词种子词库加入到分词工具中,再利用分词工具对合并语料进行分词,再过滤掉分词结果中的停用词,其中,敏感词种子词库来源于网上开源的敏感词库;
3)使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练,并根据无监督训练的结果构建词向量模型;
4)获取待检测文本,将敏感词库加载到分词工具中,对待检测文本进行分词,并对分词结果过滤停用词,得分词表,同时构建相似词词典;
5)从分词表中选取未被检测的词,判断检测敏感词库中是否含有该未被检测的词,若敏感词库中含有该未被检测的词时,则判断该未被检测的词敏感,否则,以该未被检测的词作为键查询相似词词典,若相似词词典中含有该键,得相似词表,检测敏感词库中是否含有相似词表中的词,若敏感词库中至少有一个词属于该相似词表,则判定该未被检测的词敏感,否则,认为未被检测的词非敏感;若相似词词典中不含有该键,则利用词向量模型计算该未被检测的词与词向量模型中所有词的余弦相似度,取余弦相似度最高的前n个词,检测敏感词库中是否含有所述n个词,若敏感词库中至少有一个词属于所述n个词,则判定该未被检测的词敏感,否则,认为该未被检测的词非敏感,并将该未被检测的词与其n个相似词作为键-值加入到相似词词典中;
6)重复步骤5)直至遍历分词表中的所有词为止,完成基于词库与词向量模型的敏感语料检测。
步骤1)中中文维基百科语料来源于维基百科的中文开放语料库;
新闻语料来源于搜狐新闻数据。
步骤1)中对中文维基百科语料进行预处理的具体过程为:
利用开放工具WikiExtractor对中文维基百科语料进行有效信息提取,提取有效信息后剔除有效信息文本中无效的标签,利用正则表达式将有效信息文本中的无用标签过滤出来,最后使用开放工具OpenCC将有效信息文本转化为简体中文。
步骤1)中对新闻语料进行预处理的具体过程为:
采用正则表达式过滤与词典知识相配合进行新闻语料主体内容的提取。
步骤2)中的分词工具为开放的jieba工具,该分词工具支持加载用户自定义词典进行分词;
所述停用词从停用词库中获取,该停用词库采用开源的哈工大停用词表。
步骤3)的具体操作为:
使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练,得语料中每一个词对应的n维稠密数值向量,将所述n维稠密数值向量称为词向量,词向量以实数向量的形式表示词的语义信息,训练得到词向量结果,并将该词向量结果作为词向量模型。
步骤4)中的敏感词库为网上已开源的敏感词库。
本发明具有以下有益效果:
本发明所述的基于词库与词向量模型的敏感语料检测方法在具体操作时,先利用中文维基百科语料及新闻语料构建词向量模型,再获取待检测文本,并对待检测文本进行分词,以获取分词表,然后利用敏感词库及词向量模型对分词表中的词记性敏感性检测,以提高词敏感检测的性能,另外,本发明中该未被检测的词与其n个相似词作为键-值加入到相似词词典中,在检测词敏感的过程中,参考该相似词词典进行检测,因此检测的范围较为宽广。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1,本发明所述的基于词库与词向量模型的敏感语料检测方法包括以下步骤:
1)获取开放文本语料,然后对开放文本语料进行预处理,其中,所述开放文本预料包括中文维基百科语料及新闻语料;
步骤1)中中文维基百科语料来源于维基百科的中文开放语料库,对于维基百科中文语料,最新语料获取地址为:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2;新闻语料来源于搜狐新闻数据。
步骤1)中对中文维基百科语料进行预处理的具体过程为:
利用开放工具WikiExtractor对中文维基百科语料进行有效信息提取,提取有效信息后剔除有效信息文本中无效的标签,利用正则表达式将有效信息文本中的无用标签过滤出来,最后使用开放工具OpenCC将有效信息文本转化为简体中文。
步骤1)中对新闻语料进行预处理的具体过程为:采用正则表达式过滤与词典知识相配合进行新闻语料主体内容的提取。
2)对步骤1)处理后的中文维基百科语料与新闻语料进行合并,得合并语料,同时将敏感词种子词库加入到分词工具中,再利用分词工具对合并语料进行分词,再过滤掉分词结果中的停用词,其中,敏感词种子词库来源于网上开源的敏感词库;
步骤2)中的分词工具为开放的jieba工具(其支持加载用户自定义词典进行分词),该分词工具支持加载用户自定义词典进行分词;所述停用词从停用词库中获取,该停用词库采用开源的哈工大停用词表。
3)使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练,并根据无监督训练的结果构建词向量模型;
步骤3)的具体操作为:
使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练,得语料中每一个词对应的n维稠密数值向量,将所述n维稠密数值向量称为词向量,词向量以实数向量的形式表示词的语义信息,训练得到词向量结果,并将该词向量结果作为词向量模型。
4)获取待检测文本,将敏感词库加载到分词工具中,对待检测文本进行分词,并对分词结果过滤停用词,得分词表,同时构建相似词词典;
步骤4)中的敏感词库为网上已开源的敏感词库。
5)从分词表中选取未被检测的词,判断检测敏感词库中是否含有该未被检测的词,若敏感词库中含有该未被检测的词时,则判断该未被检测的词敏感,否则,以该未被检测的词作为键查询相似词词典,若相似词词典中含有该键,得相似词表,检测敏感词库中是否含有相似词表中的词,若敏感词库中至少有一个词属于该相似词表,则判定该未被检测的词敏感,否则,认为未被检测的词非敏感;若相似词词典中不含有该键,则利用词向量模型计算该未被检测的词与词向量模型中所有词的余弦相似度,取余弦相似度最高的前n个词,检测敏感词库中是否含有所述n个词,若敏感词库中至少有一个词属于所述n个词,则判定该未被检测的词敏感,否则,认为该未被检测的词非敏感,并将该未被检测的词与其n个相似词作为键-值加入到相似词词典中;
6)重复步骤5)直至遍历分词表中的所有词为止,完成基于词库与词向量模型的敏感语料检测。
词向量模型由开放工具word2vec对开放语料训练得到的,余弦相似度通过测量两个向量的夹角的余弦值来度量两个向量之间的相似性,在词向量模型中,利用词向量模型计算余弦相似度表示词汇之间的语义相似度,因而余弦相似度较高则表示两个单词之间语义相似度较高,基于此可以得到词在语义上的相似词表。
本发明还包括:根据词向量模型完成对词库的增量更新,具体过程为:
根据已有的词向量模型,计算敏感词库中的词汇与词向量模型中词的余弦相似度,取其中余弦相似度高于预设阈值的词汇加入到敏感词库中,另外,由于词向量模型的语料可以分阶段增量训练,因而由此也能保证词库的质量能够与时俱进。
本发明还包括:对词向量模型进行增量训练,该步骤包括:收集最新的敏感语料资源,加入到语料库中,并对整体进行训练。因此本发明不限于对敏感词库进行更新,也可以应用于其他特定类型词库的更新。
上述所有可选技术方案,可以任意结合行成本发明的可选实施项,在此不再一一赘述。

Claims (7)

1.一种基于词库与词向量模型的敏感语料检测方法,其特征在于,包括以下步骤:
1)获取开放文本语料,然后对开放文本语料进行预处理,其中,所述开放文本预料包括中文维基百科语料及新闻语料;
2)对步骤1)处理后的中文维基百科语料与新闻语料进行合并,得合并语料,同时将敏感词种子词库加入到分词工具中,再利用分词工具对合并语料进行分词,再过滤掉分词结果中的停用词,其中,敏感词种子词库来源于网上开源的敏感词库;
3)使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练,并根据无监督训练的结果构建词向量模型;
4)获取待检测文本,将敏感词库加载到分词工具中,对待检测文本进行分词,并对分词结果过滤停用词,得分词表,同时构建相似词词典;
5)从分词表中选取未被检测的词,判断检测敏感词库中是否含有该未被检测的词,若敏感词库中含有该未被检测的词时,则判断该未被检测的词敏感,否则,以该未被检测的词作为键查询相似词词典,若相似词词典中含有该键,得相似词表,检测敏感词库中是否含有相似词表中的词,若敏感词库中至少有一个词属于该相似词表,则判定该未被检测的词敏感,否则,认为未被检测的词非敏感;若相似词词典中不含有该键,则利用词向量模型计算该未被检测的词与词向量模型中所有词的余弦相似度,取余弦相似度最高的前n个词,检测敏感词库中是否含有所述n个词,若敏感词库中至少有一个词属于所述n个词,则判定该未被检测的词敏感,否则,认为该未被检测的词非敏感,并将该未被检测的词与其n个相似词作为键-值加入到相似词词典中;
6)重复步骤5)直至遍历分词表中的所有词为止,完成基于词库与词向量模型的敏感语料检测。
2.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法,其特征在于,步骤1)中中文维基百科语料来源于维基百科的中文开放语料库;
新闻语料来源于搜狐新闻数据。
3.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法,其特征在于,步骤1)中对中文维基百科语料进行预处理的具体过程为:
利用开放工具WikiExtractor对中文维基百科语料进行有效信息提取,提取有效信息后剔除有效信息文本中无效的标签,利用正则表达式将有效信息文本中的无用标签过滤出来,最后使用开放工具OpenCC将有效信息文本转化为简体中文。
4.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法,其特征在于,步骤1)中对新闻语料进行预处理的具体过程为:
采用正则表达式过滤与词典知识相配合进行新闻语料主体内容的提取。
5.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法,其特征在于,步骤2)中的分词工具为开放的jieba工具,该分词工具支持加载用户自定义词典进行分词;
所述停用词从停用词库中获取,该停用词库采用开源的哈工大停用词表。
6.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法,其特征在于,步骤3)的具体操作为:
使用开放工具word2vec对过滤停用词后的分词结果进行无监督训练,得语料中每一个词对应的n维稠密数值向量,将所述n维稠密数值向量称为词向量,词向量以实数向量的形式表示词的语义信息,训练得到词向量结果,并将该词向量结果作为词向量模型。
7.根据权利要求1所述的基于词库与词向量模型的敏感语料检测方法,其特征在于,步骤4)中的敏感词库为网上已开源的敏感词库。
CN201910995383.3A 2019-10-18 2019-10-18 一种基于词库与词向量模型的敏感语料检测方法 Active CN110727880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910995383.3A CN110727880B (zh) 2019-10-18 2019-10-18 一种基于词库与词向量模型的敏感语料检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910995383.3A CN110727880B (zh) 2019-10-18 2019-10-18 一种基于词库与词向量模型的敏感语料检测方法

Publications (2)

Publication Number Publication Date
CN110727880A true CN110727880A (zh) 2020-01-24
CN110727880B CN110727880B (zh) 2022-06-17

Family

ID=69221582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910995383.3A Active CN110727880B (zh) 2019-10-18 2019-10-18 一种基于词库与词向量模型的敏感语料检测方法

Country Status (1)

Country Link
CN (1) CN110727880B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475651A (zh) * 2020-04-08 2020-07-31 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质
CN111785344A (zh) * 2020-06-04 2020-10-16 河南中医药大学 基于中医药领域专业词向量的中药处方用药安全检测方法
CN111914550A (zh) * 2020-07-16 2020-11-10 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统
CN112863628A (zh) * 2021-03-16 2021-05-28 云知声智能科技股份有限公司 一种电子病历数据处理方法及系统
CN113515588A (zh) * 2020-04-10 2021-10-19 富泰华工业(深圳)有限公司 表单数据检测方法、计算机装置及存储介质
CN113642326A (zh) * 2021-08-16 2021-11-12 广东鸿数科技有限公司 敏感数据识别模型训练方法、敏感数据识别方法及系统
CN113642030A (zh) * 2021-10-14 2021-11-12 广东鸿数科技有限公司 敏感数据多层识别方法
CN114021564A (zh) * 2022-01-06 2022-02-08 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统
CN117094033A (zh) * 2023-10-19 2023-11-21 南京怡晟安全技术研究院有限公司 基于关键数据敏感度的安全销毁评估系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
US9697245B1 (en) * 2015-12-30 2017-07-04 International Business Machines Corporation Data-dependent clustering of geospatial words
CN107193796A (zh) * 2016-03-14 2017-09-22 北大方正集团有限公司 一种舆情事件检测方法及装置
CN109657243A (zh) * 2018-12-17 2019-04-19 江苏满运软件科技有限公司 敏感信息识别方法、系统、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697245B1 (en) * 2015-12-30 2017-07-04 International Business Machines Corporation Data-dependent clustering of geospatial words
CN107193796A (zh) * 2016-03-14 2017-09-22 北大方正集团有限公司 一种舆情事件检测方法及装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN109657243A (zh) * 2018-12-17 2019-04-19 江苏满运软件科技有限公司 敏感信息识别方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟旭阳 等: "社交网络中的敏感内容检测方法研究", 《现代电子技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475651A (zh) * 2020-04-08 2020-07-31 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN111475651B (zh) * 2020-04-08 2023-04-07 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN113515588A (zh) * 2020-04-10 2021-10-19 富泰华工业(深圳)有限公司 表单数据检测方法、计算机装置及存储介质
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质
CN111785344A (zh) * 2020-06-04 2020-10-16 河南中医药大学 基于中医药领域专业词向量的中药处方用药安全检测方法
CN111914550A (zh) * 2020-07-16 2020-11-10 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN111914550B (zh) * 2020-07-16 2023-12-15 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN112581252A (zh) * 2020-12-03 2021-03-30 信用生活(广州)智能科技有限公司 融合多维相似度与规则集合的地址模糊匹配方法及系统
CN112863628A (zh) * 2021-03-16 2021-05-28 云知声智能科技股份有限公司 一种电子病历数据处理方法及系统
CN113642326A (zh) * 2021-08-16 2021-11-12 广东鸿数科技有限公司 敏感数据识别模型训练方法、敏感数据识别方法及系统
CN113642030A (zh) * 2021-10-14 2021-11-12 广东鸿数科技有限公司 敏感数据多层识别方法
CN114021564A (zh) * 2022-01-06 2022-02-08 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统
CN114021564B (zh) * 2022-01-06 2022-04-01 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统
CN117094033A (zh) * 2023-10-19 2023-11-21 南京怡晟安全技术研究院有限公司 基于关键数据敏感度的安全销毁评估系统和方法
CN117094033B (zh) * 2023-10-19 2024-01-09 南京怡晟安全技术研究院有限公司 基于关键数据敏感度的安全销毁评估系统和方法

Also Published As

Publication number Publication date
CN110727880B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN107193796B (zh) 一种舆情事件检测方法及装置
CN111651198B (zh) 代码摘要自动化生成方法及装置
CN107463548B (zh) 短语挖掘方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110555206A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN107943786B (zh) 一种中文命名实体识别方法及系统
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN114266256A (zh) 一种领域新词的提取方法及系统
Azad et al. Fake News Detection in low-resourced languages “Kurdish language” using Machine learning algorithms
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
Nongmeikapam et al. Verb based manipuri sentiment analysis
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN109684357A (zh) 信息处理方法及装置、存储介质、终端
CN108256055B (zh) 一种基于数据增强的主题建模方法
CN112270185A (zh) 一种基于主题模型的文本表示方法
CN112559731B (zh) 市场情绪监测方法和系统
CN115630160B (zh) 一种基于半监督共现图模型的争议焦点聚类方法及系统
CN112308453B (zh) 风险识别模型训练方法、用户风险识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200528

Address after: 710071, No. 2 Taibai South Road, Yanta District, Shaanxi, Xi'an

Applicant after: XIDIAN University

Applicant after: ELECTRONIC SCIENCE RESEARCH INSTITUTE, CHINA ELECTRONICS TECHNOLOGY GROUP Corp.

Address before: 710071 No. 2 Taibai South Road, Beilin District, Xi'an City, Shaanxi Province

Applicant before: XIDIAN University

GR01 Patent grant
GR01 Patent grant