CN112560457B - 基于非监督的文本去噪方法、系统、电子设备及存储介质 - Google Patents

基于非监督的文本去噪方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN112560457B
CN112560457B CN202011398468.2A CN202011398468A CN112560457B CN 112560457 B CN112560457 B CN 112560457B CN 202011398468 A CN202011398468 A CN 202011398468A CN 112560457 B CN112560457 B CN 112560457B
Authority
CN
China
Prior art keywords
word
text
subject
similarity
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011398468.2A
Other languages
English (en)
Other versions
CN112560457A (zh
Inventor
吴明平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Second Picket Network Technology Co ltd
Original Assignee
Shanghai Second Picket Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Second Picket Network Technology Co ltd filed Critical Shanghai Second Picket Network Technology Co ltd
Priority to CN202011398468.2A priority Critical patent/CN112560457B/zh
Publication of CN112560457A publication Critical patent/CN112560457A/zh
Application granted granted Critical
Publication of CN112560457B publication Critical patent/CN112560457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于非监督的文本去噪方法、系统、电子设备及存储介质,其方法技术方案包括文本收集步骤,根据预设的主题词收集包含所述主题词的文本数据;相似度计算步骤,计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词;噪声去除步骤,计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除。本发明采用计算文本内容与主题词相关程度的方法,避免了传统规则统计方法可能产生的误判,并可以解决监督算法识别未知新分类的难题。

Description

基于非监督的文本去噪方法、系统、电子设备及存储介质
技术领域
本发明属于文字处理领域,尤其涉及一种基于非监督的文本去噪方法、系统、电子设备及存储介质。
背景技术
随着互联网的高速发展,信息发布也越来越简单便捷,每天都有海量的内容数据发布,每个内容发布平台都在努力做到提升自己的推荐算法的精准度,将合适的内容分发给合适的人。为了避免一些垃圾信息或者与主题无关的内容出现,内容的质量控制成为不可或缺的算法部分,目前对于文本内容去噪大多采用规则匹配或者结合聚类算法与多分类监督算法进行处理。
对于已知的噪声数据类型,可采取规则匹配或者标注文本构建监督型分类算法进行识别,上述方式,规则匹配存在规则设计的覆盖问题,标注文本构建监督型分类算法会产生比较大的标注工作量,以及无法识别标注类别外的数据;并且,两种方式均无法识别新的类型的噪声数据。
发明内容
本申请实施例提供了一种基于非监督的文本去噪方法、系统、电子设备及存储介质,以至少解决现有文本去噪方法工作量大且无法识别新的类型的噪声数据的问题。
第一方面,本申请实施例提供了一种基于非监督的文本去噪方法,包括:文本收集步骤,根据预设的主题词收集包含所述主题词的文本数据;相似度计算步骤,计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词;噪声去除步骤,计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除。
优选的,所述相似度计算步骤还包括:将所述主题词与所述目标词表征为embedding向量,并根据所述主题词与所述目标词的embedding向量计算所述相似度。
优选的,所述相似度计算步骤还包括:根据一欧氏距离公式计算所述主题词与所述目标词的相似度,所述欧氏距离公式为
其中,X为主题词的embedding向量,Y为目标词的embedding向量,n为embedding向量的维度。
优选的,所述噪声去除步骤还包括:文本分词步骤,使用一分词工具对所述文本数据进行分词得到文本分词;文本匹配步骤,提取与所述主题相关词重合的所述文本分词,并根据提取出的所述文本分词计算所述文本数据与所述主题相关词的匹配度。
第二方面,本申请实施例提供了一种基于非监督的文本去噪系统,适用于上述一种基于非监督的文本去噪方法,包括:文本收集单元,根据预设的主题词收集包含所述主题词的文本数据;相似度计算单元,计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词;噪声去除单元,计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除。
在其中一些实施例中,所述相似度计算单元还包括:将所述主题词与所述目标词表征为embedding向量,并根据所述主题词与所述目标词的embedding向量计算所述相似度。
在其中一些实施例中,所述相似度计算单元还包括:根据一欧氏距离公式计算所述主题词与所述目标词的相似度,所述欧氏距离公式为
其中,X为主题词的embedding向量,Y为目标词的embedding向量,n为embedding向量的维度。
在其中一些实施例中,所述噪声去除单元还包括:文本分词模块,使用一分词工具对所述文本数据进行分词得到文本分词;文本匹配模块,提取与所述主题相关词重合的所述文本分词,并根据提取出的所述文本分词计算所述文本数据与所述主题相关词的匹配度。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的一种基于非监督的文本去噪方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的一种基于非监督的文本去噪方法。
相比于相关技术,本申请实施例提供的一种基于非监督的文本去噪方法采用计算文本内容与主题词相关程度的方法,避免了传统规则统计方法可能产生的误判,并可以解决监督算法识别未知新分类的难题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的基于非监督的文本去噪方法流程图;
图2为本发明的基于非监督的文本去噪系统的框架图;
图3为本发明的电子设备的框架图;
以上图中:
1、文本收集单元;2、相似度计算单元;3、噪声去除单元;60、总线;61、处理器;62、存储器;63、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下,结合附图详细介绍本发明的实施例:
图1为本发明的基于非监督的文本去噪方法流程图,请参见图1,本发明基于非监督的文本去噪方法包括如下步骤:
S1:根据预设的主题词收集包含所述主题词的文本数据。
在具体实施中,根据企业的具体行业属性、员工的工作属性以及工作学习需求,定制化一个内容分发类别,每个类别下定制相关的主题词,采用主题词从公开内容发布平台抓取包含主题词的文本数据。
S2:计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词。
在具体实施中,根据企业内员工工作与学习需要,结合常用的公开内容发布平台类型,选择合适的词向量数据库;可选的,本申请实施例采用腾讯AI lab。
可选的,将所述主题词与所述目标词表征为embedding向量,并根据所述主题词与所述目标词的embedding向量计算所述相似度。词嵌入(Word Embedding)是一种将文本中的词转换成数字向量的方法,为了使用标准机器学习算法来对它们进行分析,就需要把这些被转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,词嵌入的结果就生成了词向量。
可选的,根据一欧氏距离公式计算所述主题词与所述目标词的相似度,所述欧氏距离公式为
其中,X为主题词的embedding向量,Y为目标词的embedding向量,n为embedding向量的维度。
在具体实施中,将腾讯AI lab embedding词表中所有的词与主题词均采用上述欧式距离公式进行计算,然后根据得到的d(X,Y)的大小,从小到大排序,取topN(此处N值大小可根据具体数据状况进行调整)的数据生成为表,在此处,选取出的topN中的主题相关词不包括主题词本身,其中,欧式距离计算结果越小,词越相似。
S3:计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除。
可选的,使用一分词工具对所述文本数据进行分词得到文本分词,提取与所述主题相关词重合的所述文本分词,并根据提取出的所述文本分词计算所述文本数据与所述主题相关词的匹配度。
在具体实施中,首先采用一分词工具对文本内容进行分词,得到一个词表M,然后在对应的主题词的topN主题相关词表中进行遍历,如果词表M中的词在topN中有记录,则记返回值为
或者
10-score
其中,score为所述主题词与所述目标词的相似度;
否则返回值为0,计算结束后,将所有返回值取加和,则为文本数据与所述主题相关词的匹配度,即文本与主题词的相关度,按照上述算法步骤即可计算得到,每条文本内容与对应主题词的相似值,相似值越小,则文本内容与主题越不相关,即为噪声数据;可选的,本实施例可采用jieba分词作为分词工具。
在具体实施中,首先采用一分词工具对文本内容进行分词,得到一个词表M,然后在对应的主题词的topN主题相关词表中进行遍历,如果词表M中的词在topN中有记录,则记返回值为
其中,score为所述主题词与所述目标词的相似度;
否则返回值为0,随后再对文本内容进行去停用词操作,根据去停用词后的文本计算,公式为
其中,L为文本内容中覆盖到主题相关词的数据长度,N为去停用词后的文本的长度;
计算结束后,将所有返回值取加和,则为本数据与所述主题相关词的匹配度,即文本与主题词的相关度,按照上述算法步骤即可计算得到,每条文本内容与对应主题词的相似值,相似值越小,则文本内容与主题越不相关,即为噪声数据。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种基于非监督的文本去噪系统,适用于上述的一种基于非监督的文本去噪方法。如以下所使用的,术语“单元”、“模块”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件、或者软件和硬件的组合的实现也是可能并被构想的。
图2为根据本发明的基于非监督的文本去噪系统的框架图,请参见图2,包括:
文本收集单元1:根据预设的主题词收集包含所述主题词的文本数据。
在具体实施中,根据企业的具体行业属性、员工的工作属性以及工作学习需求,定制化一个内容分发类别,每个类别下定制相关的主题词,采用主题词从公开内容发布平台抓取包含主题词的文本数据。
相似度计算单元2:计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词。
在具体实施中,根据企业内员工工作与学习需要,结合常用的公开内容发布平台类型,选择合适的词向量数据库;可选的,本申请实施例采用腾讯AI lab。
可选的,将所述主题词与所述目标词表征为embedding向量,并根据所述主题词与所述目标词的embedding向量计算所述相似度。
可选的,根据一欧氏距离公式计算所述主题词与所述目标词的相似度,所述欧氏距离公式为
可选的,根据一欧氏距离公式计算所述主题词与所述目标词的相似度,所述欧氏距离公式为
其中,X为主题词的embedding向量,Y为目标词的embedding向量,n为embedding向量的维度。
在具体实施中,将腾讯AI lab embedding词表中所有的词与主题词均采用上述欧式距离公式进行计算,然后根据得到的d(X,Y)的大小,从小到大排序,取topN(此处N值大小可根据具体数据状况进行调整)的数据生成为表,在此处,选取出的topN中的主题相关词不包括主题词本身,其中,欧式距离计算结果越小,词越相似。
噪声去除单元3:计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除。
可选的,噪声去除单元3还包括一文本分词模块,使用一分词工具对所述文本数据进行分词得到文本分词;还包括一文本匹配模块,提取与所述主题相关词重合的所述文本分词,并根据提取出的所述文本分词计算所述文本数据与所述主题相关词的匹配度。
在具体实施中,首先采用一分词工具对文本内容进行分词,得到一个词表M,然后在对应的主题词的topN主题相关词表中进行遍历,如果词表M中的词在topN中有记录,则记返回值为
或者
10-score
其中,score为所述主题词与所述目标词的相似度;
否则返回值为0,计算结束后,将所有返回值取加和,则为本数据与所述主题相关词的匹配度,即文本与主题词的相关度,按照上述算法步骤即可计算得到,每条文本内容与对应主题词的相似值,相似值越小,则文本内容与主题越不相关,即为噪声数据,可选的,本实施例可采用jieba分词作为分词工具。
在具体实施中,首先采用一分词工具对文本内容进行分词,得到一个词表M,然后在对应的主题词的topN主题相关词表中进行遍历,如果词表M中的词在topN中有记录,则记返回值为
其中,score为所述主题词与所述目标词的相似度;
否则返回值为0,随后再对文本内容进行去停用词操作,根据去停用词后的文本计算,公式为
其中,L为文本内容中覆盖到主题相关词的数据长度,N为去停用词后的文本的长度;
计算结束后,将所有返回值取加和,则为本数据与所述主题相关词的匹配度,即文本与主题词的相关度,按照上述算法步骤即可计算得到,每条文本内容与对应主题词的相似值,相似值越小,则文本内容与主题越不相关,即为噪声数据。
另外,结合图1描述的一种基于非监督的文本去噪方法可以由电子设备来实现。图3为本发明的电子设备的框架图。
电子设备可以包括处理器61以及存储有计算机程序指令的存储器62。
具体地,上述处理器61可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器62可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器62可在数据处理装置的内部或外部。在特定实施例中,存储器62是非易失性(Non-Volatile)存储器。在特定实施例中,存储器62包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为EPROM)、电可擦除PROM(ElectricallyErasable Programmable Read-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast PageMode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-AccessMemory,简称SDRAM)等。
存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器61所执行的可能的计算机程序指令。
处理器61通过读取并执行存储器62中存储的计算机程序指令,以实现上述实施例中的任意一种基于非监督的文本去噪方法。
在其中一些实施例中,电子设备还可包括通信接口63和总线60。其中,如图3所示,处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。
通信端口63可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线60包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(AddressBus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(LocalBus)。举例来说而非限制,总线60可包括图形加速接口(Accelerated GraphicsPort,简称为AGP)或其他图形总线、增强工业标准架构(Extended IndustryStandard Architecture,简称为EISA)总线、前端总线(Front SideBus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(IndustryStandard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(LowPin Count,简称为LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,简称为MCA)总线、外围组件互连(PeripheralComponent Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment,简称为SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociationLocal Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的一种基于非监督的文本去噪方法。
另外,结合上述实施例中的一种基于非监督的文本去噪方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于非监督的文本去噪方法。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ReadOnly Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于非监督的文本去噪方法,其特征在于,包括:
文本收集步骤,根据预设的主题词收集包含所述主题词的文本数据;
相似度计算步骤,计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词;
噪声去除步骤,计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除;
所述噪声去除步骤进一步包括:
采用一分词工具对文本内容进行分词,得到一个词表M,然后在对应的主题词的topN主题相关词表中进行遍历,如果词表M中的词在topN中有记录,则记返回值为:
或者
10-score
其中,score为所述主题词与所述目标词的相似度,根据欧氏距离公式计算相似度;
否则返回值为0,计算结束后,将所有返回值取加和,则为文本数据与所述主题相关词的匹配度。
2.如权利要求1所述的基于非监督的文本去噪方法,其特征在于,所述相似度计算步骤还包括:
将所述主题词与所述目标词表征为embedding向量,并根据所述主题词与所述目标词的embedding向量计算所述相似度。
3.如权利要求2所述的基于非监督的文本去噪方法,其特征在于,所述相似度计算步骤还包括:
根据一欧氏距离公式计算所述主题词与所述目标词的相似度,所述欧氏距离公式为:
其中,X为主题词的embedding向量,Y为目标词的embedding向量,n为embedding向量的维度。
4.如权利要求1所述的基于非监督的文本去噪方法,其特征在于,所述噪声去除步骤还包括:
文本分词步骤,使用一分词工具对所述文本数据进行分词得到文本分词;
文本匹配步骤,提取与所述主题相关词重合的所述文本分词,并根据提取出的所述文本分词计算所述文本数据与所述主题相关词的匹配度。
5.一种基于非监督的文本去噪系统,其特征在于,包括:
文本收集单元,根据预设的主题词收集包含所述主题词的文本数据;
相似度计算单元,计算所述主题词与一词向量数据库中目标词的相似度,并获取所述相似度满足一阈值要求的所有所述目标词作为主题相关词;
噪声去除单元,计算所述文本数据与所述主题相关词的匹配度,并将所述匹配度不满足一阈值要求的所述文本数据作为噪声去除;
其中,所述噪声去除单元采用一分词工具对文本内容进行分词,得到一个词表M,然后在对应的主题词的topN主题相关词表中进行遍历,如果词表M中的词在topN中有记录,则记返回值为:
或者
10-score
其中,score为所述主题词与所述目标词的相似度,根据欧氏距离公式计算相似度;
否则返回值为0,计算结束后,将所有返回值取加和,则为文本数据与所述主题相关词的匹配度。
6.如权利要求5所述的基于非监督的文本去噪系统,其特征在于,所述相似度计算单元还包括:
将所述主题词与所述目标词表征为embedding向量,并根据所述主题词与所述目标词的embedding向量计算所述相似度。
7.如权利要求6所述的基于非监督的文本去噪系统,其特征在于,所述相似度计算单元还包括:
根据一欧氏距离公式计算所述主题词与所述目标词的相似度,所述欧氏距离公式为
其中,X为主题词的embedding向量,Y为目标词的embedding向量,n为embedding向量的维度。
8.如权利要求5所述的基于非监督的文本去噪系统,其特征在于,所述噪声去除单元还包括:
文本分词模块,使用一分词工具对所述文本数据进行分词得到文本分词;
文本匹配模块,提取与所述主题相关词重合的所述文本分词,并根据提取出的所述文本分词计算所述文本数据与所述主题相关词的匹配度。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于非监督的文本去噪方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的基于非监督的文本去噪方法。
CN202011398468.2A 2020-12-04 2020-12-04 基于非监督的文本去噪方法、系统、电子设备及存储介质 Active CN112560457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011398468.2A CN112560457B (zh) 2020-12-04 2020-12-04 基于非监督的文本去噪方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011398468.2A CN112560457B (zh) 2020-12-04 2020-12-04 基于非监督的文本去噪方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112560457A CN112560457A (zh) 2021-03-26
CN112560457B true CN112560457B (zh) 2024-03-12

Family

ID=75047710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011398468.2A Active CN112560457B (zh) 2020-12-04 2020-12-04 基于非监督的文本去噪方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112560457B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403959A (zh) * 2001-09-07 2003-03-19 联想(北京)有限公司 基于文本内容特征相似度和主题相关程度比较的内容过滤器
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统
CN110866095A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本相似度的确定方法及相关设备
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10216724B2 (en) * 2017-04-07 2019-02-26 Conduent Business Services, Llc Performing semantic analyses of user-generated textual and voice content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1403959A (zh) * 2001-09-07 2003-03-19 联想(北京)有限公司 基于文本内容特征相似度和主题相关程度比较的内容过滤器
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统
CN110866095A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本相似度的确定方法及相关设备
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本主题提取及相似度计算系统研究与开发;郭肇毅;;现代信息科技(04);全文 *

Also Published As

Publication number Publication date
CN112560457A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN106778241B (zh) 恶意文件的识别方法及装置
US7171042B2 (en) System and method for classification of images and videos
CN111709420B (zh) 文本检测方法、电子设备及计算机可读介质
US20170289082A1 (en) Method and device for identifying spam mail
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN112560971A (zh) 一种主动学习自迭代的图像分类方法和系统
US20170075887A1 (en) Method, system and apparatus for generating hash codes
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
CN108462624B (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN109800215B (zh) 一种对标处理的方法、装置、计算机存储介质及终端
CN112926592B (zh) 一种基于改进Fast算法的商标检索方法及装置
CN112560457B (zh) 基于非监督的文本去噪方法、系统、电子设备及存储介质
US11501212B2 (en) Method for protecting a machine learning model against extraction
CN110880035B (zh) 卷积神经网络的训练方法、装置及结节征象识别方法、装置
CN111160445B (zh) 投标文件相似度计算方法及装置
CN112784572A (zh) 一种营销场景话术分析方法和系统
CN111611821A (zh) 二维码识别方法、装置、计算机设备和可读存储介质
CN113688263B (zh) 用于搜索图像的方法、计算设备和存储介质
CN115359302A (zh) 硬币识别方法、系统及存储介质
CN113742525A (zh) 自监督视频哈希学习方法、系统、电子设备及存储介质
CN112650837B (zh) 结合分类算法与非监督算法的文本质量控制方法及系统
CN111324732A (zh) 模型训练方法、文本处理方法、装置及电子设备
CN115455272B (zh) 页面数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231122

Address after: 200232 Unit 5B03, 5th Floor, Building 2, No. 277 Longlan Road, Xuhui District, Shanghai

Applicant after: SHANGHAI SECOND PICKET NETWORK TECHNOLOGY CO.,LTD.

Address before: 200232 unit 5b04, 5th floor, building 2, 277 Longlan Road, Xuhui District, Shanghai

Applicant before: Shanghai Fengzhi Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant