CN113468879A - 一种未登录词的判断方法、系统、电子设备及介质 - Google Patents

一种未登录词的判断方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN113468879A
CN113468879A CN202110806415.8A CN202110806415A CN113468879A CN 113468879 A CN113468879 A CN 113468879A CN 202110806415 A CN202110806415 A CN 202110806415A CN 113468879 A CN113468879 A CN 113468879A
Authority
CN
China
Prior art keywords
word
information entropy
candidate
unknown
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110806415.8A
Other languages
English (en)
Inventor
付金伟
梁吉光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110806415.8A priority Critical patent/CN113468879A/zh
Publication of CN113468879A publication Critical patent/CN113468879A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种未登录词的判断方法、系统、电子设备及介质,未登录词的判断方法包括:字集合获取步骤:将出现在候选词左右的字总结成左邻字集合与右邻字集合;信息熵计算步骤:计算所述候选词的左邻字信息熵与右邻字信息熵;候选词自由运用程度获取步骤:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;未登录词判断步骤:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。本发明通过信息熵来衡量候选词的自由运用程度,识别未登录词准确度更高、更有逻辑性。

Description

一种未登录词的判断方法、系统、电子设备及介质
技术领域
本申请涉及数据能力技术领域,尤其涉及一种未登录词的判断方法、系统、电子设备及介质。
背景技术
在人民日益增长物质文化需求的背景下,词语丰富度的发展也是异常迅速,每年都会有大量的新词语出现,这类新词语统称为未登录词。因为在自然语言处理领域,进行文本处理的时,通常会有一个词库,该词库或者是提前加载的,或者是自己定义的,或者是从当前数据集中提取的,而未在词库中出现但又必须要切分出来的词就称为未登录词。未登录词主要包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。这些新生词汇的产生是文化丰富发展的必然趋势。但这些新生词汇却给分词造成了很大的困扰,因为词库中并没有记录这些新词。为了日后更加准确的分词,使用未登录词对词库进行更新是一件很重要的事,因此如何识别一个词是否为未登录词,成为了业界的一个难题。
发明内容
本申请实施例提供了一种未登录词的判断方法、系统、电子设备及介质,以至少通过本发明解决了识别未登录词的过程中未登录词的识别准确率低以及逻辑性低等问题。
本发明提供了未登录词的判断方法,包括:
字集合获取步骤:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
信息熵计算步骤:计算所述候选词的左邻字信息熵与右邻字信息熵;
候选词自由运用程度获取步骤:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
未登录词判断步骤:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
上述的未登录词的判断方法中,所述字集合获取步骤步骤包括,根据所述候选词,将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合。
上述的未登录词的判断方法中,所述信息熵计算步骤包括,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵,获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
上述的未登录词的判断方法中,所述未登录词判断步骤包括,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述判断结果为所述候选词是所述未登录词。
本发明还提供未登录词的判断系统,其中,适用于上述所述的未登录词的判断方法,所述未登录词的判断系统包括:
字集合获取单元:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
信息熵计算单元:计算所述候选词的左邻字信息熵与右邻字信息熵;
候选词自由运用程度获取单元:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
未登录词判断单元:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
上述的未登录词的判断系统中,根据所述候选词将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合,并通过所述字集合获取单元获取所述左邻字集合与所述右邻字集合。
上述的未登录词的判断系统中,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵后,通过所述信息熵计算单元获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
上述的未登录词的判断系统中,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述未登录词判断单元输出所述判断结果为所述候选词是所述未登录词。
本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的未登录词的判断方法。
本发明还提供一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现上述任一项所述的未登录词的判断方法。
相比于相关技术,本发明提出的一种未登录词的判断方法、系统、电子设备及介质,通过信息熵来衡量候选词的自由运用程度,信息熵越高,代表该候选词的自由运用程度越高,因此该候选词被识别为未登录词,从而提高了未登录词识别准确率、逻辑性以及数据挖掘能力。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的未登录词的判断方法流程图;
图2为本发明的未登录词的判断系统的结构示意图;
图3是根据本申请实施例的电子设备的框架图。
其中,附图标记为:
字集合获取单元:51;
信息熵计算单元:52;
候选词自由运用程度获取单元:53;
未登录词判断单元:54;
总线:80;
处理器:81;
存储器:82;
通信接口:83。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
对于未登录词的识别,目前主要是依据频率来判定:选用一款分词器,将分词器分词的结果依次在词库中校验,不存在于词库中的词即为未登陆词的候选词,对于这些候选词,检验其在文本中的出现次数,如果达到了一定数目,即可认定其为未登录词。这种判断方法非常简单、识别未登录词准确率低,且不论频次高的词不一定就是词语,比如“的电影”在电影主题的语料中肯定频次很高,但它不是一个词语,而且会有很多未登录词,其实出现的次数并不高,比如“电影院”是一个词,但是它可能比“的电影”的频次还低。
本发明通过信息熵来衡量候选词的自由运用程度,识别未登录词准确度更高、更有逻辑性。
下面结合具体实施例对本发明进行说明。
实施例一
本实施例提供了登录词的判断方法。请参照图1,图1是根据本申请实施例的未登录词的判断方法流程图,如图1所示,未登录词的判断方法包括如下步骤:
字集合获取步骤S1:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
信息熵计算步骤S2:计算所述候选词的左邻字信息熵与右邻字信息熵;
候选词自由运用程度获取步骤S3:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
未登录词判断步骤S4:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
在实施例中,所述字集合获取步骤步骤S1包括,根据所述候选词,将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合。
在具体实施例中,整理候选词的左邻字集合和右邻字集合,例如“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”中,“葡萄”一词出现了四次,其中左邻字集合为{吃,吐,吃,吐},右邻字集合为{不,皮,倒,皮};
在实施例中,所述信息熵计算步骤S2包括,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵,获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
在具体实施例中,计算左邻字的信息熵,例如“葡萄”一词的左邻字信息熵为–(1/2)·log(1/2)–(1/2)·log(1/2)≈0.693;计算右邻字的信息熵,例如“葡萄”一词的右邻字信息熵为–(1/2)·log(1/2)–(1/4)·log(1/4)–(1/4)·log(1/4)≈1.04;
在实施例中,所述候选词自由运用程度获取步骤S3包括,从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值。
在具体实施例中,将上述候选词的左邻字信息熵和右邻字信息熵中的较小值定义为候选词的自由运用程度,例如“葡萄”一词的自由运用程度即为其左信息熵0.693;
在实施例中,所述未登录词判断步骤S4包括,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述判断结果为所述候选词是所述未登录词。
在具体实施例中,设定一个自由运用程度预设阈值,当候选词的自由运用程度大于该预设阈值,则可认定该候选词为未登录词,因为自由运用程度越大,说明信息熵越大,则越说明该词前后的搭配越丰富,越有可能成为未登录词。相反,如果某个词的信息熵很小,说明其与左右字的搭配越固定,则说明其有更小的概率是未登录词,比如“辈子”一词,其常见搭配只有“一辈子”、“这辈子”、“下辈子”、“上辈子”、“半辈子”、“八辈子”、“几辈子”、“哪辈子”以及“n辈子”、“两辈子”等这少数几种罕见的用法,所以“辈子”这个词的信息熵很小,不太可能是未登录词。
实施例二
请参照图2,图2为本发明的未登录词的判断系统的结构示意图。如图2所示,发明的未登录词的判断,适用于上述的未登录词的判断方法,未登录词的判断系统,包括:
字集合获取单元51:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
信息熵计算单元52:计算所述候选词的左邻字信息熵与右邻字信息熵;
候选词自由运用程度获取单元53:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
未登录词判断单元54:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
在实施例中,根据所述候选词将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合,并通过所述字集合获取单元51获取所述左邻字集合与所述右邻字集合。
在实施例中,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵后,通过所述信息熵计算单元52获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
在实施例中,从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵,通过所述候选词自由运用程度获取单元53获取所述候选词的自由运用程度值。
在实施例中,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述未登录词判断单元54输出所述判断结果为所述候选词是所述未登录词。
实施例三
结合图3所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在异常数据监测装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为FPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory,简称为EFPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意未登录词的判断方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图3所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/异常数据监测设备、数据库、外部存储以及图像/异常数据监测工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
电子设备可连接未登录词的判断系统,从而实现结合图1的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,本发明通过信息熵来衡量候选词的自由运用程度,识别未登录词准确度更高、更有逻辑性。因而通过本发明解决了识别未登录词的过程中识别未登录词准确率低以及逻辑性低等问题。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求的保护范围为准。

Claims (10)

1.一种未登录词的判断方法,其特征在于,包括:
字集合获取步骤:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
信息熵计算步骤:计算所述候选词的左邻字信息熵与右邻字信息熵;
候选词自由运用程度获取步骤:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
未登录词判断步骤:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
2.根据权利要求1所述的未登录词的判断方法,其特征在于,所述字集合获取步骤包括,根据所述候选词,将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合。
3.根据权利要求1所述的未登录词的判断方法,其特征在于,所述信息熵计算步骤包括,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵,获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
4.根据权利要求1所述的未登录词的判断方法,其特征在于,所述未登录词判断步骤包括,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述判断结果为所述候选词是所述未登录词。
5.一种未登录词的判断系统,其特征在于,适用于上述权利要求1至4中任一项所述的未登录词的判断方法,所述未登录词的判断系统包括:
字集合获取单元:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
信息熵计算单元:计算所述候选词的左邻字信息熵与右邻字信息熵;
候选词自由运用程度获取单元:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
未登录词判断单元:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
6.根据权利要求5所述的未登录词的判断系统,其特征在于,根据所述候选词将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合,并通过所述字集合获取单元获取所述左邻字集合与所述右邻字集合。
7.根据权利要求6所述的未登录词的判断系统,其特征在于,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵后,通过所述信息熵计算单元获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
8.根据权利要求7所述的未登录词的判断系统,其特征在于,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述未登录词判断单元输出所述判断结果为所述候选词是所述未登录词。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的未登录词的判断方法。
10.一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现如权利要求1至4中任一项所述的未登录词的判断方法。
CN202110806415.8A 2021-07-16 2021-07-16 一种未登录词的判断方法、系统、电子设备及介质 Pending CN113468879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110806415.8A CN113468879A (zh) 2021-07-16 2021-07-16 一种未登录词的判断方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110806415.8A CN113468879A (zh) 2021-07-16 2021-07-16 一种未登录词的判断方法、系统、电子设备及介质

Publications (1)

Publication Number Publication Date
CN113468879A true CN113468879A (zh) 2021-10-01

Family

ID=77880676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110806415.8A Pending CN113468879A (zh) 2021-07-16 2021-07-16 一种未登录词的判断方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113468879A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528527A (zh) * 2016-10-14 2017-03-22 深圳中兴网信科技有限公司 未登录词的识别方法及识别系统
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN110222157A (zh) * 2019-06-20 2019-09-10 贵州电网有限责任公司 一种基于海量文本的新词发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528527A (zh) * 2016-10-14 2017-03-22 深圳中兴网信科技有限公司 未登录词的识别方法及识别系统
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN110222157A (zh) * 2019-06-20 2019-09-10 贵州电网有限责任公司 一种基于海量文本的新词发现方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115034211A (zh) * 2022-05-19 2022-09-09 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质
CN115034211B (zh) * 2022-05-19 2023-04-18 一点灵犀信息技术(广州)有限公司 未登录词发现方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN113449082A (zh) 一种新词发现方法、系统、电子设备及介质
EP3422209B1 (en) Character string distance calculation method and device
JP2015501017A (ja) 画像検索方法
US8549309B1 (en) Asymmetric content fingerprinting with adaptive window sizing
CN115809203B (zh) 软件测试用例动态嵌套方法、装置及其应用
US10540600B2 (en) Method and apparatus for detecting changed data
CN113468879A (zh) 一种未登录词的判断方法、系统、电子设备及介质
US9213759B2 (en) System, apparatus, and method for executing a query including boolean and conditional expressions
CN112527950B (zh) 一种基于MapReduce的图数据删除方法及系统
CN114385231B (zh) 数据处理方法、装置、存储介质及电子设备
CN113987173A (zh) 短文本分类方法、系统、电子设备及介质
WO2022217795A1 (zh) 失效位置的修补方法和装置
US11615296B2 (en) Methods, electronic devices, and computer storage media for testing depth learning chip
CN115455425A (zh) 防护补丁生成方法、系统、设备及存储介质
JP7211139B2 (ja) 校閲方法、情報処理装置および校閲プログラム
US8136064B2 (en) Bijectively mapping character string to integer values in integrated circuit design data
CN113486127A (zh) 一种知识对齐方法、系统、电子设备及介质
CN113721978B (zh) 一种混源软件中开源成分检测的方法和系统
CN111400342A (zh) 数据库更新方法、装置、设备及存储介质
CN111339360B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
US8560981B2 (en) Segmenting integrated circuit layout design files using speculative parsing
CN109344095B (zh) 一种闪存热数据识别方法
CN113255335A (zh) 一种字向量的获取方法、系统、电子设备及存储介质
CN113535783A (zh) 流式数据处理方法、系统、计算机设备和可读存储介质
CN113554174A (zh) 一种因果关系抽取方法、系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001