CN109408818A - 新词识别方法、装置、计算机设备及存储介质 - Google Patents

新词识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109408818A
CN109408818A CN201811191755.9A CN201811191755A CN109408818A CN 109408818 A CN109408818 A CN 109408818A CN 201811191755 A CN201811191755 A CN 201811191755A CN 109408818 A CN109408818 A CN 109408818A
Authority
CN
China
Prior art keywords
word
candidate
neologisms
candidate word
endpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811191755.9A
Other languages
English (en)
Other versions
CN109408818B (zh
Inventor
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811191755.9A priority Critical patent/CN109408818B/zh
Priority to PCT/CN2018/124797 priority patent/WO2020073523A1/zh
Publication of CN109408818A publication Critical patent/CN109408818A/zh
Application granted granted Critical
Publication of CN109408818B publication Critical patent/CN109408818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种新词识别方法、装置、计算机设备及计算机可读存储介质。方法包括:获取文本语料,根据预设句子端点,通过N元切分将文本语料切分成长度为2‑N的候选词,N为自然数,N≥2;判断候选词是否满足预设条件;若候选词满足预设条件,将所述候选词确定为候选新词;判断候选新词是否包含在预设词库中;以及若候选新词不包含在预设词库中,将所述候选新词确定为新词。本申请实施例基于自然语言处理,通过预设句子端点将文本语料进行准确切分获取候选词,提高切分的准确率,通过对候选词和候选新词的识别,识别出新词,有效提高新词发现的准确率和效率。

Description

新词识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种新词识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
中文分词作为目前NLP(NLP,英文为Natural Language Processing,自然语言处理)项目的基础技术,其准确率直接关系到NLP项目的最终表现。新词发现对分词系统的准确率有直接的影响。传统的新词发现技术中,通常先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词,但分词的准确性依赖于词库的完整性,因此导致新词发现的效果较差。
发明内容
本申请实施例提供了一种新词识别方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中新词发现的效果过低的问题。
第一方面,本申请实施例提供了一种新词识别方法,所述方法包括:获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,所述候选词是指切分所述文本语料获取的文本片段;判断所述候选词是否满足预设条件;若所述候选词满足所述预设条件,将所述候选词确定为候选新词;判断所述候选新词是否包含在所述预设词库中;以及若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。
第二方面,本申请实施例还提供了一种新词识别装置,包括:切分单元,用于获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,所述候选词是指切分所述文本语料获取的文本片段;判断单元,用于判断所述候选词是否满足预设条件;第一识别单元,用于若所述候选词满足所述预设条件,将所述候选词确定为候选新词;过滤单元,用于判断所述候选新词是否包含在所述预设词库中;以及第二识别单元,用于若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述新词识别方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述新词识别方法。
本申请实施例提供了一种新词识别方法、装置、计算机设备及计算机可读存储介质。所述方法包括:获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,所述候选词是指切分所述文本语料获取的文本片段;判断所述候选词是否满足预设条件;若所述候选词满足所述预设条件,将所述候选词确定为候选新词;判断所述候选新词是否包含在所述预设词库中;以及若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。本申请实施例基于语音语义中的自然语言处理,在切分文本语料以获得候选词时,通过N元切分结合预设句子端点将文本语料进行准确切分,以获取长度为2-N候选词,不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,作为候选词,通过预设句子端点作为独立特征,作为切分所述文本语料的词边界,减少候选词的数量,提高切分的准确率和效率,再对所述候选词进行是否满足预设条件的识别,若候选词满足预设条件,识别为候选新词,作为具有独立语义的候选新词,从而缩小新词识别的范围,再把所有抽出来的候选新词和已有词库进行比较,若候选新词不包含在预设词库,识别为新词,筛选出现有词库中未包含的候选新词为识别出的新词,可以有效提高新词发现的准确率、效率和召回率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的新词识别方法的应用场景示意图;
图2为本申请实施例提供的新词识别方法的流程示意图;
图3为本申请另一个实施例提供的新词识别方法的流程示意图;
图4为本申请实施例提供的新词识别装置的示意性框图;
图5为本申请另一个实施例提供的新词识别装置的示意性框图;以及
图6为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本申请实施例提供的新词识别方法的应用场景示意图。所述应用场景包括:
(1)计算机设备。图1所示计算机设备是进行新词识别的设备,其上安装有进行新词识别的应用,所述计算机设备由人工进行操作。所述计算机设备可以为笔记本电脑、平板电脑、台式电脑或者服务器等电子设备。
图1中的各个主体工作过程如下:人工使用计算机设备进行新词识别,计算机设备上安装有新词识别的应用,计算机设备获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,判断所述候选词是否满足预设条件,若所述候选词满足所述预设条件,将所述候选词确定为候选新词,判断所述候选新词是否包含在所述预设词库中,若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词,计算机设备将识别结果显示给人工,以完成对所述文本语料的新词识别。
需要说明的是,图1中仅仅示意出台式电脑作为计算机设备,在实际操作过程中,计算机设备的类型不限于图1中所示,所述计算机设备还可以为笔记本电脑或者平板电脑等电子设备,上述新词识别方法的应用场景仅仅用于说明本申请技术方案,并不用于限定本申请技术方案。
图2为本申请实施例提供的新词识别方法的示意性流程图。该新词识别方法应用于图1中的终端中,以完成新词识别方法的全部或者部分功能。
图2是本申请实施例提供的新词识别方法的流程示意图。如图2所示,该方法包括以下步骤S210-S250:
S210、获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,其中,所述候选词是指切分所述文本语料获取的文本片段。
其中,新词是指给定一段文本,随机取一个片段,若该片段具有独立含义,且未包含在现有词库或者词典中,不为已知的词语,判断该片段为新词。判断文本中的一个片段是否为新词,可以通过给定一段文本,随机取一个片段,若该片段左右的搭配很丰富,即该片段的左端和右端可以与不同的字或者词进行搭配以完成完整含义的表述,并且片段内部成分搭配很固定,也就是该片段经常以固定整体出现,可以判断该片段是一个词汇,如果这个词不存在现有词典中,判断该片段是一个新词。比如,在一个文本中,若“普惠金融”的左端或者右端分别和不同的字或者词搭配,以进行语义的描述,并且“普惠金融”未包含在现有词典中,判断“普惠金融”为一个新词。
N元切分,是指对文本语料依次进行相邻N个汉字的分割或者划分,获取包含N个汉字的文本片段,比如,2元切分,是指对文本语料依次进行相邻2个汉字的分割或者划分,获取包含2个汉字的文本片段,3元切分,是指对文本语料依次进行相邻3个汉字的分割或者划分,获取包含3个汉字的文本片段等。比如,对文本语料“我是一个人”进行2元切分,获取的文本片段为“我是”、“是一”、“一个”及“个人”,对文本语料“我是一个人”进行3元切分,获取的文本片段为“我是一”、“是一个”及“一个人”。
文本语料,是指进行新词识别的文本所属的语言材料。所述文本语料可以为一段文字、一篇文章、一个网站的网页或者一本书籍等。所述文本语料可以是存储在移动存储器、计算机设备或者互联网中的电子版书籍或者文本,比如,以Word格式保存的文本,也可以是指定网站的网页等。
所述候选词是指切分所述文本语料获取的文本片段。根据预设句子端点将文本语料进行切分后,会获取多个文本片段,所述文本片段有可能是词语,也有可能不是词语,需要根据预设条件进行筛选以判断是否是词语,若所述文本片段满足预设条件,判断是词语,若所述文本片段不满足预设条件,判断为不是词语。由于所述文本片段处于成为词语的候选状态,称为候选词。2-N的候选词,是指候选词的长度为2至N,也就是候选词包含的汉字个数分别为2、3、4…N,比如,2-5的候选词,是指候选词的长度分别为2、3、4和5,也就是候选词分别包含2个汉字、3个汉字、4个汉字及5个汉字。
进一步地,所述预设句子端点是指预先设置所述候选词的词边界,以这些词边界为端点将文本语料进行切分,以获取候选词。所述预设句子端点包括标点符号和预设分割端点,所述预设分割端点是指所述文本语料中除标点符号外预先被设置为句子端点的成分,相对于标点符号,是人为将文本语料中具有独立意义的固定成分作为切分所述文本语料的词边界,属于人工句子端点。其中,文本语料一般包括文字、标点符号、回车、空格等成分。
标点符号,是指文本语料中完成完整含义描述后、起停顿作用以形成断句的句子标点符号,比如逗号、分号、双引号及句号等一般用于句子断句的符号。
所述预设分割端点包括所述文本语料中除标点符号外具有停顿或者断句作用的符号,比如,空格符和回车符等,以及具有独立语义的停用字和停用词。停用字是指文本语料中用于停顿用的字,停用词是指文本预料中用于停顿用的词,停用字和停用词一般具有独立的含义,比如,常用的停用字包括“你”、“我”、“她”及“的”等字,停用词包括“我们”、“根据”、“所述”及“作为”等词语。预设分割端点可以看作是标点符号的延伸,标点符号一般是用在句子与句子之间形成断句,预设分割端点可以看作是句子内部之间对句子成分之间形成停顿或者断句作用,可以像标点符号一样作为句子端点识别词边界。所述常用字和常用词在切分文本中作为独立特征使用,把停用字和停用词作为切分文本语料以获取候选词的左边界和右边界,所述停用字比如“在”、“我”、“的”等,停用词包括“我们”“你们”“这些”等本身已经不可拆分并且具有独立语义的固定词语,把它们作为候选词的词边界的左边界或者右边界,通过预设分割端点,可以有效的提高新词发现的准确率,提高新词识别的效率。
在切分文本语料以获得候选词时,加入属于人工句子端点的预设分割端点作为独立特征,结合标点符号作为切分所述文本语料的预设句子端点,不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,作为候选词,再对所述候选词进行满足预设条件的识别,识别出具有独立语义的候选新词,再把所有抽出来的候选新词和已有词库进行比较,筛选出现有词库中未包含的候选新词为识别出的新词,可以有效提高新词发现的准确率和召回率。
具体地,计算机设备在进行新词识别时,获取要进行新词识别的文本语料,所述文本语料可以为一段文字、一篇文章、一个网站的网页或者一本书籍等。根据包括标点符号、空格、回车、停用字和停用词等预设句子端点切分所述文本语料,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,获取切分后的候选词。比如,若N为5,将获得的文本语料切分为长度分别2、3、4、5的候选词,也就是以候选词为两个字、三个字、四个字、五个字等分别进行切分,获取切分后的候选词。比如,将文本语料“我非常热衷于用统计的方法去分析汉语资料。”,进行N元切分(假设N=3),预设句子端点为标点符号及“我”“的”及“非常”,切分后得到候选词包括:“热衷”、“热衷于”、“衷于”“衷于用”“于用”、“于用统”、“用统”、“用统计”、“统计”、“统计的”、“计的”、“的方”、“的方法”、“方法”、“方法去”、“法去”、“法去分”、“去分”、“去分析”、“分析”、“分析汉”、“析汉”、“析汉语”、“汉语”、“汉语资”、“语资”、“语资料”、“资料”、“资料的”、“料的”。
进一步地,N需要根据具体文本进行设置,比如“君子之交淡如水”为七个字的词语,“百尺竿头更进一步”为八个字的词语,而一些公司名字可以有更多的字,需要根据不同的文本语料设置具体的数字N。进一步地,针对同一文本语料,可以设置不同的数字N,比较不同的识别结果,将相同的识别结果去掉,从而筛选出长粒度新词,根据长粒度新词的识别结果,出结果比较理想的新词识别。
S220、判断所述候选词是否满足预设条件。
其中,所述预设条件是指识别所述候选词为所述候选新词的条件,若所述候选词满足所述预设条件,识别所述候选词为词语,判断所述候选词为候选新词,若所述候选词不满足预设条件,识别所述候选词不为词语,判断所述候选词不为候选新词。所述预设条件所述候选词分别满足所述词频、互信息和左右信息熵各自的第一预设阈值,或者所述候选词分别满足所述词频、互信息和句子端点各自的第二预设阈值。
具体地,计算机设备将获取的文本语料进行切分,获取作为候选词的文本片段,有的候选词是词语,有的不是词语,因此需要使用预设条件对所述候选词进行筛选,将不是词语的文本片段过滤掉,将是词语的文本片段保留,以做进一步识别。因此,判断所述候选词是否满足预设条件,以识别所述候选词是否成为词语,成为词语的候选词,识别为候选新词,进入步骤S230,若所述候选词不满足预设条件,表明所述候选词不能成为词语,进入步骤S221,将所述候选词过滤点,进行舍弃,以进一步缩小新词识别的范围,提高新词识别的效率和准确率。
S230、若所述候选词满足所述预设条件,将所述候选词确定为候选新词。
其中,所述候选新词是指识别为词语的候选词。通过N元切分,将所述文本语料切分成长度为2-N的候选词,其中有的候选词不能成为词语。比如,将文本语料“我非常热衷于用统计的方法去分析汉语资料。”,进行N元切分(假设N=3),预设句子端点为标点符号及“我”“的”及“非常”,切分后得到候选词中“于用”、“于用统”、“用统”、“计的”、“的方”及“的方法”等候选词,由人工根据经验判断明显不能成为词语,因此,对获得的候选词需要根据预设条件进行筛选,识别所述候选词为候选新词,且所述候选新词是指识别为词语的候选词,以过滤掉不能成为词语的文本片段,缩小新词识别的范围。
具体地,计算机设备对于获得的候选词进行筛选,对于不能成为词语的候选词,需要通过预设条件进行过滤,移除不能成为词语的候选词,只保留能成为词语的候选词,以进一步进行新词识别。若所述候选词满足所述预设条件,识别所述候选词为词语,判断所述候选词为候选新词,若所述候选词不满足预设条件,识别所述候选词不为词语,判断所述候选词不为候选新词,从而进一步缩小新词识别的范围,提高新词识别的准确率、效率和召回率。
比如,请参阅表格1。若设置候选词的最低左右信息熵的预设阈值为1,最低互信息的预设阈值为1,句子端点的预设阈值为3。其中,最低左右信息熵的预设阈值为1是指所述候选词的左邻字信息熵和右邻字信息熵中的较小值为1。句子端点的预设阈值是指所述候选词的左边界或者右边界的句子端点出现的次数。请参见表格1,在对一语料识别后,得到的结果如表格1所示,根据上述判断标准可知,“南山区”、“南山”、“普惠”被识别为候选新词,“去南山”不成词,被排除在候选新词外。
表格1
候选词 词频 互信息 左右信息熵 端点数 是否成词
南山区 175 5.7548 2.2881 8
去南山 23 0.8256 3.3751 3
南山 2774 9.6310 5.7200 28
普惠 18 2.3811 0.8332 3
S240、判断所述候选新词是否包含在所述预设词库中。
其中,预设词库,也可以称为已有词库,是指包含有已经确定为词语的已知词的集合,可以为预设词典。
具体地,计算机设备通过N元切分将所述文本语料切分成长度为2-N的候选词,候选词也就是对文本语料经过切分获取的文本片段。若所述候选词满足所述预设条件,将所述候选词确定为候选新词,识别出候选新词,只是从候选词中筛选出了能够成为词语的文本片段。候选新词中包含有自然语言处理技术中已经确认为词语的词和新识别出来的词语,因此需要将已经确认为词语的词过滤掉,筛选出来为识别出来的新词。预设词库中包含有自然语言处理技术中已经确认为词语的词,所述预设词库为传统技术中已有的各种现有词典,也可以为由人工设置的词库,比如设置传统技术中已有的几本词典的集合为词库,所述预设词库中还可以包含以往识别出来的新词。使用预设词库过滤所述候选新词,以判断所述候选新词是否包含在所述预设词库中,也就是检测所述候选新词是否包含在所述预设词库中,可以采用匹配的方式,若所述候选新词能在所述预设词库中匹配得到,判断所述候选新词包含在所述预设词库中,进入步骤S241,所述候选新词为已知的词语,过滤掉已有词;若所述候选新词未能在所述预设词库中匹配得到,判断所述候选新词未包含在所述预设词库中,所述候选新词为未知的词语,为识别出来的新词,进入步骤S250。比如,请参见表格1,在对一语料识别后,得到的结果如表格1所示,若“南山区”、“南山”及“普惠”被识别为候选新词,则用预设词典过滤获得的候选新词“南山区”、“南山”及“普惠”,若候选新词“南山区”、“南山”在所述预设词库中,“南山区”及“南山”为已知的旧词,若候选新词“普惠”未包含在所述预设词库中,判定“普惠”为识别出来的新词。
S250、若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。
具体地,若所述候选新词未包含在所述预设词库中,认为所述候选新词不为已知的词语,所述候选新词为未知的词语,为识别出来的新词,识别出来的新词一般是在以往未见过的词语,从而完成对所给文本语料的新词识别。比如,请参见表格1,在对一语料识别后,得到的结果如表格1所示,若识别出来的候选新词“普惠”未包含在所述预设词库中,判断“普惠”为识别出来的新词。
本申请实施例在切分文本语料以获得候选词时,加入由人工设置的预设句子端点作为独立特征,作为切分所述文本语料的依据,将文本语料进行准确切分,以获取长度为2-N候选词,不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,作为候选词,再对所述候选词进行满足预设条件的识别,识别出具有独立语义的候选新词,再把所有抽出来的候选新词和已有词库进行比较,筛选出现有词库中未包含的候选新词为识别出的新词,可以有效提高新词发现的准确率、效率和召回率。
在一个实施例中,所述判断所述候选词是否满足预设条件的步骤包括:
获取所述候选词的互信息和左右信息熵,并且获取所述候选词的词频,其中,所述左右信息熵是指所述候选词的左邻字信息熵和右邻字信息熵中的较小值;
判断所述候选词的词频、互信息和左右信息熵是否分别大于或等于词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值;
若所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,判定所述候选词满足预设条件。
其中,互信息是指候选词的内部凝聚力,也可以称为候选词的内部凝固程度或者凝合程度。互信息的公式为:
其中w表示候选词,p(x)为候选词x在整个语料中出现的概率,l表示组成候选词的左字符串,r表示组成候选词的右字符串。
比如,在一个包含候选词“南山区”的语料中,若“南山区”由“南山”和“区”组成,“南山”为候选词“南山区”的左字符串,“区”为候选词“南山区”的右字符串。如果“南山”和“区”是各自独立地在文本语料中随机出现,它俩正好拼到一起的概率是多少呢?若在所述文本语料整个2400万字的数据中,“南山”一共出现了2774次,出现的概率约为0.000113,“区”出现了4797次,出现的概率约为0.0001969。如果两者之间毫无关系,它们恰好拼在了一起的概率就应该是0.000113×0.0001969,约为2.223×10-8次方。但“南山区”在语料中一共出现了175次,出现概率约为7.183×10-6次方,是预测值的300多倍。同样地,在所述文本语料中,统计可得“去”字的出现概率约为0.0166,因而“去”和“南山”随机组合到了一起的理论概率值为0.0166×0.000113,约为1.875×10-6,这与“去南山”出现的真实概率很接近,真实概率约为1.6×10-5次方,是预测值的8.5倍。结果表明,“南山区”更可能是一个有意义的搭配,而“去南山”则更像是“去”和“南山”这两个成分偶然拼到一起的。但是,在新词识别中,无法判断“南山区”是“南山”加“区”得来的,也无法判断“去南山”是“去”加上“南山”得来的。错误的切分方法会过高地估计该片段的凝合程度。如果把“南山区”看作是“南”加“山区”所得,由此得到的凝合程度会更高一些。因此,为了算出一个候选词的凝合程度,采取枚举它的凝合方式,这个候选词是由哪两部分组合而来的。令p(x)为候选词x在整个语料中出现的概率,那么定义“南山区”的凝合程度就是p(南山区)与p(南)*p(山区)比值和p(南山区)与p(南山)*p(区)的比值中的较小值,“去南山”的凝合程度则是p(去南山)分别除以p(去)*p(南山)和p(去南)*p(山)所得的互信息的较小值。可以得到,凝合程度最高的候选词就是诸如“蝙蝠”、“蜘蛛”、“彷徨”、“忐忑”、“玫瑰”之类的词,这些词里的每一个字几乎总是会和另一个字同时出现,从不在其他场合中使用。
信息熵是指候选词的自由程度,也就是所述候选词的左邻字或者右邻字的丰富程度,所述候选词的信息熵与该候选词的左邻字或者右邻字的数量成正比,若所述候选词能够搭配更多的左邻字或者右邻字,所述候选词的对应信息熵越大,若所述候选词能够搭配更少的左邻字或者右邻字,所述候选词的对应信息熵越小。候选词的信息熵又可以称为左右信息熵,一个候选词的左右信息熵,也就是该候选词的自由程度定义为它的左邻字信息熵和右邻字信息熵中的较小值。
进一步地,左邻字信息熵,又称为左信息熵,是指所述候选词的左邻字丰富程度,也就是所述候选词左侧能够搭配的字词的数量,左信息熵的公式为:
HL(W)=-∑ap(a|W)logp(a|W), 公式(2)
其中W表示候选词,a表示候选词左边的字,p(a|W)表示候选词左边出现字a的概率,其中,p(a|W)是条件概率。条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:p(A|B),读作“在B的条件下A的概率”。
右邻字信息熵,又称为右左信息熵,是指所述候选词的右邻字丰富程度,也就是所述候选词右侧能够搭配的字词的数量,右信息熵的公式为:
HR(W)=-∑bp(b|W)logp(b|W), 公式(3)
其中W表示候选词,b表示候选词右边的字,p(b|W)表示候选词右边出现字b的概率。
一个词能否出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合,自由程度用信息熵来表述,通过信息熵能够反映,知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为p,当你知道它确实发生了,你得到的信息量就被定义为–log(p)。用信息熵来衡量一个候选词的左邻字集合和右邻字集合有多随机,比如,“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”一词出现了四次,其中左邻字分别为{吃,吐,吃,吐},右邻字分别为{不,皮,倒,皮}。根据公式(2)和(3),“葡萄”一词的左邻字的信息熵为–(1/2)*log(1/2)–(1/2)*log(1/2)≈0.693,它的右邻字的信息熵则为–(1/2)*log(1/2)–(1/4)*log(1/4)–(1/4)*log(1/4)≈1.04。可见,在这个句子中,“葡萄”一词的右邻字更加丰富一些。
词频,英文为TermFrequency,简写为TF,是指在一份给定的文本语料中,一个给定的词语在该文本语料中出现的次数,字词的重要性随着它在文件中出现的次数成正比增加。获得识别新词的文本语料后,统计各个候选词出现的次数。比如,在一段2400万字的数据中,“南山”一共出现了2774次,“南山”的词频为2774次,“区”字则出现了4797次,“区”的词频为4797次。
具体地,能够反映候选词的词边界信息的参数包括候选词的句子端点和左右信息熵。由于句子端点和左右信息熵反映的均为候选词的词边界信息,因此句子端点和左右信息熵在候选词的识别中所起的作用是一样的,在新词识别过程中,两者满足其中一个条件即可。在本实施例中,若所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,判定所述候选词满足预设条件,将所述候选词确定为候选新词为例,也就是所述候选词的词频满足词频的第一预设阈值,互信息满足互信息的第一预设阈值,左右信息熵满足左右信息熵的第一预设阈值。比如,若候选词的词频的第一预设阈值为10,所述候选词的互信息的第一预设阈值为1,所述候选词的左右信息熵的第一预设阈值为1,切分的候选词分别满足词频、互信息和左右信息熵各自的第一预设阈值,是指所述候选词的词频大于或者等于10,互信息大于或者等于1和左右信息熵大于或者等于1。比如,若切分的候选词的词频大于10、互信息大于1和左信息熵大于1,则判断该候选词为候选新词,或者若切分的候选词的互信息大于1和右信息熵大于1,则也可以判断该候选词为候选新词。请继续参见表格1,在表格1中,由于“南山区”和“南山”的互信息和左右信息熵均大于1,识别“南山区”和“南山”为候选新词。而由于“去南山”的互信息小于1,“普惠”的左右信息熵小于1,通过互信息和左右信息熵识别新词时,“去南山”和“普惠”不为候选新词。
综上所述,在表格1涉及的语料进行的新词识别中,“南山区”和“南山”为候选新词,“去南山”和“普惠”不为候选新词。本申请实施例中,通过将包含停用词、停用字、空格、回车的预设分割端点及标点符号作为候选词的左右词边界,通过词边界的统计,统计候选词的左右信息熵,由于细化了新词识别的粒度,通过候选词左右信息熵的统计,可有效发现低频及长粒度新词,可以有效提高新词识别的效率和准确率。
进一步地,若所述候选词的词频第一预设阈值、互信息第一预设阈值、左右信息熵第一预设阈值设置的分别越大,识别出来的候选新词越准确,所述候选词的词频第一预设阈值、互信息第一预设阈值、左右信息熵第一预设阈值设置的分别越小,识别出来的候选新词越多。
在一个实施例中,所述判断所述候选词是否满足预设条件的步骤包括:
获取所述候选词的互信息,并且获取所述候选词的词频及所述候选词的句子端点数,所述句子端点数是指所述候选词的左端点数或者所述候选词的右端点数,所述左端点数是指所述候选词的左端点出现的次数,所述右端点数是指所述候选词的右端点出现的次数;
判断所述候选词的词频、互信息和句子端点数是否分别大于或等于词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值;
若所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件。
其中,所述候选词的端点是指所述候选词的左邻词边界和右邻词边界,其中,词边界是指词语的分界边缘,也就是词语的分界线,通过分界线将文本语料进行划分为不同的候选词。所述候选词的左端点是指所述候选词的左邻词边界,候选词的右端点是指所述候选词的右邻词边界。左右端点数,是指候选词的左邻词边界和右邻词边界各自出现的次数,词边界包括标点符号及预设分割端点包括的空格、回车、停用词及停用字等。为了便于统计所述候选词的左右端点数,可以用统一标识符替换所述文本语料中作为词边界的所述预设句子端点。如果词边界用统一标识符进行了替换,则左右端点数为候选词左边出现的标识符数和候选词右边出现的标识符数。比如,若统一标识符为“*”的文本,一语料为:“电影院是为观众放映电影的场所。随着电影的进步与发展,出现了专门为放映电影而建造的电影院。电影的发展使电影院的形体、尺寸、比例和声学技术都发生了很大变化。电影院必须满足电影放映的工艺要求。”用统一标识符替换句子端点后为:“电影院*为观众放映电影*场所*随着电影的进步与发展*出现了专门为放映电影而建造*电影院*电影的发展*电影院*形体、尺寸、比例和声学技术都发生了很大变化*电影院*满足电影放映*工艺要求*”,从中,可知,候选词“电影院”的左端点出现了3次,右端点出现了4次。将包含停用词、停用字的预设分割端点、空格、回车及标点符号作为候选词的左右词边界,通过词边界的统计,统计候选词的左右端点的出现次数,由于细化了新词识别的粒度,通过候选词端点的统计,可有效发现低频及长粒度新词,可以有效提高新词识别的效率和准确率。
具体地,由于候选词的句子端点和左右信息熵反映的均为候选词的词边界信息,因此句子端点和左右信息熵在候选词的识别中所起的作用是一样的,在新词识别过程中,两者满足其中一个条件即可。在本实施例中,以所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件,将所述候选词确定为候选新词为例。比如,若候选词的词频第二预设阈值为10,设置所述候选词的最低左右信息熵的第二预设阈值为1,句子端点的第一预设阈值为3。其中,最低左右信息熵的第二预设阈值为1是指候选词的左邻字信息熵和右邻字信息熵中的较小值为1。句子端点第一预设阈值是指候选词的左边界或者右边界的句子端点出现的次数。请参见表格1,在对一语料识别后,得到的结果如表格1所示,若切分的候选词分别满足互信息第二预设阈值和句子端点数第一预设阈值,是指候选词的互信息大于1和句子端点出现的次数大于3,若切分的候选词的互信息大于1和句子端点出现的次数大于3,则判断该候选词为候选新词。请继续参见表格1,在表格1中,由于“南山区”、“南山”和“普惠”的互信息和句子端点数均大于3,判断“南山区”、“南山”和“普惠”为候选新词。而由于“去南山”的互信息小于1,并且句子端点数等于3,不满足大于3的条件,通过互信息和句子端点数识别新词时,“去南山”不为候选新词。根据上述判断标准可知,“南山区”、“南山”、“普惠”被识别为候选新词,“去南山”不成词,被排除在候选新词外。综上所述,在表格1涉及的语料进行的新词识别中,“南山区”、“南山”和“普惠”为候选新词,“去南山”不为候选新词。
请参阅图3,图3为本申请另一个实施例提供的新词识别方法的流程示意图。如图3所示,在该实施例中,所述判断所述候选词是否满足预设条件的步骤包括:
S211、获取所述候选词的互信息和左右信息熵,并且获取所述候选词的词频及所述候选词的句子端点数,其中,所述左右信息熵是指所述候选词的左邻字信息熵和右邻字信息熵中的较小值;
S212、判断所述候选词的词频、互信息和左右信息熵是否分别大于或等于词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,或者所述候选词的词频、互信息和句子端点数是否分别大于或等于词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值;
S213、若所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,或者所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件。
其中,所述词频第一预设阈值与所述词频第二预设阈值可以对应相同,所述互信息第一预设阈值与所述互信息第二预设阈值可以对应相同。
具体地,计算机设备根据所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,判定所述候选词满足预设条件,识别出来的第一候选新词,结合所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件,识别所述候选词为第二候选新词,取所述第一候选新词和所述第二候选新词的并集,作为识别的最终候选新词,可以提高候选新词的准确率,进入步骤S230,以进一步识别候选新词,否则,若所述候选词不满足上述条件,进入步骤S221,所述候选词不能成为词,舍弃掉所述候选词。请继续参阅表格1,根据若所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,判定所述候选词满足预设条件,将所述候选词确定为候选新词,识别“南山区”和“南山”为候选新词,“去南山”和“普惠”不为候选新词,而根据若所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件,将所述候选词确定为候选新词,“南山区”、“南山”、“普惠”被识别为候选新词,“去南山”不成词,被排除在候选新词外,将两者结合起来,识别“南山区”、“南山”、“普惠”被识别为候选新词,从而避免识别“普惠”不为候选新词,识别出“普惠”为候选新词,提高了新词识别的准确率。
本申请实施例中,通过将包含停用词、停用字、空格、回车的预设分割端点及标点符号作为候选词的左右词边界,通过词边界的统计,统计候选词的左右端点的出现次数,由于细化了新词识别的粒度,通过候选词端点的统计,可有效发现低频及长粒度新词,可以有效提高新词识别的效率和准确率。
进一步地,若所述词频的预设阈值、互信息的预设阈值、左右信息熵的预设阈值和句子端点信息的预设阈值设置的分别越大,候选新词的识别越准确,若所述词频的预设阈值、互信息的预设阈值、左右信息熵的预设阈值和句子端点信息的预设阈值设置的分别越小,识别出来的候选新词越多。
在一个实施例中,所述根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2的步骤之前还包括:使用统一标识符替换所述文本语料中的所述预设句子端点。
具体地,使用统一标识符替换所述文本语料中的所述预设句子端点,是指将所述预设句子端点包括的标点符号及包括停用字、停用词、回车和空格的预设分割端点用统一标识符进行置换。比如,设置统一标识符为“*”、“#”或者“△”等标识符号,将标点符号和预设分割端点在文本中用统一标识符替代,可以方便后续句子端点数统计,从而提高所述文本语料的切分效率,提高所述文本语料的新词识别效率。比如,用“*”作为统一标识符替换所述预设句子端点中的标点符号、停用字及停用词,一段文本语料替换前为“我非常热衷于用统计的方法去分析汉语资料。”,用“*”作为统一标识符替换所述预设句子端点中的“我”、“的”及“。”后的文本语料为“*热衷于用统计*方法去分析汉语资料*”。
把停用字、停用词空格及回车作为预设分割端点,将空格、回车、停用字、停用词及标点符号替换为“*”,置换所述预设句子端点后,将文本通过N元切分成长度为2-N的候选词,并统计各个候选词出现的次数,比如,在一段2400万字的数据中,“南山”一共出现了2774次,“区”字则出现了4797次。
请继续参阅图3,在该实施例中,所述若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词的步骤之后还包括:
S260、获取所述新词的长度,判断所述新词的长度是否大于或者等于预设长度阈值;
S261若所述新词的长度大于或者等于所述预设长度阈值,识别所述新词为长粒度新词;
S262、若所述新词的长度小于所述预设长度阈值,识别所述新词为非长粒度新词。
其中,新词的长度是指新词包含的字符个数,比如词语“电影院”包含三个文字,“电影院”词语的长度为3。
预设长度阈值是指预先设置的词语的长度临界值。预设长度阈值可以由人工进行设置。
具体地,长粒度新词是指识别的新词包含的字符数大于或者等于预设长度阈值的词。比如,若设置的预设长度阈值为5,则识别出的新词若包含超过五个字符或者等于五个字符,识别该新词为长粒度新词。针对长粒度新词,可以根据长粒度新词的属性,进行对应处理。
请继续参阅图3,在该实施例中,所述若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词的步骤之后还包括:
S270、获取所述新词的词频,判断所述新词的词频是否低于预设词频阈值;
S271、若所述新词出现的词频低于所述预设词频阈值,识别所述新词为低频新词;
S272、若所述新词出现的词频大于或者等于所述预设词频阈值,识别所述新词为非低频新词。
其中,低频新词是指识别出的新词的在所述文本语料中词频低于预设词频阈值。
具体地,若预设词频阈值为10,计算机设备识别出的新词中,若识别出的新词的词频小于10,则该新词为低频新词。由于低频新词为不常用新词,在进行新词识别时,根据不同的文本语料,可以选择将低频新词包含或者不包含进预设词库。若选择将低频新词不包含进预设词库,可以减小预设词库的数量,提高新词识别过程中与预设词库的匹配效率,提高新词识别的效率。
需要说明的是,上述各个实施例所述的新词识别方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图4,图4为本申请实施例提供的新词识别装置的示意性框图。对应于上述新词识别方法,本申请实施例还提供一种新词识别装置。请参阅图4,该新词识别装置包括用于执行上述新词识别方法的单元,该装置可以被配置于台式机电脑等计算机设备中。具体地,请参阅图4,该新词识别装置400包括切分单元401、判断单元402、第一识别单元403、过滤单元404及第二识别单元405。
其中,切分单元401,用于获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,所述候选词是指切分所述文本语料获取的文本片段;
判断单元402,用于判断所述候选词是否满足预设条件;
第一识别单元403,用于若所述候选词满足所述预设条件,将所述候选词确定为候选新词;
过滤单元404,用于判断所述候选新词是否包含在所述预设词库中;以及
第二识别单元405,用于若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。
在一个实施例中,所述预设句子端点包括标点符号和预设分割端点,所述预设分割端点是指所述文本语料中除标点符号外预先被设置为句子端点的成分。
请参阅图5,图5为本申请另一个实施例提供的新词识别装置的示意性框图。如图5所示,在该实施例中,所述判断单元402包括:
第一获取子单元4021,用于获取所述候选词的互信息和左右信息熵,并且获取所述候选词的词频,其中,所述左右信息熵是指所述候选词的左邻字信息熵和右邻字信息熵中的较小值;
第一判断子单元4022,用于判断所述候选词的词频、互信息和左右信息熵是否分别大于或等于词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值;
第一判定子单元4023,用于若所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,判定所述候选词满足预设条件。
在一个实施例中,所述判断单元402包括:
第二获取子单元,用于获取所述候选词的互信息,并且获取所述候选词的词频及所述候选词的句子端点数,所述句子端点数是指所述候选词的左端点数或者所述候选词的右端点数,所述左端点数是指所述候选词的左端点出现的次数,所述右端点数是指所述候选词的右端点出现的次数;
第二判断子单元,用于判断所述候选词的词频、互信息和句子端点数是否分别大于或等于词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值;
第二判定子单元,用于若所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件。
请继续参阅图5,在该实施例中,所述装置400还包括:
替换单元406,用于使用统一标识符替换所述文本语料中的所述预设句子端点。
请继续参阅图5,在该实施例中,所述装置400还包括:
第三获取单元407,用于获取所述新词的长度,判断所述新词的长度是否大于或者等于预设长度阈值;
第三识别单元408,用于若所述新词的长度大于或者等于所述预设长度阈值,识别所述新词为长粒度新词。
请继续参阅图5,在该实施例中,所述装置400还包括:
第四获取单元409,用于获取所述新词的词频,判断所述新词的词频是否低于预设词频阈值;
第四识别单元410,用于若所述新词的词频低于所述预设词频阈值,识别所述新词为低频新词。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述新词识别装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述新词识别装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将新词识别装置按照需要划分为不同的单元,也可将新词识别装置中各单元采取不同的连接顺序和方式,以完成上述新词识别装置的全部或部分功能。
上述新词识别装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备600可以是台式机电脑或者平板电脑等电子设备,也可以是其他设备中的组件或者部件。
参阅图6,该计算机设备600包括通过系统总线601连接的处理器602、存储器和网络接口605,其中,存储器可以包括非易失性存储介质603和内存储器604。
该非易失性存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032被执行时,可使得处理器602执行一种上述新词识别方法。
该处理器602用于提供计算和控制能力,以支撑整个计算机设备600的运行。
该内存储器604为非易失性存储介质603中的计算机程序6032的运行提供环境,该计算机程序6032被处理器602执行时,可使得处理器602执行一种上述新词识别方法。
该网络接口605用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备600的限定,具体的计算机设备600可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图6所示实施例一致,在此不再赘述。
其中,所述处理器602用于运行存储在存储器中的计算机程序6032,以实现如下步骤:获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,所述候选词是指切分所述文本语料获取的文本片段;判断所述候选词是否满足预设条件;若所述候选词满足所述预设条件,将所述候选词确定为候选新词;判断所述候选新词是否包含在所述预设词库中;以及若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。
在一实施例中,所述处理器602在实现上述步骤时,所述预设句子端点包括标点符号和预设分割端点,所述预设分割端点是指所述文本语料中除标点符号外预先被设置为句子端点的成分。
在一实施例中,所述处理器602在实现上述步骤时,所述判断所述候选词是否满足预设条件的步骤包括:
获取所述候选词的互信息和左右信息熵,并且获取所述候选词的词频,其中,所述左右信息熵是指所述候选词的左邻字信息熵和右邻字信息熵中的较小值;
判断所述候选词的词频、互信息和左右信息熵是否分别大于或等于词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值;
若所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,判定所述候选词满足预设条件。
在一实施例中,所述处理器602在实现上述步骤时,所述判断所述候选词是否满足预设条件的步骤包括:
获取所述候选词的互信息,并且获取所述候选词的词频及所述候选词的句子端点数,所述句子端点数是指所述候选词的左端点数或者所述候选词的右端点数,所述左端点数是指所述候选词的左端点出现的次数,所述右端点数是指所述候选词的右端点出现的次数;
判断所述候选词的词频、互信息和句子端点数是否分别大于或等于词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值;
若所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件。
在一实施例中,所述处理器602在实现上述步骤时,所述根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2的步骤之前还包括:
使用统一标识符替换所述文本语料中的所述预设句子端点。
在一实施例中,所述处理器602在实现上述步骤时,所述若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词的步骤之后还包括:
获取所述新词的长度,判断所述新词的长度是否大于或者等于预设长度阈值;
若所述新词的长度大于或者等于所述预设长度阈值,识别所述新词为长粒度新词。
在一实施例中,所述处理器602在实现上述步骤时,所述若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词的步骤之后还包括:
获取所述新词的词频,判断所述新词的词频是否低于预设词频阈值;
若所述新词的词频低于所述预设词频阈值,识别所述新词为低频新词。
应当理解,在本申请实施例中,处理器602可以是中央处理单元(CentralProcessingUnit,CPU),该处理器602还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种存储介质。该存储介质可以为非易失性的计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的新词识别方法的步骤。
所述存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种新词识别方法,其特征在于,所述方法包括:
获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,所述候选词是指通过切分所述文本语料获取的文本片段;
判断所述候选词是否满足预设条件;
若所述候选词满足所述预设条件,将所述候选词确定为候选新词;
判断所述候选新词是否包含在所述预设词库中;以及
若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。
2.根据权利要求1所述新词识别方法,其特征在于,所述预设句子端点包括标点符号和预设分割端点,所述预设分割端点是指所述文本语料中除标点符号外预先被设置为句子端点的成分。
3.根据权利要求1所述新词识别方法,其特征在于,所述判断所述候选词是否满足预设条件的步骤包括:
获取所述候选词的互信息和左右信息熵,并且获取所述候选词的词频,其中,所述左右信息熵是指所述候选词的左邻字信息熵和右邻字信息熵中的较小值;
判断所述候选词的词频、互信息和左右信息熵是否分别大于或等于词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值;
若所述候选词的词频、互信息和左右信息熵分别大于或者等于所述词频第一预设阈值、互信息第一预设阈值以及左右信息熵第一预设阈值,判定所述候选词满足预设条件。
4.根据权利要求1所述新词识别方法,其特征在于,所述判断所述候选词是否满足预设条件的步骤包括:
获取所述候选词的互信息,并且获取所述候选词的词频及所述候选词的句子端点数,所述句子端点数是指所述候选词的左端点数或者所述候选词的右端点数,所述左端点数是指所述候选词的左端点出现的次数,所述右端点数是指所述候选词的右端点出现的次数;
判断所述候选词的词频、互信息和句子端点数是否分别大于或等于词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值;
若所述候选词的词频、互信息和句子端点数分别大于或等于所述词频第二预设阈值、互信息第二预设阈值以及句子端点数第一预设阈值,判定所述候选词满足预设条件。
5.根据权利要求1-4任一项所述新词识别方法,其特征在于,所述根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词的步骤之前还包括:
使用统一标识符替换所述文本语料中的所述预设句子端点。
6.根据权利要求1-4任一项所述新词识别方法,其特征在于,所述若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词的步骤之后还包括:
获取所述新词的长度,判断所述新词的长度是否大于或者等于预设长度阈值;
若所述新词的长度大于或者等于所述预设长度阈值,识别所述新词为长粒度新词。
7.根据权利要求1-4任一项所述新词识别方法,其特征在于,所述若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词的步骤之后还包括:
获取所述新词的词频,判断所述新词的词频是否低于预设词频阈值;
若所述新词的词频低于所述预设词频阈值,识别所述新词为低频新词。
8.一种新词识别装置,其特征在于,包括:
切分单元,用于获取文本语料,根据预设句子端点,通过N元切分将所述文本语料切分成长度为2-N的候选词,其中,N为自然数,且N≥2,所述候选词是指切分所述文本语料获取的文本片段;
判断单元,用于判断所述候选词是否满足预设条件;
第一识别单元,用于若所述候选词满足所述预设条件,将所述候选词确定为候选新词;
过滤单元,用于判断所述候选新词是否包含在所述预设词库中;以及
第二识别单元,用于若所述候选新词不包含在所述预设词库中,将所述候选新词确定为新词。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-7任一项所述新词识别方法的步骤。
10.一种计算机存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述新词识别方法的步骤。
CN201811191755.9A 2018-10-12 2018-10-12 新词识别方法、装置、计算机设备及存储介质 Active CN109408818B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811191755.9A CN109408818B (zh) 2018-10-12 2018-10-12 新词识别方法、装置、计算机设备及存储介质
PCT/CN2018/124797 WO2020073523A1 (zh) 2018-10-12 2018-12-28 新词识别方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811191755.9A CN109408818B (zh) 2018-10-12 2018-10-12 新词识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109408818A true CN109408818A (zh) 2019-03-01
CN109408818B CN109408818B (zh) 2023-04-07

Family

ID=65467079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811191755.9A Active CN109408818B (zh) 2018-10-12 2018-10-12 新词识别方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN109408818B (zh)
WO (1) WO2020073523A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110222157A (zh) * 2019-06-20 2019-09-10 贵州电网有限责任公司 一种基于海量文本的新词发现方法
CN110457595A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN110569504A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 一种关系词确定方法及装置
CN110825840A (zh) * 2019-11-08 2020-02-21 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
CN110866400A (zh) * 2019-11-01 2020-03-06 中电科大数据研究院有限公司 一种自动化更新的词法分析系统
CN110990571A (zh) * 2019-12-02 2020-04-10 精硕科技(北京)股份有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN110991173A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN111061924A (zh) * 2019-12-11 2020-04-24 北京明略软件系统有限公司 词组提取方法、装置、设备和存储介质
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111274361A (zh) * 2020-01-21 2020-06-12 北京明略软件系统有限公司 一种行业新词发现方法、装置、存储介质及电子设备
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN111626053A (zh) * 2020-05-21 2020-09-04 北京明亿科技有限公司 新作案手段描述词识别方法与装置、电子设备及存储介质
CN111626054A (zh) * 2020-05-21 2020-09-04 北京明亿科技有限公司 新违法行为描述词识别方法与装置、电子设备及存储介质
CN111931491A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 领域词典构建方法及装置
CN111966791A (zh) * 2020-09-03 2020-11-20 深圳市小满科技有限公司 海关数据产品词的提取方法及检索方法
CN112329458A (zh) * 2020-05-21 2021-02-05 北京明亿科技有限公司 新组织描述词识别方法与装置、电子设备及存储介质
CN112380856A (zh) * 2020-10-20 2021-02-19 湖南大学 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质
CN112463969A (zh) * 2020-12-08 2021-03-09 上海烟草集团有限责任公司 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
CN112487132A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 关键词的确定方法和相关设备
WO2021051600A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于信息熵识别新词的方法、装置、设备及存储介质
CN113449082A (zh) * 2021-07-16 2021-09-28 上海明略人工智能(集团)有限公司 一种新词发现方法、系统、电子设备及介质
CN113468879A (zh) * 2021-07-16 2021-10-01 上海明略人工智能(集团)有限公司 一种未登录词的判断方法、系统、电子设备及介质
CN113779200A (zh) * 2021-09-14 2021-12-10 中国电信集团系统集成有限责任公司 目标行业词库的生成方法、处理器及装置
CN114218938A (zh) * 2021-12-13 2022-03-22 北京智齿众服技术咨询有限公司 一种分词方法、装置、电子设备和存储介质
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914554A (zh) * 2020-08-19 2020-11-10 网易(杭州)网络有限公司 领域新词识别模型的训练方法、领域新词识别方法及设备
CN113033183B (zh) * 2021-03-03 2023-10-27 西北大学 一种基于统计量与相似性的网络新词发现方法及系统
CN113609844B (zh) * 2021-07-30 2024-03-08 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055168A1 (en) * 2007-08-23 2009-02-26 Google Inc. Word Detection
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
US20180217979A1 (en) * 2016-02-18 2018-08-02 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970919B (zh) * 2016-01-14 2020-05-12 北京国双科技有限公司 新词组发现的方法及装置
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
CN108536667B (zh) * 2017-03-06 2021-12-07 中国移动通信集团广东有限公司 中文文本识别方法及装置
CN107180025B (zh) * 2017-03-31 2020-05-29 北京奇艺世纪科技有限公司 一种新词的识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055168A1 (en) * 2007-08-23 2009-02-26 Google Inc. Word Detection
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
US20180217979A1 (en) * 2016-02-18 2018-08-02 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110222157A (zh) * 2019-06-20 2019-09-10 贵州电网有限责任公司 一种基于海量文本的新词发现方法
CN110457595A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN110457595B (zh) * 2019-08-01 2023-07-04 腾讯科技(深圳)有限公司 突发事件报警方法、装置、系统、电子设备及存储介质
CN110569504A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 一种关系词确定方法及装置
CN110569504B (zh) * 2019-09-04 2022-11-15 北京明略软件系统有限公司 一种关系词确定方法及装置
CN112487132A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 关键词的确定方法和相关设备
WO2021051600A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于信息熵识别新词的方法、装置、设备及存储介质
CN110866400B (zh) * 2019-11-01 2023-08-04 中电科大数据研究院有限公司 一种自动化更新的词法分析系统
CN110866400A (zh) * 2019-11-01 2020-03-06 中电科大数据研究院有限公司 一种自动化更新的词法分析系统
CN110825840A (zh) * 2019-11-08 2020-02-21 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
CN110825840B (zh) * 2019-11-08 2023-02-17 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
CN110991173B (zh) * 2019-11-29 2023-09-29 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN110991173A (zh) * 2019-11-29 2020-04-10 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN110990571B (zh) * 2019-12-02 2024-04-02 北京秒针人工智能科技有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN110990571A (zh) * 2019-12-02 2020-04-10 精硕科技(北京)股份有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
CN111125327A (zh) * 2019-12-11 2020-05-08 中国建设银行股份有限公司 一种基于短会话的新词发现方法、存储介质和电子装置
CN111061924A (zh) * 2019-12-11 2020-04-24 北京明略软件系统有限公司 词组提取方法、装置、设备和存储介质
CN111274361A (zh) * 2020-01-21 2020-06-12 北京明略软件系统有限公司 一种行业新词发现方法、装置、存储介质及电子设备
CN111460170B (zh) * 2020-03-27 2024-02-13 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN111460170A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN111626054A (zh) * 2020-05-21 2020-09-04 北京明亿科技有限公司 新违法行为描述词识别方法与装置、电子设备及存储介质
CN112329458B (zh) * 2020-05-21 2024-05-10 北京明亿科技有限公司 新组织描述词识别方法与装置、电子设备及存储介质
CN112329458A (zh) * 2020-05-21 2021-02-05 北京明亿科技有限公司 新组织描述词识别方法与装置、电子设备及存储介质
CN111626053B (zh) * 2020-05-21 2024-04-09 北京明亿科技有限公司 新作案手段描述词识别方法与装置、电子设备及存储介质
CN111626054B (zh) * 2020-05-21 2023-12-19 北京明亿科技有限公司 新违法行为描述词识别方法与装置、电子设备及存储介质
CN111626053A (zh) * 2020-05-21 2020-09-04 北京明亿科技有限公司 新作案手段描述词识别方法与装置、电子设备及存储介质
CN111931491B (zh) * 2020-08-14 2023-11-14 中国工商银行股份有限公司 领域词典构建方法及装置
CN111931491A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 领域词典构建方法及装置
CN111966791A (zh) * 2020-09-03 2020-11-20 深圳市小满科技有限公司 海关数据产品词的提取方法及检索方法
CN111966791B (zh) * 2020-09-03 2024-04-19 深圳市小满科技有限公司 海关数据产品词的提取方法及检索方法
CN112380856B (zh) * 2020-10-20 2023-09-29 湖南大学 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质
CN112380856A (zh) * 2020-10-20 2021-02-19 湖南大学 一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质
CN112463969A (zh) * 2020-12-08 2021-03-09 上海烟草集团有限责任公司 卷烟品牌和品规行话新词的检测方法、系统、设备及介质
CN113468879A (zh) * 2021-07-16 2021-10-01 上海明略人工智能(集团)有限公司 一种未登录词的判断方法、系统、电子设备及介质
CN113449082A (zh) * 2021-07-16 2021-09-28 上海明略人工智能(集团)有限公司 一种新词发现方法、系统、电子设备及介质
CN113779200A (zh) * 2021-09-14 2021-12-10 中国电信集团系统集成有限责任公司 目标行业词库的生成方法、处理器及装置
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质
CN114218938A (zh) * 2021-12-13 2022-03-22 北京智齿众服技术咨询有限公司 一种分词方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
WO2020073523A1 (zh) 2020-04-16
CN109408818B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109408818A (zh) 新词识别方法、装置、计算机设备及存储介质
CN105357586B (zh) 视频弹幕过滤方法及装置
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN107766328B (zh) 结构化文本的文本信息提取方法、存储介质和服务器
CN109299362A (zh) 相似企业推荐方法、装置、计算机设备及存储介质
CN106528532A (zh) 文本纠错方法、装置及终端
CN108536595B (zh) 测试用例智能化匹配方法、装置、计算机设备及存储介质
CN106528894B (zh) 设置标签信息的方法及装置
CN109766013A (zh) 诗词语句输入推荐方法、装置和电子设备
CN109345198A (zh) 简历筛选方法、装置、计算机设备及存储介质
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN105488023B (zh) 一种文本相似度评估方法及装置
CN106445918B (zh) 一种中文地址处理方法及系统
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN108959259B (zh) 新词发现方法及系统
WO2013166949A1 (en) System, apparatus and method for recommending thesaurus in input method
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN111309916B (zh) 摘要抽取方法和装置、存储介质和电子装置
CN112784574B (zh) 一种文本分割方法、装置、电子设备及介质
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN111767393A (zh) 一种文本核心内容提取方法及装置
EP2869219A1 (en) Text processing apparatus, text processing method, and computer program product
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
WO2017071190A1 (zh) 输入数据的处理方法、装置、设备及非易失性计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant