CN106970904B - 新词发现的方法及装置 - Google Patents
新词发现的方法及装置 Download PDFInfo
- Publication number
- CN106970904B CN106970904B CN201610023772.6A CN201610023772A CN106970904B CN 106970904 B CN106970904 B CN 106970904B CN 201610023772 A CN201610023772 A CN 201610023772A CN 106970904 B CN106970904 B CN 106970904B
- Authority
- CN
- China
- Prior art keywords
- word
- candidate new
- new word
- statistical information
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种新词发现的方法及装置,涉及计算机技术领域,为解决现有技术中发现新词的方法中容易造成低频新词遗漏的问题而发明。本发明的方法包括:获取候选新词以及候选新词的子字符串,候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;根据候选新词的左右词缀的统计信息和子字符串的左右词缀的统计信息的关系,计算候选新词的词内统计信息值;根据候选新词的左右词缀的统计信息和候选新词在语料中的出现的频次,计算候选新词的词间统计信息值;根据词内统计信息值和词间统计信息值计算得到候选新词的成词得分;根据成词得分确定候选新词是否为新词。本发明适合应用在文本分析或者信息挖掘的过程中。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种新词发现的方法及装置。
背景技术
随着信息传播方式的便捷化,网络上新信息产生的速度越来越快,信息量在不断的膨胀,各种网络新词、流行语、行业新词层出不穷。而这些新词如何在文本处理和信息挖掘领域中被快速和有效地识别成为一大难点。通常在文本处理和信息挖掘中是使用词典或者词库进行词的识别,因此对于新词的识别同样也可以建立一个相对完整的新词库供研究分析者作为参考来进行新词的识别。
通常的新词库的建立使用的是传统的统计学方法从用于发现新词的语料中发现新词,然后将发现的新词组成新词库。具体的从语料中发现新词的过程是:首先从语料选出可能作为新词的候选新词;然后利用候选新词中字与字的共现特征,即根据候选新词中每个字单独出现的概率与候选新词中的字同时出现的概率来获得字与字之间的统计信息,然后依据字与字之间的统计信息找出语料中的新词。
上述传统的统计学方法发现新词的过程中仅考虑字与字之间的统计信息,该种方法仅分析候选新词中每个字单独出现的概率与候选新词中的字同时出现的概率,因此对语料的依赖性较大。对于在不同领域的混合语料中,其中出现频率较低的新词容易被过滤掉,造成新词的遗漏。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种新词发现的方法及装置。
为解决上述技术问题,一方面,本发明提供了一种新词发现的方法,该方法包括:
获取候选新词以及所述候选新词的子字符串,所述候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;
根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,所述左词缀为字符串左侧相邻的字符,所述右词缀为字符串右侧相邻的字符,所述词内统计信息值用于表征所述候选新词内部字符之间的聚合程度;
根据所述候选新词的左右词缀的统计信息和所述候选新词在所述语料中出现的频次,计算所述候选新词的词间统计信息值,所述词间统计信息值用于表征所述候选新词与所述候选新词相邻的字符搭配的固定程度;
根据所述词内统计信息值和所述词间统计信息值计算得到所述候选新词的成词得分;
根据所述成词得分确定所述候选新词是否为新词。
另一方面,本发明还提供了一种新词发现的装置,该装置包括:
获取单元,用于获取候选新词以及所述候选新词的子字符串,所述候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;
第一计算单元,用于根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,所述左词缀为字符串左侧相邻的字符,所述右词缀为字符串右侧相邻的字符,所述词内统计信息值用于表征所述候选新词内部字符之间的聚合程度;
第二计算单元,用于根据所述候选新词的左右词缀的统计信息和所述候选新词在所述语料中出现的频次,计算所述候选新词的词间统计信息值,所述词间统计信息值用于表征所述候选新词与所述候选新词相邻的字符搭配的固定程度;
第三计算单元,用于根据所述词内统计信息值和所述词间统计信息值计算得到所述候选新词的成词得分;
确定单元,用于根据所述成词得分确定所述候选新词是否为新词。
借由上述技术方案,本发明提供的新词发现的方法及装置,能够首先在用于发现新词的语料中获取满足预设频次阈值的字符串作为候选新词,并获取候选新词的子字符串,然后根据候选新词的左右词缀的统计信息和对应的子字符串的左右词缀的统计信息的关系,计算候选新词的词内统计信息值,并根据候选新词的左右词缀的统计信息和候选新词在语料中出现的频次,计算候选新词的词间统计信息值,最后根据得到的词内统计信息值和词间统计信息值计算候选新词的成词得分,并且根据成词得分确定候选新词是否为新词。与现有技术相比,本发明能够通过在语料中选出候选新词后,计算候选新词的词内统计信息值和词间统计信息值,然后根据两个值计算成词得分,进而来判断候选新词是否可以成为新词。另外在词内统计信息值和词间统计信息值计算时使用的是候选新词的左右词缀以及候选新词的子字符串的左右词缀的统计信息,这些都是候选新词附近的统计信息,因此,降低了对语料的依赖性,不会造成在不同领域的混合语料中低频新词的遗漏。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种新词发现的方法流程图;
图2示出了本发明实施例提供的另一种新词发现的方法流程图;
图3示出了本发明实施例提供的一种新词发现的装置的组成框图;
图4示出了本发明实施例提供的另一种新词发现的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决现有发现新词的方法中容易造成低频新词遗漏的问题,本发明实施例提供了一种新词发现的方法,如图1所示,该方法包括:
101、获取候选新词以及候选新词的子字符串。
在用于发现新词的语料中获取出现频次满足预设频次阈值的字符串,并将获取到的字符串确定为候选新词。需要说明的是,获取的符合预设频次阈值的字符串不包括现有词典中存在的词,在获取时会结合现有的词典将已经存在在词典中的词过滤掉。确定候选新词后,提取出每个候选新词的子字符串。
其中,用于发现新词的语料是通过数据收集工具收集得到的。通常的收集方式包括:使用网络爬虫爬取语料、通过第三方购买语料或者直接使用由科研机构提供的语料等多种收集方式。
另外需要说明的是本实施例中的新词是指未登录词,即没有在词典中出现的词。通常的新词包括:命名的实体,主要包括商品名、机构名等;新造词,主要包括:特定时间段内出现在网络上的流行语,如给力、正能量等;以及其他的专业术语或者音译词等。
102、根据候选新词的左右词缀的统计信息和子字符串的左右词缀的统计信息的关系,计算候选新词的词内统计信息值。
候选新词的左右词缀分别指:候选新词左侧相邻的字符以及候选新词右侧相邻的字符;同样子字符串的左右词缀分别指:子字符串左侧相邻的字符以及子字符串右侧相邻的字符。而其中的左右词缀的统计信息是指在步骤101中的用于发现新词的语料中统计候选新词以及子字符串的左右侧相邻的字符的统计特征值,并根据候选新词和子字符串分别对应的统计特征值的关系,计算候选新词的词内统计信息值。需要说明的是,词内统计信息值用于表征候选新词内部字符之间的聚合程度,词内统计信息值越大表示候选新词内部字符之间的聚合程度越高。
103、根据候选新词的左右词缀的统计信息和候选新词在语料中出现的频次,计算候选新词的词间统计信息值。
本步骤中候选新词的左右词缀的统计信息与步骤102中的候选新词左右词缀的统计信息是相同的,此处不再赘述。词间统计信息值是根据候选新词的左右词缀统计信息值和候选新词在用于发现新词的语料中出现的频次计算得到的,需要说明的是词间统计信息值用于表征候选新词与候选新词相邻的字符搭配的固定程度,词间统计信息值越大表示候选新词能够出现在不同的字符之间,即能够出现在不同的上下文环境中,可以更灵活地应用于不同的应用场景。
104、根据词内统计信息值和词间统计信息值计算得到候选新词的成词得分。
将由步骤102得到的词内统计信息值和步骤103得到的词间统计信息值两者进行融合,最后得到候选新词的成词得分。
105、根据成词得分确定候选新词是否为新词。
根据得到的候选新词的成词得分判断候选新词是否可以成为新词,在判断时会给出一个得分的阈值,当候选新词的成词得分大于得分的阈值时就可以确定该候选新词为新词,其中阈值的选定可以根据语料的选择和实际的需求确定,也可以通过多次的试验训练出一个合理的经验值作为得分的阈值。另外需要说明的是,本实施例中的成词得分与成为新词的概率大小是成正比的,得分越高,成为新词的可能性越大。
本实施例提供的新词发现的方法,能够首先在用于发现新词的语料中获取满足预设频次阈值的字符串作为候选新词,并获取候选新词的子字符串,然后根据候选新词的左右词缀的统计信息和对应的子字符串的左右词缀的统计信息的关系,计算候选新词的词内统计信息值,并根据候选新词的左右词缀的统计信息和候选新词在语料中出现的频次,计算候选新词的词间统计信息值,最后根据得到的词内统计信息值和词间统计信息值计算候选新词的成词得分,并且根据成词得分确定候选新词是否为新词。与现有技术相比,本实施例能够通过在语料中选出候选新词后,计算候选新词的词内统计信息值和词间统计信息值,然后根据两个值计算成词得分,进而来判断候选新词是否可以成为新词。另外在词内统计信息值和词间统计信息值计算时使用的是候选新词的左右词缀以及候选新词的子字符串的左右词缀的统计信息,这些都是候选新词附近的统计信息,因此,降低了对语料的依赖性,不会造成在不同领域的混合语料中低频新词的遗漏。
进一步的,作为对图1所示实施例的细化及扩展,本发明还提供了另一实施例。如图2所示,该实施例中新词发现的方法包括:
201、对用于发现新词的语料进行过滤得到有效语料。
首先使用图1步骤101中的获取语料的方式获取用于发现新词的语料。为了加快发现新词的速度和排除一些干扰的因素,通常需要对语料进行过滤得到有效语料。
对语料进行过滤包括两个方面:第一方面去除非法的字符、空格、垃圾信息等;第二方面去除停用词,本实施例中的停用词是主要针对一些无意义的词,包括语气词、感叹词、助词等,比如“呢”,“吧”,“哦”等。具体的在进行去除非法的字符、空格、垃圾信息以及停用词时是根据预设的词表进行去除的,预设的词表中包括了常用的非法的字符、空格、垃圾信息、停用词等。
202、从有效语料中挖掘符合预设字符长度和预设频次阈值的字符串作为候选新词。
获取到有效语料后就可以在有效语料中提取候选新词。
在提取候选新词时,只需要按照语料中的字符的顺序依次提取预设字符长度的字符串,预设字符长度是根据语言学特征设定的,即通常成词的字符长度,可以将预设字符长度设为三个字符、四个字符,或者其他更多的合理的字符长度,设置预设字符长度也是为了提前排除字符长度不合理的字符串,进而提高获取候选新词的速率。
在得到预设字符长度的字符串后,再根据预设频次阈值筛选出大于预设频次阈值的字符串作为候选新词。另外为了提高筛选的效率,在筛选的过程中运用了两个假设:一个是如果一个n个字符构成的字符串不是一个频繁的项集,则该项集的超项集一定是不频繁的;另外一个是如果一个文档中不包含一个长度为n的频繁项集,则该文档中一定不包含长度大于n的频繁项集,n为正整数。其中的频繁项集在本实施例中指在有效语料中出现的次数大于预设频次阈值的符合预设字符长度的字符串。
为了更清楚的表达上述获取候选新词的过程,给出一个具体的示例进行说明,如下所示:
假设有效语料中的一个句子为“代言人亮相时代广场向世界传递着正能量”假设预设字符长度为三个字符、四个字符。那么得到的预设字符长度的字符串为:
三个字符长度的字符串包括:“代言人”“言人亮”“人亮相”…“递着正”“着正能”“正能量”;
四个字符长度的字符串包括:“代言人亮”“言人亮相”“人亮相时”…“传递着正”“递着正能”“着正能量”。
在上述示例中对于两个假设的具体的含义是,假设已确定字符串“代言人”在有效语料中出现的次数不大于预设频次阈值,则“代言人亮”在有效语料中出现的次数也不大于预设频次阈值,即在判断了“代言人”不能成为候选新词后,不用再计算“代言人亮”的出现的次数,直接确定其也不能成为候选新词。
203、判断候选新词的字符长度,并确定候选新词的子字符串。
确定候选新词后,就可以为每个候选新词确定对应的子字符串,确定子字符串是为后面计算词间统计信息值的必要准备。具体的确定子字符串是将除候选新词本身以外的字符长度大于等于2的字符串确定为其对应的子字符串。另外,对于候选新词获取到的子字符串的个数可以由公式L(S)*(L(S)-1)/2-1得到,其中L(S)为候选新词的字符长度,且L(S)为大于2的正整数,即本实施例中只适用于候选新词的字符长度大于2的情况。
204、统计候选新词的左词缀个数以及右词缀个数。
统计候选新词在有效语料中左词缀个数,左词缀的个数为候选新词左侧出现的不同的字符的个数;并且统计候选新词在有效语料中右词缀个数,右词缀个数为候选新词右侧出现的不同的字符的个数。具体说明左右词缀个数的统计方法,给出具体的示例:假设某个候选新词“正能量”在有效语料中出现了三次,每次出现的地方其对应的左右侧的字符分别为:左侧字符—“出”“着”“出”,右侧字符—“带”“发”“赋”,那么“正能量”对应的左右词缀的个数分别为2和3。
205、分别统计候选新词的各子字符串的左词缀个数和右词缀个数。
按照步骤204中统计候选新词左右词缀的方法,分别统计得到候选新词的各子字符串的左词缀个数和右词缀个数。
206、根据候选新词的左词缀个数和右词缀个数以及各子字符串的左词缀个数和右词缀个数计算词内统计信息值。
根据步骤204和步骤205得到的候选新词和子字符串的左右词缀的个数,然后通过下述公式计算词内统计信息值:
其中,F1为词内统计信息值、F(Si)为与各子字符串对应的子字符串统计信息值、L(S)为候选新词的字符长度,且L(S)为大于2的正整数;
当候选新词的左词缀个数和右词缀个数中的较小值大于子字符串的左词缀个数和右词缀个数中的较小值时,F(Si)为1;
当候选新词的左词缀个数和右词缀个数中的较小值不大于子字符串的左词缀个数和右词缀个数中的较小值时,F(Si)为0。
另外需要说明的是i的取值范围:i的范围为[1,L(S)*(L(S)-1)/2-1]。
F1的值越大,表示候选新词的子字符串的左右词缀的个数相对比较少,可以认为其左右词缀仅出现在候选新词的内部,表明候选新词内部的聚合程度较高,是成为一个真正的词汇应该具有的特征。
207、根据候选新词的左右词缀的统计信息和候选新词在语料中的出现的频次,计算候选新词的词间统计信息值。
根据步骤204得到的候选新词的左右词缀个数以及候选新词在语料中或者有效语料中出现的频次,通过下述公式计算词间统计信息值:
F2=(PL(S)+PR(S))/(2*P(S));
其中,F2为候选新词的词间统计信息值、PL(S)和PR(S)分别为候选新词的左词缀个数和右词缀个数、P(S)为候选新词在语料中或者有效语料中出现的频次。
F2的值越大表示候选新词附近的左右词缀个数较多,即表示候选新词与其相邻的字符的搭配的固定程度不高,进一步表明候选新词能够在不同的上下文中出现,可以灵活地应用于不同的应用场景中,这也是一个真正的词汇通常应该具有的特征。
208、根据词内统计信息值和词间统计信息值计算得到候选新词的成词得分。
将由步骤206得到的词内统计信息值和步骤207得到的词间统计信息值按照预设的权重进行融合,将两者进行融合是因为词内统计信息值和词间统计信息值都是成为一个真正词汇需要考虑的因素。本实施例中将词内统计信息值的权重设为1,词间统计信息值的权重设为α,α为正数。然后按照下述公式计算候选新词的成词得分:
F=F1+αF2
对于α的选择有三种情况,具体的:通常情况下,α的值取1;当在实际应用中,若想增加词间统计信息在成词得分中的贡献,则可以将α设为大于1的适当的值;若想增加词内统计信息值在成词得分中的贡献则可以将α设为小于1的适当的值。
209、根据成词得分确定候选新词是否为新词。
由步骤208中的公式可以得到每个候选新词的成词得分,成词得分越高,表示候选新词成为新词的机会越大。在根据成词得分确定候选新词是否为新词的实现方式与图1步骤105的实现方式相同,此处不再赘述。
进一步的,对于步骤202中的获取候选新词的方法还可以包括:在得到预设字符长度的字符串后,利用字符串中字符之间的共现分布,选择出字符串的联合分布概率远高于各字符独立出现的概率的字符串作为候选新词。其中对于远高于的判断可以设定一个具体的阈值;或者在得到预设字符长度的字符串后,通过计算字符串的信息熵的方法来获取候选新词。对于获取候选新词的方式没有严格的限制,除了前面提到的三种方式外,别的常用的候选新词提取的方法都可以,但是在对于不同的方法中选择不同的阈值时要遵循尽量选择出更多的候选新词的原则。
进一步的,对于步骤208中的将词内统计信息值与词间统计信息值按照权重进行融合时还可以通过别的公式进行融合,比如计算两者的算术平均值、期望值或者方差值等来得到成词得分,然后进一步根据成词得分来确定候选新词是否可以成为新词。
进一步的,作为对上述图1和图2所示方法的实现,本发明实施例另一实施例还提供了一种新词发现的装置,用于对上述图1和图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:获取单元31、第一计算单元32、第二计算单元33、第三计算单元34及确定单元35。
获取单元31,用于获取候选新词以及候选新词的子字符串,候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;
第一计算单元32,用于根据候选新词的左右词缀的统计信息和子字符串的左右词缀的统计信息的关系,计算候选新词的词内统计信息值,左词缀为字符串左侧相邻的字符,右词缀为字符串右侧相邻的字符,词内统计信息值用于表征候选新词内部字符之间的聚合程度;
第二计算单元33,用于根据候选新词的左右词缀的统计信息和候选新词在语料中出现的频次,计算候选新词的词间统计信息值,词间统计信息值用于表征候选新词与候选新词相邻的字符搭配的固定程度;
第三计算单元34,用于根据词内统计信息值和词间统计信息值计算得到候选新词的成词得分;
确定单元35,用于根据成词得分确定候选新词是否为新词。
进一步的,如图4所示,获取单元31,包括:
过滤模块311,用于对语料进行过滤得到有效语料;
挖掘模块312,用于从有效语料中挖掘符合预设字符长度和预设频次阈值的字符串作为候选新词;
确定模块313,用于将除所述候选新词本身以外的字符长度大于等于2的字符串确定为所述子字符串。
进一步的,如图4所示,装置进一步包括:
第一统计单元36,用于在获取候选新词以及候选新词的子字符串之后,统计候选新词的左词缀个数,左词缀个数为在有效语料中候选新词左侧出现的不同的字符的个数;
第二统计单元37,用于统计候选新词的右词缀个数,右词缀个数为在有效语料中候选新词右侧出现的不同的字符的个数;
第三统计单元38,用于分别统计候选新词的各子字符串的左词缀个数和右词缀个数。
进一步的,第一计算单元32用于:
根据候选新词的左词缀个数和右词缀个数以及各子字符串的左词缀个数和右词缀个数计算词内统计信息值。
进一步的,通过下述公式计算第一计算单元32中的词内统计信息值:
其中,F1为词内统计信息值、F(Si)为与各子字符串对应的子字符串统计信息值、L(S)为候选新词的字符长度,且L(S)为大于2的正整数;
当候选新词的左词缀个数和右词缀个数中的较小值大于子字符串的左词缀个数和右词缀个数中的较小值时,F(Si)为1;
当候选新词的左词缀个数和右词缀个数中的较小值不大于子字符串的左词缀个数和右词缀个数中的较小值时,F(Si)为0。
进一步的,通过下述公式计算第二计算单元33中候选新词的词间统计信息值:
F2=(PL(S)+PR(S))/(2*P(S));
其中,F2为候选新词的词间统计信息值、PL(S)和PR(S)分别为候选新词的左词缀个数和右词缀个数、P(S)为候选新词在语料或者有效语料中出现的频次。
本实施例提供的新词发现的装置,能够首先在用于发现新词的语料中获取满足预设频次阈值的字符串作为候选新词,并获取候选新词的子字符串,然后根据候选新词的左右词缀的统计信息和对应的子字符串的左右词缀的统计信息的关系,计算候选新词的词内统计信息值,并根据候选新词的左右词缀的统计信息和候选新词在语料中出现的频次,计算候选新词的词间统计信息值,最后根据得到的词内统计信息值和词间统计信息值计算候选新词的成词得分,并且根据成词得分确定候选新词是否为新词。与现有技术相比,本实施例能够通过在语料中选出候选新词后,计算候选新词的词内统计信息值和词间统计信息值,然后根据两个值计算成词得分,进而来判断候选新词是否可以成为新词。另外在词内统计信息值和词间统计信息值计算时使用的是候选新词的左右词缀以及候选新词的子字符串的左右词缀的统计信息,这些都是候选新词附近的统计信息,因此,降低了对语料的依赖性,不会造成在不同领域的混合语料中低频新词的遗漏。
所述新词发现装置包括处理器和存储器,上述获取单元31、第一计算单元32、第二计算单元33、第三计算单元34及确定单元35等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取候选新词以及所述候选新词的子字符串,所述候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,所述左词缀为字符串左侧相邻的字符,所述右词缀为字符串右侧相邻的字符,所述词内统计信息值用于表征所述候选新词内部字符之间的聚合程度;根据所述候选新词的左右词缀的统计信息和所述候选新词在所述语料中的出现的频次,计算所述候选新词的词间统计信息值,所述词间统计信息值用于表征所述候选新词与所述候选新词相邻的字符搭配的固定程度;根据所述词内统计信息值和所述词间统计信息值计算得到所述候选新词的成词得分;根据所述成词得分确定所述候选新词是否为新词。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种新词发现的方法,其特征在于,所述方法包括:
获取候选新词以及所述候选新词的子字符串,所述候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;
根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,所述左词缀为字符串左侧相邻的字符,所述右词缀为字符串右侧相邻的字符,所述词内统计信息值用于表征所述候选新词内部字符之间的聚合程度;
根据所述候选新词的左右词缀的统计信息和所述候选新词在所述语料中出现的频次,计算所述候选新词的词间统计信息值,所述词间统计信息值用于表征所述候选新词与所述候选新词相邻的字符搭配的固定程度;
根据所述词内统计信息值和所述词间统计信息值计算得到所述候选新词的成词得分;
根据所述成词得分确定所述候选新词是否为新词;
所述获取候选新词以及所述候选新词的子字符串,包括:
对所述语料进行过滤得到有效语料;
从所述有效语料中挖掘符合预设字符长度和所述预设频次阈值的字符串作为所述候选新词;
在所述获取候选新词以及所述候选新词的子字符串之后,所述方法进一步包括:
统计所述候选新词的左词缀个数,所述左词缀个数为在所述有效语料中所述候选新词左侧出现的不同的字符的个数;
统计所述候选新词的右词缀个数,所述右词缀个数为在所述有效语料中所述候选新词右侧出现的不同的字符的个数;
通过下述公式计算所述候选新词的词间统计信息值:
F2=(PL(S)+PR(S))/(2*P(S));
其中,所述F2为所述候选新词的词间统计信息值、所述PL(S)和所述PR(S)分别为所述候选新词的左词缀个数和右词缀个数、所述P(S)为所述候选新词在所述语料或所述有效语料中出现的频次。
2.根据权利要求1所述的方法,其特征在于,所述获取候选新词以及所述候选新词的子字符串,还包括:
将除所述候选新词本身以外的字符长度大于等于2的字符串确定为所述子字符串。
3.根据权利要求2所述的方法,其特征在于,在所述获取候选新词以及所述候选新词的子字符串之后,所述方法还进一步包括:
分别统计所述候选新词的各子字符串的左词缀个数和右词缀个数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,包括:
根据所述候选新词的左词缀个数和右词缀个数以及所述各子字符串的左词缀个数和右词缀个数计算所述词内统计信息值。
6.一种新词发现的装置,其特征在于,所述装置包括:
获取单元,用于获取候选新词以及所述候选新词的子字符串,所述候选新词是在用于发现新词的语料中出现的满足预设频次阈值的字符串;
第一计算单元,用于根据所述候选新词的左右词缀的统计信息和所述子字符串的左右词缀的统计信息的关系,计算所述候选新词的词内统计信息值,所述左词缀为字符串左侧相邻的字符,所述右词缀为字符串右侧相邻的字符,所述词内统计信息值用于表征所述候选新词内部字符之间的聚合程度;
第二计算单元,用于根据所述候选新词的左右词缀的统计信息和所述候选新词在所述语料中出现的频次,计算所述候选新词的词间统计信息值,所述词间统计信息值用于表征所述候选新词与所述候选新词相邻的字符搭配的固定程度;
第三计算单元,用于根据所述词内统计信息值和所述词间统计信息值计算得到所述候选新词的成词得分;
确定单元,用于根据所述成词得分确定所述候选新词是否为新词;
所述获取单元,包括:
过滤模块,用于对所述语料进行过滤得到有效语料;
挖掘模块,用于从所述有效语料中挖掘符合预设字符长度和所述预设频次阈值的字符串作为所述候选新词;
所述装置进一步包括:
第一统计单元,用于在所述获取候选新词以及所述候选新词的子字符串之后,统计所述候选新词的左词缀个数,所述左词缀个数为在所述有效语料中所述候选新词左侧出现的不同的字符的个数;
第二统计单元,用于统计所述候选新词的右词缀个数,所述右词缀个数为在所述有效语料中所述候选新词右侧出现的不同的字符的个数;
通过下述公式计算第二计算单元中所述候选新词的词间统计信息值:
F2=(PL(S)+PR(S))/(2*P(S));
其中,F2为候选新词的词间统计信息值、PL(S)和PR(S)分别为候选新词的左词缀个数和右词缀个数、P(S)为候选新词在语料或者有效语料中出现的频次。
7.根据权利要求6所述的装置,其特征在于,所述获取单元,还包括:
确定模块,用于将除所述候选新词本身以外的字符长度大于等于2的字符串确定为所述子字符串。
8.根据权利要求7所述的装置,其特征在于,所述装置还进一步包括:
第三统计单元,用于分别统计所述候选新词的各子字符串的左词缀个数和右词缀个数。
9.根据权利要求8所述的装置,其特征在于,所述第一计算单元用于:
根据所述候选新词的左词缀个数和右词缀个数以及所述各子字符串的左词缀个数和右词缀个数计算所述词内统计信息值。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的新词发现的方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的新词发现的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610023772.6A CN106970904B (zh) | 2016-01-14 | 2016-01-14 | 新词发现的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610023772.6A CN106970904B (zh) | 2016-01-14 | 2016-01-14 | 新词发现的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106970904A CN106970904A (zh) | 2017-07-21 |
CN106970904B true CN106970904B (zh) | 2020-06-05 |
Family
ID=59334152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610023772.6A Active CN106970904B (zh) | 2016-01-14 | 2016-01-14 | 新词发现的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106970904B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111492364B (zh) * | 2017-12-15 | 2022-09-23 | 华为技术有限公司 | 数据标注方法、装置及存储介质 |
CN108846033B (zh) * | 2018-05-28 | 2022-04-08 | 北京邮电大学 | 特定领域词汇的发现及分类器训练方法和装置 |
CN109002460A (zh) * | 2018-06-01 | 2018-12-14 | 昆明理工大学 | 一种基于文本自身产生词库的分词方法及系统 |
CN111832310B (zh) * | 2019-04-23 | 2024-04-16 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN111125327A (zh) * | 2019-12-11 | 2020-05-08 | 中国建设银行股份有限公司 | 一种基于短会话的新词发现方法、存储介质和电子装置 |
CN111931501B (zh) * | 2020-09-22 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的文本挖掘方法、相关装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101976233A (zh) * | 2010-09-30 | 2011-02-16 | 北京新媒传信科技有限公司 | 基于序列模式的新词发现方法 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN102955771A (zh) * | 2011-08-18 | 2013-03-06 | 华东师范大学 | 中文单字串模式和词缀模式的新词自动识别技术及系统 |
CN103207921A (zh) * | 2013-04-28 | 2013-07-17 | 福州大学 | 一种从中文电子文档中自动提取词语的方法 |
-
2016
- 2016-01-14 CN CN201610023772.6A patent/CN106970904B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131705A (zh) * | 2007-09-27 | 2008-02-27 | 中国科学院计算技术研究所 | 一种新词发现方法和系统 |
CN101976233A (zh) * | 2010-09-30 | 2011-02-16 | 北京新媒传信科技有限公司 | 基于序列模式的新词发现方法 |
CN102955771A (zh) * | 2011-08-18 | 2013-03-06 | 华东师范大学 | 中文单字串模式和词缀模式的新词自动识别技术及系统 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103207921A (zh) * | 2013-04-28 | 2013-07-17 | 福州大学 | 一种从中文电子文档中自动提取词语的方法 |
Non-Patent Citations (2)
Title |
---|
Accessor variety criteria for Chinese word extraction;Haodi Feng 等;《Computational Linguistics》;20040531;第30卷(第1期);75-93 * |
Unknown Chinese word extraction based on variety of overlapping strings;Yunming Ye 等;《Information Processing and Management》;20121103;第49卷(第2期);497-512 * |
Also Published As
Publication number | Publication date |
---|---|
CN106970904A (zh) | 2017-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106970904B (zh) | 新词发现的方法及装置 | |
Nguyen et al. | Relation extraction: Perspective from convolutional neural networks | |
CN108875040B (zh) | 词典更新方法及计算机可读存储介质 | |
CN108710611B (zh) | 一种基于词网络和词向量的短文本主题模型生成方法 | |
CN104391942A (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
US20150278197A1 (en) | Constructing Comparable Corpora with Universal Similarity Measure | |
WO2017101728A1 (zh) | 一种相似词的聚合方法和装置 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
Unnisa et al. | Opinion mining on Twitter data using unsupervised learning technique | |
CN105138523A (zh) | 在文本中确定语义关键词的方法和装置 | |
CN102799647A (zh) | 网页去重方法和设备 | |
KR102217248B1 (ko) | 텍스트 문서 요약을 위한 자질 추출 및 학습 방법 | |
CN106970919B (zh) | 新词组发现的方法及装置 | |
Štajner et al. | Automatic assessment of conceptual text complexity using knowledge graphs | |
CN103744837A (zh) | 基于关键词抽取的多文本对照方法 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
Desai et al. | Automatic text summarization using supervised machine learning technique for Hindi langauge | |
CN104021202A (zh) | 一种知识共享平台的词条处理装置和方法 | |
CN109657052A (zh) | 一种论文摘要蕴含细粒度知识元的抽取方法及装置 | |
CN109344397A (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN102375848A (zh) | 评价对象聚类方法和装置 | |
Alghamdi et al. | Improved text clustering using k-mean bayesian vectoriser | |
CN111159996B (zh) | 基于文本指纹算法的短文本集合相似度比较方法及系统 | |
CN103870459A (zh) | 有意义串的识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |