CN108959259B - 新词发现方法及系统 - Google Patents

新词发现方法及系统 Download PDF

Info

Publication number
CN108959259B
CN108959259B CN201810728830.4A CN201810728830A CN108959259B CN 108959259 B CN108959259 B CN 108959259B CN 201810728830 A CN201810728830 A CN 201810728830A CN 108959259 B CN108959259 B CN 108959259B
Authority
CN
China
Prior art keywords
word
candidate word
candidate
sentence
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810728830.4A
Other languages
English (en)
Other versions
CN108959259A (zh
Inventor
赵汉光
王珵
戴文渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201810728830.4A priority Critical patent/CN108959259B/zh
Publication of CN108959259A publication Critical patent/CN108959259A/zh
Application granted granted Critical
Publication of CN108959259B publication Critical patent/CN108959259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

提供一种新词发现方法和系统。所述新词发现方法包括:通过对文本中的各个句子进行分割来获得第一候选词集合;通过第一词典的词性规律来对第一候选词集合进行筛选以获得第二候选词集合;通过第二词典从每个句子获得分词,并根据第二候选词集合中的候选词的边界字与分词的边界字之间关系来确定候选词系数;根据第二候选词集合中的候选词的内部凝聚程度和边界自由程度来调整候选词系数,并根据调整的候选词系数从第二候选词集合中筛选出新词,其中,第一词典与第二词典相同或不同。根据所述新词发现方法和系统,能够减少特定词性和词典对新词发现结果的影响,能够通过边界关系、内部凝聚程度和边界自由程度获得候选词系数,使新词发现结果更准确。

Description

新词发现方法及系统
技术领域
本发明总体说来涉及自然语言处理,更具体地讲,涉及一种新词发现方法及系统。
背景技术
在现有的新词发现方法中,由于利用分词的结果来组合候选词并且从候选词中筛选出新词,但分词本身依赖词典的建立,对于新领域的文本,在不知道新词的情况下,分词有分错的可能,造成新词永远无法被识别。
另一方面,基于候选词特征的阈值过滤的方法得到的结果难以针对特定领域,例如,候选词通常会按出现频次排序,以一般领域的常见词居多,如“第一次”、“每一年”等,而特定领域更需要“被保险人”、“小微企业”这样的专有词,出现频率经常会小于一般领域的常见词,因此导致部分出现频率低的词未被确定为新词。
发明内容
本发明的示例性实施例在于提供一种新词发现方法及系统,以解决部分词语不能被发现的问题、基于现有方法得到的结果难以针对特定领域的问题、以及部分出现频率低的词未被确定为新词的问题中的至少一个。
根据本发明的示例性实施例,提供一种新词发现方法。所述新词发现方法包括:通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合;统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合;利用第二词典中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数;以及基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词,其中,第一词典与第二词典相同或不同。
可选地,获取调整系数的步骤包括:分别计算第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度,并对计算出的内部凝聚程度和计算出的边界自由程度分别进行归一化;以及分别计算第二候选词集合中的每个候选词的归一化的内部凝聚程度与归一化的边界自由程度的平均值作为候选词系数的调整系数。
可选地,通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合的步骤包括:用预定符号对文本进行切割以获得句子集合;对于每个句子,将相邻英文字母和/或相邻数字看作一个汉字;从句子集合中去除长度小于预定长度的句子,其中,利用汉字的长度来计算句子的长度;分别根据各种预设长度对经过去除操作的句子集合中的每个句子进行分割,以从每个句子分割出至少一个候选词。
可选地,统计所述首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词的步骤包括:计算具有单独成词的首字的词条中首字分别为各种词性的词条的数量占具有单独成词的首字的词条的总数的比例,确定与计算出的比例中的小于首字词性预定阈值的比例对应的首字词性,从第一候选词集合中去除具有单独成词的首字的候选词中首字具有所确定的首字词性的候选词;计算具有单独成词的尾字的词条中尾字分别为各种词性的词条的数量占具有单独成词的尾字的词条的总数的比例,确定与计算出的比例中的小于尾字词性预定阈值的比例对应的尾字词性,从第一候选词集合中去除具有单独成词的尾字的候选词中尾字具有所确定的尾字词性的候选词;和计算具有单独成词的首尾字的词条中首尾字分别为各种词性组合的词条的数量占具有单独成词的首尾字的词条的总数的比例,确定与计算出的比例中的小于首尾字词性预定阈值的比例对应的首尾字词性组合,从第一候选词集合中去除具有单独成词的首尾字的候选词中首尾字具有所确定的首尾字词性组合的候选词。
可选地,利用第二词典中的词条针对每个句子进行分词的处理还包括:对长度超过预设分词长度的分词进行过分割以得到过分割后的分词。
可选地,综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数的处理包括:分别通过如下等式之一来计算第二候选词集合中的每个候选词的候选词系数:
其中,n为包括候选词w的句子的序号,N为包括候选词w的句子的序号的集合,Sseg(w)是第二候选词集合中的候选词w的候选词系数,α是预定义的用于调整左边界集合和右边界集合对候选词系数的影响程度的参数,0≤α≤1,il(n)是在第n个句子中所述候选词w的作为左边界的字的位置下标集合,ir(n)是在第n个句子中所述候选词w的作为右边界的字的位置下标集合,Il(n)是在第n个句子中的左边界集合,Ir(n)是在第n个句子中的右边界集合,当il(n)属于Il(n)时F(il(n),Il(n))的值为0,当il(n)不属于Il(n)时F(il(n),Il(n))的值为1,当ir(n)属于Ir(n)时F(ir(n),Ir(n))的值为0,当ir(n)不属于Ir(n)时F(ir(n),Ir(n))的值为1,max表示计算最大值,avg表示计算平均值。
可选地,所述平均值为算术平均值、几何平均值和调和平均值中的至少一个,其中,利用调整系数调整候选词系数的处理包括:将调整系数与候选词系数的乘积作为经过调整的候选词系数。
可选地,所述新词发现方法还包括:将筛选出的新词加入到第一词典和第二词典中的至少一个词典中并使用加入了新词的所述至少一个词典来针对后续的文本执行所述新词发现方法。
可选地,分别计算第二候选词集合中的每个候选词的内部凝聚程度的处理包括:分别通过点互信息、对称条件概率SCP、词频/逆文本频率TF/IDF或先验算法Apriori来计算第二候选词集合中的每个候选词的内部凝聚程度。
根据本发明的另一示例性实施例,提供一种新词发现系统。所述新词发现系统包括:文本处理模块,用于通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合;词性过滤模块,用于统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合;分词评估模块,用于利用第二词典中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数;以及新词发现模块,用于基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词,其中,第一词典与第二词典相同或不同。
可选地,新词发现模块分别计算第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度,并对计算出的内部凝聚程度和计算出的边界自由程度分别进行归一化;以及分别计算第二候选词集合中的每个候选词的归一化的内部凝聚程度与归一化的边界自由程度的平均值作为候选词系数的调整系数。
可选地,文本处理模块用预定符号对文本进行切割以获得句子集合;对于每个句子,将相邻英文字母和/或相邻数字看作一个汉字;从句子集合中去除长度小于预定长度的句子,其中,利用汉字的长度来计算句子的长度;分别根据各种预设长度对经过去除操作的句子集合中的每个句子进行分割,以从每个句子分割出至少一个候选词。
可选地,词性过滤模块计算具有单独成词的首字的词条中首字分别为各种词性的词条的数量占具有单独成词的首字词条的总数的比例,确定与计算出的比例中的小于首字词性预定阈值的比例对应的首字词性,从第一候选词集合中去除具有单独成词的首字的候选词中首字具有所确定的首字词性的候选词;计算具有单独成词的尾字的词条中尾字分别为各种词性的词条的数量占具有单独成词的尾字的词条的总数的比例,确定与计算出的比例中的小于尾字词性预定阈值的比例对应的尾字词性,从第一候选词集合中去除具有单独成词的尾字的候选词中尾字具有所确定的尾字词性的候选词;和计算具有单独成词的首尾字的词条中首尾字分别为各种词性组合的词条的数量占具有单独成词的首尾字的词条的总数的比例,确定与计算出的比例中的小于首尾字词性预定阈值的比例对应的首尾字词性组合,从第一候选词集合中去除具有单独成词的首尾字的候选词中首尾字具有所确定的首尾字词性组合的候选词。
可选地,分词评估模块还用于对长度超过预设分词长度的分词进行过分割以得到过分割后的分词。
可选地,分词评估模块分别通过如下等式之一来计算第二候选词集合中的每个候选词的候选词系数:
其中,n为包括候选词w的句子的序号,N为包括候选词w的句子的序号的集合,Sseg(w)是第二候选词集合中的候选词w的候选词系数,α是预定义的用于调整左边界集合和右边界集合对候选词系数的影响程度的参数,0≤α≤1,il(n)是在第n个句子中所述候选词w的作为左边界的字的位置下标集合,ir(n)是在第n个句子中所述候选词w的作为右边界的字的位置下标集合,Il(n)是在第n个句子中的左边界集合,Ir(n)是在第n个句子中的右边界集合,当il(n)属于Il(n)时F(il(n),Il(n))的值为0,当il(n)不属于Il(n)时F(il(n),Il(n))的值为1,当ir(n)属于Ir(n)时F(ir(n),Ir(n))的值为0,当ir(n)不属于Ir(n)时F(ir(n),Ir(n))的值为1,max表示计算最大值,avg表示计算平均值。
可选地,所述平均值为算术平均值、几何平均值和调和平均值中的至少一个,其中,新词发现模块将调整系数与候选词系数的乘积作为经过调整的候选词系数。
可选地,所述新词发现系统还包括:词典更新模块,用于将筛选出的新词加入到第一词典和第二词典中的至少一个词典中,其中,所述新词发现系统使用加入了新词的所述至少一个词典来针对后续的文本进行处理。
可选地,新词发现模块分别通过点互信息、对称条件概率SCP、词频/逆文本频率TF/IDF或先验算法Apriori来计算第二候选词集合中的每个候选词的内部凝聚程度。
根据本发明的另一示例性实施例,提供一种计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如上所述的新词发现方法的计算机程序。
根据本发明示例性实施例的,能够通过对文本中的各个句子进行分割来获得候选词并从获得的候选词中筛选出新词,候选词的获得不依赖于词典,因此可发现词典中不存在的部分新词;能够利用根据词典统计的词性规律对候选词进行过滤,使的部分不期望被确定为新词的词语(例如,“在青岛”、“同我方”、“并出席”、“及杭州”、“做出了”、“发挥着”等)能被过滤掉;利用词典对句子进行分词操作而获得的结果被用于对候选词进行评分以获得候选词系数,而没有直接从所述结果中筛选新词,减少了词典对新词筛选的不利影响;根据候选词的边界字和分词的边界字之间的关系对候选词进行评分以获得候选词系数,而不根据候选词出现的频率判断候选词是否为新词,减少了词频的不利影响,部分出现频率低但是属于特定领域(尤其是新出现的领域)的词(例如,诸如“被保险人”、“小微企业”等的特定领域的专有名词)可被确定为新词。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的新词发现方法的流程图;
图2示出根据本发明示例性实施例的新词发现系统的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出根据本发明示例性实施例的新词发现方法的流程图。作为示例,所述新词发现方法可通过计算机程序来执行,也可由专门的用于新词发现、大数据计算、人工智能平台或数据分析的硬件设备或软硬件资源的集合体来执行,例如,可由用于实现新词发现相关业务的自然语言处理平台来执行所述新词发现方法。
参照图1,在步骤S10中,通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合。根据本发明的示例性实施例,所述文本可以是任意领域的文本,例如,新闻、通告、台词、社交网络的用户生成的文字等。所述文本可以是任意长度的分为一段或更多段的文本。所述文本可包括一个句子或更多个句子。本发明在从文本获得候选词的过程中,可不依赖于词典。也就是说,可通过对文本中的每个句子分别进行分割来获得候选词。通过这种方式可获得包括多个候选词的第一候选词集合。
作为示例,可通过如下操作从文本获得第一候选词集合:用预定符号对文本进行切割以获得句子集合;对于每个句子,将相邻英文字母和/或相邻数字看作一个汉字;从句子集合中去除长度小于预定长度的句子,其中,利用汉字的长度来计算句子的长度;分别根据各种预设长度对经过去除操作的句子集合中的每个句子进行分割,以从每个句子分割出至少一个候选词。这里,预定符号包括:中文标点符号、英文标点符号、特殊字符(例如,#)等,可同时使用多个符号对文本进行切割。例如,在文本是“一个tanh层为新的候选值创建一个向量\tilde{C}_t,这些值能够加入state中”的情况下,利用符号“\”、“{”、“}”、“_”以及“,”对该文本进行分割,从而获得如下句子:“一个tanh层为新的候选值创建一个向量”、“tilde”、“C”、“t”、“这些值能够加入state中”。这些句子的长度分别为16、1、1、1以及9。可从这些句子中去除长度小于或等于1的句子,从而剩下如下句子:“一个tanh层为新的候选值创建一个向量”和“这些值能够加入state中”。对剩下的句子中的每个句子进行分割,预设长度可以是大于等于2且小于被分割句子长度的长度。例如,假设在一个句子为“一个tanh层”的情况下,该句子的长度是4,可通过如下方式对该句子进行分割:根据值为2的预设长度将该句子分割为“一个”、“个tanh”、“tanh层”,并且根据值为3的预设长度将该句子分割为“一个tanh”和“个tanh层”,通过分割获得的候选词为:“一个”、“个tanh”、“tanh层”、“一个tanh”和“个tanh层”。在一个实施例中,所述各种预设长度包括:2、3、4、5、6、7、8、9和10或者包括:2、3、4、5和6,本发明对此不做限制。
在步骤S20中,统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和/或具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合。
根据本发明的示例性实施例,使用的词典可以是能够用于进行分词的词典,可通过对第一词典进行统计来获得字的组合可作为词或不可作为词的规律。这里,可统计词性规律,例如,统计首字词性规律、尾字词性规律和/或首尾字词性规律,更具体地,统计具有单独成词的首字的词条、具有单独成词的尾字的词条和/或具有单独成词的首尾字(即,首字和尾字)的词条的首尾字词性规律。在获得词条的首尾字构成规律之后,可利用获得的规律对候选词进行筛选,以去除不符合所述规律的候选词,从而减少计算量,并减少将不作为词的字的组合错误地作为新词的几率。所述字的组合可包括两个字或更多个字,其中,一个字可以是一个汉字或一组的字母。
作为示例,统计所述首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词的步骤包括:计算具有单独成词的首字的词条中首字分别为各种词性的词条的数量占具有单独成词的首字的词条的总数的比例,确定与计算出的比例中的小于首字词性预定阈值的比例对应的首字词性,从第一候选词集合中去除具有单独成词的首字的候选词中首字具有所确定的首字词性的候选词;计算具有单独成词的尾字的词条中尾字分别为各种词性的词条的数量占具有单独成词的尾字的词条的总数的比例,确定与计算出的比例中的小于尾字词性预定阈值的比例对应的尾字词性,从第一候选词集合中去除具有单独成词的尾字的候选词中尾字具有所确定的尾字词性的候选词;和/或计算具有单独成词的首尾字的词条中首尾字分别为各种词性组合的词条的数量占具有单独成词的首尾字的词条的总数的比例,确定与计算出的比例中的小于首尾字词性预定阈值的比例对应的首尾字词性组合,从第一候选词集合中去除具有单独成词的首尾字的候选词中首尾字具有所确定的首尾字词性组合的候选词。
例如,在对第一词典进行统计的过程中,在第一词典中存在词条“不明显”的情况下,“不”是单独成词的首字,“不”为副词,“显”不是单独成词的尾字(这是因为,“显”可以与相邻的字“明”组成“明显”,“明显”是第一词典中的词条,使得“显”不是单独成词的尾字),因此,可将词条“不明显”划分为具有单独成词的首字的词条中首字为副词的词条。例如,所述各种词性包括55种词性。可分别统计具有单独成词的首字的词条中首字为所述各种词性中的每种词性的词条的数量,随后,统计具有单独成词的首字的词条的总数,从而计算出与每种词性对应的比例。例如,在针对具有单独成词的首字的词条进行了统计之后,当计算出的与特定首字词性对应的比例小于首字词性预定阈值时,可认为具有单独成词的首字且首字的词性为所述特定首字词性的候选词需要被去除(因为太少见)。与上述针对首字的处理类似,还可针对尾字和/或首尾字进行去除处理,从而去除一部分成为新词的可能性低于一定程度的候选词。
根据本发明的示例性实施例,可通过词典来确定一个字是否为单独成词的字。例如,对于任意候选词(例如,在第四范式),包含其首字的所有前缀(不包括首字本身和所述候选词本身)(例如,在第、在第四、在第四范)均未出现在词典中,则该首字(例如,“在”)被确定为单独成词;相应地,对于任意候选词(例如,第四范式中),包含其尾字的所有后缀(不包括尾字本身和所述候选词本身)(例如,式中、范式中、四范式中)均未出现在词典中,则该尾字(例如,“中”)被确定为单独成词。这里使用的词典可以是本发明的示例实施例中的第一词典或第二词典,也可以是与第一词典和第二词典不同的第三词典。
作为示例,两个字的词条可不参与统计,具体说来,可分别统计词典中当首字无法与下一个字构成词典中的词条(即,首字单独成词)时,词条的首字词性出现数量为Cp(t),其中t∈T是词性的种类;当尾词无法与上一个字构成词典中的词条(即,尾字单独成词)时,词条的尾字词性出现数量为Cs(t);统计当首尾字都无法与相邻字构成词条(即,首字和尾字均单独成词)时,首尾共同出现的词性数量为Cps(tp,ts),其中tp和ts分别为首字和尾字的词性。如假设字典中存在词条“不明显”,首字“不”的词性是副词,增加Cp(t=副词)的计数,尾字“显”因为跟相邻字能构成词典中的词条“明显”则不参与计数。三种情况对应的频率为:
如果Pp(t)<μp或Ps(t)<μs或Pps(tp,ts)<μps,则认为这种首尾词性的规则不存在,如果候选词中出现了对应规则可以直接排除。其中,μp、μs、μps是根据实际词典统计结果设计的阈值。
根据本发明的示例性实施例,通过步骤S20,可去除不太可能作为新词的候选词。换句话讲,如果候选词的首字、尾字和/或首尾字为不太可能出现的特定词性,则去除所述候选词。例如,可去除尾字为助词(例如,“的”)的候选词(例如,“阈值的”)。又如,如果候选词的首字词性是介词(例如,“与”、“在”、“同”等)或连词(例如,“并”、“及”等),则去除该候选词;如果候选词的尾字词性是方位词(例如,“上”、“下”等),则去除该候选词;如果首尾字词性是动词(例如,“是”、“要”等),则去除该候选词。
应该理解,以上示例仅仅是示例性的,并不用于限制本发明。在本发明构思的基础上,可通过任何方式对第一词典进行统计来获得字的组合可作为新词或不可作为新词的规律,并根据统计的规律对候选词进行筛选。
在步骤S30中,利用第二词典(这里,作为示例,第二词典可与第一词典相同或不同)中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合和/或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数。
根据本发明的示例性实施例,可针对步骤S10中针对的文本的多个句子中的每个句子进行分词操作以获得多个分词结果(即,分词),作为示例,本发明中利用第二词典中的词条针对每个句子进行分词的处理所使用的处理方法包括:正反向最大匹配方法、最短路分词方法、HMM(即:HiddenMarkov Model,可被称作隐马尔科夫模型)/CRF(即:ConditionalRandom Field,可被称作条件随机场)/神经网络标注分词方法。
在分词之后,可对上述多个分词的作为分词左边界的字和作为分词右边界的字进行统计,以获得包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合。这里的“位置下标”指的是预先标注的句子中的字的序号,用于指示各个字在句子中的相对位置。可针对每个句子,确定其中的每个候选词的作为左边界的字的位置下标集合,和/或确定其中的每个候选词的作为右边界的字的位置下标集合。确定每个句子中针对候选词的位置下标集合和针对分词的边界集合之间的关系,并综合所有句子中确定的关系来计算候选词系数,以便通过候选词系数确定候选词作为新词的可能性。步骤S30利用了第二词典的成词规律,由于本发明采用分割的方式而不是分词的方式从句子获得候选词,因此,候选词的边界字的在句子中的序号的集合与分词的边界字在句子中的序号的集合之间存在差异,其中,边界字指的是词的首字或尾字或首尾字。在这种情况下,如果通过直接比较利用第二词典得到的分词与候选词是否相同来确定候选词是否为新词,则可能遗漏可能成为新词的候选词。在本发明中,不通过直接比较利用第二词典得到的分词结果与候选词是否相同来确定候选词是否为新词,而是通过将与候选词对应的边界集合和与分词对应的边界集合之间的关系进行分析来确定与候选词对应的候选词系数。
通过步骤S30,可使下标的边界集合不属于对应的分词边界集合的候选词被确定为新词的可能性降低,即:降低这样的候选词的候选词系数,从而可减少将不是新词的候选词错误地确定为新词的可能性。
作为示例,利用第二词典中的词条针对每个句子进行分词的处理还包括:对长度超过预设分词长度的分词进行过分割以得到过分割后的分词。通过对分词进行过分割可获得更准确的与分词对应的边界集合,从而可更准确地确定与候选词对应的边界集合和与分词对应的边界集合之间的关系。通过过分割还可减少利用第二词典进行分词后的结果对新词发现结果的不利影响。
例如,“中国科学院计算机所”是通过第二词典中对句子进行分词处理获得的分词,可对该分词进行过分割以得到如下分词:“中国”、“科学”、“学院”、“科学院”、“中国科学院”、“计算”、“计算所”,通过上述过分割,可使与分词对应的包括位置下标的边界集合可更准确反映出分词的边界信息。
通过上述过分割处理,可避免忽略掉潜在的新词,例如,过分割后,不仅候选词“新东方烹饪学校”可能被确定为新词,其中的“新东方”和“烹饪学校”也均可能被确定为新词,这样,减少了遗漏新词的可能性。
作为示例,综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数的处理包括:分别通过如下等式之一来计算第二候选词集合中的每个候选词的候选词系数:
其中,n为包括候选词w的句子的序号,N为包括候选词w的句子的序号的集合,Sseg(w)是第二候选词集合中的候选词w的候选词系数,α是预定义的用于调整左边界集合和右边界集合对候选词系数的影响程度的参数,0≤α≤1,il(n)是在第n个句子中所述候选词w的作为左边界的字的位置下标集合,ir(n)是在第n个句子中所述候选词w的作为右边界的字的位置下标集合,Il(n)是在第n个句子中的左边界集合,Ir(n)是在第n个句子中的右边界集合,当il(n)属于Il(n)时F(il(n),Il(n))的值为0,当il(n)不属于Il(n)时F(il(n),Il(n))的值为1,当ir(n)属于Ir(n)时F(ir(n),Ir(n))的值为0,当ir(n)不属于Ir(n)时F(ir(n),Ir(n))的值为1,max表示计算最大值,avg表示计算平均值。
例如,在对句子“词的左右边界”进行分词得到的分词包括:“词”、“的”、“左右”、“边界”的情况下,句子的下标集合为{0,1,2,3,4,5},该下标集合中的各个元素分别对应于“词”、“的”、“左”、“右”、“边”、“界”,与该句子对应的左边界集合为Il={0,1,2,4},与该句子对应的右边界集合为Ir={0,1,3,5},与候选词“左右”对应的作为左边界的字的位置下标集合为il={2},与候选词“左右”对应的作为右边界的字的位置下标集合为ir={3}。因此,F(il,Il)=0且F(ir,Ir)=0。
根据本发明的示例性实施例,可利用参数α来调整分词结果对候选词系数的影响程度,即调整左边界集合和右边界集合对候选词系数的影响程度。通过合理地设置的参数α,可更提高新词发现方法的准确性,确保了新词发现效果,同时可具有调整灵活的优点。
在步骤S40中,基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词。
根据本发明的示例性实施例,不直接利用候选词出现的频率来确定候选词可作为新词的可能性,而是通过各个句子中候选词的位置下标集合与分词结果的边界集合之间的关系来确定用于表示候选词被确定为新词的可能性的候选词系数,并通过内部凝聚程度和边界自由程度对候选词系数进行调整。
具体地讲,可通过候选词的内部凝聚程度来表示候选词的各个字之间的不可分割的程度。内部凝聚程度描述的是候选词词内部不可切分的程度,一个词的左右两个部分在特定文本中如果通常都组合在一起,可以认为这是一种固定搭配,更可能是一个新词。可通过互信息来确定候选词的内部凝聚程度,互信息可用于衡量两个元素(例如,变量)之间的关联程度,互信息越大表示所述两个元素之间的联系越紧密。互信息包括点互信息,下面描述通过点互信息衡量候选词的内部凝聚程度。
例如,假设候选词w由字符集合{c1,c2,…,cm}中的各个字符组成,则可针对该候选词的所有切分成两部分的子串求对应的点互信息并取最小值(这里,取最小值是因为我们期望这个词是处处都不可分割的),即,可通过如下等式来计算与候选词w对应的内部凝聚程度Spmi(w):
其中,m为自然数且等于候选词的长度,p(w)=C(w)/∑w′∈WC(w′)表示候选词w的频率,W是第二候选词集合,w′是W中的候选词,候选词w的出现次数为C(w),候选词w′出现次数为C(w′)。
应理解,本发明的示例性实施例不限于上述计算内部凝聚程度的处理,实际上,作为示例,可分别计算第二候选词集合中的每个候选词的内部凝聚程度的处理包括:分别通过点互信息、对称条件概率(即:Symmetric conditional probability,简称为SCP)、词频/逆文本频率(即:Term Frequency/Inverse Document Frequency,简称为TF/IDF)或先验算法Apriori来计算第二候选词集合中的每个候选词的内部凝聚程度。
根据本发明的示例性实施例,边界自由程度用于对文本中的候选词进行分析,可通过左邻接熵和右邻接熵来衡量边界自由程度。具体说来,边界自由程度描述的是候选词能否自由地出现在给定文本的不同语境中,边界是否没有固定的搭配。这里,可利用熵来评估候选词邻接字的丰富程度。
例如,当候选词w的左邻接字为cl且右邻接字为cr时,候选词w的左邻接熵和右邻接熵分别为:
其中,P({cl,c1,c2,…,cm}|w)表示在存在候选词w的前提下文本中出现{cl,c1,c2,…,cm}出现的概率,P({c1,c2,…,cm,cr}|w)表示在存在候选词w的前提下文本中出现{c1,c2,…,cm,cr}出现的概率。当左邻接熵越大时,候选词w的左边界作为新词左边界的可能性越大,当右邻接熵越大时,候选词w的右边界作为新词右边界的可能性越大。
作为示例,获取调整系数的步骤包括:分别计算第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度,并对计算出的内部凝聚程度和计算出的边界自由程度分别进行归一化;以及分别计算第二候选词集合中的每个候选词的归一化的内部凝聚程度与归一化的边界自由程度的平均值作为候选词系数的调整系数。
作为示例,所述平均值为算术平均值、几何平均值和调和平均值中的至少一个,其中,利用调整系数调整候选词系数的处理包括:将调整系数与候选词系数的乘积作为经过调整的候选词系数。使用几何平均值来计算平均值可提高所述三个值中的任意一个值对调整系数的影响程度。例如,对于两个候选词,当与第一候选词对应的三个值中的最小值小于与第二候选词对应的三个值中的最小值时,即使与第一候选词对应的三个值中的其余两个值比与第二候选词对应的三个值中的其余两个值都大,则第一候选词的候选词系数也可能小于第二候选词的候选词系数。在这种情况下,可更准确地反映内部凝聚程度和边界自由程度对候选词系数的影响。
具体说来,根据本发明的示例性实施例,为了筛选出内部凝聚程度和边界自由程度都大的候选词,可对上文中获得的内部凝聚程度、左邻接熵和右邻接熵分别进行归一化,并求取归一化后获得三个值的几何平均值,作为所述调整系数。
其中,Spmi(w)是内部凝聚程度,Sl(w)是左邻接熵,Sr(w)是右邻接熵,W是第二候选词集合,w′是W中的候选词。
例如,可通过如下等式计算经过调整的候选词系数S′(w):
S′(w)=Sseg(w)·S(w)
其中,调整系数是调整系数,Sseg(w)是该候选词的候选词系数。
根据本发明的示例性实施例,为了从第二候选词集合中选择出新词,可根据第二候选词集合中的每个候选词的经过调整的候选词系数对第二候选词集合中的各个候选词进行排序,作为示例,可将排在前面的预定数量的候选词确定为新词,并且/或者,可将调整后的候选词系数高于预设阈值的候选词确定为新词。
作为示例,所述新词发现方法还可包括:将筛选出的新词加入到第一词典和第二词典中的至少一个词典中并使用加入了新词的所述至少一个词典来针对后续的文本执行所述新词发现方法。通过这种方式,可增强对后续文本的新词发现结果的准确性。
图2示出根据本发明示例性实施例的新词发现系统的框图。如图2中所示,新词发现系统100包括:文本处理模块110,词性过滤模块120,分词评估模块130和新词发现模块140。
文本处理模块110用于通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合;词性过滤模块120用于统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和/或具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合;分词评估模块130用于利用第二词典中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合和/或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数;新词发现模块140用于基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词,其中,第一词典与第二词典相同或不同。
作为示例,新词发现模块140分别计算第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度,并对计算出的内部凝聚程度和计算出的边界自由程度分别进行归一化;以及分别计算第二候选词集合中的每个候选词的归一化的内部凝聚程度与归一化的边界自由程度的平均值作为候选词系数的调整系数。
作为示例,文本处理模块110用预定符号对文本进行切割以获得句子集合;对于每个句子,将相邻英文字母和/或相邻数字看作一个汉字;从句子集合中去除长度小于预定长度的句子,其中,利用汉字的长度来计算句子的长度;分别根据各种预设长度对经过去除操作的句子集合中的每个句子进行分割,以从每个句子分割出至少一个候选词。
作为示例,词性过滤模块120计算具有单独成词的首字的词条中首字分别为各种词性的词条的数量占具有单独成词的首字的词条的总数的比例,确定与计算出的比例中的小于首字词性预定阈值的比例对应的首字词性,从第一候选词集合中去除具有单独成词的首字的候选词中首字具有所确定的首字词性的候选词;计算具有单独成词的尾字的词条中尾字分别为各种词性的词条的数量占具有单独成词的尾字的词条的总数的比例,确定与计算出的比例中的小于尾字词性预定阈值的比例对应的尾字词性,从第一候选词集合中去除具有单独成词的尾字的候选词中尾字具有所确定的尾字词性的候选词;和/或计算具有单独成词的首尾字的词条中首尾字分别为各种词性组合的词条的数量占具有单独成词的首尾字的词条的总数的比例,确定与计算出的比例中的小于首尾字词性预定阈值的比例对应的首尾字词性组合,从第一候选词集合中去除具有单独成词的首尾字的候选词中首尾字具有所确定的首尾字词性组合的候选词。
作为示例,分词评估模块130还用于对长度超过预设分词长度的分词进行过分割以得到过分割后的分词。
作为示例,分词评估模块130分别通过如下等式之一来计算第二候选词集合中的每个候选词的候选词系数:
其中,n为包括候选词w的句子的序号,N为包括候选词w的句子的序号的集合,Sseg(w)是第二候选词集合中的候选词w的候选词系数,α是预定义的用于调整左边界集合和右边界集合对候选词系数的影响程度的参数,0≤α≤1,il(n)是在第n个句子中所述候选词w的作为左边界的字的位置下标集合,ir(n)是在第n个句子中所述候选词w的作为右边界的字的位置下标集合,Il(n)是在第n个句子中的左边界集合,Ir(n)是在第n个句子中的右边界集合,当il(n)属于Il(n)时F(il(n),Il(n))的值为0,当il(n)不属于Il(n)时F(il(n),Il(n))的值为1,当ir(n)属于Ir(n)时F(ir(n),Ir(n))的值为0,当ir(n)不属于Ir(n)时F(ir(n),Ir(n))的值为1,max表示计算最大值,avg表示计算平均值。
作为示例,所述平均值为算术平均值、几何平均值和调和平均值中的至少一个,其中,新词发现模块将调整系数与候选词系数的乘积作为经过调整的候选词系数。
作为示例,新词发现系统100还包括:词典更新模块(未示出),用于将筛选出的新词加入到第一词典和第二词典中的至少一个词典中,其中,所述新词发现系统使用加入了新词的所述至少一个词典来针对后续的文本进行处理。
根据本发明的另一示例性实施例,提供一种计算机可读介质,其中,在所述计算机可读介质上记录有用于执行如上所述的新词发现方法的计算机程序。
根据本发明的另一示例性实施例,提供一种计算装置,包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行如上所述的新词发现方法。
应该理解,根据本发明示例性实施例的用于针对新词发现系统的具体实现方式可参照结合图1描述的相关具体实现方式来实现,在此不再赘述。
根据本发明示例性实施例的新词发现系统所包括的模块可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些模块可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些模块所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本发明示例性实施例的新词发现方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种用于新词发现的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合;统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和/或具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合;利用第二词典中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合和/或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数;以及基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词,其中,第一词典与第二词典相同或不同。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的新词发现系统可完全依赖计算机程序的运行来实现相应的功能,即,计算机程序的功能架构与新词发现方法的各步骤相应,使得整个新词发现系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本发明示例性实施例的新词发现系统所包括的各个模块也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行本发明的示例性实施例的新词发现方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的新词发现方法中所描述的某些处理可通过软件方式来实现,某些处理可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些处理。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的新词发现方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的用于新词发现的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合;统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和/或具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合;利用第二词典中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合和/或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数;以及基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词,其中,第一词典与第二词典相同或不同。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。

Claims (19)

1.一种新词发现方法,包括:
通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合;
统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合;
利用第二词典中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数;以及
基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词,
其中,第一词典与第二词典相同或不同。
2.根据权利要求1所述的新词发现方法,其中,获取调整系数的步骤包括:分别计算第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度,并对计算出的内部凝聚程度和计算出的边界自由程度分别进行归一化;以及分别计算第二候选词集合中的每个候选词的归一化的内部凝聚程度与归一化的边界自由程度的平均值作为候选词系数的调整系数。
3.根据权利要求1所述的新词发现方法,其中,通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合的步骤包括:
用预定符号对文本进行切割以获得句子集合;
对于每个句子,将相邻英文字母和/或相邻数字看作一个汉字;
从句子集合中去除长度小于预定长度的句子,其中,利用汉字的长度来计算句子的长度;
分别根据各种预设长度对经过去除操作的句子集合中的每个句子进行分割,以从每个句子分割出至少一个候选词。
4.根据权利要求1所述的新词发现方法,其中,统计所述首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词的步骤包括:
计算具有单独成词的首字的词条中首字分别为各种词性的词条的数量占具有单独成词的首字的词条的总数的比例,确定与计算出的比例中的小于首字词性预定阈值的比例对应的首字词性,从第一候选词集合中去除具有单独成词的首字的候选词中首字具有所确定的首字词性的候选词;
计算具有单独成词的尾字的词条中尾字分别为各种词性的词条的数量占具有单独成词的尾字的词条的总数的比例,确定与计算出的比例中的小于尾字词性预定阈值的比例对应的尾字词性,从第一候选词集合中去除具有单独成词的尾字的候选词中尾字具有所确定的尾字词性的候选词;和
计算具有单独成词的首尾字的词条中首尾字分别为各种词性组合的词条的数量占具有单独成词的首尾字的词条的总数的比例,确定与计算出的比例中的小于首尾字词性预定阈值的比例对应的首尾字词性组合,从第一候选词集合中去除具有单独成词的首尾字的候选词中首尾字具有所确定的首尾字词性组合的候选词。
5.根据权利要求1所述的新词发现方法,其中,利用第二词典中的词条针对每个句子进行分词的处理还包括:对长度超过预设分词长度的分词进行过分割以得到过分割后的分词。
6.根据权利要求1所述的新词发现方法,其中,综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数的处理包括:分别通过如下等式之一来计算第二候选词集合中的每个候选词的候选词系数:
其中,n为包括候选词w的句子的序号,N为包括候选词w的句子的序号的集合,Sseg(w)是第二候选词集合中的候选词w的候选词系数,α是预定义的用于调整左边界集合和右边界集合对候选词系数的影响程度的参数,0≤α≤1,il(n)是在第n个句子中所述候选词w的作为左边界的字的位置下标集合,ir(n)是在第n个句子中所述候选词w的作为右边界的字的位置下标集合,Il(n)是在第n个句子中的左边界集合,Ir(n)是在第n个句子中的右边界集合,当il(n)属于Il(n)时F(il(n),Il(n))的值为0,当il(n)不属于Il(n)时F(il(n),Il(n))的值为1,当ir(n)属于Ir(n)时F(ir(n),Ir(n))的值为0,当ir(n)不属于Ir(n)时F(ir(n),Ir(n))的值为1,max表示计算最大值,avg表示计算平均值。
7.根据权利要求2所述的新词发现方法,其中,所述平均值为算术平均值、几何平均值和调和平均值中的至少一个,
其中,利用调整系数调整候选词系数的处理包括:将调整系数与候选词系数的乘积作为经过调整的候选词系数。
8.根据权利要求1所述的新词发现方法,还包括:将筛选出的新词加入到第一词典和第二词典中的至少一个词典中并使用加入了新词的所述至少一个词典来针对后续的文本执行所述新词发现方法。
9.根据权利要求2所述的新词发现方法,分别计算第二候选词集合中的每个候选词的内部凝聚程度的处理包括:分别通过点互信息、对称条件概率SCP、词频/逆文本频率TF/IDF或先验算法Apriori来计算第二候选词集合中的每个候选词的内部凝聚程度。
10.一种新词发现系统,包括:
文本处理模块,用于通过对文本中的各个句子进行分割来获得包括多个候选词的第一候选词集合;
词性过滤模块,用于统计第一词典中的具有单独成词的首字的词条、具有单独成词的尾字的词条和具有单独成词的首尾字的词条的首尾字词性规律,并从所述第一候选词集合中去除不符合所述首尾字词性规律的候选词,以获得第二候选词集合;
分词评估模块,用于利用第二词典中的词条针对每个句子进行分词,统计所述每个句子中包括作为分词左边界的字的位置下标的左边界集合和包括作为分词右边界的字的位置下标的右边界集合,分别判断所述各个句子中每个候选词的作为左边界的字的位置下标集合是否属于相应的左边界集合或所述每个候选词的作为右边界的字的位置下标集合是否属于相应的右边界集合,并综合各个句子中所述判断的结果来计算所述每个候选词的候选词系数;以及
新词发现模块,用于基于第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度来获取第二候选词集合中的每个候选词的候选词系数的调整系数,利用调整系数调整候选词系数,按照经过调整的候选词系数对第二候选词集合中的候选词进行排序,并根据所述排序的结果筛选出新词,
其中,第一词典与第二词典相同或不同。
11.根据权利要求10所述的新词发现系统,其中,新词发现模块分别计算第二候选词集合中的每个候选词的内部凝聚程度和边界自由程度,并对计算出的内部凝聚程度和计算出的边界自由程度分别进行归一化;以及分别计算第二候选词集合中的每个候选词的归一化的内部凝聚程度与归一化的边界自由程度的平均值作为候选词系数的调整系数。
12.根据权利要求10所述的新词发现系统,其中,文本处理模块用预定符号对文本进行切割以获得句子集合;对于每个句子,将相邻英文字母和/或相邻数字看作一个汉字;从句子集合中去除长度小于预定长度的句子,其中,利用汉字的长度来计算句子的长度;分别根据各种预设长度对经过去除操作的句子集合中的每个句子进行分割,以从每个句子分割出至少一个候选词。
13.根据权利要求10所述的新词发现系统,其中,词性过滤模块计算具有单独成词的首字的词条中首字分别为各种词性的词条的数量占具有单独成词的首字的词条的总数的比例,确定与计算出的比例中的小于首字词性预定阈值的比例对应的首字词性,从第一候选词集合中去除具有单独成词的首字的候选词中首字具有所确定的首字词性的候选词;计算具有单独成词的尾字的词条中尾字分别为各种词性的词条的数量占具有单独成词的尾字的词条的总数的比例,确定与计算出的比例中的小于尾字词性预定阈值的比例对应的尾字词性,从第一候选词集合中去除具有单独成词的尾字的候选词中尾字具有所确定的尾字词性的候选词;和计算具有单独成词的首尾字的词条中首尾字分别为各种词性组合的词条的数量占具有单独成词的首尾字的词条的总数的比例,确定与计算出的比例中的小于首尾字词性预定阈值的比例对应的首尾字词性组合,从第一候选词集合中去除具有单独成词的首尾字的候选词中首尾字具有所确定的首尾字词性组合的候选词。
14.根据权利要求10所述的新词发现系统,其中,分词评估模块还用于对长度超过预设分词长度的分词进行过分割以得到过分割后的分词。
15.根据权利要求10所述的新词发现系统,其中,分词评估模块分别通过如下等式之一来计算第二候选词集合中的每个候选词的候选词系数:
其中,n为包括候选词w的句子的序号,N为包括候选词w的句子的序号的集合,Sseg(w)是第二候选词集合中的候选词w的候选词系数,α是预定义的用于调整左边界集合和右边界集合对候选词系数的影响程度的参数,0≤α≤1,il(n)是在第n个句子中所述候选词w的作为左边界的字的位置下标集合,ir(n)是在第n个句子中所述候选词w的作为右边界的字的位置下标集合,Il(n)是在第n个句子中的左边界集合,Ir(n)是在第n个句子中的右边界集合,当il(n)属于Il(n)时F(il(n),Il(n))的值为0,当il(n)不属于Il(n)时F(il(n),Il(n))的值为1,当ir(n)属于Ir(n)时F(ir(n),Ir(n))的值为0,当ir(n)不属于Ir(n)时F(ir(n),Ir(n))的值为1,max表示计算最大值,avg表示计算平均值。
16.根据权利要求11所述的新词发现系统,其中,所述平均值为算术平均值、几何平均值和调和平均值中的至少一个,其中,新词发现模块将调整系数与候选词系数的乘积作为经过调整的候选词系数。
17.根据权利要求10所述的新词发现系统,其中,所述新词发现系统还包括:词典更新模块,用于将筛选出的新词加入到第一词典和第二词典中的至少一个词典中,其中,所述新词发现系统使用加入了新词的所述至少一个词典来针对后续的文本进行处理。
18.根据权利要求11所述的新词发现系统,新词发现模块分别通过点互信息、对称条件概率SCP、词频/逆文本频率TF/IDF或先验算法Apriori来计算第二候选词集合中的每个候选词的内部凝聚程度。
19.一种计算机可读介质,其中,在所述计算机可读介质上记录有用于执行根据权利要求1至9中的任一项所述的新词发现方法的计算机程序。
CN201810728830.4A 2018-07-05 2018-07-05 新词发现方法及系统 Active CN108959259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810728830.4A CN108959259B (zh) 2018-07-05 2018-07-05 新词发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810728830.4A CN108959259B (zh) 2018-07-05 2018-07-05 新词发现方法及系统

Publications (2)

Publication Number Publication Date
CN108959259A CN108959259A (zh) 2018-12-07
CN108959259B true CN108959259B (zh) 2019-11-08

Family

ID=64485763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810728830.4A Active CN108959259B (zh) 2018-07-05 2018-07-05 新词发现方法及系统

Country Status (1)

Country Link
CN (1) CN108959259B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182448A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 页面信息处理方法、装置及设备
CN110442861B (zh) * 2019-07-08 2023-04-07 万达信息股份有限公司 一种基于真实世界统计的中文专业术语与新词发现的方法
CN111476025B (zh) * 2020-02-28 2021-01-08 开普云信息科技股份有限公司 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
CN113761882B (zh) * 2020-06-08 2024-09-20 北京沃东天骏信息技术有限公司 一种词典构建方法和装置
CN114091437A (zh) * 2020-08-24 2022-02-25 中国电信股份有限公司 新词召回方法和领域词向量表生成方法及其装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
CN102169496A (zh) * 2011-04-12 2011-08-31 清华大学 基于锚文本分析的领域术语自动生成方法
CN102231153A (zh) * 2011-05-25 2011-11-02 盛乐信息技术(上海)有限公司 一种新词发现方法和系统
US9229924B2 (en) * 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
CN102930055B (zh) * 2012-11-18 2015-11-04 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN105183923B (zh) * 2015-10-27 2018-06-22 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN106095736A (zh) * 2016-06-07 2016-11-09 华东师范大学 一种领域新词抽取的方法

Also Published As

Publication number Publication date
CN108959259A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959259B (zh) 新词发现方法及系统
US20220138423A1 (en) Deep learning based text classification
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
US20200081899A1 (en) Automated database schema matching
WO2020073523A1 (zh) 新词识别方法、装置、计算机设备及计算机可读存储介质
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
US20170249377A1 (en) On-the-fly pattern recognition with configurable bounds
JP7242719B2 (ja) Spoの抽出方法、装置、電子機器及び記憶媒体
CN111898366A (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
US11462039B2 (en) Method, device, and storage medium for obtaining document layout
WO2021169217A1 (zh) 摘要提取方法、装置、设备及计算机可读存储介质
CN112989235B (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
WO2023060633A1 (zh) 增强语义的关系抽取方法、装置、计算机设备及存储介质
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
WO2021169499A1 (zh) 网络不良数据监控方法、装置、系统及存储介质
CN112052397B (zh) 用户特征生成方法、装置、电子设备及存储介质
CN110069769A (zh) 应用标签生成方法、装置及存储设备
EP3822822A1 (en) Relationship network generation method and device, electronic apparatus, and storage medium
CN112784046B (zh) 文本聚簇的方法、装置、设备及存储介质
WO2021056740A1 (zh) 语言模型构建方法、系统、计算机设备及可读存储介质
CN112445907B (zh) 文本情感分类方法、装置、设备、及存储介质
CN112528644A (zh) 实体挂载的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant