发明内容
本发明解决的技术问题是如何提升新词发现的准确度。
为解决上述技术问题,本发明实施例提供一种新词发现方法,包括:
对接收到的语料进行预处理,以得到文本数据;
对所述文本数据进行分行处理,得到语句数据;
依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;
对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;
对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
可选的,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,对所述候选数据串进行判断处理,以发现新词依次包括:
计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
剩余的所述候选数据串作为新词。
可选的,所述特定相对位置为左侧和右侧中的一种或两种。
可选的,参照频次确定所述基础名词。
可选的,参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。
可选的,所述对接收到的语料进行预处理,以得到文本数据包括:将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
可选的,所述分词处理采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
可选的,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
可选的,所述新词发现方法还包括:设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
本发明实施例还提供一种新词发现装置,包括:预处理单元、分行处理单元、分词处理单元、组合处理单元、特定候选数据串判断单元;以及新词发现单元;
所述预处理单元,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元,适于依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述特定候选数据串判断单元,适于判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词且位于所述基础名词的特定相对位置的词语为名词或形容词;
所述新词发现单元,适于对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
可选的,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述新词发现单元包括:频次过滤单元、互信息过滤单元、内部信息熵过滤单元以及外部信息熵过滤单元;
所述频次过滤单元,适于计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
所述互信息过滤单元,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
内部信息熵过滤单元,适于当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
所述外部信息熵过滤单元,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述特定相对位置为左侧和右侧中的一种或两种。
可选的,所述特定候选数据串判断单元,适于参照频次确定所述基础名词。
可选的,所述特定候选数据串判断单元,适于参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。
可选的,所述组合处理单元适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
可选的,所述预处理单元适于将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
可选的,所述分词处理单元适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
可选的,所述新词发现装置还包括:长度过滤单元,适于设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
通过判断候选数据串是否为特定候选数据串,当候选数据串为特定候选数据串时,仅计算所述特定候选数据串中基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串,而对所述基础名词与内侧词语的信息熵不再计算,从而可以减少计算量,并且可以通过基础名词的选择,更加合理的设定去除候选数据串的条件,从而可以更加灵活的进行新词发现,提升新词发现的效率和准确性。
进一步,需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,通过依次对候选数据串进行判断,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算,可以减少次序在后的计算范围,从而减少计算量,提升更新效率。
此外,通过设定候选数据串的长度范围,以排除长度在所述长度范围之外的相邻词语数据,从而只需对长度在所述长度范围内的相邻词语数据进行概率特征值计算,最终可以进一步减小新词发现的计算量,提升更新效率。
具体实施方式
经发明人研究发现,在接收到的语料中,会出现一类特殊的名词,若仅对该类名词所在的候选数据串进行与其他候选数据串方式相同的判断,将排除该类名词所在的候选数据串。但在实际应用中,该类名词所在的候选数据串需要被作为新词。故若对所有的候选数据串以同一种方式进行判断,得到的新词准确率有待提高。
本发明实施例通过对候选数据串进行判断,对候选数据串进行判断,将候选数据串分为特定候选数据串和非特定候选特定数据串,其中特定候选数据串包含前述特殊的名词,也就是基础名词,并且基础名词的相对的特定相对位置的词语为名词或形容词。根据上述划分,可以对特定候选数据串和非特候选定数据串采取不同的判断,当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。从而可以避免应作为新词的特定候选数据串因基础名词与内侧词语的信息熵不符合信息熵判断条件,而被错误的排除的情形,从而可以提升新词发现方法的准确率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中一种新词发现方法的流程图。
S11,对接收到的语料进行预处理,以得到文本数据。
语料可以是在某个具体领域中,当有新词出现时,可能包含新词的文字段落。例如,在词典应用于银行智能问答系统时,语料可以是银行提供的文章、问答系统常见问题或者系统日志等。
语料来源的多样性可以使新词的发现更加全面,但同时,语料中格式类型较多,为便于对语料进行后续处理,需对语料进行预处理,得到文本数据。
在具体实施中,所述预处理可以将语料的格式统一为文本格式,并过滤脏词、敏感词和停用词中的一种或多种。在将语料的格式统一为文本格式时,可以将当前技术暂不能转换为文本格式的内容过滤掉。
S12,对所述文本数据进行分行处理,得到语句数据。
分行处理可以是对语料按照标点分行,例如在出现句号、逗号、叹号、问号等标点处分行。此处得到语句数据是对语料的初步分割,以便于确定后续分词处理的范围。
S13,依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据。
词典包含多个单独词,不同单独词的长度可以不同。在具体实施中,基于词典进行分词处理的过程可以利用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
所述分词处理是对同一行的语句数据进行分词处理,从而分词后的词语数据位于同一行,且所述词语数据都是包括在词典中的单独词。
由于在领域内对话系统中,通过分词、问题检索、相似度匹配、确定答案等流程实现问题的智能回复的过程,都是以单独词为最小单位进行计算,此处依照基础词典进行分词处理的过程类似于在对话系统运行中的分词过程,区别在于分词处理基于的词典内容有差别。
本发明实施例中的新词发现方法适用于对词典进行更新,也就是可以将发现的新词加入词典,参照更新后的词典再一次对原语料进行新词发现,直至未能再次发现新词为止。
S14,对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串。
分词处理依据词典进行,可能会出现将在某个领域内本应作为一个词的词语数据分成多个词语数据的情况,故需要新词发现。设定条件筛选出应作为新词的候选数据串,将该候选数据串作为新词。生成候选数据串作为上述筛选过程的前提,可以采用多种方式完成。
若将语料中所有的相邻词语均作为候选数据串,新词发现系统的计算量过于庞大,效率较低,且位于不同行的相邻词语也毫无计算的意义。故可以对相邻词语进行筛选,生成候选数据串。
在具体实施中,可以利用Bigram模型将同一行的语句数据中相邻两个词语作为候选数据串。
假设一个语句S可以表示为一个序列S=w1w2…wn,语言模型就是要求语句S的概率p(S):
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1) (1)
公式(1)中概率统计基于Ngram模型,概率的计算量太大,无法应用于实际应用中。基于马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词。假设下一个词的出现依赖它前面的一个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) (2)
假设下一个词的出现依赖它前面的两个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2) (3)
公式(2)为Bigram概率的计算公式,公式(3)为trigram概率的计算公式。通过设置更大的n值,可以设置对下一个词出现的更多的约束信息,具有更大的辨别力;通过设置更小的n,在新词发现中候选数据串出现的次数更多,可以提供更可靠的统计信息,具有更高的可靠性。
理论上,n值越大,可靠性越高,在现有处理方法中,Trigram用的最多;但Bigram的计算量更小,系统效率更高。
在具体实施中,还可以设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。从而可以依照需求,得到不同长度范围的新词,以应用于不同场景。例如,设定长度范围数值较小的范围,以获取语法意义上的词语,应用于智能问答系统;设定长度范围数值较大的范围,以获取短语或短句,以将其作为文献检索目录的关键词等。
S15,判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词。
据发明人研究发现,若一个基础名词的特定相对位置上若是名词或形容词,则该基础名词极有可能需要被作为新词。例如基础名词“卡”,“卡”的左侧为名词,可以组成“龙卡”、“名校卡”、“白金卡”、“商务卡”等。故判断候选数据串是否为特定候选数据串,可以判断候选数据串是否满足包含基础名词,并且该基础名词的特定相对位置的词语是否为名词或者形容词。
基础名词的特定相对位置可以根据不同的基础名词和语料进行设定,例如,当语料中包含多种“卡”,并且需要将各种卡的名称均作为新词时,可以设定基础名词的左侧为名词或形容词。
在具体实施中,特定相对位置可以是左侧和右侧中的任一种或两种,可以根据需要进行设置。
在具体实施中,可以参照频次确定所述基础名词。由于基础名词在语料中会反复出现,故可以参照频次确定基础名词。可以理解的是,基础名词也可以通过人工阅读进行选择和设定。
在具体实施中,还可以参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。由于当基础名词与左侧词语的熵值和右侧词语的熵值差异较大时,往往代表该基础名词需和其中一侧词语结合成新词,例如前述词语“卡”,往往出现在大标点附近,故左右侧的信息熵值差异较大,故结合词语数据的位置以及所述词语数据左信息熵和右信息熵的差值,可以对一个词语是否为基础名词进行判断。
S16,对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
由于候选数据串包括两个词语数据,在对候选数据串进行判断处理时,需要分别对两个词语数据的内侧信息熵进行判断,信息熵是对随机变量不确定性的量度,计算公式如下:
H(X)=-∑p(xi)log p(xi)
信息熵越大,表示变量的不确定性越大,即每个可能的取值发生的概率越平均。如果变量某个取值发生的概率为1,则熵为0。表明变量只有当前一种取值发生,是一个必然事件。
计算词语W的左侧信息熵和右侧信息熵的公式如下:
H1(W)=∑x∈X(#XW>0)P(x|W)log P(x|W),其中X为出现在W左边的所有词语数据集合,H1(W)为词语数据W的左侧信息熵。
H2(W)=∑x∈Y(#WY>0)P(y|W)log P(y|W),其中Y为出现在W右边的所有词语数据集合,H2(W)为词语数据W的右侧信息熵。
内侧信息熵是对候选数据串依次固定每个单独词语数据,计算在该词语数据出现情况下另一个词语出现的信息熵。如果候选数据串为(W1W2),则计算词语数据W1的右侧信息熵和词语数据W2的左侧信息熵。
计算候选数据串中词语数据与其内侧的词语数据的熵值体现该词语数据内侧词语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的右侧信息熵,右侧词语数据W2的左侧信息熵可以判断词语数据W1和W2内侧的混乱程度,从而可以通过设定预设范围进行筛选,排除各词语与其内侧词语构成新词的概率特征值在预设范围外的候选数据串。
特定候选数据串中,基础名词的内侧信息熵也许会因在预设范围外,导致本应作为新词的特定候选数据串被排除,例如,特定候选数据串为“白金卡”、“名校卡”、“龙卡”等包含基础名词“卡”的候选数据串时,词语“白金”、“名”、“龙”的右侧信息熵在预设范围内,但由于词语“卡”的左侧词语较混乱,其左侧信息熵可能在预设范围外,从而可能导致候选数据串“白金卡”、“名校卡”、“龙卡”等候选数据串被错误的排除。
故当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串,不再对基础名词的内侧信息熵进行计算,避免因基础名词的内侧信息熵在预设范围外而导致的错误排除,可以有效解决上述问题,提升新词发现的准确率。此外还可以减少计算量,提高新词发现的效率。
参照图2,在本发明一实施例中,对所述候选数据串进行判断处理可以包括:
S161,计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
候选数据串出现的频次指候选数据串在语料中出现的次数,频次过滤用于判断候选数据串的结合次数,当频次低于某一阈值时,则过滤掉该候选数据串;候选数据串出现的频率与其出现的次数和语料中总词量均相关。将根据所述候选数据串出现的频次和频率计算得到的数值作为该候选数据串的概率特征值准确性更高。
在本发明一实施例中,根据所述候选数据串出现的频次和频率计算得到概率特征值可以采用TF-IDF(Term Frequency–Inverse Document Frequency)技术。
TF-IDF是一种统计算法,用于资讯检索与资讯探勘的常用加权技术,以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,也就是在语料中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF*IDF,TF词频(Term Frequency),IDF反文档频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(Inverse Document Frequency)是指包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,也就是在语料中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来其为该类文本的特征词以区别与其它类文档。也就是可以将这样的词条作为词典应用的领域内的新词。
S162,计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
互信息(Mutual Information,MI)的定义见下式:
互信息反映了候选数据串与其中词语数据的共现关系,由两个单独词组成的候选数据串的互信息为一个值(即两个单独词间的互信息),当一候选数据串W与其中词语数据共现频度高时,即出现频次相近时,可知候选数据串W的互信息MI接近于1,也就是说此时候选数据串W成为一个词的可能性很大。若互信息MI的值很小,接近于0,则说明W几乎不可能成为一个词,更不可能成为一个新词。互信息反映了一个候选数据串内部的依赖程度,从而可以用来判断候选数据串是否可能成为一个新词。
S163,当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。步骤S163的具体实施方式此不赘述。
S164,计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
计算候选数据串中词语数据与其外侧的词语数据的熵值体现该词语数据外侧词语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的左侧信息熵,右侧词语数据W2的右侧信息熵可以判断词语数据W1和W2外侧的混乱程度,从而可以通过设定预设范围进行筛选,排除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串。
以候选数据串仅包括两个单独词(w1w2)为例说明,单独词w1与相邻的候选数据串中的单独词具有一个外侧信息熵,单独词w1与同一候选数据串中单独词w2具有一个内侧信息熵;单独词w2与同一候选数据串中单独词w1具有一个内侧信息熵,单独词w2与相邻的候选数据串中的单独词具有一个外侧信息熵,即位于中间位置(非端部)的单独词都具有一个内侧信息熵和外侧信息熵。
在进行内侧信息熵或外侧信息熵的判断时,需要对一个候选数据串中两个内侧信息熵或两个外侧信息熵都进行判断,只有两个内侧信息熵或两个外侧信息熵都位于预设范围时,才认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围内;否则,只要有一个内侧信息熵或一个外侧信息熵位于预设范围外,就认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围外。
例如,两个相邻的候选数据串分别为:由单独词“我”和单独词“办理”组成的候选数据串;由单独词“华北”和单独词“商厦”组成的候选数据串。两个候选数据串的内部信息熵分别为:单独词“我”和单独词“办理”之间的信息熵:单独词“华北”的右侧信息熵和单独词“商厦”的左侧信息熵。两个候选数据串之间的外部信息熵为:单独词“办理”的右侧信息熵和单独词“华北”的左侧信息熵。
可以理解的是,对候选数据串的判断处理,可以包括步骤S163,和步骤S161、S162、S164中的任意一种或多种,对四个步骤的先后顺序并不做具体限定。
在本发明一实施例中,判断处理依次包括步骤S161至步骤S164,其中步骤S162对经过步骤S161排除后的剩余数据串进行计算;步骤S163对经过步骤S161和S162排除后的剩余数据串进行计算;步骤S164对经过步骤S161、S162和S163排除后的剩余数据串进行计算。
在本发明实施例中,由于依次计算频次、互信息、候选数据串的边界词语数据与内侧词语数据的信息熵,而上述三种概率特征值的计算难度递增,次序在前的计算可以排除不在预设范围内的候选数据串,被排除的候选数据串不再参与次序在后的计算,从而可以节省计算时间,提高新词发现方法的效率。
本发明实施例中的新词发现方法可用于词典更新,在发现新词时,将该新词加入词典,以更新后的词典再次进行分词处理、组合处理和发现新词的过程,直至未发现新词为止。
本发明实施例还提供一种新词发现装置,包括:预处理单元31、分行处理单元32、分词处理单元33、组合处理单元34、特定候选数据串判断单元35以及新词发现单元36;
所述预处理单元31,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元32,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元33,适于依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元34,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述特定候选数据串判断单元35,适于判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词且位于所述基础名词的特定相对位置的词语为名词或形容词;
所述新词发现单元36,适于对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
在具体实施中,所述特定相对位置为左侧和右侧中的一种或两种。
在具体实施中,所述特定候选数据串判断单元35,适于参照频次确定所述基础名词。
在具体实施中,所述特定候选数据串判断单元35,适于参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。
在具体实施中,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
在具体实施中,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
在具体实施中,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
参照图4,在具体实施中,所述新词发现单元36可以包括:频次过滤单元361、互信息过滤单元362、内部信息熵过滤单元363以及外部信息熵过滤单元364;
所述频次过滤单元361,适于计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
所述互信息过滤单元362,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
所述内部信息熵过滤单元363,适于当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
所述外部信息熵过滤单元364,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
在具体实施中,所述组合处理单元34适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
在具体实施中,所述预处理单元31适于将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
在具体实施中,所述分词处理单元33适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
在具体实施中,新词发现装置还可以包括:长度过滤单元37,适于设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
所述新词发现装置的具体工作过程请参考前述方法,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。