CN108776709B - 计算机可读存储介质及词典更新方法 - Google Patents
计算机可读存储介质及词典更新方法 Download PDFInfo
- Publication number
- CN108776709B CN108776709B CN201810676967.XA CN201810676967A CN108776709B CN 108776709 B CN108776709 B CN 108776709B CN 201810676967 A CN201810676967 A CN 201810676967A CN 108776709 B CN108776709 B CN 108776709B
- Authority
- CN
- China
- Prior art keywords
- candidate data
- word
- data string
- words
- information entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种计算机可读存储介质及词典更新方法,所述方法包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;对所述候选数据串进行判断处理,以发现新词;在发现新词时,将该新词加入词典,以更新后的词典再次进行分词处理、组合处理和发现新词的过程,直至未发现新词为止。本发明可以提升新词发现的准确率。
Description
本申请是申请日为2015年10月27日,申请号为201510706240.8,发明创造名称为“新词发现方法及装置”的分案申请。
技术领域
本发明涉及智能交互领域,尤其涉及一种计算机可读存储介质及词典更新方法。
背景技术
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所以词语词典对于整个系统的性能有着很大的影响。
社会文化的进步和变迁、经济商业的快速发展,往往带动着语言的变化,而最快速体现语言变化的就是新词的出现。特别是在特定领域内,是否能在新词出现后及时更新词语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。
新词也就是新发现的单独词,在现有技术中,至少有以下三个来源:客户提供的领域内的新词;通过客户提供的语料发现的新词;运营过程中发现的新词。
现有技术中新词发现准确度有待提升。
发明内容
本发明解决的技术问题是如何提升新词发现的准确度。
为解决上述技术问题,本发明实施例提供一种计算机可读存储介质,其上存储有程序,该程序被执行时实现新词发现方法,所述方法包括:
对接收到的语料进行预处理,以得到文本数据;
对所述文本数据进行分行处理,得到语句数据;
依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;
对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;
对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
可选的,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
可选的,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
可选的,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
可选的,对所述候选数据串进行判断处理,以发现新词依次包括:
计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
剩余的所述候选数据串作为新词。
可选的,所述特定相对位置为左侧和右侧中的一种或两种。
可选的,参照频次确定所述基础名词。
可选的,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
本发明实施例还提供了一种词典更新的方法,包括:
采用以下方式发现新词:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行吹,得到语句数据;依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串;对所述候选数据串进行判断处理,以发现新词,所述判断处理包括:当所述候选数据串为非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
在发现新词时,将该新词加入词典,以更新后的词典再次进行分词处理、组合处理和发现新词的过程,直至未发现新词为止。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
通过判断候选数据串是否为特定候选数据串,当候选数据串为特定候选数据串时,仅计算所述特定候选数据串中基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串,而对所述基础名词与内侧词语的信息熵不再计算,从而可以减少计算量,并且可以通过基础名词的选择,更加合理的设定去除候选数据串的条件,从而可以更加灵活的进行新词发现,提升新词发现的效率和准确性。
进一步,需计算的所述候选数据串成为新词的概率特征值的种类多于一种时,通过依次对候选数据串进行判断,判断计算次序在前的概率特征值是否在预设范围内,仅对概率特征值在预设范围内的候选数据串进行次序在后的概率特征值的计算,可以减少次序在后的计算范围,从而减少计算量,提升更新效率。
此外,通过设定候选数据串的长度范围,以排除长度在所述长度范围之外的相邻词语数据,从而只需对长度在所述长度范围内的相邻词语数据进行概率特征值计算,最终可以进一步减小新词发现的计算量,提升更新效率。
附图说明
图1是本发明实施例中一种新词发现方法的流程图;
图2是本发明实施例中另一种新词发现方法的部分流程图;
图3是本发明实施例中一种新词发现装置的结构示意图;
图4是本发明实施例中另一种新词发现装置的结构示意图。
具体实施方式
经发明人研究发现,在接收到的语料中,会出现一类特殊的名词,若仅对该类名词所在的候选数据串进行与其他候选数据串方式相同的判断,将排除该类名词所在的候选数据串。但在实际应用中,该类名词所在的候选数据串需要被作为新词。故若对所有的候选数据串以同一种方式进行判断,得到的新词准确率有待提高。
本发明实施例通过对候选数据串进行判断,对候选数据串进行判断,将候选数据串分为特定候选数据串和非特定候选特定数据串,其中特定候选数据串包含前述特殊的名词,也就是基础名词,并且基础名词的相对的特定相对位置的词语为名词或形容词。根据上述划分,可以对特定候选数据串和非特候选定数据串采取不同的判断,当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。从而可以避免应作为新词的特定候选数据串因基础名词与内侧词语的信息熵不符合信息熵判断条件,而被错误的排除的情形,从而可以提升新词发现方法的准确率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中一种新词发现方法的流程图。
S11,对接收到的语料进行预处理,以得到文本数据。
语料可以是在某个具体领域中,当有新词出现时,可能包含新词的文字段落。例如,在词典应用于银行智能问答系统时,语料可以是银行提供的文章、问答系统常见问题或者系统日志等。
语料来源的多样性可以使新词的发现更加全面,但同时,语料中格式类型较多,为便于对语料进行后续处理,需对语料进行预处理,得到文本数据。
在具体实施中,所述预处理可以将语料的格式统一为文本格式,并过滤脏词、敏感词和停用词中的一种或多种。在将语料的格式统一为文本格式时,可以将当前技术暂不能转换为文本格式的内容过滤掉。
S12,对所述文本数据进行分行处理,得到语句数据。
分行处理可以是对语料按照标点分行,例如在出现句号、逗号、叹号、问号等标点处分行。此处得到语句数据是对语料的初步分割,以便于确定后续分词处理的范围。
S13,依照词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据。
词典包含多个单独词,不同单独词的长度可以不同。在具体实施中,基于词典进行分词处理的过程可以利用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
所述分词处理是对同一行的语句数据进行分词处理,从而分词后的词语数据位于同一行,且所述词语数据都是包括在词典中的单独词。
由于在领域内对话系统中,通过分词、问题检索、相似度匹配、确定答案等流程实现问题的智能回复的过程,都是以单独词为最小单位进行计算,此处依照基础词典进行分词处理的过程类似于在对话系统运行中的分词过程,区别在于分词处理基于的词典内容有差别。
本发明实施例中的新词发现方法适用于对词典进行更新,也就是可以将发现的新词加入词典,参照更新后的词典再一次对原语料进行新词发现,直至未能再次发现新词为止。
S14,对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串。
分词处理依据词典进行,可能会出现将在某个领域内本应作为一个词的词语数据分成多个词语数据的情况,故需要新词发现。设定条件筛选出应作为新词的候选数据串,将该候选数据串作为新词。生成候选数据串作为上述筛选过程的前提,可以采用多种方式完成。
若将语料中所有的相邻词语均作为候选数据串,新词发现系统的计算量过于庞大,效率较低,且位于不同行的相邻词语也毫无计算的意义。故可以对相邻词语进行筛选,生成候选数据串。
在具体实施中,可以利用Bigram模型将同一行的语句数据中相邻两个词语作为候选数据串。
假设一个语句S可以表示为一个序列S=w1w2…wn,语言模型就是要求语句S的概率p(S):
p(S)=p(w1,w2,w3,w4,w5,…,wn)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
(1)
公式(1)中概率统计基于Ngram模型,概率的计算量太大,无法应用于实际应用中。基于马尔科夫假设(Markov Assumption):下一个词的出现仅依赖于它前面的一个或几个词。假设下一个词的出现依赖它前面的一个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)
(2)
假设下一个词的出现依赖它前面的两个词,则有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)
(3)
公式(2)为Bigram概率的计算公式,公式(3)为trigram概率的计算公式。通过设置更大的n值,可以设置对下一个词出现的更多的约束信息,具有更大的辨别力;通过设置更小的n,在新词发现中候选数据串出现的次数更多,可以提供更可靠的统计信息,具有更高的可靠性。
理论上,n值越大,可靠性越高,在现有处理方法中,Trigram用的最多;但Bigram的计算量更小,系统效率更高。
在具体实施中,还可以设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。从而可以依照需求,得到不同长度范围的新词,以应用于不同场景。例如,设定长度范围数值较小的范围,以获取语法意义上的词语,应用于智能问答系统;设定长度范围数值较大的范围,以获取短语或短句,以将其作为文献检索目录的关键词等。
S15,判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词。
据发明人研究发现,若一个基础名词的特定相对位置上若是名词或形容词,则该基础名词极有可能需要被作为新词。例如基础名词“卡”,“卡”的左侧为名词,可以组成“龙卡”、“名校卡”、“白金卡”、“商务卡”等。故判断候选数据串是否为特定候选数据串,可以判断候选数据串是否满足包含基础名词,并且该基础名词的特定相对位置的词语是否为名词或者形容词。
基础名词的特定相对位置可以根据不同的基础名词和语料进行设定,例如,当语料中包含多种“卡”,并且需要将各种卡的名称均作为新词时,可以设定基础名词的左侧为名词或形容词。
在具体实施中,特定相对位置可以是左侧和右侧中的任一种或两种,可以根据需要进行设置。
在具体实施中,可以参照频次确定所述基础名词。由于基础名词在语料中会反复出现,故可以参照频次确定基础名词。可以理解的是,基础名词也可以通过人工阅读进行选择和设定。
在具体实施中,还可以参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。由于当基础名词与左侧词语的熵值和右侧词语的熵值差异较大时,往往代表该基础名词需和其中一侧词语结合成新词,例如前述词语“卡”,往往出现在大标点附近,故左右侧的信息熵值差异较大,故结合词语数据的位置以及所述词语数据左信息熵和右信息熵的差值,可以对一个词语是否为基础名词进行判断。
S16,对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
由于候选数据串包括两个词语数据,在对候选数据串进行判断处理时,需要分别对两个词语数据的内侧信息熵进行判断,信息熵是对随机变量不确定性的量度,计算公式如下:
H(X)=-∑p(xi)log p(xi)
信息熵越大,表示变量的不确定性越大,即每个可能的取值发生的概率越平均。如果变量某个取值发生的概率为1,则熵为0。表明变量只有当前一种取值发生,是一个必然事件。
计算词语W的左侧信息熵和右侧信息熵的公式如下:
H1(W)=∑x∈X(#XW>0)P(x|W)log P(x|W),其中X为出现在W左边的所有词语数据集合,H1(W)为词语数据W的左侧信息熵。
H2(W)=∑x∈Y(#WY>0)P(y|W)log P(y|W),其中Y为出现在W右边的所有词语数据集合,H2(W)为词语数据W的右侧信息熵。
内侧信息熵是对候选数据串依次固定每个单独词语数据,计算在该词语数据出现情况下另一个词语出现的信息熵。如果候选数据串为(W1W2),则计算词语数据W1的右侧信息熵和词语数据W2的左侧信息熵。
计算候选数据串中词语数据与其内侧的词语数据的熵值体现该词语数据内侧词语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的右侧信息熵,右侧词语数据W2的左侧信息熵可以判断词语数据W1和W2内侧的混乱程度,从而可以通过设定预设范围进行筛选,排除各词语与其内侧词语构成新词的概率特征值在预设范围外的候选数据串。
特定候选数据串中,基础名词的内侧信息熵也许会因在预设范围外,导致本应作为新词的特定候选数据串被排除,例如,特定候选数据串为“白金卡”、“名校卡”、“龙卡”等包含基础名词“卡”的候选数据串时,词语“白金”、“名”、“龙”的右侧信息熵在预设范围内,但由于词语“卡”的左侧词语较混乱,其左侧信息熵可能在预设范围外,从而可能导致候选数据串“白金卡”、“名校卡”、“龙卡”等候选数据串被错误的排除。
故当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串,不再对基础名词的内侧信息熵进行计算,避免因基础名词的内侧信息熵在预设范围外而导致的错误排除,可以有效解决上述问题,提升新词发现的准确率。此外还可以减少计算量,提高新词发现的效率。
参照图2,在本发明一实施例中,对所述候选数据串进行判断处理可以包括:
S161,计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
候选数据串出现的频次指候选数据串在语料中出现的次数,频次过滤用于判断候选数据串的结合次数,当频次低于某一阈值时,则过滤掉该候选数据串;候选数据串出现的频率与其出现的次数和语料中总词量均相关。将根据所述候选数据串出现的频次和频率计算得到的数值作为该候选数据串的概率特征值准确性更高。
在本发明一实施例中,根据所述候选数据串出现的频次和频率计算得到概率特征值可以采用TF-IDF(Term Frequency–Inverse Document Frequency)技术。
TF-IDF是一种统计算法,用于资讯检索与资讯探勘的常用加权技术,以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,也就是在语料中的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF*IDF,TF词频(Term Frequency),IDF反文档频率(Inverse DocumentFrequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。(另一说:IDF反文档频率(Inverse Document Frequency)是指包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。)但是实际上,如果一个词条在一个类的文档中频繁出现,也就是在语料中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来其为该类文本的特征词以区别与其它类文档。也就是可以将这样的词条作为词典应用的领域内的新词。
S162,计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
互信息(Mutual Information,MI)的定义见下式:
互信息反映了候选数据串与其中词语数据的共现关系,由两个单独词组成的候选数据串的互信息为一个值(即两个单独词间的互信息),当一候选数据串W与其中词语数据共现频度高时,即出现频次相近时,可知候选数据串W的互信息MI接近于1,也就是说此时候选数据串W成为一个词的可能性很大。若互信息MI的值很小,接近于0,则说明W几乎不可能成为一个词,更不可能成为一个新词。互信息反映了一个候选数据串内部的依赖程度,从而可以用来判断候选数据串是否可能成为一个新词。
S163,当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。步骤S163的具体实施方式此不赘述。
S164,计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
计算候选数据串中词语数据与其外侧的词语数据的熵值体现该词语数据外侧词语数据的混乱程度。例如,通过计算候选数据串W1W2中左侧词语数据W1的左侧信息熵,右侧词语数据W2的右侧信息熵可以判断词语数据W1和W2外侧的混乱程度,从而可以通过设定预设范围进行筛选,排除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串。
以候选数据串仅包括两个单独词(w1w2)为例说明,单独词w1与相邻的候选数据串中的单独词具有一个外侧信息熵,单独词w1与同一候选数据串中单独词w2具有一个内侧信息熵;单独词w2与同一候选数据串中单独词w1具有一个内侧信息熵,单独词w2与相邻的候选数据串中的单独词具有一个外侧信息熵,即位于中间位置(非端部)的单独词都具有一个内侧信息熵和外侧信息熵。
在进行内侧信息熵或外侧信息熵的判断时,需要对一个候选数据串中两个内侧信息熵或两个外侧信息熵都进行判断,只有两个内侧信息熵或两个外侧信息熵都位于预设范围时,才认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围内;否则,只要有一个内侧信息熵或一个外侧信息熵位于预设范围外,就认为该候选数据串的内侧信息熵或外侧信息熵位于预设范围外。
例如,两个相邻的候选数据串分别为:由单独词“我”和单独词“办理”组成的候选数据串;由单独词“华北”和单独词“商厦”组成的候选数据串。两个候选数据串的内部信息熵分别为:单独词“我”和单独词“办理”之间的信息熵:单独词“华北”的右侧信息熵和单独词“商厦”的左侧信息熵。两个候选数据串之间的外部信息熵为:单独词“办理”的右侧信息熵和单独词“华北”的左侧信息熵。
可以理解的是,对候选数据串的判断处理,可以包括步骤S163,和步骤S161、S162、S164中的任意一种或多种,对四个步骤的先后顺序并不做具体限定。
在本发明一实施例中,判断处理依次包括步骤S161至步骤S164,其中步骤S162对经过步骤S161排除后的剩余数据串进行计算;步骤S163对经过步骤S161和S162排除后的剩余数据串进行计算;步骤S164对经过步骤S161、S162和S163排除后的剩余数据串进行计算。
在本发明实施例中,由于依次计算频次、互信息、候选数据串的边界词语数据与内侧词语数据的信息熵,而上述三种概率特征值的计算难度递增,次序在前的计算可以排除不在预设范围内的候选数据串,被排除的候选数据串不再参与次序在后的计算,从而可以节省计算时间,提高新词发现方法的效率。
本发明实施例中的新词发现方法可用于词典更新,在发现新词时,将该新词加入词典,以更新后的词典再次进行分词处理、组合处理和发现新词的过程,直至未发现新词为止。
本发明实施例还提供一种新词发现装置,包括:预处理单元31、分行处理单元32、分词处理单元33、组合处理单元34、特定候选数据串判断单元35以及新词发现单元36;
所述预处理单元31,适于对接收到的语料进行预处理,以得到文本数据;
所述分行处理单元32,适于对所述文本数据进行分行处理,得到语句数据;
所述分词处理单元33,适于依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;
所述组合处理单元34,适于对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
所述特定候选数据串判断单元35,适于判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词且位于所述基础名词的特定相对位置的词语为名词或形容词;
所述新词发现单元36,适于对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
在具体实施中,所述特定相对位置为左侧和右侧中的一种或两种。
在具体实施中,所述特定候选数据串判断单元35,适于参照频次确定所述基础名词。
在具体实施中,所述特定候选数据串判断单元35,适于参照词语数据的位置以及所述词语数据左信息熵和右信息熵的差值确定所述基础名词。
在具体实施中,所述判断处理还包括:计算候选数据串的所述频次相关的概率特征值,所述候选数据串的所述频次相关的概率特征值在预设范围外时,去除该候选数据串。
在具体实施中,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
在具体实施中,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
在具体实施中,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
参照图4,在具体实施中,所述新词发现单元36可以包括:频次过滤单元361、互信息过滤单元362、内部信息熵过滤单元363以及外部信息熵过滤单元364;
所述频次过滤单元361,适于计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
所述互信息过滤单元362,适于计算经所述频次过滤单元过滤后,剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
所述内部信息熵过滤单元363,适于当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
所述外部信息熵过滤单元364,适于计算经所述内部信息熵过滤单元过滤后,剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
在具体实施中,所述组合处理单元34适于利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
在具体实施中,所述预处理单元31适于将语料的格式统一为文本格式;过滤脏词、敏感词和停用词中的一种或多种。
在具体实施中,所述分词处理单元33适于采用字典双向最大匹配法、HMM方法和CRF方法中的一种或多种。
在具体实施中,新词发现装置还可以包括:长度过滤单元37,适于设定候选数据串的长度范围,以排除长度在所述长度范围之外的候选数据串。
所述新词发现装置的具体工作过程请参考前述方法,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被执行时实现新词发现方法,所述方法包括:
对接收到的语料进行预处理,以得到文本数据;
对所述文本数据进行分行处理,得到语句数据;
依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;
对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;
判断所述候选数据串是否为特定候选数据串,所述特定候选数据串包括基础名词,且位于所述基础名词的特定相对位置的词语为名词或形容词;
对所述候选数据串进行判断处理,以发现新词;所述判断处理包括:
当所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;
当所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串。
2.根据权利要求1所述的计算机可读存储介质,其特征在于,所述判断处理还包括:计算所述候选数据串的频次相关的概率特征值,所述候选数据串的频次相关的概率特征值在预设范围外时,去除该候选数据串。
3.根据权利要求2所述的计算机可读存储介质,其特征在于,所述频次相关的概率特征值包括:候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值。
4.根据权利要求1所述的计算机可读存储介质,其特征在于,所述判断处理还包括:计算候选数据串中各个词语数据间的互信息;去除所述互信息在预设范围外的候选数据串。
5.根据权利要求1所述的计算机可读存储介质,其特征在于,所述判断处理还包括:计算所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串。
6.根据权利要求1所述的计算机可读存储介质,其特征在于,对所述候选数据串进行判断处理,以发现新词依次包括:
计算所述候选数据串的频次,去除所述频次在预设范围外的候选数据串;
计算剩余的所述候选数据串的互信息,去除所述互信息在预设范围外的候选数据串;
当剩余的所述候选数据串非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当剩余的所述候选数据串为特定候选数据串时,仅计算所述基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
计算剩余的所述候选数据串边界词语数据与外侧词语数据的信息熵,去除所述信息熵在预设范围外的候选数据串;
剩余的所述候选数据串作为新词。
7.根据权利要求1所述的计算机可读存储介质,其特征在于,所述特定相对位置为左侧和右侧中的一种或两种。
8.根据权利要求1所述的计算机可读存储介质,其特征在于,参照频次确定所述基础名词。
9.根据权利要求1所述的计算机可读存储介质,其特征在于,所述生成候选数据串,包括:利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。
10.一种词典更新的方法,其特征在于,包括:
采用以下方式发现新词:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照词典中包含的词语数据对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;判断所述候选数据串是否为特定候选数据串;对所述候选数据串进行判断处理,以发现新词,所述判断处理包括:当所述候选数据串为非特定候选数据串时,计算所述候选数据串中各词语与其内侧词语的信息熵,并去除所述信息熵在预设范围外的候选数据串;当所述候选数据串为特定候选数据串时,仅计算基础名词之外的词语与其内侧词语的信息熵,去除所述信息熵在预设范围外的候选数据串;
在发现新词时,将该新词加入词典,以更新后的词典再次进行分词处理、组合处理和发现新词的过程,直至未发现新词为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810676967.XA CN108776709B (zh) | 2015-10-27 | 2015-10-27 | 计算机可读存储介质及词典更新方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810676967.XA CN108776709B (zh) | 2015-10-27 | 2015-10-27 | 计算机可读存储介质及词典更新方法 |
CN201510706240.8A CN105224682B (zh) | 2015-10-27 | 2015-10-27 | 新词发现方法及装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510706240.8A Division CN105224682B (zh) | 2015-10-27 | 2015-10-27 | 新词发现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108776709A CN108776709A (zh) | 2018-11-09 |
CN108776709B true CN108776709B (zh) | 2020-05-19 |
Family
ID=54993650
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810676967.XA Active CN108776709B (zh) | 2015-10-27 | 2015-10-27 | 计算机可读存储介质及词典更新方法 |
CN201510706240.8A Active CN105224682B (zh) | 2015-10-27 | 2015-10-27 | 新词发现方法及装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510706240.8A Active CN105224682B (zh) | 2015-10-27 | 2015-10-27 | 新词发现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN108776709B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970902A (zh) * | 2016-01-13 | 2017-07-21 | 北京国双科技有限公司 | 一种中文分词方法及装置 |
CN107305438B (zh) * | 2016-04-21 | 2023-03-24 | 北京搜狗科技发展有限公司 | 候选项的排序方法和装置、用于候选项排序的装置 |
CN105955950A (zh) * | 2016-04-29 | 2016-09-21 | 乐视控股(北京)有限公司 | 新词发现方法及装置 |
CN106502984B (zh) * | 2016-10-19 | 2019-05-24 | 上海智臻智能网络科技股份有限公司 | 一种领域新词发现的方法及装置 |
CN110516235A (zh) * | 2016-11-23 | 2019-11-29 | 上海智臻智能网络科技股份有限公司 | 新词发现方法、装置、终端及服务器 |
CN107038229B (zh) * | 2017-04-07 | 2020-07-17 | 云南大学 | 一种基于自然语义分析的用例提取方法 |
CN110134767B (zh) * | 2019-05-10 | 2021-07-23 | 云知声(上海)智能科技有限公司 | 一种词汇表的筛选方法 |
CN110189830B (zh) * | 2019-05-24 | 2021-06-08 | 杭州火树科技有限公司 | 基于机器学习的电子病历词库训练方法 |
CN110442861B (zh) * | 2019-07-08 | 2023-04-07 | 万达信息股份有限公司 | 一种基于真实世界统计的中文专业术语与新词发现的方法 |
CN111209746B (zh) * | 2019-12-30 | 2024-01-30 | 航天信息股份有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN114218938A (zh) * | 2021-12-13 | 2022-03-22 | 北京智齿众服技术咨询有限公司 | 一种分词方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950306A (zh) * | 2010-09-29 | 2011-01-19 | 北京新媒传信科技有限公司 | 新词发现中的字符串过滤方法 |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN103955453A (zh) * | 2014-05-23 | 2014-07-30 | 清华大学 | 一种从文档集中自动发现新词的方法及装置 |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN104199846A (zh) * | 2014-08-08 | 2014-12-10 | 杭州电子科技大学 | 基于维基百科的评论主题词聚类方法 |
CN104462061A (zh) * | 2014-12-05 | 2015-03-25 | 北京国双科技有限公司 | 词语提取方法及提取装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996208B2 (en) * | 2004-09-30 | 2011-08-09 | Google Inc. | Methods and systems for selecting a language for text segmentation |
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102360383B (zh) * | 2011-10-15 | 2013-07-31 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN103049501B (zh) * | 2012-12-11 | 2016-08-03 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN103294664A (zh) * | 2013-07-04 | 2013-09-11 | 清华大学 | 开放领域新词发现的方法及系统 |
-
2015
- 2015-10-27 CN CN201810676967.XA patent/CN108776709B/zh active Active
- 2015-10-27 CN CN201510706240.8A patent/CN105224682B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN101950306A (zh) * | 2010-09-29 | 2011-01-19 | 北京新媒传信科技有限公司 | 新词发现中的字符串过滤方法 |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN103955453A (zh) * | 2014-05-23 | 2014-07-30 | 清华大学 | 一种从文档集中自动发现新词的方法及装置 |
CN104199846A (zh) * | 2014-08-08 | 2014-12-10 | 杭州电子科技大学 | 基于维基百科的评论主题词聚类方法 |
CN104462061A (zh) * | 2014-12-05 | 2015-03-25 | 北京国双科技有限公司 | 词语提取方法及提取装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105224682A (zh) | 2016-01-06 |
CN108776709A (zh) | 2018-11-09 |
CN105224682B (zh) | 2018-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108776709B (zh) | 计算机可读存储介质及词典更新方法 | |
CN108875040B (zh) | 词典更新方法及计算机可读存储介质 | |
CN108897842B (zh) | 计算机可读存储介质及计算机系统 | |
JP3041268B2 (ja) | 中国語誤り検査(cec)システム | |
CN109960724B (zh) | 一种基于tf-idf的文本摘要方法 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
US11379668B2 (en) | Topic models with sentiment priors based on distributed representations | |
CN107644010B (zh) | 一种文本相似度计算方法及装置 | |
CN113268995B (zh) | 中文学术关键词抽取方法、装置和存储介质 | |
US11334608B2 (en) | Method and system for key phrase extraction and generation from text | |
US7461056B2 (en) | Text mining apparatus and associated methods | |
CN108052500B (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN109033066B (zh) | 一种摘要形成方法及装置 | |
KR102373146B1 (ko) | 군집 기반 중복문서 제거 장치 및 제거 방법 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN109508460B (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
CN115757743A (zh) | 文档的检索词匹配方法及电子设备 | |
CN116501875A (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN106970919B (zh) | 新词组发现的方法及装置 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
Saini et al. | Intrinsic plagiarism detection system using stylometric features and DBSCAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |