CN106445915A - 一种新词发现方法及装置 - Google Patents

一种新词发现方法及装置 Download PDF

Info

Publication number
CN106445915A
CN106445915A CN201610826780.4A CN201610826780A CN106445915A CN 106445915 A CN106445915 A CN 106445915A CN 201610826780 A CN201610826780 A CN 201610826780A CN 106445915 A CN106445915 A CN 106445915A
Authority
CN
China
Prior art keywords
word
candidate word
probability
current
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610826780.4A
Other languages
English (en)
Other versions
CN106445915B (zh
Inventor
胡加学
金重九
王道广
赵乾
吴玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Puji Mdt InfoTech Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610826780.4A priority Critical patent/CN106445915B/zh
Publication of CN106445915A publication Critical patent/CN106445915A/zh
Application granted granted Critical
Publication of CN106445915B publication Critical patent/CN106445915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本发明提供了一种成词概率的计算方法、新词发现方法及装置,所述计算方法包括:获取文本数据;对所述文本数据进行分词,获得候选词;获取所述候选词的词向量;根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候选词标记为新词。可见,在本发明实施例中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。

Description

一种新词发现方法及装置
技术领域
[0001] 本发明涉及自然语言处理领域,尤其是涉及一种新词发现方法及装置。
背景技术
[0002] 随着信息技术的飞速发展,语言在网络平台上也不断被更新,从而造就了大量的 新词。而由于这些新词在词典中不存在,导致输入过程的分词结果不准确,影响用户体验。 因此,如何快速、准确地发现新词是目前人们关心的问题。
[0003] 目前在发现新词时,需要人工总结新词的规则,给出相应正则表达式或者文法表 达式,根据总结出的规则计算成词概率,从而判断是否属于新词。
[0004] 然而,新词往往更新速度较快,这种方式需要不断地人工总结规则,导致工作量较 大,而且由于很多新词随着时间的推移很快就不再使用,而这种方式也不能考虑这种情况, 导致发现的新词利用率不高,占用较多系统资源。
发明内容
[0005] 本发明解决的技术问题在于提供一种新词发现方法及装置,无需人工总结规则, 从而减少工作量,此外由于计算的是经过遗忘后的成词概率,从而提高了新词利用率,节省 系统资源。
[0006] 为此,本发明解决技术问题的技术方案是:
[0007] 本发明提供了一种成词概率的计算方法,所述方法包括:
[0008] 获取文本数据;
[0009] 对所述文本数据进行分词,获得候选词;
[0010] 获取所述候选词的词向量;
[0011] 根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过 遗忘后的所述候选词的成词概率。
[0012] 可选的,所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的 成词概率越大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成 词概率越小。
[0013] 可选的,计算经过遗忘后的所述候选词的成词概率,包括:
[0014] 将所述候选词的词向量和标识信息依次输入到新词发现模型中;
[0015] 在每次输入当前候选词的词向量和标识信息之后,利用所述新词发现模型计算当 前候选词的成词概率;
[0016] 其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。
[0017] 可选的,所述新词发现模型包括初始计算模型和遗忘模型;
[0018] 利用所述新词发现模型计算当前候选词的成词概率,包括:
[0019] 将所述当前候选词的词向量、当前候选词的上下文候选词的词向量输入到所述初 始计算模型,利用所述初始计算模型计算当前候选词的初始概率;
[0020] 将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当 前候选词的成词概率。
[0021] 可选的,利用所述遗忘模型计算当前候选词的成词概率,包括:
[0022] 若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概 率;
[0023] 若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次 计算的当前候选词的成词概率进行提升;
[0024] 若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。 [0025] 可选的,所述方法还包括:
[0026] 利用正向样本和负向样本对所述初始计算模型进行训练;
[0027] 其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向 量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向 量;当前候选词和互斥候选词为相同文本片段的不同分词结果。
[0028] 可选的,
[0029] 若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文候选词为 成词概率最大的候选词;
[0030] 若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词 为,当前候选词的相邻候选词中的候选词;
[0031] 所述上下文候选词和所述上下文候选词的互斥候选词为相同文本片段的不同分 词结果。
[0032] 可选的,还包括:
[0033] 若之前输入的候选词的成词概率低于预设阈值,停止更新之前输入的候选词的成 词概率。
[0034] 可选的,所述标识信息包括:所述候选词输入至所述新词发现模型的输入时间。
[0035] 可选的,所述新词发现模型为神经网络模型,其中,所述新词发现模型包括输入 层、隐层、第一输出层、遗忘层和第二输出层。
[0036] 本发明提供了一种新词发现方法,包括:
[0037] 获取上述任一项所述的经过遗忘后的候选词的成词概率;
[0038] 若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在 词典中,将所述候选词标记为新词。
[0039] 本发明提供了一种成词概率的计算装置,所述装置包括:
[0040] 第一获取模块,用于获取文本数据;
[0041] 获得模块,用于对所述文本数据进行分词,获得候选词;
[0042] 第二获取模块,用于获取所述候选词的词向量;
[0043] 计算模块,用于根据所述候选词的词向量和所述候选词在所述文本数据中的出现 顺序,计算经过遗忘后的所述候选词的成词概率。
[0044] 可选的,
[0045] 所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率 越大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越 小。
[0046] 可选的,所述计算模块包括:
[0047] 输入子模块,用于将所述候选词的词向量和标识信息依次输入到新词发现模型 中;
[0048] 计算子模块,用于在每次输入当前候选词的词向量和标识信息之后,利用所述新 词发现模型计算当前候选词的成词概率;
[0049] 其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。
[0050] 可选的,所述新词发现模型包括初始计算模型和遗忘模型;
[0051] 所述计算子模块具体用于,将所述当前候选词的词向量、当前候选词的上下文候 选词的词向量输入到所述初始计算模型,利用所述初始计算模型计算当前候选词的初始概 率;将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候 选词的成词概率。
[0052] 可选的,利用所述遗忘模型计算当前候选词的成词概率时,所述计算子模块具体 用于:
[0053] 若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概 率;
[0054] 若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次 计算的当前候选词的成词概率进行提升;
[0055] 若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。 [0056] 可选的,还包括:
[0057]训练模块,用于利用正向样本和负向样本对所述初始计算模型进行训练;
[0058] 其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向 量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向 量;当前候选词和互斥候选词为相同文本片段的不同分词结果。
[0059] 可选的,若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文 候选词为成词概率最大的候选词;
[0060] 若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词 为,当前候选词的相邻候选词中的候选词;
[0061] 所述上下文候选词和所述上下文候选词的互斥候选词为相同文本片段的不同分 词结果。
[0062] 可选的,所述计算子模块还用于,若之前输入的候选词的成词概率低于预设阈值, 停止更新之前输入的候选词的成词概率。
[0063] 可选的,所述标识信息包括:所述候选词输入至所述新词发现模型的输入时间。
[0064] 可选的,所述新词发现模型为神经网络模型,其中,所述新词发现模型包括输入 层、隐层、第一输出层、遗忘层和第二输出层。
[0065] 本发明提供了一种新词发现装置,包括:
[0066] 获取模块,用于上述任一项所述的计算装置计算出的、经过遗忘后的候选词的成 词概率;
[0067] 标记模块,用于若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述 候选词未出现在词典中,将所述候选词标记为新词。
[0068] 通过上述技术方案可知,本发明实施例中,获取文本数据;对所述文本数据进行分 词,获得候选词;获取所述候选词的词向量;根据所述候选词的词向量和所述候选词在所述 文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。可见,在本发明实施例 中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从 而提高了新词利用率,节省系统资源。
附图说明
[0069] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
[0070] 图1为本发明提供的一种方法实施例的流程示意图;
[0071] 图2为本发明提供的步骤S104的一种具体实施例的流程示意图;
[0072] 图3为本发明提供的新词发现模型的一种结构示意图;
[0073] 图4为本发明提供的另一种方法实施例的流程示意图;
[0074] 图5为本发明实施例提供的一种装置实施例的结构示意图;
[0075] 图6为本发明实施例提供的另一种装置实施例的结构示意图。
具体实施方式
[0076] 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施 例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通 技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护 的范围。
[0077] 请参阅图1,本发明提供了成词概率的计算方法的一种方法实施例。
[0078] 本实施例的所述方法包括:
[0079] S101:获取文本数据。
[0080] 本发明实施例中,预先收集大量文本数据。其中,文本数据可以为多领域或者单领 域的文本数据,根据应用需求确定。例如,用户需要发现某专业领域的新词,可以收集与该 专业领域相关的文本数据作为文本数据。此外,文本数据可以通过多种方式获取,例如通过 网络收集等,本发明实施例对此并不加以限定。收集文本数据的目的是为了从中发现新词。
[0081] S102:对文本数据进行分词,获得候选词。
[0082] 在本发明实施例中,可以通过任一种或者多种分词方式对文本数据进行分词,本 发明实施例对此并不加以限定。例如,可以采用穷举法、基于规则的方法、条件随机场等分 词方式。在分词之后可以对分词结果进行去重,得到分词结果集合作为获得的候选词。其中 获得的候选词的个数通常大于1。
[0083] 由于文本数据可能会存在异常字符、繁体字符、全角字符等特殊字符,因此在进行 分词之前,可以对文本数据进行清洗,从而将特殊字符转换成合法字符。具体的清洗过程可 以包括以下任一项或多项:删除异常字符、将繁体字符转换为简体字符、将全角字符转换为 半角字符等。
[0084] S103:获取所述候选词的词向量。
[0085] 其中,词向量可以为语义向量,可以直接对候选词进行语义向量化,也可以先对候 选词进行单字切分,去除停用字,例如语气字或频率较低的字,对剩余的字进行语义向量 化,将单字的语义向量进行相加得到候选词的语义向量。例如,"明"字的语义向量为(0.1 0.01 0.2)、"确"的语义向量为(0.02 0.03 0.2),则"明确"的语义向量为两个单字向量之 和,即(0.120.04 0.4)。
[0086] 其中,语义向量化可以采用深度神经网络等方式实现,例如首先将单字或者词语 表示为固定长度的初始向量,使用文本数据对初始向量进行训练,从而得到语义向量。当 然,本发明实施例也可以采用其他方式获取词向量,本发明实施例对此并不加以限定。
[0087] S104:根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计 算经过遗忘后的所述候选词的成词概率。
[0088] 在本发明实施例中,每个候选词的成词概率与在文本数据中的出现顺序相关,当 随着时间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐 渐被遗忘,而如果该候选词再次出现,则该候选词的成词概率将会加强。因此,所述候选词 在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越大;所述候选词在 所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。
[0089] 通过上述技术方案可知,本发明实施例中,获取文本数据;对所述文本数据进行分 词,获得候选词;获取所述候选词的词向量;根据所述候选词的词向量和所述候选词在所述 文本数据中的出现顺序,计算经过遗忘后的所述候选词的成词概率。可见,在本发明实施例 中,无需人工总结规则,从而减少工作量,而且最终计算出的是经过遗忘后的成词概率,从 而提高了新词利用率,节省系统资源。
[0090] 在本发明实施例中,具体可以通过新词发现模型计算候选词的成词概率。下面提 供一种可选的计算方式。
[0091] 请参阅图2,S104中的计算经过遗忘后的所述候选词的成词概率,包括:
[0092] S1041:将所述候选词的词向量和标识信息依次输入到新词发现模型中。
[0093]例如所述候选词包括集合:{明确,对话,对话理解,理解,优化,方案},将该集合中 每个候选词的词向量和标识信息依次输入到新词发现模型中。
[0094] 其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。例如,可 以将所述候选词输入至所述新词发现模型的输入时间作为标识信息。具体地,设定第1个候 选词的输入时间为初始时刻,之后每输入1个候选词,则输入时间增加预设时间间隔Δ t, 例如,第2个候选词的输入时间为t2= A t+ti。△ t可以根据应用需求设定,例如可以设定为5 毫秒。通过这种方式能够将候选词的出现顺序与时间信息关联起来,计算经过遗忘后的成 词概率。
[0095] S1042:在每次输入当前候选词的词向量和标识信息之后,利用所述新词发现模型 计算当前候选词的成词概率。
[0096] 其中,当前候选词指的是当前需要计算成词概率的候选词,例如在输入当前候选 词"理解"的词向量和标识信息之后,利用新词发现模型计算当前候选词"理解"的成词概 率。
[0097] 在新词发现模型的一种可选结构中,包括初始计算模型和遗忘模型。利用新词发 现模型计算当前候选词的成词概率,具体可以是将所述当前候选词的词向量、当前候选词 的上下文候选词的词向量输入到所述初始计算模型,利用所述初始计算模型计算当前候选 词的初始概率;将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型 计算当前候选词的成词概率。
[0098] 其中,遗忘模型可以根据当前候选词在文本数据中的出现顺序和初始概率,计算 当前候选词的成词概率。下面分三种情况说明。
[0099] 第一种情况,若当前候选词第一次出现,根据当前候选词的初始概率计算当前候 选词的成词概率。
[0100] 本发明实施例中提供一种可选的计算方式:若第Μ个候选词第一次出现,即与前Μι 个候选词不存在重复情况,根据所述初始概率与遗忘参数的乘积,计算第 Μ 个候选词的成 词概率。
[0101] 例如,第Μ个候选词w的成词概率:
[0102] P2(w,M) =Pi(w,M) XD〇
[0103] 其中,Pi (w,M)为第Μ个候选词w的初始概率,D为遗忘参数。并且D小于1,从而使得P2 (w,M)小于Pi (w,M)。
[0104] 第二种情况,随着时间的推移,即候选词的不断输入,当之前输入的候选词又再次 出现时,该候选词的成词概率会在再次出现时重新被增强。因此,若当前候选词之前出现过 并且再次出现,根据当前候选词的初始概率,对上一次计算的当前候选词的成词概率进行 提升。例如,第2个和第3个候选词均为"理解","理解"的成词概率在第2次输入过程之后计 算为P 2,在第3次输入过程之后计算为P3,P3大于P2。
[0105] 本发明实施例中提供一种可选的计算方式:若第Μ个候选词之前出现过并且再次 出现,即与前Μ-1个候选词存在重复情况,根据所述初始概率与遗忘参数的乘积,以及上一 次计算的第Μ个候选词的成词概率,计算第Μ个候选词的成词概率。
[0106] 例如,第Μ个候选词w的成词概率:
[0107] Ρ2 (w,M) =P2 (w,M-l)+Pi (w,M) XD
[0108] 其中,p2 (W,M-1)为上一次计算的第M个候选词w的成词概率,Pi (w,M)为第M个候选 词w的初始概率,D为遗忘参数,D小于1。可见,根据该公式计算出的P2(w,M)大于P 2(w,M-l)。
[0109] 第三种情况,随着时间的推移,即候选词的增加,若出现过的候选词在之后过程中 一直没出现,或过好久才出现时,该候选词将不断被遗忘,即成词概率不断降低。因此,若当 前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。例如,第2个候 选词为"对话","对话"的成词概率在第2次输入过程之后为P 2,在第3次输入过程之后为P3, 由于"对话"在第3次输入过程中没有出现,因此P3小于P 2。
[0110] 本发明实施例中提供一种可选的计算方式:
[0111] 根据上一次计算的当前候选词的成词概率分别与遗忘参数的乘积,更新当前候选 词的成词概率。其中,当前候选词在之前出现过并且未再次出现。
[0112] 例如,第Μ个候选词与第M-1个候选词w'不重复,即第M-1个候选词w'在第Μ次输入 过程中未出现时,则第Μ-1个候选词w'在第Μ次输入过程计算的成词概率:
[0113] Ρ2 (w' ,M) =P2 (w' ,M-1) XD〇
[0114] 其中,P2(w',M-l)为上一次计算的第M-1个候选词w'的成词概率,D为遗忘参数。并 且D小于1,从而使得P2 (w',M)小于P2 (w',M-1)。
[0115] 在本发明实施例中,若将输入时间作为标识信息,则遗忘参数D的计算公式可以 为:
[0116] D = eb/A tc;
[0117] 其中,e为自然对数的底数,b和c为常数,一般根据应用需求或实验结果确定,At 为预设时间间隔。
[0118] 当遗忘参数具体为DzeVAf时,若第Μ个候选词与前M-1个候选词不存在重复情 况,第Μ个候选词w的成词概率
Figure CN106445915AD00111
:;若第Μ个候选词与前Μ-1个候选 词存在重复情况,第Μ个候选词w的成词概率:
Figure CN106445915AD00112
-。若 第Μ个候选词与第Μ-1个候选词不重复,则第Μ-1个候选词w',在第Μ次输入过程的成词概率
Figure CN106445915AD00113
•,成词概率被降低。其中,tM为第Μ个候选词w的输入时间, tM-i为第Μ-1个候选词的输入时间。
[0119] 可见,在本发明实施例中,每次输入当前候选词之后,不仅会根据候选词的出现情 况,计算输入的当前候选词的成词概率,还会对已出现候选词的成词概率进行更新,例如输 入第3个候选词之后,不仅会计算第3个候选词的成词概率,而且会更新第1个和第2个候选 词的成词概率。也就是说,每个候选词的成词概率是随着时间的推移不断改变的,当随着时 间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐渐被遗 忘,而如果该候选词再次出现,则该候选词的成词概率将会增强。因此本发明实施例最终计 算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。
[0120] 本发明实施例中在确定上下文候选词时,首先需要判断当前候选词的上下文候选 词是否具有互斥候选词。下面对互斥候选词进行说明。
[0121] 如果文本数据中同一词有多种分词方法,则会得到多种分词结果;包含相同文本 片段的候选词之间的关系为互斥关系,即相互为互斥候选词,即在最终的分词结果中只能 出现其中一种候选词。也就是说,候选词与其互斥候选词为相同文本片段的不同分词结果。
[0122] 例如,文本数据为"明确对话理解优化方案",分别使用不同的分词方法对所述文 本数据进行分词后得到的候选词为{明确,对话,对话理解,理解,优化,方案}。其中"对话" 与"对话理解"为互斥关系,"对话理解"与"理解"为互斥关系,即相互为互斥候选词。
[0123] 而在确定上下文候选词时,若当前候选词的上下文候选词不具有互斥候选词,则 当前候选词的上下文候选词为,当前候选词的相邻候选词中的候选词;例如,对于当前候选 词"对话"来说,上下文各选择一个候选词,上文候选词为"明确",下文候选词为"理解",因 此上下文候选词为"明确"和"理解"。
[0124] 若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文候选词为 成词概率最大的候选词;例如,对于当前候选词"明确"来说,上下文各选择一个候选词,上 文候选词为空,下文候选词为"对话"、"对话理解"、"理解"中成词概率最大的候选词,假设 为"对话理解",因此上下文候选词为"对话理解"。其中,对于任一个候选词来说,若由遗忘 模型计算出该候选词的成词概率,则直接使用计算出的成词概率,若没有计算出成词概率 时,则可以进行随机初始化,或者根据步骤S102分词时得到的概率进行初始化。
[0125] 本发明实施例中,在利用初始计算模型计算初始概率的过程中,利用正向样本和 负向样本对所述初始计算模型进行训练。其中,若当前候选词不具有互斥候选词,也就是不 存在负向样本时,可以只使用正向样本进行训练。
[0126] 具体地,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向 量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向 量。正向样本和负向样本分别使用不同的标签表不,例如正向样本使用1表不,负向样本使 用0表不。
[0127] 在本发明实施例中,可以分别将正向样本及负向样本中包含的候选词的词向量进 行拼接后,分别得到正向样本的向量矩阵及负向样本的向量矩阵,再输入到初始计算模型 中。具体拼接方法如下所述:
[0128] 正向样本的向量矩阵拼接时,将当前候选词的词向量放在第一列,当前候选词的 上下文候选词的词向量依次放在后面多列中。负向样本的向量矩阵拼接时,将当前候选词 的互斥候选词的词向量放在第一列,当前候选词的上下文候选词的词向量依次放在后面多 列中。需要说明的是,本发明实施例也可以通过其他方式进行向量矩阵的拼接,对此并不加 以限定。拼接后的向量矩阵输入到初始计算模型,用于计算初始概率。
[0129] 在每次向初始计算模型输入正向样本或者负向样本时,都对初始计算模型进行一 次训练过程。具体可以将初始计算模型计算所述初始概率时使用的模型参数作为待训练数 据,则初始概率表示的是输入的候选词为正向样本的概率。例如,所述新词发现模型为神经 网络模型,并且如图3所示,所述初始计算模型包括输入层、隐层和第一输出层,输入层、隐 层和第一输出层的结构可以与神经网络模型中的结构相同,输入层用于输入当前候选词的 词向量和上下文候选词的词向量,第一输出层用于输出初始概率,所述遗忘模型包括遗忘 层和第二输出层,所述遗忘层用于计算当前候选词的成词概率,第二输出层用于输出遗忘 层计算出的成词概率。其中,可以将输入层与隐层之间的网络参数权重w,以及隐层和第一 输出层之间的网络参数权重u作为待训练数据。因此在训练过程中,每个候选词的成词概率 不断更新,当全部训练过程结束之后,得到相应的模型参数和训练后的新词发现模型,同时 还能够得到每个候选词的成词概率。
[0130] 在本发明实施例中,若候选词达到遗忘次数,即在很长一段时间内未重复出现,导 致不断更新的成词概率较低时,可以停止对该候选词的成词概率进行更新或者将成词概率 设置为零,从而减少系统工作量。具体地,所述方法还包括:若之前输入的候选词的成词概 率低于预设阈值,停止更新之前输入的候选词的成词概率。
[0131] 在本发明实施例,在计算出成词概率之后,可以根据成词概率判断候选词是否为 新词,具体的判断过程通过以下实施例进行说明。
[0132] 请参阅图4,本发明实施例提供了新词发现方法的一种方法实施例。本实施例的所 述方法包括:
[0133] S401:获取上述任一实施例所述的经过遗忘后的候选词的成词概率。
[0134] 例如,对文本数据进行分词获得多个候选词,获取经过遗忘后的各个候选词的成 词概率。
[0135] 其中,经过遗忘后的候选词的成词概率,指的是将候选词的词向量依次输入到新 词发现模型之后,利用新词发现模型最终计算出的成词概率。例如,在每次向初始计算模型 输入正向样本或者负向样本时,都对初始计算模型进行一次训练过程,当全部训练过程结 束之后,得到相应的模型参数和训练后的新词发现模型,同时还能够得到每个候选词的成 词概率,即经过遗忘后的成词概率。
[0136] S402:若所述成词概率大于预设阈值,并且所述候选词未出现在词典中,将所述候 选词标记为新词。
[0137] 当判断出多个候选词中的任一个候选词的成词概率大于预设阈值,并且未出现在 词典中,则可以将所述任一个候选词标记为新词。本发明实施例中还可以进一步将标记为 新词的候选词添加到词典中。而对于成词概率低于预设阈值的候选词,则可以直接删除。
[0138] 对应上述方法实施例,本发明还提供了相应的装置实施例,下面具体说明。
[0139] 请参阅图5,本发明提供了成词概率的计算装置500的一种装置实施例。本实施例 的所述装置500包括:
[0140] 第一获取模块501,用于获取文本数据。
[0141] 获得模块502,用于对所述文本数据进行分词,获得候选词。
[0142] 第二获取模块503,用于获取所述候选词的词向量。
[0143] 计算模块504,用于根据所述候选词的词向量和所述候选词在所述文本数据中的 出现顺序,计算经过遗忘后的所述候选词的成词概率。
[0144] 可见,在本发明实施例中,无需人工总结规则,从而减少工作量,而且最终计算出 的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。
[0145] 在本发明实施例中,每个候选词的成词概率与在文本数据中的出现顺序相关,当 随着时间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐 渐被遗忘,而如果该候选词再次出现,则该候选词的成词概率将会加强。可选的,所述候选 词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越大;所述候选词 在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。
[0146] 可选的,所述计算模块504包括:输入子模块和计算子模块。
[0147] 所述输入子模块,用于将所述候选词的词向量和标识信息依次输入到新词发现模 型中。其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。所述标识信 息可以包括:所述候选词输入至所述新词发现模型的输入时间。
[0148] 所述计算子模块,用于在每次输入当前候选词的词向量和标识信息之后,利用所 述新词发现模型计算当前候选词的成词概率。
[0149] 可选的,所述新词发现模型包括初始计算模型和遗忘模型;所述计算子模块具体 用于,将所述当前候选词的词向量、当前候选词的上下文候选词的词向量输入到所述初始 计算模型,利用所述初始计算模型计算当前候选词的初始概率;将所述初始概率和所述标 识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候选词的成词概率。
[0150] 可选的,利用所述遗忘模型计算当前候选词的成词概率时,所述计算子模块具体 用于:
[0151] 若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概 率;
[0152] 若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次 计算的当前候选词的成词概率进行提升;
[0153] 若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。
[0154] 可见,在本发明实施例中,每次输入当前候选词之后,不仅会根据候选词的出现情 况,计算输入的当前候选词的成词概率,还会对已出现候选词的成词概率进行更新,例如输 入第3个候选词之后,不仅会计算第3个候选词的成词概率,而且会更新第1个和第2个候选 词的成词概率。也就是说,每个候选词的成词概率是随着时间的推移不断改变的,当随着时 间的推移,某一候选词不再出现时,该候选词的成词概率将会逐渐降低,该候选词逐渐被遗 忘,而如果该候选词再次出现,则该候选词的成词概率将会增强。因此本发明实施例最终计 算出的是经过遗忘后的成词概率,从而提高了新词利用率,节省系统资源。
[0155] 可选的,所述计算子模块还用于,若之前输入的候选词的成词概率低于预设阈值, 停止更新之前输入的候选词的成词概率。
[0156] 可选的,所述新词发现模型为神经网络模型,如图3所示,所述新词发现模型包括 输入层、隐层、第一输出层、遗忘层和第二输出层。
[0157] 本发明另外一个实施例提供的计算装置500,还包括:
[0158]训练模块,用于利用正向样本和负向样本对所述初始计算模型进行训练。
[0159] 其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向 量;负向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向 量;当前候选词和当前候选词的互斥候选词为相同文本片段的不同分词结果。
[0160] 可选的,若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文 候选词为成词概率最大的候选词;若当前候选词的上下文候选词不具有互斥候选词,则当 前候选词的上下文候选词为,当前候选词的相邻候选词中的候选词;上下文候选词和上下 文候选词的互斥候选词为相同文本片段的不同分词结果。
[0161] 请参阅图6,本发明还提供了新词发现装置600的一种装置实施例,本实施例的所 述装置600包括:
[0162] 获取模块601,用于获取上述计算装置500的任一实施例计算出的、经过遗忘后的 候选词的成词概率。
[0163] 例如,对文本数据进行分词获得多个候选词,获取经过遗忘后的各个候选词的成 词概率。
[0164] 其中,经过遗忘后的候选词的成词概率,指的是将候选词的词向量依次输入到新 词发现模型之后,利用新词发现模型最终计算出的成词概率。例如,在每次向初始计算模型 输入正向样本或者负向样本时,都对初始计算模型进行一次训练过程,当全部训练过程结 束之后,得到相应的模型参数和训练后的新词发现模型,同时还能够得到每个候选词的成 词概率,即经过遗忘后的成词概率。
[0165] 标记模块602,用于若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所 述候选词未出现在词典中,将所述候选词标记为新词。
[0166] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置 和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0167] 在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其 它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅 仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结 合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的 相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通 信连接,可以是电性,机械或其它的形式。
[0168] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显 示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个 网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目 的。
[0169] 另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以 是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模 块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0170] 所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式 体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机 设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全 部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程 序代码的介质。
[0171]以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前 述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前 述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些 修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (22)

1. 一种成词概率的计算方法,其特征在于,所述方法包括: 获取文本数据; 对所述文本数据进行分词,获得候选词; 获取所述候选词的词向量; 根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺序,计算经过遗忘 后的所述候选词的成词概率。
2. 根据权利要求1所述的计算方法,其特征在于, 所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越 大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。
3. 根据权利要求1或2所述的计算方法,其特征在于,计算经过遗忘后的所述候选词的 成词概率,包括: 将所述候选词的词向量和标识信息依次输入到新词发现模型中; 在每次输入当前候选词的词向量和标识信息之后,利用所述新词发现模型计算当前候 选词的成词概率; 其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。
4. 根据权利要求3所述的计算方法,其特征在于,所述新词发现模型包括初始计算模型 和遗忘模型; 利用所述新词发现模型计算当前候选词的成词概率,包括: 将所述当前候选词的词向量、当前候选词的上下文候选词的词向量输入到所述初始计 算模型,利用所述初始计算模型计算当前候选词的初始概率; 将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候 选词的成词概率。
5. 根据权利要求4所述的计算方法,其特征在于,利用所述遗忘模型计算当前候选词的 成词概率,包括: 若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概率; 若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次计算 的当前候选词的成词概率进行提升; 若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。
6. 根据权利要求4所述的计算方法,其特征在于,所述方法还包括: 利用正向样本和负向样本对所述初始计算模型进行训练; 其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向量;负 向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向量;当 前候选词和互斥候选词为相同文本片段的不同分词结果。
7. 根据权利要求4所述的计算方法,其特征在于, 若当前候选词的上下文候选词具有互斥候选词,则当前候选词的上下文候选词为成词 概率最大的候选词; 若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词为, 当前候选词的相邻候选词中的候选词; 所述上下文候选词和所述上下文候选的互斥候选词为相同文本片段的不同分词结果。
8. 根据权利要求3至7任一项所述的计算方法,其特征在于,还包括: 若之前输入的候选词的成词概率低于预设阈值,停止更新之前输入的候选词的成词概 率。
9. 根据权利要求3至7任一项所述的计算方法,其特征在于,所述标识信息包括:所述候 选词输入至所述新词发现模型的输入时间。
10. 根据权利要求3至7任一项所述的计算方法,其特征在于,所述新词发现模型为神经 网络模型,其中,所述新词发现模型包括输入层、隐层、第一输出层、遗忘层和第二输出层。
11. 一种新词发现方法,其特征在于,包括: 获取如权利要求1至10任一项所述的经过遗忘后的候选词的成词概率; 若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选词未出现在词典 中,将所述候选词标记为新词。
12. -种成词概率的计算装置,其特征在于,所述装置包括: 第一获取模块,用于获取文本数据; 获得模块,用于对所述文本数据进行分词,获得候选词; 第二获取模块,用于获取所述候选词的词向量; 计算模块,用于根据所述候选词的词向量和所述候选词在所述文本数据中的出现顺 序,计算经过遗忘后的所述候选词的成词概率。
13. 根据权利要求12所述的计算装置,其特征在于, 所述候选词在所述文本数据中的出现次数越多,计算出的所述候选词的成词概率越 大;所述候选词在所述文本数据中的出现次数越少,计算出的所述候选词的成词概率越小。
14. 根据权利要求12或13所述的计算装置,其特征在于,所述计算模块包括: 输入子模块,用于将所述候选词的词向量和标识信息依次输入到新词发现模型中; 计算子模块,用于在每次输入当前候选词的词向量和标识信息之后,利用所述新词发 现模型计算当前候选词的成词概率; 其中,所述标识信息用于表示所述候选词在所述文本数据中的出现顺序。
15. 根据权利要求14所述的计算装置,其特征在于,所述新词发现模型包括初始计算模 型和遗忘模型; 所述计算子模块具体用于,将所述当前候选词的词向量、当前候选词的上下文候选词 的词向量输入到所述初始计算模型,利用所述初始计算模型计算当前候选词的初始概率; 将所述初始概率和所述标识信息输入到所述遗忘模型,利用所述遗忘模型计算当前候选词 的成词概率。
16. 根据权利要求15所述的计算装置,其特征在于,利用所述遗忘模型计算当前候选词 的成词概率时,所述计算子模块具体用于: 若当前候选词第一次出现,根据当前候选词的初始概率计算当前候选词的成词概率; 若当前候选词之前出现过并且再次出现,根据当前候选词的初始概率,对上一次计算 的当前候选词的成词概率进行提升; 若当前候选词之前出现过并且未再次出现,对当前候选词的成词概率进行降低。
17. 根据权利要求15所述的计算装置,其特征在于,还包括: 训练模块,用于利用正向样本和负向样本对所述初始计算模型进行训练; 其中,正向样本包括:当前候选词的词向量、当前候选词的上下文候选词的词向量;负 向样本包括:当前候选词的互斥候选词的词向量、当前候选词的上下文候选词的词向量;当 前候选词和互斥候选词为相同文本片段的不同分词结果。
18. 根据权利要求15所述的计算装置,其特征在于,若当前候选词的上下文候选词具有 互斥候选词,则当前候选词的上下文候选词为成词概率最大的候选词; 若当前候选词的上下文候选词不具有互斥候选词,则当前候选词的上下文候选词为, 当前候选词的相邻候选词中的候选词; 所述上下文候选词和所述上下文候选词的互斥候选词为相同文本片段的不同分词结 果。
19. 根据权利要求14至18任一项所述的计算装置,其特征在于,所述计算子模块还用 于,若之前输入的候选词的成词概率低于预设阈值,停止更新之前输入的候选词的成词概 率。
20. 根据权利要求14至18任一项所述的计算装置,其特征在于,所述标识信息包括:所 述候选词输入至所述新词发现模型的输入时间。
21. 根据权利要求14至18任一项所述的计算装置,其特征在于,所述新词发现模型为神 经网络模型,其中,所述新词发现模型包括输入层、隐层、第一输出层、遗忘层和第二输出 层。
22. -种新词发现装置,其特征在于,包括: 获取模块,用于获取如权利要求12至21任一项所述的计算装置计算出的、经过遗忘后 的候选词的成词概率; 标记模块,用于若所述经过遗忘后的候选词的成词概率大于预设阈值,并且所述候选 词未出现在词典中,将所述候选词标记为新词。
CN201610826780.4A 2016-09-14 2016-09-14 一种新词发现方法及装置 Active CN106445915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610826780.4A CN106445915B (zh) 2016-09-14 2016-09-14 一种新词发现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610826780.4A CN106445915B (zh) 2016-09-14 2016-09-14 一种新词发现方法及装置

Publications (2)

Publication Number Publication Date
CN106445915A true CN106445915A (zh) 2017-02-22
CN106445915B CN106445915B (zh) 2020-04-28

Family

ID=58168141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610826780.4A Active CN106445915B (zh) 2016-09-14 2016-09-14 一种新词发现方法及装置

Country Status (1)

Country Link
CN (1) CN106445915B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182174A (zh) * 2017-12-27 2018-06-19 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN109783244A (zh) * 2017-11-10 2019-05-21 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN111523323A (zh) * 2020-04-26 2020-08-11 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN103050115A (zh) * 2011-10-12 2013-04-17 富士通株式会社 识别装置、识别方法、生成装置和生成方法
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
US20150347383A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Text prediction using combined word n-gram and unigram language models

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN102163198A (zh) * 2010-02-24 2011-08-24 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法
CN103050115A (zh) * 2011-10-12 2013-04-17 富士通株式会社 识别装置、识别方法、生成装置和生成方法
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
US20150347383A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Text prediction using combined word n-gram and unigram language models

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN109783244B (zh) * 2017-11-10 2021-06-22 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN109783244A (zh) * 2017-11-10 2019-05-21 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108182174A (zh) * 2017-12-27 2018-06-19 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN111523323A (zh) * 2020-04-26 2020-08-11 梁华智能科技(上海)有限公司 一种中文分词的消歧处理方法和系统
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置
CN111563143B (zh) * 2020-07-20 2020-11-03 上海二三四五网络科技有限公司 一种新词的确定方法及装置

Also Published As

Publication number Publication date
CN106445915B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN106445915A (zh) 一种新词发现方法及装置
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN104850617B (zh) 短文本处理方法及装置
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN108717406A (zh) 文本情绪分析方法、装置及存储介质
CN111090736B (zh) 问答模型的训练方法、问答方法、装置及计算机存储介质
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN109948149B (zh) 一种文本分类方法及装置
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN106886576A (zh) 一种基于预分类的短文本关键词提取方法及系统
CN109271521A (zh) 一种文本分类方法及装置
CN112085087A (zh) 业务规则生成的方法、装置、计算机设备及存储介质
CN110297893A (zh) 自然语言问答方法、装置、计算机装置及存储介质
CN110222184A (zh) 一种文本的情感信息识别方法及相关装置
CN111861596A (zh) 一种文本分类方法和装置
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN112507102A (zh) 基于预训练范式模型的预测部署系统、方法、装置及介质
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN111046177A (zh) 一种仲裁案件自动预判方法及装置
Lu et al. A novel method for Chinese named entity recognition based on character vector
Ribeiro et al. Semantic frame induction as a community detection problem
CN107341219A (zh) 一种匹配用户问题的方法、装置、非暂态计算机可读存储介质及电子设备
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN113780486B (zh) 一种视觉问答的方法、装置及介质
CN114141235A (zh) 语音语料库生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170705

Address after: 230001, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant after: Anhui Puji Mdt InfoTech Ltd

Address before: 230031 No. 666 Wangjiang West Road, hi tech Zone, Anhui, Hefei

Applicant before: Iflytek Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant after: IFLYTEK Anhui Medical Information Technology Co. Ltd.

Address before: 230001, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant before: Anhui Puji Mdt InfoTech Ltd

GR01 Patent grant
GR01 Patent grant