CN117057347B

CN117057347B - 一种分词方法、电子设备及存储介质

Info

Publication number: CN117057347B
Application number: CN202311323994.6A
Authority: CN
Inventors: 王全修; 靳雯; 石江枫; 赵洲洋; 于伟; 王明超
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-19
Anticipated expiration: 2043-10-13
Also published as: CN117057347A

Abstract

本发明提供了一种分词方法、电子设备及存储介质，涉及分词算法模型领域，所述方法包括：获取预设领域训练文本集和基础词列表，基于基础词列表和预设领域训练文本进行匹配，获取预设领域训练文本中相邻的基础词，记为相邻字符组，从而获取相邻字符组列表，并获取对应的相邻次数列表，获取相邻次数最大的相邻字符组记为待添加词语，获取基础词列表中的基础词的数量，若基础词的数量大于预设词表数量阈值，将基础词列表作为最终词列表，否则，将待添加词语作为基础词添加到基础词列表中，直到基础词列表中的基础词的数量大于预设词表数量阈值，解决直接使用字符拆分导致的丢弃了所有的词语信息的问题。

Description

一种分词方法、电子设备及存储介质

技术领域

本发明涉及分词算法模型领域，特别是涉及一种分词方法、电子设备及存储介质。

背景技术

目前，分词器的目标是将输入的文本流，切分成一个个子串，使得每个子串具有相对完整的语义，便于学习embedding表达和后续模型的使用，分词器包括三种粒度：词、字符、子词级别，如果使用字符级别做编码，比如“我爱中国”就会拆分为“我爱中国”，使用字符级别的拆分太细，在拆分后直接丢弃了所有的词语信息；如果使用词级别做编码，比如“我爱中国”就会拆分为“我爱中国”，使用词级别做编码的缺点如下：①不可能收录所有词语，当出现新词语时由于没有见过该词语，那么只能使用统一的特殊字符 [KNOWN] 来表示，这种方式也会导致语义的丢失。②词级别做编码有非常多的词语，汉字可能只有几千个，而词语可能有几十万个，因此，如何有一种同时解决上述两种分词级别的缺点的分词方法尤为重要。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种分词方法，所述方法包括如下步骤：

S010，获取预设领域训练文本集和基础词列表Q={Q₁，Q₂，…，Q_d，…，Q_d0}，Q_d是第d个基础词，d的取值范围是1到d0，d0是基础词的数量，所述基础词初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符；

S020，按照任一预设领域训练文本V_N中的字符从前到后的顺序，对预设领域训练文本V_N中的字符V_Na，和基础词列表进行匹配，获取匹配成功的基础词作为中间词，获取中间词列表；

S030，按照中间词的字符数量从大到小的顺序，使用中间词和V_N中的字符V_Na及字符V_Na的后续字符进行匹配，获取匹配成功的中间词作为拆分词，基于拆分词对预设领域训练文本V_N进行拆分，从而获取拆分词列表L={L₁，L₂，…，L_M，…，L_M1}，L_M是预设领域训练文本集中第M个拆分词，M的取值范围是1到M1，M1是预设领域训练文本集中拆分词的数量；

S040，获取相邻的拆分词作为相邻字符组，从而获取相邻字符组列表QA={QA₁，QA₂，…，QA_ε，…，QA_β}，并获取对应的相邻次数列表QB={QB₁，QB₂，…，QB_ε，…，QB_β}，

QA_ε是预设领域训练文本中的第ε个相邻字符组，QB_ε是第ε个相邻字符组QA_ε在预设领域训练文本中的出现次数，ε的取值范围是1到β，β是预设领域训练文本中的相邻字符组的数量；其中，不同顺序的相邻的拆分词为不同的相邻字符组；

S050，获取QB₀=max{QB₁，QB₂，…，QB_ε，…，QB_β}和QB₀对应的相邻字符组QA₀，并将QA₀记为待添加词语；

S060，获取基础词列表Q中的基础词的当前数量d₀₁，若d₀₁＞预设词表数量阈值d₀₂，将基础词列表作为最终词列表，流程结束；否则，将待添加词语作为基础词添加到基础词列表Q中，从而进行更新基础词列表Q，执行S020；其中，d₀₂＞1。

一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的分词方法。

一种电子设备，包括处理器和上述的非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

综上，获取预设领域训练文本集和基础词列表，按照任一预设领域训练文本中的字符从前到后的顺序，对预设领域训练文本中的字符，和基础词列表进行匹配，获取匹配成功的基础词作为中间词，获取中间词列表，按照中间词的字符数量从大到小的顺序，使用中间词和字符及字符所在的后续字符进行匹配，获取匹配成功的中间词作为拆分词，基于拆分词对预设领域训练文本进行拆分，从而获取拆分词列表，获取相邻的拆分词作为相邻字符组，从而获取相邻字符组列表，并获取对应的相邻次数列表，获取相邻次数最大的相邻字符组记为待添加词语，获取基础词列表中的基础词的数量，若基础词的数量大于预设词表数量阈值，将基础词列表作为最终词列表，否则，将待添加词语作为基础词添加到基础词列表中，直到基础词列表中的基础词的数量大于预设词表数量阈值，通过训练一个变长的分词方式，解决直接使用字符拆分导致的丢弃了所有的词语信息的问题，也解决了使用词级别进行拆分无法收录所有词语或者收录词语太多的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种分词方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种分词方法，如图1所示，所述方法包括如下步骤：

S010，获取预设领域训练文本集和基础词列表Q={Q₁，Q₂，…，Q_d，…，Q_d0}，Q_d是第d个基础词，d的取值范围是1到d0，d0是基础词的数量，所述基础词初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符。其中，基础词两两不相同。

可以理解为，将预设领域训练文本集中每一预设领域训练文本按照字符进行拆分，从而获取基础词列表，例如，预设领域训练文本集包括“我爱中国”，“窗户的length为20cm”；将预设领域训练文本进行拆分，基础词列表Q={我，爱，中，国，窗，户，的，length，为，20，cm}；其中，英文单词认为是一个基础词，相邻的数字认为是一个基础词，进一步的，有标点符号相隔的中文字符/英文单词/相邻的数字认为不是基础词。

具体的，本领域技术人员知晓，现有技术中任何一种将英文单词认定一个词的方法均属于本发明保护范围，此处不再赘述。

具体的，本领域技术人员知晓，现有技术中任何一种将相邻的数字认为是一个词的方法均属于本发明保护范围，此处不再赘述。

S020，按照任一预设领域训练文本V_N中的字符从前到后的顺序，对预设领域训练文本V_N中的字符V_Na，和基础词列表进行匹配，获取匹配成功的基础词作为字符V_Na中间词，获取字符V_Na的中间词列表。

具体的，对任一预设领域训练文本V_N中的字符按照从前到后的顺序，和基础词列表进行匹配，例如，预设领域训练文本集V_N包括：“我爱中国”，基础词列表Q={我，爱，中，国，窗，户，的，length，为，20，cm，中国}，依次按照“我”“爱”“中”“国”的顺序和基础词列表进行匹配，对于字符V_Na“中”，和基础词列表Q中“中”、“中国”匹配成功，将“中”“中国”均作为V_Na的中间词。

S030，按照V_Na的中间词的字符数量从大到小的顺序，使用中间词和V_N中的字符V_Na及字符V_Na的后续字符进行匹配，获取匹配成功的中间词作为拆分词，基于拆分词对预设领域训练文本V_N进行拆分，从而获取拆分词列表L={L₁，L₂，…，L_M，…，L_M1}，L_M是预设领域训练文本集中第M个拆分词，M的取值范围是1到M1，M1是预设领域训练文本集中拆分词的数量。

具体的，将V_Na的中间词按照字符数量从大到小的顺序进行排序，使用中间词和字符V_Na及字符V_Na在V_N中的后续字符进行匹配，例如，对于V_Na的中间词“中”“中国”，“中国”的字符数量为2，优先使用“中国”进行匹配，并和V_N“中”和“中”后的一个字符进行匹配，使用“中国”和“我爱中国”的“中国”进行匹配，匹配成功，则将“中国”作为拆分词。

QA_ε是预设领域训练文本中的第ε个相邻字符组，QB_ε是第ε个相邻字符组QA_ε在预设领域训练文本中的出现次数，ε的取值范围是1到β，β是预设领域训练文本中的相邻字符组的数量；其中，不同顺序的相邻的拆分词为不同的相邻字符组。

具体的，所述相邻字符组是指在预设领域训练文本中相邻的基础词，例如，基础词“中”“国”构成相邻字符组“中国”并获取“中国”在预设领域训练文本集中出现的次数“1”。

S050，获取QB₀=max{QB₁，QB₂，…，QB_ε，…，QB_β}和QB₀对应的相邻字符组QA₀，并将QA₀记为待添加词语。

具体的，获取在预设领域训练文本集中相邻字符组出现的次数，并获取出现次数最多的相邻字符组记为待添加词语，若出现次数最多的相邻字符组不仅一个时，将出现最多的相邻字符组全部作为待添加词语。

S060获取基础词列表Q中的基础词的当前数量d₀₁，若d₀₁＞预设词表数量阈值d₀₂，将基础词列表作为最终词列表，流程结束；否则，将待添加词语作为基础词添加到基础词列表Q中，从而进行更新基础词列表Q，执行S020；其中，d₀₂＞1。

具体的，所述预设词表数量阈值d₀₂可根据实际需求确定，d₀₂＞1，避免基础词出现一整句话的情况。

可以理解为，获取待添加词语，将待添加词语作为基础词添加到基础词列表中，从而进行更新基础词列表，直到基础词列表Q中的基础词的数量＞预设词表数量阈值，将基础词列表作为最终词列表。

进一步的，将S060替换为S070：

S070，获取待添加词语的字符数量，若待添加词语的字符数量＞预设字符数量阈值，将基础词列表作为最终词列表；否则，将待添加词语作为基础词添加到基础词列表Q中，从而进行更新基础词列表，执行S020。

可以理解为，将待添加词语作为基础词添加到基础词列表中，从而进行更新基础词列表，直到待添加词语的字符数量大于预设字符数量阈值，通过S010-S030，待添加词语的字符数量是不断增加的，当待添加词语的字符数量不断增加，最后可能会导致待添加词语过长的情况。

进一步的，本发明在S060后还包括：基于最终词列表，对预设领域训练文本集进行分词，并将分词后的预设领域训练文本集输入BERT，从而进行实体关系的抽取。

进一步的，本发明在S060后还包括：基于最终词列表，对预设领域训练文本集进行分词，并将分词后的预设领域训练文本集输入LLM，从而进行实体关系的抽取。

具体的，在本发明一实施例中，所述预设领域训练文本集为目标问题所在领域的文本。

进一步的，本发明还包括如下步骤：

S080，从最终词列表中按照预设筛选规则进行筛选，获取关键词列表；将关键词列表中每一关键词作为目标问题所在领域的关键词。

具体的，从最终词列表中按照预设筛选规则进行筛选包括：从最终词列表中基于最终词在预设领域训练文本集中的出现次数进行筛选。

在本发明另一实施例中，从最终词列表中按照预设筛选规则进行筛选包括：从最终词列表中基于最终词的词性进行筛选。

综上，本发明通过从最终词列表中按照预设筛选规则进行筛选，从而获取关键词列表，并将关键词列表中的每一关键词作为目标问题所在领域的关键词，本发明可用于警情数据、医疗数据等专业名词较多的领域，使得目标问题所在领域的关键词更加准确。

进一步的，在获取目标问题所在领域的关键词后，本发明还包括如下步骤：

S100，获取目标问题语句列表A={A₁，A₂，…，A_i，…，A_m}，A_i是第i个目标问题语句，i的取值范围是1到m，m是目标问题语句的数量，所述目标问题语句为预设领域中针对处于同一级别的不同问题分别设置的语句。

具体的，所述目标问题语句可以为预设产品所在领域的专家提出的m个关于预设产品的同一级别的问题语句。例如，所述目标问题语句为：请给出文书1的填写规范；请给出业务1的办理方式。所述目标问题语句列表至少包括预设产品所在领域的经典问题、常见问题、和其它领域有差别的问题所构成的语句。

在本发明另一实施例中，所述目标问题语句根据实际需求进行人工配置。

S200，向LLM发出第一指令，所述第一指令为：参考目标问题语句列表A生成n条新问题语句，其中，n≥1。

具体的，LLM即Large-scale Language Model，为大规模语言模型，是一种基于深度学习的自然语言处理模型，通常具有数十亿甚至数千亿的参数，可以实现多种自然语言处理任务，包括熟知的ChatGPT-3、BERT、XLNet等。

S300，获取LLM生成的新问题语句列表B={B₁，B₂，…，B_j，…，B_n}，B_j是LLM生成的第j条新问题语句，j的取值范围是1到n。

具体的，向LLM输入：参考目标问题语句列表A生成n条新问题语句，获取LLM生成的新问题语句列表。

S400，遍历B，计算B_j和A_i的重复度C_ij，若存在C_ij≥预设重复度阈值C₀，将B_j从新问题语句列表B中删除，从而获取中间问题语句列表D={D₁，D₂，…，D_r，…，D_s}，D_r是第r个中间问题语句，r的取值范围是1到s，s是中间问题语句的数量。

具体的，S400中，B_j和A_i的重复度为B_j和A_i的Rouge-L距离，通过B_j和A_i的最长公共子序列获取B_j和A_i的Rouge-L距离。可以理解为，新问题语句和目标问题语句的重复度不能太高，太高的重复度可能和目标问题语句相同又增加了一些其它特征，并不是真正想要的新问题语句。

更进一步的，若存在C_ij≤最小重复度阈值，将B_j从新问题语句列表B中删除。可以理解为，新问题语句和目标问题语句的重复度不能太高，也不能太低，需要有一定的相似度，但相似度不能过于高。

S500，遍历D，若中间问题语句D_r包含子类型E_g，x，将中间问题语句中的E_g，x替换为E_g中除E_g，x外其它q（g）-1个子类型关键词，从而生成q（g）-1个扩充问题语句，并将扩充问题语句和中间问题语句都作为候选问题语句，从而获取候选问题语句列表F={F₁，F₂，…，F_y，…，F_p}，y的取值范围是1到p，p是候选问题语句的数量。

其中，预设类型关键词列表E={E₁，E₂，…，E_g，…，E_z}，E_g是第g个预设类型关键词列表，E_g={E_g，1，E_g，2，…，E_g，x，…，E_g，q（g）}，E_g，x是第g个预设类型关键词列表E_g中的第x个子类型关键词，x的取值范围是1到q（g），q（g）是第g个预设类型关键词列表E_g中子类型关键词的数量，g的取值范围是1到z，z是预设类型关键词列表的数量。

在本发明一个实施例中，所述预设类型列表E={E₁，E₂}，E₁={E₁₁，E₁₂}，E₂={E₂₁，E₂₂}，E₁为设备故障类型，E₂为设备型号，E₁₁为零件1故障，E₁₂为零件2故障，E₂₁为型号1，E₂₂为型号2；若中间问题语句列表D={D₁，D₂}，D₁：请给出零件1故障时的原理，D₂：请给出型号1的生产时间；D₁包括子类型“零件1故障”，进行替换，获取扩充问题语句：请给出零件2故障时的原理；D₂包括子类型“型号1”，进行替换，获取扩充问题语句：请给出型号2的生产时间；从而获取候选问题语句列表，候选问题语句列表包括：请给出零件1故障时的原理，请给出零件2故障时的原理，请给出型号1的生产时间，请给出型号2的生产时间。

S600，获取候选问题语句F_y的重要程度W_y，若W_y>预设重要程度阈值W₀，将候选问题语句F_y作为最终问题语句，从而获取最终问题语句列表；其中，所述候选问题语句的重要程度基于该候选问题语句与目标问题语句以及所述预设领域的相关性确定。

S700，将最终问题语句列表输入到LLM，获取每一最终问题语句的最终答案。

综上，获取目标问题语句列表，向LLM发出第一指令，所述第一指令为：参考目标问题语句列表A生成n条新问题语句，获取LLM生成的新问题语句列表，遍历新问题语句列表，计算新问题语句和目标问题语句的重复度，若重复度不小于预设重复阈值，则将新问题语句在新问题语句列表中删除，获取中间问题语句列表，若中间问题语句包括子类型，则将子类型替换为子类型列表中的其它类型，生成扩充问题语句，从而获取候选问题语句列表，获取候选问题语句的重要程度，若重要程度＞预设重要程度阈值，将候选问题语句作为最终问题语句，并将最终问题语句输入到LLM，获取最终问题语句的最终答案；通过上述步骤，获取到目标问题的不同维度上的问题和问题的答案，从而更加全面的了解产品的各个过程，更加全面的获取到完成产品所需的问题语句和问题语句的答案。

具体的，S600中，获取候选问题语句F_y的重要程度W_y，包含如下步骤：

S1，获取第y个候选问题语句F_y对应的候选关键词列表H_y={H_y1，H_y2，…，H_yt，…，H_yα}和候选关键词列表H_y对应的候选权重列表HW_y={HW_y1，HW_y2，…，HW_yt，…，HW_yα}，并基于候选权重列表HW_y，计算H_y和目标领域关键词列表SF₀的相关度W_y1。H_yt是F_y的第t个候选关键词，HW_yt是H_yt对应的候选权重，t的取值范围是1到α，α是F_y中候选关键词的数量，目标领域关键词列表SF₀中包括的目标领域关键词是所述预设领域对应的关键词。

具体的，本领域技术人员知晓，现有技术中的任何一种获取语句关键词的方法均属于本发明保护范围，此处不再赘述。

具体的，候选关键词列表对应的候选权重列表中的每一候选权重可以通过人为进行设置，也可以按照词性进行相应权重的设置，所述词性包括名词、形容词、动词等。

具体的，S1中，基于候选权重列表HW_y，计算H_y和目标领域关键词列表SF₀的相关度W_y1包括：

S11，若H_yt和目标领域关键词匹配成功，将H_yt作为所述预设领域关键词。

具体的，在本发明一个实施例中，所述H_yt和目标领域关键词匹配成功，即H_yt和一目标领域关键词完全相同。

在本发明另一实施例中，所述H_yt和目标领域关键词匹配成功，即H_yt和一目标领域关键词的语义相同。

S12，获取指定领域关键词的权重，并将指定领域关键词的权重的和作为相关度W_y1。

S2，获取目标问题语句列表A的目标问题关键词列表AH，并基于候选权重列表HW_y，获取H_y和目标问题关键词列表AH的相关度W_y2。

具体的，S2中基于候选权重列表HW_y获取H_y和目标问题关键词列表AH的相关度W_y2包括：

S21，若H_yt和目标问题关键词匹配成功，将H_yt作为指定关键词。

具体的，在本发明一个实施例中，所述H_yt和目标问题关键词匹配成功，即H_yt和一目标问题关键词匹配成功完全相同。

在本发明另一实施例中，所述H_yt和目标问题关键词匹配成功，即H_yt和一目标问题关键词匹配成功的语义相同。

S22，获取指定关键词的权重，并将指定关键词的权重的和作为相关度W_y2。

S3，获取第y个候选问题语句F_y和目标问题语句列表A的相关度W_y3，W_y3=（1/m）∑^m _i= ₁BM25（F_y，A_i），BM25（F_y，A_i）=∑^h _e=1K_yeR（F_ye，A_i），F_ye是F_y+按照预定规则划分的第e个词语，e的取值范围是1到h，h是F_y划分的词语的数量，其中，R（F_ye，A_i）=f_ye （k₁+1）/>qf_ye/>（k₂+1）/（f_ye+k₁/>（1-b+b/>（dA_i/avgdA_i）））/（qf_ye+k₂），k₁为第一调节因子，k₂为第二调节因子，k₃为第三调节因子，f_ye是F_ye在A_i中的出现频率，qf_ye是F_ye在F_y中的出现频率，dA_i是A_i的字符长度，avgdA_i是A₁到A_m的平均字符长度，K_ye是F_ye在A中的权重。

具体的，k₁=2；b=0.75。

S4，获取候选问题语句F_y的重要程度W_y=W_y1+W_y2+W_y3。

基于S1-S4，获取第y个候选问题语句F_y的候选关键词列表和候选关键词列表对应的候选权重列表，并基于候选权重列表HW_y计算H_y和目标领域关键词列表的相关度，获取目标问题语句列表A的目标问题关键词列表，并基于候选权重列表HW_y获取H_y和目标问题关键词列表AH的相关度，获取第y个候选问题语句F_y和目标问题语句列表A的相关度，从而获取候选问题语句F_y的重要程度，候选问题语句的重要程度考虑了和目标问题语句的关键词、所在领域的关键词和相关性三个维度，使得最终问题语句既部分符合目标问题语句，又有一些新的问题语句出现。

进一步的，在S600后还包括以下步骤：

S601，获取预设类型E_g的预设关键词列表EK_g。

具体的，所述预设关键词列表为预设类型所在领域的关键词，例如，预设类型为故障类型，所述预设关键词列表为故障类型相关的词语。

S602，使用任一最终问题语句P_u和EK_g进行匹配，获取最终问题语句P_u中包含的最终词组列表WV_ug={WV_ug1，WV_ug2，…，WV_ugη，…，WV_ugθ}，WV_ugη是最终问题语句P_u中出现EK_g的第η个词组，η的取值范围是1到θ，θ是共同出现的词组数量。

S603，若WV_ugη属于共现黑名单列表，将最终问题语句P_u在最终问题语句列表中删除，其中，所述共现黑名单列表是指不同共同出现的词组列表。

具体的，所述共现黑名单列表是指不同共同出现的词组列表，可以理解为在业务上不会同时出现的词组列表。

综上，获取预设类型的预设关键词列表，使用任一最终问题语句P_u和EK_g进行匹配，获取最终问题语句P_u中包含的最终词组列表，若任一最终词组属于黑名单列表，则将该最终问题语句在最终问题语句列表中删除，排除了最终问题语句列表中不符合业务情况最终问题语句。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种分词方法，其特征在于，所述方法包括如下步骤：

S010，获取预设领域训练文本集和基础词列表Q={Q₁，Q₂，…，Q_d，…，Q_d0}，Q_d是第d个基础词，d的取值范围是1到d0，d0是基础词的数量，所述基础词列表Q初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符；

S020，按照任一预设领域训练文本V_N中的字符从前到后的顺序，对预设领域训练文本V_N中的预设领域训练字符，和基础词列表进行匹配，获取匹配成功的基础词作为中间词，获取中间词列表；

S030，按照中间词的字符数量从大到小的顺序，使用中间词和V_N中的预设领域训练字符及预设领域训练字符的后续字符进行匹配，获取匹配成功的中间词作为拆分词，基于拆分词对预设领域训练文本V_N进行拆分，从而获取拆分词列表L={L₁，L₂，…，L_M，…，L_M1}，L_M是预设领域训练文本集中第M个拆分词，M的取值范围是1到M1，M1是预设领域训练文本集中拆分词的数量；

QA_ε是预设领域训练文本集中的第ε个相邻字符组，QB_ε是第ε个相邻字符组QA_ε在预设领域训练文本集中的出现次数，ε的取值范围是1到β，β是预设领域训练文本集中的相邻字符组的数量；其中，不同顺序的相邻的拆分词为不同的相邻字符组；

2.根据权利要求1所述的分词方法，其特征在于，还包括：将S060替换为S070：

3.根据权利要求1所述的分词方法，其特征在于，在S060后还包括：基于最终词列表，对预设领域训练文本集进行分词，并将分词后的预设领域训练文本集输入BERT，从而进行实体关系的抽取。

4.根据权利要求1所述的分词方法，其特征在于，所述预设领域训练文本集为目标问题所在领域的文本。

5.根据权利要求4所述的分词方法，其特征在于，所述分词方法还包括如下步骤：

6.根据权利要求5所述的分词方法，其特征在于，从最终词列表中按照预设筛选规则进行筛选包括：从最终词列表中基于最终词在预设领域训练文本集中的出现次数进行筛选。

7.根据权利要求5所述的分词方法，其特征在于，从最终词列表中按照预设筛选规则进行筛选包括：从最终词列表中基于最终词的词性进行筛选。

8.一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的分词方法。

9.一种电子设备，其特征在于，包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。