CN117556806A

CN117556806A - 一种中医证候名细粒度分割方法

Info

Publication number: CN117556806A
Application number: CN202311827164.7A
Authority: CN
Inventors: 殷燕平; 张博; 陈丽霞
Original assignee: Dalian Yunzhixin Technology Development Co ltd
Current assignee: Dalian Yunzhixin Technology Development Co ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-02-13
Anticipated expiration: 2043-12-28
Also published as: CN117556806B

Abstract

本发明涉及数据细粒度判别分析技术领域，具体涉及一种中医证候名细粒度分割方法。对中医证候名建立金字塔字典库后初步分割，确定初步分割结果中各字符组合出现频率、初步分割结果中各字符组合对应的字符节点中不同字符组合频次的差异性及对应的字符节点与上一层字符节点的关联性、初步分割结果中各字符组合长度与古汉语常用字符组合长度的相似性，从而选取出最优分割结果得到细粒度。该细粒度确定过程结合了古汉语用语习惯，并利用由中医证候名所建立的金字塔字典库，对中医证候名初步分割结果中字符组合的分布合理性进行了衡量，综合分割合理性以及和古汉语切合程度，提高了对中医证候名的分割细粒度确定的准确度。

Description

一种中医证候名细粒度分割方法

技术领域

本发明涉及数据细粒度判别分析技术领域，具体涉及一种中医证候名细粒度分割方法。

背景技术

在中医诊断中，医生会对患者的证候进行判断并给出证候名。由于患者的病症种类繁多，导致中医证候名数量大，在统计分析时进行人工处理的工作量大，因此人们改进采用自然语言模型对其进行处理。在对汉语词组进行自然语言模型处理时，首先要做的是对汉字进行细粒度分割。中医证候名用字较为固定、词组较短，所以适合通过字典库采用字典匹配法进行细粒度分割。

现有的汉语文本的字典匹配法，多采用双向最大字典匹配法，主要思想是将细粒度最粗，即最长的字符组合视为最合理的分词组合。然而中医证候名的语义构成逻辑是古汉语的逻辑而非现代的白话文逻辑，古汉语表达一个语义的字符组合十分短，以细粒度最粗作为判断细粒度分割的好坏标准实际上并不适合中医证候名，且中医证候名不似诗歌骈文有固定的断句格式，不适用于基于固定规则的细粒度分割，所以如何给出适用于中医证候名的自适应细粒度分割方法是需要解决的技术问题。

发明内容

本发明提供了一种中医证候名细粒度分割方法，用以解决当前细粒度分割方法对中医证候名分割效果较差的技术问题，所采用的技术方案具体如下：

本发明的一种中医证候名细粒度分割方法，包括以下步骤：

采集所有中医证候名作为语料数据集，计算语料数据集的金字塔字典库；

确定中医证候名中每个字符在金字塔字典库中对应的匹配字符，根据所有匹配字符对中医证候名进行初步分割；

根据初步分割结果中各个字符组合在语料数据集中出现的概率计算初步分割结果的分割经验符合度；综合初步分割结果中字符组合在对应的金字塔字典库字符节点中出现的不平衡性大小，以及初步分割结果中字符组合所对应的金字塔字典库字符节点与上一层字符节点的关联性大小，计算得到初步分割结果的组合逆熵；

根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度；

根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度，计算初步分割结果的分割结果判断值，根据分割结果判断值从所有初步分割结果中选择出最优分割结果，以最优分割结果完成对中医证候名的细粒度分割。

本发明的有益效果为：

对中医证候名建立金字塔字典库并查询金字塔字典库完成对证候名的初步分割得到初步分割结果，根据初步分割结果中各个字符在所有中医证候名中出现的频率大小确定分割经验符合度，根据初步分割结果中各个字符对应的金字塔字典库字符节点中不同字符组合出现次数的差异性以及对应的金字塔字典库字符节点与上一层字符节点的关联性确定初步分割结果的组合逆熵，根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度，综合分割经验符合度、组合逆熵以及分割均匀度从所有初步分割结果中选取出最优分割结果作为细粒度，完成对中医证候名的细粒度分割。在该种细粒度确定过程中，结合了古汉语用语的习惯，同时通过对证候名初步分割结果中的字符组合在证候名对应金字塔字典库中分布的合理性进行衡量，综合分割合理性以及和古汉语切合程度，提高了对中医证候名的分割细粒度确定的准确度。

进一步的，语料数据集中每条数据为一个中医证候名，金字塔字典库有多层，每一层有多个字符节点，每个字符节点的属性为{字符，次数}。

进一步的，所述金字塔字典库具体构建过程如下：

1）获取第一层字符节点：将中医证候名语料库中所有出现的单个汉字作为金字塔字典库的第一层，由于其单独出现，因此金字塔字典库的第一层只有一个字符节点；

2）延伸新字符节点：获取每个字符节点在上一层的关联字符节点，确定所有关联字符节点的所有字符；在延伸新字符节点时，每个字符节点通过前接字符或后接字符延伸出两个新字符节点；延伸出的新字符节点在上一层两个字符节点之间时，每个字符节点在上一层的关联字符节点所对应的字符节点为两个，否则每个字符节点在上一层的关联字符节点所对应的字符节点只有一个；

3）采用维比特算法消除某些字符组合，具体为：将所有的字符组合按照其出现的次数从大到小进行排序，排序后从前到后计算两个相邻字符的次数比值，具体为上一字符的次数除以下一字符的次数，若比值大于10，则停止计算次数比值，将上一字符及其出现的次数构成一个新的字符节点；

4）获得金字塔字典：按层延伸新字符节点，一共延续到7层为止，一共有28个字符节点，若某个字只在句首或句末出现，那么他会出现空节点，空节点没有属性。

进一步的，所述确定中医证候名中每个字符在金字塔字典库中对应的匹配字符，根据所有匹配字符对中医证候名进行初步分割的方法为：

对中医证候名中每个单字字符依次在对应的金字塔字典库中确定对应的匹配字符，根据所有单字字符对应的匹配字符完成对中医证候名的分割。

进一步的，所述分割经验符合度的获取方法为：

对当前初步分割结果，选取其中的任意一个字符组合作为第一字符；

获取初步分割过程中，字典匹配时，第一字符所在的对应字符节点；

获取所有对应字符节点内，第一字符的第一出现次数总和，以及所有对应字符节点内所有字符的第二出现次数总和/>，求得该第一字符的经验值/>，计算当前初步分割结果中各个字符组合作为第一字符时对应所得经验值，将所有经验值的乘积作为当前初步分割结果的分割经验符合度。

进一步的，所述组合逆熵获取方法为：

确定对应字符节点的上一层字符节点中，被第一字符包含的字符组合并作为第二字符；

计算初步分割结果的组合逆熵：

；其中，/>为初步分割结果的组合逆熵值，/>为初步分割结果中第i个第一字符的第k个对应字符节点的节点逆熵，/>为初步分割结果中第i个第一字符的第k个对应字符节点所对应的第j个第二字符对应的关联逆熵，/>代表初步分割结果中第一字符的总数，/>代表初步分割结果中第i个第一字符的对应字符节点的总数，/>代表初步分割结果中第i个第一字符的第k个对应字符节点所对应的第二字符的总数，/>代表对应的关联节点，/>代表对应关联节点的数量。

进一步的，所述分割均匀度的获取方法为：

将初步分割结果中分割后字符组合的长度作为向量元素，构成分割向量，根据经验建立古汉语习惯向量与分割向量的映射关系，根据所述映射关系确定初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度。

进一步的，所述分割均匀度为：

；其中，/>是初步分割结果的分割均匀度，/>以及/>分别是初步分割结果对应的分割向量中第n个元素以及第n-1个元素，/>表示分割向量对应的古汉语习惯向量中第n个元素，N表示初步分割结果对应的分割向量中元素总数，以及分割向量对应的古汉语习惯向量中元素总数，当下标/>计算得0时，此时下标取/>，/>表示分割向量中第n个元素所对应的所有关联逆熵中的第/>个关联逆熵，/>表示分割向量中第n个元素所对应的所有关联逆熵总数，/>是归一化参数。

进一步的，所述分割结果判断值为：

；其中，/>表示初步分割结果的分割结果判断值，是初步分割结果的组合逆熵，其代表了该分割组合的信息含量是否明确；/>是初步分割结果的分割经验符合度，/>是初步分割结果的分割均匀度。

进一步的，所述最优分割结果是指分割结果判断值最大的初步分割结果。

附图说明

图1是本发明的一种中医证候名细粒度分割方法的流程图；

图2是本发明的金字塔字典库示意图。

具体实施方式

本发明的构思为：

对中医证候名建立金字塔字典库并查询金字塔字典库完成对证候名的初步分割得到初步分割结果，根据初步分割结果中各个字符在所有中医证候名中出现的频率大小确定分割经验符合度，根据初步分割结果中各个字符在对应的金字塔字典库字符节点中出现的不规则性以及对应的金字塔字典库字符节点与上一层字符节点的关联性确定初步分割结果的组合逆熵，根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度，综合分割经验符合度、组合逆熵以及分割均匀度从所有初步分割结果中选取出最优分割结果，完成对中医证候名的细粒度分割。

下面结合附图及实施例，对本发明的一种中医证候名细粒度分割方法进行详细说明。

方法实施例：

本发明的一种中医证候名细粒度分割方法实施例，其整体流程如图1所示，具体过程如下：

1、采集所有中医证候名作为语料数据集，计算语料数据集的金字塔字典库。

将已经被录入计算机的现有中医证候名语料库作为语料数据集，其中每条数据为一个中医证候名，然后建立语料数据集的金字塔字典库。

如图2所示即为语料数据集所对应的金字塔字典库，其中的字符是用于字典匹配时的字符，次数是字符出现的次数，金字塔字典库有多层，每一层有多个字符节点，每个字符节点的属性为{字符，次数}，金字塔字典库具体构建过程如下：

1）获取第一层字符节点：将中医证候名语料库中所有出现的单个汉字作为金字塔字典库的第一层，由于其单独出现，因此金字塔字典库的第一层只有一个字符节点。

2）延伸新字符节点：获取每个字符节点在上一层的关联字符节点，确定所有关联字符节点的所有字符，关联字符节点可能是一个（如图2，第三层中字符节点{邪毒上，108}，在上一层的关联字符节点为{毒上，301}），可能是两个（如图2，第三层中字符节点{毒上逆，223}，在上一层的关联字符节点为{毒上，301}和{上逆，230}）；在延伸新字符节点时，每个字符节点会通过前接字符或后接字符延伸出两个新字符节点；延伸出的新字符节点在上一层两个字符节点之间时，则每个字符节点在上一层的关联字符节点为两个，否则每个字符节点在上一层的关联字符节点只有一个。

同时，如图2示例，如果选中的关联字符节点是{上，1000}，则延伸出的关联字符节点所对应的字符为{上}；如选中的关联字符节点是{毒上，301；火上，198；阳上，132}和{上逆，230；上火，212；上气，150；上浮，114}，则延伸出的关联字符节点所对应的字符为{毒上，火上，阳上，上逆，上火，上气，上浮}。

然后遍历语料数据库，获得每个字符前接或后接字符后形成的新字符或者叫字符组合，并统计其出现的次数。

如：{上}后接字符后所形成的字符组合有{上逆,上火,上气,上浮,上炎…}，其次数分别为{230，212，150，114，10…}。

3）采用维比特算法消除某些字符组合，具体为：将所有的字符组合按照其出现的次数从大到小进行排序，排序后从前到后计算两个相邻字符的次数比值，具体为上一字符的次数除以下一字符的次数，若比值大于10，则停止计算次数比值，将上一字符及其出现的次数构成一个新的字符节点。

如：{上}后接字符所构成的字符节点，其内形成的新字符或者叫字符组合的排序为{上逆，上火，上气，上浮，上炎…}，依次计算前后两个相邻字符对应出现次数的比值，当计算直到{上浮，上炎}两个字符之间时，发现比值大于10，此时停止计算。将{上逆，上火，上气，上浮}构成新的字符节点{上逆，230；上火，212；上气，150；上浮，114}。

如：字符{证}只在句末出现，则其金字塔字典中，第一层字符节点通过后接字符延伸出的字符节点，以及该字符节点延伸出的一系列相关字符节点都为空节点。

2、确定中医证候名中每个字符在金字塔字典库中对应的匹配字符，根据所有匹配字符对中医证候名进行初步分割。

对一个具体的中医证候名，如“风邪犯肺证”，一共有五个字符，从最左侧开始依次使用金字塔字典库进行匹配，并综合匹配结果，排列组合出所有可能的细粒度分割结果。

如：“风”字的金字塔字典第一层有匹配字符为{风}，第二层有匹配字符{风邪}，第三层有匹配字符{风邪犯}，而第四层没有匹配字符，因此“风”字对证候名的分割有三种，{风}、{风邪}、{风邪犯}。

同理可推得其它单个汉字字符对证候名的分割。假设“邪”分割有两种{邪}，{风邪}；“犯”分割有三种{犯}，{犯肺}，{邪犯肺}；“肺”分割有两种{肺}，{犯肺}；“证”分割有一种{证}。

综合起来，“风邪犯肺证”的初步分割结果有{风邪犯/肺/证}，{风邪/犯/肺/证}，{风邪/犯肺/证}，{风/邪犯肺/证}以及{风/邪/犯肺/证}，显然正确的分割结果应该为{风邪/犯肺/证}。

综上完成了对中医证候名的初步分割。

3、根据初步分割结果中各个字符组合在语料数据集中出现的概率计算初步分割结果的分割经验符合度；综合初步分割结果中字符组合在对应的金字塔字典库字符节点中出现的不平衡性大小，以及初步分割结果中字符组合所对应的金字塔字典库字符节点与上一层字符节点的关联性大小，计算得到初步分割结果的组合逆熵。

对于初步分割结果，计算分割经验符合度和字典熵，具体如下：

1）对当前初步分割结果，选取其中的任意一个字符组合作为第一字符。

比如以“风邪犯肺证”的其中一个初步分割结果{风邪/犯/肺/证}为例，可以将其第一个字符“风邪”作为该初步分割结果的第一字符。

获取初步分割过程中，字典匹配时，第一字符所在的对应字符节点。

当“风邪”作为第一字符时，对应字符节点有以“风”作为第一层的金字塔字典内“风邪”所在的第二层第二个字符节点，和以“邪”作为第一层的金字塔字典内“风邪”所在的第二层第一个字符节点。

3）获取所有对应字符节点内，第一字符的第一出现次数总和，以及所有对应字符节点内所有字符的第二出现次数总和/>，求得该第一字符的经验值/>，计算当前初步分割结果中各个字符组合作为第一字符时对应所得经验值，将所有经验值的乘积作为当前初步分割结果的分割经验符合度/>。

如上所述，“风邪”作为第一字符时对应字符节点有两个，其中第一个即为以“风”作为第一层的金字塔字典内“风邪”所在的第二层第二个字符节点，第二个即为以“邪”作为第一层的金字塔字典内“风邪”所在的第二层第一个字符节点。

假设以“风”作为第一层的金字塔字典内“风邪”所在的第二层第二个字符节点中，“风邪”的出现次数为200且所有字符组合的出现总次数为800，以及以“邪”作为第一层的金字塔字典内“风邪”所在的第二层第一个字符节点中，“风邪”的出现次数为182且所有字符组合的出现总次数为632，那么第一字符“风邪”的第一出现次数总和即为200+182，所有对应字符节点内所有字符的第二出现次数总和/>即为800+632，那么第一字符“风邪”的经验值/>。

以此类推，即可确定初步分割结果{风邪/犯/肺/证}中各个字符组合作为第一字符时对应所得经验值，从而即可得到该初步分割结果{风邪/犯/肺/证}的分割经验符合度。

分割经验符合度代表了该分割结果的分割情况在语料数据集中出现的概率大小。出现概率越大，分割经验符合度/>越大，分割情况越合理，分割结果越好。

4)确定对应字符节点的上一层字符节点中，被第一字符包含的字符组合并作为第二字符，每个对应字符节点可能对应有一或两个第二字符。

计算每个对应字符节点内出现次数的均差，记为节点逆熵，计算第一字符出现次数与每个第二字符出现次数的比值，得到若干个关联逆熵。

具体举例即如，当“风邪犯”为第一字符时，“风邪犯”的一个对应节点位于“邪”字典树内，该对应节点内数据为{风邪犯，200,外邪寒,182,表邪里,173}，则该对应节点的节点逆熵为{200,182,173}三个出现次数的均差；对应节点的上一层字符节点中，被第一字符“风邪犯”所包含的字符组合有两个，也就是第二字符有两个，分别为“风邪”，“邪犯”，对应出现次数为{800,392}，则可得到两个关联逆熵/>分别为/>，/>。

由此，计算初步分割结果的组合逆熵：

其中，为初步分割结果的组合逆熵值，/>为初步分割结果中第i个第一字符的第k个对应字符节点的节点逆熵，/>为初步分割结果中第i个第一字符的第k个对应字符节点所对应的第j个第二字符对应的关联逆熵，/>代表初步分割结果中第一字符的总数，代表初步分割结果中第i个第一字符的对应字符节点的总数，/>代表初步分割结果中第i个第一字符的第k个对应字符节点所对应的第二字符的总数，/>代表对应的关联节点，/>代表对应关联节点的数量。

本式先计算每个对应字符节点的上一层字符节点中相关字符也即第二字符所对应的关联逆熵，而后对关联逆熵求均值作为对应节点的节点逆熵系数，对所有对应节点的节点逆熵求加权平均，做为初步分割结果的组合逆熵。

根据香农信息论，对第一字符的对应节点中的出现次数的均差越大，代表对应节点中字符出现次数分布越不平衡，则对应节点的信息越明确，逆熵就越大，由此构建得到上述的节点逆熵；第一字符是由第二字符延伸得到的，两者出现次数之比代表了第一字符在该字典树中延伸的关联性，该值越大，关联性越强，信息越明确，逆熵就越大，由此构建得到上述的关联逆熵/>，将两者加权求和即可得到初步分割结果中第i个第一字符的字典逆熵，再对各个第一字符的字典逆熵求均值即可得到初步分割结果的组合逆熵/>，越大代表第一字符的信息越明确，该字符组合更合理。

4、根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度。

将初步分割结果中分割后字符组合的长度作为向量元素，构成分割向量。比如“风邪犯肺证”的其中一初步个分割结果为{风邪犯/肺/证}，则其的分割向量为{3,1,1},以此类推获取所有初步分割结果的分割向量。

由于中医证候名语义逻辑为古汉语，古汉语常用两个字、三个字等较短的字符组合表达一个语义，语义组合通常不超过7个字，因此根据经验对分割向量采取如下表1映射关系得到古汉语习惯向量。

表1 映射关系表

根据表1，分割向量A为{3,1,1}，其对应的古汉语习惯向量为{0.1,0.7,0.7}。古汉语习惯向量中元素值代表分割向量对应元素值的细粒度大小，古汉语习惯向量中元素值越小代表分割向量对应分割越符合古汉语习惯，分割效果越好。

由此构建初步分割结果的分割均匀度：

其中，是初步分割结果的分割均匀度，/>以及/>分别是初步分割结果对应的分割向量中第n个元素以及第n-1个元素，/>表示分割向量对应的古汉语习惯向量中第n个元素，N表示初步分割结果对应的分割向量中元素总数，以及分割向量对应的古汉语习惯向量中元素总数，当下标/>计算得0时，此时下标取/>，/>表示分割向量中第n个元素所对应的所有关联逆熵中的第/>个关联逆熵，/>表示分割向量中第n个元素所对应的所有关联逆熵总数，/>是归一化参数。

将分割向量中的相邻元素求差值作为分割均匀度的基础指标，该值越大代表分割结果越不均匀。因为古汉语分词一般不超过7个字，则该值最大为6最小为1，乘以/>将其归一化。

关联逆熵代表了分割结果中，某个字符组合在延伸节点时，上下两层节点之间的关联性，该值越大关联性越大，则该分割结果越可信。由于其值小于1，以1减去关联逆熵并求和作为分割均匀度的置信系数。

古汉语习惯向量中的元素代表了分割出的字符组合，其长度是否符合古汉语习惯，古汉语习惯向量中的元素越小，代表越符合习惯，同样作为分割均匀度的置信系数。

上述三个方面的指标进行加权求和，得到分割均匀度，该值越大代表分割越不均匀，越不符合古汉语的表意习惯，对应的分割效果越差。

5、根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度，计算初步分割结果的分割结果判断值，根据分割结果判断值从所有初步分割结果中选择出最优分割结果，以最优分割结果完成对中医证候名的细粒度分割。

综合分割均匀度、分割经验符合度/>和组合逆熵/>，得到分割结果判断值，具体如下：

其中，表示初步分割结果的分割结果判断值，/>是初步分割结果的组合逆熵，其代表了该分割组合的信息含量是否明确；/>是初步分割结果的分割经验符合度，/>是初步分割结果的分割均匀度，两者都是归一化的值，因此两者相减并乘以组合逆熵得到作为分割结果判断值。

越大，代表分割经验符合度/>越大，分割均匀度/>越小，组合逆熵/>越大，分割效果越好。

最终对所有分割结果计算分割结果判断值，选择/>最大的分割结果作为最终结果，完成对中医证候名的细粒度分割。

至此，本发明完成。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.一种中医证候名细粒度分割方法，其特征在于，包括以下步骤：

根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度，计算初步分割结果的分割结果判断值，根据分割结果判断值从所有初步分割结果中选择出最优分割结果，以最优分割结果完成对中医证候名的细粒度分割；

所述金字塔字典库具体构建过程如下：

2.根据权利要求1所述的中医证候名细粒度分割方法，其特征在于，语料数据集中每条数据为一个中医证候名，金字塔字典库有多层，每一层有多个字符节点，每个字符节点的属性为{字符，次数}。

3.根据权利要求1所述的中医证候名细粒度分割方法，其特征在于，所述确定中医证候名中每个字符在金字塔字典库中对应的匹配字符，根据所有匹配字符对中医证候名进行初步分割的方法为：

4.根据权利要求1所述的中医证候名细粒度分割方法，其特征在于，所述分割经验符合度的获取方法为：

5.根据权利要求4所述的中医证候名细粒度分割方法，其特征在于，所述组合逆熵获取方法为：

计算初步分割结果的组合逆熵：

6.根据权利要求1所述的中医证候名细粒度分割方法，其特征在于，所述分割均匀度的获取方法为：

7.根据权利要求6所述的中医证候名细粒度分割方法，其特征在于，所述分割均匀度为：

；其中，/>是初步分割结果的分割均匀度，/>以及/>分别是初步分割结果对应的分割向量中第n个元素以及第n-1个元素，/>表示分割向量对应的古汉语习惯向量中第n个元素，N表示初步分割结果对应的分割向量中元素总数，以及分割向量对应的古汉语习惯向量中元素总数，当下标计算得0时，此时下标取/>，/>表示分割向量中第n个元素所对应的所有关联逆熵中的第/>个关联逆熵，/>表示分割向量中第n个元素所对应的所有关联逆熵总数，/>是归一化参数。

8.根据权利要求1所述的中医证候名细粒度分割方法，其特征在于，所述分割结果判断值为：

9.根据权利要求1所述的中医证候名细粒度分割方法，其特征在于，所述最优分割结果是指分割结果判断值最大的初步分割结果。