CN117556806A - 一种中医证候名细粒度分割方法 - Google Patents
一种中医证候名细粒度分割方法 Download PDFInfo
- Publication number
- CN117556806A CN117556806A CN202311827164.7A CN202311827164A CN117556806A CN 117556806 A CN117556806 A CN 117556806A CN 202311827164 A CN202311827164 A CN 202311827164A CN 117556806 A CN117556806 A CN 117556806A
- Authority
- CN
- China
- Prior art keywords
- character
- segmentation
- segmentation result
- chinese medicine
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 293
- 208000011580 syndromic disease Diseases 0.000 title claims abstract description 86
- 239000003814 drug Substances 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims description 46
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001717 pathogenic effect Effects 0.000 description 30
- 210000004072 lung Anatomy 0.000 description 19
- 230000000694 effects Effects 0.000 description 4
- 244000052769 pathogen Species 0.000 description 4
- 239000003053 toxin Substances 0.000 description 4
- 231100000765 toxin Toxicity 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 206010061218 Inflammation Diseases 0.000 description 3
- 230000004054 inflammatory process Effects 0.000 description 3
- 238000010304 firing Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 231100000331 toxic Toxicity 0.000 description 2
- 230000002588 toxic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及数据细粒度判别分析技术领域,具体涉及一种中医证候名细粒度分割方法。对中医证候名建立金字塔字典库后初步分割,确定初步分割结果中各字符组合出现频率、初步分割结果中各字符组合对应的字符节点中不同字符组合频次的差异性及对应的字符节点与上一层字符节点的关联性、初步分割结果中各字符组合长度与古汉语常用字符组合长度的相似性,从而选取出最优分割结果得到细粒度。该细粒度确定过程结合了古汉语用语习惯,并利用由中医证候名所建立的金字塔字典库,对中医证候名初步分割结果中字符组合的分布合理性进行了衡量,综合分割合理性以及和古汉语切合程度,提高了对中医证候名的分割细粒度确定的准确度。
Description
技术领域
本发明涉及数据细粒度判别分析技术领域,具体涉及一种中医证候名细粒度分割方法。
背景技术
在中医诊断中,医生会对患者的证候进行判断并给出证候名。由于患者的病症种类繁多,导致中医证候名数量大,在统计分析时进行人工处理的工作量大,因此人们改进采用自然语言模型对其进行处理。在对汉语词组进行自然语言模型处理时,首先要做的是对汉字进行细粒度分割。中医证候名用字较为固定、词组较短,所以适合通过字典库采用字典匹配法进行细粒度分割。
现有的汉语文本的字典匹配法,多采用双向最大字典匹配法,主要思想是将细粒度最粗,即最长的字符组合视为最合理的分词组合。然而中医证候名的语义构成逻辑是古汉语的逻辑而非现代的白话文逻辑,古汉语表达一个语义的字符组合十分短,以细粒度最粗作为判断细粒度分割的好坏标准实际上并不适合中医证候名,且中医证候名不似诗歌骈文有固定的断句格式,不适用于基于固定规则的细粒度分割,所以如何给出适用于中医证候名的自适应细粒度分割方法是需要解决的技术问题。
发明内容
本发明提供了一种中医证候名细粒度分割方法,用以解决当前细粒度分割方法对中医证候名分割效果较差的技术问题,所采用的技术方案具体如下:
本发明的一种中医证候名细粒度分割方法,包括以下步骤:
采集所有中医证候名作为语料数据集,计算语料数据集的金字塔字典库;
确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割;
根据初步分割结果中各个字符组合在语料数据集中出现的概率计算初步分割结果的分割经验符合度;综合初步分割结果中字符组合在对应的金字塔字典库字符节点中出现的不平衡性大小,以及初步分割结果中字符组合所对应的金字塔字典库字符节点与上一层字符节点的关联性大小,计算得到初步分割结果的组合逆熵;
根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度;
根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度,计算初步分割结果的分割结果判断值,根据分割结果判断值从所有初步分割结果中选择出最优分割结果,以最优分割结果完成对中医证候名的细粒度分割。
本发明的有益效果为:
对中医证候名建立金字塔字典库并查询金字塔字典库完成对证候名的初步分割得到初步分割结果,根据初步分割结果中各个字符在所有中医证候名中出现的频率大小确定分割经验符合度,根据初步分割结果中各个字符对应的金字塔字典库字符节点中不同字符组合出现次数的差异性以及对应的金字塔字典库字符节点与上一层字符节点的关联性确定初步分割结果的组合逆熵,根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度,综合分割经验符合度、组合逆熵以及分割均匀度从所有初步分割结果中选取出最优分割结果作为细粒度,完成对中医证候名的细粒度分割。在该种细粒度确定过程中,结合了古汉语用语的习惯,同时通过对证候名初步分割结果中的字符组合在证候名对应金字塔字典库中分布的合理性进行衡量,综合分割合理性以及和古汉语切合程度,提高了对中医证候名的分割细粒度确定的准确度。
进一步的,语料数据集中每条数据为一个中医证候名,金字塔字典库有多层,每一层有多个字符节点,每个字符节点的属性为{字符,次数}。
进一步的,所述金字塔字典库具体构建过程如下:
1)获取第一层字符节点:将中医证候名语料库中所有出现的单个汉字作为金字塔字典库的第一层,由于其单独出现,因此金字塔字典库的第一层只有一个字符节点;
2)延伸新字符节点:获取每个字符节点在上一层的关联字符节点,确定所有关联字符节点的所有字符;在延伸新字符节点时,每个字符节点通过前接字符或后接字符延伸出两个新字符节点;延伸出的新字符节点在上一层两个字符节点之间时,每个字符节点在上一层的关联字符节点所对应的字符节点为两个,否则每个字符节点在上一层的关联字符节点所对应的字符节点只有一个;
3)采用维比特算法消除某些字符组合,具体为:将所有的字符组合按照其出现的次数从大到小进行排序,排序后从前到后计算两个相邻字符的次数比值,具体为上一字符的次数除以下一字符的次数,若比值大于10,则停止计算次数比值,将上一字符及其出现的次数构成一个新的字符节点;
4)获得金字塔字典:按层延伸新字符节点,一共延续到7层为止,一共有28个字符节点,若某个字只在句首或句末出现,那么他会出现空节点,空节点没有属性。
进一步的,所述确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割的方法为:
对中医证候名中每个单字字符依次在对应的金字塔字典库中确定对应的匹配字符,根据所有单字字符对应的匹配字符完成对中医证候名的分割。
进一步的,所述分割经验符合度的获取方法为:
对当前初步分割结果,选取其中的任意一个字符组合作为第一字符;
获取初步分割过程中,字典匹配时,第一字符所在的对应字符节点;
获取所有对应字符节点内,第一字符的第一出现次数总和,以及所有对应字符节点内所有字符的第二出现次数总和/>,求得该第一字符的经验值/>,计算当前初步分割结果中各个字符组合作为第一字符时对应所得经验值,将所有经验值的乘积作为当前初步分割结果的分割经验符合度。
进一步的,所述组合逆熵获取方法为:
确定对应字符节点的上一层字符节点中,被第一字符包含的字符组合并作为第二字符;
计算初步分割结果的组合逆熵:
;其中,/>为初步分割结果的组合逆熵值,/>为初步分割结果中第i个第一字符的第k个对应字符节点的节点逆熵,/>为初步分割结果中第i个第一字符的第k个对应字符节点所对应的第j个第二字符对应的关联逆熵,/>代表初步分割结果中第一字符的总数,/>代表初步分割结果中第i个第一字符的对应字符节点的总数,/>代表初步分割结果中第i个第一字符的第k个对应字符节点所对应的第二字符的总数,/>代表对应的关联节点,/>代表对应关联节点的数量。
进一步的,所述分割均匀度的获取方法为:
将初步分割结果中分割后字符组合的长度作为向量元素,构成分割向量,根据经验建立古汉语习惯向量与分割向量的映射关系,根据所述映射关系确定初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度。
进一步的,所述分割均匀度为:
;其中,/>是初步分割结果的分割均匀度,/>以及/>分别是初步分割结果对应的分割向量中第n个元素以及第n-1个元素,/>表示分割向量对应的古汉语习惯向量中第n个元素,N表示初步分割结果对应的分割向量中元素总数,以及分割向量对应的古汉语习惯向量中元素总数,当下标/>计算得0时,此时下标取/>,/>表示分割向量中第n个元素所对应的所有关联逆熵中的第/>个关联逆熵,/>表示分割向量中第n个元素所对应的所有关联逆熵总数,/>是归一化参数。
进一步的,所述分割结果判断值为:
;其中,/>表示初步分割结果的分割结果判断值,是初步分割结果的组合逆熵,其代表了该分割组合的信息含量是否明确;/>是初步分割结果的分割经验符合度,/>是初步分割结果的分割均匀度。
进一步的,所述最优分割结果是指分割结果判断值最大的初步分割结果。
附图说明
图1是本发明的一种中医证候名细粒度分割方法的流程图;
图2是本发明的金字塔字典库示意图。
具体实施方式
本发明的构思为:
对中医证候名建立金字塔字典库并查询金字塔字典库完成对证候名的初步分割得到初步分割结果,根据初步分割结果中各个字符在所有中医证候名中出现的频率大小确定分割经验符合度,根据初步分割结果中各个字符在对应的金字塔字典库字符节点中出现的不规则性以及对应的金字塔字典库字符节点与上一层字符节点的关联性确定初步分割结果的组合逆熵,根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度,综合分割经验符合度、组合逆熵以及分割均匀度从所有初步分割结果中选取出最优分割结果,完成对中医证候名的细粒度分割。
下面结合附图及实施例,对本发明的一种中医证候名细粒度分割方法进行详细说明。
方法实施例:
本发明的一种中医证候名细粒度分割方法实施例,其整体流程如图1所示,具体过程如下:
1、采集所有中医证候名作为语料数据集,计算语料数据集的金字塔字典库。
将已经被录入计算机的现有中医证候名语料库作为语料数据集,其中每条数据为一个中医证候名,然后建立语料数据集的金字塔字典库。
如图2所示即为语料数据集所对应的金字塔字典库,其中的字符是用于字典匹配时的字符,次数是字符出现的次数,金字塔字典库有多层,每一层有多个字符节点,每个字符节点的属性为{字符,次数},金字塔字典库具体构建过程如下:
1)获取第一层字符节点:将中医证候名语料库中所有出现的单个汉字作为金字塔字典库的第一层,由于其单独出现,因此金字塔字典库的第一层只有一个字符节点。
2)延伸新字符节点:获取每个字符节点在上一层的关联字符节点,确定所有关联字符节点的所有字符,关联字符节点可能是一个(如图2,第三层中字符节点{邪毒上,108},在上一层的关联字符节点为{毒上,301}),可能是两个(如图2,第三层中字符节点{毒上逆,223},在上一层的关联字符节点为{毒上,301}和{上逆,230});在延伸新字符节点时,每个字符节点会通过前接字符或后接字符延伸出两个新字符节点;延伸出的新字符节点在上一层两个字符节点之间时,则每个字符节点在上一层的关联字符节点为两个,否则每个字符节点在上一层的关联字符节点只有一个。
同时,如图2示例,如果选中的关联字符节点是{上,1000},则延伸出的关联字符节点所对应的字符为{上};如选中的关联字符节点是{毒上,301;火上,198;阳上,132}和{上逆,230;上火,212;上气,150;上浮,114},则延伸出的关联字符节点所对应的字符为{毒上,火上,阳上,上逆,上火,上气,上浮}。
然后遍历语料数据库,获得每个字符前接或后接字符后形成的新字符或者叫字符组合,并统计其出现的次数。
如:{上}后接字符后所形成的字符组合有{上逆,上火,上气,上浮,上炎…},其次数分别为{230,212,150,114,10…}。
3)采用维比特算法消除某些字符组合,具体为:将所有的字符组合按照其出现的次数从大到小进行排序,排序后从前到后计算两个相邻字符的次数比值,具体为上一字符的次数除以下一字符的次数,若比值大于10,则停止计算次数比值,将上一字符及其出现的次数构成一个新的字符节点。
如:{上}后接字符所构成的字符节点,其内形成的新字符或者叫字符组合的排序为{上逆,上火,上气,上浮,上炎…},依次计算前后两个相邻字符对应出现次数的比值,当计算直到{上浮,上炎}两个字符之间时,发现比值大于10,此时停止计算。将{上逆,上火,上气,上浮}构成新的字符节点{上逆,230;上火,212;上气,150;上浮,114}。
4)获得金字塔字典:按层延伸新字符节点,一共延续到7层为止,一共有28个字符节点,若某个字只在句首或句末出现,那么他会出现空节点,空节点没有属性。
如:字符{证}只在句末出现,则其金字塔字典中,第一层字符节点通过后接字符延伸出的字符节点,以及该字符节点延伸出的一系列相关字符节点都为空节点。
2、确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割。
对一个具体的中医证候名,如“风邪犯肺证”,一共有五个字符,从最左侧开始依次使用金字塔字典库进行匹配,并综合匹配结果,排列组合出所有可能的细粒度分割结果。
如:“风”字的金字塔字典第一层有匹配字符为{风},第二层有匹配字符{风邪},第三层有匹配字符{风邪犯},而第四层没有匹配字符,因此“风”字对证候名的分割有三种,{风}、{风邪}、{风邪犯}。
同理可推得其它单个汉字字符对证候名的分割。假设“邪”分割有两种{邪},{风邪};“犯”分割有三种{犯},{犯肺},{邪犯肺};“肺”分割有两种{肺},{犯肺};“证”分割有一种{证}。
综合起来,“风邪犯肺证”的初步分割结果有{风邪犯/肺/证},{风邪/犯/肺/证},{风邪/犯肺/证},{风/邪犯肺/证}以及{风/邪/犯肺/证},显然正确的分割结果应该为{风邪/犯肺/证}。
综上完成了对中医证候名的初步分割。
3、根据初步分割结果中各个字符组合在语料数据集中出现的概率计算初步分割结果的分割经验符合度;综合初步分割结果中字符组合在对应的金字塔字典库字符节点中出现的不平衡性大小,以及初步分割结果中字符组合所对应的金字塔字典库字符节点与上一层字符节点的关联性大小,计算得到初步分割结果的组合逆熵。
对于初步分割结果,计算分割经验符合度和字典熵,具体如下:
1)对当前初步分割结果,选取其中的任意一个字符组合作为第一字符。
比如以“风邪犯肺证”的其中一个初步分割结果{风邪/犯/肺/证}为例,可以将其第一个字符“风邪”作为该初步分割结果的第一字符。
获取初步分割过程中,字典匹配时,第一字符所在的对应字符节点。
当“风邪”作为第一字符时,对应字符节点有以“风”作为第一层的金字塔字典内“风邪”所在的第二层第二个字符节点,和以“邪”作为第一层的金字塔字典内“风邪”所在的第二层第一个字符节点。
3)获取所有对应字符节点内,第一字符的第一出现次数总和,以及所有对应字符节点内所有字符的第二出现次数总和/>,求得该第一字符的经验值/>,计算当前初步分割结果中各个字符组合作为第一字符时对应所得经验值,将所有经验值的乘积作为当前初步分割结果的分割经验符合度/>。
如上所述,“风邪”作为第一字符时对应字符节点有两个,其中第一个即为以“风”作为第一层的金字塔字典内“风邪”所在的第二层第二个字符节点,第二个即为以“邪”作为第一层的金字塔字典内“风邪”所在的第二层第一个字符节点。
假设以“风”作为第一层的金字塔字典内“风邪”所在的第二层第二个字符节点中,“风邪”的出现次数为200且所有字符组合的出现总次数为800,以及以“邪”作为第一层的金字塔字典内“风邪”所在的第二层第一个字符节点中,“风邪”的出现次数为182且所有字符组合的出现总次数为632,那么第一字符“风邪”的第一出现次数总和即为200+182,所有对应字符节点内所有字符的第二出现次数总和/>即为800+632,那么第一字符“风邪”的经验值/>。
以此类推,即可确定初步分割结果{风邪/犯/肺/证}中各个字符组合作为第一字符时对应所得经验值,从而即可得到该初步分割结果{风邪/犯/肺/证}的分割经验符合度。
分割经验符合度代表了该分割结果的分割情况在语料数据集中出现的概率大小。出现概率越大,分割经验符合度/>越大,分割情况越合理,分割结果越好。
4)确定对应字符节点的上一层字符节点中,被第一字符包含的字符组合并作为第二字符,每个对应字符节点可能对应有一或两个第二字符。
计算每个对应字符节点内出现次数的均差,记为节点逆熵,计算第一字符出现次数与每个第二字符出现次数的比值,得到若干个关联逆熵。
具体举例即如,当“风邪犯”为第一字符时,“风邪犯”的一个对应节点位于“邪”字典树内,该对应节点内数据为{风邪犯,200,外邪寒,182,表邪里,173},则该对应节点的节点逆熵为{200,182,173}三个出现次数的均差;对应节点的上一层字符节点中,被第一字符“风邪犯”所包含的字符组合有两个,也就是第二字符有两个,分别为“风邪”,“邪犯”,对应出现次数为{800,392},则可得到两个关联逆熵/>分别为/>,/>。
由此,计算初步分割结果的组合逆熵:
其中,为初步分割结果的组合逆熵值,/>为初步分割结果中第i个第一字符的第k个对应字符节点的节点逆熵,/>为初步分割结果中第i个第一字符的第k个对应字符节点所对应的第j个第二字符对应的关联逆熵,/>代表初步分割结果中第一字符的总数,代表初步分割结果中第i个第一字符的对应字符节点的总数,/>代表初步分割结果中第i个第一字符的第k个对应字符节点所对应的第二字符的总数,/>代表对应的关联节点,/>代表对应关联节点的数量。
本式先计算每个对应字符节点的上一层字符节点中相关字符也即第二字符所对应的关联逆熵,而后对关联逆熵求均值作为对应节点的节点逆熵系数,对所有对应节点的节点逆熵求加权平均,做为初步分割结果的组合逆熵。
根据香农信息论,对第一字符的对应节点中的出现次数的均差越大,代表对应节点中字符出现次数分布越不平衡,则对应节点的信息越明确,逆熵就越大,由此构建得到上述的节点逆熵;第一字符是由第二字符延伸得到的,两者出现次数之比代表了第一字符在该字典树中延伸的关联性,该值越大,关联性越强,信息越明确,逆熵就越大,由此构建得到上述的关联逆熵/>,将两者加权求和即可得到初步分割结果中第i个第一字符的字典逆熵,再对各个第一字符的字典逆熵求均值即可得到初步分割结果的组合逆熵/>,越大代表第一字符的信息越明确,该字符组合更合理。
4、根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度。
将初步分割结果中分割后字符组合的长度作为向量元素,构成分割向量。比如“风邪犯肺证”的其中一初步个分割结果为{风邪犯/肺/证},则其的分割向量为{3,1,1},以此类推获取所有初步分割结果的分割向量。
由于中医证候名语义逻辑为古汉语,古汉语常用两个字、三个字等较短的字符组合表达一个语义,语义组合通常不超过7个字,因此根据经验对分割向量采取如下表1映射关系得到古汉语习惯向量。
表1 映射关系表
根据表1,分割向量A为{3,1,1},其对应的古汉语习惯向量为{0.1,0.7,0.7}。古汉语习惯向量中元素值代表分割向量对应元素值的细粒度大小,古汉语习惯向量中元素值越小代表分割向量对应分割越符合古汉语习惯,分割效果越好。
由此构建初步分割结果的分割均匀度:
其中,是初步分割结果的分割均匀度,/>以及/>分别是初步分割结果对应的分割向量中第n个元素以及第n-1个元素,/>表示分割向量对应的古汉语习惯向量中第n个元素,N表示初步分割结果对应的分割向量中元素总数,以及分割向量对应的古汉语习惯向量中元素总数,当下标/>计算得0时,此时下标取/>,/>表示分割向量中第n个元素所对应的所有关联逆熵中的第/>个关联逆熵,/>表示分割向量中第n个元素所对应的所有关联逆熵总数,/>是归一化参数。
将分割向量中的相邻元素求差值作为分割均匀度的基础指标,该值越大代表分割结果越不均匀。因为古汉语分词一般不超过7个字,则该值最大为6最小为1,乘以/>将其归一化。
关联逆熵代表了分割结果中,某个字符组合在延伸节点时,上下两层节点之间的关联性,该值越大关联性越大,则该分割结果越可信。由于其值小于1,以1减去关联逆熵并求和作为分割均匀度的置信系数。
古汉语习惯向量中的元素代表了分割出的字符组合,其长度是否符合古汉语习惯,古汉语习惯向量中的元素越小,代表越符合习惯,同样作为分割均匀度的置信系数。
上述三个方面的指标进行加权求和,得到分割均匀度,该值越大代表分割越不均匀,越不符合古汉语的表意习惯,对应的分割效果越差。
5、根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度,计算初步分割结果的分割结果判断值,根据分割结果判断值从所有初步分割结果中选择出最优分割结果,以最优分割结果完成对中医证候名的细粒度分割。
综合分割均匀度、分割经验符合度/>和组合逆熵/>,得到分割结果判断值,具体如下:
其中,表示初步分割结果的分割结果判断值,/>是初步分割结果的组合逆熵,其代表了该分割组合的信息含量是否明确;/>是初步分割结果的分割经验符合度,/>是初步分割结果的分割均匀度,两者都是归一化的值,因此两者相减并乘以组合逆熵得到作为分割结果判断值。
越大,代表分割经验符合度/>越大,分割均匀度/>越小,组合逆熵/>越大,分割效果越好。
最终对所有分割结果计算分割结果判断值,选择/>最大的分割结果作为最终结果,完成对中医证候名的细粒度分割。
至此,本发明完成。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种中医证候名细粒度分割方法,其特征在于,包括以下步骤:
采集所有中医证候名作为语料数据集,计算语料数据集的金字塔字典库;
确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割;
根据初步分割结果中各个字符组合在语料数据集中出现的概率计算初步分割结果的分割经验符合度;综合初步分割结果中字符组合在对应的金字塔字典库字符节点中出现的不平衡性大小,以及初步分割结果中字符组合所对应的金字塔字典库字符节点与上一层字符节点的关联性大小,计算得到初步分割结果的组合逆熵;
根据初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度;
根据初步分割结果的分割经验符合度、组合逆熵以及分割均匀度,计算初步分割结果的分割结果判断值,根据分割结果判断值从所有初步分割结果中选择出最优分割结果,以最优分割结果完成对中医证候名的细粒度分割;
所述金字塔字典库具体构建过程如下:
1)获取第一层字符节点:将中医证候名语料库中所有出现的单个汉字作为金字塔字典库的第一层,由于其单独出现,因此金字塔字典库的第一层只有一个字符节点;
2)延伸新字符节点:获取每个字符节点在上一层的关联字符节点,确定所有关联字符节点的所有字符;在延伸新字符节点时,每个字符节点通过前接字符或后接字符延伸出两个新字符节点;延伸出的新字符节点在上一层两个字符节点之间时,每个字符节点在上一层的关联字符节点所对应的字符节点为两个,否则每个字符节点在上一层的关联字符节点所对应的字符节点只有一个;
3)采用维比特算法消除某些字符组合,具体为:将所有的字符组合按照其出现的次数从大到小进行排序,排序后从前到后计算两个相邻字符的次数比值,具体为上一字符的次数除以下一字符的次数,若比值大于10,则停止计算次数比值,将上一字符及其出现的次数构成一个新的字符节点;
4)获得金字塔字典:按层延伸新字符节点,一共延续到7层为止,一共有28个字符节点,若某个字只在句首或句末出现,那么他会出现空节点,空节点没有属性。
2.根据权利要求1所述的中医证候名细粒度分割方法,其特征在于,语料数据集中每条数据为一个中医证候名,金字塔字典库有多层,每一层有多个字符节点,每个字符节点的属性为{字符,次数}。
3.根据权利要求1所述的中医证候名细粒度分割方法,其特征在于,所述确定中医证候名中每个字符在金字塔字典库中对应的匹配字符,根据所有匹配字符对中医证候名进行初步分割的方法为:
对中医证候名中每个单字字符依次在对应的金字塔字典库中确定对应的匹配字符,根据所有单字字符对应的匹配字符完成对中医证候名的分割。
4.根据权利要求1所述的中医证候名细粒度分割方法,其特征在于,所述分割经验符合度的获取方法为:
对当前初步分割结果,选取其中的任意一个字符组合作为第一字符;
获取初步分割过程中,字典匹配时,第一字符所在的对应字符节点;
获取所有对应字符节点内,第一字符的第一出现次数总和,以及所有对应字符节点内所有字符的第二出现次数总和/>,求得该第一字符的经验值/>,计算当前初步分割结果中各个字符组合作为第一字符时对应所得经验值,将所有经验值的乘积作为当前初步分割结果的分割经验符合度。
5.根据权利要求4所述的中医证候名细粒度分割方法,其特征在于,所述组合逆熵获取方法为:
确定对应字符节点的上一层字符节点中,被第一字符包含的字符组合并作为第二字符;
计算初步分割结果的组合逆熵:
;其中,/>为初步分割结果的组合逆熵值,/>为初步分割结果中第i个第一字符的第k个对应字符节点的节点逆熵,/>为初步分割结果中第i个第一字符的第k个对应字符节点所对应的第j个第二字符对应的关联逆熵,/>代表初步分割结果中第一字符的总数,/>代表初步分割结果中第i个第一字符的对应字符节点的总数,/>代表初步分割结果中第i个第一字符的第k个对应字符节点所对应的第二字符的总数,/>代表对应的关联节点,/>代表对应关联节点的数量。
6.根据权利要求1所述的中医证候名细粒度分割方法,其特征在于,所述分割均匀度的获取方法为:
将初步分割结果中分割后字符组合的长度作为向量元素,构成分割向量,根据经验建立古汉语习惯向量与分割向量的映射关系,根据所述映射关系确定初步分割结果中各个字符组合的长度与古汉语的语义组合中字符组合长度的相似性计算初步分割结果的分割均匀度。
7.根据权利要求6所述的中医证候名细粒度分割方法,其特征在于,所述分割均匀度为:
;其中,/>是初步分割结果的分割均匀度,/>以及/>分别是初步分割结果对应的分割向量中第n个元素以及第n-1个元素,/>表示分割向量对应的古汉语习惯向量中第n个元素,N表示初步分割结果对应的分割向量中元素总数,以及分割向量对应的古汉语习惯向量中元素总数,当下标计算得0时,此时下标取/>,/>表示分割向量中第n个元素所对应的所有关联逆熵中的第/>个关联逆熵,/>表示分割向量中第n个元素所对应的所有关联逆熵总数,/>是归一化参数。
8.根据权利要求1所述的中医证候名细粒度分割方法,其特征在于,所述分割结果判断值为:
;其中,/>表示初步分割结果的分割结果判断值,是初步分割结果的组合逆熵,其代表了该分割组合的信息含量是否明确;/>是初步分割结果的分割经验符合度,/>是初步分割结果的分割均匀度。
9.根据权利要求1所述的中医证候名细粒度分割方法,其特征在于,所述最优分割结果是指分割结果判断值最大的初步分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311827164.7A CN117556806B (zh) | 2023-12-28 | 2023-12-28 | 一种中医证候名细粒度分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311827164.7A CN117556806B (zh) | 2023-12-28 | 2023-12-28 | 一种中医证候名细粒度分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556806A true CN117556806A (zh) | 2024-02-13 |
CN117556806B CN117556806B (zh) | 2024-03-22 |
Family
ID=89812930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311827164.7A Active CN117556806B (zh) | 2023-12-28 | 2023-12-28 | 一种中医证候名细粒度分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556806B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166790A (ja) * | 1999-12-09 | 2001-06-22 | Nippon Hoso Kyokai <Nhk> | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 |
CN109408831A (zh) * | 2018-10-11 | 2019-03-01 | 成都信息工程大学 | 一种中医细粒度证候名分割的远程监督方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111753714A (zh) * | 2020-06-23 | 2020-10-09 | 中南大学 | 基于字符分割的多方向自然场景文本检测方法 |
CN112966684A (zh) * | 2021-03-15 | 2021-06-15 | 北湾科技(武汉)有限公司 | 一种注意力机制下的协同学习文字识别方法 |
-
2023
- 2023-12-28 CN CN202311827164.7A patent/CN117556806B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001166790A (ja) * | 1999-12-09 | 2001-06-22 | Nippon Hoso Kyokai <Nhk> | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109408831A (zh) * | 2018-10-11 | 2019-03-01 | 成都信息工程大学 | 一种中医细粒度证候名分割的远程监督方法 |
CN111753714A (zh) * | 2020-06-23 | 2020-10-09 | 中南大学 | 基于字符分割的多方向自然场景文本检测方法 |
CN112966684A (zh) * | 2021-03-15 | 2021-06-15 | 北湾科技(武汉)有限公司 | 一种注意力机制下的协同学习文字识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117556806B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
CN107391486B (zh) | 一种基于统计信息和序列标注的领域新词识别方法 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
KR102468930B1 (ko) | 관심대상 문서 필터링 시스템 및 그 방법 | |
CN108399163A (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN107066555B (zh) | 面向专业领域的在线主题检测方法 | |
CN104346379B (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN106708798B (zh) | 一种字符串切分方法及装置 | |
CN110097060A (zh) | 一种面向树干图像的开集识别方法 | |
CN111899890A (zh) | 基于比特串哈希的医疗数据相似度检测系统与方法 | |
CN110246572A (zh) | 一种基于词向量的医疗分诊方法及系统 | |
EP3726401A1 (en) | Encoding textual information for text analysis | |
CN108133752A (zh) | 一种基于tfidf的医学症状关键词提取优化及回收方法和系统 | |
CN112200259A (zh) | 一种基于分类与筛选的信息增益文本特征选择方法及分类装置 | |
CN114610891B (zh) | 面向不平衡司法裁判文书数据的法条推荐方法及系统 | |
CN111291163B (zh) | 一种基于症状特征的疾病知识图谱检索方法 | |
CN112052401A (zh) | 一种基于用户评论的推荐方法 | |
CN117556806B (zh) | 一种中医证候名细粒度分割方法 | |
CN110970129B (zh) | 一种基于改进贝叶斯统计判断中医证候的方法 | |
CN108172304B (zh) | 一种基于用户医疗反馈的医疗信息可视化处理方法及系统 | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
CN113420141B (zh) | 基于哈希聚类和上下文信息的敏感数据搜索方法 | |
Reed et al. | A multi-agent system for distributed cluster analysis | |
CN108806796A (zh) | 一种医疗数据的特征选择方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |