CN112101021A - 一种实现标准词映射的方法、装置及设备 - Google Patents
一种实现标准词映射的方法、装置及设备 Download PDFInfo
- Publication number
- CN112101021A CN112101021A CN202010916816.4A CN202010916816A CN112101021A CN 112101021 A CN112101021 A CN 112101021A CN 202010916816 A CN202010916816 A CN 202010916816A CN 112101021 A CN112101021 A CN 112101021A
- Authority
- CN
- China
- Prior art keywords
- word
- label
- recognized
- standard
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013507 mapping Methods 0.000 title claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 131
- 238000013145 classification model Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 6
- 206010020565 Hyperaemia Diseases 0.000 description 25
- 230000001815 facial effect Effects 0.000 description 14
- 210000003205 muscle Anatomy 0.000 description 13
- 210000001097 facial muscle Anatomy 0.000 description 12
- 201000010099 disease Diseases 0.000 description 9
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 9
- 208000024891 symptom Diseases 0.000 description 8
- 208000005392 Spasm Diseases 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 210000001652 frontal lobe Anatomy 0.000 description 5
- 238000002271 resection Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000007428 craniotomy Methods 0.000 description 4
- 230000003902 lesion Effects 0.000 description 4
- 206010028813 Nausea Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 201000007350 frontal lobe neoplasm Diseases 0.000 description 3
- 230000008693 nausea Effects 0.000 description 3
- 206010063006 Facial spasm Diseases 0.000 description 2
- 208000007101 Muscle Cramp Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000003387 muscular Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 206010067171 Regurgitation Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种实现标准词映射的方法、装置及设备,该方法包括:先获得待识别词包括的第一分词,分别确定各个第一分词对应的信息类别标签以及信息内容标签,并将第一分词对应的信息类别标签以及信息内容标签作为待识别词包括的信息类别标签以及信息内容标签;再分别获取待识别词包括的信息类别标签以及信息内容标签与目标标准词所包括的信息类别标签以及信息内容标签所对应的第一共现概率和第二共现概率;最后根据第一共现概率与第二共现概率确定目标标准词的概率值,将概率值最大的目标标准词确定为待识别词对应的标准词。从分词的信息类别和信息内容两个方面确定待识别词与目标标准词对应的概率,提高了确定标准词的准确度和效率。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种实现标准词映射的方法、装置及设备。
背景技术
在日常的文本撰写的过程中,可能会使用一些较为日常的非标准词代替所要使用的标准词。非标准词是指与标准词具有相同含义的,但是字符与标准词中的字符不同的词汇。例如,与标准词相对应的简称词汇、缩写词汇以及其他在日常使用中习惯使用的代替词汇等。
非标准词虽然可以代替标准词,但是,非标准词可能会使得文本所要表征的语义不够准确。并且,部分非标准词所表示的含义不明,可能不具有较为准确的参考含义,不便于系统地对具有非标准词的文本进行相关信息的提取。目前,通过人为收集非标准词的方法,确定非标准词与标准词的对应关系。一方面人为整理效率较低;另一方面确定的非标准词与标准词的对应关系不够准确。
发明内容
有鉴于此,本申请实施例提供一种实现标准词映射的方法、装置及设备,能够较为准确地确定非标准词所映射的标准词,并且可以提高确定标准词的效率。
为解决上述问题,本申请实施例提供的技术方案如下:
一种实现标准词映射的方法,所述方法包括:
获得待识别词包括的第一分词;
确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;
获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;
根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。
在一种可能的实现方式中,所述确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签,包括:
将所述第一分词输入第一文本分类模型,获得各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
所述第一文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息类别标签、非标准词包括的第三分词以及所述第三分词对应的信息类别标签训练得到的。
在一种可能的实现方式中,所述确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签,包括:
将所述第一分词输入第二文本分类模型,获得各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
所述第二文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息内容标签、非标准词包括的第三分词以及所述第三分词对应的信息内容标签训练得到的。
在一种可能的实现方式中,确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签之后,所述方法还包括:
如果目标第一分词对应的信息内容标签与所述待识别词包括的信息类别标签均不具有对应关系,则将所述目标第一分词对应的信息内容标签从所述待识别词包括的信息内容标签中去除,所述目标第一分词为所述第一分词中的任意一个或多个。
在一种可能的实现方式中,所述获得待识别词包括的第一分词,包括:
将待识别词输入分词模型,获得所述待识别词包括的第一分词;
所述分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。
在一种可能的实现方式中,所述获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,包括:
根据在全部第一标签组合中目标信息类别标签组合的出现频次与全部第一标签组合的出现总频次,计算得到所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;
所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合;所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。
在一种可能的实现方式中,所述获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,包括:
根据在全部第一标签组合中目标第一标签组合的出现频次与全部第一标签组合的出现总频次,计算所述目标第一标签组合的共现概率,所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合,所述目标第一标签组合分别为所述第一标签组合中的每一个;
在所述目标第一标签组合的共现概率中查找目标信息类别标签组合的共现概率作为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。
在一种可能的实现方式中,所述获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率,包括:
获取所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率;i的取值为1到t的整数,j的取值为1到k的整数,t为所述待识别词包括的信息内容标签的数量,k为所述目标标准词包括的信息内容标签的数量;
计算各个所述第三共现概率之和得到所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率。
在一种可能的实现方式中,所述获取所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率,包括:
根据在全部第二标签组合中目标信息内容标签组合的出现频次与全部第二标签组合的出现总频次,计算得到所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率;
所述第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合;所述目标信息内容标签组合为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的组合。
在一种可能的实现方式中,所述获取所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率,包括:
根据在全部第二标签组合中目标第二标签组合的出现频次与全部第二标签组合的出现总频次,计算所述目标第二标签组合的共现概率,所述第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合,所述目标第二标签组合分别为所述第二标签组合中的每一个;
在所述目标第二标签组合的共现概率中查找目标信息内容标签组合的共现概率作为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率,所述目标信息内容标签组合为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的组合。
一种实现标准词映射的装置,所述装置包括:
分词获取单元,用于获得待识别词包括的第一分词;
第一确定单元,用于确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
第二确定单元,用于确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
第一获取单元,用于获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;
第二获取单元,用于获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;
标准词确定单元,用于根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。
一种实现标准词映射的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的实现标准词映射的方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的实现标准词映射的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的一种实现标准词映射的方法中,先获得待识别词包括的第一分词,分别确定各个第一分词对应的信息类别标签以及信息内容标签,并将第一分词对应的信息类别标签以及信息内容标签作为待识别词包括的信息类别标签以及信息内容标签;再分别获取待识别词包括的信息类别标签以及信息内容标签与目标标准词所包括的信息类别标签以及信息内容标签所对应的第一共现概率和第二共现概率;最后根据第一共现概率与第二共现概率确定目标标准词的概率值,将概率值最大的目标标准词确定为待识别词对应的标准词。由此可见,本申请实施例中通过确定待识别词中各个第一分词对应的信息类别标签以及信息内容标签,可以较为全面并且准确地确定待识别词中包括的信息类别标签以及信息内容标签。再通过获取待识别词中的信息类别标签以及信息内容标签分别与目标标准词具有的信息类别标签以及信息内容标签的共现概率,可以从信息类别和信息内容两个方面确定待识别词与目标标准词对应的概率,使得确定的标准词更加准确,提高了确定标准词的效率。
附图说明
图1为本申请实施例提供的标准词与非标准词的示意图;
图2为本申请实施例提供的一种实现标准词映射的方法的流程图;
图3为本申请实施例提供的一种实现标准词映射的方法的流程图;
图4为本申请实施例提供的一种实现标准词映射的方法的流程图;
图5为本申请实施例提供的一种实现标准词映射的方法的流程图;
图6为本申请实施例提供的一种实现标准词映射的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人在对传统的实现标准词映射的方法研究后发现,传统的非标准词与标准词的映射关系是由该领域的专家建立的。通过收集非标准词,再根据非标准词的语义以及使用习惯,确定非标准词对应的标准词。
例如,在医学领域中,医生在日常撰写病历时,会对患者的疾病、检查过程、治疗过程进行记录。医生在撰写病历时会常用一些较为简便的词汇来代替专有的医学标准词。作为示例,如图1所示,对于标准词“恶心”而言,在实际使用时,医生常会使用“恶心不适”、“反胃”、“想吐”等非标准词代替标准词“恶心”。如果需要对医生撰写的病历进行统一的分析时,由于非标准词的含义可能不够明确,导致不能直接利用医生撰写的病历进行分析。需要医学专家获取医生常用的非标准词,确定对应的标准词,进而对病历中的非标准词进行替换,再对替换后的病历进行统一的整理和分析。如此导致仅有确定了映射关系的非标准词才具有对应的标准词,人为确定非标准词对应的标准词的效率较低,准确率也会受到影响。
基于此,本申请实施例提供了一种实现标准词映射的方法,先获得待识别词包括的第一分词,确定各个第一分词对应的信息类别标签,将各个第一分词对应的信息类别标签确定为待识别词包括的信息类别标签;确定各个第一分词对应的信息内容标签,将各个第一分词对应的信息内容标签确定为待识别词包括的信息内容标签;再获取待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;其中,目标标准词分别为标准词中的每一个;获取待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率;最后,根据第一共现概率与第二共现概率确定目标标准词的概率值,并将概率值最大的目标标准词确定为待识别词对应的标准词。如此,可以较为全面并且准确地确定待识别词中包括的信息类别标签以及信息内容标签,并且从信息类别和信息内容两个方面确定待识别词与目标标准词对应的概率,使得确定映射的标准词更加准确、效率更高。
为了便于理解本申请,下面结合附图对本申请实施例提供的一种实现标准词映射的方法进行说明。
参见图2所示,该图为本申请实施例提供的一种实现标准词映射的方法的流程图,该方法包括步骤S201-S206:
S201:获得待识别词包括的第一分词。
待识别词是属于非标准词的,需要确定映射的标准词。待识别词可以是从不规范的文本中获取得到的,也可以是专门需要确定映射的标准词的非标准词。
需要说明的是,待识别词可以是较为简短的词汇,也可以是由多个较为基本的词汇或者字符组成的词汇。例如,待识别词可以是“大脑开颅、左额叶肿瘤切除术”、“面肌充血”等。
为了便于对待识别词进行较为全面的特征的提取,先对待识别词进行分词处理,获得待识别词包括的第一分词。其中,第一分词为较为基本的词汇或者是字符,第一分词的数量由待识别词中包含的基本词汇和字符的数量决定。
例如,对“面肌充血”进行分词,得到的第一分词为:“面”、“肌”和“充血”。
通过获得待识别词包括的第一分词,可以根据待识别词中包括的分词确定待识别词对应的标准词,使得得到的映射的标准词更加准确。
在一种可能的实现方式中,可以通过分词模型对待识别词进行分词,得到待识别词包括的第一分词。
具体的,获得待识别词包括的第一分词,包括:
将待识别词输入分词模型,获得待识别词包括的第一分词;
分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。
其中,分词模型是预先根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。其中,标准词和非标准词是预先获取的,且预先对标准词包括的第二分词以及非标准词包括的第三分词进行了划分。对标准词进行分词后得到的第二分词以及对非标准词进行分词后得到的第三分词用于训练分词模型。即训练得到的分词模型可以根据已有的标准词和非标准词的分词方式对待识别词进行分词。
则将待识别词输入至分词模型中,可以得到分词模型输出的待识别词包括的第一分词。
S202:确定各个第一分词对应的信息类别标签,将各个第一分词对应的信息类别标签确定为待识别词包括的信息类别标签。
在获得待识别词包括的第一分词后,确定各个第一分词对应的信息类别标签。
信息类别标签是用于表示第一分词所对应的类别的。信息类别标签可以预先根据所要实现映射的标准词的应用场景和应用领域进行确定。比如,在医学领域中,可能会涉及到人体部位、药物名称、病症症状、病症名称以及手术名称等词汇或者是字符,可以相对应地设置不同的信息类别标签。
例如,具体的,对于医学领域,设置的信息类别标签中至少可以包括“部位”、“疾病”、“手术”、“症状”、“大小”和“方位”等。对于待识别词“面肌充血”而言,第一分词“面”和“肌”均是表示人体部位的,“面”和“肌”对应的信息类别标签可以为“部位”,而第一分词“充血”则是表示症状的,对应的信息类别标签可以为“症状”。
待识别词的信息类别标签为各个第一分词的信息类别标签的总和,各个第一分词的信息类别标签均为待识别词所包括的信息类别标签。以上述待识别词“面肌充血”为例,“面肌充血”的信息类别标签为“部位”和“症状”。
如此,通过第一分词的信息类别标签可以得到待识别词的信息类别标签,待识别词的信息类别标签可以更加准确地表示待识别词所具有的信息类别,使得后续利用待识别词的信息类别标签确定的标准词更加准确。
本申请实施例还提供了一种确定待识别词包括的信息类别标签的具体实施方式,请参见下文。
S203:确定各个第一分词对应的信息内容标签,将各个第一分词对应的信息内容标签确定为待识别词包括的信息内容标签。
在确定待识别词包含的第一分词之后,还确定各个第一分词对应的信息内容标签。
信息内容标签是用于表示第一分词所对应的内容的,信息内容标签同样可以根据所需要映射的标准词的应用场景和应用领域确定。信息内容标签与信息类别标签可以具有一定的对应关系,信息内容标签可以用于表示对应的信息类别标签的具体内容。
例如,对于“症状”的信息类别标签所对应的信息内容标签可以是“痉挛”、“充血”以及“疼痛”等用于表示“症状”的具体的内容的标签。
仍以上述待识别词“面肌充血”为例,第一分词“面”对应的信息内容标签可以为“面部”,“肌”对应的信息内容标签可以为“肌肉”,“充血”对应的信息内容标签可以为“充血”。
将各个第一分词对应的信息内容标签确定为待识别词所包括的信息内容标签,可以得到包含所有第一分词对应的信息内容标签的待识别词所包括的信息内容标签。
例如,上述“面肌充血”待识别词的信息内容标签包括:“面部”、“肌肉”和“充血”。
通过待识别词包括的第一分词的信息内容标签确定的待识别词的信息内容标签,可以更加全面的表示待识别词具有的信息内容,使得利用待识别词的信息内容标签确定的标准词更加准确。
另外,本申请实施例还提供了一种确定待识别词包括的信息内容标签的具体实施方式,请参见下文。
需要说明的是,本申请实施例不限定S202与S203之间的执行顺序。
S204:获取待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;目标标准词分别为标准词中的每一个。
为了确定与待识别词对应的标准词,可以在已确定的标准词中选择任意一个标准词作为目标标准词。并且,在确定待识别词包括的信息类别标签与该目标标准词包括的信息类别标签的第一共现概率之后,将另一个标准词作为目标标准词,再确定新的目标标准词所包括的信息类别标签与待识别词包括的信息类别标签的第一共现概率。并以此类推,直到全部的标准词均作为目标标准词,确定了待识别词与全部的标准词的第一共现概率停止。
需要说明的是,标准词包括的信息类别标签可以是预先确定的,也可以是对标准词进行分词后,根据得到的分词的信息类别标签所确定的。
第一共现概率是指待识别词包括的信息类别标签与目标标准词包括的信息类别标签组成的标签组合,在全部的具有对应关系的信息类别标签组成的组合中出现的概率。当第一共现概率较大时,待识别词包括的信息类别标签与目标标准词包括的信息类别标签相对应的概率较大,目标标准词与待识别词对应程度较高。
在一种可能的实现方式中,全部的具有对应关系的信息类别标签组成的组合可以是指全部的具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合。相对应的,本申请实施例提供了获取第一共现概率的具体实施方式,具体请参见下文。
S205:获取待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率。
基于待识别词包括的信息内容标签,获取待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率。相同的,目标标准词为标准词中的每一个。标准词包括的信息内容标签可以是对标准词进行分词后,根据得到的分词的信息内容标签所确定的。
根据待识别词包括的信息内容标签与目标标准词包括的信息内容标签,获取对应的第二共现概率。
第二共现概率为待识别词包括的信息内容标签与目标标准词包括的信息内容标签组成的标签组合,在全部的具有对应关系的信息内容标签组成的组合中出现的概率。当第二共现概率较大时,待识别词包括的信息内容标签与目标标准词包括的信息内容标签相匹配的概率较大、待识别词与目标标准词的对应程度较高。
需要说明的是,信息内容标签的数量可能较多,在一种可能的实现方式中,可以分别确定待识别词中任意一个信息内容标签与目标标准词中任意一个信息内容标签组合的共现概率,之后再确定待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率。本申请实施例提供了获取第二共现概率的实现方式,具体请参见下文。
需要说明的是,本申请实施例不限定S204与S205之间的执行顺序,且不限定S204与S203之间的执行顺序,S204在S202之后任意步骤执行即可,也不限定S205与S202之间的执行顺序,S205在S203之后任意步骤执行即可。
S206:根据第一共现概率与第二共现概率确定目标标准词的概率值,将概率值最大的目标标准词确定为待识别词对应的标准词。
利用获取的待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,以及获取的待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率,确定目标标准词的概率值。其中,第一共现概率与第二共现概率是针对于同一个目标标准词得到的。
在一种可能的实现方式中,可以计算第一共现概率与第二共现概率的乘积,得到目标标准词的概率值。通过根据第一共现概率和第二共现概率确定目标标准词的概率值,可以从信息类别标签和信息内容标签两个方面确定与待识别词对应程度最高的目标标准词。
根据第一共现概率和第二共现概率确定的概率值可以从整体上体现出目标标准词与待识别词之间的对应关系,概率值最大的目标标准词是与待识别词对应程度最高的标准词,可以将概率值最大的目标标准词确定为待识别词对应的标准词。
基于上述S201-S206的相关内容可知,本申请实施例提供的实现标准词映射的方法,通过对待识别词包括的第一分词获取信息类别标签和信息内容标签,可以确定待识别词包括的信息类别标签和信息内容标签。由此,可以从信息类别和信息内容两个方面获取待识别词的相关标签,使得待识别词包括的标签的种类较为全面。此外,通过第一分词的相关标签确定待识别词包括的标签,使得待识别词包括的标签更为细化。再根据待识别词包括的信息类别标签和目标标准词包括的信息类别标签确定第一共现概率,根据待识别词包括的信息内容标签和目标标准词包括的信息内容标签确定第二共现概率,可以得到较为准确的待识别词与目标标准词的对应关系。进而可以根据最大的概率值确定对应程度最高的目标标准词作为与待识别词对应的标准词,使得确定的待识别词对应的标准词更加准确,并且提高了确定标准词的效率。
在一种可能的实施方式中,为了提高确定标准词的效率,可以采用预先训练得到的文本分类模型,确定各个第一分词对应的信息类别标签或者信息内容标签。
本申请实施例还提供了S202的一种具体实施方式,确定各个第一分词对应的信息类别标签,将各个第一分词对应的信息类别标签确定为待识别词包括的信息类别标签,包括:
将第一分词输入第一文本分类模型,获得各个第一分词对应的信息类别标签,将各个第一分词对应的信息类别标签确定为待识别词包括的信息类别标签。
在利用文本分类模型获得第一分词对应的信息类别标签之前,先利用标准词和非标准词和对应的信息类别标签训练得到第一文本分类模型。
将已确定的标准词进行分词,得到标准词包括的第二分词,各个第二分词具有对应的信息类别标签。将已确定的非标准词进行分词,得到非标准词包括的第三分词,各个第三分词具有对应的信息类别标签。将第二分词、第二分词对应的信息类别标签、第三分词以及第三分词对应的信息类别标签作为训练数据,训练得到第一文本分类模型。
在一种可能的实现方式中,第一文本分类模型可以为LDA(Latent DirichletAllocation,文档主题生成)算法模型。通过第二分词、第二分词对应的信息类别标签、第三分词以及第三分词对应的信息类别标签组成的训练数据,训练LDA算法模型,得到用于确定第一分词对应的信息类别标签的第一文本分类模型。
将第一分词输入至训练好的第一文本分类模型中,可以得到第一文本分类模型输出的各个第一分词对应的信息类别标签。通过第一分词对应的信息类别标签,可以确定待识别词包括的信息类别标签。
通过训练得到的第一文本分类模型获取第一分词对应的信息类别标签,使得确定的第一分词对应的信息类别标签的准确率较高,从而提高了确定的标准词的准确度和效率。
此外,本申请实施例还提供了S203的一种具体实施方式,确定各个第一分词对应的信息内容标签,将各个第一分词对应的信息内容标签确定为待识别词包括的信息内容标签,包括:
将第一分词输入第二文本分类模型,获得各个第一分词对应的信息内容标签,将各个第一分词对应的信息内容标签确定为待识别词包括的信息内容标签。
同样的,在确定第一分词对应的信息内容标签之前,先训练第二文本分类模型。
第二文本分类模型的训练数据是由第二分词、第二分词对应的信息内容标签、第三分词以及第三分词对应的信息内容标签组成的。其中,第二分词为标准词包括的分词,第三分词为非标准词包括的分词。第二文本分类模型也可以是由LDA算法模型训练得到的。
将第一分词输入至第二文本分类模型中,得到第二文本分类模型输出的第一分词对应的信息内容标签。
在本申请实施例中,采用训练好的第二文本分类模型确定第一分词对应的信息内容标签,提高了确定第一分词对应的信息内容标签的准确度,并且可以实现快速地确定第一分词对应的信息内容标签,能够更好地确定待识别词对应的标准词。
进一步的,信息内容标签与信息类别标签之间具有一定的对应关系。但是,确定各个第一分词所对应的信息类别标签以及确定各个第一分词所对应的信息内容标签是相互独立的过程,得到的信息内容标签可能并不具有与信息类别标签的对应关系。
基于此,本申请实施例提供了一种实现标准词映射的方法,在确定各个第一分词对应的信息内容标签,将各个第一分词对应的信息内容标签确定为待识别词包括的信息内容标签之后,还包括以下步骤:
如果目标第一分词对应的信息内容标签与待识别词包括的信息类别标签均不具有对应关系,则将目标第一分词对应的信息内容标签从待识别词包括的信息内容标签中去除,目标第一分词为第一分词中的任意一个或多个。
可以理解的是,确定的第一分词对应的信息内容标签应当与确定的待识别词包括的信息类别标签具有对应关系。本申请实施例中不限定信息内容标签与信息类别标签具有的对应关系的种类,在一种可能的实现方式中,信息内容标签可以属于信息类别标签。而一个信息类别标签中可以具有多个对应的信息内容标签,信息内容标签整体的数量较多,在确定第一分词对应的信息内容标签的过程中可能出现误差。
为了便于判断,在第一分词中选取任意一个或者多个第一分词作为目标第一分词。判断目标第一分词的信息内容标签是否与待识别词包括的信息类别标签具有对应关系。若不具有,则目标第一分词的信息内容标签可能不准确,将该信息内容标签从信息内容标签中去除,得到较为准确的待识别词包括的信息内容标签。
作为示例,待识别词为“面肌充血”,第一分词为“面”、“肌”和“充血”。例如选取“充血”作为目标第一分词。如果“充血”对应的信息内容标签为“输血”,不能对应“面肌充血”包括的“部位”和“症状”两个信息分类标签。则“充血”对应的“输血”信息内容标签不够准确,将“输血”从“面肌充血”对应的信息内容标签中删除。
在本申请实施例中,通过确定目标第一分词对应的文本内容标签与待识别词包括的文本类别标签是否具有对应关系,对目标第一分词对应的文本内容标签进行过滤筛选,提高文本内容标签的准确度。
基于上述S204的相关内容可知,可以根据待识别词包括的信息类别标签与目标标准词包括的信息类别标签组成的标签组合在全部的具有对应关系的信息类别标签组成的组合中出现的概率确定第一共现概率。
在S204的第一种可能的实现方式中,可以直接根据待识别词包括的信息类别标签和目标标准词包括的信息类别标签计算第一共现概率。
具体的,S204获取待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,可以包括以下步骤:
根据在全部第一标签组合中目标信息类别标签组合的出现频次与全部第一标签组合的出现总频次,计算得到待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率。
其中,第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合。标准词和非标准词的对应关系可以是预先确定的,将具有对应关系的标准词和非标准词的信息类别标签进行组合,得到第一标签组合。
作为示例,标准词为“额叶病损切除术”,具有对应关系的非标准词为“大脑开颅”以及“左额叶肿瘤切除术”。“额叶病损切除术”对应的信息类别标签为“部位”、“疾病”和“手术”。“大脑开颅”对应的信息类别标签为“部位”和“手术”,“左额叶肿瘤切除术”对应的信息类别标签为“部位”、“疾病”和“手术”。将标准词“额叶病损切除术”的信息类别标签与非标准词“大脑开颅”的信息类别标签进行组合,得到的第一标签组合为“部位、疾病、手术--部位、手术”;将标准词“额叶病损切除术”的信息类别标签与非标准词“左额叶肿瘤切除术”的信息类别标签进行组合,得到的第一标签组合为“部位、疾病、手术--部位、疾病、手术”。以此类推,将全部具有对应关系的标准词和非标准词的信息类别标签均进行组合,得到全部第一标签组合。
根据待识别词的信息类别标签和目标标准词的信息类别标签组成的组合,也就是目标信息类别标签组合,可以确定目标信息类别标签组合在全部第一标签组合中的出现频次。根据目标信息类别标签组合出现频次和全部第一标签组合的出现总频次,就可以确定待识别词的信息类别标签与目标标准词的信息类别标签,在具有对应关系的标准词和非标准词的信息类别标签的组合中出现的概率,也就是第一共现概率。
通过第一共现概率就可以确定待识别词与目标标准词的对应的程度。如果第一共现概率较小,则说明待识别词的信息类别标签与目标标准词的信息类别标签的组合,在具有对应关系的标准词和非标准词的信息类别标签的组合中出现的次数较少,待识别词与该目标标准词具有的对应关系较低。如果第一共现概率较大,则待识别词的信息类别标签与目标标准词的信息类别标签的组合出现的次数较多,待识别词与该目标标准词具有的对应关系较高。
本申请实施例提供了一种第一共现概率的计算公式,如公式(1)所示。
其中,P(Wx|Wy)表示待识别词Wy包括的信息类别标签与目标标准词Wx包括的信息类别标签的第一共现概率。l1l2l3……lx表示目标标准词Wx包括的x个信息类别标签,l1l2l3……ly表示待识别词Wy包括的y个信息类别标签。F(WxWy)表示目标信息类别标签组合在全部第一标签组合中的出现频次,F(WmWn)表示第一标签组合出现频次。其中,Wm表示非标准词,M为非标准词的个数;Wn表示标准词,N表示标准词的个数,对应的,表示全部第一标签组合出现总频次。
在本申请实施例中,根据全部第一标签组合中目标信息类别标签组合的出现频次与全部第一标签组合的出现总频次,计算得到可以表示待识别词的信息类别标签与目标标准词的信息类别标签对应程度的第一共现概率,进而可以根据第一共现概率确定与待识别词对应程度最高的目标标准词。
在S204的第二种可能的实现方式中,目标第一标签组合可以是第一标签组合中的一个组合。可以先根据确定对应关系的标准词的信息类别标签和非标准词的信息类别标签,进行各种可能的信息类别标签组合的共现概率的统计,以便在确定待识别词包括的信息类别标签后,可以直接根据统计得到的相同的信息类别标签组合的共现概率得到第一共现概率。
在本申请实施例中,可以通过查询获取待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率。参见图3,该图为本申请实施例提供的一种实现标准词映射的方法的流程图,即S204可以包括S301-S302:
S301:根据在全部第一标签组合中目标第一标签组合的出现频次与全部第一标签组合的出现总频次,计算目标第一标签组合的共现概率,第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合,目标第一标签组合分别为第一标签组合中的每一个。
将第一标签组合中的每一个标签组合分别确定为目标第一标签组合,计算各个目标第一标签组合的共现概率。具体为计算目标第一标签组合的出现频次与全部第一标签组合的出现总频次。
另外,本申请实施例提供了一种共现概率的计算公式,如公式(2)所示。
其中,P(Wa|Wb)表示任意一个标准词Wa包括的信息类别标签与任意一个非标准词Wb包括的信息类别标签的共现概率。l1l2l3……la表示标准词Wa包括的a个信息类别标签,l1l2l3……lb表示非标准词Wb包括的b个信息类别标签。F(WaWb)表示目标第一标签组合的出现频次,F(WmWn)表示第一标签组合出现频次,其中,Wm表示非标准词,M为非标准词的个数;Wn表示标准词,N表示标准词的个数。表示全部第一标签组合出现总频次。
如此可以统计得到第一标签组合中的各个标签组合的共现概率。在确定了待识别词包括的信息类别标签以及目标标准词包括的信息类别标签之后,可以根据确定的目标信息类别标签组合直接查找对应的共现概率。
S302:在目标第一标签组合的共现概率中查找目标信息类别标签组合的共现概率作为待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,目标信息类别标签组合为待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。
通过查询目标第一标签组合中与目标信息类别标签组合相同的标签组合的共现概率,可以得到目标信息类别标签组合的共现概率。进一步的,将查询得到的目标信息类别标签组合的共现概率,作为待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率。
在本申请实施例中,先计算目标第一标签组合的共现概率,后续直接在目标第一标签组合的共现概率中查询目标信息类别标签组合的共现概率,确定第一共现概率。通过先对目标第一标签组合的共现概率进行计算,可以较为快速地确定第一共现概率,并且相对减少了确定第一共现概率的计算量,提高了确定第一共现概率的效率。
可以理解的是,与信息类别标签的数量相比,信息内容标签的数量较大,难以直接得到待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率。
基于此,本申请实施例提供了一种获取第二共现概率的方法,获取待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率,参见图4,该图为本申请实施例提供的一种实现标准词映射的方法的流程图,S205可以包括S401-S402:
S401:获取待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的第三共现概率;i的取值为1到t的整数,j的取值为1到k的整数,t为待识别词包括的信息内容标签的数量,k为目标标准词包括的信息内容标签的数量。
待识别词可以包括多个信息内容标签,同样,目标标准词也可能包括多个信息内容标签。为了得到较为准确的第二共现概率,可以先分别获取待识别词包括的任意一个信息内容标签与目标标准词包括的任意一个信息内容标签的第三共现概率。具体的,可以获取待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的第三共现概率;其中,i的取值为1到t的整数,t为待识别词包括的信息内容标签的数量;j的取值为1到k的整数,k为目标标准词包括的信息内容标签的数量。
以待识别词为“面肌充血”,目标标准词为“面肌痉挛”为例。“面肌充血”包括的信息内容标签包括:“面部”、“肌肉”和“充血”,“面肌痉挛”包括的信息内容标签包括:“面部”、“肌肉”和“痉挛”。在确定“面肌充血”,与“面肌痉挛”的第二共现概率之前,先获取“面部”与“面部”、“面部”与“肌肉”、“面部”与“痉挛”、“肌肉”与“面部”、“肌肉”与“肌肉”、“肌肉”与“痉挛”、“充血”与“面部”、“充血”与“肌肉”以及“充血”与“痉挛”的第三共现概率。
第三共现概率可以表示基于待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签而言,待识别词与目标标准词的对应程度。通过第三共现概率,可以得到待识别词包括的信息内容标签与目标标准词包括的信息内容标签的整体的共现概率。
S402:计算各个第三共现概率之和得到待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率。
计算得到的各个第三共现概率之和,就可以得到待识别词包括的各个信息内容标签与目标标准词包括的各个信息内容标签的共现概率,也就是第二共现概率。
通过第二共现概率可以从信息内容标签这一方面判断待识别词和目标标准词的对应程度。
在本申请实施例中,通过分别获取待识别词包括的各个信息内容标签与目标标准词包括的各个信息内容标签的第三共现概率,可以计算得到待识别词包括的信息内容标签与目标标准词包括的信息内容标签的第二共现概率。如此可以通过获取待识别词中的单个信息内容标签与目标标准词中的单个信息内容标签的第三共现概率得到第二共现概率,便于得到较为准确的第二共现概率。
进一步的,第三共现概率可以在确定待识别词包括的信息内容标签之后通过相应的计算获得,也可以通过查询预先统计的概率获取。
在计算第三共现概率的第一种可能的实现方式中,S401获取待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的第三共现概率,包括:
根据在全部第二标签组合中目标信息内容标签组合的出现频次与全部第二标签组合的出现总频次,计算得到待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的第三共现概率。
其中,第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合。全部第二标签组合为全部具有对应关系的标准词与非标准词包括的每一个信息内容标签构成的组合。通过全部第二标签组合可以得到全部的具有对应关系的标准词包括的信息内容标签与非标准词包括的信息内容标签可能构成的组合。
目标信息内容标签组合为待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的组合。
获取目标信息内容标签组合在第二标签组合中的出现频次,再得到全部第二标签组合的出现总频次,将出现频次与出现总频次相比,可以得到目标信息内容标签组合在全部第二标签组合中出现的概率,也就是第三共现概率。
本申请实施例提供了一种第三共现概率的计算公式,如公式(3)所示。
其中,P3(Wi|Wj)表示待识别词Wi包括的第i个信息内容标签与目标标准词Wj包括的第j个信息内容标签的第三共现概率。F(WiWj)表示目标信息内容标签组合在全部第二标签组合中的出现频次。表示非标准词,表示标准词,与是具有对应关系的非标准词和标准词。为第二标签组合出现的频次。为全部第二标签组合的出现总频次,其中,p表示非标准词Wu中第p个信息内容标签,P表示非标准词Wu中信息内容标签的数量。q表示标准词中第q个信息内容标签,Q表示标准词中信息内容标签的数量。U表示非标准词的个数,V表示标准词的个数。
以上述第三共现概率为例,计算得到的第二共现概率如公式(4)所示:
其中,P3(Wi|Wj)为待识别词Wi包括的第i个信息内容标签与目标标准词Wj包括的第j个信息内容标签的第三共现概率,P2(Wi|Wj)为待识别词Wi包括的信息内容标签与目标标准词Wj包括的信息内容标签的第二共现概率。i的取值为1到t的整数,j的取值为1到k的整数,t为待识别词包括的信息内容标签的数量,k为目标标准词包括的信息内容标签的数量。
在本申请实施例中,可以通过在全部第二标签组合中目标信息内容标签组合的出现频次与全部第二标签组合的出现总频次,计算得到第三共现概率,以便得到在信息内容标签方面表示待识别词与目标标准词对应程度的第二共现概率。
在在计算第三共现概率的第二种可能的实现方式中,可以通过查询获取待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的第三共现概率。参见图5,该图为本申请实施例提供的一种实现标准词映射的方法的流程图;S401可以包括S501-S502:
S501:根据在全部第二标签组合中目标第二标签组合的出现频次与全部第二标签组合的出现总频次,计算目标第二标签组合的共现概率,第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合,目标第二标签组合分别为第二标签组合中的每一个。
目标信息内容标签组合可以与第二标签组合中的组合相同。相对应的,为了提高确定第三共现概率的效率,可以先根据确定对应关系的标准词的信息内容标签和非标准词的信息内容标签,计算各个第二标签组合的共现概率,以便后续通过查询相同的标签组合确定第三概率组合。
首先,先在全部第二标签组合中将每一个标签组合作为目标第二标签组合。其中,第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合。
再根据在全部第二标签组合中目标第二标签组合的出现频次与全部第二标签组合的出现总频次,计算各个目标第二标签组合的共现概率。
如此可以得到具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的全部的组合对应的共现概率。以便在确定待识别词包括的信息内容标签以及目标标准词包括的信息内容标签之后进行对应的共现概率的查询。
另外,本申请实施例还提供了用于表示目标第二标签组合的共现概率的共现矩阵,如公式(5)所示:
其中,表示非标准词,表示标准词,其中,p表示非标准词Wu中第p个信息内容标签,P表示非标准词Wu中信息内容标签的数量。q表示标准词中第q个信息内容标签,Q表示标准词中信息内容标签的数量。U表示非标准词的个数,V表示标准词的个数。的计算方式与上述公式(3)的计算方式相似,在此不再赘述。
S502:根据在目标第二标签组合的共现概率中查找目标信息内容标签组合的共现概率作为待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的第三共现概率,目标信息内容标签组合为待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的组合。
通过查询目标第二标签组合中与目标信息内容标签组合相同的标签组合的共现概率,可以得到目标内容类别标签组合的第三共现概率。其中,目标信息内容标签组合为待识别词包括的第i个信息内容标签与目标标准词包括的第j个信息内容标签的组合。
在本申请实施例中,先计算目标第二标签组合的共现概率,后续直接在目标第二标签组合的共现概率中查询目标信息内容标签组合的共现概率,确定第三共现概率,以便后续计算得到第二共现概率。通过先对目标第二标签组合的共现概率进行计算,可以较为快速地确定第三共现概率,提高了确定第三共现概率以及第二共现概率的效率。
基于上述方法实施例提供的实现标准词映射的方法,本申请实施例还提供了一种实现标准词映射的装置,下面将结合附图对该实现标准词映射的装置进行说明。
参见图6,该图为本申请实施例提供的一种实现标准词映射的装置的结构示意图。如图6所示,该实现标准词映射的装置包括:
可选的,所述装置包括:
分词获取单元601,用于获得待识别词包括的第一分词;
第一确定单元602,用于确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
第二确定单元603,用于确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
第一获取单元604,用于获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;
第二获取单元605,用于获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;
标准词确定单元606,用于根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。
可选的,所述第一确定单元602,具体用于将所述第一分词输入第一文本分类模型,获得各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
所述第一文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息类别标签、非标准词包括的第三分词以及所述第三分词对应的信息类别标签训练得到的。
可选的,所述第二确定单元603,具体用于将所述第一分词输入第二文本分类模型,获得各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
所述第二文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息内容标签、非标准词包括的第三分词以及所述第三分词对应的信息内容标签训练得到的。
可选的,所述装置还包括:
去除单元,用于如果目标第一分词对应的信息内容标签与所述待识别词包括的信息类别标签均不具有对应关系,则将所述目标第一分词对应的信息内容标签从所述待识别词包括的信息内容标签中去除,所述目标第一分词为所述第一分词中的任意一个或多个。
可选的,所述分词获取单元601,具体用于将待识别词输入分词模型,获得所述待识别词包括的第一分词;
所述分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。
可选的,所述第一获取单元604,具体用于根据在全部第一标签组合中目标信息类别标签组合的出现频次与全部第一标签组合的出现总频次,计算得到所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;
所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合;所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。
可选的,所述第一获取单元604,包括:第一计算单元,用于根据在全部第一标签组合中目标第一标签组合的出现频次与全部第一标签组合的出现总频次,计算所述目标第一标签组合的共现概率,所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合,所述目标第一标签组合分别为所述第一标签组合中的每一个;
第一查询单元,用于在所述目标第一标签组合的共现概率中查找目标信息类别标签组合的共现概率作为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。
可选的,所述第二获取单元605,包括:
第三获取单元,用于获取所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率;i的取值为1到t的整数,j的取值为1到k的整数,t为所述待识别词包括的信息内容标签的数量,k为所述目标标准词包括的信息内容标签的数量;
第二计算单元,用于计算各个所述第三共现概率之和得到所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率。
可选的,所述第三获取单元,具体用于根据在全部第二标签组合中目标信息内容标签组合的出现频次与全部第二标签组合的出现总频次,计算得到所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率;
所述第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合;所述目标信息内容标签组合为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的组合。
可选的,所述第三获取单元,包括:
第三计算单元,用于根据在全部第二标签组合中目标第二标签组合的出现频次与全部第二标签组合的出现总频次,计算所述目标第二标签组合的共现概率,所述第二标签组合为具有对应关系的标准词与非标准词分别包括的任意一个信息内容标签构成的组合,所述目标第二标签组合分别为所述第二标签组合中的每一个;
第二查询单元,用于在所述目标第二标签组合的共现概率中查找目标信息内容标签组合的共现概率作为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的第三共现概率,所述目标信息内容标签组合为所述待识别词包括的第i个信息内容标签与所述目标标准词包括的第j个信息内容标签的组合。
另外,本申请实施例还提供了一种实现标准词映射的设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的实现标准词映射的方法的任一实施方式。
另外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如上述实施例所述的实现标准词映射的方法的任一实施方式。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种实现标准词映射的方法,其特征在于,所述方法包括:
获得待识别词包括的第一分词;
确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;
获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;
根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。
2.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签,包括:
将所述第一分词输入第一文本分类模型,获得各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
所述第一文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息类别标签、非标准词包括的第三分词以及所述第三分词对应的信息类别标签训练得到的。
3.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签,包括:
将所述第一分词输入第二文本分类模型,获得各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
所述第二文本分类模型是根据标准词包括的第二分词、所述第二分词对应的信息内容标签、非标准词包括的第三分词以及所述第三分词对应的信息内容标签训练得到的。
4.根据权利要求1所述的方法,其特征在于,确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签之后,所述方法还包括:
如果目标第一分词对应的信息内容标签与所述待识别词包括的信息类别标签均不具有对应关系,则将所述目标第一分词对应的信息内容标签从所述待识别词包括的信息内容标签中去除,所述目标第一分词为所述第一分词中的任意一个或多个。
5.根据权利要求1所述的方法,其特征在于,所述获得待识别词包括的第一分词,包括:
将待识别词输入分词模型,获得所述待识别词包括的第一分词;
所述分词模型是根据标准词包括的第二分词以及非标准词包括的第三分词训练得到的。
6.根据权利要求1所述的方法,其特征在于,所述获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,包括:
根据在全部第一标签组合中目标信息类别标签组合的出现频次与全部第一标签组合的出现总频次,计算得到所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;
所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合;所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。
7.根据权利要求1所述的方法,其特征在于,所述获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,包括:
根据在全部第一标签组合中目标第一标签组合的出现频次与全部第一标签组合的出现总频次,计算所述目标第一标签组合的共现概率,所述第一标签组合为具有对应关系的标准词与非标准词分别包括的信息类别标签构成的组合,所述目标第一标签组合分别为所述第一标签组合中的每一个;
在所述目标第一标签组合的共现概率中查找目标信息类别标签组合的共现概率作为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率,所述目标信息类别标签组合为所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的组合。
8.一种实现标准词映射的装置,其特征在于,所述装置包括:
分词获取单元,用于获得待识别词包括的第一分词;
第一确定单元,用于确定各个所述第一分词对应的信息类别标签,将各个所述第一分词对应的信息类别标签确定为所述待识别词包括的信息类别标签;
第二确定单元,用于确定各个所述第一分词对应的信息内容标签,将各个所述第一分词对应的信息内容标签确定为所述待识别词包括的信息内容标签;
第一获取单元,用于获取所述待识别词包括的信息类别标签与目标标准词包括的信息类别标签的第一共现概率;所述目标标准词分别为所述标准词中的每一个;
第二获取单元,用于获取所述待识别词包括的信息内容标签与所述目标标准词包括的信息内容标签的第二共现概率;
标准词确定单元,用于根据所述第一共现概率与所述第二共现概率确定所述目标标准词的概率值,将所述概率值最大的目标标准词确定为所述待识别词对应的标准词。
9.一种实现标准词映射的设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的实现标准词映射的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-7任一项所述的实现标准词映射的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916816.4A CN112101021B (zh) | 2020-09-03 | 2020-09-03 | 一种实现标准词映射的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010916816.4A CN112101021B (zh) | 2020-09-03 | 2020-09-03 | 一种实现标准词映射的方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101021A true CN112101021A (zh) | 2020-12-18 |
CN112101021B CN112101021B (zh) | 2024-07-02 |
Family
ID=73757345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010916816.4A Active CN112101021B (zh) | 2020-09-03 | 2020-09-03 | 一种实现标准词映射的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101021B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393945A (zh) * | 2021-08-05 | 2021-09-14 | 中国医学科学院阜外医院 | 一种临床药物过敏管理方法、辅助装置及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5165007A (en) * | 1985-02-01 | 1992-11-17 | International Business Machines Corporation | Feneme-based Markov models for words |
CN108334492A (zh) * | 2017-12-05 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分词、即时消息处理方法和装置 |
CN109829162A (zh) * | 2019-01-30 | 2019-05-31 | 新华三大数据技术有限公司 | 一种文本分词方法及装置 |
CN109829156A (zh) * | 2019-01-18 | 2019-05-31 | 北京惠每云科技有限公司 | 医学文本识别方法及装置 |
CN110391026A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN110516234A (zh) * | 2019-08-06 | 2019-11-29 | 山东师范大学 | 基于gru的中医文本分词方法、系统、设备及介质 |
WO2020073530A1 (zh) * | 2018-10-12 | 2020-04-16 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、电子设备、计算机可读存储介质 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111274384A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 一种文本标注方法及其设备、计算机存储介质 |
CN111435411A (zh) * | 2019-01-15 | 2020-07-21 | 菜鸟智能物流控股有限公司 | 命名体类型识别方法和装置以及电子设备 |
CN111444723A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取模型训练方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-03 CN CN202010916816.4A patent/CN112101021B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5165007A (en) * | 1985-02-01 | 1992-11-17 | International Business Machines Corporation | Feneme-based Markov models for words |
CN108334492A (zh) * | 2017-12-05 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分词、即时消息处理方法和装置 |
WO2020073530A1 (zh) * | 2018-10-12 | 2020-04-16 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、电子设备、计算机可读存储介质 |
CN111274384A (zh) * | 2018-12-05 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 一种文本标注方法及其设备、计算机存储介质 |
CN111435411A (zh) * | 2019-01-15 | 2020-07-21 | 菜鸟智能物流控股有限公司 | 命名体类型识别方法和装置以及电子设备 |
CN109829156A (zh) * | 2019-01-18 | 2019-05-31 | 北京惠每云科技有限公司 | 医学文本识别方法及装置 |
CN109829162A (zh) * | 2019-01-30 | 2019-05-31 | 新华三大数据技术有限公司 | 一种文本分词方法及装置 |
CN110391026A (zh) * | 2019-07-25 | 2019-10-29 | 北京百度网讯科技有限公司 | 基于医疗概率图的信息分类方法、装置及设备 |
CN110516234A (zh) * | 2019-08-06 | 2019-11-29 | 山东师范大学 | 基于gru的中医文本分词方法、系统、设备及介质 |
CN111160012A (zh) * | 2019-12-26 | 2020-05-15 | 上海金仕达卫宁软件科技有限公司 | 医学术语识别方法、装置和电子设备 |
CN111444723A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取模型训练方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
HENRIK LEOPOLD 等: "《《Probabilistic Optimization of Semantic Process Model Matching》", 《INTERNATIONAL CONFERENCE ON BUSINESS PROCESS MANAGEMENT》, pages 319 - 334 * |
李博: "《基于LDA和LSA的医学文本和影像分析模型及应用研究》", 《中国博士学位论文全文数据库信息科技辑》, no. 9, pages 138 - 44 * |
李效晋: "《基于统计模型的文本分割方法及其改进》", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 12, pages 138 - 481 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393945A (zh) * | 2021-08-05 | 2021-09-14 | 中国医学科学院阜外医院 | 一种临床药物过敏管理方法、辅助装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112101021B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107562732B (zh) | 电子病历的处理方法及系统 | |
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
CN107193919A (zh) | 一种电子病历的检索方法及系统 | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
CN109817339B (zh) | 基于大数据的患者分组方法和装置 | |
Camlica et al. | Autoencoding the retrieval relevance of medical images | |
CN109935337B (zh) | 一种基于相似性度量的病案查找方法及系统 | |
CN112347257B (zh) | 一种患者症状口语化标准化方法和装置 | |
CN111192660B (zh) | 一种影像报告分析方法、设备及计算机存储介质 | |
CN113111159A (zh) | 问答记录生成方法、装置、电子设备及存储介质 | |
CN111104481B (zh) | 一种识别匹配字段的方法、装置及设备 | |
CN112035610A (zh) | 医疗领域问答对的生成方法、装置、计算机设备和介质 | |
CN111797267A (zh) | 一种医学图像检索方法及系统、电子设备、存储介质 | |
CN111128388A (zh) | 一种值域数据匹配方法、装置及相关产品 | |
CN112101030B (zh) | 建立术语映射模型、实现标准词映射的方法、装置及设备 | |
CN112883712B (zh) | 一种电子病历的智能输入方法及装置 | |
CN110610766A (zh) | 基于症状特征权重推导疾病概率的装置和存储介质 | |
CN112101021B (zh) | 一种实现标准词映射的方法、装置及设备 | |
CN117582235A (zh) | 基于cnn-lstm模型的心电信号分类方法 | |
CN115631823A (zh) | 相似病例推荐方法及系统 | |
CN110033862B (zh) | 一种基于加权有向图的中医量化诊断系统及存储介质 | |
CN114444563A (zh) | 一种异常医疗费用的检测方法、装置及存储介质 | |
CN110738266A (zh) | 一种医疗影像特征的提取与检索方法 | |
Lin et al. | A Hybrid GCN-LSTM Model for Ventricular Arrhythmia Classification Based on ECG Pattern Similarity | |
CN111966780A (zh) | 一种基于词向量建模和信息检索的回顾性队列选择方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |