CN115828918A - 一种装备名称实体分辨方法 - Google Patents
一种装备名称实体分辨方法 Download PDFInfo
- Publication number
- CN115828918A CN115828918A CN202211578524.XA CN202211578524A CN115828918A CN 115828918 A CN115828918 A CN 115828918A CN 202211578524 A CN202211578524 A CN 202211578524A CN 115828918 A CN115828918 A CN 115828918A
- Authority
- CN
- China
- Prior art keywords
- node
- digital
- taking
- character string
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract 2
- 238000010276 construction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010606 normalization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公布了一种装备名称实体分辨方法,通过类别名称去除、特殊字符去除、数字转换、字符转换等预处理步骤,对装备名称进行规范化;计算装备名称之间的归一化莱文斯坦相似度,根据相似度阈值构造关系矩阵;计算关系矩阵的传递闭包,构建并输出等价实体集合。本发明方法以装备名称为依据,充分考虑装备命名规则和命名习惯,显著提升了装备名称实体分辨的效果。
Description
技术领域
本发明涉及数据清洗领域,尤其是涉及一种装备名称实体分辨方法。
背景技术
由于不同数据采集人员的知识和习惯的不同,导致人工采集的数据中存在大量重复或者相似的情况,例如,同一种物品具有不同的名称,进而对数据统计分析造成不良影响。因此,在对采集数据进行汇总,或者对不同来源的数据进行整合时,需要对数据中的等价实体进行识别和合并。装备名称实体识别一般采用人工判别或者采用基于字符串相似度的方法,但人工判别仅适用于数据量较少的情况,而基于字符串相似度的方法因装备命名的复杂性而效果不佳。
发明内容
本发明的目的是提供了一种装备名称实体分辨方法,用以解决装备名称实体分辨效果不佳的问题。为实现上述目的,本发明提供了如下技术方案:
一种装备名称实体分辨方法,包括装备名称规范化、关系矩阵构造和等价实体集合计算三部分;其中,装备名称规范化,对装备名称进行预处理,实现装备名称的规范化;关系矩阵构造,计算装备名称之间的归一化莱文斯坦相似度,并根据相似度阈值构造关系矩阵;等价实体集合计算,根据关系矩阵计算传递闭包,并据此计算等价实体集合。
进一步的,装备名称规范化具体包括:
S11、去除操作;类别名称去除,根据装备类别名称字典,删除装备名称字符串中的类别名称字符串;特殊字符去除,如果装备名称字符串中包含特殊字符,则删除装备名称字符串中的特殊字符;
S12、转换操作;数字转换,将中文数字转换为阿拉伯数字;序号转换,将字符串序号转换为英文字母序号;中文转换,将汉字转换为对应汉语拼音的首字母;大小写转换,将装备名称字符串中的小写字母全部转换为大写字母。
进一步的,S12中的数字转换具体包括:
数字字符串提取,遍历装备名称字符串中的每个字符,根据包含连续数字字符或进位字符的子字符串的起始位置,提取装备名称字符串中的数字部分;
数字结构化表示,如果数字字符串包含进位字符,则构造数字的二叉树表示,其中,二叉树中包含两类节点,即数字节点和数位节点,每个节点具有标称值和解析值,数字节点的标称值和解析值都等于不同数位上的数字,数位节点的标称值为不同数位对应的以十为底的指数,解析值等于以十为底、标称值为指数的指数值,乘以其左子节点的解析值,再加上其右子节点的解析值;
数字格式化输出,如果数字字符串中不包含进位字符,则直接输出每个字符对应的阿拉伯数字;否则,从根节点开始,递归地求解根节点的解析值,并将数值转换为格式化字符串,并替换装备名称字符串中的数字部分。
进一步的,数字结构化表示中的数字二叉树表示构造具体包括:
字符串分割,根据小数点的位置将数字字符串分为整数、小数点和小数三个部分,如果不存在小数点,则数字字符串全部转换为整数部分;
整数部分转换按照如下步骤处理:从左至右逐个解析整数部分中的字符,如果为数字字符且不为零,则新建以该字符对应数值为标称值的数字节点,如果该数字字符是第一个字符,则以该数字节点为当前节点,否则,将该数字节点作为当前节点的右子节点,并将该数字节点作为当前节点;如果为进位字符,则新建以进位字符对应的指数值为标称值的数位节点,如果该进位字符是第一个字符,则新建标称值为1的数字节点作为该数位节点的左子节点,并将该数位节点作为当前节点;如果该进位字符不是第一个字符且当前节点存在父节点,则将其父节点作为当前节点,直至当前节点不存在父节点,或者当前节点的父节点的标称值大于新建数位节点的标称值;
小数部分转换按照如下步骤处理:从左至右逐个解析小数部分中的字符,如果当前节点为空,则分别新建标称值为0的数字节点和数位节点,数字节点作为数位节点的左子节点,并将数位节点作为当前节点;如果当前节点有父节点,新建以该字符对应的数值为标称值的数字节点,以及以当前节点的标称值减一为标称值的数位节点,将新建数字节点作为新建数位节点的左子节点,将新建数位节点作为当前节点的右子节点,并将新建数位节点作为当前节点。
进一步的,整数部分转换中,对于当前节点不存在父节点的情况,将当前节点作为新建数位节点的左子节点,并将新建数位节点作为当前节点;对于当前节点的父节点的标称值大于新建数位节点的标称值的情况,将新建数位节点作为当前节点的父节点的右子节点,当前节点作为新建数位节点的左子节点,并将新建数位节点作为当前节点。
综上,本发明采用上述方法及系统,以装备名称为依据,充分考虑装备命名规则和命名习惯,可以显著提升装备名称实体分辨的效果。
附图说明
图1为本发明方法的整体流程图;
图2为本发明中数字二叉树的整数部分的转换流程图;
图3为本发明中数字二叉树的小数部分的转换流程图;
图4为本发明以“七点六二”为例的转化流程示例图;
图5为本发明以“七点六二”为例的求解过程示例图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示的装备名称实体识别方法,包括装备名称规范化、关系矩阵构造、等价实体集合计算三部分。其中,装备名称规范化,对装备名称进行预处理,实现装备名称的规范化。关系矩阵构造,计算装备名称之间的归一化莱文斯坦相似度,并根据相似度阈值构造关系矩阵。等价实体集合计算,根据关系矩阵计算传递闭包,并据此计算等价实体集合。
装备名称规范化作为本方案的重点,下面对其进行详细阐述。
装备名称规范化具体包括:(1)类别名称去除,根据长度将类别名称字典中的类别名称降序排列,得到类别名称列表,遍历类别名称列表,如果装备名称字符串中包含类别名称字符串,则删除装备名称字符串中的类别名称字符串;(2)特殊字符去除,如果装备名称字符串中包含“-”、“—”、“_”、空格等特殊字符,则删除装备名称字符串中的特殊字符;(3)数字转换,如果装备名称字符串中包含中文数字,则将中文数字转换为阿拉伯数字;(4)序号转换,如果装备名称字符串中包含天干序号(如“甲”、“乙”、“丙”、“丁”等)或者罗马序号(如“Ⅰ”、“Ⅱ”、“Ⅲ”、“IV”等),则将其转换为英文字母序号(如“A”、“B”、“C”、“D”等);(5)中文转换,如果装备名称字符串中包含汉字,则将其转换为对应汉语拼音首字母;(6)大小写转换,将装备名称字符串中的小写字母全部转换为大写字母。
进一步的,数字转换又可进一步细化出数字字符串提取、数字结构化表示和数字格式化输出。数字字符串提取,遍历装备名称字符串中的每个字符,根据包含连续数字字符(阿拉伯数字0-9对应的中文字符,如“〇”、“一”、“二”等)或进位字符(小数点以及不同数位对应的中文字符,如“点”、“十”、“百”等)的子字符串的起始位置,提取装备名称字符串中的数字部分。数字结构化表示,如果数字字符串包含进位字符,则构造数字的二叉树表示;其中,二叉树中包含两类节点,即数字节点和数位节点,每个节点具有标称值和解析值;数字节点的标称值和解析值都等于不同数位上的数字,数位节点的标称值为不同数位对应的以十为底的指数,解析值等于以十为底、标称值为指数的指数值,乘以其左子节点的解析值,再加上其右子节点的解析值。数字格式化输出,如果数字字符串中不包含进位字符,则直接输出每个字符对应的阿拉伯数字,否则,从根节点开始,递归地求解根节点的解析值,并将数值转换为格式化字符串,并替换装备名称字符串中的数字部分。
以“八一式七点六二毫米步枪”为例,其转换后的结果为:81S7.62HM。
(1)首先截取数字部分得到“八一”和“七点六二”;
(2)对于“八一”,由于没有数位字符,逐个字符转换为数字,即81;
(3)对于“七点六二”,分为整数部分和小数部分。
整数部分为“七”:从左至右逐个解析整数部分中的字符,“七”是第一个字符且不为零,则新建标称值为7的数字节点,并以该数字节点为当前节点,转化结果如图4(a)所示。
小数部分为“六二”:当前节点无父节点,则新建标称值为0的数位节点,当前节点作为该数位节点的左子节点,并将该数位节点作为当前节点,如图4(b)所示。针对“六”,新建以6为标称值的数字节点,以及以当前节点的标称值减一(-1)为标称值的数位节点,将新建数字节点作为新建数位节点的左子节点,将新建数位节点作为当前节点的右子节点,并将新建数位节点作为当前节点,如图4(c)所示。针对“二”,新建以2为标称值的数字节点,以及以当前节点的标称值减一(-2)为标称值的数位节点,将新建数字节点作为新建数位节点的左子节点,将新建数位节点作为当前节点的右子节点,并将新建数位节点作为当前节点,如图4(d)所示。
解析过程如图4所示。基于深度优先遍历原则,找到最深层节点并计算解析值。整数部分,只涉及到“七”,故只需要遍历一层即可得到整数部分的解析值和。小数部分,涉及到“六”和“二”,需要先计算最深层关于“二”的节点。通过第四层数字节点的解析值结合第三层数位节点的标称值,得到第三层数位节点的解析值;通过第三层数字节点的解析值结合第二层数位节点的标称值,再与第三层数位节点的解析值做累加,即可得到二层数位节点的解析值。最后,将整数部分和小数部分的解析值和做累加计算,即可解析得到第一层节点(根节点)的解析值。
给定n个装备名称字符串,关系矩阵构造模块构造n×n关系矩阵M。
假设第x(n≥x≥1)、第y(n≥y≥1)个字符串分别为a和b,令i=|a|,j=|b|,按照如下公式执行递归计算,得到莱温斯坦距离d:
给定相似度阈值τ,如果s≥τ,则Mxy=Myx=1,否则Mxy=Myx=0。
使用Warshall算法计算传递闭包,即对于关系矩阵的每一列i(1≤i≤n),对关系矩阵的所有行j(1≤j≤n),如果Mji=1,则对k=1,2,…,n,使得Mjk=max(Mjk,Mik)。然后,根据传递闭包矩阵计算等价实体集合,具体过程为:首先初始化包含n个集合的列表,然后对于矩阵M的每一行i(1≤i≤n),和每一列j(1≤j≤n),如果Mij=1,将i、j放入第个i集合中,并删除第j个集合,最终得到等价实体集合列表,即得到最终的装备名称列表。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。
Claims (5)
1.一种装备名称实体分辨方法,其特征在于,包括:
S1、装备名称规范化,对装备名称进行预处理,实现装备名称的规范化;
S2、关系矩阵构造,计算装备名称之间的归一化莱文斯坦相似度,并根据相似度阈值构造关系矩阵;
S3、等价实体集合计算,根据关系矩阵计算传递闭包,并据此计算等价实体集合。
2.如权利要求1所述的装备名称实体分辨方法,其特征在于,S1具体包括:
S11、去除操作;类别名称去除,根据装备类别名称字典,删除装备名称字符串中的类别名称字符串;特殊字符去除,删除装备名称字符串中的特殊字符;
S12、转换操作;数字转换,将中文数字转换为阿拉伯数字;序号转换,将字符串序号转换为英文字母序号;中文转换,将汉字转换为对应汉语拼音首字母;大小写转换,将装备名称字符串中的小写字母全部转换为大写字母。
3.如权利要求2所述的装备名称实体分辨方法,其特征在于,S12中的数字转换具体包括:
数字字符串提取,遍历装备名称字符串中的每个字符,根据包含连续数字字符或进位字符的子字符串的起始位置,提取装备名称字符串中的数字部分;
数字结构化表示,如果数字字符串包含进位字符,则构造数字的二叉树表示;其中,二叉树中包含两类节点,即数字节点和数位节点,每个节点具有标称值和解析值;数字节点的标称值和解析值都等于不同数位上的数字;数位节点的标称值为不同数位对应的以十为底的指数,解析值等于以十为底、标称值为指数的指数值,乘以其左子节点的解析值,再加上其右子节点的解析值;
数字格式化输出,如果数字字符串中不包含进位字符,则直接输出每个字符对应的阿拉伯数字;否则,从根节点开始,递归地求解根节点的解析值,并将数值转换为格式化字符串,并替换装备名称字符串中的数字部分。
4.如权利要求3所述的数字转换步骤,其特征在于,数字结构化表示中的数字的二叉树表示构造具体包括:
字符串分割,根据小数点的位置将数字字符串分为整数、小数点和小数三个部分,如果不存在小数点,则数字字符串全部转换为整数部分;
整数部分转换按照如下步骤处理:从左至右逐个解析整数部分中的字符,如果为数字字符且不为零,则新建以该字符对应数值为标称值的数字节点,如果该数字字符是第一个字符,则以该数字节点为当前节点,否则,将该数字节点作为当前节点的右子节点,并将该数字节点作为当前节点;如果为进位字符,则新建以进位字符对应的指数值为标称值的数位节点,如果该进位字符是第一个字符,则新建标称值为1的数字节点作为该数位节点的左子节点,并将该数位节点作为当前节点;如果该进位字符不是第一个字符且当前节点存在父节点,则将其父节点作为当前节点,直至当前节点不存在父节点,或者当前节点的父节点的标称值大于新建数位节点的标称值;
小数部分转换按照如下步骤处理:从左至右逐个解析小数部分中的字符,如果当前节点为空,则分别新建标称值为0的数字节点和数位节点,数字节点作为数位节点的左子节点,并将数位节点作为当前节点;如果当前节点有父节点,新建以该字符对应的数值为标称值的数字节点,以及以当前节点的标称值减一为标称值的数位节点,将新建数字节点作为新建数位节点的左子节点,将新建数位节点作为当前节点的右子节点,并将新建数位节点作为当前节点。
5.如权利要求4所述的数字转换步骤,其特征在于,整数部分转换中,对于当前节点不存在父节点的情况,将当前节点作为新建数位节点的左子节点,并将新建数位节点作为当前节点;对于当前节点的父节点的标称值大于新建数位节点的标称值的情况,将新建数位节点作为当前节点的父节点的右子节点,当前节点作为新建数位节点的左子节点,并将新建数位节点作为当前节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211578524.XA CN115828918B (zh) | 2022-12-09 | 2022-12-09 | 一种装备名称实体分辨方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211578524.XA CN115828918B (zh) | 2022-12-09 | 2022-12-09 | 一种装备名称实体分辨方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115828918A true CN115828918A (zh) | 2023-03-21 |
CN115828918B CN115828918B (zh) | 2024-02-02 |
Family
ID=85545642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211578524.XA Active CN115828918B (zh) | 2022-12-09 | 2022-12-09 | 一种装备名称实体分辨方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115828918B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1501625A (zh) * | 2002-11-14 | 2004-06-02 | 深圳市中兴通讯股份有限公司 | 一种对人机命令中二维表的输出解析方法 |
US20050010581A1 (en) * | 2003-05-16 | 2005-01-13 | Canon Kabushiki Kaisha | Method for identifying composite data types with regular expressions |
JP2005150843A (ja) * | 2003-11-11 | 2005-06-09 | Canon Inc | 画像データ符号化装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 |
CN103106198A (zh) * | 2011-11-09 | 2013-05-15 | 金蝶软件(中国)有限公司 | 树型结构实现方法和装置 |
CN106131139A (zh) * | 2016-06-23 | 2016-11-16 | 暨南大学 | 一种云关系数据库的浮点数据的加密及查询方法 |
CN106503365A (zh) * | 2016-11-03 | 2017-03-15 | 英特工程仿真技术(大连)有限公司 | 一种用于sph算法的分区搜索方法 |
CN108595584A (zh) * | 2018-04-18 | 2018-09-28 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和系统 |
CN109959401A (zh) * | 2019-03-26 | 2019-07-02 | 中国科学院光电技术研究所 | 一种光电轴角编码器的快速编码方法 |
CN110119495A (zh) * | 2018-02-05 | 2019-08-13 | 北大方正集团有限公司 | 数字字符串的转换方法、系统、计算机设备及介质 |
CN112613522A (zh) * | 2021-01-04 | 2021-04-06 | 重庆邮电大学 | 一种基于融合字形信息的服药单识别结果纠错方法 |
CN112866196A (zh) * | 2020-12-30 | 2021-05-28 | 中国人民解放军国防科技大学 | 一种短波数字信号解译还原方法 |
CN113806782A (zh) * | 2021-09-29 | 2021-12-17 | 中孚安全技术有限公司 | 一种基于转移矩阵的密文判定方法、系统及设备 |
-
2022
- 2022-12-09 CN CN202211578524.XA patent/CN115828918B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1501625A (zh) * | 2002-11-14 | 2004-06-02 | 深圳市中兴通讯股份有限公司 | 一种对人机命令中二维表的输出解析方法 |
US20050010581A1 (en) * | 2003-05-16 | 2005-01-13 | Canon Kabushiki Kaisha | Method for identifying composite data types with regular expressions |
JP2005150843A (ja) * | 2003-11-11 | 2005-06-09 | Canon Inc | 画像データ符号化装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 |
CN103106198A (zh) * | 2011-11-09 | 2013-05-15 | 金蝶软件(中国)有限公司 | 树型结构实现方法和装置 |
CN106131139A (zh) * | 2016-06-23 | 2016-11-16 | 暨南大学 | 一种云关系数据库的浮点数据的加密及查询方法 |
CN106503365A (zh) * | 2016-11-03 | 2017-03-15 | 英特工程仿真技术(大连)有限公司 | 一种用于sph算法的分区搜索方法 |
CN110119495A (zh) * | 2018-02-05 | 2019-08-13 | 北大方正集团有限公司 | 数字字符串的转换方法、系统、计算机设备及介质 |
CN108595584A (zh) * | 2018-04-18 | 2018-09-28 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和系统 |
CN109959401A (zh) * | 2019-03-26 | 2019-07-02 | 中国科学院光电技术研究所 | 一种光电轴角编码器的快速编码方法 |
CN112866196A (zh) * | 2020-12-30 | 2021-05-28 | 中国人民解放军国防科技大学 | 一种短波数字信号解译还原方法 |
CN112613522A (zh) * | 2021-01-04 | 2021-04-06 | 重庆邮电大学 | 一种基于融合字形信息的服药单识别结果纠错方法 |
CN113806782A (zh) * | 2021-09-29 | 2021-12-17 | 中孚安全技术有限公司 | 一种基于转移矩阵的密文判定方法、系统及设备 |
Non-Patent Citations (4)
Title |
---|
MINGHE YU等: "A Tree-Based Indexing Approach for Diverse Textual Similarity Search", IEEE, pages 8866 * |
罗几何: "基于8bit量化神经网络的人脸检测识别算法设计与FPGA验证", 中国优秀硕士学位论文全文数据库信息科技辑, no. 6, pages 135 - 404 * |
艾里尼热·玉素甫: "Gzip-U:针对维吾尔语文本的压缩算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 1, pages 138 - 1889 * |
邵清;叶琨;: "基于编辑距离和相似度改进的汉字字符串匹配", 电子科技, vol. 29, no. 09, pages 7 * |
Also Published As
Publication number | Publication date |
---|---|
CN115828918B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
CN110275959B (zh) | 一种面向大规模知识库的快速学习方法 | |
CN1226717C (zh) | 自动新词提取方法和系统 | |
CN109165273B (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
CN107145516B (zh) | 一种文本聚类方法及系统 | |
CN105912570B (zh) | 基于隐马尔可夫模型的英文简历关键字段抽取方法 | |
CN102063482B (zh) | 一种手持设备高效联系人查找方法 | |
CN113806531B (zh) | 药物关系分类模型构建方法、药物关系分类方法及系统 | |
CN112560478A (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN106886565B (zh) | 一种基础房型自动聚合方法 | |
CN112906826A (zh) | 基于多维度的知识图谱的融合方法、装置及计算机设备 | |
CN107944465A (zh) | 一种适用于大数据的无监督快速聚类方法及系统 | |
Friedrich | Complexity and entropy in legal language | |
CN109977370A (zh) | 一种基于文档结构树的问答对自动构建方法 | |
CN115828918B (zh) | 一种装备名称实体分辨方法 | |
CN112148735A (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN111737482B (zh) | 一种适用于数据挖掘的全景可视化图谱生成方法及装置 | |
CN111916169B (zh) | 一种中医电子病历结构化方法和终端 | |
CN113505863A (zh) | 基于级联均值向量综合评分的图片多级分类方法及系统 | |
CN113722460A (zh) | 指标数据入库方法、装置、设备及存储介质 | |
Domicolo et al. | The degree Gini index of several classes of random trees and their poissonized counterparts---an evidence for a duality theory | |
CN112818122A (zh) | 一种面向对话文本的事件抽取方法及系统 | |
CN117235206B (zh) | 一种基于深度学习的政策匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |