CN112185573B - 一种基于lcs和tf-idf的相似字符串确定方法及装置 - Google Patents
一种基于lcs和tf-idf的相似字符串确定方法及装置 Download PDFInfo
- Publication number
- CN112185573B CN112185573B CN202011027205.0A CN202011027205A CN112185573B CN 112185573 B CN112185573 B CN 112185573B CN 202011027205 A CN202011027205 A CN 202011027205A CN 112185573 B CN112185573 B CN 112185573B
- Authority
- CN
- China
- Prior art keywords
- character string
- character
- target
- normalized
- writing information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010606 normalization Methods 0.000 claims abstract description 31
- 230000001174 ascending effect Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 11
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 5
- 238000007418 data mining Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101000946889 Homo sapiens Monocyte differentiation antigen CD14 Proteins 0.000 description 1
- 208000031671 Large B-Cell Diffuse Lymphoma Diseases 0.000 description 1
- 102100035877 Monocyte differentiation antigen CD14 Human genes 0.000 description 1
- 206010041067 Small cell lung cancer Diseases 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 206010012818 diffuse large B-cell lymphoma Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003325 follicular Effects 0.000 description 1
- 201000003444 follicular lymphoma Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000000587 small cell lung carcinoma Diseases 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于LCS和TF‑IDF的相似字符串确定方法及装置,其中,该方法包括:计算同义词字典中各同义词的TF‑IDF值;从同义词字典中查找待归一的字符串对应的标准写法信息;若未查找到,则计算该字符串与相应同义词的最长公共子序列长度和距离以及非公共子序列中包含的所有字符的TF‑IDF值总和;对相应同义词按照最长公共子序列长度降序排列得到第一排序结果,对第一排序结果按照最长公共子序列距离和TF‑IDF值总和的和升序排列得到第二排序结果,返回第二排序结果中第一个字符串对应的目标标准写法信息;基于待归一的字符串和目标标准写法信息,确定待归一的字符串的相似字符串,可对结构化数据进行归一推理,取得了较好的结果,有利于下一步数据分析、挖掘。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种基于LCS和TF-IDF的相似字符串确定方法及装置。
背景技术
大部分医疗数据是自由文本构成的非结构化数据,其中不仅包括大段的文字描述,也包括包含表格样式的文字描述。为有效处理和利用这些文本信息,需要将文本信息结构化。文本结构化由早期基于字典、规则的方法,到基于HMM、CRF等传统机器学习方法,再到基于BiLSTM-CRF、BiLSTM-CNN-CRF等深度学习方法,直到当下基于注意力机制、图神经网络等方法,已经取得了较好的效果。但结构化数据存在预测结果不准确、不完整的问题,为解决这个问题,可结合专业人士整理的相关归一推理文件,使用字符串相似度算法对预测结果归一推理,便于后期数据分析。
目前关于字符串相似度计算的算法主要有:编辑距离(Levenshtein)、最长公共子序列(Longest Common Subsequence,LCS)、余弦相似度(Cosine similarity)、Jaccard相似度。这些传统的字符相似度计算算法都基于当前字符本身进行推理,而对于字符中真正关键的语义很难捕捉。例如‘小细胞肺癌’和‘非小细胞肺癌’,不论上述哪一种算法,都是认为是非常相似的字符串。但是实际结果却截然相反。这是因为字符串中的每一个字符的重要程度并不相同。也就是说,‘非’字在这个例子中应该被给予更多的关注。
申请人在研究中发现,现有技术中使用以上算法返回结果并不十分理想。
发明内容
有鉴于此,本申请的目的在于提供一种基于LCS和TF-IDF的相似字符串确定方法及装置,既考虑了字符串之间的最长公共子序列长度和字符串之间的距离,也考虑了对应同义词中每个字符串中字符对该字符串的重要程度,可对结构化数据进行归一推理,取得了较好的结果有利于下一步数据分析、挖掘。
第一方面,本申请实施例提供了一种基于LCS和TF-IDF的相似字符串确定方法,包括:
计算同义词字典中各同义词的TF-IDF值;
从所述同义词字典中查找待归一的字符串对应的标准写法信息;
若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;
计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
在一种可能的实施方式中,通过以下步骤获取同义词字典:
获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
在一种可能的实施方式中,通过以下步骤计算同义词字典中各同义词的TF-IDF值:
基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
在一种可能的实施方式中,所述方法还包括:若查找到待归一的字符串对应的标准写法信息,则将该标准写法信息确定为目标标准写法信息。
第二方面,本申请实施例提供了一种基于LCS和TF-IDF的相似字符串确定装置,包括:
第一计算模块,用于计算同义词字典中各同义词的TF-IDF值;
查找模块,用于从所述同义词字典中查找待归一的字符串对应的标准写法信息;
第二计算模块,用于在未查找到待归一的字符串对应的标准写法信息时,计算该字符串与相应同义词的最长公共子序列长度和距离;
第三计算模块,用于计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
排序模块,用于对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
确定模块,用于基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
在一种可能的实施方式中,所述装置还包括获取模块,所述获取模块包括:
获取单元,用于获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
第一确定单元,用于根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
在一种可能的实施方式中,所述第一计算模块包括:
第二确定单元,用于基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
第三确定单元,用于基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
第四确定单元,用于基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
在一种可能的实施方式中,所述第二计算模块还用于:在查找到待归一的字符串对应的标准写法信息时,将该标准写法信息确定为目标标准写法信息。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种基于LCS和TF-IDF的相似字符串确定方法,首先计算同义词字典中各同义词的TF-IDF值;从所述同义词字典中查找待归一的字符串对应的标准写法信息;若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。采用本方案既考虑了字符串之间的最长公共子序列长度和距离,也考虑了对应同义词中每个字符串中字符对该字符串的重要程度,可对结构化数据进行归一推理,取得了较好的结果有利于下一步数据分析、挖掘。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种基于LCS和TF-IDF的相似字符串确定方法的流程图;
图2示出了本申请实施例所提供的一种基于LCS和TF-IDF的相似字符串确定装置的结构示意图;
图3示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种基于LCS和TF-IDF的相似字符串确定方法进行详细介绍。
请参考图1,图1为本申请实施例所提供的一种基于LCS和TF-IDF的相似字符串确定方法的流程图。如图1所示,所述方法可以包括:
步骤S101、计算同义词字典中各同义词的TF-IDF值;
步骤S102、从所述同义词字典中查找待归一的字符串对应的标准写法信息;
步骤S103、若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;
步骤S104、计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
步骤S105、对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
步骤S106、基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
在步骤S101之前,还包括:获取归一推理文件,所述归一推理文件包括由专业医学相关人士整理得到的同义词和相关父子类关系文件;根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
在步骤S101中,计算同义词字典中各同义词的TF-IDF值,存入以下文件夹:疾病->指标.json(写入文件的目的是后期减少计算量,若设备硬件条件较好,可进行实时计算)。具体地,步骤S101可以包括以下子步骤:
步骤S1011、基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
其中,TFi,j表示字符串中的词频,指一个字符在当前字符串中出现的频率,ni,j为一个字符在当前语料库中的一个字符串中出现的次数,k表示一个字符串中所有字符或词语的个数。
步骤S1012、基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
其中,IDFi表示对应同义词语料数据库中的逆向文件频率,指一个字符普遍重要性的度量,|D|为当前同义词语料库中字符串总例数,|{j:tj∈dj}|为包含字符tj的字符串个数。
步骤S1013、基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
TFIDFi,j=TFi,j×IDFi
其中,TFIDFi,j表示一个字符在当前字符串的重要程度。
以当前字符串为GRANZYMEB为例,通过上述步骤S1011-S1013计算可得当前字符串GRANZYMEB中每个字符在当前字符串的TF-IDF值;
计算结果示例如下:
"GRANZYMEB":{
"Z":0.5080144813233212,
"Y":0.3440248680111459,
"B":0.23785692967476413,
"G":0.22409365392889904,
"E":0.19908438546978388,
"M":0.19321299865040834,
"R":0.18306950751602977,
"N":0.1808545947492723,
"A":0.13435046256310373
}。
在步骤S102中,由于所述同义词字典包括各种疾病的各指标的各标准写法信息,从所述同义词字典中查找待归一的字符串对应的标准写法信息。
在步骤S103中,最长公共子序列(LCS)是一个在一个序列集合中(通常为两个序列)用来查找所有序列中最长子序列的问题,简称“LCS问题”。一个数列,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列中最长的,则称为已知序列的最长公共子序列。
LCS问题在于寻找两个(或更多)序列的最长子序列。LCS问题与寻找公共子字符串的问题不同,子字符串不需要在原始序列中占据连续的位置。
长度为n的字符串X和长度为m的字符串Y的LCS距离为:
n+m-2|LCS(X,Y)|,min=0,max=n+m。
在步骤S103中,还可以包括:若查找到待归一的字符串(string)对应的标准写法信息,则将该标准写法信息确定为目标标准写法信息(string_normal),直接转入步骤S106。
在步骤S104中,首先确定待归一的字符串与相应同义词的非公共子序列,然后计算非公共子序列中每个字符的TF-IDF值,将非公共子序列中所有字符的TF-IDF值相加,得到TF-IDF值总和。
在步骤S105中,首先对待归一的字符串(string)的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果。然后对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果。最后返回所述第二排序结果中第一个字符串对应的目标标准写法信息(string_normal),这里的第二排序结果中第一个字符串,即与待归一的字符串最相似的目标字符串。
在步骤S106中,计算过程中得到的归一后的字符串可以‘string string_normal’的形式存入文本。并且,步骤S104之前还可增加匹配同义词文件的步骤,可以减少计算量。
在步骤S106之后,还包括:通过读取归一推理文件中的父子类关系,对已经提取出的指标推理出未提取出的结果,是对结构化数据的一种补充。
通过上述步骤S101-S106输入的字符串和输出的相似字符串如下所示:
['mark','CD124']——>CD14
['diagnosis2','滤泡性']——>滤泡性淋巴瘤
['diagnosis2','弥漫性']——>弥漫性大B细胞淋巴瘤,非特指型。
本申请实施例提供的一种基于LCS和TF-IDF的相似字符串确定方法,首先计算同义词字典中各同义词的TF-IDF值;从所述同义词字典中查找待归一的字符串对应的标准写法信息;若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。采用本方案既考虑了字符串之间的最长公共子序列长度和距离,也考虑了对应同义词中每个字符串中字符对该字符串的重要程度,可对结构化数据进行归一推理,取得了较好的结果有利于下一步数据分析、挖掘。
基于相同的技术构思,本申请实施例还提供一种基于LCS和TF-IDF的相似字符串确定装置、电子设备、以及计算机存储介质等,具体可参见以下实施例。
请参考图2,图2为本申请实施例所提供的一种基于LCS和TF-IDF的相似字符串确定装置的结构示意图。如图2所示,所述装置可以包括:
第一计算模块201,用于计算同义词字典中各同义词的TF-IDF值;
查找模块202,用于从所述同义词字典中查找待归一的字符串对应的标准写法信息;
第二计算模块203,用于在未查找到待归一的字符串对应的标准写法信息时,计算该字符串与相应同义词的最长公共子序列长度和距离;
第三计算模块204,用于用于计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
排序模块205,用于对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
确定模块206,用于基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
在一种可能的实施方式中,所述装置还包括获取模块207,所述获取模块包括:
获取单元,用于获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
第一确定单元,用于根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
在一种可能的实施方式中,所述第一计算模块201包括:
第二确定单元,用于基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
第三确定单元,用于基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
第四确定单元,用于基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
在一种可能的实施方式中,所述第二计算模块203还用于:在查找到待归一的字符串对应的标准写法信息时,将该标准写法信息确定为目标标准写法信息。
本申请实施例公开了一种电子设备,如图3所示,包括:处理器301、存储器302和总线303,所述存储器302存储有所述处理器301可执行的机器可读指令,当电子设备运行时,所述处理器301与所述存储器302之间通过总线303通信。所述机器可读指令被所述处理器301执行时执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本申请实施例所提供的一种基于LCS和TF-IDF的相似字符串确定方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于LCS和TF-IDF的相似字符串确定方法,其特征在于,包括:
计算同义词字典中各同义词的TF-IDF值;
从所述同义词字典中查找待归一的字符串对应的标准写法信息;
若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;
计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤获取同义词字典:
获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
3.根据权利要求1所述的方法,其特征在于,通过以下步骤计算同义词字典中各同义词的TF-IDF值:
基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
4.根据权利要求1所述的方法,其特征在于,还包括:
若查找到待归一的字符串对应的标准写法信息,则将该标准写法信息确定为目标标准写法信息。
5.一种基于LCS和TF-IDF的相似字符串确定装置,其特征在于,包括:
第一计算模块,用于计算同义词字典中各同义词的TF-IDF值;
查找模块,用于从所述同义词字典中查找待归一的字符串对应的标准写法信息;
第二计算模块,用于在未查找到待归一的字符串对应的标准写法信息时,计算该字符串与相应同义词的最长公共子序列长度和距离;
第三计算模块,用于计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
排序模块,用于对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
确定模块,用于基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
6.根据权利要求5所述的装置,其特征在于,还包括获取模块,所述获取模块包括:
获取单元,用于获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
第一确定单元,用于根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
7.根据权利要求5所述的装置,其特征在于,所述第一计算模块包括:
第二确定单元,用于基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
第三确定单元,用于基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
第四确定单元,用于基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
8.根据权利要求5所述的装置,其特征在于,所述第二计算模块还用于:在查找到待归一的字符串对应的标准写法信息时,将该标准写法信息确定为目标标准写法信息。
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027205.0A CN112185573B (zh) | 2020-09-25 | 2020-09-25 | 一种基于lcs和tf-idf的相似字符串确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027205.0A CN112185573B (zh) | 2020-09-25 | 2020-09-25 | 一种基于lcs和tf-idf的相似字符串确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112185573A CN112185573A (zh) | 2021-01-05 |
CN112185573B true CN112185573B (zh) | 2023-11-03 |
Family
ID=73944969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011027205.0A Active CN112185573B (zh) | 2020-09-25 | 2020-09-25 | 一种基于lcs和tf-idf的相似字符串确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112185573B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661480A (zh) * | 2008-08-29 | 2010-03-03 | 国际商业机器公司 | 确定组织在不同语言中的名称的方法和系统 |
CN104424279A (zh) * | 2013-08-30 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
CN109992772A (zh) * | 2019-03-13 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本相似度计算方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170213130A1 (en) * | 2016-01-21 | 2017-07-27 | Ebay Inc. | Snippet extractor: recurrent neural networks for text summarization at industry scale |
-
2020
- 2020-09-25 CN CN202011027205.0A patent/CN112185573B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661480A (zh) * | 2008-08-29 | 2010-03-03 | 国际商业机器公司 | 确定组织在不同语言中的名称的方法和系统 |
CN104424279A (zh) * | 2013-08-30 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
CN109992772A (zh) * | 2019-03-13 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本相似度计算方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112185573A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10949456B2 (en) | Method and system for mapping text phrases to a taxonomy | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
CN112256860A (zh) | 客服对话内容的语义检索方法、系统、设备及存储介质 | |
US8825620B1 (en) | Behavioral word segmentation for use in processing search queries | |
CN112885478B (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
WO2018056423A1 (ja) | シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム | |
CN112149409B (zh) | 医疗词云生成方法、装置、计算机设备及存储介质 | |
CN108427702B (zh) | 目标文档获取方法及应用服务器 | |
US10936962B1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
US11275936B2 (en) | Systems and methods for classification of scholastic works | |
US20230244869A1 (en) | Systems and methods for classification of textual works | |
CN110569349A (zh) | 基于大数据的患教文章推送方法、系统、设备及存储介质 | |
CN112507230B (zh) | 基于浏览器的网页推荐方法、装置、电子设备及存储介质 | |
Schulze et al. | Entity-supported summarization of biomedical abstracts | |
Chen et al. | Combining rich features and deep learning for finding similar sentences in electronic medical records | |
CN112183104A (zh) | 编码推荐方法、系统及相应设备和存储介质 | |
Sutoyo et al. | Detecting documents plagiarism using winnowing algorithm and k-gram method | |
CN114330335A (zh) | 关键词抽取方法、装置、设备及存储介质 | |
Wijewickrema et al. | Selecting a text similarity measure for a content-based recommender system: A comparison in two corpora | |
US20210133627A1 (en) | Methods and systems for confirming an advisory interaction with an artificial intelligence platform | |
US20240112765A1 (en) | Method and system for clinical trials matching | |
CN112185573B (zh) | 一种基于lcs和tf-idf的相似字符串确定方法及装置 | |
Gupta et al. | Songs recommendation using context-based semantic similarity between lyrics | |
WO2019192122A1 (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
CN115964474A (zh) | 一种政策关键词抽取方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |