CN114238619A - 基于编辑距离的中文名词筛选方法及系统及装置及介质 - Google Patents
基于编辑距离的中文名词筛选方法及系统及装置及介质 Download PDFInfo
- Publication number
- CN114238619A CN114238619A CN202210164405.3A CN202210164405A CN114238619A CN 114238619 A CN114238619 A CN 114238619A CN 202210164405 A CN202210164405 A CN 202210164405A CN 114238619 A CN114238619 A CN 114238619A
- Authority
- CN
- China
- Prior art keywords
- screening
- word
- words
- data
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于编辑距离的中文名词筛选方法及系统及装置及介质,涉及文本处理领域,包括:构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果;本发明采用数据字典,扩大名词数据筛选的范围,提高数据筛选的准确度。
Description
技术领域
本发明涉及文本处理领域,具体地,涉及一种基于编辑距离的中文名词筛选方法及系统及装置及介质。
背景技术
在文本处理过程中,经常需要使用到文本筛选的技术手段来处理文本筛选获得需要的结果。
在文本处理的过程中,处理的文本来自不同的场景,一些中文名词可能字符组成不一样,但是表达的意义却是相同的,所以在一定处理层面上,这类中文名词应当归为一类。通过编辑距离的方式去计算两两之间的相似度,设置阈值进行筛选得到最后的结果的方式只能解决两个中文名词在字符组成差异较小的情况,不能解决字符组成差异较大甚至完全不相同(同义词或近义词)的情况,降低筛选阈值也依然不能解决字符组成全不相同(同义词或近义词)的情况,同时还可能大大降低筛选的准确度。
现有的文本筛选技术手段有:
现有技术1-方案来源:一种基于编辑距离的字符串模糊匹配和查询方法-CN109902142A;
具体方案:
本发明公开了一种基于编辑距离的字符串模糊匹配和查询方法,包括以下步骤:先按照段落中字符串的长度对查询串依次进行划分,得查询串子串集合,当段落内的字符串与查询串中的字符串相匹配时,则该字符串对应索引的原字符串的匹配度加上该字符串的长度,当该字符串的匹配度大于预设上界值时,且该位置列表中没有重复的元素时,则将该字符串添加到结果集合中,否则,则对该字符串进行编辑距离的验证;当该字符串的匹配度小于预设下界值时,则直接过滤掉该字符串;当该字符串的匹配度在预设下界值与预设上界值之间时,则对该字符串进行编辑距离验证,该方法能够反映不同长度段落对匹配结果不影响的不同,同时编辑距离验证操作次数较少。
方案缺点:
意义相近、但字符结构差异较大甚至完全不同的两段字符串的计算结果准确度低。
现有技术2-方案来源:短文本相似度计算方法及系统-CN108334495A;
具体方案:
本发明提供了一种短文本相似度计算方法,包括以下步骤:S1、对训练语料进行分词,利用word2vec算法得到每个词的词向量,并组合形成词向量集合;S2、分别对待计算短文本进行分词,在词向量集合中找到待计算短文本的每个词语的词向量,并组合形成短文本向量集合;S3、计算词向量集合中每个词向量与短文本向量集合中每个词向量的余弦相似度,并得到每个词向量的最大相似度值组合得到短文本句子向量;S4、计算两个短文本句子向量间的相似度,即可计算两个短文本间的相似度。本发明还提供了一种短文本相似度计算系统。本发明的相似度算法通过将短文本句子以句子向量表示,有效的刻画了短文本句子之间的语义相似度,准确率高。
方案缺点:
计算方式复杂,需要训练语料,语料不足的情况下,计算结果准确度低。
发明内容
本发明目的是为了解决现有的中文名词筛选方法存在的准确度低以及计算方式复杂,需要训练语料的技术问题。
为实现上述发明目的,本发明提供了基于编辑距离的中文名词筛选方法,所述方法包括:
构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;
获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;
将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;
计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;
从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果。
其中,通过对现有技术的研究发现,现有技术存在上述技术问题的原因主要是筛选的范围狭小,导致有些特殊的情况无法筛选覆盖。因此,本方法建立一个数据字典用来存储同义词、近义词和一些经验数据,利用字典数据扩大筛选范围,提高筛选的准确度,也避免了提前训练语料,计算方式简单。
其中,本方法对数据字典中数据存储方式进行了特殊设计,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;这样设计的目的是将词引与多个相似词语对应起来,搜索数据库时只需要匹配词引就可以匹配出多个相似词语,避免多次匹配,同时能够获得多个相似词语结果。
优选的,从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果包括:
从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得中间结果集合;
对所述中间结果集合进行校正获得所述筛选结果。
其中,通过校正可以提高筛选的精度。
优选的,所述方法还包括:基于所述筛选结果对所述数据字典进行更新。本方法这样设计的目的是利用每次筛选结果来更新、优化数据字典,规避由于数据字典数据量少、没有更新带来的筛选准确度无法提高的问题,在不断筛选的过程中,持续更新优化数据字典,逐步提高筛选的准确度。
优选的,所述基于所述筛选结果对所述数据字典进行更新,具体包括:
获得所述基准词对应的第一词引;
将所述筛选结果中的词语作为相似词语添加到所述第一词引对应的词组中。
优选的,所述筛选数据集的获得方式为:选择需要筛选的第一数据集,去除所述第一数据集中的脏数据,获得所述筛选数据集。
其中,这样设计的目的是避免脏数据对筛选结果造成影响。
其中,采用上述方式计算词语之间的相似度准确且计算复杂度低。
优选的,本方法中所述基准词通过筛选的方式获得。其中,通过筛选可以提高基准词的准确度,这样能提高数据的筛选准确率。
本发明还提供了基于编辑距离的中文名词筛选系统,所述系统包括:
构建单元,用于构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;
匹配单元,用于获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;
组合单元,用于将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;
计算单元,用于计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;
筛选单元,用于从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果。
本发明还提供了一种基于编辑距离的中文名词筛选装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于编辑距离的中文名词筛选方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于编辑距离的中文名词筛选方法的步骤。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明能够解决单纯字符匹配准确度低,字符结构差异较大甚至完全不相同造成的无法匹配筛选问题。
本发明能够减少NLP(自然语言处理)文本处理算法词语料的标注、训练工作。
本发明采用数据字典,扩大名词数据筛选的范围,提高数据筛选的准确度。
本发明用每一次筛选的结果优化更新数据字典,使数据字典更加完善,使得后续筛选的准确度更高。
本发明使用编辑距离的计算方式配合数据字典,能在一定程度上规避字符结构差异较大甚至完全不同造成无法匹配筛选的问题。
本发明提供数据字典,初期将匹配、筛选的结果归纳到数据字典中,通过词筛选扩展的方式扩大筛选范围,提高筛选出来的数据样本量,随着数据字典的丰富,筛选的准确率逐步提高。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1为基于编辑距离的中文名词筛选方法的流程示意图;
图2为本方法的主要处理流程示意图;
图3为数据字典中数据存储的结构示意图;
图4为基准词与词引的对应关系示意图;
图5为计算筛选过程示意图;
图6为基准词和候选词与同一个名词数据进行相似度计算结果不同时的示意图一;
图7为基准词和候选词与同一个名词数据进行相似度计算结果不同时的示意图二;
图8为数据字典更新与融合示意图;
图9为基于编辑距离的中文名词筛选系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
实施例一
请参考图1,图1为基于编辑距离的中文名词筛选方法的流程示意图,本发明实施例一提供了一种基于编辑距离的中文名词筛选方法,所述方法包括:
构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;
获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;
将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;
计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;
从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果。
本发明主要的处理流程如图1所示,首先输入基准词,在已经存在的数据字典中去获取候选词,增加筛选的名词,形成新的筛选词组,扩大筛选范围,然后再将需要筛选的数据集和新的筛选词组一起通过编辑距离的计算方式得到两两之间的相似度计算结果,设置筛选阈值,筛选符合条件的结果数据,即中间结果集,最后通过校正的方式,对结果集进行确认得到最后的结果集输出。最终结果集同步更新、优化数据字典,提高后续筛选类似数据集的精准筛选。
本实施例中的方法整个处理流程主要分为五个步骤,如图2所示:
步骤一:选择需要筛选的数据集,去除数据集中的脏数据,确认数据数据集是否正确、可用,避免脏数据对筛选结果造成影响。
步骤二:输入筛选的基准词,以此作为标准来进行筛选比对。基准词的准确度要高,这样才能提高数据的筛选准确率。
步骤三:根据输入的基准词,从数据字典中获取候选词,扩大筛选范围。一个基准词可以对应一个或多个候选词。
数据字典中,数据存储的结构如下图3所示,W1、W2、W3、W4为词引,A1、A2、A3、B1、B2、B3、B4、B5等为相似词。每个词引对应多个相似词,如W1对于相似词A1、A2、A3,W2对于相似词B1、B2、B3、B4、B5,W3对于相似词C1、C2、C3,W4对于相似词D1、D2、D3、D4、D5,在搜索时只需要在数据字典中搜索词引,如搜索词为基准词KK,KK在数据词典中对应的词引是W4,这样就可以快速和准确的获得多个相似词D1、D2、D3、D4、D5。
字典数据,俗称经验数据,存储上以组为单位,一个词组分为词引、相似词组两个部分组成,词引是作为一种特殊的索引,能够快速查询获取相似词,相似词则是候选词。
基准词与词引的匹配策略采用完全相同的方式,只有当基准词A与词引W1完全匹配时,A1、A2、A3作为基准词A的候选词,W1则不纳入候选词。关系如图4所示。
这样一来,原本以基准词A为标准筛选,就变为了以{A、A1、A2、A3}为标准筛选,筛选范围间接扩大。
步骤四:编辑距离计算的是将一个字符串转化为另一个字符串所需的最少操作数,操作主要包括增加字符、修改字符、删除字符这三种。
利用编辑距离的方式,计算基准词、候选词与筛选数据集中每一个名词数据的相似度,设置筛选阈值,过滤出大于阈值的筛选结果。处理关系如下图5所示。
基准词A为标准筛选获得的筛选词组为{A、A1、A2、A3},筛选数据集中的词语为R1-R9以及D1至D5,利用上述计算方式可以获得基准词、候选词与筛选数据集中每一个名词数据的相似度,如A与R7的相似度为0.9,A与R1的相似度为0.6,A1与R1的相似度为0.8,A1与D5的相似度为0.9,A2与R3的相似度为0.7,A3与D6的相似度为0.8,A3与D6的相似度为0.8,A3与D6的相似度为0.8,A3与D6的相似度为0.8,A3与R5的相似度为0.5,A3与R6的相似度为0.6。
筛选的过程中,出现基准词和候选词与同一个名词数据进行相似度计算,相似度不同的情况,最后计算出两组相似度数据,如果这两组数据在阈值过滤时,都通过阈值判断,那么这两组数据将融合为一组筛选结果,如果其中一组被过滤掉了,另一组通过了阈值判断,则以通过的那组数据为结果,同样不影响最后的筛选结果。如果两组都不筛选掉了,那么说明这个名词数据与基准词和候选词均不相似。情况如图6-图7所示。如图6,基准词与名词R1之间的相似度为0.6,候选词A1与R1之间的相似度为0.8,出现了上述情况,如图7,若阈值是0.5,则两者都通过了阈值判断,则这两组数据融合为一组筛选结果,若其中一组被过滤掉,如阈值为0.7时,则通过的那组数据为A1对应的R1,若两组都不通过,如阈值为0.9,则这个名称与基准词和候选词均不相似。
步骤五:对步骤四输出的结果进行校正、确认,生成最终的结果集,具体的校正方式可以是自动校正也可以是人工校正,本发明实施例不进行具体的限定,同时将结果集中的数据与数据字典中的数据进行融合,形成新的词组,达到数据字典的不断优化、更新,提高后续筛选类似数据集的精准筛选,融合过程如下图8所示。
如融合之前查找到的相似结果是基准词A对应B3,A1对应B1,A2对应B2,A3对应B4,在数据字典中原本的词引W1对应的是A1、A2和A3,融合后词引W1则对应A1、A2、A3、B1、B2、B3和B4,实现了数据字典的更新,为后续筛选准确率提升提供了数据保障。
数据字典的词组数据主要来自于每一次筛选的结果,随着筛选次数越来越多,数据字典的词组数据会越来越多,数据字典支持使用者自己添加同义词、近义词等,来辅助提高数据字典的数据准度,这样候选的同类筛选的范围会越来越广,筛选的准确度也会逐步提高。
实施例二
请参考图9,图9为基于编辑距离的中文名词筛选系统的组成示意图,本发明实施例二提供了基于编辑距离的中文名词筛选系统,所述系统包括:
构建单元,用于构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;
匹配单元,用于获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;
组合单元,用于将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;
计算单元,用于计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;
筛选单元,用于从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果。
实施例三
本发明实施例三提供了一种基于编辑距离的中文名词筛选装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于编辑距离的中文名词筛选方法的步骤。
实施例四
本发明实施例四提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于编辑距离的中文名词筛选方法的步骤。
其中,所述处理器可以是中央处理器(CPU,Central Processing Unit),还可以是其他通用处理器、数字信号处理器(digital signal processor)、专用集成电路(Application Specific Integrated Circuit)、现成可编程门阵列(Fieldprogrammablegate array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的数据,实现发明中基于编辑距离的中文名词筛选装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外,存储器可以包括高速随机存取存储器、还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述基于编辑距离的中文名词筛选装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序可存储于一计算机可读存介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码、对象代码形式、可执行文件或某些中间形式等。所述计算机可读取介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存储器、点载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
本发明已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.基于编辑距离的中文名词筛选方法,其特征在于,所述方法包括:
构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;
获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;
将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;
计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;
从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果。
2.根据权利要求1所述的基于编辑距离的中文名词筛选方法,其特征在于,从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果包括:
从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得中间结果集合;
对所述中间结果集合进行校正获得所述筛选结果。
3.根据权利要求1所述的基于编辑距离的中文名词筛选方法,其特征在于,所述方法还包括:基于所述筛选结果对所述数据字典进行更新。
4.根据权利要求3所述的基于编辑距离的中文名词筛选方法,其特征在于,所述基于所述筛选结果对所述数据字典进行更新,具体包括:
获得所述基准词对应的第一词引;
将所述筛选结果中的词语作为相似词语添加到所述第一词引对应的词组中。
5.根据权利要求1所述的基于编辑距离的中文名词筛选方法,其特征在于,所述筛选数据集的获得方式为:选择需要筛选的第一数据集,去除所述第一数据集中的脏数据,获得所述筛选数据集。
7.根据权利要求1所述的基于编辑距离的中文名词筛选方法,其特征在于,本方法中所述基准词通过筛选的方式获得。
8.基于编辑距离的中文名词筛选系统,其特征在于,所述系统包括:
构建单元,用于构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;
匹配单元,用于获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;
组合单元,用于将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;
计算单元,用于计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;
筛选单元,用于从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果。
9.一种基于编辑距离的中文名词筛选装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一个所述基于编辑距离的中文名词筛选方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任意一个所述基于编辑距离的中文名词筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210164405.3A CN114238619B (zh) | 2022-02-23 | 2022-02-23 | 基于编辑距离的中文名词筛选方法及系统及装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210164405.3A CN114238619B (zh) | 2022-02-23 | 2022-02-23 | 基于编辑距离的中文名词筛选方法及系统及装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114238619A true CN114238619A (zh) | 2022-03-25 |
CN114238619B CN114238619B (zh) | 2022-04-29 |
Family
ID=80747746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210164405.3A Active CN114238619B (zh) | 2022-02-23 | 2022-02-23 | 基于编辑距离的中文名词筛选方法及系统及装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238619B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070636A (ja) * | 2002-08-06 | 2004-03-04 | Mitsubishi Electric Corp | 概念検索装置 |
JP2007072786A (ja) * | 2005-09-07 | 2007-03-22 | Casio Comput Co Ltd | 情報表示制御装置および情報表示制御プログラム |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN101763405A (zh) * | 2009-11-16 | 2010-06-30 | 陆嘉恒 | 基于同义词规则的近似字符串搜索技术 |
CN102622338A (zh) * | 2012-02-24 | 2012-08-01 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
CN102929858A (zh) * | 2012-09-25 | 2013-02-13 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
CN108170679A (zh) * | 2017-12-28 | 2018-06-15 | 中国联合网络通信集团有限公司 | 基于计算机可识别自然语言描述的语义匹配方法及系统 |
CN108182200A (zh) * | 2017-11-29 | 2018-06-19 | 有米科技股份有限公司 | 基于语义相似度的关键词拓展方法和装置 |
CN108804550A (zh) * | 2018-05-21 | 2018-11-13 | 北京奇艺世纪科技有限公司 | 一种查询词拓展方法、装置以及电子设备 |
CN109299480A (zh) * | 2018-09-04 | 2019-02-01 | 上海传神翻译服务有限公司 | 基于上下文语境的术语翻译方法及装置 |
CN109902143A (zh) * | 2019-03-04 | 2019-06-18 | 南京邮电大学 | 一种基于密文的多关键字扩展检索方法 |
CN111400584A (zh) * | 2020-03-16 | 2020-07-10 | 南方科技大学 | 联想词的推荐方法、装置、计算机设备和存储介质 |
CN112579646A (zh) * | 2020-12-15 | 2021-03-30 | 中国建设银行股份有限公司 | 筛选清单的方法和装置 |
CN113128209A (zh) * | 2021-04-22 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
-
2022
- 2022-02-23 CN CN202210164405.3A patent/CN114238619B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070636A (ja) * | 2002-08-06 | 2004-03-04 | Mitsubishi Electric Corp | 概念検索装置 |
JP2007072786A (ja) * | 2005-09-07 | 2007-03-22 | Casio Comput Co Ltd | 情報表示制御装置および情報表示制御プログラム |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN101763405A (zh) * | 2009-11-16 | 2010-06-30 | 陆嘉恒 | 基于同义词规则的近似字符串搜索技术 |
CN102622338A (zh) * | 2012-02-24 | 2012-08-01 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
CN102929858A (zh) * | 2012-09-25 | 2013-02-13 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的方法 |
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
CN108182200A (zh) * | 2017-11-29 | 2018-06-19 | 有米科技股份有限公司 | 基于语义相似度的关键词拓展方法和装置 |
CN108170679A (zh) * | 2017-12-28 | 2018-06-15 | 中国联合网络通信集团有限公司 | 基于计算机可识别自然语言描述的语义匹配方法及系统 |
CN108804550A (zh) * | 2018-05-21 | 2018-11-13 | 北京奇艺世纪科技有限公司 | 一种查询词拓展方法、装置以及电子设备 |
CN109299480A (zh) * | 2018-09-04 | 2019-02-01 | 上海传神翻译服务有限公司 | 基于上下文语境的术语翻译方法及装置 |
CN109902143A (zh) * | 2019-03-04 | 2019-06-18 | 南京邮电大学 | 一种基于密文的多关键字扩展检索方法 |
CN111400584A (zh) * | 2020-03-16 | 2020-07-10 | 南方科技大学 | 联想词的推荐方法、装置、计算机设备和存储介质 |
CN112579646A (zh) * | 2020-12-15 | 2021-03-30 | 中国建设银行股份有限公司 | 筛选清单的方法和装置 |
CN113128209A (zh) * | 2021-04-22 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
Non-Patent Citations (4)
Title |
---|
张雷: "基于word2vec和TF-IDF算法实现酒店评论的个性化推送", 《电脑与信息技术》 * |
李严等: "基于语义相似度的关联词柔性簇模型", 《计算机应用研究》 * |
陈正铭等: "编辑距离算法在中文文本相似度计算中的优化与实现", 《韶关学院学报》 * |
陈浩等: "基于向量空间模型的无导词义消歧", 《计算机工程与设计》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114238619B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI664540B (zh) | Search word error correction method and device, and weighted edit distance calculation method and device | |
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
CN108091328B (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
US10115055B2 (en) | Systems methods circuits and associated computer executable code for deep learning based natural language understanding | |
CN107644010B (zh) | 一种文本相似度计算方法及装置 | |
CN112287670A (zh) | 文本纠错方法、系统、计算机设备及可读存储介质 | |
WO2021135444A1 (zh) | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
US7925496B1 (en) | Method for summarizing natural language text | |
CN111104803B (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
CN108874765B (zh) | 词向量处理方法及装置 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
CN110955662A (zh) | 一种维护数据表关联关系的方法、计算设备及存储介质 | |
CN103440865A (zh) | 语音识别的后处理方法 | |
CN115861995A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
JP3794716B2 (ja) | 単語を語形変化させる方法及びその方法を実行するデータ処理装置 | |
CN111046649A (zh) | 一种文本分割方法和装置 | |
CN113468323A (zh) | 争议焦点类别及相似判断方法及系统及装置及推荐方法 | |
CN114238619B (zh) | 基于编辑距离的中文名词筛选方法及系统及装置及介质 | |
CN117271558A (zh) | 语言查询模型构建方法、查询语言获取方法及相关装置 | |
CN112988952B (zh) | 一种多层级长文本向量检索方法、装置和电子设备 | |
CN114330375A (zh) | 一种基于固定范式的术语翻译方法及系统 | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
CN112036183A (zh) | 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |