CN111881250A - 一种数据转化方法及系统 - Google Patents

一种数据转化方法及系统 Download PDF

Info

Publication number
CN111881250A
CN111881250A CN202010712304.6A CN202010712304A CN111881250A CN 111881250 A CN111881250 A CN 111881250A CN 202010712304 A CN202010712304 A CN 202010712304A CN 111881250 A CN111881250 A CN 111881250A
Authority
CN
China
Prior art keywords
data
conversion
converted
score
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010712304.6A
Other languages
English (en)
Inventor
纪培端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dimension Statistics Consulting Co ltd
Original Assignee
Shenzhen Dimension Statistics Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dimension Statistics Consulting Co ltd filed Critical Shenzhen Dimension Statistics Consulting Co ltd
Priority to CN202010712304.6A priority Critical patent/CN111881250A/zh
Publication of CN111881250A publication Critical patent/CN111881250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种数据转化方法及系统,涉及计算机技术领域。一种数据转化方法包括:获取待转化数据和文本数据转化库,将待转化数据进行拆分得到拆分后的待转化数据,将拆分后的待转化数据与文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果,根据转化结果创建索引库,将文本描述保存至索引库中,根据初始转化结果中的不同词语准确程度计算词语匹配得分,并根据初始转化结果中的不同词语关联程度计算关联度得分,根据词语匹配得分与关联度得分计算最终转化评分,根据最终转化评分得到并输出待转化数据的最终转化结果;其能够提高转换效率降低文本数据转换时工作量大且转换效率低的现象。此外本发明还提出了一种数据转化系统。

Description

一种数据转化方法及系统
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据转化方法及系统。
背景技术
随着计算机技术的发展,用户越来越多的行为可以通过计算机来实现,如为用户建立对应的文本档案,从而记录用户行为。
传统地,由于记录的用户行为可能会采用不同的名称进行记录,所以在建立文本档案时,会将用户行为中的数据人工转化为通用的数据,这样工作量大且转换效率低。
后台在实现对应列转化为文本的对应关键词(key)时,基本上都是开发人员自己定义,所有的模板实现基本上千篇一律,尤其在模板列比较多的情况下,定义key是很耗时的事情,而且操作繁琐。
发明内容
本发明的目的在于提供一种数据转化方法,其能够提高转换效率降低文本数据转换时工作量大且转换效率低的现象。
本发明的另一目的在于提供一种数据转化系统,其能够运行一种数据转化方法。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种数据转化方法,其包括获取待转化数据和文本数据转化库,将待转化数据进行拆分得到拆分后的待转化数据,将拆分后的待转化数据与文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果,根据转化结果创建索引库,将文本描述保存至索引库中,根据初始转化结果中的不同词语准确程度计算词语匹配得分,并根据初始转化结果中的不同词语关联程度计算关联度得分,根据词语匹配得分与关联度得分计算最终转化评分,根据最终转化评分得到并输出待转化数据的最终转化结果。
在本发明的一些实施例中,上述将拆分后的待转化数据与文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果包括获取待转化数据所对应的转化范围,从文本数据转化库中获取转化范围中所包含的详细数据作为待匹配数据,将拆分后的待转化数据与待匹配数据进行匹配得到初始转化结果。
在本发明的一些实施例中,上述根据初始转化结果中的不同词语准确程度计算词语匹配得分包括查询初始转化结果中的词语所对应的第一得分,查询初始转化结果中的词语所对应的匹配范围的第二得分,根据第一得分与第二得分得到初始转化结果的词语匹配得分。
在本发明的一些实施例中,上述根据初始转化结果中的不同词语关联程度计算关联度得分包括,提取初始转化结果中包含的词语,计算不同的词语之间的关联度作为关联度得分。
在本发明的一些实施例中,上述将待转化数据进行拆分得到拆分后的待转化数据包括获取待转化数据的分词逻辑,并根据分词逻辑对待转化数据进行拆分得到分词序列,计算分词序列所对应的拆分正确率,获取与拆分正确率最大的分词序列作为拆分后的待转化数据。
在本发明的一些实施例中,上述根据最终转化评分得到并输出待转化数据的最终转化结果之后,包括获取标准转化评分范围,判断最终转化结果所对应的最终转化评分是否在标准评分范围内,当最终转化结果所对应的最终转化评分未在标准转化评分范围时,则获取更新文本数据转化库的更新指令,根据更新指令对文本数据转化库进行更新。
在本发明的一些实施例中,上述根据转化结果创建索引库,将文本描述保存至索引库中包括借助slor搜索引擎产生索引文件,索引文件存储在slor中,存储文本描述的对应关系。
在本发明的一些实施例中,上述还包括将自动生成转化的文件存储,将转化的过程也写入预设格式的文件,以提供文件下载功能。
第二方面,本申请实施例提供一种数据转化系统,其包括获取模块,用于获取待转化数据和文本数据转化库,转化模块,用于将待转化数据进行拆分得到拆分后的待转化数据,第一匹配模块,用于将拆分后的待转化数据与文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果,存储模块,用于根据转化结果创建索引库,将文本描述保存至索引库中,第二匹配模块,用于根据初始转化结果中的不同词语准确程度计算词语匹配得分,并根据初始转化结果中的不同词语关联程度计算关联度得分,评分模块,用于根据词语匹配得分与关联度得分计算最终转化评分,输出模块,用于根据最终转化评分得到并输出待转化数据的最终转化结果。
在本发明的一些实施例中,上述还包括用于存储计算机指令的至少一个存储器,与存储器通讯的至少一个处理器,其中当至少一个处理器执行计算机指令时,至少一个处理器使系统执行:获取模块、转化模块、第一匹配模块、存储模块、第二匹配模块、评分模块和输出模块。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
当有待转化数据时,无需人工对待转化数据进行分析,可以直接获取到待转化数据与文本数据转化库,从而对待转化数据进行拆分得到拆分后的待转化数据,将拆分后的待转化数据与文本数据库中包含的待匹配数据进行匹配得到初始转化结果,进而根据初始转化结果中的不同词语匹配程度计算词语匹配得分,并根据初始转化结果中的不同词语关联程度计算关联度得分,进而根据词语匹配得分与关联度得分计算最终转化评分,从而根据最终转化评分得到并输出待转化数据的最终转化结果,使得转化效率提高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种数据转化方法步骤示意图;
图2为本发明实施例提供的一种数据转化方法详细步骤示意图;
图3为本发明实施例提供的一种数据转化系统模块示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
实施例1
请参阅图1,图1为本发明实施例提供的一种数据转化方法步骤示意图,其包括:
步骤S100,获取待转化数据和文本数据转化库;
在一些实施方式中,待转化数据是指需要转化为预设的通用文本数据的相关数据,从而根据转化完成的数据,可以进行相应的数据分析与存储的操作,如可以根据转化完成的数据建立相应的文本数据库,其中文本数据库是指存储有用户的相关行为的记录日志,可以是用户对应的习惯行为数据,与喜好数据对应的特征信息等,还可以根据转化完成的数据获取到全面的处理方式等。文本数据转化库是指建立完成的存储有不同的文本数据的数据库,文本数据可以是组织结构,文本数据可以是参数数据,文本数据可以是算法数据等,且文本数据转化库可以包含有不同的数据层级,可以是包含有基表数据以及对应的详细数据,通过基表数据与详细数据形成相应的语义树,通过该基表数据以及详细数据,可以对待转化数据进行转化,其中,基表数据为语义树中的第一级数据,也即为基础数据,基表数据有对应存在的详细数据,不同的详细数据为第二级数据,也即是对基表数据进行进一步细化的数据。具体地,转化平台获取到待转化数据,进而从服务器获取到预存的文本数据转化库。
步骤S110,将所述待转化数据进行拆分得到拆分后的待转化数据;
具体的,当获取到待转化数据时,则获取待转化数据所对应的分词逻辑,根据获取到的分词逻辑,进而根据分词逻辑将待转化数据进行拆分,当对待转化数据进行拆分得到不同的拆分后的待转化数据时,则查询不同的拆分后的待转化数据所对应的得分,将得分最高的拆分后的待转化数据作为最终的拆分后的待转化数据。
在一些实施方式中,得到的待转化数据为“分析常见SQL语句”,则获取该待转化数据所对应的分词逻辑,从而进行拆分,得到的拆分后的待转化数据为“分析”“常见”“SQL语句”。或者是,得到不同的两个拆分后的待转化数据,如得到第一拆分后的待转化数据为“分析”“常见”“SQL语句”,得到第二拆分后的待转化数据为“分析”“常见”“SQL”“语句”,从而分别计算第一拆分后的待转化数据的得分与第二拆分后的待转化数据的得分,当得到第一拆分后的待转化数据的得分高于第二拆分后的待转化数据的得分,则将“分析”“常见”“SQL语句”作为拆分后的待转化数据
步骤S120,将所述拆分后的待转化数据与所述文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果;
具体的,根据分词逻辑将待转化数据进行拆分后得到拆分后的待转化数据,且拆分后的待转化数据中包含有不同的词语,则将拆分后的待转化数据与文本数据中包含的待匹配数据进行匹配,也即可以是将拆分后的待转化数据中包含的不同的词语分别与待匹配数据进行匹配,当匹配成功时,则将匹配成功的待匹配数据作为初始转化结果,其中,对拆分后的待转化数据中包含的词语与文本数据转化库中的待匹配数据的匹配,可以是采用字符匹配的方式。
在一些实施方式中,拆分后的待转化数据中包含的词语的字符与待匹配数据的字符完全一致时,则匹配成功;也可以是查询与匹配到的字符所关联的字符的方式进行匹配。例如,转化平台得到拆分后的待转化数据为“分析”“常见”“SQL语句”,从而将拆分后的待转化数据与文本数据转化库中存储的待匹配数据逐一匹配,从而得到相应的匹配结果可以是“解析”“常规”“SQL语句”,进而采用匹配到的字符相关联的字符,匹配结果可以是“分析”“一般”“SQL”,也即是将拆分后的待转化数据中包含的不同的词语分别与文本数据转化库中包含的待匹配数据进行匹配,可以是进行字符匹配,也可以是查询到匹配成功的字符所关联的字符的方式进行匹配。
步骤S130,根据转化结果创建索引库,将文本描述保存至所述索引库中;
具体的,根据转化后的数据创建对应的索引库,并将转化后的数据保存至对应的索引库中。
在一些实施方式中,将每列汉字及其对应的文本描述保存至所述索引库中,以便后续快速获取,并经过不断的积累产生比较完整的文本数据库。所述索引库存储的是汉字和文本描述的对应关系,借助slor搜索引擎产生索引文件,所述索引文件存储在slor中。也可以是所述索引库存储的是英文和文本描述的对应关系,借助slor搜索引擎产生索引文件,所述索引文件存储在slor中。使用slor的start和rows两个属性,相当于当haystack接到搜索请求时,只向slor搜索10条数据,这样当数据量非常大的时候,就可以提高搜索的速度了。
步骤S140,根据所述初始转化结果中的不同词语准确程度计算词语匹配得分,并根据所述初始转化结果中的不同词语关联程度计算关联度得分;
具体的,词语匹配得分是指按照拆分后的待转化数据包含的词语中的字符与文本数据转化库中存储的待匹配数据进行匹配时匹配到的不同词语的得分,且得分越高,则匹配程度越高,也即得分越高则初始转化结果中的词语的准确度越高。
在一些实施方式中,词语匹配得分为拆分后的待转化数据包含的词语中的字符与文本数据转化库中包含的字符是否匹配正确的得分标准,从而得到初始转化结果中的不同词语的准确度。关联度得分是指拆分后的待转化数据中包含的词语是否相互关联的得分,是否关联可以为语义是否关联等,且得分越高则相互关联的程度越高。获取到初始转化结果时,查询拆分后的待转化数据与待匹配数据进行匹配时,得到的包含在初始转化结果中不同词语的得分作为词语匹配得分,进而查询到初始转化结果中包含的不同词语之间的相互关联程度,也即是否关联的得分,作为关联度得分
步骤S150,根据所述词语匹配得分与所述关联度得分计算最终转化评分;
具体的,最终转化评分是指将待转化数据进行转化得到相应的数据的评分,且该评分越高,则得到的相应的数据为待转化数据所对应的转化结果的可靠性越高。
在一些实施方式中,根据得到的词语匹配得分与关联度得分,计算最终转化评分,可以是将词语匹配得分与关联度得分求和,从而得到最终转化评分。还可以是,词语匹配得分对应有词语匹配得分权重,关联度得分对应有关联度得分权重,进而计算词语匹配得分与词语匹配得分权重的第一乘积,计算关联度得分与关联度得分权重的第二乘积,计算第一乘积与第二乘积的和得到最终转化评分。
步骤S160,根据所述最终转化评分得到并输出所述待转化数据的最终转化结果。
具体的,得到最终转化评分时,则得到不同的初始转化结果的不同的得分,根据得到的最终转化评分,得到待转化数据所对应的最终转化结果。
在一些实施方式中,得到不同的最终转化评分时,则将最终转化评分最高的初始转化结果作为最终转化结果,并将最终转化结果输出,也可以是,获取到标准最终转化评分,将得到的不同最终转化评分与标准最终转化评分进行比较,当超过标准最终转化评分的所有初始转化结果均作为最终转化结果,并将最终转化结果输出。
实施例2
请参阅图2,图2为本发明实施例提供的一种数据转化方法详细步骤示意图,其包括:
步骤S201,获取待转化数据和文本数据转化库;
具体的,待转化数据是指需要转化为预设的通用文本数据的相关数据,从而根据转化完成的数据,可以进行相应的数据分析与存储的操作。可参照步骤S100的相关描述,这里不再赘述。
步骤S202,获取所述待转化数据的分词逻辑,并根据所述分词逻辑对所述待转化数据进行拆分得到分词序列;
在一些实施方式中,分词序列是一个比较广泛的任务,包括分词,词性标注,命名实体识别,关系抽取等等,也可以用来做抽取式Q&A,直接在文章中标注出答案,例如,可以用jieba、LTP、Hanlp、StandfordCoreNlp、CRF分词算法等。分词逻辑是将待转化数据拆分成数个标准术语,该标准术语是指具有独立语义的术语,其不受其之后或之前的文字的影响,仅通过术语内容的文字即可以确定完整的专业概念。
步骤S203,计算所述分词序列所对应的拆分正确率;
具体的,拆分正确率是指经过将待转化数据进行拆分得到的候选字段的正确程度,也即将待转化数据进行拆分得到的不同的标准术语的正确程度,当拆分正确率越高则表示将待转化数据进行拆分得到的候选字段正确率越高。
步骤S204,获取与所述拆分正确率最大的所述分词序列作为所述拆分后的待转化数据;
具体的,计算拆分正确率可以是当获取到不同的分词序列时,则获取预设的每个分词序列中的不同的分词词组的正确率,进而计算不同的分词词组的正确率乘积,从而得出每一个分词序列对应的拆分正确率。
在一些实施方式中,待转化数据为“分析常见SQL语句”,进而获取不同的分词逻辑,根据不同的分词逻辑,将获取到的待拆分数据拆分为不同的分词序列,可以拆分为第一分词序列“分析”、“常见”和“SQL语句”,拆分的第二分词序列为“分析”“常见”“SQL”语句”,进而获取第一分词序列中的不同的分词词组的正确率,如获取到“分析”的正确率为0.99,“常见”的正确率为0.99,“SQL语句”的正确率为0.99,获取第二分词序列中不同的分词词组的正确率,如获取“SQL”的正确率为0.5,“语句”的正确率为0.5,“分析”的正确率为0.99,“常见”的正确率为0.99,将正确率最大的所述分词序列作为所述拆分后的待转化数据。
步骤S205,获取所述待转化数据所对应的转化范围;
具体的,先获取待转化数据所对应的转化范围,从而在转化之前则规定转化范围,从而提高转化效率。
步骤S206,从所述文本数据转化库中获取所述转化范围中所包含的详细数据作为待匹配数据;
具体的,根据转化范围,查询文本数据转化库中包含的详细数据,从而对待转化数据进行转化,保证得到的最终转化数据准确。
步骤S207,将所述拆分后的待转化数据与待匹配数据进行匹配得到初始转化结果;
具体的,根据基表数据作为转化范围,则将作为转化范围的基表数据与存储在文本数据转化库中的基表数据进行匹配,当匹配成功时,则获取到匹配成功的存储在文本数据转化库中存储的基表数据所关联的详细数据,将详细数据作为待匹配数据,从而将拆分后的待转化数据逐一与待匹配数据进行匹配,从而得到初始转化结果。
步骤S208,借助slor搜索引擎产生索引文件,所述索引文件存储在slor中,存储所述文本描述的对应关系;
在一些实施方式中,索引库存储的可以是汉字和英文描述的对应关系,借助slor搜索引擎产生索引文件,所述索引文件存储在slor中。因为用户的不同需求,所述索引库中存储的数据会越来越多。后续再自动生成每列汉字对应的英文描述时,可以先从该索引库中查询是否已有记录,若有记录的可以直接使用所记录的英文描述,不需要翻译,若没有记录的再重新翻译。
步骤S209,将自动生成转化的文件存储,将转化的过程也写入预设格式的文件,以提供文件下载功能;
在一些实施方式中,当确认反馈的结果并进行存储后,同时生成一个DTO。DTO为java语言中的一个实体类,DTO中定义了所述文档中所有列的英文描述,自动通过注解在DTO上绑定汉字和英文的关系,并且所述英文描述的每个字段在DTO中都有中文注释说明。生成DTO方式很多,JDK本身就提供生成的工具类和方法,本实施例中可以根据确认后反馈的结果,采用现有的生成DTO的技术得到对应的所述DTO。
步骤S210,根据所述初始转化结果中的不同词语准确程度计算词语匹配得分;
具体的,根据初始转化结果中的不同词语准确程度计算词语匹配得分。
在一些实施方式中,查询初始转化结果中的词语所对应的第一得分。查询初始转化结果中的词语所对应的匹配范围的第二得分。根据第一得分与第二得分得到初始转化结果的词语匹配得分。
步骤S211,提取所述初始转化结果中包含的词语;
具体的,提取初始转化结果中包含的不同的词语,分别查询每个词语分别与初始转化结果中包含顺序相连的其他的词语的预设关联度,从而将得到的关联度作为关联度得分。例如,提取初始转化结果中包含的不同的词语为三个,且三个词语为顺序相连,则查询第一个词语与第二词语之间的预设的第一关联度,进而查询第二个词语与第三个词语的预设的第二关联度,从而将第一关联度与第二关联度求和计算得到最终关联度作为关联度得分。
步骤S212,计算不同的所述词语之间的关联度作为关联度得分;
具体的,并根据初始转化结果中的不同词语关联程度计算关联度得分,根据词语匹配得分与关联度得分计算最终转化评分。
步骤S213,根据所述词语匹配得分与所述关联度得分计算最终转化评分;
步骤S214,获取标准转化评分范围;
具体的,标准转化评分范围是指最终转化结果所对应的最终转化评分的标准值范围,也即当得到的最终转化结果所对应的最终转化评分在标准转化评分范围时,则该最终转化结果为可以采用的最终转化结果。
步骤S215,判断所述最终转化结果所对应的所述最终转化评分是否在所述标准评分范围内;
具体的,转化平台得到最终转化结果时,虽然最终转化结果所对应的最终转化评分为相对较高的结果,但仍未在标准转化评分范围内,从而该最终转化结果是由于文本数据转化库仍未旧版本从而得到的匹配结果,则需要对文本数据转化库进行更新,获取预存储的标准转化评分范围,进而查询最终转化结果所对应的最终转化评分。
步骤S216,当所述最终转化结果所对应的所述最终转化评分未在所述标准转化评分范围时,则获取更新所述文本数据转化库的更新指令;
在一些实施方式中,判断最终转化评分是否在标准转化评分范围中,当最终转化评分未在标准转化评分范围中,则得到该最终转化结果的文本数据转化库中包含的信息可能不齐全,无法匹配得到相对较准确的转化结果,则显示相应的提示信息,将该最终转化评分未在标准转化评分范围的最终转化结果以及是否对文本数据转化库进行更新的提示信息进行显示,用户根据显示的提示信息,可以输入相应的更新信息,其中该更新信息可以是增加文本数据转化库中的数据,如输入将准确数据添加至文本数据转化库中的添加信息。
步骤S217,根据所述更新指令对所述文本数据转化库进行更新;
具体的,根据用户进行的输入,生成更新指令,对文本数据转化库进行更新。
实施例3
请参阅图3,图3为本申请实施例提供的的一种数据转化系统模块示意图,其包括获取模块,用于获取待转化数据和文本数据转化库,转化模块,用于将待转化数据进行拆分得到拆分后的待转化数据,第一匹配模块,用于将拆分后的待转化数据与文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果,存储模块,用于根据转化结果创建索引库,将文本描述保存至索引库中,第二匹配模块,用于根据初始转化结果中的不同词语准确程度计算词语匹配得分,并根据初始转化结果中的不同词语关联程度计算关联度得分,评分模块,用于根据词语匹配得分与关联度得分计算最终转化评分,输出模块,用于根据最终转化评分得到并输出待转化数据的最终转化结果
还包括存储器、处理器和通信接口,该存储器、处理器和通信接口相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器可用于存储软件程序及模块,处理器通过执行存储在存储器内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口可用于与其他节点设备进行信令或数据的通信。
其中,存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
图3中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请实施例提供的一种数据转化方法及系统,当有待转化数据时,无需人工对待转化数据进行分析,可以直接获取到待转化数据与文本数据转化库,从而对待转化数据进行拆分得到拆分后的待转化数据,将拆分后的待转化数据与文本数据库中包含的待匹配数据进行匹配得到初始转化结果,进而根据初始转化结果中的不同词语匹配程度计算词语匹配得分,并根据初始转化结果中的不同词语关联程度计算关联度得分,进而根据词语匹配得分与关联度得分计算最终转化评分,从而根据最终转化评分得到并输出待转化数据的最终转化结果,使得转化效率提高。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种数据转化方法,其特征在于,包括如下步骤:
获取待转化数据和文本数据转化库;
将所述待转化数据进行拆分得到拆分后的待转化数据;
将所述拆分后的待转化数据与所述文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果;
根据转化结果创建索引库,将文本描述保存至所述索引库中;
根据所述初始转化结果中的不同词语准确程度计算词语匹配得分,并根据所述初始转化结果中的不同词语关联程度计算关联度得分;
根据所述词语匹配得分与所述关联度得分计算最终转化评分;
根据所述最终转化评分得到并输出所述待转化数据的最终转化结果。
2.如权利要求1所述的一种数据转化方法,其特征在于,所述将所述拆分后的待转化数据与所述文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果包括:
获取所述待转化数据所对应的转化范围;
从所述文本数据转化库中获取所述转化范围中所包含的详细数据作为待匹配数据;
将所述拆分后的待转化数据与待匹配数据进行匹配得到初始转化结果。
3.如权利要求1所述的一种数据转化方法,其特征在于,所述根据所述初始转化结果中的不同词语准确程度计算词语匹配得分包括:
查询所述初始转化结果中的词语所对应的第一得分;
查询所述初始转化结果中的词语所对应的匹配范围的第二得分;
根据所述第一得分与所述第二得分得到所述初始转化结果的词语匹配得分。
4.如权利要求1所述的一种数据转化方法,其特征在于,所述根据所述初始转化结果中的不同词语关联程度计算关联度得分包括:
提取所述初始转化结果中包含的词语;
计算不同的所述词语之间的关联度作为关联度得分。
5.如权利要求1所述的一种数据转化方法,其特征在于,所述将所述待转化数据进行拆分得到拆分后的待转化数据包括:
获取所述待转化数据的分词逻辑,并根据所述分词逻辑对所述待转化数据进行拆分得到分词序列;
计算所述分词序列所对应的拆分正确率;
获取与所述拆分正确率最大的所述分词序列作为所述拆分后的待转化数据。
6.如权利要求1所述的一种数据转化方法,其特征在于,所述根据所述最终转化评分得到并输出所述待转化数据的最终转化结果之后,包括:
获取标准转化评分范围;
判断所述最终转化结果所对应的所述最终转化评分是否在所述标准评分范围内;
当所述最终转化结果所对应的所述最终转化评分未在所述标准转化评分范围时,则获取更新所述文本数据转化库的更新指令;
根据所述更新指令对所述文本数据转化库进行更新。
7.如权利要求1所述的一种数据转化方法,其特征在于,所述根据转化结果创建索引库,将文本描述保存至所述索引库中包括:
借助slor搜索引擎产生索引文件,所述索引文件存储在slor中,存储所述文本描述的对应关系。
8.如权利要求7所述的一种数据转化方法,其特征在于,还包括:
将自动生成转化的文件存储,将转化的过程也写入预设格式的文件,以提供文件下载功能。
9.一种数据转化系统,其特征在于,包括:
获取模块,用于获取待转化数据和文本数据转化库;
转化模块,用于将所述待转化数据进行拆分得到拆分后的待转化数据;
第一匹配模块,用于将所述拆分后的待转化数据与所述文本数据转化库中包含的待匹配数据进行匹配得到初始转化结果;
存储模块,用于根据转化结果创建索引库,将文本描述保存至所述索引库中;
第二匹配模块,用于根据所述初始转化结果中的不同词语准确程度计算词语匹配得分,并根据所述初始转化结果中的不同词语关联程度计算关联度得分;
评分模块,用于根据所述词语匹配得分与所述关联度得分计算最终转化评分;
输出模块,用于根据所述最终转化评分得到并输出所述待转化数据的最终转化结果。
10.如权利要求9所述的一种数据转化系统,其特征在于,还包括:
用于存储计算机指令的至少一个存储器;
与所述存储器通讯的至少一个处理器,其中当所述至少一个处理器执行所述计算机指令时,所述至少一个处理器使所述系统执行:获取模块、转化模块、第一匹配模块、存储模块、第二匹配模块、评分模块和输出模块。
CN202010712304.6A 2020-07-22 2020-07-22 一种数据转化方法及系统 Pending CN111881250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010712304.6A CN111881250A (zh) 2020-07-22 2020-07-22 一种数据转化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010712304.6A CN111881250A (zh) 2020-07-22 2020-07-22 一种数据转化方法及系统

Publications (1)

Publication Number Publication Date
CN111881250A true CN111881250A (zh) 2020-11-03

Family

ID=73155337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010712304.6A Pending CN111881250A (zh) 2020-07-22 2020-07-22 一种数据转化方法及系统

Country Status (1)

Country Link
CN (1) CN111881250A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192258A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN110532526A (zh) * 2019-07-23 2019-12-03 平安科技(深圳)有限公司 数据转化方法、电子装置及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192258A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN110532526A (zh) * 2019-07-23 2019-12-03 平安科技(深圳)有限公司 数据转化方法、电子装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108319627B (zh) 关键词提取方法以及关键词提取装置
US11210468B2 (en) System and method for comparing plurality of documents
CN117056471A (zh) 知识库构建方法及基于生成式大语言模型的问答对话方法和系统
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
EP3016002A1 (en) Non-factoid question-and-answer system and method
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
EP3077918A1 (en) Systems and methods for in-memory database search
JP2007141090A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20090112845A1 (en) System and method for language sensitive contextual searching
JP2015138351A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN113761162B (zh) 一种基于上下文感知的代码搜索方法
CN111401034A (zh) 文本的语义分析方法、语义分析装置及终端
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
CN112732743A (zh) 一种基于中文自然语言的数据分析方法及装置
CN112231513A (zh) 一种学习视频推荐方法、装置及系统
CN116467340A (zh) 数据表的检索方法、装置、存储介质及电子设备
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
CN111881250A (zh) 一种数据转化方法及系统
CN114676155A (zh) 代码提示信息的确定方法、数据集的确定方法及电子设备
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
CN113806491A (zh) 一种信息处理的方法、装置、设备和介质
Islam et al. SoCeR: A new source code recommendation technique for code reuse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201103