CN116910278A - 数据字典的生成方法、终端设备和存储介质 - Google Patents
数据字典的生成方法、终端设备和存储介质 Download PDFInfo
- Publication number
- CN116910278A CN116910278A CN202311183334.2A CN202311183334A CN116910278A CN 116910278 A CN116910278 A CN 116910278A CN 202311183334 A CN202311183334 A CN 202311183334A CN 116910278 A CN116910278 A CN 116910278A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- word
- data dictionary
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000011218 segmentation Effects 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 48
- 230000018109 developmental process Effects 0.000 claims description 43
- 238000011161 development Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 abstract description 12
- 238000004891 communication Methods 0.000 description 6
- 230000009193 crawling Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种数据字典的生成方法、终端设备和存储介质,属于数据处理技术领域,其中,所述一种数据字典的生成方法包括:根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料;对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据;根据所述单词库中的单词以及所述字段数据,构建数据字典表。在生成数据字典表时,通过自动对目标系统关联的非结构化数据进行处理,获取待分类的单词,根据预设的数据字典字段库中的字段数据和单词,自动构建数据字典表,而无需人工参与数据字典表的构建,从而提高数据字典表的准确率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据字典的生成方法、终端设备和存储介质。
背景技术
数据字典用于定义和描述数据的数据项、数据结构、数据流、数据存储、处理逻辑等内容,其目的是对数据流图中的各个元素作出详细的说明,是描述数据的信息集合。在软件开发过程中,数据字典是非常重要的工具。它为开发人员提供了数据的定义和属性信息,可以帮助开发人员更好地理解数据的结构和含义,并为数据的存储和处理提供了规范和指导。同时,数据字典也可以作为开发文档的一部分,方便团队成员之间的沟通和协作。
在相关的数据字典生成方案中,在接收到用户端的数据字典生成请求时,通过专业的技术人员根据开发项目的应用场景,设置数据字典的字段,且在对样本数据分词后获得单词,通过人工对单词进行分类,作为字段对应的字典值,从而生成数据字典表。然而,采用人工生成数据字典的方式,对技术人员的专业要求高,且存在较强的主观意识,容易造成单词分类不准确,导致生成的数据字典准确性低的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明实施例通过提供一种数据字典的生成方法、终端设备和计算机可读存储介质,旨在解决生成的数据字典的准确率低的技术问题。
为实现上述目的,本发明实施例提供一种数据字典的生成方法,所述数据字典的生成方法包括以下:
根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料;
对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据;
根据所述单词库中的单词以及所述字段数据,构建数据字典表。
可选地,所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤,包括:
将所述单词的词性与所述字段数据中各个字段的词性进行匹配,确定所述单词所属的待选字段;
根据所述单词的词意,从所述待选字段中,确定所述单词对应的目标字段;
将所述单词作为所述目标字段的字典值,构建所述数据字典表。
可选地,所述将所述单词的词性与所述字段数据中各个字段的词性进行匹配,确定所述单词所属的待选字段的步骤之前,还包括:
对所述单词库中的单词做词性分类处理,确定所述单词对应的词性,以及对所述数据字典字段库中的所述字段数据做词性分类处理,确定所述字段数据对应的词性。
可选地,所述根据所述单词的词意,从所述待选字段中,确定所述单词对应的目标字段的步骤,还包括:
在所述单词对应的目标字段的数量大于预设数值时,确定所述单词在所述文本语料中的位置;
获取所述文本语料中的所述位置对应的句子,并提取所述句子的上下文信息以及所述单词在所述文本语料中出现的频率,其中,所述句子包括所述单词;
根据所述上下文信息和所述频率,确定所述单词对应的选定字段;
将所述单词作为所述选定字段的字典值;或者,
在所述单词对应的目标字段大于预设数值时,接收基于所述单词选定的选定字段,并将所述单词作为所述选定字段的字典值。
可选地,所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤,包括:
接收待开发项目的功能需求文档,根据所述功能需求文档,确定所述待开发项目的各个功能模块;
确定包含各个所述功能模块的历史开发项目;
获取所述历史开发项目的历史开发信息,并将所述历史开发信息与所述目标系统关联,其中,所述历史开发信息包括所述文本数据、音频数据和图片数据中的至少一个;
执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
可选地,所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤之后,包括:
获取所述数据字典表中,各个字段的使用频率;
在所述字段的使用频率小于预设频率时,将所述字段以及所述字段对应的字典值从所述数据字典表中删除。
可选地,所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤之后,包括:
获取所述目标系统的日志信息,根据所述日志信息,确定目标系统关联的所述文本数据、音频数据和图片数据中的至少一个是否发生变更;
在所述目标系统关联的所述文本数据、音频数据和图片数据中的至少一个发生变更时,继续执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
可选地,所述对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据的步骤之前,包括:
接收用户自定义的所述字段数据,根据所述字段数据构建所述数据字典字段库。
此外,本发明为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据字典的生成程序,所述数据字典的生成程序被所述处理器执行时实现如上所述的数据字典的生成方法的步骤。
此外,本发明为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据字典的生成程序,所述数据字典的生成程序被处理器执行时实现如上所述的数据字典的生成方法的步骤。
本发明一实施例提出的一种数据字典的生成方法,终端设备和计算机可读存储介质,通过根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料,然后对文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据,然后根据单词库中的单词以及字段数据,构建数据字典表。在生成数据字典表时,通过自动对目标系统关联的非结构化数据进行处理,获取待分类的单词,根据预设的数据字典字段库中的字段数据和单词,自动构建数据字典表,而无需人工参与数据字典表的构建,从而提高数据字典表的准确率。
附图说明
图1为本发明数据字典的生成方法的一实施例的流程示意图;
图2为本发明数据字典的生成方法的第二实施例中步骤S30的细化流程示意图;
图3为本发明涉及的数据字典表的构建流程图;
图4为本发明数据字典的生成方法的第三实施例中步骤S10的细化流程示意图;
图5为本发明数据字典的生成方法的第四实施例中步骤S30的另一细化流程图;
图6为本发明数据字典的生成方法的第五实施例中步骤S32的细化流程示意图;
图7是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于在相关的数据字典生成方案中,在接收到用户端的数据字典生成请求时,通过专业的技术人员根据开发项目的应用场景,设置数据字典的字段,且在对样本数据分词后获得单词,通过人工对单词进行分类,作为字段对应的字典值,从而生成数据字典表。然而,采用人工生成数据字典的方式,对技术人员的专业要求高,且存在较强的主观意识,容易造成单词分类不准确,导致生成的数据字典准确性低的技术问题。
为解决相关技术中的上述缺陷,本发明提出一种数据字典的生成方法,其主要解决步骤包括以下:
通过根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料,然后对文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据,然后根据单词库中的单词以及字段数据,构建数据字典表。在生成数据字典表时,通过自动对目标系统关联的非结构化数据进行处理,获取待分类的单词,根据预设的数据字典字段库中的字段数据和单词,自动构建数据字典表,而无需人工参与数据字典表的构建,从而提高数据字典表的准确率。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整地传达给本领域的技术人员。
参照图1,在本发明数据字典的生成方法的一实施例中,所述一种数据字典的生成方法包括以下步骤:
步骤S10:根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料;
在本实施例中,执行主体为终端,所述终端可以为手机、电脑以及服务器等用于构建数据字典表的终端设备。所述目标系统配置在所述终端,用于构建数据字典表。所述文本数据、音频数据和图片数据均为非结构化数据。可通过预先确定生成的数据字典表对应的应用场景,从而通过网络爬取工具,从与该应用场景匹配的软件程序上,例如网页、论坛或者网站,爬取所述文本数据、音频数据和图片数据中的至少一个,爬取得到后,将所述文本数据、音频数据和图片数据与目标系统进行关联,以使终端将所述文本数据、音频数据和图片数据中的至少一个转换成标准化的纯文本,从而生成文本语料。
需要说明的是,本发明可自动识别所述文本数据、音频数据和图片数据对应的数据格式,通过调用对应的文本转换工具,对所述文本数据、音频数据和图片数据进行转换,从而生成文本语料。可通过获取所述文本数据、音频数据和图片数据对应的文件扩展名,根据文件扩展名识别出对应的数据格式,本实施例对此不做具体限定。
可选地,可通过判断软件程序的功能和应用领域,是否与生成的数据字典表对应的应用场景一致,若与生成的数据字典表对应的应用场景一致,则判定所述软件程序与应用场景匹配,本实施例对此不做具体限定。
可选地,本发明还可接收用户主动导入的所述文本数据、音频数据和图片数据中的至少一个,在接收到后,将其与目标系统进行关联,以使终端将所述文本数据、音频数据和图片数据中的至少一个转换成标准化的纯文本,从而生成文本语料。
可以理解的是,所述文本数据、音频数据和图片数据可同时通过多种途径进行获取,本实施例对此不做具体限定。例如可一边采用网络爬取工具爬取,一边接收用户的主动导入,同时将爬取到的数据和用户导入的数据进行转换,生成文本语料,致使生成的文本语料内容丰富,使得最终构建的数据字典表内容丰富,满足用户的使用需求。
步骤S20:对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据;
在本实施例中,通过采用预设的分词工具对文本语料进行分词处理,将文本语料划分为词或子词,从而获得所述分词处理结果,进而将分词处理结果存储生成单词库。数据字典字段库的字段数据为用户预先设置。可通过接收用户自定义的字段数据,根据字段数据构建所述数据字典字段库。本实施例对此不做具体限定。
例如,如文本语料是一句话“计划男性退休年龄为60岁,女性退休年龄为55岁”,进行分词处理所获得的分词处理结果为“计划、男性、退休、年龄、女性、为”。
可选地,可采用HanLP(Han Natural Language Processing,汉语言处理包)对文本语料进行分词处理,HanLP提供了多种分词模型,例如基于规则的模型、基于神经网络的模型。可根据文本语料所属的应用领域选择对应的分词模型进行分词处理,以使获得的分词处理结果准确率高。
可选地,所述对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据的步骤,还包括:对所述文本语料作分词处理,获得所述分词处理结果后,先将所述分词处理结果中的停用词删除,然后再执行所述根据分词处理结果生成单词库的步骤。
在本实施例中,停用词包括语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类,本实施例对此不做具体限定。
例如,如文本语料是一句话“计划男性退休年龄为60岁,女性退休年龄为55岁”,进行分词处理所获得的分词处理结果为“计划、男性、退休、年龄、女性、为”,先将分词处理结果中的停用词“为”删除,删除后分词处理结果为“计划、男性、退休、年龄、女性”,从而将该分词处理结果进行存储生成单词库。
可选地,在对文本语料作分词处理前,可对文本语料进行去重处理,将文本语料中的重复内容删除,降低终端对文本语料的分词压力,提高数据字典表的生成效率。
可选地,本发明提供数据字典的字段设置页面,用户可通过字段设置页面设置数据字典表的字段,在接收到用户的确认指令时,收集用户在字段设置页面设置的字段数据,从而获得数据字典字段库,使得最后构建的数据字典表的符合用户的使用需求。在用户需要设置大量的字段时,为提高用户的设置效率,本发明支持字段数据文件的导入,并支持用户在字段设置页面连接字段数据所在的数据库,用户可将预先设置好的字段数据表格导入终端,或者在字段设置页面连接数据库,将数据库中存储字段数据的表导入终端,终端接收后自动解析并进行存储,从而获得数据字典字段库,本实施例对此不做具体限定。
步骤S30:根据所述单词库中的单词以及所述字段数据,构建数据字典表。
在本实施例中,通过将单词库中的单词分类至字段数据中的对应字段,作为字段的字典值,从而完成数据字典表的构建。
可以理解的是,本发明根据用户预先设置生成的数据字典字段库的字段数据作为分类基础,将根据文本语料获得的分词处理结果,归类至字段数据中的对应字段,作为字段的字典值,从而完成数据字典表的构建,整个构建过程无需人工参与,终端自动进行构建,从而不仅提高构建的数据字典表的准确率,同时也提高数据字典表的生成效率。
在本实施例提供的技术方案中,通过根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料,然后对文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据,然后根据单词库中的单词以及字段数据,构建数据字典表。在生成数据字典表时,通过自动对目标系统关联的非结构化数据进行处理,获取待分类的单词,根据预设的数据字典字段库中的字段数据和单词,自动构建数据字典表,而无需人工参与数据字典表的构建,从而提高数据字典表的准确率。
参照图2,在第二实施例中,基于第一实施例,所述步骤S30,包括:
步骤S31:将所述单词的词性与所述字段数据中各个字段的词性进行匹配,确定所述单词所属的待选字段;
在本实施例中,将单词的词性与字段数据中的各个字段的词性进行比较,若单词的词性与字段的词性相同,则将该字段作为单词所属的待选字段。
可选地,本发明通过预先对单词库中的单词做词性分类处理,确定单词的词性,以及对数据字典字段库中的字段数据做词性分类处理,确定字段数据中各个字段的词性。可以理解的是,字段的词性表征为字段所对应的字典值的词性。词性分类处理可采用HanLP,本实施例对此不做具体限定。
例如,单词库中的单词包括“计划、男性、退休、年龄、女性”,词性分类处理后,获得单词单元,单词单元包括单词以及单词对应的词性,即计划-动词、男性-名词、退休-名词、年龄-名词、女性-名词。而字段数据中的字段包括“性别、订单类型、学历、交易”,词性分类处理后,获得字段单元,字段单元包括字段以及字段对应的词性,即性别-名词、订单类型-名词、学历-名词、交易-动词。将单词的词性与字段的词性进行匹配,从而获得性别字段对应的单词为:男性、女性、年龄、退休;订单类型字段对应的单词为:男性、女性、年龄、退休;学历字段对应的单词为男性、女性、年龄、退休;交易字段对应的单词为:计划。
步骤S32:根据所述单词的词意,从所述待选字段中,确定所述单词对应的目标字段;
步骤S33:将所述单词作为所述目标字段的字典值,构建所述数据字典表。
在本实施例中,根据单词的词意,判断单词是否实质与该待选字段匹配,若匹配则将该待选字段作为目标字段,并将单词作为目标字段的字典值,从而构建数据字典表。
可以理解的是,本发明先根据单词的词性,确定单词所属的待选字段,旨在确保单词的词性与目标字段的词性一致,符合数据字典表的构建要求。
可选地,可选择对应的二分类算法,例如逻辑回归、支持向量机、决策树,根据单词的词意,从待选字段中,确定单词对应的目标字段。二分类算法能够将单词有效的分成两类,如单词库的单词男性属于性别,或者不属于性别,即从待选字段中确定目标字段。
在本实施例中,本发明选择支持向量机分类,对单词的词意进行分类,确定单词对应的目标字段。向量机分类方法依赖于正确标记的训练数据,并且对特征的选择和提取有着重要的影响。因此,在进行单词对应字段的分类之前,确保数据质量和特征提取的有效性非常重要。
可选地,可通过Word2Vec(Word Vector Model,词向量模型)提取单词对应的向量表示,然后将向量表示输入向量机分类模型中,根据向量表示计算单词之间的相似度或距离,进而进行词意分析,获得单词的词意,并根据词意对单词进行分类,确定单词对应的目标字段,本实施例对此不做具体限定。
例如,参照图3,图3为本发明涉及的数据字典表的构建流程图。对文本数据、音频数据和图片数据中的至少一个进行数据转换,生成文本语料,同时终端接收基于用户设置的数据字典字段库的字段,将用户设置的字段进行存储生成数据字典字段库,之后对文本语料进行分词处理,获得单词库,然后同时对单词库中的单词以及对数据字典字段库的字段数据进行词性分类处理,确定单词库中的单词的词性以及字段数据中各个字段的词性,可将单词与单词的词性一同存储构成新的单词库,将字段数据中的各个字段以及各个字段的词性一同存储构成新的数据字典字段库,然后将单词想词性与字段数据中各个字段的词性进行匹配,确定单词所属的待选字段,最后根据单词的词意,从待选字段中确定单词对应的目标字段,从而将单词作为目标字段的字典值,构建数据字典表。通过自动对目标系统关联的非结构化数据进行处理,获取待分类的单词,根据预设的数据字典字段库中的字段数据和单词,自动构建数据字典表,而无需人工参与数据字典表的构建,从而提高数据字典表的准确率。
在本实施例提供的技术方案中,通过将单词的词性与字段数据中各个字段的词性进行匹配,确定单词所属的待选字段,然后根据单词的词意,从待选字段中,确定单词对应的目标字段,并将单词作为目标字段的字典值,构建数据字典表。通过预先将单词的词性与字段数据中各个字段的词性进行匹配,以使后续从待选字段中确定单词对应的目标字段时,确保单词的词性与目标字段的词性相符,满足数据字典表的构建要求。
参照图4,在第三实施例中,基于上述任一实施例,所述步骤S10,包括:
步骤S11:接收待开发项目的功能需求文档,根据所述功能需求文档,确定所述待开发项目的各个功能模块;
步骤S12:确定包含所述功能模块的历史开发项目;
步骤S13:获取所述历史开发项目的历史开发信息,并将所述历史开发信息与所述目标系统关联,其中,所述历史开发信息包括所述文本数据、音频数据和图片数据中的至少一个;
步骤S14:执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
在本实施例中,为使得最后生成的数据字典表中的数据,与实际的开发过程中所需的数据相符,通过根据待开发项目的功能需求文档,确定待开发项目开发的各个功能模块,并从服务器中,根据功能模块搜索确定包含有功能模块的历史开发项目,并从历史开发项目中的历史开发信息中提取所述文本数据、音频数据和图片数据,并将提取的所述文本数据、音频数据和图片数据与目标系统进行关联,以使后续构建的数据字典表中的数据更加真实,符合待开发项目的使用需求。历史开发信息为历史开发项目在开发过程中以及开发完成后投入运行的信息,本实施例对此不做具体限定。
可选地,在一些可选实施方式中,根据获取到的历史开发信息进行分类,获取历史开发信息中属于所述待开发项目对应的功能模块的目标开发信息,进而将目标开发信息与目标系统进行关联,从而减少所述文本数据、音频数据和图片数据中与待开发项目的功能模块不相关的其他数据,一方面能够提高数据字典表的准确率,使其符合使用需求,另一方面也能提高数据字典表的生成效率。
在本实施例提供的技术方案中,通过接收待开发项目的功能需求文档,根据功能需求文档,确定待开发项目的各个功能模块,从而确定包含功能模块的历史开发项目,通过获取历史开发项目的历史开发信息,并将历史开发信息与目标系统关联,其中,历史开发信息包括文本数据、音频数据和图片数据中的至少一个,然后执行根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。通过从历史开发项目中获取历史开发信息,从历史开发信息中提取用于构建数据字典表的文本数据、音频数据和图片数据,以使后续构建的数据字典表中的数据更加真实,满足待开发项目的使用需求。
参照图5,在第四实施例中,基于上述任一实施例,所述步骤30之后,还包括:
步骤S40:获取所述数据字典表中,各个字段的使用频率;
步骤S50:在所述字段的使用频率小于预设频率时,将所述字段以及所述字段对应的字典值从所述数据字典表中删除。
在本实施例中,在构建数据字典表后,每次接收到数据字典表的数据请求时,根据数据请求确定调用的数据字典表中对应的目标字段,并记录该目标字段的使用频率。在设定时间,获取数据字典中各个字段的使用频率,若字段的使用频率小于预设频率,表明该字段以及字段对应的字典值不符合用户的使用需求,进而将使用频率小于预设频率的字段以及字段对应的字典值删除,提高数据字典表的精确度。
可选地,所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤之后,包括:获取所述目标系统的日志信息,根据所述日志信息,确定目标系统关联的所述文本数据、音频数据和图片数据中的至少一个是否发生变更,在所述目标系统关系的所述文本数据、音频数据和图片数据中的至少一个发生变更时,继续执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
在本实施例中,为扩大数据字典表内容的丰富性,通过实时检测目标系统关联的文本数据、音频数据和图片数据是否发生变更,在发生变更时,则继续执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤,以使所述数据字典表的内容越来越丰富。
可选地,为避免目标系统关联的文本数据、音频数据和图片数据即使产生变更,却仍还包括原先已经用于构建数据字典表的数据,避免造成数据字典表中一个字段中包括多个相同的字典值,导致数据字典表的数据冗余。可通过根据日志信息确定目标系统关联的文本数据、音频数据和图片数据中产生变更的变更数据,进而仅对变更数据进行转换生成文本语料,继续执行所述对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据的步骤,从而达成既能丰富数据字典表的内容,又不会造成数据字典表数据的冗余。
在本实施例提供的技术方案中,通过根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料,然后对文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据,然后根据单词库中的单词以及字段数据,构建数据字典表,且在构建数据字典表之后,通过获取数据字典表中,各个字段的使用频率,在字段的使用频率小于预设频率时,将字段以及字段对应的字典值从数据字典表中删除。
若字段的使用频率小于预设频率,表明该字段以及字段对应的字典值不符合用户的使用需求,进而将使用频率小于预设频率的字段以及字段对应的字典值删除,提高数据字典表的精确度。
参照图6,在第五实施例中,基于上述任一实施方式,所述步骤S32,还包括:
步骤S321:在所述单词对应的目标字段的数量大于预设数值时,确定所述单词在所述文本语料中的位置;
步骤S322:获取所述文本语料中的所述位置对应的句子,并提取所述句子的上下文信息以及所述单词在所述文本语料中出现的频率,其中,所述句子包括所述单词;
步骤S323:根据所述上下文信息和所述频率,确定所述单词对应的选定字段;
步骤S324:将所述单词作为所述选定字段的字典值。
在本实施例中,若从待选字段中,确定单词对应的目标字段的数量大于预设数值时,表征该单词为歧义单词,需要对单词进一步处理。本发明通过采用根据单词在文本语料中的位置,以该位置作为起点,分别向左右两边延伸,提取对应长度的句子,进而将句子继续输入HanLP,进行分词处理以及词性分类处理,继续执行所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤。可以理解的是HanLP在分词处理以及词性分类处理时,可提取句子的上下文信息以及单词出现的概率,进而后续可根据单词的上下文信息以及频率,确定对应的选定字段。需要说明的是,本发明在重新确定单词对应的选定字段时,需要根据该单词对HanLP以及二分类模型进行训练,并根据训练结果调整HanLP以及二分类模型的参数,以确保重新确定单词对应的选定字段时,能够一次确定单词对应的选定字段,而无需进行多次重新确定,降低数据字典表的生成效率。
可选地,在所述单词对应的目标字段的数量大于预设数值时,接收基于所述单词选定的选定字段,并将所述单词作为所述选定字段的字典值;
在本实施例中,所述预设数值可以为1,本实施例对此不做具体限定。若确定单词对应的目标字段的数量大于1时,可将单词以及单词对应的所有目标字段输出,由专业的技术人员根据需求从输出的目标字段中选定单词对应的选定字段,避免单词被分类至多个目标字段,降低数据字典表的准确率。需要说明的是,具体采用哪种方式,可根据需求进行选择,本实施例对此不做具体限定。
在本实施例提供的技术方案中,在单词对应的目标字段的数量大于预设数值时,确定单词在所述文本语料中的位置,然后获取文本语料中的该位置对应的句子,并提取句子的上下文信息以及单词在文本语料中出现的频率,其中该句子包括该单词,根据上下文信息和频率,确定单词对应的选定字段,将单词作为选定字段的字典值。在出现歧义单词时,通过重新提取单词对应的句子的上下文信息以及单词在文本语料中出现的频率,重新确定单词对应的选定字段,避免歧义单词的出现,降低数据字典的准确率。
参照图7,图7为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是终端设备,所述终端设备可以是服务器、手机、电脑、平板电脑等,本实施例对此不做具体限定。
如图7所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元等,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图7中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据字典的生成程序。
在图7所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的数据字典的生成程序,并执行以下操作:
根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料;
对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据;
根据所述单词库中的单词以及所述字段数据,构建数据字典表。
进一步地,处理器1001可以调用存储器1005中存储的数据字典的生成程序,还执行以下操作:
将所述单词的词性与所述字段数据中各个字段的词性进行匹配,确定所述单词所属的待选字段;
根据所述单词的词意,从所述待选字段中,确定所述单词对应的目标字段;
将所述单词作为所述目标字段的字典值,构建所述数据字典表。
对所述单词库中的单词做词性分类处理,确定所述单词对应的词性,以及对所述数据字典字段库中的所述字段数据做词性分类处理,确定所述字段数据对应的词性。
进一步地,处理器1001可以调用存储器1005中存储的数据字典的生成程序,还执行以下操作:
对所述单词库中的单词做词性分类处理,确定所述单词对应的词性,以及对所述数据字典字段库中的所述字段数据做词性分类处理,确定所述字段数据对应的词性。
进一步地,处理器1001可以调用存储器1005中存储的数据字典的生成程序,还执行以下操作:
在所述单词对应的目标字段的数量大于预设数值时,确定所述单词在所述文本语料中的位置;
获取所述文本语料中的所述位置对应的句子,并提取所述句子的上下文信息以及所述单词在所述文本语料中出现的频率,其中,所述句子包括所述单词;
根据所述上下文信息和所述频率,确定所述单词对应的选定字段;
将所述单词作为所述选定字段的字典值;或者,
在所述单词对应的目标字段大于预设数值时,接收基于所述单词选定的选定字段,并将所述单词作为所述选定字段的字典值。
进一步地,处理器1001可以调用存储器1005中存储的数据字典的生成程序,还执行以下操作:
接收待开发项目的功能需求文档,根据所述功能需求文档,确定所述待开发项目的各个功能模块;
确定包含各个所述功能模块的历史开发项目;
获取所述历史开发项目的历史开发信息,并将所述历史开发信息与所述目标系统关联,其中,所述历史开发信息包括所述文本数据、音频数据和图片数据中的至少一个;
执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
进一步地,处理器1001可以调用存储器1005中存储的数据字典的生成程序,还执行以下操作:
获取所述数据字典表中,各个字段的使用频率;
在所述字段的使用频率小于预设频率时,将所述字段以及所述字段对应的字典值从所述数据字典表中删除。
进一步地,处理器1001可以调用存储器1005中存储的数据字典的生成程序,还执行以下操作:
获取所述目标系统的日志信息,根据所述日志信息,确定目标系统关联的所述文本数据、音频数据和图片数据中的至少一个是否发生变更;
在所述目标系统关联的所述文本数据、音频数据和图片数据中的至少一个发生变更时,继续执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
进一步地,处理器1001可以调用存储器1005中存储的数据字典的生成程序,还执行以下操作:
接收用户自定义的所述字段数据,根据所述字段数据构建所述数据字典字段库。
此外,本发明为实现上述目的,本发明还提供一种终端设备,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据字典的生成程序,所述数据字典的生成程序被所述处理器执行时实现如上所述的数据字典的生成方法的步骤。
此外,本发明为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据字典的生成程序,所述数据字典的生成程序被处理器执行时实现如上所述的数据字典的生成方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是服务器、手机、电脑、平板电脑)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据字典的生成方法,其特征在于,所述数据字典的生成方法包括:
根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料;
对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据;
根据所述单词库中的单词以及所述字段数据,构建数据字典表。
2.如权利要求1所述的数据字典的生成方法,其特征在于,所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤,包括:
将所述单词的词性与所述字段数据中各个字段的词性进行匹配,确定所述单词所属的待选字段;
根据所述单词的词意,从所述待选字段中,确定所述单词对应的目标字段;
将所述单词作为所述目标字段的字典值,构建所述数据字典表。
3.如权利要求2所述的数据字典的生成方法,其特征在于,所述将所述单词的词性与所述字段数据中各个字段的词性进行匹配,确定所述单词所属的待选字段的步骤之前,还包括:
对所述单词库中的单词做词性分类处理,确定所述单词对应的词性,以及对所述数据字典字段库中的所述字段数据做词性分类处理,确定所述字段数据对应的词性。
4.如权利要求2所述的数据字典的生成方法,其特征在于,所述根据所述单词的词意,从所述待选字段中,确定所述单词对应的目标字段的步骤,还包括:
在所述单词对应的目标字段的数量大于预设数值时,确定所述单词在所述文本语料中的位置;
获取所述文本语料中的所述位置对应的句子,并提取所述句子的上下文信息以及所述单词在所述文本语料中出现的频率,其中,所述句子包括所述单词;
根据所述上下文信息和所述频率,确定所述单词对应的选定字段;
将所述单词作为所述选定字段的字典值;或者,
在所述单词对应的目标字段大于预设数值时,接收基于所述单词选定的选定字段,并将所述单词作为所述选定字段的字典值。
5.如权利要求1所述的数据字典的生成方法,其特征在于,所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤,包括:
接收待开发项目的功能需求文档,根据所述功能需求文档,确定所述待开发项目的各个功能模块;
确定包含各个所述功能模块的历史开发项目;
获取所述历史开发项目的历史开发信息,并将所述历史开发信息与所述目标系统关联,其中,所述历史开发信息包括所述文本数据、音频数据和图片数据中的至少一个;
执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
6.如权利要求1所述的数据字典的生成方法,其特征在于,所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤之后,包括:
获取所述数据字典表中,各个字段的使用频率;
在所述字段的使用频率小于预设频率时,将所述字段以及所述字段对应的字典值从所述数据字典表中删除。
7.如权利要求1所述的数据字典的生成方法,其特征在于,所述根据所述单词库中的单词以及所述字段数据,构建数据字典表的步骤之后,包括:
获取所述目标系统的日志信息,根据所述日志信息,确定目标系统关联的所述文本数据、音频数据和图片数据中的至少一个是否发生变更;
在所述目标系统关联的所述文本数据、音频数据和图片数据中的至少一个发生变更时,继续执行所述根据目标系统关联的文本数据、音频数据和图片数据中的至少一个,生成文本语料的步骤。
8.如权利要求1所述的数据字典的生成方法,其特征在于,所述对所述文本语料作分词处理,并根据分词处理结果生成单词库,以及获取数据字典字段库中的字段数据的步骤之前,包括:
接收用户自定义的所述字段数据,根据所述字段数据构建所述数据字典字段库。
9.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的终端设备的数据字典的生成程序,所述终端设备的数据字典的生成程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据字典的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有终端设备的数据字典的生成程序,所述终端设备的数据字典的生成程序被处理器执行时实现如权利要求1至8中任一项所述的数据字典的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311183334.2A CN116910278A (zh) | 2023-09-14 | 2023-09-14 | 数据字典的生成方法、终端设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311183334.2A CN116910278A (zh) | 2023-09-14 | 2023-09-14 | 数据字典的生成方法、终端设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910278A true CN116910278A (zh) | 2023-10-20 |
Family
ID=88367385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311183334.2A Pending CN116910278A (zh) | 2023-09-14 | 2023-09-14 | 数据字典的生成方法、终端设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910278A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347339A (zh) * | 2020-11-26 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理方法及装置 |
CN114969051A (zh) * | 2022-06-10 | 2022-08-30 | 北京金堤科技有限公司 | 数据处理方法、装置、存储介质及设备 |
US20220318509A1 (en) * | 2020-01-20 | 2022-10-06 | Boe Technology Group Co., Ltd. | Entity recognition method and device, dictionary creating method, device and medium |
CN115796176A (zh) * | 2022-11-23 | 2023-03-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 分词处理方法、计算机设备、存储介质和计算机程序产品 |
-
2023
- 2023-09-14 CN CN202311183334.2A patent/CN116910278A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220318509A1 (en) * | 2020-01-20 | 2022-10-06 | Boe Technology Group Co., Ltd. | Entity recognition method and device, dictionary creating method, device and medium |
CN112347339A (zh) * | 2020-11-26 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理方法及装置 |
CN114969051A (zh) * | 2022-06-10 | 2022-08-30 | 北京金堤科技有限公司 | 数据处理方法、装置、存储介质及设备 |
CN115796176A (zh) * | 2022-11-23 | 2023-03-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 分词处理方法、计算机设备、存储介质和计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
WO2021174717A1 (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
CN108427707B (zh) | 人机问答方法、装置、计算机设备和存储介质 | |
CN110765763A (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
CN111666746A (zh) | 会议纪要的生成方法及装置、电子设备及存储介质 | |
CN110765759A (zh) | 意图识别方法及装置 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN112765974B (zh) | 一种业务辅助方法、电子设备及可读存储介质 | |
CN110555205A (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN113064980A (zh) | 一种智能问答方法、装置、计算机设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110781673A (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN112597292B (zh) | 问题回复推荐方法、装置、计算机设备和存储介质 | |
CN111723559B (zh) | 一种实时信息抽取方法及装置 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN110727764A (zh) | 一种话术生成方法、装置及话术生成设备 | |
CN115408997A (zh) | 一种文本生成方法、文本生成装置和可读存储介质 | |
CN116910278A (zh) | 数据字典的生成方法、终端设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |