CN111026916B - 文本描述的转换方法、装置、电子设备及存储介质 - Google Patents
文本描述的转换方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111026916B CN111026916B CN201911258337.1A CN201911258337A CN111026916B CN 111026916 B CN111026916 B CN 111026916B CN 201911258337 A CN201911258337 A CN 201911258337A CN 111026916 B CN111026916 B CN 111026916B
- Authority
- CN
- China
- Prior art keywords
- data
- description
- text description
- metadata
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/838—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本公开提供的文本描述的转换方法、装置、电子设备及存储介质,通过对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将各子描述的元数据写入对应类型的数据列表中;利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得所述计算机可识别格式的转换后的文本描述,相对于现有的采用人工编译转换规则的方式来说,本公开提供的方案有效提高了开发效率和转换效率,避免了人工编译转换规则带来的转换冗余或互斥。
Description
技术领域
本公开涉及计算机技术,特别涉及一种文本描述的转换方法、装置、电子设备及存储介质。
背景技术
在各类应用和业务中,将用户可识别的业务文本描述转换为计算机可读的语言是必不可少的环节。
当业务需求发生变化,开发人员需要针对当前的业务需求所涉及业务的文本描述的转换规则进行相应变换,以满足变化后的业务需求。在现有技术中,文本描述的转换规则是无法被复用的,开发人员需要针对每个业务的文本描述设计相应的转换规则,因此,一旦业务需求发生变化,业务文本描述的转换规则需要被重新设计,使得业务的更新时间较长和成本较大;此外,由于转换规则采用人工设计的方式,设计获得的各转换规则之间也容易出现冗余或不一致,不利于对于转换规则进行后续维护。
发明内容
针对上述技术问题,本公开提供了一种文本描述的转换方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种文本描述的转换方法,包括:
对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将所述各子描述的元数据写入对应类型的数据列表中;
利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;
按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得计算机可识别格式的转换后的文本描述。
第二方面,本公开提供了一种文本描述的转换装置,包括:
预处理模块,用于对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将所述各子描述的元数据写入对应类型的数据列表中;
映射模块,用于利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;
转换模块,用于按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得计算机可识别格式的转换后的文本描述。
第三方面,本公开提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
第四方面,本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述任一项所述的方法。
本公开提供的文本描述的转换方法、装置、电子设备及存储介质,通过对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将所述各子描述的元数据写入对应类型的数据列表中;利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得计算机可识别格式的转换后的文本描述,从而通过自动抽取文本描述中元数据的方式来实现对于文本描述的映射逻辑,并基于映射逻辑将文本转换成计算机可识别的表述方式,相对于现有的采用人工编译转换规则的方式来说,本公开提供的方案有效提高了开发效率和转换效率,避免了人工编译转换规则带来的转换冗余或互斥。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开提供的一种网络架构的示意图;
图2是本公开提供的一种文本描述的转换方法的流程示意图;
图3是本公开提供的一种文本描述的转换方法的第一处理结果示意图;
图4是本公开提供的一种文本描述的转换装置的结构示意图;
图5是本公开提供的一种用来实现本公开实施例的转换方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
针对前述提及的问题,本公开提供了一种文本描述的转换方法、装置、电子设备及存储介质。该转换方法可抽取文本描述中元数据的方式来实现对于文本描述的映射逻辑,并基于映射逻辑将文本转换成计算机可识别的表述方式,相对于现有的采用人工编译转换规则的方式来说,本公开提供的方案有效提高了开发效率和转换效率,避免了人工编译转换规则带来的转换冗余或互斥等问题。
图1是本公开提供的一种网络架构的示意图,如图1所示的,本公开提供的文本描述的转换方法可适用于需要对采用获得的文本描述的数据进行运算或处理的场景,包括但不限于:大数据场景下的用户标签划分、业务需求的运算和分析、业务流程的修改和更新。
其中,该网络架构可包括有文本描述的转换装置1、终端2以及网络。其中,文本描述的转换装置1具体可为云端架设的服务器或服务器集群,其具体可为存储有各文本描述的数据并具备处理功能的转换服务器。终端2具体可为用户的智能手机、台式电脑、手提电脑等具备通信功能的终端。通过网络,文本描述的转换装置1可与终端2进行数据交互,以接收和获得终端2上传的各文本描述的数据,并根据预设的运算任务和任务寻求对文本描述的数据进行转换和处理。
需要说明的是,图1所示方式仅为本公开提供的其中一种网络架构方式,基于不同的应用场景,其架构将存在相应变化。
第一方面,本公开提供了一种文本描述的转换方法,图2是本公开提供的一种文本描述的转换方法的流程示意图。如图2所示的,该转换方法包括:
步骤101、对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将各子描述的元数据写入对应类型的数据列表中。
本公开示例所提供的文本描述的转换方法的执行主体可为图1所示的文本描述的转换装置,其中,该种文本描述的转换装置具体可由多种类型的硬件器件组成,如处理器,通信器,信息采集器,传感器等等。
转换装置将获得待处理业务的文本描述,这些文本描述的来源包括但不限于用户通过终端输入的评论、对业务的分析报告、反馈信息等。当转换装置获得文本描述之后,由于文本描述中所包括的语义无法直接被计算机读取,因此,需要对文本描述进行一定的转换,以使计算机可确定文本描述所表述的语义信息,进而对文本描述进行相应的运算或计算等处理。
与现有的采用固定转换规则的方式不同的是,在本公开示例中,当转换装置获取对待处理业务的文本描述之后,将首先对文本描述依次进行分词和修正处理,以使处理获得的各子描述的元数据,按照元数据的数据属性将所述各子描述的元数据写入对应类型的数据列表中。其中,元数据是指从文本描述中抽取出来的用于说明其特征、内容的,结构化的数据,其可用于组织、描述、检索、保存、管理信息和知识资源。而元数据的数据属性指元数据相应子描述数据属性(property)的信息,其可包括存储位置、历史数据、资源查找、文件记录等各标签类型以及每一标签类型下的取值。在本实施例中,可基于元数据的数据属性中的数据的标签类型,将取值写入相应类型的数据列表中。
需要说明的是,在本示例中,还可根据待处理业务的业务特征设置多个类型的数据列表、函数映射表以及分词修正表的步骤。
具体来说,分词是指对文本描述中各字段进行切分,以得到若干切分词的过程,而在本示例中,可按照所述文本描述的语法语义对所述文本描述进行分词处理,获得一个或多个切分词。
而修正则是指对于文本描述中的一些切分词来说,若其与该领域知识中的常用词描述有出入,需要对这些切分词进行一定的修正,以使其满足领域知识的常用词描述,而在本示例中,则利用预设的分词修正表对所述各切分词进行修正,修正后的各切分词构成所述子描述的元数据。
最后,确定并按照子描述的元数据的数据属性,将各子描述的元数据写入数据列表中。其中,数据列表可包括多种类型的表,其包括但不限于数据实体列表、数据关系列表、属性列表以及领域描述列表,这些数据列表是在建立转换装置时根据原有经验预先构建并存储的,以供转换装置可将对文本描述进行处理后得到的元数据写入这些数据列表中。
进一步的,下面将对各数据列表的表意进行说明:
数据实体列表:主要是描述各个标签的实体,主要有实体名、表名、过滤条件、表类型,优先级。
数据关系列表:主要是描述各个实体表之间的关系,类似于数据库中的外键,主要有表名、字段、关系表、外键。
属性列表:主要是描述的特定领域的属性,比如地点等。
领域描述列表:主要是对特定领域的描述进行元数据描述,包括特定领域名称、类型、方法、匹配方式等。
此外,分词修正表是对一些描述进行一下修正,确保含义是用户表达的真实含义。
步骤102、利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据。
具体来说,函数映射表主要是描述函数的元信息,包括函数名、输入格式、新增类型、新增字段、是否聚合等。利用函数映射表中的函数的元信息,将将文字描述的元数据,映射成计算机识别的逻辑及函数级别的映射逻辑数据。
例如,映射为“人(组合)照相机(组合)探头,日期小于7天,地点为酒店,次数5次”的映射逻辑数据。
步骤103、按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得计算机可识别格式的转换后的文本描述。
随后,还将对处理后的映射逻辑数据进行计算机可视化处理,获得所述计算机可识别格式的转换后的文本描述。
其中,计算机可识别格式具体可为XML格式。在处理过程中,转换装置需要根据所述各子描述的数据属性在所述文本描述中的出现位置和出现顺序,确定所述文本描述的描述主体。例如,如果文本描述最后一个切分词属于实体列表,该最后一个切分词为主体;当“被”字前面切分词如果属于实体列表,则该切分词为主体;当“被xx的yy”,如果yy属于实体列表,则该yy为主体;当以上都不满足,则第一个属于实体列表的切分词作为主体。
进一步例如,在生成xml的过程中,需要确定文本描述的主体,以下四种描述方式都是需要找到文本描述主体的:常住人口中被探头拍到最近7天去酒店的次数大于5天的人;常住人口中被探头拍到最近7天去酒店的次数大于5天;被探头拍到的常住人口中最近7天去酒店的次数大于5天;常住人口最近7天去酒店的次数大于5天。
下面将以示例的方式,进一步说明本公开提供的方案:
针对步骤101,若对于文本描述“常住人口中被探头排到最近7天去酒店的次数大于5天”,对其进行分词,将则得到“常住人口”“探头”“拍到”“最近7天”“酒店”“次数大于5”。明显的,“最近一周去酒店的次数”,这里的“次数”其实应该是“天数”。
对前述的文本描述进行修正将得到“常住人口”“探头”“拍到”“最近7天”“酒店”“天数大于5”,再后,由修改后的各分词构成的元数据,将基于其数据属性被写入数据列表中,即可得到如表1-4所示的结果。
其中,表1为数据实体列表;表2为数据关系列表;表3为属性列表;表4为领域描述列表。
表1
实体名 | 表名 | 条件 | 类型 |
常住人口 | Person | Py==常驻 | S |
探头 | Tantou | S | |
拍到 | camara | D |
表2
关系表 | 字段 | 关系表 | 字段 |
Person | Pid | Camara | Pid |
Tantou | Tid | Camara | Tid |
Camara | Pid | Person | Pid |
camara | Tid | tantou | Tid |
表3
实体名 | 表名 | 字段 | 操作 |
酒店 | tantou | Loc | Filter(loc==酒店) |
表4
名称 | 类型 | 函数 | 匹配方法 |
最近7天 | 时间 | F(&now-&day<7) | 精确 |
次数 | 聚合 | Count(&key) | 精确 |
天数 | 聚合 | Count_by_key | 精确 |
大于 | 比较 | gt | 精确 |
(num)以上 | 比较 | Gt(num | 正则 |
分布 | 统计 | distribution | 精确 |
经常 | 分布 | Offen | 精确 |
进一步的,转换装置根据所述各子描述的数据属性在数据实体列表中的优先级,对所述映射逻辑数据进行处理。具体的,在按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理时,由于文本描述比较灵活,可以有多种表达方式,而利用有向无环图的数据转换规则,则可解决这一问题。
比如下四种表达方式:
常住人口中最近7天被酒店探头拍到的次数大于5天;
常住人口中被探头拍到最近7天去酒店的次数大于5天;
常住人口被探头拍到最近7天5次以上的酒店;
以上三种方式其实表达同一个含义:常住人口被探头拍到最近7天去酒店的天数大于5天。
因此,在利用有向无环图的数据转换规则,对所述映射逻辑数据进行处理时可基于如下原则;1、数据实体列表搭建统一的大表,底层实体列表的元数据相同字段含义统一,确保相同字段无二义性,且大表每个字段有中文含义,同时具有数据属性。2、优先处理数据实体列表,步骤101之后,将数据实体列表的处理时序前移,结合数据关系列表后优先做处理。3、实体列表的组合(join)字段合并,对于动态表和静态表(即表1所示的类型一列)的相同字段,按照优先等级排序,以使所有的动态表优先等级大于静态表的等级。4、属性列表作用在数据实体列表上。5、对于非组合标签,将过滤操作前移到聚合操作之前。图3是本公开提供的一种文本描述的转换方法的第一处理结果示意图,如图3所示的,对映射逻辑数据进行处理得到DAG,以及相应的XML。该XML可被计算机直接识别和读取。
此外,在可选的示例中,当获得转换后的文本描述之后,还可按照预设的运算任务,读取所述转换后的文本描述,获得运算结果。
本公开提供的文本描述的转换装置,通过对待处理业务的文本描述进行分词和修正处理,以使处理获得的各子描述的元数据,按照元数据的数据属性写入对应类型的数据列表中;利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得所述计算机可识别格式的转换后的文本描述,从而通过自动抽取文本描述中元数据的方式来实现对于文本描述的映射逻辑,并基于映射逻辑将文本转换成计算机可识别的表述方式,相对于现有的采用人工编译转换规则的方式来说,本公开提供的方案有效提高了开发效率和转换效率,避免了人工编译转换规则带来的转换冗余或互斥。
第二方面,本公开提供了一种文本描述的转换装置,图4是本公开提供的一种文本描述的转换装置的结构示意图。
如图4所示的,该文本描述的转换装置,其包括:
预处理模块10,用于对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将各子描述的元数据写入对应类型的数据列表中;
映射模块20,用于利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;
转换模块30,用于按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得计算机可识别格式的转换后的文本描述。
在可选实施例中,该文本描述的转换装置还包括:配置模块;
所述配置模块,用于根据待处理业务的业务特征设置多个类型的数据列表、函数映射表以及分词修正表;其中,所述数据列表包括数据实体列表、数据关系列表、属性列表以及领域描述列表。
在可选实施例中,该文本描述的转换装置还包括:运算模块;
所述运算模块,用于按照预设的运算任务,读取所述转换后的文本描述,获得运算结果。
在可选实施例中,所述预处理模块10具体用于:
按照所述文本描述的语法语义对所述文本描述进行分词处理,获得一个或多个切分词;
利用预设的分词修正表对所述各切分词进行修正,修正后的各切分词构成所述子描述的元数据;
确定并按照子描述的元数据的数据属性,将各子描述的元数据写入数据列表中。
在可选实施例中,所述转换模块30还用于:
根据所述各子描述的数据属性在所述文本描述中的出现位置和出现顺序,确定所述文本描述的描述主体。
在可选实施例中,所述转换模块30具体用于:
根据所述各子描述的数据属性实体表中的优先级,对所述映射逻辑数据进行处理。
本公开提供的文本描述的转换装置,通过对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将各子描述的元数据写入对应类型的数据列表中;利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得所述计算机可识别格式的转换后的文本描述,从而通过自动抽取文本描述中元数据的方式来实现对于文本描述的映射逻辑,并基于映射逻辑将文本转换成计算机可识别的表述方式,相对于现有的采用人工编译转换规则的方式来说,本公开提供的方案有效提高了开发效率和转换效率,避免了人工编译转换规则带来的转换冗余或互斥。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本公开实施例的转换方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的转换方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的转换方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的转换方法对应的程序指令/模块(例如,附图5所示的采集模块10、处理模块20和控制模块30)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的转换方法的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据转换方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与用于转换方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种文本描述的转换方法,其特征在于,包括:
对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将所述各子描述的元数据写入对应类型的数据列表中;
利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;
按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得计算机可识别格式的转换后的文本描述;
还包括:
根据所述待处理业务的业务特征设置多个类型的数据列表、函数映射表以及分词修正表;
其中,所述数据列表包括数据实体列表、数据关系列表、属性列表以及领域描述列表。
2.根据权利要求1所述的文本描述的转换方法,其特征在于,还包括:
按照预设的运算任务,读取所述转换后的文本描述,获得运算结果。
3.根据权利要求1所述的文本描述的转换方法,其特征在于,所述对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将所述各子描述的元数据写入对应类型的数据列表中,包括:
按照所述文本描述的语法语义对所述文本描述进行分词处理,获得一个或多个切分词;
利用预设的分词修正表对所述各切分词进行修正,修正后的各切分词构成所述子描述的元数据;
确定并按照子描述的元数据的数据属性,将各子描述的元数据写入数据列表中。
4.根据权利要求1所述的文本描述的转换方法,其特征在于,还包括:
根据所述各子描述的数据属性在所述文本描述中的出现位置和出现顺序,确定所述文本描述的描述主体。
5.根据权利要求1所述的文本描述的转换方法,其特征在于,所述按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,包括:
根据所述各子描述的数据属性的在实体表中的优先级,对所述映射逻辑数据进行处理。
6.一种文本描述的转换装置,其特征在于,包括:
预处理模块,用于对待处理业务的文本描述进行分词和修正处理,以获得各子描述的元数据,按照元数据的数据属性将所述各子描述的元数据写入对应类型的数据列表中;
映射模块,用于利用函数映射表,对各类型的数据列表中的元数据进行数据映射,获得文本描述对应的映射逻辑数据;
转换模块,用于按照预设的有向无环图的数据转换规则,对所述映射逻辑数据进行处理,并将处理后的映射逻辑数据进行计算机可视化处理,获得计算机可识别格式的转换后的文本描述;
配置模块,用于根据所述待处理业务的业务特征设置多个类型的数据列表、函数映射表以及分词修正表;其中,所述数据列表包括数据实体列表、数据关系列表、属性列表以及领域描述列表。
7.根据权利要求6所述的文本描述的转换装置,其特征在于,还包括:运算模块;
所述运算模块,用于按照预设的运算任务,读取所述转换后的文本描述,获得运算结果。
8.根据权利要求6所述的文本描述的转换装置,其特征在于,所述预处理模块具体用于:
按照所述文本描述的语法语义对所述文本描述进行分词处理,获得一个或多个切分词;
利用预设的分词修正表对所述各切分词进行修正,修正后的各切分词构成所述子描述的元数据;
确定并按照子描述的元数据的数据属性,将各子描述的元数据写入数据列表中。
9.根据权利要求6所述的文本描述的转换装置,其特征在于,所述转换模块还用于:
根据所述各子描述的数据属性在所述文本描述中的出现位置和出现顺序,确定所述文本描述的描述主体。
10.根据权利要求6所述的文本描述的转换装置,其特征在于,所述转换模块具体用于:
根据所述各子描述的数据属性在实体表中的优先级,对所述映射逻辑数据进行处理。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258337.1A CN111026916B (zh) | 2019-12-10 | 2019-12-10 | 文本描述的转换方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258337.1A CN111026916B (zh) | 2019-12-10 | 2019-12-10 | 文本描述的转换方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026916A CN111026916A (zh) | 2020-04-17 |
CN111026916B true CN111026916B (zh) | 2023-07-04 |
Family
ID=70205390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911258337.1A Active CN111026916B (zh) | 2019-12-10 | 2019-12-10 | 文本描述的转换方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026916B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343646B (zh) * | 2021-06-21 | 2023-08-25 | 杭州数梦工场科技有限公司 | 数据转换方法和装置 |
CN113673889A (zh) * | 2021-08-26 | 2021-11-19 | 上海罗盘信息科技有限公司 | 一种智能化数据资产识别的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102292722A (zh) * | 2009-01-21 | 2011-12-21 | 瑞典爱立信有限公司 | 基于多模元数据和结构化语义描述符来产生注释标签 |
CN106202149A (zh) * | 2016-06-22 | 2016-12-07 | 南京南瑞继保电气有限公司 | 一种iec61850模型文件转换方法 |
CN107766349A (zh) * | 2016-08-16 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 一种生成文本的方法、装置、设备及客户端 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145648B2 (en) * | 2008-09-03 | 2012-03-27 | Samsung Electronics Co., Ltd. | Semantic metadata creation for videos |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
CN106933798B (zh) * | 2015-12-31 | 2020-09-08 | 北京城市网邻信息技术有限公司 | 信息分析的方法及装置 |
CN107305555A (zh) * | 2016-04-20 | 2017-10-31 | 中国移动通信集团河北有限公司 | 数据处理方法及装置 |
CN106156004B (zh) * | 2016-07-04 | 2019-03-26 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
US10528665B2 (en) * | 2017-01-11 | 2020-01-07 | Satyanarayana Krishnamurthy | System and method for natural language generation |
US11106716B2 (en) * | 2017-11-13 | 2021-08-31 | Accenture Global Solutions Limited | Automatic hierarchical classification and metadata identification of document using machine learning and fuzzy matching |
CN107992597B (zh) * | 2017-12-13 | 2020-08-18 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN108763483A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种面向裁判文书的文本信息抽取方法 |
CN109670024B (zh) * | 2018-12-17 | 2021-06-04 | 北京百度网讯科技有限公司 | 逻辑表达式确定方法、装置、设备和介质 |
CN110442868A (zh) * | 2019-08-01 | 2019-11-12 | 第四范式(北京)技术有限公司 | 文本处理方法、装置及电子设备 |
-
2019
- 2019-12-10 CN CN201911258337.1A patent/CN111026916B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102292722A (zh) * | 2009-01-21 | 2011-12-21 | 瑞典爱立信有限公司 | 基于多模元数据和结构化语义描述符来产生注释标签 |
CN106202149A (zh) * | 2016-06-22 | 2016-12-07 | 南京南瑞继保电气有限公司 | 一种iec61850模型文件转换方法 |
CN107766349A (zh) * | 2016-08-16 | 2018-03-06 | 阿里巴巴集团控股有限公司 | 一种生成文本的方法、装置、设备及客户端 |
Also Published As
Publication number | Publication date |
---|---|
CN111026916A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210390428A1 (en) | Method, apparatus, device and storage medium for training model | |
US20210209446A1 (en) | Method for generating user interactive information processing model and method for processing user interactive information | |
US11847164B2 (en) | Method, electronic device and storage medium for generating information | |
US11899710B2 (en) | Image recognition method, electronic device and storage medium | |
CN111104514B (zh) | 文档标签模型的训练方法及装置 | |
US11710215B2 (en) | Face super-resolution realization method and apparatus, electronic device and storage medium | |
CN111522967B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN112487814B (zh) | 实体分类模型训练方法、实体分类方法、装置及电子设备 | |
CN113094550B (zh) | 视频检索方法、装置、设备和介质 | |
CN111708922A (zh) | 用于表示异构图节点的模型生成方法及装置 | |
US11573992B2 (en) | Method, electronic device, and storage medium for generating relationship of events | |
CN111708520B (zh) | 应用构建方法、装置、电子设备及存储介质 | |
KR102485129B1 (ko) | 정보 푸시 방법, 장치, 기기 및 저장매체 | |
KR20210038467A (ko) | 이벤트 테마 생성 방법, 장치, 기기 및 저장 매체 | |
CN111611990B (zh) | 用于识别图像中表格的方法和装置 | |
CN111078878B (zh) | 文本处理方法、装置、设备及计算机可读存储介质 | |
JP7222040B2 (ja) | モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品 | |
CN110532487B (zh) | 标签的生成方法及装置 | |
CN111078825A (zh) | 结构化处理方法、装置、计算机设备及介质 | |
CN111026916B (zh) | 文本描述的转换方法、装置、电子设备及存储介质 | |
US20210192151A1 (en) | Method, apparatus, electronic device and readable storage medium for translation | |
CN111090991A (zh) | 场景纠错方法、装置、电子设备和存储介质 | |
CN111666372B (zh) | 解析查询词query的方法、装置、电子设备和可读存储介质 | |
CN111241302B (zh) | 职位信息图谱生成方法、装置、设备和介质 | |
CN111339314A (zh) | 一种三元组数据的生成方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |