CN113779937A - 基于人工智能的文本内容转换方法、装置、设备和介质 - Google Patents

基于人工智能的文本内容转换方法、装置、设备和介质 Download PDF

Info

Publication number
CN113779937A
CN113779937A CN202111136864.2A CN202111136864A CN113779937A CN 113779937 A CN113779937 A CN 113779937A CN 202111136864 A CN202111136864 A CN 202111136864A CN 113779937 A CN113779937 A CN 113779937A
Authority
CN
China
Prior art keywords
text
data
conversion
entry
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111136864.2A
Other languages
English (en)
Inventor
陈奕安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Asset Management Co Ltd
Original Assignee
Ping An Asset Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Asset Management Co Ltd filed Critical Ping An Asset Management Co Ltd
Priority to CN202111136864.2A priority Critical patent/CN113779937A/zh
Publication of CN113779937A publication Critical patent/CN113779937A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请涉及人工智能技术领域,特别是涉及一种基于人工智能的文本内容转换方法、装置、设备和介质。所述方法包括:接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据;基于文本结构信息,确定文本条目以及各文本条目之间的层级结构;根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型;将原始文本数据输入文本转换模型中,生成结构化的文本数据。采用本方法能够提升文本内容转换效率。本申请还涉及区块链技术领域,各数据均可以上传至区块链。

Description

基于人工智能的文本内容转换方法、装置、设备和介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于人工智能的文本内容转换方法、装置、设备和介质。
背景技术
在金融领域中,通常需要将文本内容中的文字和表格内容转换为结构化的数据,以便于后续的使用。
在传统方式中,可以通过深度学习的方式进行文本内容的转换。
但是,该种转换通常只能针对文本内容本身的层级结构进行处理,例如,进行一级标题、二级标题、三级标题以及文本内容的提取,其难以脱离文本内容本身的层级结构进行文字和内容的转换,从而使得文本内容的转换效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提提升文本内容转换效率的基于人工智能的文本内容转换方法、装置、设备和介质。
一种基于人工智能的文本内容转换方法,所述方法包括:
接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据;
基于文本结构信息,确定文本条目以及各文本条目之间的层级结构;
根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型;
将原始文本数据输入文本转换模型中,生成结构化的文本数据。
在其中一个实施例中,根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型,包括:
确定对应各文本条目的数据提取单元,各数据提取单元中配置有参数数据;
基于层级结构,确定各数据提取单元之间的连接关系;
根据各连接关系以及各数据提取单元,生成对应文本转换请求的文本转换模型。
在其中一个实施例中,参数数据包括定位参数以及提取参数;
将原始文本数据输入文本转换模型中,生成结构化的文本数据,包括:
基于定位参数,从原始文本数据中定位待提取的文本内容;
根据提取参数从原始文本数据中提取出定位到的文本内容;
将提取到的文本内容按照层级结构进行存储,得到结构化的文本数据。
在其中一个实施例中,将原始文本数据输入文本转换模型中,生成结构化的文本数据,包括:
通过文本转换模型确定对应目标文本条目的表格数据;
基于表格数据的表头信息以及侧栏信息,确定对应目标文本条目的目标单元格;
获取目标单元格内的单元格数据,得到对应文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,将原始文本数据输入文本转换模型中,生成结构化的文本数据,包括:
通过文本转换模型,获取目标文本条目对应的原始文本内容;
基于目标文本条目,生成对应的问句信息;
根据问句信息,从目标文本条目对应的原始文本内容中确定答复信息;
将答复信息作为对应目标文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,上述方法还包括:
将接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据中的至少一个上传至区块链节点中进行存储。
一种基于人工智能的文本内容转换装置,所述装置包括:
文本转换请求接收模块,用于接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据;
确定模块,用于基于文本结构信息,确定文本条目以及各文本条目之间的层级结构;
模型构建模块,用于根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型;
生成模块,用于将原始文本数据输入文本转换模型中,生成结构化的文本数据。
在其中一个实施例中,模型构建模块,包括:
数据提取单元确定子模块,用于确定对应各文本条目的数据提取单元,各数据提取单元中配置有参数数据;
连接关系确定子模块,用于基于层级结构,确定各数据提取单元之间的连接关系;
模型生成模块,用于根据各连接关系以及各数据提取单元,生成对应文本转换请求的文本转换模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。
上述基于人工智能的文本内容转换方法、装置、设备和介质,通过接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据,然后基于文本结构信息,确定文本条目以及各文本条目之间的层级结构,并根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型,进一步将原始文本数据输入文本转换模型中,生成结构化的文本数据。从而,可以基于用户的实际需求进行文本转换模型的构建以及进行文本内容的提取,可以提升文本内容的转换效率。并且,基于用户需求进行模型的搭建并进行转换,使得可以按照各用户的需求进行转换,可以提升转换的准确性。
附图说明
图1为一个实施例中基于人工智能的文本内容转换方法的应用场景图;
图2为一个实施例中基于人工智能的文本内容转换方法的流程示意图;
图3为一个实施例中数据提取单元之间连接关系的示意图;
图4为一个实施例中基于人工智能的文本内容转换装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于人工智能的文本内容转换方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。具体地,终端102可以基于用户的触发生成文本转换请求,并发送至服务器104,文本转换请求中携带有文本结构信息以及原始文本数据。服务器104在接收到文本转换请求之后,可以基于文本结构信息,确定文本条目以及各文本条目之间的层级结构。进一步,服务器104可以根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型,并将原始文本数据输入文本转换模型中,生成结构化的文本数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于人工智能的文本内容转换方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据。
其中,文本转换请求是指请求对待转换文本进行转换的请求,文本转换请求中可以携带有待转换文本的原始文本数据。
在本实施例中,原始文本数据可以是各种不同格式的数据,例如,可以是PDF、Word等不同文本格式的文本数据。
在本实施例中,文本转换请求中还可以包括待生成的文本数据的文本结构信息,例如,对于某一待转换文本,请求将其转换为包括职务、姓名、基本信息、历任等多层级结构的文本数据,则文本结构信息中可以包括职务、姓名、基本信息、历任等结构信息。
在本实施例中,用户可以通过终端上传待转换文本以及待生成的文本数据的文本结构信息,并生成文本转换请求发送至服务器,使得服务器在接收到文本转换请求后,可以进行后续的处理。
在其中一个实施例中,待生成的文本数据以及原始文本数据均可以是医疗数据,例如可以包括个人健康档案、处方、检查报告等。
在其中一个实施例中,待生成的文本数据以及原始文本数据可以为医疗文本,医疗文本可以是医疗电子记录(Electronic Healthcare Record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。
步骤S204,基于文本结构信息,确定文本条目以及各文本条目之间的层级结构。
其中,文本条目是指需要从原始文本数据中提取的条目,例如,如前文所述的职务、姓名、基本信息以及历任等条目。层级结构是指文本条目与文本条目之间的层级结构,例如,职务位于第一层级、姓名位于第二层级、基本信息以及历任位于第三层级等。
在本实施例中,服务器可以基于获取到的文本结构信息,确定待提取或者是待转换的各文本条目以及层级结构,并进行后续的处理。
步骤S206,根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型。
在本实施例中,服务器可以根据获取到的文本条目以及层级结构,构建文本转换模型。
具体地,服务器可以根据各文本条目以及层级结构,构建树状结构的提取文本转换模型,并用于对原始文本数据进行转换。在某一具体实现中,文本转换模型如图3所示。
步骤S208,将原始文本数据输入文本转换模型中,生成结构化的文本数据。
具体地,服务器可以将原始文本数据输入构建的文本转换模型中,并通过文本转换模型从原始文本数据中提取出对应的文本内容,并进行结构化的存储,以得到结构化的文本数据。
在其中一个实施例中,服务器在获取文本转换请求后,基于文本转换请求,确定需要从获取到的原始文本数据中提取某企业的董监高以及实控人的信息,则服务器可以基于请求中携带的结构信息以及文本条目,构建如上图所述的树状模型,即文本转换模型。
进一步,服务器可以通过构建的文本转换模型对原始文本数据进行数据提取,并进行转换,以生成对应的文本数据,生成的文本数据可以如下表一所示。
表一 结构化的文本数据
Figure BDA0003282340950000061
上述基于人工智能的文本内容转换方法中,通过接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据,然后基于文本结构信息,确定文本条目以及各文本条目之间的层级结构,并根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型,进一步将原始文本数据输入文本转换模型中,生成结构化的文本数据。从而,可以基于用户的实际需求进行文本转换模型的构建以及进行文本内容的提取,可以提升文本内容的转换效率。并且,基于用户需求进行模型的搭建并进行转换,使得可以按照各用户的需求进行转换,可以提升转换的准确性。
在其中一个实施例中,根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型,可以包括:确定对应各文本条目的数据提取单元,各数据提取单元中配置有参数数据;基于层级结构,确定各数据提取单元之间的连接关系;根据各连接关系以及各数据提取单元,生成对应文本转换请求的文本转换模型。
具体地,服务器可以根据文本转换请求中携带的各文本条目,确定对应各文本条目的数据提取单元。例如,服务器可以基于用户指示,预先设置对应数据提取单元库,在后续进行转换的时候,根据文本条目,如条目标识或者是条目名称等,从数据提取单元库中选取并确定对应各文本条目的数据提取单元。
在本实施例中,各数据提取单元中可以包括对应的参数数据,例如,可以是正则表达式的参数数据等,以用于后续生成文本转换模型后,基于参数数据进行文本内容的提取以及转换。
在本实施例中,服务器可以基于请求中携带的层级结构,确定对应文本条目的数据提取模块之间的连接关系,例如,继续参考图3,服务器可以基于层级结构,确定董事、监事、高管对应的数据提取单元之间存在着并列的连接关系,而董监高数据提取单元与董事、监事、高管对应的数据提取单元之间存在着上下级或者是前后级的连接关系。
进一步,服务器可以基于连接关系以及各数据提取单元,生成对应的文本转换模型。例如,继续参考图3,服务器在确定各数据提取单元之间的连接关系后,可以根据连接关系,对各数据提取单元进行连接,以形成如图3所示的树状的文本提取模型。
在其中一个实施例中,服务器也可以基于用户的指示,从数据提取单元库中选取对应的数据提取单元,并通过连接线连接数据提取单元与数据提取单元,生成文本提取模型,从而可以按照用户的指示,任意进行文本提取模型的搭建,简化了模型的搭建流程,可以提升文本转化的效率。
上述实施例中,通过基于数据提取单元,并基于确定的连接关系进行模型的构建,相比于传统方式中通过深度学习模型等进行文本内容的转换,本申请方案可以简化模型的搭建流程,减少系统资源的耗费。
在其中一个实施例中,参数数据可以包括定位参数以及提取参数。
其中,定位参数用于进行定位,提取参数用于进行数据提取,其均可以是正则表达式。
在本实施例中,将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:基于定位参数,从原始文本数据中定位待提取的文本内容;根据提取参数从原始文本数据中提取出定位到的文本内容;将提取到的文本内容按照层级结构进行存储,得到结构化的文本数据。
在本实施例中,服务器在构建好文本转换模型之后,可以通过文本转换模型中的各数据提取单元中的定位参数,对各文本条目对应的数据进行定位,基于提取参数进行文本内容的提取。例如,服务器可以基于董事数据提取模块,定位到董事对应的数据内容,如董事对应的姓名、年龄以及履历或者历任等,然后根据对应的提取参数提取对应的文本内容,如提取董事的姓名为“张三”,年龄为“50”,性别为“男”以及对应的履历数据等。
进一步,服务器可以基于提取到的文本内容,按照层级结构进行存储,以生成结构化的文本数据。
在其中一个实施例中,将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:通过文本转换模型确定对应目标文本条目的表格数据;基于表格数据的表头信息以及侧栏信息,确定对应目标文本条目的目标单元格;获取目标单元格内的单元格数据,得到对应文本条目的文本内容,并生成结构化的文本数据。
如前文所述,文本条目可以包括职务、姓名、基本信息以及历任等条目,从另一个维度,文本条目可以包括标题、段落、句子或者表格等相对应的条目。
在本实施例中,当文本条目对应的文本内容为表格中的数据时,服务器可以基于文本转换模型,定位到表格数据,然后确定表格的表头信息以及侧栏信息,进而基于文本条目从表格数据中确定对应的目标单元格,并获取到对应的单元格数据。
例如,参考下表二,表头信息包括2021/2020/2019/2018等,侧栏信息包括收入、支出、结余、汇总等。目标文本条目为“2020年的结余”。则服务器可以根据侧栏信息以及表头信息,定位到对应“2020年的结余”的目标单元格,并获取到目标单元格的数据,即“227”,从而以得到对应文本条目的文本内容。
表二
Figure BDA0003282340950000081
Figure BDA0003282340950000091
在其中一个实施例中,将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:通过文本转换模型,获取目标文本条目对应的原始文本内容;基于目标文本条目,生成对应的问句信息;根据问句信息,从目标文本条目对应的原始文本内容中确定答复信息;将答复信息作为对应目标文本条目的文本内容,并生成结构化的文本数据。
在本实施例中,对于某个文本条目,服务器不一定能直接获取到对应的文本内容,则服务器可以通过设置问答方式获取到对应的数据。例如,目标文本条目为“2019的政府补贴”,原始文本数据中对应的文本内容为“2018至2020年的政务补贴分别为111、222、333”,则服务器无法直接获取到对应目标文本条目为“2019的政府补贴”的文本内容。
在本实施例中,服务器可以根据目标文本条目,生成对应的问句信息,例如,根据“2019的政府补贴”生成问句信息“2019的政府补贴是多少?”,然后基于对问句信息进行语义识别以及通过对定位到的原始文本数据中文本内容“2018至2020年的政务补贴分别为111、222、333”进行语义识别,确定对应的答案为“222”。然后,服务器可以将确定的生成对应的答复信息“222”,以使得服务器可以准确确定对应文本条目的文本内容。
在本实施例中,通过问答方式确定对应文本条目的文本内容可以是在基于实体提取、表格提取等进行处理后才进行的,即在通过普通的正则表达式等无法获取到对应文本条目的文本内容后才进行的处理。
上述实施例中,通过设置问答的方式得到文本数据,使得可以通过问答的方式获取到通过正则表达式无法直接获取到的数据,可以保障获取到的数据的完整性,进而可以提升获取到的数据的准确性。
在其中一个实施例中,上述方法还可以包括:将接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据中的至少一个上传至区块链节点中进行存储。
其中,区块链是指分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
具体地,区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例中,服务器可以将接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据中的一个或者多个数据上传并存储于区块链的节点中,以保证数据的私密性和安全性。
上述实施例中,通过将接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据中至少一个上传至区块链并存储于区块链的节点中,从而可以保障存储至区块链节点中数据的私密性,可以提升数据的安全性。
在其中一个实施例中,上述数据处理过程可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于人工智能的文本内容转换装置,包括:文本转换请求接收模块100、确定模块200、模型构建模块300以及生成模块400,其中:
文本转换请求接收模块100,用于接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据。
确定模块200,用于基于文本结构信息,确定文本条目以及各文本条目之间的层级结构。
模型构建模块300,用于根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型。
生成模块400,用于将原始文本数据输入文本转换模型中,生成结构化的文本数据。
在其中一个实施例中,模型构建模块300,可以包括:
数据提取单元确定子模块,用于确定对应各文本条目的数据提取单元,各数据提取单元中配置有参数数据。
连接关系确定子模块,用于基于层级结构,确定各数据提取单元之间的连接关系。
模型生成模块,用于根据各连接关系以及各数据提取单元,生成对应文本转换请求的文本转换模型。
在其中一个实施例中,参数数据可以包括定位参数以及提取参数。
在本实施例中,生成模块400,可以包括:
定位子模块,用于基于定位参数,从原始文本数据中定位待提取的文本内容。
提取子模块,用于根据提取参数从原始文本数据中提取出定位到的文本内容。
存储子模块,用于将提取到的文本内容按照层级结构进行存储,得到结构化的文本数据。
在其中一个实施例中,生成模块400,可以包括:
表格数据确定子模块,用于通过文本转换模型确定对应目标文本条目的表格数据。
单元各确定子模块,用于基于表格数据的表头信息以及侧栏信息,确定对应目标文本条目的目标单元格。
第一生成子模块,用于获取目标单元格内的单元格数据,得到对应文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,生成模块400,可以包括:
原始文本内容获取子模块,用于通过文本转换模型,获取目标文本条目对应的原始文本内容。
问句信息生成子模块,用于基于目标文本条目,生成对应的问句信息。
答复信息确定子模块,用于根据问句信息,从目标文本条目对应的原始文本内容中确定答复信息。
第二生成子模块,用于将答复信息作为对应目标文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,上述装置还可以包括:
存储模块,用于将接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据中的至少一个上传至区块链节点中进行存储。
关于基于人工智能的文本内容转换装置的具体限定可以参见上文中对于基于人工智能的文本内容转换方法的限定,在此不再赘述。上述基于人工智能的文本内容转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的文本内容转换方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据;基于文本结构信息,确定文本条目以及各文本条目之间的层级结构;根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型;将原始文本数据输入文本转换模型中,生成结构化的文本数据。
在其中一个实施例中,处理器执行计算机程序时实现根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型,可以包括:确定对应各文本条目的数据提取单元,各数据提取单元中配置有参数数据;基于层级结构,确定各数据提取单元之间的连接关系;根据各连接关系以及各数据提取单元,生成对应文本转换请求的文本转换模型。
在其中一个实施例中,参数数据可以包括定位参数以及提取参数。
在本实施例中,处理器执行计算机程序时实现将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:基于定位参数,从原始文本数据中定位待提取的文本内容;根据提取参数从原始文本数据中提取出定位到的文本内容;将提取到的文本内容按照层级结构进行存储,得到结构化的文本数据。
在其中一个实施例中,处理器执行计算机程序时实现将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:通过文本转换模型确定对应目标文本条目的表格数据;基于表格数据的表头信息以及侧栏信息,确定对应目标文本条目的目标单元格;获取目标单元格内的单元格数据,得到对应文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,处理器执行计算机程序时实现将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:通过文本转换模型,获取目标文本条目对应的原始文本内容;基于目标文本条目,生成对应的问句信息;根据问句信息,从目标文本条目对应的原始文本内容中确定答复信息;将答复信息作为对应目标文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,处理器执行计算机程序时还可以实现以下步骤:将接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据中的至少一个上传至区块链节点中进行存储。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收文本转换请求,文本转换请求中携带有文本结构信息以及原始文本数据;基于文本结构信息,确定文本条目以及各文本条目之间的层级结构;根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型;将原始文本数据输入文本转换模型中,生成结构化的文本数据。
在其中一个实施例中,计算机程序被处理器执行时实现根据各文本条目以及层级结构,构建对应文本转换请求的文本转换模型,可以包括:确定对应各文本条目的数据提取单元,各数据提取单元中配置有参数数据;基于层级结构,确定各数据提取单元之间的连接关系;根据各连接关系以及各数据提取单元,生成对应文本转换请求的文本转换模型。
在其中一个实施例中,参数数据可以包括定位参数以及提取参数。
在本实施例中,计算机程序被处理器执行时实现将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:基于定位参数,从原始文本数据中定位待提取的文本内容;根据提取参数从原始文本数据中提取出定位到的文本内容;将提取到的文本内容按照层级结构进行存储,得到结构化的文本数据。
在其中一个实施例中,计算机程序被处理器执行时实现将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:通过文本转换模型确定对应目标文本条目的表格数据;基于表格数据的表头信息以及侧栏信息,确定对应目标文本条目的目标单元格;获取目标单元格内的单元格数据,得到对应文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,计算机程序被处理器执行时实现将原始文本数据输入文本转换模型中,生成结构化的文本数据,可以包括:通过文本转换模型,获取目标文本条目对应的原始文本内容;基于目标文本条目,生成对应的问句信息;根据问句信息,从目标文本条目对应的原始文本内容中确定答复信息;将答复信息作为对应目标文本条目的文本内容,并生成结构化的文本数据。
在其中一个实施例中,计算机程序被处理器执行时还可以实现以下步骤:将接收文本转换请求、文本结构信息、原始文本数据、层级结构、文本条目以及文本数据中的至少一个上传至区块链节点中进行存储。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于人工智能的文本内容转换方法,其特征在于,所述方法包括:
接收文本转换请求,所述文本转换请求中携带有文本结构信息以及原始文本数据;
基于所述文本结构信息,确定文本条目以及各文本条目之间的层级结构;
根据各所述文本条目以及所述层级结构,构建对应所述文本转换请求的文本转换模型;
将所述原始文本数据输入所述文本转换模型中,生成结构化的文本数据。
2.根据权利要求1所述的方法,其特征在于,所述根据各所述文本条目以及所述层级结构,构建对应所述文本转换请求的文本转换模型,包括:
确定对应各所述文本条目的数据提取单元,各所述数据提取单元中配置有参数数据;
基于所述层级结构,确定各所述数据提取单元之间的连接关系;
根据各所述连接关系以及各所述数据提取单元,生成对应所述文本转换请求的文本转换模型。
3.根据权利要求2所述的方法,其特征在于,所述参数数据包括定位参数以及提取参数;
所述将所述原始文本数据输入所述文本转换模型中,生成结构化的文本数据,包括:
基于所述定位参数,从所述原始文本数据中定位待提取的文本内容;
根据所述提取参数从所述原始文本数据中提取出定位到的所述文本内容;
将提取到的所述文本内容按照所述层级结构进行存储,得到结构化的文本数据。
4.根据权利要求1所述的方法,其特征在于,所述将所述原始文本数据输入所述文本转换模型中,生成结构化的文本数据,包括:
通过所述文本转换模型确定对应目标文本条目的表格数据;
基于所述表格数据的表头信息以及侧栏信息,确定对应所述目标文本条目的目标单元格;
获取所述目标单元格内的单元格数据,得到对应所述文本条目的文本内容,并生成结构化的文本数据。
5.根据权利要求1所述的方法,其特征在于,所述将所述原始文本数据输入所述文本转换模型中,生成结构化的文本数据,包括:
通过所述文本转换模型,获取目标文本条目对应的原始文本内容;
基于所述目标文本条目,生成对应的问句信息;
根据所述问句信息,从所述目标文本条目对应的原始文本内容中确定答复信息;
将所述答复信息作为对应所述目标文本条目的文本内容,并生成结构化的文本数据。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
将所述接收文本转换请求、所述文本结构信息、所述原始文本数据、所述层级结构、所述文本条目以及所述文本数据中的至少一个上传至区块链节点中进行存储。
7.一种基于人工智能的文本内容转换装置,其特征在于,所述装置包括:
文本转换请求接收模块,用于接收文本转换请求,所述文本转换请求中携带有文本结构信息以及原始文本数据;
确定模块,用于基于所述文本结构信息,确定文本条目以及各文本条目之间的层级结构;
模型构建模块,用于根据各所述文本条目以及所述层级结构,构建对应所述文本转换请求的文本转换模型;
生成模块,用于将所述原始文本数据输入所述文本转换模型中,生成结构化的文本数据。
8.根据权利要求7所述的装置,其特征在于,所述模型构建模块,包括:
数据提取单元确定子模块,用于确定对应各所述文本条目的数据提取单元,各所述数据提取单元中配置有参数数据;
连接关系确定子模块,用于基于所述层级结构,确定各所述数据提取单元之间的连接关系;
模型生成模块,用于根据各所述连接关系以及各所述数据提取单元,生成对应所述文本转换请求的文本转换模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5或6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5或6中任一项所述的方法的步骤。
CN202111136864.2A 2021-09-27 2021-09-27 基于人工智能的文本内容转换方法、装置、设备和介质 Pending CN113779937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136864.2A CN113779937A (zh) 2021-09-27 2021-09-27 基于人工智能的文本内容转换方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136864.2A CN113779937A (zh) 2021-09-27 2021-09-27 基于人工智能的文本内容转换方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113779937A true CN113779937A (zh) 2021-12-10

Family

ID=78853837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136864.2A Pending CN113779937A (zh) 2021-09-27 2021-09-27 基于人工智能的文本内容转换方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113779937A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287461A (zh) * 2019-05-24 2019-09-27 北京百度网讯科技有限公司 文本转换方法、装置及存储介质
CN110866110A (zh) * 2019-09-20 2020-03-06 平安科技(深圳)有限公司 基于人工智能的会议纪要生成方法、装置、设备及介质
CN110955714A (zh) * 2019-12-03 2020-04-03 中国银行股份有限公司 一种将非结构化文本转化为结构化文本的方法及装置
CN111191079A (zh) * 2019-12-25 2020-05-22 中国平安财产保险股份有限公司 一种文档内容获取方法、装置、设备及存储介质
CN111709229A (zh) * 2020-06-16 2020-09-25 平安科技(深圳)有限公司 基于人工智能的文本生成方法、装置、计算机设备和介质
US20210141778A1 (en) * 2019-11-11 2021-05-13 Aveva Software, Llc Computerized system and method for electronically generating a dynamically visualized hierarchical representation of electronic information
CN112966040A (zh) * 2021-03-29 2021-06-15 深圳市优必选科技股份有限公司 一种转换数据结构的方法、装置、终端以及存储介质
CN113343646A (zh) * 2021-06-21 2021-09-03 杭州数梦工场科技有限公司 数据转换方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287461A (zh) * 2019-05-24 2019-09-27 北京百度网讯科技有限公司 文本转换方法、装置及存储介质
CN110866110A (zh) * 2019-09-20 2020-03-06 平安科技(深圳)有限公司 基于人工智能的会议纪要生成方法、装置、设备及介质
US20210141778A1 (en) * 2019-11-11 2021-05-13 Aveva Software, Llc Computerized system and method for electronically generating a dynamically visualized hierarchical representation of electronic information
CN110955714A (zh) * 2019-12-03 2020-04-03 中国银行股份有限公司 一种将非结构化文本转化为结构化文本的方法及装置
CN111191079A (zh) * 2019-12-25 2020-05-22 中国平安财产保险股份有限公司 一种文档内容获取方法、装置、设备及存储介质
CN111709229A (zh) * 2020-06-16 2020-09-25 平安科技(深圳)有限公司 基于人工智能的文本生成方法、装置、计算机设备和介质
CN112966040A (zh) * 2021-03-29 2021-06-15 深圳市优必选科技股份有限公司 一种转换数据结构的方法、装置、终端以及存储介质
CN113343646A (zh) * 2021-06-21 2021-09-03 杭州数梦工场科技有限公司 数据转换方法和装置

Similar Documents

Publication Publication Date Title
CN111859986B (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
WO2021114810A1 (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN110504028A (zh) 一种疾病问诊方法、装置、系统、计算机设备和存储介质
CN109446302A (zh) 基于机器学习的问答数据处理方法、装置和计算机设备
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
CN112016274B (zh) 医学文本结构化方法、装置、计算机设备及存储介质
CN112231224A (zh) 基于人工智能的业务系统测试方法、装置、设备和介质
CN112035611B (zh) 目标用户推荐方法、装置、计算机设备和存储介质
CN110362542B (zh) 核电站文件编码方法、装置、计算机设备和存储介质
CN111709229B (zh) 基于人工智能的文本生成方法、装置、计算机设备和介质
CN111858467A (zh) 基于人工智能的文件数据处理方法、装置、设备和介质
CN112632139A (zh) 基于pmis系统的信息推送方法、装置、计算机设备和介质
CN113886550A (zh) 基于注意力机制的问答匹配方法、装置、设备及存储介质
CN112035614A (zh) 测试集生成方法、装置、计算机设备和存储介质
CN112988997A (zh) 智能客服的应答方法、系统、计算机设备及存储介质
CN110866637A (zh) 评分预测方法、装置、计算机设备和存储介质
CN113420203B (zh) 对象推荐方法、装置、电子设备及存储介质
CN114238715A (zh) 基于社会救助的问答系统、构建方法、计算机设备及介质
CN113051372A (zh) 材料数据的处理方法、装置、计算机设备和存储介质
CN116796758A (zh) 对话交互方法、对话交互装置、设备及存储介质
CN110647350A (zh) 接口文档生成方法、装置、计算机设备和存储介质
CN113268563B (zh) 基于图神经网络的语义召回方法、装置、设备及介质
CN113779937A (zh) 基于人工智能的文本内容转换方法、装置、设备和介质
US20230259507A1 (en) Systems, methods, and media for retrieving an entity from a data table using semantic search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211210